CN101617227B - 遗传分析系统和方法 - Google Patents

遗传分析系统和方法 Download PDF

Info

Publication number
CN101617227B
CN101617227B CN2007800500195A CN200780050019A CN101617227B CN 101617227 B CN101617227 B CN 101617227B CN 2007800500195 A CN2007800500195 A CN 2007800500195A CN 200780050019 A CN200780050019 A CN 200780050019A CN 101617227 B CN101617227 B CN 101617227B
Authority
CN
China
Prior art keywords
phenotype
individuality
individual
genome atlas
genotype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007800500195A
Other languages
English (en)
Other versions
CN101617227A (zh
Inventor
D·A·斯坦芬
M·F·菲利普庞
J·韦塞尔
M·卡吉尔
E·哈尔佩里恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Navigenics Inc
Original Assignee
Navigenics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/781,679 external-priority patent/US20080131887A1/en
Application filed by Navigenics Inc filed Critical Navigenics Inc
Priority to CN201310565723.1A priority Critical patent/CN103642902B/zh
Priority claimed from PCT/US2007/086138 external-priority patent/WO2008067551A2/en
Publication of CN101617227A publication Critical patent/CN101617227A/zh
Application granted granted Critical
Publication of CN101617227B publication Critical patent/CN101617227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了通过评估个体的基因型与至少一种疾病或状态之间的相关性确定遗传综合指数评分的方法。该评估包括将个体的基因组图谱与已确认为与至少一种疾病或状态相关的医学相关遗传变异的数据库相比较。

Description

遗传分析系统和方法
背景技术
人类基因组测序和人类基因组学的其它最新进展已经揭示出,任何两个人之间的基因组组成具有超过99.9%的相似性。不同个体间DNA中相对较少量的变异是导致表型性状差异的原因,并且与许多人类疾病、对各种疾病的易感性和对疾病治疗的反应有关。个体间DNA的变异发生在编码区和非编码区,并且包括基因组DNA序列中特定位点上碱基的变化,以及DNA的插入和缺失。发生在基因组中单个碱基位置上的变化称为单核苷酸多态性,或者“SNP”。
虽然在人类基因组中SNP相对稀少,但是其占到个体间DNA序列变异的大部分,在人类基因组中大约每1,200个碱基对发生一个SNP(参见International HapMap Project,www.hapmap.org)。由于可获得更多的人类遗传信息,SNP的复杂性开始为人所了解。随之,基因组中SNP的发生与多种疾病和状态的存在和/或易感性发生关联。
由于获得这些相关性和人类遗传学上的其它进展,一般而言医疗和个人保健正向着个性化的途径发展,其中患者将在其它因素以外考虑他或她的基因组信息的情况下作出适当的医疗选择和其它选择。因此,就需要向个人和他们的保健提供者提供特定于该个体的个人基因组的信息,从而提供个性化医疗和其它决策。
发明内容
本发明提供了一种评估个体的基因型相关性的方法,该方法包括:a)获得该个体的遗传样品,b)生成该个体的基因组图谱,c)通过将该个体的基因组图谱与人类基因型和表型的相关性的当前数据库相比较,确定该个体基因型与表型的相关性,d)向该个体或该个体的保健管理者报告由步骤c)得到的结果,e)当已知附加的人类基因型相关性时,用该附加的人类基因型相关性更新人类基因型相关性数据库,f)通过将由步骤c)得到的该个体的基因组图谱或其一部分与附加的人类基因型相关性相比较而更新该个体的基因型相关性,并确定该个体的附加基因型相关性,和g)向该个体或该个体的保健管理者报告由步骤f)得到的结果。
本发明进一步提供了一种评估个体的基因型相关性的商业方法,该方法包括:a)获得该个体的遗传样品;b)生成该个体的基因组图谱,c)通过将该个体的基因组图谱与人类基因型相关性数据库相比较确定该个体的基因型相关性;d)以加密的方式向该个体提供确定个体的基因型相关性的结果;e)当已知附加的人类基因型相关性时,用该附加的人类基因型相关性更新人类基因型相关性数据库;f)通过将该个体的基因组图谱或其一部分与附加的人类基因型相关性相比较而更新该个体的基因型相关性,并确定该个体的附加基因型相关性;和g)向该个体或该个体的保健管理者提供更新该个体的基因型相关性的结果。
本发明的另一方面是一种生成个体的表型谱的方法,该方法包括:a)提供包括规则的规则集(rule set),各条规则表明至少一种基因型与至少一种表型之间的相关性,b)提供包括多个个体中各个个体的基因组图谱的数据集,其中各个基因组图谱包括多种基因型;c)用至少一条新规则定期更新该规则集,其中该至少一条新规则表明先前在规则集中未彼此关联的基因型与表型之间的相关性;d)将各条新规则应用于至少一个个体的基因组图谱,从而使该个体的至少一种基因型与至少一种表型相关联,并且任选地,e)生成包括该个体的表型谱的报告。
本发明还提供了一种系统,该系统包括:a)包括规则的规则集,各条规则表明至少一种基因型与至少一种表型之间的相关性;b)用至少一条新规则定期更新该规则集的代码,其中该至少一条新规则表明先前在规则集中未彼此关联的基因型与表型之间的相关性;c)包括多个个体的基因组图谱的数据库;d)将该规则集应用于个体的基因组图谱以确定个体的表型谱的代码;和e)生成各个体的报告的代码。
本发明的另一方面是在上述的方法和系统中以加密或不加密的方式通过网络进行传输。
引入的参考内容
在说明书中提及的所有出版物和专利申请在此引入作为参考,正如各单个出版物或专利申请特别地和单独地说明引入作为参考一样。
附图说明
图1为举例说明本发明的方法方面的流程图。
图2为基因组DNA质量控制措施的实例。
图3为杂交质量控制措施的实例。
图4为来自具有测试的SNP和效应评价的公开文献的典型基因型相关性的表。A-I)表示单个基因座的基因型相关性;J)表示两个基因座的基因型相关性;K)表示三个基因座的基因型相关性;L)为A-K中使用的种族和国家缩写的索引;M)为A-K中的表型名称缩写(ShortPhenotype Name)缩写的索引、遗传率和遗传率的参考文献。
图5A-J为具有效应评价的典型基因型相关性的表。
图6A-F为典型基因型相关性和估计的相对危险度的表。
图7为示例报告。
图8为用于分析和通过网络传输基因组图谱和表型谱的系统的图解。
图9为举例说明本发明的商业方法方面的流程图。
图10:流行度(prevalence)评价对相对风险评估的效应。假定哈迪-温伯格平衡(Hardy-Weinberg Equilibrium)的情况下,各曲线对应于群体中等位基因频率的不同数值。两条黑线对应于9和6的优势比,两条红线对应于6和4的优势比,以及两条蓝线对应于3和2的优势比。
图11:等位基因频率评价对相对风险评估的效应。各曲线对应于群体中流行度的不同数值。两条黑线对应于9和6的优势比,两条红线对应于6和4的优势比,以及两条蓝线对应于3和2的优势比。
图12:不同模型的绝对值的配对比较。
图13:基于不同模型的等级值(GCI评分)的配对比较。表2中给出了不同对之间的Spearman相关性。
图14:流行度报告对GCI评分的效应。任何两个流行度值之间的Spearman相关性为至少0.99。
图15:为来自个人入口的示例网页的图。
图16:为说明个人患前列腺癌的风险的来自个人入口的示例网页的图。
图17:为说明个人患克罗恩氏病的风险的来自个人入口的示例网页的图。
图18:为使用2个SNP的基于HapMAP的多发性硬化症的GCI评分的柱状图。
图19:为使用GCI Plus的多发性硬化症的个体终生风险。
图20:为克罗恩氏病的GCI评分的柱状图。
图21:为多基因座相关性的表。
图22:为SNP和表型相关性的表。
图23:为表型和流行度的表。
图24:为图21、22和25中缩写的词汇表。
图25:为SNP和表型相关性的表。
具体实施方式
本发明提供基于个体或个体组的存储基因组图谱生成表型谱,以及基于存储的基因组图谱方便地生成原始的和更新的表型谱的方法和系统。通过由得自个体的生物样品确定基因型而生成基因组图谱。从个体获得的生物样品可以是可由其得到遗传样品的任何样品。样品可以来自口腔拭子、唾液、血液、头发或者任何其它类型的组织样品。然后可以由生物样品确定基因型。基因型可以是任何遗传性变型或者生物标志物,例如,单核苷酸多态性(SNPs)、单体型(haplotype))或者基因组的序列。基因型可以是个体的全部基因组序列。基因型可以由产生数千或者数百万的数据点的高流通量分析得到,例如,用于大多数或所有已知SNP的微阵列分析。在其它实施方式中,基因型也可以由高流通量测序确定。
基因型形成个体的基因组图谱。基因组图谱进行数字存储并且很容易在任何时间点进行访问以生成表型谱。通过应用使基因型与表型相关联或结合的规则生成表型谱。规则可以基于表明基因型与表型之间的相关性的科学研究制定。相关性可以由一个或多个专家组成的委员会进行验证(curate)或者确认。通过将规则应用于个体的基因组图谱,可以确定个体的基因型和表型之间的关联。个体的表型谱将具有这种确定性。该确定可以是个体的基因型与给定的表型之间的正相关,从而该个体具有给定的表型或者将产生该表型。或者,可以确定个体不具有或者将不产生给定的表型。在其它实施方式中,该确定可以是危险因子、估计值或者个体具有或将产生表型的概率。
可以基于多种规则进行确定,例如,可以将多种规则应用于基因组图谱以确定个体基因型与特定表型的关联。确定过程也可以包括特定于个体的因素,例如种族、性别、生活方式(例如,饮食和锻炼习惯)、年龄、环境(例如,居住位置)、家族病史、个人病史和其它已知表型。特定因素的并入可以通过修正现有的规则来包括这些因素。或者,可以由这些因素生成单独的规则并且在已经应用现有规则之后将其应用于个体的表型确定。
表型可以包括任何可测定的性状或者特性,例如对于某种疾病的易感性或者对于药物治疗的反应。可以包括的其它表型是躯体和精神性状,例如,身高、体重、头发颜色、眼睛颜色、晒斑敏感性、尺码、记忆力、智力、乐观程度、整体性情。表型也可以包括与其他个体或生物体的遗传比较。例如,个体可能对他们的基因组图谱与名人的基因组图谱之间的相似性感兴趣。他们也可能使他们的基因图谱与其它有机体(例如细菌、植物或其它动物)进行比较。
总之,对于个体所确定的相关表型的集合组成该个体的表型谱。表型谱可以通过在线入口访问。或者,表型谱可以按照在特定时间存在的形式以纸件形式提供,后续的更新也以纸件形式提供。表型谱也可以通过在线入口提供。该在线入口可以任选地为加密的在线入口。表型谱的访问权可以提供给注册用户,该注册用户为订制生成表型与基因型之间的相关性的规则、确定个体的基因组图谱、将规则应用于基因组图谱和生成个体的表型谱的服务的个体。访问权也可以提供给非注册用户,其中他们可以具有访问他们的表型谱和/或报告的有限权限,或者可以允许生成初始报告或表型谱,但是只有通过付费订制才生成更新的报告。保健管理者和提供者,例如护理人员、医生和遗传顾问也可以具有表型谱的访问权。
在本发明的另一方面中,可以为注册用户和非注册用户生成基因组图谱,并且进行数字存储,但是对于表型谱和报告的访问可以限于注册用户。在另一变型中,注册用户和非注册用户都可以访问其基因型和表型谱,但是非注册用户具有受限制的访问权限或者允许生成有限的报告,然而注册用户具有完整的访问权限并且可以允许生成完整报告。在另一实施方式中,注册用户和非注册用户最初可以具有完全的访问权限或者完整的初始报告,但仅注册用户可以访问基于其存储的基因组图谱更新的报告。
在本发明的另一方面中,组合并分析了关于多种遗传标记与一种或多种疾病或状态的关联的信息以获得遗传综合指数(geneticcomposite index)(GCI)评分。这一评分包括了已知的危险因子以及其它信息和假设,例如,等位基因频率和疾病的流行度。GCI可以用于定量评估疾病或者状态与一系列遗传标记的综合效应的关联。GCI评分可以用于基于现有科学研究向未受过遗传学训练的人提供有关与相关群体相比其个体患病风险的可靠的(例如,稳固的)、可理解的和/或直观的认识。GCI评分可以用于生成GCI Plus评分。GCI Plus评分可以包括所有GCI假设,该假设包括状态的风险(例如,终生风险)、年龄限定的流行度和/或年龄限定的发病率。然后个体的终生风险可以计算为与个体GCI评分除以平均GCI评分成比例的GCI Plus评分。平均GCI评分可以由具有相似家系背景的个体组确定,例如一组高加索人、亚洲人、东印度人或者其他具有共同家系背景的组。所述组可以由至少5、10、15、20、25、30、35、40、45、50、55或60个个体组成。在某些实施方式中,平均GCI评分可以由至少75、80、95或100个个体确定。GCI Plus评分可以通过确定个体的GCI评分,用平均相对风险去除该GCI评分,并乘以状态或表型的终生风险来确定。例如,使用来自图22和/或图25的数据以及图24中的信息计算GCI Plus评分,例如图19中。
本发明包括使用在此描述的GCI评分,并且本领域技术人员很容易认识到GCI Plus评分或其变型取代在此描述的GCI评分的用途。
在一个实施方式中,对于各感兴趣的疾病或者状态生成GCI评分。可以集中这些GCI评分以形成个体的风险分布图(risk profile)。可以对该GCI评分进行数字存储以便它们可以在任何时间点方便地进行访问以生成风险分布图。风险分布图可以按照大的疾病分类进行分解,例如,癌症、心脏病、代谢紊乱、精神紊乱、骨病或者老年病(age on-set disorder)。大的疾病分类可以进一步被分解成子类。例如,对于如癌症的大的分类,可以例如按类型(肉瘤、癌瘤或者白血病等)或者按组织特异性(神经、乳腺、卵巢、睾丸、前列腺、骨、淋巴结、胰腺、食道、胃、肝、脑、肺、肾等)列出癌症的子类。
在另一实施方式中,生成个体的GCI评分,其提供容易理解的关于个体获得至少一种疾病或状态的风险或对于至少一种疾病或状态的易感性的信息。在一个实施方式中,对于不同的疾病或状态生成多项GCI评分。在另一实施方式中,可以通过在线入口访问至少一项GCI评分。或者,可以以纸件形式提供至少一项GCI评分,后续的更新也以纸件形式提供。在一个实施方式中,向注册用户提供对于至少一项GCI评分的访问,该注册用户是预订服务的个体。在一个替代的实施方式中,向非注册用户提供访问权限,其中他们可以具有访问他们的GCI评分中的至少一项的受限的访问权限,或者他们可以允许生成他们的GCI评分中的至少一项的初始报告,但是仅通过付费订制才生成更新的报告。在另一实施方式中,保健管理者和提供者,例如护理人员、医生和遗传顾问,也可以具有访问个体GCI评分中的至少一项的权限。
这里也可以有基本注册模式。基本注册可以提供表型谱,其中注册用户可以选择将所有现有规则应用于他们的基因组图谱,或者将现有规则的子集应用于他们的基因组图谱。例如,他们可以选择仅应用可处置(actionable)的疾病表型的规则。基本注册可以在注册等级内具有不同水平。例如,不同的水平可以取决于注册用户想要与他们的基因组图谱关联的表型数目,或者取决于可以访问他们的表型谱的人员的数目。基本注册的另一水平可以将特定于个体的因素,例如早已知道的表型(如年龄、性别或者病史)并入他们的表型谱。基本注册的再另一个水平可以允许个体生成对于疾病或状态的至少一项GCI评分。如果由于用于生成至少一项GCI评分的分析中的变化而导致至少一项GCI评分的任何变化,这一水平的变型形式可以进一步允许个体指定生成对于疾病或者状态的至少一项GCI评分的自动更新。在一些实施方式中,可以通过电子邮件、语音信息、文本信息、邮递或传真向个体通告自动更新。
注册用户也可以生成具有他们的表型谱以及关于表型的信息(例如关于表型的遗传和医疗信息)的报告。例如,报告中可以包括群体中表型的流行度、用于相关性的遗传性变型、引起表型的分子机制、对于表型的治疗方法、对于表型的治疗选择和预防性行动。在其它实施方式中,报告还可以包括例如个体的基因型与其他个体(如名人或者其他知名人士)的基因型之间的相似性的信息。关于相似性的信息可以是,但不限于同源性百分比、相同变异的数目和可能相似的表型。这些报告可以进一步包括至少一项GCI评分。
如果在线访问报告,则报告也可以提供连接到具有关于表型的进一步信息的其他位置的链接、连接到具有相同表型或者一个或多个相似表型的人的在线支持小组和留言板的链接、联系在线遗传顾问或医生的链接或者连接到安排遗传顾问或医师的电话或现场预约的链接。如果报告是纸件形式,则信息可以是上述链接的站点位置或者遗传顾问或医生的电话号码和地址。注册用户也可以选择哪些表型包括在他们的表型谱中和哪些信息包括在他们的报告中。表型谱和报告也可以被个体的保健管理者或提供者取得,例如护理人员、医生、精神病医生、心理学家、治疗专家或者遗传顾问。注册用户也能够选择是否表型谱和报告或者其部分内容由个人的保健管理者或提供者得到。
本发明也可以包括注册的高级水平(premium level)。注册的高级水平在生成初始表型谱和报告之后数字化地保持其基因组图谱,并且注册用户能够利用由最近的研究得到的更新的相关性生成表型谱和报告。在另一实施方式中,注册用户能够利用由最近的研究得到的更新的相关性生成风险分布图和报告。由于研究揭示出基因型与表型、疾病或者状态之间的新的相关性,基于这些新的相关性将产生新的规则,并且新的规则能够应用于已经存储和保持的基因组图谱。新的规则可以关联先前未与任何表型关联的基因型、使基因型与新的表型相关联、修正现有的相关性或者基于新发现的基因型与疾病或状态之间的关联提供调整GCI评分的基础。可以通过电子邮件或者其它电子方式告知注册用户新的相关性,并且如果是感兴趣的表型,他们可以选择用新的相关性更新他们的表型谱。注册用户可以选择为每次更新付费、为在指定时间期限(例如,3个月、6个月或者1年)内的多次更新或无限次更新付费的注册方式。另一注册水平可以是,无论何时基于新的相关性产生了新的规则,注册用户使他们的表型谱或者风险分布图自动地更新,而不是个体选择何时更新他们的表型谱或风险分布图。
在注册的另一方面,注册用户可以向非注册用户介绍以下服务:生成表型与基因型之间的相关性规则,确定个体的基因组图谱,将规则应用于基因组图谱,并且生成个体的表型谱。注册用户通过介绍可以使注册用户提到优惠的服务订制价格或者使其现有的注册升级。被介绍的个体可以在有限时间内免费访问或者享受折扣注册费用。
可以对于人类和非人类个体生成表型谱和报告以及风险分布图和报告。例如,个体可以包括其它哺乳动物,例如牛、马、羊、犬或者猫。如在此所使用的,注册用户是通过购买或支付一项或多项服务而订制服务的人类个体。服务可以包括,但不限于以下一种或者多种:确定他们自己或另一个体(例如注册用户的孩子或宠物)的基因组图谱;获得表型谱;更新表型谱和获得基于他们的基因组图谱和表型谱的报告。
在本发明的另一方面中,可以从个体聚集得出“区域部署(field-deployed)”机制以生成个体的表型谱。在优选实施方式中,个体可以具有基于遗传信息生成的初始表型谱。例如,生成包括对于不同表型的危险因子以及建议的治疗或预防措施的初始表型谱。例如,表型谱可以包括对于关于某一状态的可利用的药物治疗的信息和/或对于饮食变化或锻炼方案的建议。个体可以选择去看医生或遗传顾问或者通过网络入口或电话接触医生或遗传顾问以讨论他们的表型谱。个体可以决定采取某种行动路线,例如,采用特定的药物治疗、改变他们的饮食等。
而后,个体可以随后提交生物样品以评估其身体状态的变化和危险因子的可能变化。个体可以通过直接将生物样品提交给生成基因组图谱和表型谱的机构(或者相关机构,例如由生成遗传分布图和表型谱的实体定约的机构)确定该变化。或者,个体可以利用“区域部署”机制,其中个体可以将他们的唾液、血液或者其它生物样品提交到其家庭处的检测装置中,由第三方进行分析,且数据经传输以包括在另一表型谱中。例如,个体可以接收基于其遗传数据的初始表型报告从而向具有增大的心肌梗死(MI)终生风险的个体报告。该报告也可以具有预防措施的建议以降低MI的风险,例如降胆固醇药物和饮食改变。个体可以选择接触遗传顾问或医生以讨论该报告和预防措施并且决定改变他们的饮食。在采用新的饮食一段时间之后,个体可以去看他们的个人医生以测量其胆固醇水平。可以将新的信息(胆固醇水平)传送(例如,通过Internet)给具有基因组信息的实体,并且新的信息用于生成个体的新的表型谱,以及心肌梗死和/或其它状态的新的危险因子。
个体也可以使用“区域部署”机制或者直接机制以确定其对于具体药物治疗的个体反应。例如,个体可以测量其对于药物的反应,并且该信息可以用于确定更有效的治疗。可测定的信息包括,但不限于代谢产物水平、葡萄糖水平、离子水平(例如,钙、钠、钾、铁)、维生素、血细胞计数、体重指数(BMI)、蛋白质水平、转录物水平、心率等,这些信息能够通过容易利用的方法确定并且能够包括在算法中以与初始基因组图谱结合来确定修正的整体风险评估评分。
术语“生物样品”是指任何能够从个体分离的生物样品,其包括可以从中分离遗传物质的样品。正如在这里所使用的,“遗传样品”是指从个体得到的或源自个体的DNA和/或RNA。
正如这里所使用的,术语“基因组”用来表示在人体细胞的细胞核中发现的整套染色体DNA。术语“基因组DNA”是指自然存在于人体细胞的细胞核中的一个或多个染色体DNA分子,或者染色体DNA分子的一部分。
术语“基因组图谱”是指关于个体基因的一组信息,例如特定SNP或突变是否存在。基因组图谱包括个体的基因型。基因组图谱也可以是个体的基本完整基因组序列。在一些实施方式中,基因组图谱可以是个体完整基因组序列的至少60%、80%或95%的。基因组图谱可以是大约100%的个体完整基因组序列。在说到基因组图谱时,“其一部分”是指全基因组的基因组图谱的子集的基因组图谱。
术语“基因型”是指个体DNA的特定遗传组成。基因型可以包括个体的遗传性变型和遗传标记。遗传标记和遗传性变型可以包括核苷酸重复、核苷酸插入、核苷酸缺失、染色体易位、染色体重复或者拷贝数变异。拷贝数变异可以包括微卫星重复、核苷酸重复、着丝粒重复或者端粒重复。基因型也可以是SNP、单体型或者双体型(diplotype)。单体型可以指基因座或者等位基因。单体型也可以称为统计学上关联的单个染色单体上的一组单核苷酸多态性(SNP)。双体型为一组单体型。
术语单核苷酸多态性或者“SNP”是指在染色体上相对于存在于人类种群中一基因座上的含氮胆碱的同一性表现出变异(例如至少1个百分点(1%))的特定基因座。例如,在一个个体在给定基因的特定核苷酸位置上可能具有腺苷(A)的情况下,另一个体可能在这一位置上有胞嘧啶(C)、鸟嘌呤(G)或者胸腺嘧啶(T),从而在这个特定位置上存在SNP。
正如在这里所使用的,术语“SNP基因组分布图”是指整个个体全基因组DNA序列的SNP位置上给定的个体DNA的碱基含量。“SNP分布图”是指完整的基因组分布图,或者是指其一部分,例如可能与特定基因或者特定的一组基因有关的更局部的SNP分布图。
术语“表型”用于描述个体的定量性状或者特征。表型包括,但不限于医学和非医学状态。医学状态包括疾病和紊乱。表型也可以包括身体性状,例如发色、如肺容量的生理性状、如记忆保持的精神性状、如愤怒控制能力的情绪性状、如种族背景的种族特征、如个体出身位置的家系特征以及如年龄期待或不同表型的发病年龄的年龄特征。表型也可以是单基因的,其中据认为一个基因可能与表型相关联;或者是多基因的,其中一个以上的基因与表型相关联。
“规则”用于定义基因型与表型之间的相关性。规则可以通过数值定义相关性,例如通过百分率、危险因子或者置信度评分。规则可以包括多个基因型与表型的相关性。“规则集”包括一个以上的规则。“新规则”可以是表明其规则目前尚不存在的基因型与表型之间的相关性的规则。新规则可以将未关联的基因型与表型相关联。新规则也可以将已经与表型相关联的基因型与先前不关联的表型相关联。“新规则”也可以是由其它因素(包括另一规则)修正的现有规则。现有规则可以由于个体的已知特征,例如种族、家系、地理、性别、年龄、家族史或其它先前确定的表型,而进行修正。
如在此所使用的,“基因型相关性”指个体基因型(例如某一突变或多个突变的存在)之间的统计相关性,以及倾向于发生一种表型(例如特定疾病、状态、身体状态和/或精神状态)的可能性。在特定基因型存在下观察到特定表型的频率决定了基因型相关性的程度或者出现特定的表型的可能性。例如,正如在此所详述的,导致载脂蛋白E4同种型的SNP与诱发早发型阿尔茨海默氏病相关。基因型相关性也可以指其中不倾向于产生表型的相关性或者负相关性。基因型相关性也可以表示个体具有表型或者倾向于发生表型的评估。可以由数值表示基因型相关性,例如百分数、相对风险因子、效应评价或者置信度评分。
术语“表型谱”是指与个体的一个基因型或者多个基因型相关的多个表型的集合。表型谱可以包括通过将一条或多条规则应用于基因组图谱所产生的信息或者有关应用于基因组图谱的基因型相关性的信息。可以通过应用多个基因型与表型关联的规则生成表型谱。概率或评估可以表示为数值,例如百分数、数字的危险因子或者数字的置信区间。概率也可以表示为高、中或低。表型谱也可以表明表型是否存在或者产生表型的风险。例如,表型谱可以表明蓝眼睛的存在或者发生糖尿病的高风险。表型谱也可以表明预测的预后、治疗效果或者对医学状态的治疗的反应。
术语风险分布图是指对于一种以上的疾病或状态的GCI评分的集合。GCI评分基于对个体基因型与一种或多种疾病或状态之间的关联的分析。风险分布图可以显示按疾病分类分组的GCI评分。进一步,风险分布图可以显示如何随个体年龄或者多种危险因子的调整而预测GCI评分的变化的信息。例如,对于特定疾病的GCI评分可以考虑饮食变化或者采取的预防措施(停止吸烟、服药、双侧根治性乳房切除术、子宫切除术)的效应。GCI评分可以显示为数值计量、图形显示、听觉反馈或者任何前述方式的组合。
正如在此所使用的,术语“在线入口”是指个体通过计算机和互联网网站、电话或者允许对信息进行类似访问的其它方式方便地访问的信息源。在线入口可以是加密网站。该网站可以提供与其它加密和非加密网站的链接,例如连接具有个体的表型谱的加密网站的链接或者连接非加密网站(如共有特定表型的个体的留言板)的链接。
除非另外指明,本发明的实施可以利用本领域技术人员能力范围内的分子生物学、细胞生物学、生物化学和免疫学的常规技术和使用说明。这些常规技术包括核酸分离、聚合物阵列合成(polymerarray synthesis)、杂交、连接(ligation)和使用标记物的杂交检测。本发明举例说明了适当技术的具体例证并给出了参考文献。但是,也可以使用其它等效的常规方法。其它常规技术和使用说明可以在以下标准实验室手册和文献中找到:例如,基因组分析:实验室手册系列(卷I-IV)(Genome Analysis:A Laboratory Manual Series(Vols.I-IV))、PCR引物:实验室手册(PCR Primer:A Laboratory Manual)、分子克隆法:实验室手册(Molecular Cloning:A Laboratory Manual)(全部源自冷泉港实验室出版社(Cold Spring Harbor LaboratoryPress))、Stryer,L.(1995)生物化学(第四版)Freeman,纽约、Gait,“低聚核苷酸合成:实践方法(Oligonucleotide Synthesis:A PracticalApproach)”1984,IRL出版社,伦敦,Nelson和Cox(2000)、Lehninger,生物化学原理,第三版,W.H.Freeman Pub.,纽约,N.Y.;以及Berg等(2002)生物化学,第五版,W.H.Freeman Pub.,纽约,N.Y.,上述所有文献的全部内容在此并入作为参考。
本发明的方法包括分析个体基因组图谱以向个体提供关于表型的分子信息。正如在此所详述的,个体提供生成个人基因组图谱的遗传样品。通过使基因组图谱与已确立和验证的人类基因型相关性的数据库相比较,查询个体基因组图谱有关基因型相关性的数据。已确立和验证的基因型相关性的数据库可以来自同行评议(peer-reviewed)的文献,并且由本领域中一个或多个专家(例如遗传学家、流行病学家或者统计学家)的委员会进一步评判,并进行验证。在优选实施方式中,规则基于经验证的基因型相关性制定,并应用于个体的基因组图谱以生成表型谱。个体基因组图谱的分析结果(表型谱)与解释和支持性信息一起提供给个体或个人的保健管理者,从而给予对个体保健进行个性化选择的能力。
本发明的方法在图1中详细描述,其中首先生成个体的基因组图谱。个体基因组图谱将包括有关基于遗传变异和遗传标记的个体基因的信息。遗传变异是基因型,其组成基因组图谱。这些遗传变异或者遗传标记包括,但不限于单核苷酸多态性、单和/或多核苷酸重复、单和/或多核苷酸缺失、微卫星重复(通常具有5~1,000重复单元的小量核苷酸重复)、二核苷酸重复、三核苷酸重复、序列重排(包括易位和重复)、拷贝数变异(在特定基因座上的缺失和增加)等。其它遗传变异包括染色体重复和易位以及着丝粒重复和端粒重复。
基因型也可以包括单体型和双体型。在一些实施方式中,基因组图谱可以具有至少100,000、300,000、500,000或者1,000,000个基因型。在一些实施方式中,基因组图谱可以是基本上个体的完整基因组序列。在其它实施方式中,基因组图谱为至少60%、80%或者95%的个体完整基因组序列。基因组图谱可以为大约100%的个体完整基因组序列。包含靶物质的遗传样品包括,但不限于未扩增的基因组DNA或RNA样品或者扩增的DNA(或cDNA)。靶物质可以为包含特别感兴趣的遗传标记的基因组DNA的特定区域。
在图1的步骤102中,个体的遗传样品从个体的生物样品中分离。这些生物样品包括,但不限于血液、头发、皮肤、唾液、精液、尿、粪便物质、汗液、口腔(buccal)和各种身体组织。在一些实施方式中,组织样品可以从个体直接采集,例如口腔样品可以通过个体用拭子拭抹其颊部内侧而获得。例如唾液、精液、尿、粪便物质或者汗液的其它样品也可以由个体本人提供。其它生物样品可以由保健专业人员(例如抽血者、护士或者医生)提取。例如,血液样品可以由护士从个体抽取。组织活检可以由保健专业人员进行,并且保健专业人员也可以利用试剂盒以有效地获得样品。可以移取小的柱面皮肤样品或者使用针移取小的组织或流体样品。
在一些实施方式中,向个体提供具有用于个体生物样品的样品采集容器的试剂盒。试剂盒也可以提供个体直接采集其自身样品的说明书,例如需提供多少头发、尿、汗液或者唾液。试剂盒也可以包括个体要求由保健专业人员提取组织样品的说明书。试剂盒可以包括可由第三方采集样品的场所,例如可以将试剂盒提供给随后从个体采集样品的保健机构。试剂盒还可以提供用于将样品递送至样品处理机构的返回包装,在该机构中遗传物质从生物样品中分离(步骤104)。
可以按照几种已知生物化学和分子生物学方法中的任何一种方法从生物样品中分离DNA或RNA的遗传样品,参见例如Sambrook等人,分子克隆:实验室手册(Molecular Cloning:A LaboratoryManual)(冷泉港实验室,纽约)(1989)。也有几种用于从生物样品中分离DNA或RNA的可商购的试剂盒和试剂,例如可从DNAGenotek、Gentra Systems、Qiagen、Ambion和其它供应商获得的试剂盒和试剂。口腔样品试剂盒是很容易商购得到的,例如得自Epicentre Biotechnologies的MasterAmpTM Buccal Swab DNA提取试剂盒,同样还有从血液样品中提取DNA的试剂盒,例如得自SigmaAldrich的Extract-N-AmpTM。源自其它组织的DNA可以通过用蛋白酶消化组织和进行热处理、离心样品和使用苯酚-氯仿抽提不需要的物质、将DNA留在水相中而获得。然后可以用乙醇沉淀法进一步分离DNA。
在优选的实施方式中,从唾液中分离基因组DNA。例如,使用可从DNA Genotek获得的DNA自采集试剂盒技术,个体采集唾液试样用于临床处理。样品可以在室温下方便地储存和运送。在将样品递送到进行处理的适当的实验室之后,通过对样品进行热变性和蛋白酶消化(通常利用由采集试剂盒供应商提供的试剂在50℃下进行至少1小时)来分离DNA。接着离心样品,并对上层清液进行乙醇沉淀。将DNA沉淀悬浮在适于后续分析的缓冲液中。
在另一实施方式中,可以使用RNA作为遗传样品。特别地,可以从mRNA鉴定表达的遗传变异。术语“信使RNA”或“mRNA”包括,但不限于前mRNA转录物、转录物加工中间体、准备用于一个基因或多个基因的翻译和转录的成熟mRNA或者源自mRNA转录物的核酸。转录物加工可以包括剪接、编辑和降解。如在此所使用的,源自mRNA转录物的核酸是指mRNA转录物或其子序列最终充当其合成模板的核酸。因此,由mRNA反转录的cDNA、从cDNA扩增的DNA、从扩增的DNA转录的RNA等都是源自mRNA转录物。可以使用本领域已知的方法从几种身体组织中的任意一种分离RNA,例如使用从PreAnalytiX获得的PAXgeneTM血液RNA系统从未分级的(unfractionated)全血中分离RNA。典型地,mRNA将用于反转录cDNA,cDNA随后被使用或进行扩增以用于基因变异分析。
在基因组图谱分析之前,通常由DNA或RNA反转录的cDNA扩增遗传样品。可以通过多种方法扩增DNA,这些方法中的许多使用了PCR。参见例如,PCR技术:DNA扩增机理和应用(PCRTechnology:Principles and Applications for DNA Amplification)(Ed.H.A.Erlich,Freeman Press,NY,N.Y.,1992);PCR方案:方法和应用指南(PCR Protocols:A Guide to Methods and Applications)(Eds.Innis等人,Academic Press,San Diego,Calif.,1990);Mattila等人,NucleicAcids Res.19,4967(1991);Eckert等人,PCR方法和应用(PCRMethods and Applications)1,17(1991);PCR(Eds.McPherson等人,IRL Press,Oxford);和美国专利第4,683,202、4,683,195、4,800,159、4,965,188和5,333,675号,上述各文献在此以其全部内容并入作为参考。
其它适合的扩增方法包括连接酶链反应(LCR)(例如,Wu和Wallace,基因组学,4,560(1989),Landegren等人,科学,241,1077(1988)以及Barringer等人,基因,89:117(1990))、转录扩增(Kwoh等人,Proc.Natl.Acad.Sci.USA 86:1173-1177(1989)和WO88/10315)、自主序列复制(Guatelli等人,Proc.Nat.Acad.Sci.USA,87:1874-1878(1990)和WO90/06995)、靶多核苷酸序列的选择性扩增(美国专利第6,410,276号)、共有序列引物聚合酶链式反应(CP-PCR)(美国专利第4,437,975号)、随机引物聚合酶链式反应(AP-PCR)(美国专利第5,413,909、5,861,245号)、基于核酸的序列扩增(nucleic acidbased sequence amplification)(NABSA)、滚环扩增(RCA)、多重置换扩增(multiple displacement amplification)(MDA)(美国专利第6,124,120和6,323,009号)和环至环扩增(circle-to-circle amplification)(C2CA)(Dahl等人,Proc.Natl.Acad.Sci 101:4548-4553(2004))。(参见美国专利第5,409,818、5,554,517和6,063,603号,上述各文献在此并入作为参考)。在美国专利第5,242,794、5,494,810、5,409,818、4,988,617、6,063,603和5,554,517号以及美国专利申请第09/854,317号中描述了可以使用的其它扩增方法,上述各文献在此并入作为参考。
使用几种方法中的任意一种完成步骤106的基因组图谱的生成。本领域已知用以鉴定遗传变异的几种方法,并且这些方法包括,但不限于通过几种方法中的任意一种进行的DNA测序、基于PCR的方法、片断长度多态性分析(限制性片段长度多态性(RFLP)、裂解片段长度多态性(CFLP))、使用等位基因特异性寡核苷酸作为模板的杂交方法(例如,TaqMan PCR方法、侵入物方法(invader method)、DNA芯片法)、使用引物延伸反应的方法、质谱分析法(MALDI-TOF/MS法)等。
在一个实施方式中,高密度DNA阵列用于SNP鉴定和分布图生成。这些阵列可从Affymetrix和Illumina购得(参见AffymetrixGeneChip
Figure G2007800500195D00181
500K Assay Manual,Affymetrix,Santa Clara,CA(并入作为参考);Sentrix
Figure G2007800500195D00182
humanHap650Y基因分型微珠芯片(genotypingbeadchip),Illumina,San Diego,CA)。
例如,可以使用Affymetrix Genome Wide Human SNP Array 6.0通过对超过900,000的SNP进行基因分型以生成SNP分布图。或者,可以通过使用Affymetrix GeneChip Human Mapping 500K Array Set确定经过完全基因组采样分析的超过500,000个SNP。在这些分析方法中,人类基因组的子集使用限制性内切酶消化的、接头连接的人基因组DNA通过单引物扩增反应进行扩增。如图2中所示,然后可以确定连接的DNA的浓度。而后扩增的DNA断裂,并且在继续步骤106前确定样品的质量。如果样品符合PCR和片段化标准,则对样品进行变性、标记和随后与涂覆的石英面上特定位置的小DNA探针组成的微阵列进行杂交。监测随扩增的DNA序列变化的与各探针杂交的标记物的量,从而产生序列信息和最终的SNP基因分型。
Affymetrix GeneChip 500K Assay的使用按照制造商的指导进行。简要地说,首先用NspI或StyI限制性内切核酸酶消化分离的基因组DNA。然后消化的DNA与分别与NspI或StyI限制酶切DNA退火的NspI或StyI接头寡核苷酸连接。然后连接后的包含接头的DNA通过PCR进行扩增以产生在约200至1100碱基对之间的扩增DNA片段,这由凝胶电泳所证实。符合扩增标准的PCR产物进行纯化和定量以进行片段化。PCR产物用DNase I进行断裂以达到最佳的DNA芯片杂交。断裂之后,DNA片段应小于250碱基对,并且平均为180碱基对,这通过凝胶电泳证实。然后使用末端脱氧核苷酸转移酶以生物素化合物标记符合片段化标准的样品。接着将标记的片段变性,而后杂交到GeneChip 250K阵列中。杂交之后,在扫描前按三步的处理过程对阵列进行染色,所述的三部处理过程由下列步骤组成:抗生蛋白链菌素藻红蛋白(SAPE)染色,随后是利用生物素化的抗抗生蛋白链菌素抗体(山羊)的抗体扩增步骤,和用抗生蛋白链菌素藻红蛋白(SAPE)的最终染色。在标记之后,阵列用阵列保持缓冲液覆盖,然后用例如Affymetrix GeneChip Scanner 3000的扫描仪进行扫描。
在Affymetrix GeneChip Human Mapping 500K Array Set扫描后,按照制造商的指导进行数据分析,如图3所示。简要地说,使用GeneChip操作软件(GCOS)获得原始数据。也可以通过使用Affymetrix GeneChip Command ConsoleTM获得数据。获得初始数据后用GeneChip基因分型分析软件(GTYPE)进行分析。为了本发明的目的,排除GTYPE调用率(call rate)小于80%的样品。然后用BRLMM和/或SNiPer算法分析对样品进行检验。排除BRLMM调用率小于95%或者SNiPer调用率小于98%的样品。最终,进行关联分析,并且排除SNiPer质量指数小于0.45和/或哈迪-温伯格p-值小于0.00001的样品。
作为DNA微阵列分析的替代或者附加,可以通过DNA测序检测遗传变异,例如SNP和突变。也可以使用DNA测序对个体的主要部分或者全部基因组序列进行测序。通常,常用的DNA测序是基于聚丙烯酰胺凝胶分级分离以解析链端片段群(Sanger等人,Proc.Natl.Acad.Sci.USA 74:5463-5467(1977))。已经开发出来的和继续进行开发的替代方法提高了DNA测序的速度和简便性。例如,高通量和单分子测序平台可从454Life Sciences(Branford,CT)(Margulies等人,自然,(2005)437:376-380(2005))、Solexa(Hayward,CA)、Helicos BioSciences公司(Cambridge,MA)(于2005年6月23日提交的美国申请第11/167046号)和Li-Cor Biosciences(Lincoln,NE)(于2005年4月29日提交的美国申请第11/118031号)商购得到,或者正由它们进行开发。
在步骤106中生成个体的基因组图谱之后,在步骤108中数字化存储该图谱,这一图谱可以以加密方式数字化存储。以计算机可读格式对该基因组图谱进行编码以存储为数据集的部分,并且可以存储为数据库,其中基因组图谱可以被“储蓄”,并且能够以后再次存取。数据集包括多个数据点,其中每个数据点涉及一个个体。每个数据点可以具有多个数据元。一个数据元是用以识别个体的基因组图谱的唯一识别符。其也可以是条形码。另一数据元是基因型信息,例如个体基因组的SNP或核苷酸序列。对应于基因型信息的数据元也可以包括在数据点中。例如,如果基因型信息包括由微阵列分析鉴定的SNP,那么其它数据元可以包括微阵列SNP识别号、SNPrs号和多态性核苷酸(polymorphic nucleotide)。其它数据元可以是基因型信息的染色体位置、数据的质量量度、原始数据文件、数据图像和提取强度得分。
个体的特异性因素,例如身体数据、医学数据、种族、家系、地理、性别、年龄、家族史、已知表型、人口数据、暴露数据(exposuredata)、生活方式数据、行为数据和其它已知表型,也可以作为数据元包括在内。例如,这些因素可以包括,但不限于个体的:出生地、父母和/或祖父母、亲缘家系、居住地位置、祖先的居住地位置、环境条件、已知健康状况、已知药物相互作用、家庭卫生条件、生活方式条件、饮食、锻炼习惯、婚姻状态和身体测量数据(例如,体重、身高、胆固醇水平、心率、血压、葡萄糖水平和本领域已知的其它测量数据)。个体的亲戚或者祖先(例如,父母和祖父母)的上述因素也可以引入作为数据元并且用于确定个体的表型或状态的风险。
特定因素可以从调查表或者从个体的保健管理者处获得。然后,可以访问来自“储蓄”的图谱的信息并且按所需要进行使用。例如,在个体的基因型相关性的初始评估中,将分析个体的全部信息(通常在整个基因组上的或者从整个基因组取得的SNP或其它基因组序列)用于确定基因型相关性。在后续的分析中,可以按需要或适当地访问来自存储的或储蓄的基因组图谱的全部信息或者其一部分。
基因组图谱与基因型相关性数据库的比较
在步骤110中,基因型相关性从科学文献中获得。遗传变异的基因型相关性由已经对是否存在一种或多种感兴趣的表型性状和对基因型谱进行了测试的个体的群体所进行的分析中确定。然后对基因型谱中各遗传变异或多态性的等位基因进行检测以确定是否特定的等位基因的存在与感兴趣的性状相关联。可以通过标准统计方法进行相关性分析,并记录遗传变异与表型特征之间的统计学显著的相关性。比如,可能确定,多态性A的等位基因A1的存在与心脏病相关。作为进一步的例子,可能发现在多态性A的等位基因A1和多态性B的等位基因B1的组合存在与癌症风险的增大相关。分析的结果可以在同行评议文献中公布,由其它研究组进行确认,和/或由专家委员会(例如,遗传学家、统计学家、流行病学家和医生)进行分析,并且也可以进行验证。
图4、5和6中为基因型与表型之间的相关性的实例,其中应用于基因组图谱的基因型与表型之间的规则基于这些相关性。例如,图4A和B中,各行对应于表型/基因座/种族,其中图4C至I包括这些行中各行的相关性的进一步的信息。作为例子,在图4A中BC的“表型名称缩写”如图4M表型名称缩写的索引中所注明的为乳腺癌的缩写。在BC_4(其为基因座的类名)这一行中,基因LSP1与乳腺癌相关。如图4C中所示,对于这一相关性确认的公开的或者功能性的SNP为rs3817198,而公开的风险等位基因为C,非风险等位基因为T。公开的SNP和等位基因通过出版物(例如,图4E-G中的基本的公开文献)确认。在图4E的LSP1的实例中,基本的公开文献为Easton等人,自然,447:713-720(2007)。图22和25进一步列出了相关性。可以使用图22和25中的相关性计算个体对于一种状态或表型的风险,例如,计算GCI或GCI Plus评分。GCI或GCI Plus评分也可以引入例如状态的流行度的信息,如在图23中。
或者,可以由存储的基因组图谱形成相关性。例如,具有存储的基因组图谱的个体也可能存储了已知的表型信息。对存储的基因组图谱和已知的表型的分析可以形成基因型相关性。作为例子,250个具有存储基因组图谱的个体也具有先前诊断为患有糖尿病的存储信息。对他们的基因组图谱进行分析并与无糖尿病个体的对照组进行比较。然后确定先前诊断为患有糖尿病的个体与对照组相比具有特定的遗传性变型的比率较高,因而可以在特定的遗传性变型与糖尿病之间得出基因型相关性。
在步骤112中,基于已证实的遗传性变型与特定表型之间的相关性形成规则。例如可以基于表1所列的相互关联的基因型和表型生成规则。基于相关性的规则可以引入其它因素,例如,性别(如,图4)或者种族(图4和5)以产生如图4和5中的效应评价。由规则产生的其它量度可以评估如图6中的相对风险增加。效应评价和估计的相对风险增加可以来自公开的文献,或者由公开的文献进行计算。或者,规则可以基于由存储的基因组图谱和先前已知的表型产生的相关性。在一些实施方式中,规则可以基于图22和25中的相关性。
在优选的实施方式中,遗传性变型是SNP。虽然SNP发生在单位点上,但是携带在一个位点上的特定SNP等位基因的个体通常可预测在其它位点上携带特殊的SNP等位基因。SNP与使个体易发疾病或状态的等位基因的相关性通过连锁不平衡(linkagedisequilibrium)产生,其中在群体中两个或多个基因座上的等位基因发生非随机关联的频率大于或者小于预计通过重组随机形成而得到的频率。
其它遗传标记或变型(例如核苷酸重复或插入)也可以与已经显示为与特定的表型相关的遗传标记发生连锁不平衡。例如,核苷酸插入与表型相关,并且SNP与核苷酸插入发生连锁不平衡。基于SNP与表型之间的相关性形成规则。也可以形成基于核苷酸插入与表型之间的相关性的规则。可以将任一规则或者两个规则应用于基因组图谱,因为一个SNP的存在可以给出某一危险因子,另一规则可以给出另一危险因子,并且当它们结合时可以增大风险。
通过连锁不平衡,易发疾病的等位基因与SNP的特定等位基因或者SNP的特定等位基因的组合共分离(cosegregate)。沿染色体的SNP等位基因的特定组合称为单体型,并且其中它们发生组合的DNA区域可以称为单体型段。虽然单体型段可以由一个SNP组成,但是典型的单体型段表示在个体之间表现出低的单体型多样性且通常具有低重组频率的2个或多个邻近的SNP的系列。可以通过鉴定位于单体型段中的一个或多个SNP进行单体型的鉴定。这样,通常SNP分布图可以用于鉴定单体型段而不是必须鉴定给定的单体型段中的所有SNP。
在SNP单体型模式与疾病、状态或身体状态之间的基因型相关性逐渐变得为人所知。对于给定的疾病,将已知具有该疾病的一组人的单体型模式与无该疾病的一组人相比较。通过分析许多个体,可以确定在群体中多态性的频率,并且随后这些频率或基因型可以与特定的表型(例如疾病或者状态)相关联。已知的SNP-疾病相关性的实例包括在与年龄相关性黄斑变性中补体因子H的多态性(Klein等人,科学,308:385-389,(2005))和与肥胖相关的靠近INSIG2基因的变型(Herbert等人,科学,312:279-283(2006))。其它已知SNP相关性包括例如,包括CDKN2A和B的9p21区域中的多态性(例如与心肌梗死有关的rs10757274、rs2383206、rs13333040、rs2383207和rs10116277(Helgadottir等人,科学,316:1491-1493(2007);McPherson等人,科学,316:1488-1491(2007))。
SNP可以是功能性的或者非功能性的。例如,功能性SNP对细胞功能有影响,从而导致表型,然而非功能性SNP在功能上是静默的,但可以与功能性SNP发生连锁不平衡。SNP也可以是同义的或者非同义的。同义的SNP是其中不同形式导致相同多肽序列的SNP,且为非功能性SNP。如果SNP导致不同多肽,那么SNP是非同义的并且可以是功能性的或非功能性的。用于鉴定双体型(其为2个或多个单体型)中的单体型的SNP或者其它遗传标记也可以用于关联与双体型相关的表型。关于个体的单体型、双体型和SNP分布图的信息可以在个体的基因组图谱中。
在优选的实施方式中,对于基于与表型关联的另一遗传标记形成连锁不平衡的遗传标记产生的规则,该遗传标记可以具有大于0.5的r2或D’得分,该得分通常在本领域中用于确定连锁不平衡。在优选的实施方式中,得分大于0.6、0.7、0.8、0.90、0.95或0.99。结果,在本发明中,用于将表型与个体的基因组图谱关联的遗传标记可以相同或者不同于与表型相关的功能性的或公开的SNP。例如,使用BC_4,测试SNP和公开的SNP是相同的,正如测试的风险和非风险等位基因与公开的风险和非风险等位基因是相同的(图4A和C)。但是,对于BC_5,CASP8及其与乳腺癌的相关性,测试SNP与其功能性的或公开的SNP不同,正如测试的风险和非风险等位基因对于公开的风险和非风险等位基因一样。测试的和公开的等位基因相对于基因组的正链定向,并且从这些列中可以推断纯合型风险或非风险基因型,这可以生成用于例如注册用户的个体的基因组图谱的规则。在一些实施方式中,也可以不鉴定测试SNP,而是使用公开的SNP信息,可以基于另一分析方法(例如TaqMan)鉴定等位基因差异或SNP。例如,图25A中的AMD_5,公开的SNP为rs1061170,但没有鉴定测试SNP。可以通过公开的SNP的LD分析鉴定测试SNP。或者,可以不使用测试SNP,而是用TaqMan或其它相当的分析方法评价具有该测试SNP的个体基因组。
测试SNP可以为“直接(DIRECT)”或“标签(TAG)”SNP(图4E-G,图5)。直接SNP为与公开的或功能性SNP相同的测试SNP,例如对于BC_4。使用欧洲人和亚洲人的SNP rs1073640,直接SNP也可以用于乳腺癌的FGFR2相关性,其中次要等位基因为A且其它等位基因为G(Easton等人,自然,447:1087-1093(2007))。也是在欧洲人和亚洲人中的乳腺癌的FGFR2相关性的另一公开的或功能性的SNP为rs1219648(Hunter 等人,Nat.Genet.39:870-874(2007))。标签SNP为测试SNP与功能性的或公开的SNP不同的情况,如BC_5的情况。标签SNP也可以用于其它遗传性变型,例如,对于CAMTA1(rs4908449)、9p21(rs10757274、rs2383206、rs13333040、rs2383207、rs10116277)、COL1A1(rs1800012)、FVL(rs6025)、HLA-DQA1(rs4988889、rs2588331)、eNOS(rs1799983)、MTHFR(rs1801133)和APC(rs28933380)的SNP。
SNP的数据库可以从以下地方公开获得:例如,InternationalHapMap Project(参见www.hapmap.org,The International HapMapConsortium,自然,426:789-796(2003),和The International HapMapConsortium,自然,437:1299-1320(2005))、人类基因突变数据库(theHuman Gene Mutation Database)(HGMD)公开数据库(参见www.hgmd.org)和单核苷酸多态性数据库(the Single NucleotidePolymorphism database)(dbSNP)(参见www.ncbi.nlm.nih.gov/SNP/)。这些数据库提供了SNP单体型,或者使得能够确定SNP单体型模式。因此,这些SNP数据库使得能够检测作为大范围的疾病和状态(例如癌症、炎性疾病、心血管病、神经变性疾病和传染病)的基础的遗传危险因子。这些疾病或状态可以是可处置的,其中当前存在其处理和治疗方法。处理可以包括预防处理和改善症状和状态的处理,包括改变生活方式。
也可以检测许多其它表型,例如身体性状、生理性状、精神性状、情绪性状、种族、家系和年龄。身体性状可以包括身高、发色、眼睛颜色、躯体或者例如精力、耐力和敏捷性的性状。精神性状可以包括智力、记忆能力或者学习能力。种族和家系可以包括家系或种族的鉴定,或者个体的祖先源于哪里。年龄可以是确定个体的实际年龄,或者是个体的遗传学特征使其相对于总的群体所处的年龄。例如,个体的实际年龄为38岁,但是其遗传学特征可以确定其记忆能力或身体健康状态可能为平均28岁。另外的年龄性状可以是个体的预计寿命。
其它表型也可以包括非医学状态,例如“娱乐”表型。这些表型可以包括与知名个体的对比,例如,外国贵族、政治家、名人、发明家、运动员、音乐家、艺术家、商业人士和声名狼藉的个体(例如罪犯)。其它“娱乐”表型可以包括与其它生物体的对比,例如,细菌、昆虫、植物或者非人类的动物。例如,个体可能感兴趣看看其基因组图谱与其宠物狗或前任总统的基因组图谱对比会如何。
在步骤114中,将规则应用于存储的基因组图谱以生成步骤116的表型谱。例如,在图4、5或6中的信息可以形成规则或测试的基础以应用于个体的基因组图谱。规则可以包括图4中关于测试SNP和等位基因以及效应评价的信息,其中,效应评价的UNITS为效应评价的单位,例如OR,或优势比(95%置信区间)或者平均值。在优选实施方式中效应评价可以是基因型风险(图4C-G),例如对于纯合子的风险(homoz或RR)、风险杂合子(heteroz或RN)和非风险纯合子(homoz或NN)。在其它实施方式中,效应评价可以为携带者风险(carrierrisk),其是RR或RN对NN。在再另外的实施方式中,效应评价可以基于等位基因、等位基因风险,例如R对N。这里也存在两个基因座(图4J)或三个基因座(图4K)的基因型效应评价(例如,对于两个基因座效应评价的9种可能的基因型组合:RRRR、RRNN等)。在图4H和I中还记录了公共HapMap中的测试SNP频率。
在其它实施方式中,来自图21、22、23和/或25的信息可以用于生成信息以应用于个体的基因组图谱。例如,信息可以用于生成个体的GCI或GCI Plus评分(例如,图19)。评分可以用于生成在个体的表型谱中一种或多种状态的遗传风险(例如估计的终生风险)的信息(例如,图15)。该方法允许计算如图22或25所列的一个或多个表型或者状态的估计终生风险或者相对风险。单个状态的风险可以基于一个或者多个SNP。例如,对于表型或状态的估计风险可以基于至少2、3、4、5、6、7、8、9、10、11或12个SNP,其中用于估计风险的SNP可以为公开的SNP、测试SNP或以上两者(例如,图25)。
对于状态的估计风险可以基于图22或25所列的SNP。在一些实施方式中,状态的风险可以基于至少一个SNP。例如,个体对于阿尔茨海默症(AD)、结肠直肠癌(CRC)、骨关节炎(OA)或者剥脱性青光眼(XFG)的风险的评估可以基于1个SNP(例如,对于AD是rs4420638、对于CRC是rs6983267、对于OA是rs4911178和对于XFG是rs2165241)。对于其它状态,例如肥胖(BMIOB)、格雷夫斯氏病(GD)或者血色素沉着症(HEM),个体的估计风险可以基于至少1个或2个SNP(例如,对于BMIOB是rs9939609和/或rs9291171;对于GD是DRB1*0301DQA1*0501和/或rs3087243;对于HEM是rs1800562和/或rs129128)。对于例如,但不限于心肌梗死(MI)、多发性硬化症(MS)或牛皮癣(PS)的状态,1、2或3个SNP可以用于评估个体对于这些状态的风险(例如,对于MI是rs1866389、rs1333049和/或rs6922269;对于MS是rs6897932、rs12722489和/或DRB1*1501;对于PS是rs6859018、rs11209026和/或HLAC*0602)。为了评估多动腿综合症(RLS)或乳糜泻(CelD)的个体风险,可以使用1、2、3或4个SNP(例如,对于RLS是rs6904723、rs2300478、rs1026732和/或rs9296249;对于CelD是rs6840978、rs11571315、rs2187668和/或DQA1*0301 DQB1*0302)。对于前列腺癌(PC)或狼疮(SLE),1、2、3、4或5个SNP可以用于评估个体对于PC或者SLE的风险(例如,对于PC是rs4242384、rs6983267、rs16901979、rs17765344和/或rs4430796;对于SLE是rs12531711、rs10954213、rs2004640、DRB1*0301和/或DRB1*1501)。为了评估黄斑变性(AMD)或类风湿性关节炎(RA)的个体终生风险,可以使用1、2、3、4、5或6个SNP(例如,对于AMD是rs10737680、rs10490924、rs541862、rs2230199、rs1061170和/或rs9332739;对于RA是rs6679677、rs11203367、rs6457617、DRB*0101、DRB1*0401和/或DRB1*0404)。为了评估乳腺癌(BC)的个体终生风险,可以使用1、2、3、4、5、6或7个SNP(例如,rs3803662、rs2981582、rs4700485、rs3817198、rs17468277、rs6721996和/或rs3803662)。为了评估克罗恩氏病(CD)或2型糖尿病(T2D)的个体终生风险,可以使用1、2、3、4、5、6、7、8、9、10或11个SNP(例如,对于CD是rs2066845、rs5743293、rs10883365、rs17234657、rs10210302、rs9858542、rs11805303、rs1000113、rs17221417、rs2542151和/或rs10761659;对于T2D是rs13266634、rs4506565、rs10012946、rs7756992、rs10811661、rs12288738、rs8050136、rs 1111875、rs4402960、rs5215和/或rs1801282)。在一些实施方式中,用作风险确定的基础的SNP可以与上述的或者列于图22或25中的SNP形成连锁不平衡。
个体的表型谱可以包括许多表型。特别地,无论在有症状、症状前或无症状的个体(包括一种或多种疾病/状态的易感等位基因的携带者)中,通过本发明的方法评估病人患疾病或其它状态(例如,可能的药物反应,包括代谢、功效和/或安全性)的风险使得能够对多种不相关的疾病和状态的易感性进行预后或者诊断分析。因此,这些方法提供了对于疾病或状态的个体易感性的总评价而不需要预先设想任何特定疾病或状态的测试。例如,本发明的方法使得能够基于个体基因组图谱对表1、图4、5或6中所列的多种状态中的任何一种的个体易感性进行评价。而且,这些方法允许评价一种或多种表型或状态的个体估计终生风险或相对风险,例如图22或25中的那些表型。
所述评价优选提供有关这些状态中的2种或多种的信息,并且更优选这些状态中的3、4、5、10、20、50、100或者甚至更多种状态的信息。在优选实施方式中,将至少20条规则应用于个体的基因组图谱而得到表型谱。在其它的实施方式中,将至少50条规则应用于个体的基因组图谱。表型的单一的规则可以应用于单基因的表型。多于一条的规则也可以用于单一表型,例如多基因的表型或单一基因中的多个遗传性变型影响出现该表型的概率的单基因的表型。
在对个别患者基因组图谱进行初始扫描之后,当知道附加的核苷酸变型时,通过与这些附加的核苷酸变型(例如,SNP)的比较进行(或采用)个体基因型相关性的更新。例如,步骤110可以由搜索科学文献以寻找新基因型相关性的遗传学领域的一名或多名普通技术人员定期地进行,如,每天、每周或每月进行。然后,新基因型相关性可以进一步由本领域中的一位或多位专家的委员会确认。而后,步骤112可以以基于新的确认有效的相关性的新规则定期地更新。
新规则可以包括在现有规则之外的基因型或者表型。例如,未与任何表型关联的基因型被发现与新的或现有的表型相关。新规则也可以用于先前无基因型与其关联的表型间的相关性。新规则也可以确定用于已具有现有规则的基因型和表型。例如,现有基于基因型A与表型A之间的相关性的规则。新的研究揭示了基因型B与表型A相关,因而产生基于这一相关性的新规则。另一个例子为发现表型B与基因型A相关,并因此制定新规则。
可以在发现基于已知的但没有在公开的科学文献中进行初始确认的相关性时制定规则。例如,可能有人报道,基因型C与表型C相关。另外的出版物报道,基因型D与表型D相关。表型C和D是相关的症状,例如表型C可以是呼吸急促,而表型D是较小的肺容量。利用现有存储的具有基因型C和D以及表型C和D的个体的基因组图谱通过统计学方法,或者通过进一步的研究可以发现和确认基因型C与表型D或者基因型D与表型C之间的相关性。然后,可以基于新发现的和确认的相关性生成新规则。在另一实施方式中,可以研究存储的具有特定或相关表型的多个个体的基因型谱来确定这些个体共有的基因型,并且确定相关性。基于这一相关性可以生成新规则。
也可以制定规则以修正现有规则。例如,基因型与表型之间的相关性可能部分地由已知个体特征确定,例如,种族、家系、地理、性别、年龄、家族史或者个体的任何其它已知表型。可以制定基于这些已知个体特征的规则并且引入现有规则中以提供修正的规则。应用修正的规则的选择将取决于个体的特定个体因素。例如,规则可能基于当个体具有基因型E时个体具有表型E的概率为35%。但是,如果个体为特定的种族,所述概率是5%。新规则可以基于这一结果制定并且应用于具有该特定种族特性的个体。或者,可以应用确定值为35%的现有规则,然后应用基于该表型的种族特征的另一规则。基于已知个体特征的规则可以由科学文献确定或者基于对存储的基因组图谱的研究确定。在产生了新规则时,可以在步骤114中添加新的规则并将其应用于基因组图谱,或者可以定期地应用它们,例如一年至少一次。
疾病的个体风险的信息也可以随着更高分辨率SNP基因组图谱的技术进步得到扩展。如上所述,使用用于扫描500,000个SNP的微阵列技术可以很容易地生成初始SNP基因组分布图。假定单体型段的情况,这一数字可用于个体基因组中所有SNP的典型分布图。虽然如此,在人类基因组中估计通常发生大约1000万个SNP(theInternational HapMap Project;www.hapmap.org)。随着能够以更高细节水平对SNP进行实用和经济的解析(例如1,000,000、1,500,000、2,000,000、3,000,000或更多SNP的微阵列)的或者全基因组测序方面的技术进步,可以生成更详细的SNP基因组分布图。同样地,通过计算机分析方法技术的进展将使得更精细的SNP基因组分布图的经济分析和SNP-疾病相关性主数据库的更新成为可能。
在步骤116生成表型谱之后,注册用户或者其保健管理者可以如步骤118中通过在线入口或网站访问他们的基因组图谱或表型谱。也可以将包括表型谱和其它关于表型谱和基因组图谱的信息的报告提供给注册用户或其保健管理者,如步骤120和122中所述。可以将报告打印出来、存储在注册用户的电脑里或者在线察看。
图7示出了示例的在线报告。注册用户可以选择显示单一表型或者多于一个的表型。注册用户也可以具有不同的察看选项,例如,如图7中所示“Quick View”选项。表型可以是医学状态并且在快速报告中的不同处理和症状可以链接至其它包含有关处理的进一步信息的网页。例如,通过点击药物,会导向包括关于剂量、费用、副作用和功效的信息的网站。也可以将药物与其它治疗进行比较。网站也可以包括导向药物制造商的网站的链接。另一链接可以向注册用户提供生成药物性基因组学(pharmacogenomic)图谱的选项,这将包括基于其基因组图谱他们对于药物的可能反应的信息。也可以提供对于药物的替代方案的链接,例如预防性行为(如康体(fitness)和减轻体重);并且也可以提供对于饮食补充、饮食计划的链接及对于附近的健身俱乐部、健康诊所、保健及康复提供者、都市型spa(day spa)等的链接。也可以提供教育和情报视频、可利用的治疗的概要、可能的疗法和一般建议。
在线报告也可以提供安排个人医生或遗传咨询预约的链接或者访问在线遗传顾问或医生的链接,从而为注册用户提供询问更多关于其表型谱的信息的机会。在线报告上也可以提供在线遗传咨询和医师询问的链接。
也可以以其它形式观看报告,例如对于单一表型的综合观察,其中提供了对于各个类别的更多详情。例如,可以存在关于注册用户出现表型的可能性的更详细的统计;关于典型症状或表型的更多信息,例如医学状态的代表症状或者身体非医学状态(如身高)的范围;或者关于基因和遗传性变型的更多信息,例如群体流行度,如在世界上或者在不同国家中,或者在不同年龄范围或性别中的群体流行度。例如,图15显示了许多状态的估计终生风险的总结。个体可以察看特定状态(例如前列腺癌(图16)或者克罗恩氏病(图17))的更多信息。
在另一实施方式中,报告可以是“娱乐”表型的报告,例如,个体基因组图谱与知名个体(如阿尔伯特·爱因斯坦)的基因组图谱的相似性。报告可以显示个体基因组图谱与爱因斯坦的个体基因组图谱之间的百分比相似性,并且可以进一步显示爱因斯坦的预测IQ和该个体的预测IQ。进一步的信息可以包括总群体的基因组图谱和其IQ与该个体和爱因斯坦的基因组图谱和IQ比较的情况。
在另一实施方式中,报告可以显示已与注册用户的基因组图谱相关联的所有表型。在其它的实施方式中,报告可以仅显示确定与个体的基因组图谱正相关的表型。个体可以选择以其它形式显示表型的特定亚类,例如仅医学表型或者仅可处置的医学表型。例如,可处置的表型及其相关的基因型可以包括克罗恩氏病(与IL23R和CARD15相关)、1型糖尿病(与HLA-DR/DQ相关)、狼疮(与HLA-DRB1相关)、牛皮癣(HLA-C)、多发性硬化症(HLA-DQA1)、格雷夫斯病(HLA-DRB1)、类风湿性关节炎(HLA-DRB1)、2型糖尿病(TCF7L2)、乳腺癌(BRCA2)、结肠癌(APC)、情景记忆(KIBRA)和骨质疏松症(COL1A1)。个体也可以选择在报告中显示表型的子类,例如,仅医学状态的炎性疾病或仅非医学状态的身体性状。在一些实施方式中,个体可以选择通过突出显示计算了估计风险的那些状态(例如,图15A,D)、仅具有较高风险的状态(图15B)或仅具有较低风险(图15C)的状态而显示对该个体计算了估计风险的所有状态。
交付并传送至个体的信息可以是加密的和保密的,并且可以控制个体对这些信息的访问。由复杂基因组图谱得到的信息可以提供给个体作为管理部门批准的、可理解的、医疗相关的和/或具有高度影响的数据。信息也可以是具有一般的重要性,而与医疗无关。可以通过几种方式向个体加密地传送信息,所述方式包括,但不限于入口界面和/或邮寄。更优选地,信息通过入口界面加密地(如果个体如此选择)向个体提供,其中个体对该入口界面具有安全和保密的访问权限。这一界面优选通过在线的、互联网站入口提供,或者可选择地,通过电话或允许提供私密、安全和易于使用的访问的其它方式。基因组图谱、表型谱和报告通过网络的数据传输向个体或其保健管理者提供。
因此,图8为显示了可以通过其生成表型谱和报告的代表性示例逻辑设备的框图。图8显示了计算机系统(或者数字设备)800,其用于接收和存储基因组图谱、分析基因型相关性、基于基因型相关性生成规则、将规则应用于基因组图谱和产生表型谱和报告。计算机系统800可以理解为能够从介质811和/或网络端口805读取指令的逻辑设备,该网络端口805能够任选地与具有固定介质812的服务器809相连。图8中显示的系统包括CPU 801、磁盘驱动器803、任选的输入设备(例如键盘815和/或鼠标816)以及任选的监视器807。与本地或远方位置的服务器809的数据通信可以通过所示的通信媒介完成。通信媒介可以包括传送和/或接收数据的任何手段。例如,通信媒介可以是网络连接、无线连接或者互联网连接。这一连接可以提供环球网(World Wide Web)上的通信。可以预想,本发明有关的数据可通过这些手段以用于一方822接收和/或检验的网络或连接进行传送。接收方822可以为个体、注册用户、保健提供者或保健管理者,但不限于此。在一个实施方式中,计算机可读的介质包括适于传送生物样品或基因型相关性的分析结果的介质。所述介质可以包括关于个体对象的表型谱的结果,其中使用在此所描述的方法得到这一结果。
个人入口将优选用作接收和评价基因组数据的个体的基本界面。入口将使个体能够跟踪其样品从收集到测试的过程并能够跟踪结果。通过入口访问,基于其基因组图谱向个体介绍常见遗传病的相对风险。注册用户可以通过入口选择将哪些规则应用于其基因组图谱。
在一个实施方式中,一个或多个网页将具有表型的列表和靠近每个表型有一个方框,注册用户可以选择方框以将其包括在他们的表型谱中。表型可以链接至与该表型有关的信息,以帮助注册用户明智地选择关于他们希望包括在其表型谱中的表型。网页也可以具有按疾病分组(例如可处置的疾病或不可处置的疾病)组织的表型。例如,注册用户可以仅选择可处置的表型,例如HLA-DQA1和乳糜泻。注册用户也可以选择显示表型的症状前或症状后治疗。例如,个体可以选择具有症状前治疗的可处置表型(在进一步筛查以外),对于乳糜泻为无谷蛋白饮食的症状前治疗。另一实例可以是阿尔茨海默氏病,症状前治疗为他汀类药物、锻炼、维生素和精神作用。血栓形成是另一实例,症状前治疗是避免口服避孕药和避免常时间久坐。具有经批准的症状后治疗的表型的实例为与CFH有关的湿性AMD,其中个体可以进行对其状态的激光治疗。
表型也可以按疾病或状态的类型或种类进行组织,例如神经学、心血管、内分泌、免疫等等。表型也可以分组为医学和非医学表型。在网页上的表型的其它分类可以按照身体性状、生理性状、精神性状或情绪性状进行。网页可以进一步提供通过选择一个方框而选择一组表型的分区。例如,选择所有表型、仅与医学相关的表型、仅非医学相关的表型、仅可处置的表型、仅不可处置的表型、不同的疾病组或者“娱乐”表型。“娱乐”表型可以包括与名人或其他知名个体的对比,或者与其它动物或甚至其它生物体的对比。可用于对比的基因组图谱的列表也可以在网页上提供以用于由注册用户选择与注册用户的基因组图谱对比。
在线入口也可以提供搜索引擎,以帮助注册用户浏览入口、检索特定表型或者检索由其表型谱或报告所揭示的特定术语或信息。也可以由入口提供访问搭配的服务和提供的产品的链接。也可以提供连接到支持小组、留言板和具有共同或相似表型的个体的聊天室的另外的链接。在线入口也可以提供连接到具有更多与注册用户表型谱中表型有关的信息的其它地址的链接。在线入口也可以提供允许注册用户与朋友、家人或保健管理者分享其表型谱和报告的服务。注册用户可以选择在表型谱中显示他们希望与其朋友、家人或保健管理者分享的表型。
表型谱和报告提供了个体的个人化基因型相关性。向个体提供的基因型相关性能够用于确定个人保健和生活方式选择。如果发现了在遗传性变型与可进行治疗的疾病之间的强相关性,遗传性变型的检测可以帮助决定开始疾病治疗和/或个体监测。在存在统计学上显著的相关性但不认为是强相关性的情况下,个体可以与个人医生讨论该信息并决定适当、有益的行动方案。就特定基因型相关性而言可能有益于个体的潜在行动方案包括进行治疗处理、监测潜在的治疗需要或治疗效果或者在饮食、锻炼和其它个人习惯/活动等方面改变生活方式。例如,可处置表型(如乳糜泻)可以进行无谷蛋白饮食的症状治疗。同样,通过药物基因组学,基因型相关性信息可应用于预测必须用特定药物或药物疗程进行治疗的个体的可能反应,例如特定药物治疗的可能的效力或安全性。
注册用户可以选择将基因组图谱和表型谱提供给其保健管理者,例如医生或遗传顾问。基因组图谱和表型谱可以由保健管理者直接访问,由注册用户打印出一份以交给保健管理者,或者通过在线入口(例如通过在线报告上的链接)将其直接发送给保健管理者。
这一相关信息的传递将使患者进行与其医生协调的行动。特别是,在患者与其医生间的讨论可以通过个人入口和连接到医学信息的链接以及使患者的基因组信息结合到其医学记录中而成为可能。医学信息可以包括预防和健康信息。通过本发明提供给个体患者的信息将能够使患者作出对于其保健的明智选择。在这一方式中,患者能够选择可以帮助他们避免和/或延迟其个体基因组图谱(遗传的DNA)更可能导致的疾病。另外,患者将能够采用适合其个人本身的特定医疗需要的治疗方案。个体也将具有访问其基因型数据的能力,如果他们发生疾病并需要这一信息帮助其医生形成治疗对策。
基因型相关性信息也可与遗传咨询结合以用于向考虑生育的夫妇提出建议,以及提出对于母亲、父亲和/或孩子的潜在遗传关注。遗传顾问可以向具有显示增加的特定状态或疾病的风险的表型谱的注册用户提供信息和支持。他们可以解释关于该病症的信息、分析遗传模式和复发风险并与注册用户讨论可用选择。遗传顾问也可以提供支持性咨询以向注册用户推荐社区或国家支持服务。遗传咨询可以包括特定注册计划。在一些实施方式中,遗传咨询可以安排在所请求的24小时内且可在如晚上、星期六、星期日和/或假日的时间内利用。
个体的入口也将便于传递初始筛查以外的附加信息。个体将被告知有关其个人遗传图谱的新的科学发现,例如关于其目前或潜在状态的新的治疗或预防对策的信息。新发现也可以传递给其保健管理者。在优选实施方式中,通过电子向邮件注册用户或其保健提供者通告关于注册用户的表型谱中的表型的新基因型相关性和新研究。在其它实施方式中,将“娱乐”表型的电子邮件发送给注册用户,例如电子信件可以告知他们其基因组图谱的77%与阿伯拉罕·林肯的基因组图谱相同以及进一步的信息通过在线入口提供。
本发明也提供了一种用于生成新规则、修正规则、组合规则、定期用新规则更新规则集、安全地维持基因组图谱数据库、将规则应用于基因组图谱以确定表型谱和用于生成报告的计算机代码系统。计算机代码告知注册用户新的或者修正的相关性和新的或者修正的报告,例如具有新的预防和健康信息、关于开发中的新治疗方法的信息或可获得的新治疗的报告。
商业方法
本发明提供了一种商业方法,该方法基于患者的基因组图谱与已确立的医学相关核苷酸变型的临床数据库的比较来评估个体的基因型相关性。本发明进一步提供了一种商业方法,该方法使用存储的个体基因组图谱评估初始未知的新的相关性以生成个体的更新表型谱,而无需个体提交另外的生物样品。图9为举例说明该商业方法的流程图。
在个体因为多种常见人类疾病、状态和身体状态的基因型相关性而最初请求和购买个人基因组图谱时,在步骤101中部分地产生本发明的商业方法的收入流。请求和购买可以通过许多来源进行,包括但不限于在线网络入口、在线健康服务和个体的个人医生或者类似的个人医疗关注的来源。在替代的实施方式中,基因组图谱可以免费提供,并且可以在随后的步骤(例如步骤103)中生成收入流。
注册用户或者消费者作出购买表型谱的请求。响应于需求和购买向消费者提供采集试剂盒以用于采集在步骤103中进行遗传样品分离的生物样品。当在线、通过电话或其它消费者不易于亲身获得采集试剂盒的来源作出请求时,通过快递提供采集试剂盒,例如提供当日或隔夜交付的速递服务。采集试剂盒中包括的是样品的容器以及用于将样品快速递送至生成基因组图谱的实验室的包装材料。试剂盒也可以包括将样品送至样品处理机构或实验室的说明和访问其基因组图谱和表型谱的说明,这可以通过在线入口进行。
正如以上所详细说明的,可以从多种类型的生物样品中的任何一种类型获得基因组DNA。优选地,使用商购的采集试剂盒(例如从DNA Genotek购得的试剂盒)从唾液中分离基因组DNA。唾液和这一试剂盒的使用使得能够进行无损伤样品采集,因为消费者很方便在来自采集试剂盒的容器中提供唾液样品,然后密封该容器。另外,唾液样品可以在室温下储存和运输。
在将生物样品存放在采集或标本容器中后,在步骤105中消费者把样品递送至进行处理的实验室。典型地,通过例如同日或隔夜快递服务的快速递送,消费者可以使用在采集试剂盒中提供的包装材料将样品递送/寄送至实验室。
处理样品并生成基因组图谱的实验室可以遵循适当的政府机构指导和规定。例如,在美国,处理实验室可以被例如食品与药品管理局(FDA)或医疗保险和医疗补助服务中心(Centers for Medicareand Medicaid Services)(CMS)的一个或多个联邦机构和/或一个或多个州立机构管理。在美国,可以依照1988年的Clinical LaboratoryImprovement Amendments(CLIA)授权或批准临床实验室。
在步骤107中,如先前描述的实验室对样品进行处理以分离DNA或RNA的遗传样品。然后,在步骤109中,对分离的遗传样品进行分析和生成基因组图谱。优选地,生成基因组SNP分布图。如上所述,可以使用几种方法生成SNP分布图。优选地,高密度阵列(例如来自Affymetrix或Illumina的商购平台)用于SNP鉴定和分布图生成。例如,如以上更详细地描述的,使用Affymetrix GeneChipassay生成SNP分布图。随着技术发展,可能会有能生成高密度SNP分布图的其它技术供应商。在另一实施方式中,注册用户的基因组图谱将是注册用户的基因组序列。
在生成个体的基因组图谱之后,在步骤111中,优选对基因型数据进行加密、输入,并且在步骤113中将该数据存放在加密数据库或者保险库中,其中信息存储以备将来使用。基因组图谱和有关信息可以是机密的,按照个体和/或者他或她的个人医生的指令对访问这一私有信息和基因组图谱进行限制。其他人(例如个体的家人和遗传顾问)也可以由注册用户许可访问。
数据库或保险库可以就地位于处理实验室处。或者,数据库可以位于独立的场所。在这一情况下,在步骤111中可以将由处理实验室生成的基因组图谱数据输送到包括数据库的单独的机构。
在生成个体的基因组图谱之后,随后在步骤115中将个体的遗传变异与已确定的医学上相关的遗传性变型的临床数据库相对比。或者,基因型相关性可以不是医学相关的但仍包括在基因型相关性数据库中,例如,如眼睛颜色的身体性状,或者如与名人基因组图谱的相似性的“娱乐”表型。
医学上相关的SNP可以通过科学文献和相关来源建立。也可以建立非SNP遗传性变型以与表型相关联。通常,通过将已知己具有疾病的一组人的单体型模式与没有疾病的一组人相比较来建立给定疾病的SNP相关性。通过分析许多个体,可以确定在群体中多态性的频率,并且随之这些基因型频率可以与特定表型(例如疾病或状态)相关联。或者,表型可以是非医学状态。
也可以通过分析存储的个体基因组图谱确定相关的SNP和非SNP遗传性变型,而不是通过可利用的公开文献确定。具有存储的基因组图谱的个体可以揭示先前已经确定的表型。可以将对个体的基因型和揭示的表型的分析与没有该表型的个体相对比以确定而后可以用于其它基因组图谱的相关性。确定其基因组图谱的个体可以填写关于先前已经确定的表型的调查表。调查表可以包括有关医学和非医学状态的问题,例如先前诊断的疾病、医学状态的家族史、生活方式、身体性状、精神性状、年龄、社会生活、环境等。
在一个实施方式中,如果个体填写了调查表,他们就可以免费确定其基因组图谱。在一些实施方式中,个体定期填写调查表以免费访问其表型谱和报告。在其它实施方式中,填写了调查表的个体可以给予注册升级,以便他们具有比其先前的注册水平更高的访问权限,或者他们可以以较低的价格购买或更新注册。
为了保证科学精确性和重要性,在步骤121中存放在医学相关的遗传性变型数据库中的所有信息首先由研究/临床顾问组核准,同时如果在步骤119中被授权的话,由适当的政府机构检查和监督。例如在美国,FDA可以通过核准用于确认遗传性变型(通常为SNP、转录物水平或突变)相关数据的算法进行监督。在步骤123中,为了附加的遗传性变型-疾病或者状态相关性,对科学文献和其它相关来源进行监控,并且在确认它们的精确性和重要性后,以及经过政府机构的检查和批准,这些附加的基因型相关性步骤125中加入主数据库中。
经核准和验证的医学相关遗传性变型的数据库与全基因组个体图谱相结合将有利地允许对大量疾病或状态进行遗传风险评估。在汇编个体的基因组图谱之后,可以通过将个体的核苷酸(遗传)变型或遗传标记与已经与特定表型(例如疾病、状态或身体状态)相关联的人类核苷酸变型的数据库相比较而确定个体基因型相关性。通过将个体基因组图谱与基因型相关性的主数据库相比较,可以告知个体是否发现他们对于遗传危险因子是阳性或阴性的以及程度如何。个体将收到有关大范围的经科学验证的疾病状态(例如,阿尔茨海默氏病、心血管病、凝血)的相对风险和/或患病体质数据。例如,可以包括表1中的基因型相关性。另外,数据库中的SNP疾病相关性可以包括,但不限于图4中所示的那些相关性。也可以包括图5和6中的其它相关性。本发明的商业方法因此提供了对于大量疾病和状态的风险分析而无需预先了解那些疾病和状态可能导致什么风险。
在其它实施方式中,与全基因组个体图谱相结合的基因型相关性为非医学相关表型,例如“娱乐”表型或例如发色的身体性状。在优选的实施方式中,如上所述,将规则或规则集应用于个体的基因组图谱或SNP分布图。将规则应用于基因组图谱生成对于个体的表型谱。
因此,当发现和验证新的相关性时,用附加的基因型相关性扩展人类基因型相关性的主数据库。在需要时或适当时,可以通过访问来自存储在数据库中的个体基因组图谱中的相关信息进行更新。例如,获知的新基因型相关性可以基于特定的基因变型。然后,可以通过仅仅获取和比较个体的完整基因组图谱中仅该基因的部分而确定个体是否可能受该新的基因型相关性的影响。
优选对基因组查询的结果进行分析和解释以便以可以理解的形式呈递给个体。然后,在步骤117中,如上面详细描述的通过邮寄或通过在线入口界面以安全、机密的方式向患者提供初始筛查的结果。
报告可以包括表型谱以及关于表型谱中表型的基因组信息,例如,关于所涉及的基因的基本遗传学信息或者遗传性变型在不同群体中的统计学信息。可以包括在报告中的基于表型谱的其它信息是预防对策、健康信息、治疗方法、症状认识、早期检测方案、介入方案以及表型的进一步鉴定和分类。在个体基因组图谱的初始筛查之后,进行或可以进行可控的、适度的更新。
当新的基因型相关性出现并且被验证和核准时,结合主数据库的更新,对个体基因组图谱进行更新或者可获得更新。基于新的基因型相关性的新规则可以应用于初始基因组图谱以提供更新的表型谱。在步骤127中通过将个体的基因组图谱的相关部分与新的基因型相关性相比较,可以生成更新的基因型相关性分布图。例如,如果基于特定基因中的变异发现新的基因型相关性,则可以就新的基因型相关性对个体基因组图谱的该基因部分进行分析。在这一情况下,可以将一条或多条规则应用于生成更新的表型谱,而不是用具有已经应用的规则的整个规则集更新表型谱。在步骤129中,以加密的方式提供个体的更新基因型相关性的结果。
初始的和更新的表型谱可以是提供给注册用户或消费者的服务。可以提供基因组图谱分析的不同注册水平及其组合。同样地,注册水平可以发生变化以向个体提供他们希望接受的具有其基因型相关性的服务量的选择。这样,提供的服务等级将随着个体购买的服务注册水平发生改变。
注册用户的入门级注册可以包括基因组图谱和初始表型谱。这可以是基础注册水平。在基础注册水平内可以有不同的服务等级。例如,特定的注册水平可以提供对于遗传咨询、在治疗或预防特定疾病方面具有特别专业知识的医生和其它服务选项的介绍。可以在线或通过电话获得遗传咨询。在另一实施方式中,注册的价格可能取决于个体选择用于其表型谱的表型的数量。另一选项可能为是否注册用户选择访问在线遗传咨询。
在另一情况中,注册可以提供初始的全基因组的基因型相关性,同时在数据库中维持个体的基因组图谱;如果个体如此选择的话,这一数据库可以是加密的。在这一初始分析之后,后续分析和附加的结果可以在个体请求和另外付款时完成。这可以是高级注册。
在本发明商业方法的一个实施方式中,进行个体风险的更新并且在注册基础上可以向个体提供相应信息。购买高级注册的注册用户可以获得更新。对于基因型相关性分析的注册可以根据个体偏好提供新基因型相关性的特定类型或亚类的更新。例如,个体可能仅希望获悉存在已知治疗或预防过程的基因型相关性。为了帮助个体决定是否进行另外的分析,可以向个体提供关于已可利用的另外的基因型相关性的信息。这一信息可以方便地邮寄或发送电子邮件给注册用户。
在高级注册中,可以存在更多的服务等级,例如在基础注册中所提及的那些。可以在高等级中提供其它的注册模式。例如,最高等级可以向注册用户提供无限制的更新和报告。当确定新的相关性和规则时,可以更新注册用户的分布图。在这一等级中,注册用户也可以允许无限制数目的个体进行访问,例如家庭成员和保健管理者。注册用户也可以无限制地访问在线遗传顾问和医生。
在高等级内的下一注册水平可以提供更多限制的方面,例如有限次数的更新。注册用户可以在注册期间内对其基因组图谱进行有限次数的更新,例如,一年4次。在另一注册水平中,注册用户可以一周一次、一月一次或一年一次对其存储的基因组图谱进行更新。在另一实施方式中,注册用户仅可以具有可以选择更新其基因组图谱的有限数目的表型。
个人入口也将方便地使个体能够维持对于风险或相关性更新和/或信息更新的注册,或者请求更新的风险评估和信息。如上所述,可以提供不同的注册水平以使个体能够选择各种水平的基因型相关性结果和更新,并且注册用户可以通过其个人入口选择不同注册水平。
这些注册选项中的任一项将对本发明商业方法的收入流作出贡献。本发明商业方法的收入流也通过添加新的消费者和注册用户而增加,其中新的基因组图谱加入到数据库中。
表1:具有与表型相关的遗传性变型的典型基因。
  基因   表型
  A2M   阿尔茨海默氏病
  ABCA1   胆固醇,HDL
  ABCB1   HIV
  ABCB1   癫痫
  ABCB1   肾移植并发症
  ABCB1   地高辛,血清浓度
  ABCB1   克罗恩氏病;溃疡性结肠炎
  ABCB1   帕金森氏病
  ABCC8   2型糖尿病
  ABCC8   糖尿病,2型
  ABO   心肌梗死
  ACADM   中链酰基-CoA脱氢酶缺乏
  ACDC   2型,糖尿病
  ACE   2型糖尿病
  ACE   高血压
  ACE   阿尔茨海默氏病
  ACE   心肌梗死
  ACE   心血管的
  ACE   左心室肥大
  ACE   冠状动脉疾病
  ACE   动脉粥样硬化,冠状
  ACE   视网膜病,糖尿病的
  ACE   系统性红斑狼疮
  ACE   血压,动脉的
  ACE   勃起机能障碍
  ACE   狼疮
  基因   表型
  ACE   多囊性肾病
  ACE   中风
  ACP1   糖尿病,1型
  ACSM1(LIP)c   胆固醇水平
  ADAM33   哮喘
  ADD1   高血压
  ADD1   血压,动脉的
  ADH1B   酒精滥用
  ADH1C   酒精滥用
  ADIPOQ   糖尿病,2型
  ADIPOQ   肥胖
  ADORA2A   恐慌病
  ADRB1   高血压
  ADRB1   心力衰竭
  ADRB2   哮喘
  ADRB2   高血压
  ADRB2   肥胖
  ADRB2   血压,动脉的
  ADRB2   2型糖尿病
  ADRB3   肥胖
  ADRB3   2型糖尿病
  ADRB3   高血压
  AGT   高血压
  AGT   2型糖尿病
  AGT   原发性高血压
  AGT   心肌梗死
  AGTR1   高血压
  基因   表型
  AGTR2   高血压
  AHR   乳腺癌
  ALAD   铅毒性
  ALDH2   酒精中毒
  ALDH2   酒精滥用
  ALDH2   结肠直肠癌
  ALDRL2   2型糖尿病
  ALOX5   哮喘
  ALOX5AP   哮喘
  APBB1   阿尔茨海默氏病
  APC   结肠直肠癌
  APEX1   肺癌
  APOA1   动脉粥样硬化,冠状的
  APOA1   胆固醇,HDL
  APOA1   冠状动脉疾病
  APOA1   2型糖尿病
  APOA4   2型糖尿病
  APOA5   甘油三酯
  APOA5   动脉粥样硬化,冠状的
  APOB   高胆固醇血症
  APOB   肥胖
  APOB   心血管的
  APOB   冠状动脉疾病
  APOB   冠心病
  APOB   2型糖尿病
  APOC1   阿尔茨海默氏病
  APOC3   甘油三酯
  基因   表型
  APOC3   2型糖尿病
  APOE   阿尔茨海默氏病
  APOE   2型糖尿病
  APOE   多发性硬化症
  APOE   动脉粥样硬化,冠状的
  APOE   帕金森氏病
  APOE   冠心病
  APOE   心肌梗死
  APOE   中风
  APOE   阿尔茨海默氏病
  APOE   冠状动脉疾病
  APP   阿尔茨海默氏病
  AR   前列腺癌
  AR   乳腺癌
  ATM   乳腺癌
  ATP7B   威尔逊病
  ATXN8OS   脊髓小脑性共济失调
  BACE1   阿尔茨海默氏病
  BCHE   阿尔茨海默氏病
  BDKRB2   高血压
  BDNF   阿尔茨海默氏病
  BDNF   双相性精神障碍
  BDNF   帕金森氏病
  BDNF   精神分裂症
  BDNF   记忆力
  BGLAP   骨密度
  BRAF   甲状腺癌
  基因   表型
  BRCA1   乳腺癌
  BRCA1   乳腺癌;卵巢癌
  BRCA1   卵巢癌
  BRCA2   乳腺癌
  BRCA2   乳腺癌;卵巢癌
  BRCA2   卵巢癌
  BRIP1   乳腺癌
  C4A   系统性红斑狼疮
  CALCR   骨密度
  CAMTA1   情景记忆
  CAPN10   糖尿病,2型
  CAPN10   2型糖尿病
  CAPN3   肌肉萎缩症
  CARD15   克罗恩氏病
  CARD15   克罗恩氏病;溃疡性结肠炎
  CARD15   炎性肠病
  CART   肥胖
  CASR   骨密度
  CCKAR   精神分裂症
  CCL2   系统性红斑狼疮
  CCL5   HIV
  CCL5   哮喘
  CCND1   结肠直肠癌
  CCR2   HIV
  CCR2   HIV感染
  CCR2   丙型肝炎
  CCR2   心肌梗塞
  基因   表型
  CCR3   哮喘
  CCR5   HIV
  CCR5   HIV感染
  CCR5   丙型肝炎
  CCR5   哮喘
  CCR5   多发性硬化症
  CD14   特异反应性(atopy)
  CD14   哮喘
  CD14   克罗恩氏病
  CD14   克罗恩氏病;溃疡性结肠炎
  CD14   牙周炎
  CD14   总IgE
  CDH1   前列腺癌
  CDH1   结肠直肠癌
  CDKN2A   黑素瘤
  CDSN   牛皮癣
  CEBPA   白血病,骨髓的
  CETP   动脉粥样硬化,冠状的
  CETP   冠心病
  CETP   高胆固醇血症
  CFH   黄斑变性
  CFTR   囊性纤维病
  CFTR   胰腺炎
  CFTR   囊性纤维病
  CHAT   阿尔茨海默氏病
  CHEK2   乳腺癌
  CHRNA7   精神分裂症
  基因   表型
  CMA1   特应性皮炎
  CNR1   精神分裂症
  COL1A1   骨密度
  COL1A1   骨质疏松症
  COL1A2   骨密度
  COL2A1   骨关节炎
  COMT   精神分裂症
  COMT   乳腺癌
  COMT   帕金森氏病
  COMT   双相性精神障碍
  COMT   强迫性神经症
  COMT   酒精中毒
  CR1   系统性红斑狼疮
  CRP   C-反应蛋白
  CST3   阿尔茨海默氏病
  CTLA4   1型糖尿病
  CTLA4   格雷夫斯氏病
  CTLA4   多发性硬化症
  CTLA4   类风湿性关节炎
  CTLA4   系统性红斑狼疮
  CTLA4   红斑狼疮
  CTLA4   乳糜泻
  CTSD   阿尔茨海默氏病
  CX3CR1   HIV
  CXCL12   HIV
  CXCL12   HIV感染
  CYBA   动脉粥样硬化,冠状的
  基因   表型
  CYBA   高血压
  CYP11B2   高血压
  CYP11B2   左心室肥大
  CYP17A1   乳腺癌
  CYP17A1   前列腺癌
  CYP17A1   子宫内膜异位
  CYP17A1   子宫内膜癌
  CYP19A1   乳腺癌
  CYP19A1   前列腺癌
  CYP19A1   子宫内膜异位
  CYP1A1   肺癌
  CYP1A1   乳腺癌
  CYP1A1   结肠直肠癌
  CYP1A1   前列腺癌
  CYP1A1   食管癌
  CYP1A1   子宫内膜异位
  CYP1A1   细胞发生研究
  CYP1A2   精神分裂症
  CYP1A2   结肠直肠癌
  CYP1B1   乳腺癌
  CYP1B1   青光眼
  CYP1B1   前列腺癌
  CYP21A2   21-羟化酶缺失
  CYP21A2   先天性肾上腺增生
  CYP21A2   肾上腺增生,先天的
  CYP2A6   吸烟行为
  CYP2A6   烟碱
  基因   表型
  CYP2A6   肺癌
  CYP2C19   幽门螺旋杆菌感染
  CYP2C19   苯妥英
  CYP2C19   胃病
  CYP2C8   疟疾,恶性疟原虫
  CYP2C9   抗凝血剂并发症
  CYP2C9   法华令敏感性
  CYP2C9   法华林治疗,其反应
  CYP2C9   结肠直肠癌
  CYP2C9   苯妥英
  CYP2C9   醋硝香豆醇反应
  CYP2C9   凝血障碍
  CYP2C9   高血压
  CYP2D6   结肠直肠癌
  CYP2D6   帕金森氏病
  CYP2D6   CYP2D6不良代谢者表型
  CYP2E1   肺癌
  CYP2E1   结肠直肠癌
  CYP3A4   前列腺癌
  CYP3A5   前列腺癌
  CYP3A5   食管癌
  CYP46A1   阿尔茨海默氏病
  DBH   精神分裂症
  DHCR7   史-伦-奥三氏综合症
  DISC1   精神分裂症
  DLST   阿尔茨海默氏病
  DMD   肌肉萎缩症
  基因   表型
  DRD2   酒精中毒
  DRD2   精神分裂症
  DRD2   吸烟行为
  DRD2   帕金森氏病
  DRD2   迟发性运动障碍
  DRD3   精神分裂症
  DRD3   迟发性运动障碍
  DRD3   双相性精神障碍
  DRD4   注意缺陷障碍[伴多动]
  DRD4   精神分裂症
  DRD4   新异寻求(novelty seeking)
  DRD4   ADHD
  DRD4   个性品质
  DRD4   海洛因滥用
  DRD4   酒精滥用
  DRD4   酒精中毒
  DRD4   人格障碍
  DTNBP1   精神分裂症
  EDN1   高血压
  EGFR   肺癌
  ELAC2   前列腺癌
  ENPP1   2型糖尿病
  EPHB2   前列腺癌
  EPHX1   肺癌
  EPHX1   结肠直肠癌
  EPHX1   细胞生成研究
  EPHX1   慢性阻塞性肺病/COPD
  基因   表型
  ERBB2   乳腺癌
  ERCC1   肺癌
  ERCC1   结肠直肠癌
  ERCC2   肺癌
  ERCC2   细胞生成研究
  ERCC2   膀胱癌
  ERCC2   结肠直肠癌
  ESR1   骨密度
  ESR1   骨矿物质密度
  ESR1   乳腺癌
  ESR1   子宫内膜异位
  ESR1   骨质疏松症
  ESR2   骨密度
  ESR2   乳腺癌
  雌激素受体   骨矿物质密度
  F2   冠心病
  F2   中风
  F2   血栓栓塞,静脉的
  F2   先兆子痫
  F2   血栓症
  F5   血栓栓塞,静脉的
  F5   先兆子痫
  F5   心肌梗塞
  F5   中风
  F5   中风,局部缺血的
  F7   动脉粥样硬化,冠状的
  F7   心肌梗塞
  基因   表型
  F8   血友病
  F9   血友病
  FABP2   2型糖尿病
  FAS   阿尔茨海默氏病
  FASLG   多发性硬化症
  FCGR2A   系统性红斑狼疮
  FCGR2A   红斑狼疮
  FCGR2A   牙周炎
  FCGR2A   类风湿性关节炎
  FCGR2B   红斑狼疮
  FCGR2B   系统性红斑狼疮
  FCGR3A   系统性红斑狼疮
  FCGR3A   红斑狼疮
  FCGR3A   牙周炎
  FCGR3A   关节炎
  FCGR3A   类风湿性关节炎
  FCGR3B   牙周炎
  FCGR3B   牙周病
  FCGR3B   红斑狼疮
  FGB   纤维蛋白原
  FGB   心肌梗死
  FGB   冠心病
  FLT3   白血病,骨髓的
  FLT3   白血病
  FMR1   脆性X染色体综合症
  FRAXA   脆性X染色体综合症
  FUT2   幽门螺旋杆菌感染
  基因   表型
  FVL   因子V Leiden
  G6PD   G6PD缺失
  G6PD   高胆红素血症
  GABRA5   双相性精神障碍
  GBA   戈谢病
  GBA   帕金森氏病
  GCGR(FAAH,ML4R,UCP2)   体重/肥胖
  GCK   2型糖尿病
  GCLM(F12,TLR4)   动脉粥样硬化,心肌梗死
  GDNF   精神分裂症
  GHRL   肥胖
  GJB1   夏科-马里-图思病
  GJB2   耳聋
  GJB2   听力丧失,感觉神经非综合征的
  GJB2   听力丧失,感觉神经的
  GJB2   听力丧失/耳聋
  GJB6   听力丧失,感觉神经非综合征的
  GJB6   听力丧失/耳聋
  GNAS   高血压
  GNB3   高血压
  GPX1   肺癌
  GRIN1   精神分裂症
  GRIN2B   精神分裂症
  GSK3B   双相性精神障碍
  GSTM1   肺癌
  GSTM1   结肠直肠癌
  GSTM1   乳腺癌
  基因   表型
  GSTM1   前列腺癌
  GSTM1   细胞生成研究
  GSTM1   膀胱癌
  GSTM1   食管癌
  GSTM1   头颈癌
  GSTM1   白血病
  GSTM1   帕金森氏病
  GSTM1   胃癌
  GSTP1   肺癌
  GSTP1   结肠直肠癌
  GSTP1   乳腺癌
  GSTP1   细胞生成研究
  GSTP1   前列腺癌
  GSTT1   肺癌
  GSTT1   结肠直肠癌
  GSTT1   乳腺癌
  GSTT1   前列腺癌
  GSTT1   膀胱癌
  GSTT1   细胞生成研究
  GSTT1   哮喘
  GSTT1   苯毒性
  GSTT1   食管癌
  GSTT1   头颈癌
  GYS1   2型糖尿病
  HBB   地中海贫血
  HBB   地中海贫血,β-
  HD   亨延顿氏舞蹈病
  基因   表型
  HFE   血色沉着症
  HFE   铁水平
  HFE   结肠直肠癌
  HK2   2型糖尿病
  HLA   类风湿性关节炎
  HLA   1型糖尿病
  HLA   贝切特氏病
  HLA   乳糜泻
  HLA   牛皮癣
  HLA   格雷夫斯病
  HLA   多发性硬化症
  HLA   精神分裂症
  HLA   哮喘
  HLA   糖尿病
  HLA   狼疮
  HLA-A   白血病
  HLA-A   HIV
  HLA-A   糖尿病,1型
  HLA-A   移植物抗宿主病
  HLA-A   多发性硬化症
  HLA-B   白血病
  HLA-B   贝切特氏病
  HLA-B   乳糜泻
  HLA-B   糖尿病,1型
  HLA-B   移植物抗宿主病
  HLA-B   肉样瘤病
  HLA-C   牛皮癣
  基因   表型
  HLA-DPA1   麻疹
  HLA-DPB1   糖尿病,1型
  HLA-DPB1   哮喘
  HLA-DQA1   糖尿病,1型
  HLA-DQA1   乳糜泻
  HLA-DQA1   子宫颈癌
  HLA-DQA1   哮喘
  HLA-DQA1   多发性硬化症
  HLA-DQA1   糖尿病,2型;糖尿病,1型
  HLA-DQA1   红斑狼疮
  HLA-DQA1   妊娠丧失,复发的
  HLA-DQA1   牛皮癣
  HLA-DQB1   糖尿病,1型
  HLA-DQB1   乳糜泻
  HLA-DQB1   多发性硬化症
  HLA-DQB1   子宫颈癌
  HLA-DQB1   红斑狼疮
  HLA-DQB1   妊娠丧失,复发的
  HLA-DQB1   关节炎
  HLA-DQB1   哮喘
  HLA-DQB1   HIV
  HLA-DQB1   淋巴瘤
  HLA-DQB1   结核病
  HLA-DQB1   类风湿性关节炎
  HLA-DQB1   糖尿病,2型
  HLA-DQB1   移植物抗宿主病
  HLA-DQB1   发作性睡眠
  基因   表型
  HLA-DQB1   关节炎,风湿样的
  HLA-DQB1   胆管炎,硬化性的
  HLA-DQB1   糖尿病,2型;糖尿病,1型
  HLA-DQB1   格雷夫斯氏病
  HLA-DQB1   丙型肝炎
  HLA-DQB1   丙型肝炎,慢性的
  HLA-DQB1   疟疾
  HLA-DQB1   疟疾,恶性疟原虫
  HLA-DQB1   黑素瘤
  HLA-DQB1   牛皮癣
  HLA-DQB1   舍格伦综合征
  HLA-DQB1   系统性红斑狼疮
  HLA-DRB1   糖尿病,1型
  HLA-DRB1   多发性硬化症
  HLA-DRB1   系统性红斑狼疮
  HLA-DRB1   类风湿性关节炎
  HLA-DRB1   子宫颈癌
  HLA-DRB1   关节炎
  HLA-DRB1   乳糜泻
  HLA-DRB1   红斑狼疮
  HLA-DRB1   肉样瘤病
  HLA-DRB1   HIV
  HLA-DRB1   结核病
  HLA-DRB1   格雷夫斯氏病
  HLA-DRB1   淋巴瘤
  HLA-DRB1   牛皮癣
  HLA-DRB1   哮喘
  基因   表型
  HLA-DRB1   克罗恩氏病
  HLA-DRB1   移植物抗宿主病
  HLA-DRB1   丙型肝炎,慢性的
  HLA-DRB1   发作性睡眠
  HLA-DRB1   硬化症,全身的
  HLA-DRB1   舍格伦综合征
  HLA-DRB1   1型糖尿病
  HLA-DRB1   关节炎,风湿样的
  HLA-DRB1   胆管炎,硬化性的
  HLA-DRB1   糖尿病,2型;糖尿病,1型
  HLA-DRB1   幽门螺旋杆菌感染
  HLA-DRB1   丙型肝炎
  HLA-DRB1   青少年关节炎
  HLA-DRB1   白血病
  HLA-DRB1   疟疾
  HLA-DRB1   黑素瘤
  HLA-DRB1   妊娠丧失,复发的
  HLA-DRB3   牛皮癣
  HLA-G   妊娠丧失,复发的
  HMOX1   动脉粥样硬化,冠状的
  HNF4A   糖尿病,2型
  HNF4A   2型糖尿病
  HSD11B2   高血压
  HSD17B1   乳腺癌
  HTR1A   抑郁症,重型的
  HTR1B   酒精依赖
  HTR1B   酒精中毒
  基因   表型
  HTR2A   记忆力
  HTR2A   精神分裂症
  HTR2A   双相性精神障碍
  HTR2A   抑郁
  HTR2A   抑郁症,重型的
  HTR2A   自杀
  HTR2A   阿尔茨海默氏病
  HTR2A   神经性厌食症
  HTR2A   高血压
  HTR2A   强迫性神经症
  HTR2C   精神分裂症
  HTR6   阿尔茨海默氏病
  HTR6   精神分裂症
  HTRA1   湿性年龄相关性黄斑变性
  IAPP   2型糖尿病
  IDE   阿尔茨海默氏病
  IFNG   结核病
  IFNG   1型糖尿病
  IFNG   移植物抗宿主病
  IFNG   乙型肝炎
  IFNG   多发性硬化症
  IFNG   哮喘
  IFNG   乳腺癌
  IFNG   肾移植
  IFNG   肾移植并发症
  IFNG   长寿
  IFNG   妊娠丧失,复发的
  基因   表型
  IGFBP3   乳腺癌
  IGFBP3   前列腺癌
  IL10   系统性红斑狼疮
  IL10   哮喘
  IL10   移植物抗宿主病
  IL10   HIV
  IL10   肾移植
  IL10   肾移植并发症
  IL10   乙型肝炎
  IL10   青少年关节炎
  IL10   长寿
  IL10   多发性硬化症
  IL10   妊娠丧失,复发的
  IL10   类风湿性关节炎
  IL10   结核病
  IL12B   1型糖尿病
  IL12B   哮喘
  IL13   哮喘
  IL13   特异反应性
  IL13   慢性阻塞性肺病/COPD
  IL13   格雷夫斯氏病
  IL1A   牙周炎
  IL1A   阿尔茨海默氏病
  IL1B   牙周炎
  IL1B   阿尔茨海默氏病
  IL1B   胃癌
  IL1R1   1型糖尿病
  基因   表型
  IL1RN   胃癌
  IL2   哮喘;湿疹;变应性疾病
  IL4   哮喘
  IL4   特异反应性
  IL4   HIV
  IL4R   哮喘
  IL4R   特异反应性
  IL4R   总血清IgE
  IL6   骨矿化
  IL6   肾移植
  IL6   肾移植并发症
  IL6   长寿
  IL6   多发性硬化症
  IL6   骨密度
  IL6   骨矿物质密度
  IL6   结肠直肠癌
  IL6   青少年关节炎
  IL6   类风湿性关节炎
  IL9   哮喘
  INHA   卵巢功能早衰
  INS   1型糖尿病
  INS   2型糖尿病
  INS   糖尿病,1型
  INS   肥胖
  INS   前列腺癌
  INSIG2   肥胖
  INSR   2型糖尿病
  基因   表型
  INSR   高血压
  INSR   多囊性卵巢综合征
  IPF1   糖尿病,2型
  IRS1   2型糖尿病
  IRS1   糖尿病,2型
  IRS2   糖尿病,2型
  ITGB3   心肌梗死
  ITGB3   动脉粥样硬化,冠状的
  ITGB3   冠心病
  ITGB3   心肌梗塞
  KCNE1   EKG,异常
  KCNE2   EKG,异常
  KCNH2   EKG,异常
  KCNH2   QT间期延长综合症
  KCNJ11   糖尿病,2型
  KCNJ11   2型糖尿病
  KCNN3   精神分裂症
  KCNQ1   EKG,异常
  KCNQ1   QT间期延长综合症
  KIBRA   情景记忆
  KLK1   高血压
  KLK3   前列腺癌
  KRAS   结肠直肠癌
  LDLR   高胆固醇血症
  LDLR   高血压
  LEP   肥胖
  LEPR   肥胖
  基因   表型
  LIG4   乳腺癌
  LIPC   动脉粥样硬化,冠状的
  LPL   冠状动脉疾病
  LPL   高脂血症
  LPL   甘油三酯
  LRP1   阿尔茨海默氏病
  LRP5   骨密度
  LRRK2   帕金森氏病
  LRRK2   帕金森病
  LTA   1型糖尿病
  LTA   哮喘
  LTA   系统性红斑狼疮
  LTA   败血症
  LTC4S   哮喘
  MAOA   酒精中毒
  MAOA   精神分裂症
  MAOA   双相性精神障碍
  MAOA   吸烟行为
  MAOA   人格障碍
  MAOB   帕金森氏病
  MAOB   吸烟行为
  MAPT   帕金森氏病
  MAPT   阿尔茨海默氏病
  MAPT   痴呆
  MAPT   额颞痴呆
  MAPT   进行性核上性麻痹
  MC1R   黑素瘤
  基因   表型
  MC3R   肥胖
  MC4R   肥胖
  MECP2   Rett综合征
  MEFV   家族性地中海热
  MEFV   淀粉样变性病
  MICA   1型糖尿病
  MICA   贝切特氏病
  MICA   乳糜泻
  MICA   类风湿性关节炎
  MICA   系统性红斑狼疮
  MLH1   结肠直肠癌
  MME   阿尔茨海默氏病
  MMP1   肺癌
  MMP1   卵巢癌
  MMP1   牙周炎
  MMP3   心肌梗塞
  MMP3   卵巢癌
  MMP3   类风湿性关节炎
  MPO   肺癌
  MPO   阿尔茨海默氏病
  MPO   乳腺癌
  MPZ   夏科-马里-图思病
  MS4A2   哮喘
  MS4A2   特异反应性
  MSH2   结肠直肠癌
  MSH6   结肠直肠癌
  MSR1   前列腺癌
  基因   表型
  MTHFR   结肠直肠癌
  MTHFR   2型糖尿病
  MTHFR   神经管缺陷
  MTHFR   高半胱氨酸
  MTHFR   血栓栓塞,静脉的
  MTHFR   动脉粥样硬化,冠状的
  MTHFR   阿尔茨海默氏病
  MTHFR   食管癌
  MTHFR   先兆子痫
  MTHFR   妊娠丧失,复发的
  MTHFR   中风
  MTHFR   血栓症,深静脉
  MT-ND1   糖尿病,2型
  MTR   结肠直肠癌
  MT-RNR1   听力丧失,感觉神经非综合征的
  MTRR   神经管缺陷
  MTRR   高半胱氨酸
  MT-TL1   糖尿病,2型
  MUTYH   结肠直肠癌
  MYBPC3   心肌病
  MYH7   心肌病
  MYOC   青光眼,原发开角
  MYOC   青光眼
  NAT1   结肠直肠癌
  NAT1   乳腺癌
  NAT1   膀胱癌
  NAT2   结肠直肠癌
  基因   表型
  NAT2   膀胱癌
  NAT2   乳腺癌
  NAT2   肺癌
  NBN   乳腺癌
  NCOA3   乳腺癌
  NCSTN   阿尔茨海默氏病
  NEUROD1   1型糖尿病
  NF1   神经纤维瘤病1
  NOS1   哮喘
  NOS2A   多发性硬化症
  NOS3   高血压
  NOS3   冠心病
  NOS3   动脉粥样硬化,冠状的
  NOS3   冠状动脉疾病
  NOS3   心肌梗死
  NOS3   急性冠状动脉综合征
  NOS3   血压,动脉的
  NOS3   先兆子痫
  NOS3   一氧化氮
  NOS3   阿尔茨海默氏病
  NOS3   哮喘
  NOS3   2型糖尿病
  NOS3   心血管病
  NOS3   贝切特氏病
  NOS3   勃起机能障碍
  NOS3   肾衰竭,慢性的
  NOS3   铅毒性
  基因   表型
  NOS3   左心室肥大
  NOS3   妊娠丧失,复发的
  NOS3   视网膜病,糖尿病的
  NOS3   中风
  NOTCH4   精神分裂症
  NPY   酒精滥用
  NQO1   肺癌
  NQO1   结肠直肠癌
  NQO1   苯毒性
  NQO1   膀胱癌
  NQO1   帕金森氏病
  NR3C2   高血压
  NR4A2   帕金森氏病
  NRG1   精神分裂症
  NTF3   精神分裂症
  OGG1   肺癌
  OGG1   结肠直肠癌
  OLR1   阿尔茨海默氏病
  OPA1   青光眼
  OPRM1   酒精滥用
  OPRM1   药物依赖
  OPTN   青光眼,原发开角
  P450   药物代谢作用
  PADI4   类风湿性关节炎
  PAH   苯丙酮酸尿症/PKU
  PAI1   冠心病
  PAI1   哮喘
  基因   表型
  PALB2   乳腺癌
  PARK2   帕金森氏病
  PARK7   帕金森氏病
  PDCD1   红斑狼疮
  PINK1   帕金森氏病
  PKA   记忆力
  PKC   记忆力
  PLA2G4A   精神分裂症
  PNOC   精神分裂症
  POMC   肥胖
  PON1   动脉粥样硬化,冠状的
  PON1   帕金森氏病
  PON1   2型糖尿病
  PON1   动脉粥样硬化
  PON1   冠状动脉疾病
  PON1   冠心病
  PON1   阿尔茨海默氏病
  PON1   长寿
  PON2   动脉粥样硬化,冠状的
  PON2   早产
  PPARG   2型糖尿病
  PPARG   肥胖
  PPARG   糖尿病,2型
  PPARG   结肠直肠癌
  PPARG   高血压
  PPARGC1A   糖尿病,2型
  PRKCZ   2型糖尿病
  基因   表型
  PRL   系统性红斑狼疮
  PRNP   阿尔茨海默氏病
  PRNP   克雅氏病
  PRNP   雅-克二氏病
  PRODH   精神分裂症
  PRSS1   胰腺炎
  PSEN1   阿尔茨海默氏病
  PSEN2   阿尔茨海默氏病
  PSMB8   1型糖尿病
  PSMB9   1型糖尿病
  PTCH   皮肤癌,非黑素瘤
  PTGIS   高血压
  PTGS2   结肠直肠癌
  PTH   骨密度
  PTPN11   努南综合症
  PTPN22   类风湿性关节炎
  PTPRC   多发性硬化症
  PVT1   终末期肾病
  RAD51   乳腺癌
  RAGE   视网膜病,糖尿病的
  RB1   视网膜母细胞瘤
  RELN   精神分裂症
  REN   高血压
  RET   甲状腺癌
  RET   赫希施普龙氏病
  RFC1   神经管缺陷
  RGS4   精神分裂症
  基因   表型
  RHO   色素性视网膜炎
  RNASEL   前列腺癌
  RYR1   恶性体温过高
  SAA1   淀粉样变性病
  SCG2   高血压
  SCG3   肥胖
  SCGB1A1   哮喘
  SCN5A   Brugada综合症
  SCN5A   EKG,异常
  SCN5A   QT间期延长综合症
  SCNN1B   高血压
  SCNN1G   高血压
  SERPINA1   COPD
  SERPINA3   阿尔茨海默氏病
  SERPINA3   COPD
  SERPINA3   帕金森氏病
  SERPINE1   心肌梗塞
  SERPINE1   2型糖尿病
  SERPINE1   动脉粥样硬化,冠状的
  SERPINE1   肥胖
  SERPINE1   先兆子痫
  SERPINE1   中风
  SERPINE1   高血压
  SERPINE1   妊娠丧失,复发的
  SERPINE1   血栓栓塞,静脉的
  SLC11A1   结核病
  SLC22A4   克罗恩氏病;溃疡性结肠炎
  基因   表型
  SLC22A5   克罗恩氏病;溃疡性结肠炎
  SLC2A1   2型糖尿病
  SLC2A2   2型糖尿病
  SLC2A4   2型糖尿病
  SLC3A1   胱氨酸尿
  SLC6A3   注意缺陷障碍[伴多动]
  SLC6A3   帕金森氏病
  SLC6A3   吸烟行为
  SLC6A3   酒精中毒
  SLC6A3   精神分裂症
  SLC6A4   抑郁
  SLC6A4   抑郁症,重型的
  SLC6A4   精神分裂症
  SLC6A4   自杀
  SLC6A4   酒精中毒
  SLC6A4   双相性精神障碍
  SLC6A4   个性品质
  SLC6A4   注意缺陷障碍[伴多动]
  SLC6A4   阿尔茨海默氏病
  SLC6A4   人格障碍
  SLC6A4   恐慌病
  SLC6A4   酒精滥用
  SLC6A4   情感障碍
  SLC6A4   焦虑障碍
  SLC6A4   吸烟行为
  SLC6A4   抑郁症,重型的;双相性精神障碍
  SLC6A4   海洛因滥用
  基因   表型
  SLC6A4   肠易激综合症
  SLC6A4   偏头痛
  SLC6A4   强迫性神经症
  SLC6A4   自杀行为
  SLC7A9   胱氨酸尿
  SNAP25   ADHD
  SNCA   帕金森氏病
  SOD1   ALS/肌萎缩性脊髓侧索硬化
  SOD2   乳腺癌
  SOD2   肺癌
  SOD2   前列腺癌
  SPINK1   胰腺炎
  SPP1   多发性硬化症
  SRD5A2   前列腺癌
  STAT6   哮喘
  STAT6   总IgE
  SULT1A1   乳腺癌
  SULT1A1   结肠直肠癌
  TAP1   1型糖尿病
  TAP1   红斑狼疮
  TAP2   1型糖尿病
  TAP2   糖尿病,1型
  TBX21   哮喘
  TBXA2R   哮喘
  TCF1   糖尿病,2型
  TCF1   2型糖尿病
  TF   阿尔茨海默氏病
  基因   表型
  TGFB1   乳腺癌
  TGFB1   肾移植
  TGFB1   肾移植并发症
  TH   精神分裂症
  THBD   心肌梗死
  TLR4   哮喘
  TLR4   克罗恩氏病;溃疡性结肠炎
  TLR4   败血症
  TNF   哮喘
  TNFA   脑血管疾病
  TNF   1型糖尿病
  TNF   类风湿性关节炎
  TNF   系统性红斑狼疮
  TNF   肾移植
  TNF   牛皮癣
  TNF   败血症
  TNF   2型糖尿病
  TNF   阿尔茨海默氏病
  TNF   克罗恩氏病
  TNF   糖尿病,1型
  TNF   乙型肝炎
  TNF   肾移植并发症
  TNF   多发性硬化症
  TNF   精神分裂症
  TNF   乳糜泻
  TNF   肥胖
  TNF   妊娠丧失,复发的
  基因   表型
  TNFRSF11B   骨密度
  TNFRSF1A   类风湿性关节炎
  TNFRSF1B   类风湿性关节炎
  TNFRSF1B   系统性红斑狼疮
  TNFRSF1B   关节炎
  TNNT2   心肌病
  TP53   肺癌
  TP53   乳腺癌
  TP53   结肠直肠癌
  TP53   前列腺癌
  TP53   子宫颈癌
  TP53   卵巢癌
  TP53   吸烟
  TP53   食管癌
  TP73   肺癌
  TPH1   自杀
  TPH1   抑郁症,重型的
  TPH1   自杀行为
  TPH1   精神分裂症
  TPMT   硫代嘌呤甲基转移酶活性
  TPMT   白血病
  TPMT   炎性肠病
  TPMT   硫代嘌呤S-甲基转移酶表型
  TSC1   结节性硬化症
  TSC2   结节性硬化症
  TSHR   格雷夫斯氏病
  TYMS   结肠直肠癌
  基因   表型
  TYMS   胃癌
  TYMS   食管癌
  UCHL1   帕金森氏病
  UCP1   肥胖
  UCP2   肥胖
  UCP3   肥胖
  UGT1A1   高胆红素血症
  UGT1A1   日尔贝综合症
  UGT1A6   结肠直肠癌
  UGT1A7   结肠直肠癌
  UTS2   糖尿病,2型
  VDR   骨密度
  VDR   前列腺癌
  VDR   骨矿物质密度
  VDR   1型糖尿病
  VDR   骨质疏松症
  VDR   骨量
  VDR   乳腺癌
  VDR   铅毒性
  VDR   结核病
  VDR   2型糖尿病
  VEGF   乳腺癌
  Vit D rec   特发性身材矮小症
  VKORC1   华法林疗法,其反应
  WNK4   高血压
  XPA   肺癌
  XPC   肺癌
  基因   表型
  XPC   细胞生成研究
  XRCC1   肺癌
  XRCC1   细胞生成研究
  XRCC1   乳腺癌
  XRCC1   膀胱癌
  XRCC2   乳腺癌
  XRCC3   乳腺癌
  XRCC3   细胞生成研究
  XRCC3   肺癌
  XRCC3   膀胱癌
  ZDHHC8   精神分裂症
遗传综合指数(GCI)
许多状态或疾病的病原学归因于遗传和环境因素。基因分型技术的最新进展已经提供机会以鉴定疾病与整个基因组的遗传标记之间的新的关联。实际上,许多新近的研究已经发现这些关联,其中特定的等位基因或基因型与增大的疾病风险有关。这些研究中的一些包括收集一组测试病例和一组对照以及比较两个群体间遗传标记的等位基因分布。在这些研究的一些研究中,特定遗传标记与疾病之间的关联在与其它遗传标记隔离的情况下测定,其它遗传标记作为背景处理并且不在统计分析中起作用。
遗传标记和变型可以包括SNP、核苷酸重复、核苷酸插入、核苷酸缺失、染色体易位、染色体重复或拷贝数变异。拷贝数变异可以包括微卫星重复、核苷酸重复、着丝粒重复或端粒重复。
在本发明的一个方面中,结合关于多遗传标记与一种或多种疾病或状态的关联的信息并进行分析以得到GCI评分。GCI评分可用于基于当前科学研究向未受过遗传学培训的人提供与相关群体相比他们的疾病个体风险的可靠的(即,稳固的)、可理解的和/或直观的认识。在一个实施方式中,生成不同基因座的组合效应的可靠GCI评分的方法是基于各已研究的基因座的已报告个体危险。例如,鉴定感兴趣的疾病或状态,然后查询信息来源(包括,但不限于数据库、专利公开和科学文献)以寻找有关疾病或状态与一个或多个遗传基因座的关联的信息。这些信息来源经过验证并使用质量标准进行评估。在一些实施方式中,评估过程包括多个步骤。在其它实施方式中,以多个质量标准评估信息来源。源自信息资源的信息用于对于感兴趣的各疾病或状态鉴定一个或多个遗传基因座的优势比或者相对风险。
在替代的实施方式中,对于至少一个遗传基因座的优势比(OR)或相对风险(RR)不能从可得的信息来源中获得。然后使用(1)相同基因座的多个等位基因的报告OR、(2)来自数据集(例如HapMap数据集)的等位基因频率和/或(3)来自可利用资源(例如,CDC、NationalCenter for Health Statistics等)的疾病/状态流行度计算RR以得出所有感兴趣的等位基因的RR。在一个实施方式中,分别或独立地评估相同基因座的多个等位基因的OR。在优选实施方式中,结合相同基因座的多个等位基因的OR以说明在不同等位基因的OR之间的相依性(dependency)。在一些实施方式中,建立的疾病模型(包括,但不限于如积性(multiplicative)、加性(additive)、Harvard改良的、显性效应的模型)用于生成按照所选模型表示个体风险的中间评分。
在另一实施方式中,使用分析感兴趣的疾病或状态的多个模型的方法,并且该方法将由这些不同模型得到的结果相互关联;这使得可能通过选择特定疾病模型而引入的可能误差最小化。这一方法使得由信息来源得到的流行度、等位基因频率和OR评估中的合理误差对相对风险的计算的影响最小化。由于流行度评估对RR的影响的“线性”或单调性特征,不正确地估计流行度对最终评分只有很少或没有影响;假定相同的模型一致地应用于生成报告的所有个体。
在另一实施方式中,使用将环境/行为/人口数据作为附加的“基因座”考虑的方法。在相关的实施方式中,这些数据可以由信息来源得到,例如医学或科学文献或数据库(例如,吸烟w/肺癌的关联或者来自保险业健康风险评估)。在一个实施方式中,对于一种或多种复杂疾病产生GCI评分。复杂疾病可以被多个基因、环境因素及它们的相互作用影响。当研究复杂疾病时,需要分析大量可能的相互作用。在一个实施方式中,例如Bonferroni校正的程序用于校正多重比较。在替代的实施方式中,当测试是独立的或者显示特别类型的相依性时,使用Simes检验控制整体显著性水平(也称为“族系误差率”)(Sarkar S.(1998))。对于有序MTP2随机变量的一些概率不等式:Simes假设的证明(Ann Stat 26:494-504)。如果在1,...,K中对于任何k,p(k)≤αk/K,那么Simes检验拒绝所有K检验特异性零假设为真的全局零假设(Simes RJ(1986)An improved Bonferroni procedure formultiple tests of significance.Biometrika 73:751-754)。
可在多基因和多环境因素分析的情况中使用的其它实施方式控制错误发现率(false-discovery rate),即错误拒绝的拒绝零假设的预计比例。正如在微阵列研究中,当零假设的一部分可以假定为错误时,这一方法是特别有益的。Devlin等人(2003,Analysis of multilocusmodels of association.Genet Epidemiol 25:36-47)提出了当在多基因座关联研究中测试大量可能的基因×基因相互作用时控制错误发现率的Benjamini和Hochberg(1995,Controlling the false discovery rate:a practical and powerful approach to multiple testing.J R Stat Soc Ser B57:289-300)递增程序的变型。Benjamini和Hochberg程序与Simes检验有关;设定k*=maxk以致p(k)≤αk/K,其拒绝所有对应于
Figure G2007800500195D00801
的k*零假设。事实上,当所有零假设为真时,Benjamini和Hochberg程序简化为Simes检验(Benjamini Y,Yekutieli D(2001)The control ofthe false discovery rate in multiple testing under dependency.Ann Stat29:1165-1188)。
在一些实施方式中,个体基于其中间评分与个体的群体比较进行排位以产生最终评分,这可以表示为在群体中的排位,例如第99分位或第99、98、97、96、95、94、93、92、91、90、89、88、87、86、85、84、83、82、81、80、79、78、77、76、75、74、73、72、71、70、69、65、60、55、50、45、40、40、35、30、25、20、15、10、5或0分位。在另一实施方式中,评分可以显示为范围,例如第100至95分位、第95至85分位、第85至60分位或者在第100至0分位之间的任何子范围。在又另一实施方式中,个体按四分位进行排位,例如最高的第75四分位或者最低的第25四分位。在进一步的实施方式中,个体与群体中的平均或中位评分比较进行排位。
在一个实施方式中,与个体相比较的群体包括大量来自不同地理和种族背景的人,例如全球性群体。在其它实施方式中,与个体相比较的群体限于特定地理、家系、种族、性别、年龄(胎儿、新生儿、儿童、少年、青年、成年人、老年人个体)、疾病状态(例如,有症状的、无症状的、携带者、早发、迟发)。在一些实施方式中,与个体相比较的群体源自公开和/或私人信息来源报道的信息。
在一个实施方式中,使用显示装置使个体的GCI评分或GCIPlus评分可视化。在一些实施方式中,显示屏(例如,计算机监视器或电视屏)用于可视化显示,例如具有相关信息的个人入口。在另一实施方式中,显示装置是静态显示装置,例如打印页面。在一个实施方式中,显示可以包括,但不限于一种或多种以下装置:箱元(bin)(例如,1-5、6-10、11-15、16-20、21-25、26-30、31-35、36-40、41-45、46-50、51-55、56-60、61-65、66-70、71-75、76-80、81-85、86-90、91-95、96-100)、彩色或灰度梯度、温度表、量表、饼图、柱形图或棒图。例如,图18和19为MS的不同显示并且图20为用于克罗恩氏病。在另一实施方式中,温度表用于显示GCI评分和疾病/状态流行度。在另一实施方式中,温度表显示随着报告的GCI评分变化的水平,例如,图15至17,颜色与风险对应。温度表可以显示随GCI评分增大的色度变化(例如,从较低GCI评分的蓝色逐渐变化至较高GCI评分的红色)。在相关实施方式中,温度表显示随报告的GCI评分变化的水平和随风险级别增大的色度变化。
在替代的实施方式中,使用听觉反馈向个体传递个体的GCI评分。在一个实施方式中,听觉反馈为危险等级是高或低的口头说明。在另一实施方式中,听觉反馈为特殊的GCI评分的叙述,例如数字、百分位、范围、四分位或者与群体平均或中间GCI评分的比较。在一个实施方式中,有生命的人亲自或者通过通信装置,例如电话(陆上线路电话、便携式电话或卫星电话)传递听觉反馈,或者通过个人入口传递听觉反馈。在另一实施方式中,听觉反馈通过自动系统(例如计算机)传递。在一个实施方式中,听觉反馈作为互动声音反应(IVR)系统的部分传递,该系统是一种允许计算机使用正常电话呼叫检测语音和按键音的技术。在另一实施方式中,个体可以通过IVR系统与中央服务器互动。IVR系统可以对事先录制或动态产生的音频作出反应以与个体互动并且向他们提供其风险等级的听觉反馈。在一个实施例中,个体可以呼叫由IVR回答的号码。在任选地输入认证码、安全码或经过语音识别程序后,IVR系统让对象从菜单中选择选项,例如按键音或语音菜单。这些选项中的一个可以向个体提供他或她的风险等级。
在另一实施方式中,个体的GCI评分使用显示装置可视化并且使用听觉反馈传递,例如通过个人入口。这一组合可以包括GCI评分的可视显示和听觉反馈,其讨论GCI评分对个体的整体健康的相关性和可以提出的可能的预防措施。
在一个实施例中,使用多步法生成GCI评分。开始,对于要研究的各状态,计算源自各遗传标记的优势比的相对风险。对于p=0.01、0.02、...、0.5的每个流行度值,HapMap CEU群体的GCI评分基于流行度和HapMap等位基因频率计算。如果在变化的流行度下GCI评分不变,则考虑的唯一假定为存在积性模型。另外,可以确定该模型对流行度敏感。对于未调用值的任何组合,获得相对风险和评分在HapMap群体中的分布。对于各新个体,个体得分与HapMap分布比较并且所得评分为个体在这一群体中的排位。由于过程中所作的假设的原因,报告的评分的分辨率可能较低。群体将划分成分位点(3-6个箱元),并且报告的箱元将是其中个体排位落入的一个。基于例如对于各疾病的评分的分辨率的考虑,箱元的数量对不同疾病可以是不同的。在不同HapMap个体的评分之间连结的情况下,将使用平均排位。
在一个实施方式中,较高的GCI评分解释为表示获得或被诊断具有状态或疾病的增大风险。在另一实施方式中,使用数学模型以得出GCI评分。在一些实施方式中,GCI评分基于说明作为关于群体和/或疾病或状态的信息的基础的不完全特征的数学模型。在一些实施方式中,数学模型包括作为计算GCI评分的基础的部分的特定的至少一个假设,其中所述假设包括,但不限于:给定优势比值的假设;状态的流行度已知的假设;群体中的基因型频率已知的假设;和消费者来自与研究所使用的群体和与HapMap相同的家系背景的假设;合并风险为个体遗传标记的不同危险因子的积的假设。在一些实施方式中,GCI也可以包括基因型的多基因型频率为各SNP或个体遗传标记(例如,不同SNP或遗传标记在整个群体内是独立的)的等位基因频率的积的假设。
积性模型
在一个实施方式中,在归因于遗传标记集合的风险是归因于个别遗传标记的风险的积的假设下计算GCI评分。这意味着不同遗传标记与其它遗传标记无关地归因于疾病的风险。形式上,存在具有风险等位基因r1、...、rk和非风险等位基因n1、...、nk的k个遗传标记。在SNPi中,我们表示三个可能的基因型值为riri、niri和nini。个体的基因型信息可以通过向量(g1、...、gk)描述,其中根据i位置上风险等位基因的数目,gi可以是0、1或2。我们通过λ1 i表示与i位置上纯合非风险等位基因相比的相同位置上杂合基因型的相对风险。换句话说,我们定义 λ i 1 = P ( D | n i r i | ) P ( D | n i n i | ) . 相似地,我们表示riri遗传型的相对风险为 λ i 2 = P ( D | n i r i | ) P ( D | n i n i | ) . 在积性模型下,我们假定具有基因型(g1、...、gk)的个体的风险为 GCI ( g 1 , . . . , g k ) = Π i = 1 k λ g i i . 积性模型此前已经用于文献中以模拟病例对照研究或用于可视化目的。
评估相对风险
在另一实施方式中,对于不同遗传标记的相对风险是已知的,并且积性模型可以用于风险评价。但是,在一些包括关联研究的实施方式中,研究设计防止报告相对风险。在一些病例对照研究中,相对风险不能在没有进一步的假设的情况下直接由数据计算。代替报告相对风险,通常的方式是报告基因型的优势比(OR),其是携带给定风险基因型疾病(riri或niri)的机率对不携带给定风险基因型疾病的机率的比。形式上,
OR i 1 = P ( D | n i r i | ) P ( D | n i r i | ) · 1 - P ( D | n i n i | ) 1 - P ( D | n i r i | )
OR i 2 = P ( D | r i r i | ) P ( D | n i n i | ) · 1 - P ( D | n i n i | ) 1 - P ( D | r i r i | )
由优势比找到相对风险可能要求额外的假设。例如,假设整个种群中的等位基因频率 a = f n i n i , b = f n i r i , c = f r i r i 已知或经过评估(这些可以由现有的数据集,例如包括120个染色体的HapMap数据集进行评估),和/或假设疾病的流行度p=p(D)是已知的。由前述三个等式可以得到:
p=a·P(D|nini)+b·P(D|niri)+c·P(D|riri)
OR i 1 = P ( D | n i r i | ) P ( D | n i r i | ) · 1 - P ( D | n i n i | ) 1 - P ( D | n i r i | )
OR i 2 = P ( D | r i r i | ) P ( D | n i n i | ) · 1 - P ( D | n i n i | ) 1 - P ( D | r i r i | )
通过相对风险的定义,在除以pP(D|nini)项后,第一等式可以改写为:
1 P ( D | n i n i ) = a + bλ 1 i + cλ 2 i p ,
并且因此,后两个等式可以改写为:
OR i 1 = λ 1 i · ( a - p ) + bλ 1 i + cλ 2 i a + ( b - p ) λ 1 i + cλ 2 i
(1)
OR i 2 = λ 2 i · ( a - p ) + bλ 1 i + cλ 2 i a + bλ 1 i + ( c - p ) λ 2 i
应注意到,当a=1(非风险等位基因频率为1)时,等式系统1等同于在Zhang J和Yu K.中的Zhang和Yu公式(What’s the relativerisk?A method of correcting the odds ratio in cohort studies ofcommon outcomes.JAMA,280:1690-1,1998,其全部内容引入作为参考)。与Zhang和Yu公式相反,本发明的一些实施方式考虑到群体中的等位基因频率,其可能影响相对风险。另外一些实施方式考虑到相对风险的相互依赖性。这与独立地计算各相对风险相反。
等式系统1可以改写为具有至多四个可能解的两个二次方程。梯度下降算法(gradient descent algorithm)可以用于求解这些方程,其中起点设置为优势比,例如, λ 1 i = OR 1 i λ 2 i = OR 2 i .
例如:
f 1 ( λ 1 , λ 2 ) = OR i 1 ( a + ( b - p ) λ 1 i + cλ 2 i ) - λ 1 i · ( ( a - p ) + bλ 1 i + cλ 2 i )
f 2 ( λ 1 , λ 2 ) = OR i 2 ( a + bλ 1 i + ( c - p ) λ 2 i ) - λ 2 i · ( ( a - p ) + bλ 1 i + cλ 2 i )
找到这些方程的解相当于找到函数g(λ1,λ2)=f11,λ2)2+f21,λ2)2的最小值。
因此,
dg dλ 1 = 2 f 1 ( λ 1 , λ 2 ) · b · ( λ 2 - OR 2 ) + 2 f 2 ( λ 1 , λ 2 ) ( 2 bλ 1 + cλ 2 + a - OR 1 b - p + OR 1 p )
dg dλ 2 = 2 f 2 ( λ 1 , λ 2 ) · c · ( λ 1 - OR 1 ) + 2 f 1 ( λ 1 , λ 2 ) ( 2 cλ 2 + bλ 1 + a - OR 2 c - p + OR 2 p )
在这一实例中,我们通过设定x0=OR1,y0=OR2开始。我们将值[ε]=10-10设定为整个算法的容差常数(tolerance constant)。在迭代i中,我们定义 γ = min { 0.001 , x i - 1 [ epsilon ] + 10 | dg dλ 1 ( x i - 1 , y i - 1 ) | , y i - 1 [ epsilon ] + 10 | dg dλ 2 ( x i - 1 , y i - 1 ) | } . 而后,我们设定
x i = x i - 1 - γ dg dλ 1 ( x i - 1 , y i - 1 )
y i = y i - 1 - γ dg dλ 2 ( x i - 1 , y i - 1 )
重复这些迭代直到g(xi,yi)<容差,其中在提供的代码中容差设定为10-7
在这一实施例中,这些方程给出了a、b、c、p、OR1和OR2的不同值的正解。图10
相对风险评估的稳固性
在一些实施方式中,测定了不同参数(流行度、等位基因频率和优势比误差)对相对风险的估计值的影响。为了测定等位基因频率和流行度估计值对相对风险值的影响,计算来自一组不同优势比和不同等位基因频率的值的相对风险(在HWE下),并且这些计算的结果对于在0至1范围内的流行度值绘图。图10。另外,对于固定的流行度值,所得的相对风险可以作为风险等位基因频率的函数绘图。图11。在p=0时,λ1=OR1,且λ2=OR2,并且当p=1时,λ1=λ2=0。这可以直接从所述等式计算。另外,在一些实施方式中,当风险等位基因频率高时,λ1更接近于线性函数,并且λ2更接近于具有有界二次导数的凹函数。在极限情况下,当c=1时,λ2=OR2+p(1-OR2),并且 λ i = OR i - ( OR i - 1 ) p OR i OR 2 ( 1 - p ) + p OR 1 . 如果OR1≈OR2,后者同样接近于线性函数。当风险等位基因频率低时,λ1和λ2接近函数1/p的行为。在极限情况下,当c=0时, λ 1 = OR 1 1 - p + p OR 1 , λ 2 = OR 2 1 - p + p OR 2 . 这表明,对于高的风险等位基因频率,不正确的流行度估计值将不会显著地影响所得的相对风险。另外,对于低的风险等位基因频率,如果用流行度值p′=αp替代正确的流行度p,那么所得的相对风险将消除至多
Figure G2007800500195D00871
的系数。这被图示在图11的(c)和(d)图面中。应注意到,对于高的风险等位基因频率,两幅图面十分相似,而对于低的等位基因频率,在相对风险值的差异中存在较高的偏差,该偏差小于系数2。
计算GCI评分
在一个实施方式中,使用代表相关群体的参考集计算遗传综合指数。这一参考集可以为HapMap中的群体之一或者另一基因型数据集。
在这一实施方式中,GCI计算如下。对于k个风险基因座中的每个,使用等式系统1由优势比计算相对风险。然后,计算在参考集中各个个体的积性评分。具有积性评分s的个体的GCI是参考数据集中具有s′≤s的评分的所有个体的分数。例如,如果参考集中50%的个体具有小于s的积性评分,那么该个体的最终GCI评分将为0.5。
其它模型
在一个实施方式中,使用积性模型。在替代的实施方式中,可以将其它模型用于确定GCI评分的目的。其它适当的模型包括,但不限于:
加性模型。在加性模型下,具有基因型(g1,...gk)的个体的风险假设为 GCI ( g 1 , . . . , g k ) = Σ i = 1 k f ( λ g i i ) .
广义加性模型。在广义加性模型中,假设存在函数f以致具有基因型(g1,...gk)的个体的风险为 GCI ( g 1 , . . . , g k ) = Σ i = 1 k f ( λ g i i ) .
Harvard改良评分(Het)。这一评分由G.A Colditz等人得出,从而该评分应用于遗传标记(Harvard report on cancer preventionvolume 4:Harvard cancer risk index.Cancer Causes and Controls,11:477-488,2000,在此引入其全部内容)。虽然函数f以优势比值而不是相对风险进行运算,但是Het评分本质上是广义加性评分。这在相对风险难以评估的情况中是有用的。为了定义函数f,中间函数g定义为:
g ( x ) = 0 1 < x &le; 1.09 5 1.09 < x &le; 1.49 10 1.49 < x &le; 2.99 25 2.99 < x &le; 6.99 50 6.99 < x
接着计算 het = &Sigma; i = 1 k p het i g ( OR 1 i ) 的量,其中phet i为整个参考群体中SNP i杂合个体的频率。然后将函数f定义为f(x)=g(x)/het,并且Harvard改良评分(Het)简单地定义为
Harvard改良评分(Hom)。除了值het被值 hom = &Sigma; i = 1 k p hom i g ( OR 1 i ) 所代替以外,这一评分与Het评分相似,其中,phom i为具有纯合风险等位基因的个体的频率。
最大优势比。在这一模型中,假设遗传标记之一(具有最大优势比的一个)给出了整个对象组的组合风险的下界。形式上,具有基因型(g1,...gk)的个体的评分为 GCI ( g 1 , . . . , g k ) = max i = 1 k OR g i i .
评分间的比较
在一个实施例中,对于10个与T2D相关的SNP,在整个HapMap CEU群体上基于多个模型计算GCI评分。相关SNP为rs7754840、rs4506565、rs7756992、rs10811661、rs12804210、rs8050136、rs1111875、rs4402960、rs5215、rs1801282。对于这些SNP中的每个,三个可能的基因型的优势比在文献中进行了报道。CEU群体由三十个母亲-父亲-孩子的三人组组成。为了避免相依性,采用来自这一群体的六十位父母。排除在10个SNP之一中具有无调用的一个个体,得到59个个体的一组。然后使用几种不同的模型计算各个个体的GCI等级。
可以观察到,对于这一数据集,不同模型产生高度相关的结果。图12和13。在各对模型之间计算Spearman相关性(表2),其显示出积性和加性模型具有0.97的相关系数,并且因此使用加性或积性模型时GCI评分是稳固的。相似地,Harvard改良评分和积性模型之间的相关性为0.83,并且Harvard评分和加性模型之间的相关系数为0.7。但是,使用最大优势比作为遗传得分产生由一个SNP定义的二分评分(dichotomous score)。总的说来,这些结果表明,评分排位提供了使模型依赖性最小化的稳定构架。
表2:模型对之间CEU数据的评分分布的Spearman相关性。
Figure G2007800500195D00891
测定T2D流行度的变异对所得分布的影响。流行度值在0.001~0.512之间变化(图14)。对于T2D的情况,可以看出,不同的流行度值导致个体的相同顺序(Spearman相关性>0.99),因此可以假设流行度的人工固定值0.001。
将模型扩展至任意数量的变型
在另一实施方式中,可以将模型扩展至发生任意数量的可能变型的情况。先前的考虑涉及存在三个可能的变型(nn、nr、rr)的情况。通常,当已知多SNP关联时,可以在群体中发现任意数量的变型。例如,当两个遗传标记之间的相互作用与状态相关联时,存在九种可能的变型。这导致了八个不同优势比值。
为了概括原始公式,可以假设存在k+1种可能的变型a0,...,ak,具有频率f0,f1,...,fk,测定的优势比为1,OR1,...,ORk以及未知的相对风险值为1,λ1,...,λk。可以进一步假设,相对于a0测定所有相对风险和优势比,并且因此, &lambda; i = P ( D | a i ) P ( D | a o ) OR i = P ( D | a i ) P ( D | a o ) &CenterDot; 1 - P ( D | a i ) 1 - P ( D | a o ) . 基于:
p = &Sigma; i = 0 k f i P ( D | a i ) ,
可以确定
OR i = &lambda; i &Sigma; i = 0 k f i &lambda; i - p &Sigma; i = 0 k f i &lambda; i - &lambda; i p .
而且,如果设定 C = &Sigma; i f i l i , 这导致如下等式:
&lambda; i = C &CenterDot; OR i C - p + OR i p ,
并且因此,
C = &Sigma; i = 0 k f i &lambda; i = &Sigma; i = 0 k C &CenterDot; OR i f i C - p + OR i p ,
1 = &Sigma; i = 0 k OR i f i C - p + OR i p .
后者是具有一个变量(C)的方程。这一方程可以产生许多不同的解(基本上,多至k+1个不同的解)。标准优化工具(例如梯度下降)可以用于找到最接近C0=∑fiti的解。
本发明使用了用于危险因子定量的稳定的评分构架。虽然不同遗传模型可以导致不同的评分,但是结果通常是相关的。因此,危险因子的定量通常不依赖于所使用的模型。
评估相对风险病例对照研究
本发明中也提供了在病例对照研究中由多等位基因的优势比评价相对风险的方法。与先前的方法相反,该方法考虑了等位基因频率、疾病的流行度和在不同等位基因的相对风险间的相依性。测定了该方法对模拟的病例对照研究的性能,发现它是极准确的。
方法
在测试特定SNP与疾病D的关联性的情况下,R和N表示这一特定SNP的风险和非风险等位基因。P(RR|D)、P(RN|D)和P(NN|D)表示分别假设个人对于风险等位基因是纯合的、对于非风险等位基因是杂合的或纯合的情况下受到疾病影响的概率。fRR、fRN和fNN用于表示群体中三个基因型的频率。使用这些定义,相对风险定义为
&lambda; RR = P ( D | RR ) P ( D | NN )
&lambda; RN = P ( D | RN ) P ( D | NN )
在病例对照研究中,可以评估P(RR|D)、P(RR|~D)值(即病例和对照中RR的频率),以及P(RN|D)、P(RN|~D)、P(NN|D)和P(NN|~D),即病例和对照中RN和NN的频率。为了估计相对风险,可以使用贝叶斯(Bayes)定律以得到:
&lambda; RR = P ( RR | D ) f NN P ( NN | D ) f RR
&lambda; RN = P ( D | RN ) f NN P ( D | NN ) f RR
因此,如果已知基因型的频率,人们可以使用它们计算相对风险。群体中基因型的频率不能从病例-对照研究本身计算,因为它们取决于疾病在群体中的流行度。特别是,如果疾病的流行度为p(D),则:
fRR=P(RR|D)p(D)+P(RR|~D)(1-p(D))
fRN=P(RN|D)p(D)+P(RN|~D)(1-p(D))
fNN=P(NN|D)p(D)+P(NN|~D)(1-p(D))。
当p(D)足够小时,基因型的频率可以接近对照群体中的基因型频率,但是当流行度高时,这将不会是准确的估计值。但是,如果给出参照数据集(例如,HapMap[cite]),人们可以基于参照数据集估计基因型频率。
大多数新近的研究不使用参照数据集估计相对风险,并且仅报告优势比。优势比可以写作
OR RR = P ( RR | D ) P ( NN | ~ D ) P ( NN | D ) P ( RR | ~ D )
OR RN = P ( RN | D ) P ( NN | ~ D ) P ( NN | D ) P ( RN ~ D )
由于通常不需要具有群体中等位基因频率的估计值,所以优势比通常是有利的;为了计算优势比,通常所需要的是病例和对照中的基因型频率。
在一些情况中,基因型数据本身是不可得的,但是概括数据(例如优势比)是可得的。这是在基于来自先前的病例对照研究的结果进行后设分析(meta-analysis)时的情况。在这一情况下,证实了如何从优势比找到相对风险。使用以下等式显示的事实:
p(D)=fRRP(D|RR)+fRNP(D|RN)+fNNP(D|NN)
如果这一等式除以P(D|NN),我们得到
p ( D ) p ( D | NN ) = f RR &lambda; RR + f RN &lambda; RN + f NN
这使得优势比能够写成以下形式:
OR RR = P ( D | RR ) ( 1 - P ( D | NN ) ) P ( D | NN ) ( 1 - P ( D | RR ) ) = &lambda; RR p ( D ) p ( D | NN ) - p ( D ) p ( D ) p ( D | NN ) - p ( D ) &lambda; RR =
&lambda; RR = f RR &lambda; RR + f RN &lambda; RN + f NN - p ( D ) f RR &lambda; RR + f RN &lambda; RN + f NN - p ( D ) &lambda; RR
通过类似计算,得到以下等式系统:
OR RR = &lambda; RR f RR &lambda; RR + f RN &lambda; RN + f NN - p ( D ) f RR &lambda; RR + f RN &lambda; RN + f NN - p ( D ) &lambda; RR
OR RN = &lambda; RN f RR &lambda; RR + f RN &lambda; RN + f NN - p ( D ) f RR &lambda; RR + f RN &lambda; RN + f NN - p ( D ) &lambda; RN .
等式1
如果已知优势比、群体中的基因型频率和疾病的流行度,则可以通过求解这一方程组得到相对风险。
应注意到,存在两个二次方程,因此它们具有最多四个解。但是,如以下所示,对于这一方程通常存在一个可能的解。
应注意到,当fNN=1时,等式系统1等同于Zhang和Yu公式;但是,这里考虑了群体中的等位基因频率。而且,我们的方法考虑了如下事实:两个相对风险彼此依赖,而先前的方法提出独立地计算各相对风险。
多等位基因基因座的相对风险。如果考虑多标记或其它多等位基因变型,计算略微复杂。a0、a1、...、ak表示可能的k+1个等位基因,其中a0为非风险等位基因。假设了对于k+1个可能的等位基因在群体中的等位基因频率f0、f1、f2、...、fk。对于等位基因i,相对风险和优势比定义为
&lambda; i = P ( D | a i ) P ( D | a 0 )
OR i = P ( D | a i ) ( 1 - P ( D | a 0 ) ) P ( D | a 0 ) ( 1 - P ( D | a i ) ) = &lambda; i 1 - P ( D | a 0 ) 1 - P ( D | a i )
以下等式适用于疾病的流行度:
p ( D ) = &Sigma; i = 0 k f i P ( D | a i )
因此,通过将等式两侧都除以p(D|a0),我们得到:
p ( D ) P ( D | a 0 ) = &Sigma; i = 0 k f i &lambda; i
得到:
OR i = &lambda; i &Sigma; i = 0 k f i &lambda; i - p ( D ) &Sigma; i = 0 k f i &lambda; i - &lambda; i p ( D ) ,
通过设定 C = &Sigma; i = 0 k f i &lambda; i , 得到 &lambda; i = C &CenterDot; OR i p ( D ) OR i + C - p ( D ) . 因此,通过C的定义,得出:
1 = &Sigma; i = 0 k f i &lambda; i C = &Sigma; i = 0 k f i OR i p ( D ) OR i + C - p ( D ) .
这是具有一个变量C的多项式方程。一旦确定了C,就确定了相对风险。多项式为k+1度,并且因此我们预计具有至多k+1个解。但是,由于方程的右侧严格地减化为C的函数,那么对于这一方程可能通常仅存在一个解。使用对半检索容易找到这个解,因为该解界于C=1和 C = &Sigma; i = 0 k OR i 之间。
相对风险评估的稳定性。测定各不同参数(流行度、等位基因频率和优势比误差)对于相对风险的估计值的影响。为了测定等位基因频率和流行度估计值对相对风险值的影响,由一组不同优势比、不同等位基因频率的值(在HWE下)计算相对风险,并且对于在0至1范围内的流行度值对这些计算的结果进行绘图。
另外,对于固定的流行度值,所得的相对风险作为风险等位基因频率的函数绘图。很明显,在所有p(D)=0的情况下,λRR=ORRR和λRN=ORRN,并且当p(D)=1时,λRR=λRN=0。这可以由等式1直接计算得到。另外,当风险等位基因频率高时,λRR接近于线性表现,并且λRN接近于具有有界二次导数的凹函数。当风险等位基因频率低时,λRR和λRN接近于函数1/p(D)的表现。这意味着对于高的风险等位基因频率,流行度的错误估计值将不会很大地影响所得的相对风险。
以下实施例举例说明和解释了本发明。本发明的范围不限于这些实施例。
实施例I
SNP分布图的生成和分析
向个体提供试剂盒(例如从DNA Genotek购得的)中的样品管,个体将唾液样品(大约4ml)存放在该取样管中,将从唾液样品中提取基因组DNA。唾液样品递送至进行处理和分析的CLIA认证的实验室。通常,样品在采集试剂盒内方便地提供给个体的运输容器中通过隔夜邮寄递送至测试机构。
在优选的实施方式中,基因组DNA从唾液中分离。例如,使用由DNA Genotek提供的DNA自采集试剂盒技术,个体采集用于临床处理的大约4ml唾液样品。在将样品递送至适当的用于处理的实验室之后,通过样品的热变性和蛋白酶消化(通常使用由采集试剂盒供应商提供的试剂在50℃下处理至少一小时)分离DNA。随后,对样品进行离心,并且对上层清液进行乙醇沉淀。将DNA沉淀物悬浮在适于后续分析的缓冲液中。
按照公知的程序和/或由采集试剂盒制造商提供的程序,从唾液样品中分离个体的基因组DNA。通常,首先对样品进行热变性和蛋白酶消化。接着,对样品进行离心分离,并且保留上层清液。然后将上层清液进行乙醇沉淀以得到包含大约5~16ug的基因组DNA的沉淀。将DNA沉淀物悬浮在10mM的Tris(pH 7.6)、1mM的EDTA(TE)中。使用由阵列制造商提供的仪器和使用说明,通过将基因组DNA与商购的高密度SNP阵列(例如由Affymetrix或Illumina提供的高密度SNP阵列)杂交以生成SNP分布图。将个体SNP分布图存储在加密数据库或保险库中。
通过与已确立的、医学相关SNP(其在基因组中的存在与给定的疾病或状态有关)的临床数据库相比较,查询患者的数据结构以寻找赋予风险的SNP。该数据库包括特定SNP和SNP单体型与特定疾病或状态的统计学相关性的信息。例如,如实施例III所示,载脂蛋白E基因中的多态性导致蛋白质的相异同种型,这又与发生阿尔茨海默氏病的统计学似然性有关。作为另一实施例,具有称作因子VLeiden的凝血蛋白质因子V的变型的个体具有增大的凝血趋势。其中SNP与疾病或状态表型相关的许多基因示于表1中。由研究/临床顾问委员会核准数据库中的信息的科学准确性和重要性,并且可以由监督的政府机构进行检查。可以连续更新数据库,因为更多的SNP-疾病相关性从科学界出现。
通过在线入口或邮件向患者安全地提供个体SNP分布图的分析结果。向患者提供解释和支持性信息,例如实施例IV中显示的关于因子V Leiden的信息。对个体的SNP分布图信息的安全访问(例如通过在线入口)将便于与患者的医生进行讨论,并且赋予对于个人化医疗进行选择的能力。
实施例II
基因型相关性的更新
响应于初始确定个体基因型相关性的请求,生成基因组图谱,得到基因型相关性,并且如实施例I所述向个体提供结果。在个体的基因型相关性的初始确定之后,随后当已知附加的基因型相关性时,确定或能够确定更新的相关性。注册用户具有高级注册且其基因型谱保存在加密数据库中。更新的相关性在存储的基因型谱上进行。
例如,如以上实施例I所述,初始基因型相关性已确定特定个体不具有ApoE4,并且因此不易患早发型阿尔茨海默氏病,并且确定这一个体不具有因子V Leiden。这一初始确定之后,新的相关性变得已知并且经过验证,以致在给定基因(假设为基因XYZ)中的多态性与给定状态(假设为状态321)相关。将这一新的基因型相关性加入到人类基因型相关性的主数据库中。然后通过首先从存储在加密数据库中的特定个体的基因组图谱中获取相关基因XYZ的数据,向特定个体提供更新。将特定个体的相关基因XYZ数据与更新的主数据库的基因XYZ信息相比较。从这一对比中确定特定的个体对于状态321的易感性或患病体质。将这一确定的结果加入到特定个体的基因型相关性中。将是否特定个体对状态321敏感或者遗传上易感的更新结果与解释性和支持性信息一起提供给特定个体。
实施例III
ApoE4基因座和阿尔茨海默氏病的相关性
已经显示阿尔茨海默氏病(AD)的风险与载脂蛋白E(APOE)基因中的多态性相关,这一多态性导致称为ApoE2、ApoE3和ApoE4的APOE的三种同种型。这些同种型在APOE蛋白的残基112和158上的一个或两个氨基酸相互不同。ApoE2包含112/158位的半胱氨酸/半胱氨酸;ApoE3包含112/158位的半胱氨酸/精氨酸;和ApoE4包含112/158位的精氨酸/精氨酸。如表3所示,阿尔茨海默氏病在较小年龄发作的危险随APOEε4基因拷贝数增大。同样,如表3所示,AD的相对风险随APOEε4基因拷贝数增大。
表3:AD风险等位基因的流行度(Corder等,Science:261:921-3,1993)
APOEε4拷贝 流行度   阿尔茨海默氏病的风险 发病年龄
 0   73%   20%   84
 1   24%   47%   75
 2   3%   91%   68
表4:具有ApoE4的AD相对风险(Farrer等,JAMA:278:1349-56,1997)
  APOE基因型   优势比
  ε2ε2   0.6
  ε2ε3   0.6
  ε3ε3   1.0
  ε2ε4   22.6
  ε3ε4   3.2
  ε4ε4   14.9
实施例IV
因子V Leiden阳性患者的信息
以下信息是可能提供给具有显示出存在因子V Leiden基因的基因组SNP分布图的个体的信息的示例。该个体可具有在初始报告中可以提供信息的基础注册。
什么是因子V Leiden?
因子V Leiden不是疾病,其是指存在由一个人的父母遗传的特定基因。因子V Leiden是凝血需要的蛋白质因子V(5)的变型。具有因子V缺失的人更可能严重流血,而具有因子V Leiden的人的血液凝血趋势增加。
携带因子V Leiden基因的人具有比群体中其余的人高5倍的出现血凝块(血栓症)的风险。但是许多具有该基因的人从不出现血凝块。在英国和美国,群体的5%携带一个或多个因子V Leiden基因,这远多于将实际患血栓症的人的数量。
你如何得到因子V Leiden?
因子V基因由一个人的父母遗传。正如所有遗传性特征,一个基因遗传自母亲而一个遗传自父亲。由此,可能遗传:两个正常基因或者一个因子V Leiden基因和一个正常基因或者两个因子VLeiden基因。具有一个因子V Leiden基因将导致稍高的发生血栓症的风险,但是具有两个基因导致大得多的风险。
因子V Leiden的症状是什么?
没有病征,除非你具有血凝块(血栓症)。
危险信号是什么?
最常见的问题是在腿部的血凝块。腿部肿胀、疼痛和发红显示出这一问题。在更稀有的病例中,可能出现肺部血凝块(肺血栓症),其导致呼吸困难。根据血凝块的尺寸,这一病症的严重程度从几乎不能被察觉到患者发生严重的呼吸困难。在甚至更稀有的病例中,血凝块可能发生在手臂或其它身体部位。由于这些凝块形成在输送血液至心脏的静脉而不是形成在动脉(其从心脏输出血液)中,因子VLeiden不会使冠状动脉血栓形成的风险增大。
做什么可以避免血凝块?
因子V Leiden仅轻微增大导致血凝块的风险,并且许多具有这一状态的人永不会发生血栓症。一个人可以做许多事情来避免导致血凝块。避免以同一姿势久站或久坐。当长途旅行时,重要的是有规律地锻炼——必须使血液不“静置不动”。熬夜或吸烟将极大地增大出现血凝块的风险。携带因子V Leiden基因的妇女不应该服避孕丸,因为这将显著增大患血栓症的机会。携带因子V Leiden基因的妇女也应该在妊娠前咨询其医生,因为这也会增大血栓形成的风险。
医生如何发现你是否具有因子V Leiden?
因子V Leiden的基因可以在血液样品中发现。
在腿部或者手臂的血凝块通常由超声检查确定。
在将一种物质注入血液中以使血凝块显现后,血凝块也可由X射线检测。在肺里的血块更难于找到,但是通常医生将使用放射性物质去测试肺内血流的分布和流至肺内的空气的分布。这两种分布模式应该相匹配——不匹配表示存在血凝块。
因子V Leiden如何处理?
具有因子V Leiden的人不需要治疗,除非他们的血液开始凝结,在这种情况下,医生将开出稀释血液(抗凝血的)药物,例如华法林(例如,苄丙酮香豆素钠)或者肝素以防止进一步的血凝块。治疗通常将持续三至六个月,但是如果存在几个血凝块,则可能需要更长时间。在重症的情况下,药物治疗的过程可能无限期地持续;在极稀有的情况下,血凝块可能需要手术移除。
在妊娠期间因子V Leiden如何处理?
携带两个因子V Leiden基因的妇女在妊娠期间将需要接受肝素促凝药物的治疗。相同的治疗适用于本身先前有血凝块或者有血凝家族史的仅携带一个因子V Leiden基因的妇女。
所有携带因子V Leiden基因的妇女在妊娠后半段可能需要穿着特殊的长筒袜以防止血凝块。在孩子出生以后,可以给她们开抗凝血药物肝素。
预后
出现血凝块的风险随年龄增大,但是在对100名携带该基因的人进行的随年龄的调查中,发现仅少数曾患过血栓症。国家遗传顾问学会(The National Society for Genetic Counselors(NSGC))可以提供你所在地区中遗传顾问的列表以及关于建立家族史的信息。在www.nsgc.org/consumer上搜寻他们的在线数据库。
虽然在此已经显示和描述了本发明的优选实施方式,但是对于本领域技术人员而言很清楚,这些实施方式仅以实施例的方式提供。本领域技术人员现在可以想到的许多变型、改变和替换而不脱离本发明。应该理解,对于在此所描述的本发明的实施方式的许多替代方式可以用于实现本发明。预想的是,以下的权利要求限定本发明的范围,且本发明覆盖在这些权利要求的范围内的方法和结构及其等效物。

Claims (78)

1.一种评估个体的基因型相关性的方法,该方法包括:
a)获得所述个体的遗传样品,其中所述遗传样品是DNA;
b)从所述遗传样品生成所述个体的基因组图谱;
c)通过将所述个体的基因组图谱与当前人类基因型与表型的相关性数据库相比较以对于各感兴趣的表型确定所述个体的包括风险等位基因或非风险等位基因的多种等位基因的多个相对风险或优势比而确定所述个体的基因型相关性;
d)当知道附加的人类基因型相关性时,用所述附加的人类基因型相关性更新所述人类基因型相关性数据库;和
e)通过将步骤c)的所述个体的基因组图谱或其一部分与所述附加的人类基因型相关性相比较更新所述个体的基因型相关性,并确定所述个体的附加基因型相关性。
2.权利要求1所述的方法,其中,第三方获得所述遗传样品。
3.权利要求1所述的方法,其中,所述生成基因组图谱由第三方进行。
4.权利要求1所述的方法,进一步包括计算GCI评分,其中所述GCI由多个相对风险或优势比计算。
5.权利要求1所述的方法,其中,所述基因组图谱包括单核苷酸多态性、核苷酸插入、核苷酸缺失、染色体易位、染色体重复或拷贝数变异。
6.权利要求1所述的方法,其中,所述基因组图谱为所述个体的全基因组。
7.权利要求1所述的方法,其中,所述方法包括评估2个或更多的基因型相关性。
8.权利要求1所述的方法,其中,所述方法包括评估10个或更多的基因型相关性。
9.权利要求1所述的方法,其中,所述人类基因型相关性数据库包括列于表1、图4、5、6、22或25的一个或多个基因中的遗传性变型和与所述遗传性变型相关的表型。
10.权利要求1所述的方法,其中,所述人类基因型相关性数据库包括由所述个体的所述基因组图谱确定的遗传性变型和由所述个体显露的预先确定的表型。
11.权利要求9或10所述的方法,其中,所述遗传性变型为单核苷酸多态性、核苷酸插入、核苷酸缺失、染色体易位、染色体重复或拷贝数变异。
12.权利要求1所述的方法,其中,所述遗传样品是血液、头发、皮肤、唾液、精液、尿、粪便物质、汗液或口腔样品。
13.权利要求1所述的方法,其中,所述基因组图谱使用高密度DNA微阵列、DNA测序或基于PCR的方法生成。
14.权利要求4所述的方法,其中,所述个体的身体数据、医学数据、种族、家系、地理、性别、年龄、家族史、已知表型、人口数据、暴露数据、生活方式数据或行为数据中的至少一种引入到所述GCI的计算中。
15.权利要求1所述的方法,其中所述个体的基因组图谱与SNP和表型之间的相关性相比较,其中所述SNP:
当所述表型是结肠直肠癌时为rs6983267,当所述表型是剥脱性青光眼时为rs2165241,当所述表型是肥胖时为rs9939609,当所述表型是格雷夫斯氏病时为rs3087243或DRB1*0301,当所述表型是血色沉着症时为rs1800562,当所述表型是心肌梗死时为rs6922269,当所述表型是多发性硬化症时为rs6897932、rs12722489或DRB1*1501,当所述表型是牛皮癣(PS)时为rs11209026,当所述表型是多动腿综合征时为rs2300478、rs1026732或rs9296249,当所述表型是乳糜泻时为rs6840978或rs2187668,当所述表型是前列腺癌时为rs6983267、rs16901979或rs4430796,当所述表型是狼疮时为rs12531711、rs10954213、rs2004640、DRB1*0301或DRB1*1501,当所述表型是黄斑变性时为rs10490924、rs2230199、rs1061170或rs9332739,当所述表型是类风湿性关节炎时为rs6457617,当所述表型是乳腺癌时为rs3803662、rs2981582、rs3817198或rs3803662,当所述表型是克罗恩病时为rs2066845、rs10883365、rs17234657、rs10210302、rs9858542、rs11805303、rs1000113、rs2542151或rs10761659,当所述表型是2型糖尿病时为rs13266634、rs4506565、rs7756992、rs10811661、rs8050136、rs1111875、rs4402960、rs5215或rs1801282。
16.权利要求15所述的方法,进一步包括:
f)合用所述相对风险或优势比计算所述表型的至少一个GCI评分。
17.一种评估个体的基因型相关性的方法,该方法包括:
a)从多个个体获得多个遗传样品;
b)提供包括规则的规则集,各条规则表明至少一种基因型与至少一种表型之间的相关性;
c)提供包括所述多个个体中各个个体的基因组图谱的数据集,其中各个基因组图谱包括多种基因型;
d)通过将所述个体的基因组图谱与当前人类基因型与表型的相关性数据库相比较以对于各感兴趣的表型确定所述个体的包括风险等位基因或非风险等位基因的多种等位基因的多个相对风险或优势比而确定所述个体的基因型相关性;
e)定期地使用至少一条新规则更新所述规则集,其中所述至少一条新规则表明先前在所述规则集中彼此不相关的基因型和表型之间的相关性;和
f)将各条新规则应用于至少所述个体之一的所述基因组图谱,从而对于所述个体使至少一种基因型与至少一种表型相关联。
18.权利要求17所述的方法,该方法进一步包括:
f)生成包括所述个体的所述表型谱的报告。
19.权利要求17所述的方法,该方法进一步包括:在步骤b)之后
i)将所述规则集的所述规则应用于所述个体的所述基因组图谱以确定所述个体的一套表型谱;和
ii)生成包括所述个体的初始表型谱的报告。
20.权利要求18或19所述的方法,其中,提供所述报告包括通过网络传输所述报告。
21.权利要求18或19所述的方法,其中,所述报告以加密方式提供。
22.权利要求18或19所述的方法,其中,所述报告以非加密方式提供。
23.权利要求18或19所述的方法,其中,所述报告通过在线入口提供。
24.权利要求18或19所述的方法,其中,所述报告以纸件或电子邮件提供。
25.权利要求17所述的方法,其中,所述新规则使未关联的基因型与表型相关联。
26.权利要求17所述的方法,其中,所述新规则使已关联的基因型与先前未在所述规则集中与之关联的表型相关联。
27.权利要求17所述的方法,其中,所述新规则改变所述规则集中的规则。
28.权利要求17所述的方法,其中,所述新规则通过来自所述个体的所述基因组图谱的基因型和所述个体的预先确定的表型的相关性生成。
29.权利要求17所述的方法,其中,所述规则使多种基因型与一种表型相关联。
30.权利要求17所述的方法,其中,应用所述新规则进一步包括至少部分基于选自种族、家系、地理、性别、年龄、家族史和预先确定的表型的所述个体的特征确定所述表型谱。
31.权利要求17所述的方法,其中,所述基因型包括核苷酸重复、核苷酸插入、核苷酸缺失、染色体易位、染色体重复或拷贝数变异。
32.权利要求31所述的方法,其中,所述拷贝数变异为微卫星重复、核苷酸重复、着丝粒重复或端粒重复。
33.权利要求17所述的方法,其中,所述基因型包括单核苷酸多态性。
34.权利要求17所述的方法,其中,所述基因型包括单体型和双体型。
35.权利要求17所述的方法,其中,所述基因型包括与表型相关的单核苷酸多态性连锁不平衡的遗传标记。
36.权利要求17所述的方法,其中,所述表型谱表明所述定量性状是否存在或者产生所述定量性状的风险。
37.权利要求17所述的方法,其中,所述表型谱表明具有基因型的个体具有或者将具有表型的概率。
38.权利要求37所述的方法,其中,所述概率基于GCI或者GCI Plus评分。
39.权利要求37所述的方法,其中,所述概率为估计的终生风险。
40.权利要求17所述的方法,其中,所述相关性是经过验证的。
41.权利要求17所述的方法,其中,所述规则集包括至少20条规则。
42.权利要求17所述的方法,其中,所述规则集包括至少50条规则。
43.权利要求17所述的方法,其中,所述规则集包括基于表1中的所述基因型相关性的规则。
44.权利要求17所述的方法,其中,所述规则集包括基于图4、5、6、22或25中的所述基因型相关性的规则。
45.权利要求17所述的方法,其中,所述表型包括定量性状。
46.权利要求45所述的方法,其中,所述定量性状包括医学状态。
47.权利要求46所述的方法,其中,所述表型谱表明所述医学状态是否存在、产生所述医学状态的风险、所述医学状态的预后、所述医学状态的治疗效果或者对于所述医学状态的治疗的反应。
48.权利要求45所述的方法,其中,所述定量性状包括非医学状态的表型。
49.权利要求45所述的方法,其中,所述定量性状选自身体性状、生理性状、精神性状、情绪性状、种族、家系或年龄。
50.权利要求17所述的方法,其中,所述个体为人类。
51.权利要求17所述的方法,其中,所述个体为非人类。
52.权利要求17所述的方法,其中,所述个体为注册用户。
53.权利要求17所述的方法,其中,所述个体为非注册用户。
54.权利要求17所述的方法,其中,所述基因组图谱包括至少100,000种基因型。
55.权利要求17所述的方法,其中,所述基因组图谱包括至少400,000种基因型。
56.权利要求17所述的方法,其中,所述基因组图谱包括至少900,000种基因型。
57.权利要求17所述的方法,其中,所述基因组图谱包括至少1,000,000种基因型。
58.权利要求17所述的方法,其中,所述基因组图谱包括基本上完全的全基因组序列。
59.权利要求17所述的方法,其中,所述数据集包括多个数据点,其中各数据点涉及个体并且包括多个数据元,其中所述数据元包括选自所述个体的独特标识物、基因型信息、微阵列SNP识别号、SNP rs号、染色体位置、多态性核苷酸、质量度量、原始数据文件、图像、提取的强度得分、物理数据、医学数据、种族、家系、地理、性别、年龄、家族史、已知表型、人口数据、暴露数据、生活方式数据和行为数据的至少一个元素。
60.权利要求17所述的方法,其中,定期更新和应用一年发生至少一次。
61.权利要求17所述的方法,其中,提供所述数据集包括通过以下步骤获得多个个体中的各个个体的基因组图谱:
i)对由所述个体得到的遗传样品进行遗传分析,和
ii)以计算机可读形式对所述分析进行编码。
62.权利要求17所述的方法,其中,所述表型谱包括单基因表型。
63.权利要求17所述的方法,其中,所述表型谱包括多基因表型。
64.权利要求17所述的方法,其中,所述报告包括初始表型谱。
65.权利要求17所述的方法,其中,所述报告包括更新的表型谱。
66.权利要求17所述的方法,其中,所述报告进一步包括关于所述表型谱的所述表型的信息,该信息选自以下所述的一种或多种:预防对策、健康信息、疗法、症状认识、早期检测方案、介入方案和所述表型谱中所述表型的精确鉴别及细分类。
67.权利要求17所述的方法,该方法进一步包括:
e)将新个体的新基因组图谱加入到所述个体数据集中;
f)将所述规则集应用于所述新个体的所述基因组图谱;和
g)生成所述新个体的表型谱的初始报告。
68.权利要求17所述的方法,该方法包括:
e)添加所述个体的新基因组图谱;
f)将所述规则集应用于所述个体的所述新基因组图谱;和
g)生成所述个体的表型谱的新报告。
69.一种评估个体的基因型相关性的系统,该系统包括:
a)用于存储包括规则的规则集的装置,各条规则表明至少一种基因型与至少一种表型之间的相关性,其中所述基因型相关性通过将所述个体的基因组图谱与当前人类基因型与表型的相关性数据库相比较以对于各感兴趣的表型确定所述个体的包括风险等位基因或非风险等位基因的多种等位基因的多个相对风险或优势比而确定;
b)使用至少一条新规则定期更新所述规则集的装置,其中所述至少一条新规则表明先前在所述规则集中未彼此相关的基因型和表型之间的相关性;
c)用于生成个体的基因组图谱的装置,由此获得包括多个个体的基因组图谱的数据库;
d)将所述规则集应用于个体的所述基因组图谱以确定所述个体的表型谱的装置;和
e)生成各个体的报告的装置。
70.权利要求69所述的系统,其中,所述报告通过网络传输。
71.权利要求69所述的系统,其中,所述报告以加密方式提供。
72.权利要求69所述的系统,其中,所述报告以非加密方式提供。
73.权利要求69所述的系统,其中,所述报告通过在线入口提供。
74.权利要求69所述的系统,其中,所述报告通过纸件或电子邮件提供。
75.权利要求69所述的系统,该系统进一步包括向所述个体通告新的或修正的相关性的装置。
76.权利要求69所述的系统,该系统进一步包括向所述个体通告能够应用于所述个体的所述基因组图谱的新的或修正的规则的代码。
77.权利要求69所述的系统,该系统进一步包括向所述个体通告有关所述个体的所述表型谱的所述表型的新的或修正的预防和健康信息的装置。
78.一种用于实施权利要求1的方法的试剂盒,该试剂盒包括:
a)至少一种样品收集容器;
b)用于从个体得到样品的使用说明;
c)用于通过在线入口访问由所述样品获得的所述个体的基因组图谱的使用说明;
d)用于通过在线入口访问由所述样品获得的所述个体的表型谱的使用说明;和
e)用于将所述样品收集容器递送至所述样品处理机构的包装。
CN2007800500195A 2006-11-30 2007-11-30 遗传分析系统和方法 Active CN101617227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310565723.1A CN103642902B (zh) 2006-11-30 2007-11-30 遗传分析系统和方法

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
US86806606P 2006-11-30 2006-11-30
US60/868,066 2006-11-30
US95112307P 2007-07-20 2007-07-20
US60/951,123 2007-07-20
US11/781,679 2007-07-23
US11/781,679 US20080131887A1 (en) 2006-11-30 2007-07-23 Genetic Analysis Systems and Methods
US97219807P 2007-09-13 2007-09-13
US60/972,198 2007-09-13
US98562207P 2007-11-05 2007-11-05
US60/985,622 2007-11-05
US98968507P 2007-11-21 2007-11-21
US60/989,685 2007-11-21
PCT/US2007/086138 WO2008067551A2 (en) 2006-11-30 2007-11-30 Genetic analysis systems and methods

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201310565723.1A Division CN103642902B (zh) 2006-11-30 2007-11-30 遗传分析系统和方法

Publications (2)

Publication Number Publication Date
CN101617227A CN101617227A (zh) 2009-12-30
CN101617227B true CN101617227B (zh) 2013-12-11

Family

ID=41495910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800500195A Active CN101617227B (zh) 2006-11-30 2007-11-30 遗传分析系统和方法

Country Status (2)

Country Link
CN (1) CN101617227B (zh)
ZA (1) ZA200903761B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108292299A (zh) * 2015-09-18 2018-07-17 法布里克基因组学公司 从基因组变体预测疾病负担

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956398A (zh) * 2010-11-01 2016-09-21 皇家飞利浦电子股份有限公司 包括专有测试的特许使用费的自动化代理的体外诊断测试
CN102122326A (zh) * 2011-02-23 2011-07-13 河北省健海生物芯片技术有限责任公司 一种基因组单核苷酸多态性分析的个体化基因信息卡
CN102682224B (zh) * 2011-03-18 2015-01-21 深圳华大基因科技服务有限公司 检测拷贝数变异的方法和装置
CN102443626B (zh) * 2011-09-22 2013-10-16 厦门艾德生物医药科技有限公司 肺癌驱动性基因突变的检测试剂盒
WO2013070634A1 (en) * 2011-11-07 2013-05-16 Ingenuity Systems, Inc. Methods and systems for identification of causal genomic variants
CN102930135A (zh) * 2012-09-28 2013-02-13 西安时代基因健康科技有限公司 糖尿病及并发症的表征参数的获取方法
US10679726B2 (en) * 2012-11-26 2020-06-09 Koninklijke Philips N.V. Diagnostic genetic analysis using variant-disease association with patient-specific relevance assessment
KR20140088434A (ko) * 2013-01-02 2014-07-10 삼성전자주식회사 환자별 특성을 기반으로 한 mri 다변수 영상 획득 지원 장치 및 방법
KR101770962B1 (ko) * 2013-02-01 2017-08-24 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
CN104651484A (zh) * 2013-11-25 2015-05-27 上海人类基因组研究中心 甲亢易感性检测方法和试剂盒
CN104480185A (zh) * 2015-01-05 2015-04-01 中南大学湘雅二医院 一种非诊断目的检测ApoA5生物学活性的方法及试剂盒
EP3365818A1 (en) * 2015-10-22 2018-08-29 BioKaizen Sàrl Method to determine inter- and intra-subject variation in biomarker signals
CN105653895B (zh) * 2015-12-21 2018-01-09 温州市洞头区水产科学技术研究所 一种羊栖菜的品系鉴别和分类方法
WO2017172958A1 (en) * 2016-03-29 2017-10-05 Regeneron Pharmaceuticals, Inc. Genetic variant-phenotype analysis system and methods of use
KR101991007B1 (ko) * 2016-05-27 2019-06-20 (주)메디젠휴먼케어 Snp를 이용한 질병 관련 유전체 분석 시스템 및 장치
CN106191236B (zh) * 2016-07-06 2020-01-17 上海市内分泌代谢病研究所 一种用于研究Graves’病miR-4443的检测方法
CN106202936A (zh) * 2016-07-13 2016-12-07 为朔医学数据科技(北京)有限公司 一种疾病风险预测方法及系统
CN106650310B (zh) * 2017-01-09 2019-01-29 上海集爱遗传与不育诊疗中心 一种鉴别染色体平衡易位携带胚胎和正常胚胎的方法
CN106951730A (zh) * 2017-03-21 2017-07-14 为朔医学数据科技(北京)有限公司 一种基因变异致病等级确定方法及装置
CN108629153A (zh) * 2017-03-23 2018-10-09 广州康昕瑞基因健康科技有限公司 医学基因分析方法和系统
CN106906290B (zh) * 2017-03-27 2019-12-20 中国人民解放军总医院 Cdsn作为舌鳞癌的诊治靶标
CN111465857A (zh) * 2017-08-08 2020-07-28 昆士兰科技大学 诊断早期心力衰竭的方法
CN108875299B (zh) * 2018-05-23 2021-07-20 重庆医科大学附属第一医院 一种葡萄膜炎单核苷酸多态性数据的数据库管理系统及其检索方法
CN108959856B (zh) * 2018-06-29 2019-06-21 迈凯基因科技有限公司 一种疾病基因变异及药物解读多数据库交互系统及方法
CN109273046B (zh) * 2018-10-19 2022-04-22 江苏东南证据科学研究院有限公司 一种基于概率统计模型的生物学全同胞鉴定方法
CN110146704A (zh) * 2019-03-28 2019-08-20 苏州举健生物科技有限公司 一种基于循环肿瘤细胞的用药及病理检测数据系统
US11636951B2 (en) 2019-10-02 2023-04-25 Kpn Innovations, Llc. Systems and methods for generating a genotypic causal model of a disease state
CN111354417B (zh) * 2020-03-17 2022-03-11 中国海洋大学 一种基于admixture-mcp模型估计水产动物基因组品种组成的新方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1849401A (zh) * 2003-09-17 2006-10-18 新加坡科技研究局 基因鉴定特征(gis)分析的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1849401A (zh) * 2003-09-17 2006-10-18 新加坡科技研究局 基因鉴定特征(gis)分析的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108292299A (zh) * 2015-09-18 2018-07-17 法布里克基因组学公司 从基因组变体预测疾病负担

Also Published As

Publication number Publication date
CN101617227A (zh) 2009-12-30
ZA200903761B (en) 2010-08-25

Similar Documents

Publication Publication Date Title
CN101617227B (zh) 遗传分析系统和方法
CN103642902B (zh) 遗传分析系统和方法
US9092391B2 (en) Genetic analysis systems and methods
EP2215253B1 (en) Method and computer system for correlating genotype to phenotype using population data
Eleftherohorinou et al. Pathway analysis of GWAS provides new insights into genetic susceptibility to 3 inflammatory diseases
Wang et al. The diploid genome sequence of an Asian individual
Yu et al. Single-molecule sequencing reveals a large population of long cell-free DNA molecules in maternal plasma
Drineas et al. Inferring geographic coordinates of origin for Europeans using small panels of ancestry informative markers
JP2015007985A (ja) 複数の環境的リスク因子及び遺伝的リスク因子を組み込む方法及びシステム
CN102171697A (zh) 用于个性化行动计划的方法和系统
Okada et al. Integration of sequence data from a consanguineous family with genetic data from an outbred population identifies PLB1 as a candidate rheumatoid arthritis risk gene
Mathew Postgenomic technologies: hunting the genes for common disorders
Yamamoto et al. Genetic and phenotypic landscape of the mitochondrial genome in the Japanese population
Tomer et al. The thyroglobulin gene as the first thyroid-specific susceptibility gene for autoimmune thyroid disease
Smith et al. L ake L ouise Mutation Detection Meeting 2013: Clinical Translation of Next‐Generation Sequencing Requires Optimization of Workflows and Interpretation of Variants
Zhu et al. A robust pipeline for ranking carrier frequencies of autosomal recessive and X-linked Mendelian disorders
Kohailan et al. Patterns and distribution of de novo mutations in multiplex Middle Eastern families
Lehrer et al. Can social scientists use molecular genetic data to explain individual differences and inform public policy?
Stringer et al. A guide on gene prioritization in studies of psychiatric disorders
Wang et al. Performance comparison of computational prediction methods for the function and pathogenicity of non-coding variants
Broeckel et al. Functional genomics and its implications for molecular medicine
Al Ali GENOME ARCHITECTURE OF ARAB SUBPOPULATIONS OF THE UNITED ARAB EMIRATES
Hodgson The case-only method for gene-environment interaction studies: The independence assumption illustrated with empirical data from the published literature and two population-based control groups, the Carolina breast cancer study and the North Carolina colon cancer study

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1139737

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1139737

Country of ref document: HK

C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: NAVIGENICS INC.

Address before: American California

Patentee before: Navigenics Inc.