CN109072308A

CN109072308A - 用于评估患结直肠癌风险的方法

Info

Publication number: CN109072308A
Application number: CN201780021329.8A
Authority: CN
Inventors: 马克·詹金斯; 丹尼尔·布坎南; 约翰·L·霍珀
Original assignee: University of Melbourne
Current assignee: University of Melbourne
Priority date: 2016-01-28
Filing date: 2017-01-27
Publication date: 2018-12-21
Also published as: ES2976360T3; MX2018009254A; EP3408412A1; IL260777A; AU2017212152B2; JP2019510473A; KR20180123480A; JP2022104934A; SG11201806432PA; US11773448B2; EP3408412B1; CA3012783A1; US20190161802A1; IL260777B; JP7126704B2; EP3408412A4; AU2017212152A1; WO2017127893A1

Abstract

本公开涉及用于评估人类受试者患结直肠癌的风险的方法和系统。这些方法可以与受试者临床风险相结合以改善风险分析。这些方法可用于辅助做出关于适当的结直肠癌筛查方案的决策。

Description

用于评估患结直肠癌风险的方法

技术领域

背景技术

结直肠癌筛查项目主张对表面健康人群中的个体进行测试，以鉴定患有恶变前或早期阶段结直肠癌的个体，以便他们可以受益于预防或早期治疗。筛查测试可包括粪便潜血试验和结肠镜检查。在平均风险人群中，基于粪便潜血试验的筛查使结直肠死亡率降低了15％至25％(Hewitson等人，2007)。内镜筛查可将死亡率降低30％至40％(Brenner等人，2014)。

筛查大量人口可能代价高昂。理想情况下，决定谁应该接受筛查以及筛查的程序和强度应该基于个体的结直肠癌风险。然而，由于目前没有确切的或有效的方法来确定疾病的个体风险，因此有针对性的筛查仅基于年龄、性别以及有时家族史的非常泛泛的风险因素。这使得筛查项目效率低下，因为许多进行筛查的个体永远不会患结直肠癌，而许多未进行筛查的个体具有患该疾病的实质性风险(Ait Ouakrim等人，2012)。

遗传风险评估可以提高筛查项目的效率。然而，遗传性结直肠癌的遗传易感性是复杂的并且涉及多种变体和基因。

为了提高筛查效率和降低结直肠癌死亡率，需要改进的方法来评估人类受试者患结直肠癌的风险。

发明内容

本发明人鉴定了基因组内可用于评估受试者患结直肠癌风险的SNP。

因此，在一方面，本公开涉及一种用于评估人类受试者患结直肠癌风险的方法，所述方法包括：

进行受试者的遗传风险评估，其中所述遗传风险评估涉及在源自受试者的生物样品中检测选自表1的至少28个单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性的存在。

对于具体的风险评估，一些单核苷酸多态性比其他单核苷酸多态性提供更有用的信息(informative)。因此，在一个实施方案中，遗传风险评估至少包括检测单核苷酸多态性rs3987、rs35509282和rs744166，或与其一种或多种连锁不平衡的单核苷酸多态性的存在。

在一个实施方案中，遗传风险评估包括检测选自表1的超过28个单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性。例如，可以检测至少29，至少30，至少31，至少32，至少33，至少34，至少35，至少36，至少37，至少38，至少39，至少40，至少41，至少42，至少43，至少44个单核苷酸多态性。在另一个实施方案中，检测至少45个单核苷酸多态性。

在另一个实施方案中，遗传风险评估包括检测单核苷酸多态性rs5934683，或与其连锁不平衡的单核苷酸多态性的存在。

在另一个实施方案中，遗传风险评估与临床风险评估相结合，以获得人类受试者患结直肠癌的风险。在一个实例中，临床风险评估涉及从受试者获得关于以下一方面或多方面的信息：结直肠癌的病史、年龄、结直肠癌的家族史、先前结肠镜检查或乙状结肠镜检查筛查的结果和种族/族群。在另一个实例中，临床风险评估涉及从受试者获得关于年龄和/或一级亲属的结直肠癌史的信息。在一个实施方案中，结直肠癌的家族史包括多代家族史。

本领域技术人员将理解，综合的临床风险评估和遗传风险评估定义了受试者患结肠癌的总体风险。因此，本发明的方法可用于评估总体风险。

在一个实施方案中，本公开的方法确定了人类女性受试者患结肠癌的绝对风险。

在另一个实施方案中，本公开的方法确定了人类女性受试者患结肠癌的相对风险。

本公开的方法可适用于具有结直肠癌症状的受试者。例如，可以使用本公开的方法评估粪便潜血试验阳性的受试者。通常建议50岁左右的受试者进行粪便潜血试验。本发明人已经发现，某些个体在他们达到50岁之前就已经具有增加的结直肠癌风险，特别是如果一级亲属被诊断患有结直肠癌。这些研究结果表明，应该更早地对一些个体进行评估，以确定他们是否具有患结直肠癌的风险。因此，在一个实施方案中，使用本公开的方法评估的受试者为至少40岁。在另一个实施方案中，如果一级亲属被诊断患有结直肠癌，则评估的受试者为至少30岁。

受试者可以是男性或女性。在另一个实施方案中，受试者是男性。

使用本发明确定具有患结直肠癌风险的受试者，然后可以参加筛查项目或进行更频繁的筛查。

在一个实施方案中，所公开方法的性能的特征在于曲线下面积(AUC)为至少约0.63。

在一个实施方案中，连锁不平衡的单核苷酸多态性的连锁不平衡高于0.9。在另一个实施方案中，连锁不平衡的单核苷酸多态性的连锁不平衡高于1。

在另一方面，使用本发明的方法来确定人类受试者对结直肠癌常规诊断测试的需求。例如，当考虑到在受试者的体细胞二倍体基因组中每个单核苷酸多态性可以存在多达两次时，具有至少41，至少42，至少44，至少46，至少50个，至少55个，至少60个，至少65个，或至少70个单核苷酸多态性的受试者应当参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。在另一个实施方案中，如果评估将受试者置于具有患结直肠癌风险的群体中的前20％受试者中，则该受试者参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。在另一个实施方案中，如果评估将受试者置于具有患结直肠癌风险的群体中的前10％受试者中，则该受试者参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。

另一方面，本发明提供了筛查人类受试者的结直肠癌的方法，所述方法包括使用本发明的方法评估受试者患结直肠癌的风险，并且如果受试者被评估为具有患结直肠癌的风险，则常规筛查他们的结直肠癌。

在另一个方面，本公开的方法用作抗结直肠癌疗法，用于预防有此风险的人类受试者的结直肠癌。

在另一方面，本公开涉及一种试剂盒，其包含用于扩增28种或更多种核酸的至少28组引物，其中所述28种或更多种核酸包含选自表1的单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性。

在另一方面，本公开涉及一种遗传阵列，其包含用于与28种或更多种核酸杂交的至少28组探针，其中所述28种或更多种核酸包含选自表1的单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性。

在另一方面，本公开涉及一种用于评估人类受试者患结直肠癌风险的计算机实施方法，所述方法可在包含处理器和存储器的计算系统中操作，所述方法包括：

接收受试者的遗传风险数据，其中遗传风险数据通过检测源自受试者的生物样品中的表1中至少28个单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性的存在而获得；

处理数据以确定人类受试者患结直肠癌的风险；

输出人类受试者患结直肠癌的风险。

在一个实施方案中，计算机实施方法还包括接收受试者的临床风险数据；

处理数据以将临床风险数据与遗传风险数据相结合，以获得受试者患结直肠癌的风险；

输出受试者患结直肠癌的风险。

在一个实施方案中，从与计算系统耦合的用户界面接收受试者的风险数据。在另一实施方案中，通过无线通信网络从远程设备接收受试者的风险数据。在另一实施方案中，用户界面或远程设备是SNP阵列平台。在另一实施方案中，输出包括将信息输出到与计算系统耦合的用户界面。在另一实施方案中，输出包括通过无线通信网络将信息发送到远程设备。

除非另外特别说明，否则本文中的任意实例应比照适用于任意其他实例。

本公开不限于本文描述的具体实施例的范围，这些实施例仅用于举例说明的目的。如本文所述，功能等同的产品、组合物和方法显然在本公开的范围内。

在整个说明书中，除非另外特别说明或上下文另有要求，否则提及步骤、物质组成、步骤或物质组成应当包括一个和多个这些步骤、一种和多种这些物质组成、一组或多组这些步骤或一组或多组这些物质组成。

在整个说明书中，词语“包括”或诸如“包含”的变体将被理解为暗示包括所述元素、整数或步骤，或元素组、整数或步骤，但不排除任何其他元素、整数或步骤，或任何其他组元素、整数或步骤。

下面通过以下非限制性实施例并参考附图来描述本发明。

附图说明

图1.1,000,000名具有结直肠癌史的人员(红色)和1,000,000名不具有结直肠癌史的人员(蓝色)的风险等位基因的模拟分布；以及澳大利亚(正方形)和美国(圆形)群体的风险等位基因数量到70岁的结直肠癌的累积风险。

图2.按年龄分类、结直肠癌家族史(一级亲属)和风险等位基因数量的澳大利亚结直肠癌风险(男性和女性综合)。图A：风险等位基因数量最高和最低五分位数到70岁的累积风险。图B：风险等位基因数量最高和最低十分位数到70岁的累积风险。图C：风险等位基因数量最高和最低五分位数的5年风险。图D：风险等位基因数量最高和最低十分位数的5年风险。

图3.按年龄分类、结直肠癌家族史(一级亲属)和风险等位基因数量的美国结直肠癌风险(男性和女性综合)。图A：风险等位基因数量最高和最低五分位数到70岁的累积风险。图B：风险等位基因数量最高和最低十分位数到70岁的累积风险。图C：风险等位基因数量最高和最低五分位数的5年风险。图D：风险等位基因数量最高和最低十分位数的5年风险。

图4.按年龄分类、结直肠癌家族史(一级亲属)和风险等位基因数量的澳大利亚结直肠癌风险(男性)。图A：风险等位基因数量最高和最低五分位数到70岁的累积风险。图B：风险等位基因数量最高和最低十分位数到70岁的累积风险。图C：风险等位基因数量最高和最低五分位数的5年风险。图D：风险等位基因数量最高和最低十分位数的5年风险。

图5.按年龄分类、结直肠癌家族史(一级亲属)和风险等位基因数量的澳大利亚结直肠癌风险(女性)。图A：风险等位基因数量最高和最低五分位数到70岁的累积风险。图B：风险等位基因数量最高和最低十分位数到70岁的累积风险。图C：风险等位基因数量最高和最低五分位数的5年风险。图D：风险等位基因数量最高和最低十分位数的5年风险。

图6.按年龄分类、结直肠癌家族史(一级亲属)和风险等位基因数量的美国结直肠癌风险(男性)。图A：风险等位基因数量最高和最低五分位数到70岁的累积风险。图B：风险等位基因数量最高和最低十分位数到70岁的累积风险。图C：风险等位基因数量最高和最低五分位数的5年风险。图D：风险等位基因数量最高和最低十分位数的5年风险。

图7.按年龄分类、结直肠癌家族史(一级亲属)和风险等位基因数量的美国结直肠癌风险(女性)。图A：风险等位基因数量最高和最低五分位数到70岁的累积风险。图B：风险等位基因数量最高和最低十分位数到70岁的累积风险。图C：风险等位基因数量最高和最低五分位数的5年风险。图D：风险等位基因数量最高和最低十分位数的5年风险。

具体实施方式

一般技术和选定定义

除非另外特别定义，否则本文使用的所有技术和科学术语应被视为具有与本领域(例如，结直肠癌分析、分子遗传学、生物信息学和生物化学)普通技术人员通常理解的相同含义。

除非另有说明，否则本公开中使用的分子和统计学技术是本领域技术人员公知的标准程序。在诸如以下的来源的整体文献中描述并解释了这些技术：J.Perbal，APractical Guide to Molecular Cloning，John Wiley and Sons(1984)；J.Sambrook等人，Molecular Cloning:A Laboratory Manual，Cold Spring Harbour Laboratory出版社(1989)；T.A.Brown(编辑)，Essential Molecular Biology:A Practical Approach，第1卷和第2卷，IRL出版社(1991)；D.M.Glover和B.D.Hames(编辑)，DNA Cloning:A PracticalApproach，第1-4卷，IRL出版社(1995和1996)；以及F.M.Ausubel等人(编辑)，CurrentProtocols in Molecular Biology，Greene Pub.Associates and Wiley-Interscience(1988，包括至今的所有更新)；Harlow和David Lane(编辑)编辑Antibodies:A LaboratoryManual，Cold Spring Harbour Laboratory，(1988)；以及J.E.Coligan等人(编辑)CurrentProtocols in Immunology，John Wiley&Sons(包括至今的所有更新)。

应理解，本公开不限于具体实施方案，当然，这些实施方案可以变化。还应该理解，本文使用的术语仅用于描述特定实施方案的目的，并不旨在限制。除非内容另有明确说明，否则如在本说明书和所附权利要求中所使用的，单数形式的术语，例如“a”、“an”和“the”任选地包括复数指示物。因此，例如，提及“探针”任选地包括多个探针分子；类似地，取决于上下文，从实际来看，术语“核酸”的使用任选地包括该核酸分子的多个拷贝。

除非另有说明，否则如本文所用，术语“约”是指指定值的+/-10％，更优选+/-5％，更优选+/-1％。

术语“和/或”，例如“X和/或Y”应理解为表示“X和Y”或“X或Y”，并且应被视为对两种含义或任一含义提供明确的支持。

如本文所用，术语“结直肠癌”包括可在受试者的结肠或直肠中发生的任意类型的癌症。术语“结直肠癌”、“结肠癌”、“直肠癌”和“肠癌”在本公开的背景中可以互换使用。

例如，结直肠癌可以表征为T阶段1-4。在另一个实例中，结直肠癌可以表征为Dukes阶段A-D。

如本文所用，“结直肠癌”还包括在个体中表现出患结直肠癌倾向的表型。表现出结直肠癌倾向的表型可以表示，例如，在一组给定的环境条件下(饮食、体力活动制度、地理位置等)，在具有该表型的个体中比在相关一般群体的成员中更可能发生癌症。例如，结直肠癌可以在临床上分类为恶变前(例如增生、腺瘤)。

“多态性”是一个可变的座位；也就是说，在群体内，处于多态性的核苷酸序列具有一个以上的形式或等位基因。多态性的一个实例是“单核苷酸多态性”，其是基因组中单核苷酸位置上的多态性(指定位置上的核苷酸在个体或群体之间变化)。

如本文所用，术语“SNP”或“单核苷酸多态性”是指个体之间的遗传变异；例如，可变的生物体DNA中的单个含氮碱基位置。如本文所用，“SNPs”是SNP的复数。当然，当本文提及DNA时，该提及内容可以包括DNA的衍生物例如扩增子、其RNA转录物等。

术语“等位基因”是指在特定座位上出现或编码的两个或更多个不同核苷酸序列中的一个，或由该座位编码的两个或更多个不同多肽序列中的一个。例如，第一个等位基因可以出现在一条染色体上，而第二个等位基因出现在第二个同源染色体上，例如，如杂合个体的不同染色体，或群体中不同纯合或杂合个体之间所发生的。当一个等位基因与一种性状相关并且当该等位基因的存在指示该性状或性状形式将在包含该等位基因的个体中发生时，该等位基因与该性状“正”相关。当一个等位基因与一种性状相关并且当该等位基因的存在指示该性状或性状形式不在包含该等位基因的个体中发生时，该等位基因与该性状“负”相关。术语“风险等位基因”在本公开的背景中用于指代表明遗传倾向易患结直肠癌的等位基因。对于具体的风险等位基因，受试者可以是纯合、杂合或无。

当标记多态性或等位基因可以与特定表型(结直肠癌易感性等)统计学连锁(正或负)时，其与该表型“相关”或“关联”。用于确定多态性或等位基因是否是统计学连锁的方法是本领域技术人员已知的。也就是说，该特定多态性在病例群体(例如，结直肠癌患者)中比在对照群体(例如，没有结直肠癌的个体)中更常见。这种相关性通常被推断为在本质上具有因果关系，但它不一定与性状的座位简单遗传连锁(与之关联)，该性状引起表型足以发生相关/关联。

短语“连锁不平衡”(LD)用于描述两个相邻多态性基因型之间的统计相关性。通常，LD指的是随机配子在两个座位上的等位基因之间的相关性，假设配子之间Hardy-Weinberg平衡(统计独立性)。LD用Lewontin的关联参数(D')或用Pearson相关系数(r)(Devlin和Risch，1995)量化。LD值为1的两个座位被称为完全LD。在另一个极端，LD值为0的两个座位被称为连锁平衡。应用期望最大化算法(EM)估计单倍型频率，然后计算连锁不平衡(Slatkin和Excoffier，1996)。根据本公开的相邻基因型/座位的LD值被选定为高于0.5，更优选高于0.6，还更优选高于0.7，优选高于0.8，更优选高于0.9，理想地约1.0。本文描述的与本公开的SNP连锁不平衡的许多SNP的LD值为0.9或1。

本领域技术人员可以容易地鉴定与本公开的SNP连锁不平衡的SNP的另一种方式是确定两个座位的LOD得分。LOD代表“优势比的对数(logarithm of the odds)”，其是两个基因或一个基因与一个疾病基因是否可能在染色体上彼此靠近并因此可能是遗传性的统计估值。通常LOD评分在约2-3之间或更高被理解为表示两个基因在染色体上彼此靠近。因此，在一个实施方案中，根据本公开的相邻基因型/座位的LOD值被选定为至少高于2、至少高于3、至少高于4、至少高于5、至少高于6、至少高于7、至少高于8、至少高于9、至少高于10、至少高于20至少高于30、至少高于40、至少高于50。

在另一个实施方案中，与本公开的SNP连锁不平衡的SNP的特定遗传重组距离可小于或等于约20厘摩(centimorgan，cM)或更小。例如，15cM或更小、10cM或更小、9cM或更小、8cM或更小、7cM或更小、6cM或更小、5cM或更小、4cM或更小、3cM或更小、2cM或更小、1cM或更小、0.75cM或更小、0.5cM或更小、0.25cM或更小、或0.1cM或更小。例如，单个染色体区段内的两个连锁座位可以在减数分裂期间以小于或等于约20％、约19％、约18％、约17％、约16％、约15％、约14％、约13％、约12％、约11％、约10％、约9％、约8％、约7％、约6％、约5％、约4％、约3％、约2％、约1％、约0.75％、约0.5％、约0.25％或约0.1％或更低的频率彼此进行重组。

在另一个实施方案中，与本公开的SNP连锁不平衡的SNP在彼此的至少100kb(根据局部重组率，其在人体中与约0.1cM相关)、至少50kb、至少20kb或更小之内。

用于鉴定具体SNP的替代标记的一种示例性方法涉及一种简单策略，该策略假定围绕靶SNP的SNP连锁不平衡并因此可提供关于疾病易感性的信息。因此，可以通过搜索满足某些标准——这些标准已经在科学界中发现适合于选择替代标记候选物——的SNP，从公众可获得的数据库例如HAPMAP中鉴定潜在的替代标记。

“等位基因频率”是指等位基因在个体内、系内或系群内的座位上存在的频率(比例或百分比)。例如，对于等位基因“A”，二倍体基因型个体“AA”、“Aa”或“aa”的等位基因频率分别为1.0、0.5或0.0。可以通过对来自系或群体(例如，病例或对照)的个体的样品的等位基因频率进行平均，来估计该系或群体内的等位基因频率。类似地，可以通过对构成群体的系的等位基因频率进行平均，来计算该系的群体内的等位基因频率。

在一个实施方案中，术语“等位基因频率”用于定义次要等位基因频率(MAF)。MAF是指在给定群体中最不常见的等位基因出现的频率。

如果个体在给定座位上仅具有一种类型的等位基因，则该个体是“纯合的”(例如，二倍体个体在两个同源染色体中的每一个的座位上具有相同等位基因的拷贝)。如果在给定座位上存在多于一种等位基因类型，则该个体是“杂合的”(例如，二倍体个体具有两个不同等位基因中的每一个的一个拷贝)。术语“同源的”表示一个组的成员在一个或多个特定座位上具有相同的基因型。相反，术语“异源的”用于表示组内的个体在一个或多个特定座位上的基因型不同。

“座位”是染色体位置或区域。例如，多态性座位是多态性核酸、性状决定簇、基因或标记所在的位置或区域。在另一个实例中，“基因座”是物种基因组中的特定染色体位置(区域)，特定基因可存在于此。

“标记”、“分子标记”或“标记核酸”是指在鉴定座位或连锁座位时，用作参考点的核苷酸序列或其编码产物(例如，蛋白质)。标记可以源自基因组核苷酸序列或来自表达的核苷酸序列(例如，来自RNA、nRNA、mRNA、cDNA等)，或来自编码的多肽。该术语还指与标记序列互补或侧接的核酸序列，例如用作探针的核酸或能够扩增标记序列的引物对。“标记探针”是可用于鉴定标记座位的存在的核酸序列或分子，例如，与标记座位序列互补的核酸探针。当核酸在溶液中例如根据Watson-Crick碱基配对原则特异性杂交时，它们是“互补的”。“标记座位”是可用于追踪第二连锁座位的存在的座位，例如，编码或有助于表型性状的群体变异的连锁或相关座位。例如，标记座位可用于监测座位上等位基因的分离，例如数量性状座位(QTL)，它在遗传上或物理上与标记座位连锁。因此，“标记等位基因”，或者“标记座位的等位基因”是对于标记座位具有多态性的群体中，标记座位上存在的多个多态性核苷酸序列中的一个。

在一个实施方案中，本公开提供了与所关注的表型(例如结直肠癌)相关的标记座位。预期每种鉴定的标记与遗传元件(例如，有助于相关表型的QTL)处于紧密的物理和遗传接近(导致物理和/或遗传连锁)。与群体成员之间的遗传多态性相对应的标记可以通过本领域成熟的方法检测。这些包括，例如，基于PCR的序列特异性扩增方法，限制性片段长度多态性(RFLP)的检测，同工酶标记的检测，等位基因特异性杂交(ASH)的检测，单核苷酸延伸的检测，扩增基因组可变序列的检测，自持序列复制的检测，简单重复序列(SSRs)的检测，单核苷酸多态性(SNPs)的检测，或扩增片段长度多态性(AFLPs)的检测。

在核酸扩增的背景中，术语“扩增”是产生选定核酸(或其转录形式)的另外拷贝的任意过程。典型的扩增方法包括各种基于聚合酶的复制方法，包括聚合酶链反应(PCR)，连接酶介导的方法，例如连接酶链反应(LCR)和基于RNA聚合酶的扩增(例如，通过转录)方法。

“扩增子”是扩增的核酸，例如，通过任意可用的扩增方法(例如，PCR、LCR、转录等)扩增模板核酸而产生的核酸。

当使用给定核酸的序列构建特定核酸时，或当使用给定核酸构建特定核酸时，该特定核酸“源自”该给定核酸。

“基因”是基因组中的一个或多个核苷酸序列，其共同编码一种或多种表达的分子，例如RNA或多肽。基因可以包括转录成RNA的编码序列，随后该RNA可以翻译成多肽序列，并且基因可以包括有助于基因复制或表达的相关结构序列或调节序列。

“基因型”是个体(或个体组)在一个或多个遗传座位上的遗传构成。基因型由个体的一个或多个已知座位的等位基因定义，通常是从其亲本遗传的等位基因的汇编。

“单倍型”是个体在单个DNA链上的多个遗传座位上的基因型。通常，通过单倍型描述的遗传座位在物理上和遗传上连锁，即在相同的染色体链上。

一“组”标记、探针或引物是指用于共同目的(例如，评估个体患结直肠癌的风险)的标记探针、引物的集合或组，或由其衍生的数据。通常，与标记物、探针或引物相对应的数据或从其使用衍生的数据存储在电子介质中。虽然就特定目的而言，一个组中的每个成员均具有效用，但是选自该组的单个标记以及包括一些标记而非全部的子集，也能有效地实现该特定目的。

上述多态性和基因、以及相应的标记探针、扩增子或引物可以以物理核酸的形式，或者以系统说明的形式收录到本文的任意系统中，所述系统说明包括核酸的序列信息。例如，该系统可包括与本文所述的基因或多态性相对应(或扩增其一部分)的引物或扩增子。如在上述方法中，该组标记探针或引物任选地检测多个所述基因或遗传座位中的多个多态性。因此，例如，该组标记探针或引物检测这些基因中的每一个中的至少一种多态性，或本文定义的任意其他多态性、基因或座位。任意这种探针或引物可包括任意这种多态性或基因的核苷酸序列，或其互补核酸，或其转录产物(例如，由基因组序列例如通过转录或剪接产生的nRNA或mRNA形式)。

如本文所用，“受试者工作特征曲线”是指二元分类器系统的灵敏度vs(1-特异性)的绘图，因为其鉴别阈值是变化的。ROC也可以通过绘制真阳性分数(TPR＝真阳性率)vs假阳性分数(FPR＝假阳性率)来等效地表示。也称为相对工作特征曲线，因为它是两个工作特征(TPR和FPR)随着标准变化的比较。ROC分析提供了工具，在不考虑成本背景或类别分布的情况下(并且在详述之前)，选择可能的最优模型并舍弃次优模型。在本公开的背景中使用的方法对于本领域技术人员而言是清楚的。

如本文所用，术语“将遗传风险评估与临床风险评估相结合以获得风险”是指依赖于两种评估的结果的任何合适的数学分析。例如，临床风险评估和遗传风险评估的结果可以相加，更优选地相乘。

如本文所用，术语“常规筛查结直肠癌”和“更频繁的筛查”是相对术语，其基于与向未被鉴定具有患结直肠癌风险的受试者推荐的筛查水平的比较。例如，常规筛查可以包括每一至两年一次的粪便隐匿性筛查、结肠镜检查或乙状结肠镜检查。下面讨论用于常规筛查的各种其他时间间隔。

遗传风险评估

在一个实施方案中，本公开的方法涉及通过进行遗传风险评估来评估受试者患结直肠癌的风险。

通过分析受试者在两个或更多个座位上的基因型来获得单核苷酸多态性，而进行遗传风险评估。例如，可以检测至少28个单核苷酸多态性。在其他实例中，检测至少29、至少30、至少31、至少32、至少33、至少34、至少35、至少36、至少37、至少38、至少39、至少40、至少41、至少42、至少43、至少44个单核苷酸多态性。在另一个实施例中，检测至少45个单核苷酸多态性。

如本领域技术人员所理解的，增加患结直肠癌风险的每个SNP与结直肠癌的相关比值比均大于1.0。在一个实施方案中，没有多态性与结直肠癌的相关比值比大于3或大于4。

可作为遗传风险评估的一部分检测的SNP的实例包括但不限于选自由以下组成的组的SNP：rs72647484、rs10911251、rs6687758、6691170、rs11903757、rs812481、rs35360328、rs10936599、rs3987、rs35509282、rs647161、rs1321311、rs16892766、rs6983267、rs10505477、rs7014346、rs719725、rs10904849、rs10795668、rs704017、rs11190164、rs1035209、rs12241008、rs174537、rs4246215、rs174550、rs1535、rs3824999、rs3802842、rs3217810、rs3217901、rs10774214、rs11169552、rs7136702、rs3184504、rs59336、rs73208120、rs1957636、rs4444235、rs11632715、rs16969681、rs9929218、rs16941835、rs744166、rs4939827、rs10411210、rs1800469、rs2241714、rs2423279、rs4813802、rs961253、rs6066825、rs4925386、rs5934683或与其一种或多种连锁不平衡的SNP。在一个实例中，检测的SNP选自表1或与其一种或多种连锁不平衡的单核苷酸多态性。在一个实例中，当进行遗传风险评估时，检测来自表1的至少28个SNP或与其一种或多种连锁不平衡的单核苷酸多态性。在其他实例中，检测来自表1的至少29、至少30、至少31、至少32、至少33、至少34、至少35、至少36、至少37、至少38、至少39、至少40、至少41、至少42、至少43、至少44个单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性。在另一个实例中，检测来自表1的至少45个单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性。

表1.与结直肠癌相关的SNP。该表显示了SNP命名法、最接近可能的SNP的调节靶标的基因或在其内的基因、报告的风险等位基因基因型、对照中报告的风险等位基因频率、报告的与结直肠癌/风险等位基因(比值比)的关联、归因于SNP的家族相对风险(FRR)，以及由于SNP引起的log FRR的比例。*最接近的或可能是SNP的调节靶标的基因。连锁不平衡的SNP显示在方括号[]中。

在一个实例中，与选自表1的一个或多个单核苷酸多态性连锁不平衡的单核苷酸多态性的LD值为至少0.5、至少0.6、至少0.7、至少0.8。在另一个实例中，连锁不平衡的单核苷酸多态性的LD值为至少0.9。在另一个实例中，连锁不平衡的单核苷酸多态性的LD值为至少1。

对于具体的风险评估，一些单核苷酸多态性比其他单核苷酸多态性提供更有用的信息。例如，遗传风险评估可以包括检测rs3987、rs35509282和rs744166，或与其一种或多种连锁不平衡的单核苷酸多态性。

在另一个实例中，遗传风险评估可以包括检测rs72647484、rs10911251、rs6687758、rs11903757、rs812481、rs35360328、rs10936599、rs3987、rs35509282、rs647161、rs1321311、rs16892766、rs6983267、rs719725、rs10904849、rs10795668、rs704017、rs11190164、rs12241008、11qhap(rs174537、rs4246215、rs174550和rs1535中的任意一种或全部)、rs3824999、rs3802842、rs3217810、rs3217901、rs10774214、rs11169552、rs7136702、rs3184504、rs59336、rs73208120、rs1957636、rs4444235、rs11632715、rs16969681、rs9929218、rs16941835、rs744166、rs4939827、rs10411210、19qhap^(rs1800469和rs2241714中的任意一种或全部)、rs2423279、rs4813802、rs961253、rs6066825、rs4925386或与其一种或多种连锁不平衡的单核苷酸多态性。

在另一个实例中，遗传风险评估包括检测单核苷酸多态性rs5934683，或与其连锁不平衡的单核苷酸多态性的存在。

在一个实施方案中，评估的SNP的数量基于使用净重新分类指数(netreclassification index，NRI)计算的风险预测中的净重新分类改进(Pencina等人，2008)。在一个实施方案中，本公开方法的净重新分类改进大于0.01。

在另一个实施方案中，本公开方法的净重新分类改进大于0.05。在又另一个实施方案中，本公开方法的净重新分类改进大于0.1。

本领域技术人员能够容易地鉴定与本文具体提及的SNP连锁不平衡的SNP。这种SNP的实例包括11q12.2内的四个完全相关的SNP(rs174537、rs4246215、rs174550和rs1535)。这四个SNP在本公开中被命名为11q12.2单倍型。另一个实例包括位于19q13.2内的rs1800469和rs2241714。这些SNP也是完全相关的，并且在本公开中被命名为19q13.2单倍型。其他实例包括位于1q41内的rs6687758和rs6691170；位于8q24.21内的rs10505477、rs6983267和rs7014346；位于15q31内的rs11632715和rs16969681；位于10q24.2内的rs1035209、rs11190164；位于12q13.13内的rs11169552、rs7136702(表2中提供的其他可能的示例)。

表2.处于LD*的前6个风险SNP(DbSNPs)的SNP(相关SNP)列表。示出了HAPMAP数据集(http://hapmap.ncbi.nlm.nih.gov)中r²大于0.08(非裔美国人、美国人、亚洲人和欧洲人)的SNP。

临床风险评估

本公开的方法可以包括进行受试者的临床风险评估。临床风险评估的结果可以与遗传风险评估相结合，以获得受试者患结直肠癌的风险。

任何合适的临床风险评估程序均可用于本公开。优选地，临床风险评估不涉及在一个或多个座位上对受试者进行基因分型。尽管如此，临床风险评估程序可包括获得关于MLH1、MSH2和MSH6基因中突变的信息以及关于微卫星不稳定状态的信息。

在另一个实施方案中，临床风险评估程序包括从受试者获得关于以下中的一方面或多方面的信息：结直肠癌和/或息肉的病史、年龄、结直肠癌和/或息肉和/或其他癌症的家族史包括诊断时的亲属年龄、先前结肠镜检查和/或乙状结肠镜检查的结果、先前粪便潜血试验的结果、体重、体重指数、身高、性别、饮酒史、吸烟史、运动史、饮食(例如叶酸、蔬菜、红色肉类、水果、纤维和饱和脂肪的食用)、炎症性肠病的患病率、种族/族群、阿司匹林和NSAID使用、雌激素替代的实施和口服避孕药的使用。例如，临床风险评估程序可以包括从受试者获得关于一级亲属的结直肠癌史的信息。在另一个实例中，临床风险评估程序包括从受试者获得关于年龄和/或一级亲属的结直肠癌史的信息。

在一个实施方案中，临床风险评估包括关于至少一些，优选所有一级亲属的结直肠癌家族史的细节。

在一个实施方案中，结直肠癌的家族史涉及多代家族史的分析。如本文所用，“多代家族史”是指2代或更多代的分析。多代家族史可以包括例如经同一代(例如堂兄弟)和/或世代之间(例如叔叔和阿姨)的分析。例如，在一个实施方案中，临床风险评估包括关于至少一些，优选所有二级亲属的结直肠癌家族史的细节。在另一个实施方案中，临床风险评估包括关于至少一些，优选所有二级和三级亲属的结直肠癌家族史的细节。

在一个实施方案中，临床风险评估程序提供了在接下来的5年期间受试者患结直肠癌风险的预估(即5年风险)。在一个实例中，由临床风险评估确定的5年风险在约1％至约3％之间。在另一个实例中，由临床风险评估确定的5年风险在约1.5％至约2％之间。

在一个实施方案中，临床风险评估程序提供了在接下来的10年期间受试者患结直肠癌风险的预估(即10年风险)。在一个实例中，由临床风险评估确定的10年风险在约1％至约3％之间。在另一个实例中，由临床风险评估确定的5年风险在约1.5％至约2％之间。

在另一个实施方案中，临床风险评估程序提供了受试者到70岁患结直肠癌风险的预估(即，终生风险)。在一个实例中，由临床风险评估确定的终生风险在约15％至约30％之间。在另一个实例中，由临床风险评估确定的终生在约20％至约25％之间。

在另一个实施方案中，使用模型进行临床风险评估，该模型计算患结肠癌的绝对风险。例如，可以使用癌症发病率来计算患结肠癌的绝对风险，同时考虑死于除结肠癌之外的其他原因的竞争风险。在一个实施方案中，临床风险评估提供了患结肠癌的5年绝对风险。在另一个实施方案中，临床风险评估提供了患结肠癌的10年绝对风险。

临床风险评估程序的实例包括但不限于哈佛癌症风险指数、国家癌症研究所的结直肠癌风险评估工具、克利夫兰诊所工具、错配修复概率模型(也称为MMRpro)、结直肠风险预测工具(CRiPT)等(参见，例如，Usher-Smith等人，2015)。大量针对高风险突变和表型风险因素的研究已被编入这些示例性风险预测算法中。

哈佛癌症风险指数使用家族史数据(患有结肠癌的一级亲属)和环境因素，例如体重指数，阿司匹林使用，吸烟，炎症性肠病史，身高，体力活动，雌激素替代，口服避孕药的使用，以及叶酸、蔬菜、酒精、红色肉类、水果、纤维和饱和脂肪的食用，来预测患结肠癌的10年风险。在一个实例中，临床风险评估程序使用哈佛癌症风险指数来预测受试者患结肠癌的10年风险。

结直肠癌风险评估工具基于年龄、性别、乙状结肠镜和/或结肠镜检查的使用、当前的休闲时间活动、阿司匹林和NSAID的使用、吸烟史、体重指数、激素替代史和蔬菜的食用，来预测50岁以上人群患结直肠癌的5年、10年、20年和终生风险。在一个实例中，临床风险评估程序使用结直肠癌风险评估工具来预测受试者患结直肠癌的5年风险。在另一个实例中，临床风险评估程序使用结直肠癌风险评估工具来预测受试者患结直肠癌的10年风险。在另一个实例中，临床风险评估程序使用结直肠癌风险评估工具来预测受试者患结直肠癌的20年风险。在另一个实例中，临床风险评估程序使用结直肠癌风险评估工具来预测受试者患结直肠癌的终生年风险。

克利夫兰诊所工具基于年龄、性别、族群、体重、身高、乙状结肠镜检查和/或结肠镜检查的使用、粪便潜血试验、吸烟、运动、结直肠癌和息肉史以及蔬菜和水果的食用，来提供结直肠癌风险评分。

MMRpro模型基于MLH1、MSH2和MSH6基因的突变以及环境因素，例如疾病家族史、微卫星(microsatellite)不稳定状态、年龄和族群，来预测患结直肠癌和子宫内膜癌的五年和终生风险。在一个实例中，临床风险评估程序使用MMRpro模型来预测受试者患结直肠癌的5年风险。在另一个实例中，临床风险评估程序使用MMRpro模型来预测受试者患结直肠癌的终生风险。

结直肠风险预测工具(CRiPT)模型使用多代家族史使用混合的主基因多基因模型来估计结直肠癌风险。

计算复合SNP相对风险“遗传风险”

个体的“遗传风险”可以定义为每个评估的SNP的基因型相对风险值的乘积。然后可以使用对数加法风险模型来定义在罕见疾病模型下相对风险值为1、OR和OR²的单个SNP三种基因型AA、AB和BB，其中OR是先前报告的高风险等位基因B与低风险等位基因A的疾病比值比。假设Hardy-Weinberg平衡，如果B等位基因具有频率(p)，则这些基因型的群体频率为(1-p)²、2p(1-p)和p²。然后可以度量每个SNP的基因型相对风险值，使得基于这些频率，群体中的平均相对风险为1。具体而言，考虑到未度量的群体平均相对风险：

(μ)＝(1-p)²+2p(1-p)OR+p²OR²

将调整后的风险值1/μ、OR/μ和OR²/μ用于AA、AB和BB基因型。缺失基因型被指定1的相对风险。以下公式可用于定义遗传风险：

SNP₁x SNP₂x SNP₃x SNP₄x SNP₅x SNP₆x SNP₇，×SNP₈，等。

可以对非SNP多态性进行类似的计算。

Mavaddat等人(2015)描述了计算复合SNP风险的另一种方法。在这一实例中，使用以下公式；

PRS＝β₁x₁+β₂x₂+....β_κx_κ+β_nx_n

其中β_κ是与SNPκ的次要等位基因相关的结肠癌的每等位基因对数比值比(OR)，x_κ是相同SNP的等位基因数(0、1或2)，n是SNP的总数，并且PRS是多基因风险评分(也可称为复合SNP风险)。

可以设想，人类受试者患结直肠癌的“风险”可以根据需要以相对风险(或风险比)或绝对风险的形式提供。

在一个实施方案中，遗传风险评估获得人类受试者患结直肠癌的“相对风险”。相对风险(或风险比)，以具有具体特征(或显露)的个体的疾病发病率除以没有该特征的个体的疾病发病率来衡量，表示该特定显露是增加还是降低风险。相对风险有助于鉴定与疾病相关的特征，但由于风险(发病率)的频率被抵消，因此其本身对指导筛查决策并不是特别有用。

在另一个实施方案中，遗传风险评估获得人类受试者患结直肠癌的“绝对风险”。绝对风险是人类受试者在特定时期(例如5、10、15、20或更多年)内患结直肠癌的数字概率。它反映了人类受试者患结直肠癌的风险，因为它没有单独考虑各种风险因素。

综合的临床评估×遗传风险

在将临床风险评估与遗传风险评估相结合以获得受试者患结直肠癌的“风险”时，可以使用以下公式：

[风险(即，临床评估x SNP风险)]＝[临床评估风险]x SNP₁x SNP₂x SNP₃x SNP₄xSNP₅x SNP₆x SNP₇,×SNP₈,…x SNP₄₅等。

当临床评估是由临床评估提供的风险，并且SNP₁至SNP₄₅是个体SNP的相对风险时，如上所述，将每个SNP的群体平均值度量为1。由于SNP风险值已被“中心化”以使群体平均风险为1，如果假设SNP之间存在独立性，那么综合值的所有基因型的群体平均风险与潜在的临床评估风险预估一致。

在一个实施方案中，通过[临床评估风险]x SNP₁x SNP₂x SNP₃x SNP₄x SNP₅xSNP₆x SNP₇，×SNP₈，...x SNP₄₅等来计算人类受试者患结直肠癌的风险。在另一个实施方案中，通过[临床评估5年风险]x SNP₁x SNP₂x SNP₃x SNP₄x SNP₅x SNP₆x SNP₇，×SNP₈，...xSNP₄₅等来计算人类受试者患结直肠癌的风险。

在另一个实施方案中，通过[临床评估终生风险]x SNP₁x SNP₂x SNP₃x SNP₄xSNP₅x SNP₆x SNP₇，×SNP₈，...x SNP₄₅等来计算人类受试者患结直肠癌的风险。在一个实施方案中，通过评估以下中的一种或多种来进行临床评估以提供临床风险：结直肠癌的病史、年龄、结直肠癌的家族史、先前的结肠镜检查/乙状结肠镜检查的结果和种族/族群。在该实施例中，风险(即，综合的遗传风险x临床风险)由以下提供：

[风险(即，临床x遗传风险)]＝[临床因素₁x临床因素₂，...，x临床因素₅]x SNP₁xSNP₂x SNP₃x SNP₄x SNP₅x SNP₆x SNP₇,×SNP₈,…x SNP₄₅等。

在一个实施方案中，通过评估一级亲属结直肠癌史来进行临床评估以提供临床风险。在该实施例中，风险(即，综合的遗传风险x临床风险)由以下提供：

[风险(即，临床x遗传风险)]＝[与具有患结直肠癌的一级亲属相关的临床风险]xSNP₁x SNP₂x SNP₃x SNP₄x SNP₅x SNP₆x SNP₇,×SNP₈,…x SNP₄₅等。

在一个实施方案中，可以预估可归因于SNP的风险等位基因的log家族相对风险(FRR；与具有患结直肠癌的一级亲属相关的结直肠癌的比值比)的比例(假设检测45个SNP、各SNP Hardy-Weinberg平衡、SNP之间的连锁平衡并且SNP与结直肠癌风险的关联为乘法模型。SNP₁，...，SNP₄₅是表1中的SNP，并且临床因素₁，...，临床因素_m是临床因素(注意：这些可能是导致FRR的任意可遗传因素)。然后，如果G_i是随机变量，它给出群体中随机人员的SNP_i的风险等位基因数，则G₁，...，G_m都是独立的随机变量(通过连锁平衡)并且随机人员的对数比值比为X₁+…+X_m(通过假设的乘法模型)，其中X_i＝G_ilog OR_i并且OR_i是SNP_i的每等位基因比值比。Antoniou等人(2003)的公式严格地出自Win等人(2014)，然后变为logFRR＝1/2[Var(X₁)+…+Var(X_m)]。这表明log FRR是来自已知和未知结直肠癌相关性SNP的独立组分的总和。由已知SNP得到的log FRR的比例为1/2(Var(X₁)+…+Var(X₄₅))/logFRR，而由未知临床因素得到的比例为1减去该值。可根据需要将其他临床因素纳入上述计算中。

在一个实施方案中，遗传风险评估与临床风险评估相结合，以获得人类受试者患结直肠癌的“相对风险”。在另一个实施方案中，遗传风险评估与临床风险评估相结合，以获得人类受试者患结直肠癌的“绝对风险”。

受试者

如本文所用的术语“受试者”是指人类受试者。例如“受试者”、“患者”或“个体”的术语可以在上下文中在本公开中互换使用。在一个实例中，本公开的方法可以用于受试者的常规筛查。常规筛查可包括以预定的时间间隔对受试者进行测试。示例性时间间隔包括每月、每季度、每六个月、每年、每两年或每三年进行一次筛查。

目前的风险数据表明，普通人在大约50岁时满足粪便潜血试验筛查(大多数国家筛查项目推荐)的风险阈值。然而，本发明人已经发现，使用本公开的方法，一些个体在它们达到50岁之前就应该进行粪便潜血试验筛查，特别是如果这些受试者的一级亲属已经被诊断为具有结直肠癌。这些发现表明应该使用本公开的方法评估小于50岁的受试者。因此，在一个实例中，使用本公开的方法筛查的受试者为至少38、至少39、至少40、至少41、至少42、至少43、至少44、至少45、至少46岁、至少47岁、至少48岁、至少49岁。在一个示例中，受试者至少40岁。

具有结直肠癌家族史的受试者可以更早地筛查。例如，这些受试者可以从至少30岁、至少31岁、至少32岁、至少33岁、至少34岁、至少35岁、至少36岁、至少37岁或更大年龄筛查。

在另一个实例中，使用本公开的方法评估的受试者粪便潜血试验阳性。在其他实例中，受试者具有腺瘤性息肉个人史或炎性肠病(溃疡性结肠炎或克罗恩病)个人史。

在另一个实例中，本公开的方法可以用可能指示结直肠癌的症状来评估人类受试者患结直肠癌的风险。在结直肠癌的背景下，本公开将适用于粪便隐匿性筛查试验阳性的受试者，或因具有以下症状而就诊的受试者，例如排便习惯改变，包括腹泻或便秘、大便稠度改变、直肠出血、持续性腹部不适、如痉挛、排便不全、气体或疼痛。

本公开的方法可用于评估男性和女性受试者的风险。然而，在一个实例中，受试者是男性。

本公开的方法可用于评估来自不同种族背景的人类受试者患结直肠癌的风险。众所周知，随着时间的推移，出现了不同种族起源的混合。虽然在实践中，这不影响技术人员实践本文所述方法的能力，但可能需要鉴定受试者的种族背景。在这种情况下，受试者可以自我报告人类受试者的种族。例如，可以要求受试者回答这个问题：“你属于哪个种族？”，以确定他们的种族。在另一个实例中，可以在获得受试者的适当同意或临床医生的意见或观察之后，从医疗记录中得出受试者的种族。

在一个实例中，基于体质人类学，可以将受试者分类为高加索人、澳大利亚人、蒙古人和黑人。在一个实施方案中，受试者可以是高加索人、非裔美国人、西班牙裔、亚洲人、印度人或拉丁美洲人。在一个实例中，受试者是高加索人。例如，受试者可以是欧洲人。

在本公开的背景中，具有白色皮肤的主要是欧洲起源的受试者，直接或间接通过血统，被认为是高加索人。高加索人可以具有例如至少75％的高加索人血统(例如但不限于具有至少三个高加索人祖父母的受试者)。

在本公开的背景中，主要是非洲中部或南部起源的受试者，直接或间接通过血统，被认为是黑人。例如，一个黑人可能有至少75％的黑人血统。在本公开的背景中，主要具有黑人血统和黑色皮肤的美国受试者被认为是非裔美国人。例如，一个非裔美国人可能有至少75％的黑人血统。类似的原则适用于例如生活在其他国家(例如英国、加拿大或荷兰)的黑人血统的受试者。

在本公开的背景中，主要源自西班牙或西班牙语国家，例如中美洲或南美洲的国家，的受试者，直接或间接通过血统，被认为是西班牙裔。例如，西班牙裔受试者可能具有至少75％的西班牙血统。

常规筛查

粪便潜血试验和结肠镜检查/乙状结肠镜检查可降低结直肠癌的死亡率，但向大量受试者常规提供的费用昂贵。因此，希望确定进行筛查的正确群体。在一个实例中，本公开的方法可用于确定人类受试者对结直肠癌常规诊断测试的需求。这种常规筛查可以包括以例如上面所讨论的预定时间间隔进行粪便潜血试验或结肠镜检查/乙状结肠镜检查。

在一个实例中，基于检测的风险等位基因的数量来确定受试者对结直肠癌常规诊断测试的需求。本领域技术人员将理解，在受试者的体细胞二倍体基因组中每个单核苷酸多态性可存在多达两次。因此，例如，评估28个单核苷酸多态性可以得到56个等位基因的检测。在另一个实例中，例如，评估45个单核苷酸多态性可以得到90个等位基因的检测。一部分检测的等位基因可能是风险等位基因。检测的风险等位基因的数量与受试者患肠癌的风险相关。

在一个实例中，当考虑到在受试者的体细胞二倍体基因组中每个单核苷酸多态性可以存在多达两次时、具有至少41、至少42、至少43、至少44、至少45、至少46、至少47、至少48、至少49、至少50、至少51、至少52、至少53、至少54、至少55、至少56、至少57、至少58、至少59、至少60个或更多个单核苷酸多态性的受试者应当参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。例如，具有至少44个单核苷酸多态性风险等位基因的受试者应参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。在一个实例中，具有至少44个单核苷酸多态性风险等位基因的至少49岁的受试者应参加结肠镜或乙状结肠镜筛查项目。

在另一个实例中，具有至少46个单核苷酸多态性风险等位基因的受试者应参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。在该实例中，具有至少46个单核苷酸多态性风险等位基因的至少47岁的受试者应参加结肠镜或乙状结肠镜筛查项目。

在另一个实例中，基于受试者在受试者群体内的风险排名来确定受试者对结直肠癌常规诊断测试的需求。例如，如果评估将受试者置于具有患结直肠癌风险的群体中的前30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2、1％的受试者中，那么受试者参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。

在一个实例中，基于：SNP₁x SNP₂x SNP₃x SNP₄x SNP₅x SNP₆x SNP₇,×SNPx来计算遗传风险，并且风险大于约5.9％的受试者参加粪便隐匿性筛查、结肠镜或乙状结肠镜检查程序。在另一个实例中，风险大于约6.0、6.1、6.2、6.3、6.4、6.5、6.5、6.6、6.7、6.8、6.9、7.0、7.1、7.2、7.3、7.4％或更高的受试者参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。

在另一个实例中，基于：[风险(即，临床x遗传风险)]＝[与具有患结直肠癌的一级亲属相关的临床风险]x SNP₁x SNP₂x SNP₃x SNP₄x SNP₅x SNP₆x SNP₇,×SNPx来计算综合风险(即，临床x遗传风险)，并且风险大于约11.5％的受试者参加粪便隐匿性筛查、结肠镜或乙状结肠镜检查程序。在另一个实例中，风险大于约12、12.5、13、13.1、13.2、13.3、13.4、13.5、14％或更多的受试者参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。

在另一个实例中，将本公开的方法结合到筛查受试者的结直肠癌的方法中。在该实例中，使用本公开的方法评估受试者患结直肠癌的风险，并且如果受试者被评估为具有患结直肠癌的风险，则通过结肠镜检查或乙状结肠镜检查对其进行常规筛查。

在提供患结直肠癌风险的评估时，本公开的方法还可以结合其他方法或“另外的测试”。在该实例中，多个测试的结果可以帮助临床医生确定是否需要更权威的测试，例如结肠镜检查或乙状结肠镜检查。在一个实例中，本公开的方法与粪便潜血试验结合进行。

方法性能

在各种实施方案中，方法性能的特征在于曲线下面积(AUC)为至少约0.61、至少约0.62、至少约0.63。

在各种实施方案中，本公开的方法所实现的灵敏度为至少约50％、至少约60％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％。

在各种实施方案中，本公开的方法所实现的特异性为至少约50％、至少约60％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％。

治疗

结直肠癌的高遗传倾向可被视为开始预防性治疗或治疗性治疗的警告。因此，在进行本公开的方法之后，可以对受试者开处方或施用治疗。在一个实施方案中，本公开的方法涉及一种抗结直肠癌疗法，其用于预防或降低有此风险的人类受试者的结直肠癌风险。在该实施方案中，可以对受试者开处方或施用治疗剂或预防剂。例如，可以对受试者开处方或施用化学预防剂。在其他实例中，可以对受试者开处方或施用非甾体抗炎药，例如阿司匹林、噻托芬、对乙酰氨基酚和萘普生或激素疗法(雌激素加孕激素)。在另一个实例中，治疗可以包括行为干预，例如控制受试者饮食。示例性的饮食改变包括增加纤维、单饱和脂肪酸和/或鱼油。

样品制备和分析

在进行本公开的方法时，需要来自受试者的生物样品。认为诸如“样品”和“样本”的术语是可以在本公开中，在上下文中，互换使用的术语。任何生物材料都可以作为上述样品使用，只要其可以源自受试者并且可以分离DNA并且可以根据本公开的方法进行分析。通常在知情同意后，通过标准医学实验室方法从患者采集样品。样品可以是直接取自患者的形式，或者可以至少部分加工(纯化)以除去至少一些非核酸材料。

示例性的“生物样品”包括来自患者的体液(血液、唾液、尿液等)、活组织检查、组织和/或废料。因此，可以容易地筛查组织活组织检查、粪便、痰、唾液、血液、淋巴、眼泪、汗液、尿液、阴道分泌物等的SNP，基本上任何含有适当核酸的所关注的组织都可以进行筛查。在一个实施方案中，生物样品是颊细胞样品。

在另一个实施方案中，样品是血液样品。可以使用各种方法处理血液样品，例如离心、亲和层析(例如免疫吸附装置)、免疫选择和过滤(如果需要)，以除去具体细胞。因此，在一个实例中，样品可包含直接从受试者分离的或从获自受试者的样品中纯化的特定细胞类型或细胞类型的混合物。在一个实例中，生物样品是外周血单核细胞(pBMC)。纯化细胞亚群的各种方法是本领域已知的。例如，可以使用各种已知的基于Ficoll的离心方法(例如Ficoll-Hypaque密度梯度离心)从全血中纯化pBMC。

可以从样品中提取DNA用于检测SNP。在一个实例中，DNA是基因组DNA。分离DNA特别是基因组DNA的各种方法是本领域技术人员已知的。通常，已知的方法涉及破坏并裂解起始材料，然后除去蛋白质和其他污染物，最后回收DNA。例如，涉及酒精沉淀的技术；有机酚/氯仿提取和盐析多年来一直用于提取和分离DNA。存在各种用于基因组DNA提取的市售试剂盒(Qiagen，Life technologies；Sigma)。DNA的纯度和浓度可以通过各种方法评估，例如分光光度法。

标记检测策略

用于扩增标记(例如，标记座位)的扩增引物和用于检测这种标记或针对多个标记等位基因对样品进行基因分型的合适探针可用于本公开。例如，用于长程PCR的引物选择描述于US 10/042,406和US 10/236,480；对于短程PCR，US 10/341,832提供了关于引物选择的指导。此外，存在可用于引物设计的公开程序，例如“Oligo”。利用这种可用的引物选择和设计软件、公开的人基因组序列和多态性位置，本领域技术人员可以构建用来扩增SNP的引物以实施本公开。此外，应当理解，用于检测包含SNP的核酸(例如，包含SNP的扩增子)的精确探针可以变化，例如，任意能够鉴定待检测标记扩增子区域的探针都可以与本公开结合。此外，当然地，检测探针的配置可以改变。

表3中提供了用于扩增核酸的寡核苷酸引物的实例，该核酸包含已知与结直肠癌相关的SNP。如本领域技术人员将理解的，与这些寡核苷酸杂交的基因组区域的序列可用于设计引物，这些基因组区域在5'和/或3'末端较长，在5'和/或3'处可能较短(只要截短形式仍可用于扩增)，它们有一个或几个核苷酸差异(但仍然可以用于扩增)，或者它们与所提供的序列没有序列相似性，但是它们是基于接近特异性提供寡核苷酸杂交的基因组序列而设计的，并且它们仍然可以用于扩增。

表3.表1中示出的六种最高风险SNP的TaqMan引物和探针。

在一些实施方案中，本公开的引物是放射性标记的，或通过任意合适的手段(例如，使用非放射性荧光标记)标记的，以允许在扩增反应后，无需任何另外的标记步骤或可视化步骤，即可快速可视化不同大小的扩增子。在一些实施方案中，引物是未被标记的，并且扩增子在其大小解析后可视化，例如，在琼脂糖或丙烯酰胺凝胶电泳后。在一些实施方案中，在扩增后对PCR扩增子进行溴化乙锭染色能够可视化不同大小的扩增子。

本公开的引物不限于产生任何特定大小的扩增子。例如，用于扩增本文的标记座位和等位基因的引物不限于扩增相关座位的整个区域或其任何亚区。引物可以产生任意合适长度的扩增子用于检测。在一些实施方案中，标记扩增产生长度为至少20个核苷酸，或者，长度为至少50个核苷酸，或者，长度为至少100个核苷酸，或者长度为至少200个核苷酸的扩增子。可以使用本文描述的各种技术检测任意大小的扩增子。可以通过常规方法如电泳来检测碱基组成或大小的差异。

实际上，应当理解，扩增不是标记物检测的要求，例如，可以简单地通过对基因组DNA样品进行Southern印迹来直接检测未扩增的基因组DNA。

通常，通过本领域可用的任何已建立的方法来检测分子标记，包括但不限于，等位基因特异性杂交(ASH)，单核苷酸延伸的检测，阵列杂交(任选地包括ASH)，或用于检测单核苷酸多态性的其他方法，扩增片段长度多态性(AFLP)检测，扩增可变序列检测，随机扩增多态性DNA(RAPD)检测，限制性片段长度多态性(RFLP)检测，自持序列复制检测，简单重复序列(SSR)检测和单-链构象多态性(SSCP)检测。

用于检测遗传标记的一些技术利用了探针核酸与对应于遗传标记的核酸(例如，使用基因组DNA作为模板产生的扩增核酸)的杂交。杂交形式，包括但不限于：溶液相、固相、混合相或原位杂交测定，可用于等位基因检测。Tijssen(1993)和Sambrook等人(同上)中有核酸杂交的大量指南。

使用双标记的荧光寡核苷酸探针(通常称为“TaqMan^TM”)进行的PCR检测也可以根据本发明进行。这些探针由短(例如，20-25个碱基)寡脱氧核苷酸组成，用两种不同荧光染料标记。每个探针的5'末端是报告染料，每个探针的3'末端是猝灭染料。寡核苷酸探针序列与PCR扩增子中存在的内部靶序列互补。当探针完整时，在两个荧光团之间发生能量转移，并且猝灭剂通过FRET猝灭报道分子的发射。在PCR的延伸阶段期间，探针被反应中使用的聚合酶的5'核酸酶活性切割，从而从寡核苷酸-猝灭剂中释放报道分子，并使报道分子发射强度增加。因此，TaqMan^TM探针是具有标记和猝灭剂的寡核苷酸，其中标记在扩增过程中通过扩增中使用的聚合酶的核酸外切酶作用释放。这提供了合成期间的扩增的实时测量。各种TaqMan^TM试剂可商购获得，例如从Applied Biosystems(加利福尼亚州福斯特市的分部总部)以及从各种专业供应商如Biosearch Technologies(例如，黑洞淬灭探针)。关于双标记探针策略的其他细节可见于例如WO 92/02638。

其他类似的方法包括例如两个相邻杂交的探针之间的荧光共振能量转移，例如，使用格式，其描述于US 6,174,670中。

基于阵列的检测可以使用市售阵列进行，例如，来自Affymetrix(Santa Clara，CA)或其他制造商。关于核酸阵列操作的综述包括Sapolsky等人(1999)；Lockhart(1998)；Fodor(1997a)；Fodor(1997b)和Chee等人(1996)。由于基于阵列的检测具有固有的高通量特性，基于阵列的检测是用于鉴定样品中本公开标记的一种优选方法。

分离待分析的核酸样品，扩增，并且通常用生物素和/或荧光报告基团标记。然后使用流控站和杂交炉将标记的核酸样品与阵列一起孵育。可以对阵列进行洗涤和/或染色或复染(适应检测方法)。在杂交、洗涤和染色后，将阵列插入扫描仪中，在扫描仪中检测杂交模式。在荧光报告基团发出的光已经掺入标记的核酸中时收集杂交数据，所述标记的核酸现在与探针阵列结合。与标记的核酸最明确匹配的探针比具有错配的核酸产生更强的信号。由于阵列上每个探针的序列和位置是已知的，因此通过互补性，可以确定应用于探针阵列的核酸样品的特征。

将标记与癌症风险相关联

SNP与结直肠癌风险之间的相关性可以通过能够鉴定等位基因与癌症风险增加之间的关系，或等位基因与癌症风险增加的组合的任意方法来进行。例如，本文定义的基因或座位中的等位基因可以与结直肠癌的风险增加相关。最典型地，这些方法涉及参考查找表，该查找表包括多态性的等位基因与癌症风险之间的相关性。该表可以包括多个等位基因风险关系的数据，并且可以考虑多个等位基因风险关系的相加或其他更高阶效应，例如，通过使用诸如主成分分析、启发式算法等等之类的统计工具。

标记与癌症风险的相关性任选地包括进行一项或多项相关性统计测试。许多统计测试是已知的，并且大多数是计算机实施的以便于分析。确定表型性状和生物学标记之间的关联/相关性的各种统计方法是已知的，并且可以应用于本公开Hartl(1981)。Lynch和Walsh(1998)描述了各种适当的统计模型。这些模型可以，例如，提供基因型和表型值之间的相关性、表征座位对癌症风险的影响、理清环境和基因型之间的关系、确定基因的优势或外显率、确定母体和其他表观遗传效果、确定分析中的主要成分(通过主成分分析，或“PCA”)等。这些文献中引用的参考文献提供了关于将标记和癌症风险相关联的统计模型的相当多的其他细节。

除了用于确定相关性的标准统计方法之外，通过模式识别和训练确定相关性的其他方法(例如遗传算法的使用)可用于确定标记与癌症风险之间的相关性。当识别多个等位基因与癌症风险之间的更高阶相关性时，这尤其有用。为了说明，神经网络方法可以与遗传算法类型编程耦合，用于结构-功能数据空间模型的启发式开发，该结构-功能数据空间模型确定遗传信息和表型结果之间的相关性。

在任何情况下，基本上任何统计测试都可以通过标准编程方法，或者使用执行这种统计分析的各种“现成”软件包中的任何一种应用于计算机实施模型中，这些软件包包括例如上述的那些和可商购的那些，例如从Partek股份有限公司(St.Peters，Mo.；www.partek.com)，例如，提供用于模式识别的软件(例如，提供Partek Pro 2000模式识别软件)。

关于关联研究的其他细节可见于US 10/106,097、US 10/042,819、US 10/286,417、US 10/768,788、US 10/447,685、US 10/970,761和US 7,127,355。

用于进行上述相关性的系统也是本公开的特征。通常，该系统会包括将等位基因的存在或不存在(无论是直接检测还是例如通过表达水平检测)与预测的癌症风险相关联的系统指令。

可选地，系统指令还可以包括接受与任意检测到的等位基因信息相关的诊断信息的软件，例如，具有相关等位基因的受试者具有特定癌症风险的诊断。该软件本质上可以是启发式的，使用这种输入的关联性来提高查找表的准确性和/或系统对查找表的解释。以上描述了各种这样的方法，包括神经网络、马尔可夫建模和其他统计分析。

多态分析

本公开提供了确定个体在本公开概述的SNP(表6)或与其一种或多种连锁不平衡的SNP中的多态性谱的方法。

多态性谱构成了占据个体中各种多态性位点的多态性形式。在二倍体基因组中，两种相同或彼此不同的多态形式通常占据每个多态性位点。因此，位点X和Y处的多态性谱可以以X(x1，x1)和Y(y1，y2)的形式表示，其中x1，x1代表占据位点X的等位基因x1的两个拷贝，y1，y2代表占据位点Y的杂合等位基因。

通过与发生在每个位点的与结直肠癌易感性相关的多态形式进行比较，可以对个体的多态性谱进行评分。可以在至少例如1、2、5、10、25、50个或所有多态性位点，以及任选地与它们连锁不平衡的其他多态性位点上进行比较。可以结合其他多态性位点对多态性位点进行分析。

多态性剖析可用于例如选择用来影响给定个体中结直肠癌的治疗或预防的药剂。具有相似多态性谱的个体可能以类似的方式对药剂产生响应。

计算机实施方法

本公开的方法可以由系统以计算机实施方法来实施。例如，该系统可以是与存储器连接的计算机系统，该计算机系统包括可以一起操作的一个或多个处理器(为方便起见称为“处理器”)。存储器可以是非暂时性计算机可读介质，例如硬盘驱动器、固态盘或CD-ROM。可以将软件，即可执行指令或程序代码，例如分组为代码模块的程序代码，存储在存储器中，当处理器执行该软件时，软件可以使计算机系统执行功能，例如确定要执行一项任务以帮助用户确定人类受试者患结肠直肠癌的风险，接收指示遗传风险和任选地受试者患结肠直肠癌的临床风险的数据，其中遗传风险通过检测源自受试者的生物样品中的表1所示的至少28个单核苷酸多态性或与其一种或多种连锁不平衡的单核苷酸多态性的存在而推导出来；处理数据以获得人类受试者患结直肠癌的风险；输出人类受试者患结直肠癌风险的存在。

例如，存储器可以包括程序代码，当处理器执行该程序代码，该程序代码使系统确定选自表1的至少28种单核苷酸多态性或与其一种或多种连锁不平衡的单核苷酸多态性的存在，或者接收指示选自表1的至少28种单核苷酸多态性或与其一种或多种连锁不平衡的单核苷酸多态性的存在的数据；处理数据以获得人类受试者患结直肠癌的风险；报告人类受试者患结直肠癌的风险。因此，在一个实施方案中，程序代码使系统确定“遗传风险”。

在另一个实例中，存储器可以包括程序代码，当处理器执行该程序代码，该程序代码使系统确定选自表1的至少28种单核苷酸多态性或与其一种或多种连锁不平衡的单核苷酸多态性的存在，或者接收指示选自表1的至少28种单核苷酸多态性或与其一种或多种连锁不平衡的单核苷酸多态性的存在的数据，并接收或确定受试者的临床风险数据；处理数据以将遗传风险数据与临床风险数据相结合，以获得受试者患结直肠癌的风险；报告人类受试者患结直肠癌的风险。例如，程序代码可以使系统综合临床风险评估数据×遗传风险。

在另一个实施方案中，系统可以与用户界面耦合，以使系统能够从用户接收信息和/或输出或显示信息。例如，用户界面可以包括图形用户界面、语音用户界面或触摸屏。在一个实例中，用户界面是SNP阵列平台。

在一个实施方案中，该系统可以被配置为通过通信网络例如无线通信网络与至少一个远程设备或服务器通信。例如，系统可以被配置为通过通信网络从设备或服务器接收信息，并且通过通信网络将信息发送到相同或不同的设备或服务器。在其他实施方案中，系统可以与直接用户交互分离。

在另一个实施方案中，进行本公开的方法以评估受试者患结直肠癌的风险，使得能够基于受试者患结直肠癌的遗传风险建立诊断或预后规则。例如，诊断或预后规则可以基于相对于对照、标准或阈值风险水平的遗传风险。在另一个实例中，诊断或预后规则可以基于相对于对照、标准或阈值风险水平的综合的遗传和临床风险。

在另一个实施例中，诊断或预测规则基于统计和机器学习算法的应用。这种算法使用SNP群体与在训练数据(具有已知疾病状态)中观察到的疾病状态之间的关系来推断关系，然后使用这些关系来确定具有未知风险的受试者中人类受试者患结直肠癌的风险。采用了这样一种算法，该算法提供了人类受试者患结直肠癌的风险。该算法执行多变量或单变量分析功能。

试剂盒和产品

在一个实例中，本公开提供了一种试剂盒，其包含用于扩增28种或更多种核酸的至少28组引物，其中所述28种或更多种核酸包含选自表1的单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性。

在一个实施方案中，试剂盒包含至少28、至少29、至少30、至少31、至少32、至少33、至少34、至少35、至少36、至少37、至少38、至少39、至少40、至少41、至少42、至少43、至少44、至少45组用于扩增核酸的引物，所述核酸包含选自表1的单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性。

如本领域技术人员所理解的，一旦鉴定出SNP，就可以作为常规事项设计引物以扩增SNP。可以免费获得可以建议用于扩增目标SNP的合适引物的各种软件程序。

再者，本领域技术人员已知，可以设计PCR引物对的PCR引物以特异性扩增来自人DNA的目标区域。在本公开的背景中，目标区域包含应进行基因分型的单碱基变异(例如单核苷酸多态性，SNP)。PCR引物对的每个PCR引物可以与DNA序列变异的相对位点上的特定单碱基变体相邻放置。此外，可以设计PCR引物以避免其PCR引物结合位点中的任何已知DNA序列变异和重复DNA序列。

试剂盒可以进一步包含进行扩增反应所需的其他试剂，例如缓冲液、核苷酸和/或聚合酶，以及用于从样品中提取核酸的试剂。

由于基于阵列的检测具有固有的高吞吐量特性，基于阵列的检测是用于鉴定样品中本公开标记的一种优选方法。已经在文献中描述了多种探针阵列，并且可以在本公开的背景中使用来检测可以与结直肠癌关联的SNP。例如，本公开的一个实施方案中使用了DNA探针阵列芯片。该组DNA探针通过DNA杂交对样品DNA的进行识别。当DNA样品与DNA探针阵列杂交时，样品与那些与样品DNA序列互补的探针结合。通过评估个体的样品DNA与哪些探针杂交更强，可以确定样品中是否存在已知的核酸序列，从而确定核酸中是否存在标记物。

因此，在另一个实施方案中，本公开提供了一种遗传阵列，其包含用于与28种或更多种核酸杂交的至少28组探针，其中所述28种或更多种核酸包含选自表1的单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性。在一个实施方案中，阵列包含用于与核酸杂交的至少28、至少29、至少30、至少31、至少32、至少33、至少34、至少35、至少36、至少37、至少38、至少39、至少40、至少41、至少42、至少43、至少44、至少45个探针，所述核酸包含选自表1的单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性。

其他SNP的引物和探针可以包括在上面列举的试剂盒中。例如，可以包括X染色体SNP(rs5934683)或各种其他SNP的引物和/或探针。

实施例

实施例1-指示结直肠癌风险的SNP

确定了与欧洲人群中的结直肠癌相关的54个SNP。其中，11q12.2内的4个SNP(rs174537、rs4246215、rs174550和rs1535)是完全相关的，并且可以由常见单倍型表示(在此称为11q12.2单倍型)。19q13.2内的两个SNP(rs1800469和rs2241714)是完全相关的，并且可以由常见单倍型表示(在此称为19q13.2单倍型)。一个SNP位于X染色体上(rs5934683)，并且未包括在男性和女性的结直肠癌风险模拟中。1q41内的两个SNP(rs6687758和rs6691170)处于连锁不平衡状态。因此，rs6691170被排除在外。8q24.21内的三个SNP(rs10505477、rs6983267和rs7014346)的D prime为1.0。因此，排除了rs10505477和rs7014346。10q24.2内的两个SNP(rs1035209和rs11190164)的D prime为0.9。因此，排除了rs1035209。

因此，总共鉴定了45个SNP，剩余的SNP处于其连锁不平衡状态或在X染色体上。表4中示出了指示结直肠癌风险的SNP。表4中还示出了每风险等位基因的等位基因频率和每个风险等位基因的比值比。

平均风险等位基因频率为0.43(范围0.07至0.91)。每个风险等位基因的平均比值比为1.14(范围1.05至1.53)。可归因于各SNP的平均家族相对风险(FRR；与具有患结直肠癌的一级亲属相关的比值比)为1.0040(范围1.0006至1.0281)，总log FRR为0.50％(范围0.07％至3.41％)。可归因于所有45个SNP的综合FRR为1.1980，总log FRR为22.3％。不是由SNP引起的预估FRR为1.88。

表4.与结直肠癌相关的SNP。该表显示了SNP命名法、最接近可能的SNP的调节靶标的基因或在其内的基因、报告的风险等位基因基因型、对照中报告的风险等位基因频率、报告的与结直肠癌/风险等位基因(比值比)的关联、归因于SNP的家族相对风险(FRR)，以及由于SNP引起的log FRR的比例。*最接近的或可能是SNP的调节靶标的基因。连锁不平衡的SNP显示在方括号[]中。

实施例2—风险等位基因模拟

使用软件PLINK(Purcell等人，2007)(http://pngu.mgh.harvard.edu/purcell/plink/)进行模拟，以确定SNP的风险等位基因的累积数量区分结直肠癌病例与对照的能力，并作为风险等位基因数量的函数估计结直肠癌的风险。

模拟了患有结直肠癌的1,000,000人(病例)和没有结直肠癌的1,000,000人(对照)的群体。模拟群体的SNP风险等位基因的分布与报告的风险等位基因频率和结直肠癌协会的每等位基因比值比相匹配。在该评估中假设了一种简单的风险模型，其中每个SNP与结直肠癌的关联是独立的。在该分析中，还假设每个SNP报告的结直肠癌的比值比适用于男性和女性，并且随年龄而变化。

使用受试者工作曲线并估计曲线下面积(随机选择的结直肠癌病例具有比随机选择的对照更多的风险等位基因的概率)来评估SNP的辨别力以区分病例与对照。估计了以下结直肠癌风险的比值比：(i)处于风险等位基因数量的最高和最低五分位数相对于处于风险等位基因的中间五分位数；(ii)处于风险等位基因数量的最高和最低十分位数相对于处于风险等位基因的中位数；以及(iii)每风险等位基因的标准偏差。五分位数和十分位数的风险等位基因数量的截止值，以及标准偏差是基于对照的风险等位基因分布而确定的。

假设这些比值比随年龄增长而且男女比例相等，由SNP风险等位基因的数量，估计了澳大利亚和美国每个年龄分类的结直肠癌的累积终生风险(从出生到70岁)和五年风险。假定特定年龄的澳大利亚和美国人群的发病率为具有中等风险等位基因数的人的发病率。结直肠癌群体发病率获取自2015年澳大利亚健康与福利研究所以及监测、流行病学和最终结果(SEER)计划癌症统计(Howlander等人，1975-2011)。

估计了可归因于SNP的风险等位基因的log家族相对风险(FRR；与具有患结直肠癌的一级亲属相关的结直肠癌的比值比)的比例。假设各SNPHardy-Weinberg平衡、SNP之间的连锁平衡，并且SNP与结直肠癌风险的关联为乘法模型。更确切地说，让SNP₁，...，SNP₄₅成为已知的结直肠癌相关性SNP，让临床因素₁，...，临床因素_m成为未知的(注意：这些可能是导致FRR的任何可遗传因素，但为简单起见，我们将其认为是SNP)。然后，如果G_i是随机变量，它给出群体中随机人员的SNP_i的风险等位基因数，则G₁，...，G_m都是独立的随机变量(通过连锁平衡)并且随机人员的对数比值比为X₁+…+X_m(通过假设的乘法模型)，其中X_i＝G_i logOR_i并且OR_i是SNP_i的每等位基因比值比。Antoniou等人(2003)的公式严格地源自Win等人(2014)，然后变为logFRR＝1/2[Var(X₁)+…+Var(X_m)]。

这表明log FRR是来自已知和未知结直肠癌相关性SNP的独立组分的总和。由已知SNP得到的log FRR的比例为1/2(Var(X₁)+…+Var(X₄₅))/logFRR，而由未知SNP得到的比例为1减去该值。假设具有至少一个患有结直肠癌的一级亲属的FRR为2.25，根据先前对结直肠癌家族史的荟萃分析(Johns等人，2001)和基本计算(假设Hardy-Weinberg平衡)表明Var(X_i)＝2p_i(1-p_i)(log OR_i)²，其中p_i是SNP_i的次要等位基因频率。使用这一统计数据，通过风险等位基因数量估计了结直肠癌的五年风险，有和无结直肠癌家族史。

图1示出了患有和不患有结直肠癌的模拟人的风险等位基因的数量，并且可以总结如下：

-患有结直肠癌的患者：中位数为42个风险等位基因，范围为21至61个风险等位基因，平均41.6个风险等位基因，标准差为4.2个风险等位基因；

-不患有结直肠癌的患者：中位数为40个风险等位基因，范围为20至59，平均39.7个风险等位基因，标准差为4.2个风险等位基因；上四分位数为44个或更多个风险等位基因；下四分位数为36个或更少个风险等位基因；上十分位数为46个或更多个风险等位基因；下十分位数为34个或更少个风险等位基因)(图1)。

对于来自澳大利亚的人，具有29个风险等位基因对应于结直肠癌的终生风险为1.4％，对于来自美国的人为1.0％。36个风险等位基因的风险分别为2.9％和2.0％；43个风险等位基因分别为6.1％和4.3％；50个风险等位基因分别为12.5％和8.8％(图1)。与在风险等位基因数量的中间五分位数的人相比，在风险等位基因数的最高五分位数的人的结直肠癌比值比为1.81，最低五分位数的人为0.51；这相当于3.55倍的五分位数间(inter-quintile)风险(最高五分位数相对于最低五分位数)。与中位数为40个风险等位基因的人相比，在风险等位基因数的最高十分位数的人的结直肠癌比值比为2.27，最低十分位数的人为0.45；这相当于5.04倍的十分位数间(inter-decile)风险(最高十分位数相对于最低十分位数)。比值比/风险等位基因的标准差为1.57。受试者工作特征曲线的曲线下面积为0.63。

根据2011年澳大利亚结直肠癌的人口发病率，到70岁的结直肠癌的平均累积风险为3.3％。对于在风险等位基因数量的最高五分位数的人来说，累积风险为5.9％(如果他们还具有患结直肠癌的一级亲属，则为11.5％，如果他们没有，则为5.5％)，相比之下，在风险等位基因数量的最低五分位数的人为1.7％(如果他们还具有患结直肠癌的一级亲属，则为3.2％，如果他们没有，则为1.6％)。

对于在风险等位基因数量的最高十分位数的人来说，累积风险为7.4％(如果他们还具有患结直肠癌的一级亲属，则为13.4％，如果他们没有，则为6.9％)，相比之下，在风险等位基因数量的最低十分位数的人为1.5％(如果他们还具有患结直肠癌的一级亲属，则为2.8％，如果他们没有，则为1.4％；图2A、B)。对于男性的估值比男性和女性的综合平均高出约13％，对于女性的估值比男性和女性的综合平均低16％(图4和图5)。

澳大利亚(以前未受影响的)一般人在63岁时结直肠癌5年风险达到1％。对于在风险等位基因数量的最高五分位数的人，大约提早7年就获得了相同的1％5年风险(如果他们还有结直肠癌家族史，则是大约提早14年前)，对于在风险等位基因数量的最高十分位数的人，大约提早10年(如果他们还有结直肠癌家族史，则是大约提早16年前；图2的图C、D和表5)。平均而言，男性比男性和女性的综合提早1-2年达到1％风险阈值，女性比男性和女性的综合平均晚3-4年达到该阈值(表5)。

表5.对于各种类型的结直肠癌家族史(至少一个一级亲属)和45个SNP的风险等位基因而言，结直肠癌的5年风险达到或超过1％的阈值时的年龄。

鉴于美国结直肠癌的人群发病率较低(与澳大利亚相比，特别是50岁以后)，基于风险等位基因数量和家族史的相关风险也低于澳大利亚(图3的图A、B，图6和7)。相比之下，对于在风险等位基因数量的最高五分位数的人，大约提早9年就获得了相同的1％风险(如果他们还有结直肠癌家族史，则是大约提早20年)，对于在风险等位基因数量的最高十分位数的人，大约提早12年(如果他们还有结直肠癌家族史，则是大约提早22年；图3的图C、D和表5)。平均而言，男性比男性和女性的综合提早3-5年达到1％风险阈值，女性比男性和女性的综合平均晚1-3年达到该阈值(表5)。

实施例3—根据结直肠癌的风险对受试者进行分类

使用模拟来量化一组45个风险相关性SNP的效用，以根据人员的结直肠癌风险对其进行分类。风险等位基因频谱末端的人更容易患结直肠癌(高端)或不太可能患结直肠癌(低端)。因为与整个群体中的这些SNP相关的风险的总变化可以解释总FRR的约四分之一，所以如果还考虑结直肠癌的家族史，则SNP谱的预测强度增加。考虑到对于群体的最低20％(对于这些SNP的风险等位基因的数量)而言，与结直肠癌相关的强度大致与剩余FRR相关的风险增加相反，具有结直肠癌家族史，但处于这些SNP的风险等位基因数量的群体的最低五分位数的人员具有群体风险。

因此，对于评估结直肠癌的风险而言，这些SNP的测量是一种有用的方法，并且可以用作用于确定应该推荐谁进行结直肠癌筛查、以及以何种强度进行的工具。例如，在风险等位基因的前20％群体(至少44个等位基因)中的人比普通人提早9年达到平均群体5年风险。因此，如果普通人在50岁时满足进行粪便潜血试验筛查(大多数国家筛查项目推荐)的风险阈值，则具有至少44个风险等位基因的人在41岁时就达到了相同的风险阈值。对于风险等位基因的最高五分位数和最高十分位数而言，具有患结直肠癌的一级亲属的人开始结肠镜筛查的年龄分别为49岁和47岁。在美国，结直肠癌的群体风险低于澳大利亚，处于最高五分位数或十分位数并具有结直肠癌家族史的人分别在62岁和59岁达到2％阈值。

实施例4—基于45个独立的风险相关性SNP和多代家族史的非Lynch综合征结直肠癌的风险预测

使用混合的主基因-多基因模型，根据多代结直肠癌数据确定了基于家族史的风险评分，它给出了对数转换的年龄调整的5年结直肠癌风险。将该临床风险评估与基于表4中列出的45个SNP的风险评分相结合。发明人使用逻辑回归来估计具有结直肠癌风险的每个评分的比值比/校正的标准偏差(OPERA)(Dite等人，2016)。

基于SNP的评分、基于家族史的评分以及基于SNP和家族史的综合评分均与结直肠癌风险相关，OPERA为1.40(95％可信区间[CI]，1.24-1.58)、1.39(1.26-1.53)和1.59(1.42-1.79)。这相当于四分位数间风险比(风险评分中最高25％的群体的风险除以最低25％的群体的风险)为2.4、3.3和3.2。综合风险评分比基于SNP的平均和基于家族史的评分(P均<0.001)更合适。对于具有中等强度家族史的人来说，他们的风险增加了约4倍(类似于具有两名50岁以上被诊断患有结直肠癌的一级亲属)，这些估值预测那些处于SNP得分的最高四分位数(25％)的人超过群体风险的6倍，而最低四分位数的那些则低于群体风险的2.5倍。

因此，将关于SNP的信息与多代家族史相结合使预测结直肠癌的能力提高了约40％。因此，鉴于它可能会对约一半的这些人进行临床管理重新分类，这种新的综合风险测量可用于根据风险为更好的靶向结直肠癌筛查提供信息。

本领域技术人员将理解，在不脱离广泛描述的本公开的精神或范围的情况下，可以对具体实施方式中所示的公开内容做出许多变化和/或修改。因此，本发明的实施方案在所有方面都被认为是说明性的而非限制性的。

本申请要求2016年1月28日提交的AU 2016900254和2016年8月16日提交的2016903246的优先权，其公开内容通过引用并入本文。

以上讨论的所有出版物均以其整体并入本文。

本说明书中已经包括的对文档、动作、材料、装置、物品等的任何讨论仅仅是为了提供本公开的背景。不应将其视为承认任何或所有这些事项构成现有技术基础的一部分或者是与本公开相关的领域中在本申请的每项权利要求的优先权日之前即存在的公知常识。

参考文献

Ait Ouakrim等人(2012)Cancer Prev Res.(Phila)5:240-247。

Antoniou等人(2003)Genet Epidemiol.25:190-202。

Ausubel等人(编辑)(1998)，Current Protocols in Molecular Biology，GreenePub.Associates and Wiley-Interscience(包括至今的所有更新)。

Brenner等人(2014)BMJ 348 g2467。

Brown(编辑)(1991)，Essential Molecular Biology:A Practical Approach，第1卷和第2卷，IRL出版社。

Coligan等人(编辑)Current Protocols in Immunology，John Wiley&Sons(包括至今的所有更新)。

Devlin和Risch(1995)Genomics.29:311-322。

Dite等人(2016)Cancer Epidemiol Biomarkers Prev 25:359-365。

Glover和Hames(编辑)(1995和1996)DNA Cloning:A Practical Approach，第1-4卷，IRL出版社。

Harlow和Lane(编辑)(1988)Antibodies:A Laboratory Manual，Cold SpringHarbour Laboratory。

Hartl(1981)A Primer of Population Genetics Washington University，Saint Louis Sinauer Associates，Inc.Sunderland，Mass.ISBN:0-087893-271-2。

Hewitson等人(2007)The Cochrane database of systematic reviews doi:10.1002/14651858.CD001216.pub2(1)，CD001216。

Johns et al(2001)Gastroenterol.96:2992-3003。

Lynch和Walsh(1998)Genetics and Analysis of Quantitative Traits，Sinauer Associates，Inc.Sunderland Mass.ISBN 0-87893-481-2。

Mavaddat等人(2015)J Natl Cancer Inst 107:djv036。

Pencina等人(2008)Statistics in Medicine 27:157-172。

Perbal(2000)A Practical Guide to Molecular Cloning，John Wiley andSons (1984)

Purcell等人(2007)Am J Hum Genet.81:559-575。

Purcell等人(2007)(http://pngu.mgh.harvard.edu/purcell/plink/)。

Sambrook等人(1989)Molecular Cloning:A Laboratory Manual，Cold SpringHarbour Laboratory出版社。

Slatkin和Excoffier(1996)Heredity 76:377-383。

Spain等人(2012)Hum Mol Genet.21:934-946。

Tijssen(1993)Laboratory Techniques in Biochemistry and MolecularBiology--Hybridization with Nucleic Acid Probes Elsevier，New York。

Usher-Smith等人(2015)Cancer Prev Res 9:13-26。

Win等人(2014)Gastroenterology 146:1208-1211，e1201-1205。

Claims

1.一种用于评估人类受试者患结直肠癌风险的方法，所述方法包括：

进行受试者的遗传风险评估，其中遗传风险评估涉及在源自受试者的生物样品中检测选自表1的至少28个单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性的存在。

2.权利要求1所述的方法，其中所述遗传风险评估包括检测单核苷酸多态性rs3987、rs35509282和rs744166，或与其一种或多种连锁不平衡的单核苷酸多态性的存在。

3.权利要求1或2所述的方法，其中检测至少45种单核苷酸多态性的存在。

4.权利要求1至3中任一项所述的方法，其中所述遗传风险评估包括检测单核苷酸多态性rs5934683，或与其连锁不平衡的单核苷酸多态性的存在。

5.根据权利要求1至4中任一项所述的方法，其进一步包括对所述受试者进行临床风险评估，并将所述遗传风险评估与所述临床风险评估相结合，以获得人类受试者患结直肠癌的风险。

6.权利要求5所述的方法，其中进行临床风险评估涉及从受试者获得关于以下一方面或多方面的信息：结直肠癌的病史、年龄、结直肠癌的家族史、先前结肠镜检查或乙状结肠镜检查筛查的结果和种族/族群。

7.权利要求6所述的方法，其中进行临床风险评估涉及从受试者获得关于年龄和/或一级亲属的结直肠癌史的信息。

8.权利要求1至7中任一项所述的方法，其中所述受试者为粪便潜血试验阳性。

9.权利要求1至8中任一项所述的方法，其中所述受试者至少40岁。

10.权利要求1至8中任一项所述的方法，其中所述受试者具有结直肠癌的家族史并且至少30岁。

11.权利要求1至10中任一项所述的方法，其中所述受试者为男性。

12.权利要求1至11中任一项所述的方法，其中风险评估的结果表明受试者应该参加筛查项目或进行更频繁的筛查。

13.权利要求1至12中任一项所述的方法，其中所述方法性能的特征在于曲线下面积(AUC)为至少约0.63。

14.权利要求1至13中任一项所述的方法，其中连锁不平衡的单核苷酸多态性的连锁不平衡高于0.9。

15.权利要求1至13中任一项所述的方法，其中连锁不平衡的单核苷酸多态性的连锁不平衡为1。

16.一种用于确定人类受试者对结直肠癌常规诊断测试的需求的方法，其包括使用权利要求1至15中任一项所述的方法评估受试者患结直肠癌的风险。

17.权利要求16所述的方法，其中当考虑到在受试者的体细胞二倍体基因组中每个单核苷酸多态性可以存在多达两次时，具有至少41，至少42，至少44，至少46，至少50个，至少55个，至少60个，至少65个，或至少70个单核苷酸多态性的受试者应当参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。

18.权利要求16所述的方法，其中如果评估将受试者置于具有患结直肠癌风险的群体中的前20％受试者中，则该受试者参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。

19.权利要求16所述的方法，其中如果评估将受试者置于具有患结直肠癌风险的群体中的前10％受试者中，则该受试者参加粪便隐匿性筛查、结肠镜或乙状结肠镜筛查项目。

20.一种用于筛查人类受试者的结直肠癌的方法，所述方法包括使用权利要求1至15中任一项所述的方法评估受试者患结直肠癌的风险，并且如果受试者被评估为具有患结直肠癌的风险，则常规筛查他们的结直肠癌。

21.一种抗结直肠癌疗法，其用于预防有此风险的人类受试者的结直肠癌，其中根据权利要求1至15中任一项所述的方法所述受试者被评估为具有患结直肠癌的风险。

22.一种试剂盒，其包含用于扩增28种或更多种核酸的至少28组引物，其中所述28种或更多种核酸包含选自表1的单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性。

23.一种遗传阵列，其包含用于与28种或更多种核酸杂交的至少28组探针，其中所述28种或更多种核酸包含选自表1的单核苷酸多态性，或与其一种或多种连锁不平衡的单核苷酸多态性。

24.一种用于评估人类受试者患结直肠癌风险的计算机实施方法，所述方法可在包含处理器和存储器的计算系统中操作，所述方法包括：

处理数据以确定人类受试者患结直肠癌的风险；

输出人类受试者患结直肠癌的风险。

25.权利要求24所述的方法，其还包括接收受试者的临床风险数据；

输出受试者患结直肠癌的风险。

26.权利要求24或25所述的计算机实施方法，其中从与计算系统耦合的用户界面接收受试者的风险数据。

27.权利要求24至26中任一项所述的计算机实施方法，其中通过无线通信网络从远程设备接收受试者的风险数据。

28.权利要求24至27中任一项所述的计算机实施方法，其中用户界面或远程设备是SNP阵列平台。

29.权利要求24至28中任一项所述的计算机实施方法，其中输出包括将信息输出到与计算系统耦合的用户界面。

30.权利要求24至29中任一项所述的计算机实施方法，其中输出包括通过无线通信网络将信息发送到远程设备。