发明详述
本发明涉及基于单一物种有机体基因组的差异来建立单元型图谱的计算机系统和方法。本发明还涉及在所述基因型图谱内识别可能影响与该物种有关的表型性状的单元型模块的计算机系统和方法。所述识别步骤是通过评价等位基因在单元型图谱中每个单元型模块内的分布与所研究的单一物种相关表型数据匹配的好坏来进行的。
1.1示例系统的概述
图1显示了将表型与有机体基因组内的一个或多个单元型模块相关联的系统20。
系统20优选包括:
·中央处理器22;
·主非易失性存储器34,优选包括一个或多个硬盘装置,以存储软件和数据,所述存储器34通常受硬盘控制器32控制;
·系统内存38,优选为高速随机存取存贮器(RAM),以存储系统控制程序、数据和应用程序,包括加载自非易失性存储器34的程序和数据;系统内存38也可包括只读存储器(ROM);
·用户界面24,包括一个或多个输入装置,如鼠标26和键盘30,和显示器28;
·任选的网络接口卡36以与任何有线或无线通讯网络连接;和
·内部总线33以连接上述系统元件。
系统20的运转主要受操作系统40控制,这由中央处理器22执行。操作系统40可存储在系统内存38中。除了操作系统40,典型的系统内存38的设备包括:
·文件系统42,以控制访问本发明所用的各种文件和数据结构;
·表型/单元型处理模块44,以将表型与单元型图谱内的一个或多个单元型模块相关联;
·基因型数据库52,以存储单一物种多个有机体基因组序列的差异;和
·表型数据结构60,其包括与单一物种相关的一个或多个表型性状内的已测差异。
在优选的具体实施方案中,表型/单元型处理模块44包括:
·表型数据结构派生子程序46,以驱动代表单一物种不同有机体之间表型差异的表型数据结构;
·单元型图谱派生子程序48,以从单一物种多个有机体基因组的差异生成单元型图谱80;和
·表型/单元型比较子程序50,以比较表型阵列和单元型图谱80,从而识别单元型图谱80内的单元型模块,其中,所述模块内等位基因的分布与所研究物种所表现的等位基因的分布相匹配。
1.2示例性基因型数据库
通常由基因型数据库52所代表的信息是单一物种基因组内基因座54的集合。对于每个基因座54,可获得遗传差异信息的有机体56表示在数据库52中。对代表有机体56的每个基因座,提供了差异信息58。差异信息58是单一物种的有机体之间任何形式的遗传变异。代表性的差异信息58包括但不限于单核苷多态性(SNP)、限制性片段长度多态性(RFLP)、微卫星标记、短串联重复、序列长度多态性和DNA甲基化。基因型数据库52的例子给在表1中。
表1—基因型数据库来源的例子
遗传变体类型 |
统一性资源定位(URL) |
SNPSNPSNPSNPSNP微卫星标记限制性片段长度多态性短串联重复 |
http://bioinfo.pal.roche.com/usuka bioinformatics/cgi-bin/msnp/msnp.plhttp://snp.cshl.org/http://www.ibc.wustl.edu/SNP/http://www-genome.wi.mit.edu/SNP/mouse/http://www.ncbi.nlm.nih.gov/SNP/http://www.informatics.jax.org/searches/polymorphism_form.shtmlhttp://www.informatics.jax.org/searches/polymorphism_form.shtmlhttp://www.cidr.jhmi.edu/mouse/mmset.html |
序列长度多态性DNA甲基化数据库 |
http://mcbio.med.buffalo.edu/mit.htmlhttp://genome.imb-jena.de/public.html |
1.3单元型模块的构建
图2示出了按照本发明一个具体实施方案进行的方法。图2所示方法的前几个步骤由单元型图谱派生子程序48(图1)执行,生成包含单元型模块的单元型图谱。这些步骤可在基因型数据库52包含SNP信息的情况下使用。基因型数据库52被用作单元型图谱派生子程序48的输入。换句话说,单元型图谱派生子程序48利用基因型数据库52内的数据生成单元型模块。
在详细描述图2所示步骤之前先简单介绍单元型模块。一般来说,单元型模块代表物种多个有机体之间物种基因组内的多个连续SNP或其它遗传变异(例如RFLPs、微卫星标记、短串联重复、序列长度多态性或DNA甲基化)。图3A的表302代表单元型模块。在图3A中,在单一物种基因组内有两个SNPs(SNP1和SNP2),其相互邻近。单一物种用有机体A-G表示。每个有机体都有一个SNP1和SNP2值,大值“1”或小值“0”。每个值表示SNP所代表的基因座上的核苷在该物种有机体基因座上是通常较多被发现(大值,“1”)或通常较少被发现(小值,“0”)。
在图3A的有机体A中,用SNP1和SNP2表示的基因座上的各个核苷是在这些基因座上通常较多被发现的核苷。因此,SNP1和SNP2在有机体A中都有大值。相反,在图3A的有机体B中,用SNP1和SNP2表示的基因座上的各个核苷是在这些基因座上通常较少被发现的核苷。因此,SNP1和SNP2在有机体B中都有小值。
在图3中,有机体A和B有不同的单元型。在一个具体实施方案中,单元型是给定单元型模块中给定的有机体SNP值的集合。例如,单元型是图3中表示有机体的任意栏中的值。在图3A中有机体A的单元型是1,1。在图3A中有机体B的单元型是0,0。表304列出了图3A表302中所表示的所有单元型以及具有这些单元型的物种内的有机体。
现在已经介绍了术语单元型模块和单元型,便可描述图2所示的方法了。在步骤202中,识别了用于研究的单一物种基因组内有多个连续SNP的候选单元型模块。为做到这一点,单元型图谱派生子程序48从它可获得的第一个SNP开始,通过向模块中添加其它连续SNP来继续执行以建立单元型模块,条件是(1)该SNPs在模块在前SNP的阈距离之内,和(2)不超过在单元型模块中仅出现一次的单元型的预置阈比例。当再在模块中添加下一个连续SNP无法满足上述两个条件中的任一个时,就终止模块形成。在一些具体实施方案中,(未显示),不需要SNPs在模块在前SNP的阈距离之内。在步骤204中终止模块形成时,单元型图谱派生子程序48为单元型模块产生记分(步骤206)。
在不同的具体实施方案中,单元型模块内SNPs之间的阈距离小于10兆碱基,小于5兆碱基,小于3兆碱基,小于2兆碱基,或小于1兆碱基。在一些具体实施方案中,没有阈距离要求。在一些具体实施方案中,单元型模块内独特单元型的预置阈比例在5-10、10-15、15-20、20-25、5-30、15-25、25-30、30-40之间,或大于40。
图3示出了预置阈比例在步骤202中的应用。在图3A中,候选单元型模块302中有四个单元型。三个单元型[(1,1)、(0,0)和(0,1)]分别用用来构建候选单元型模块的两个有机体表示。因此,每个单元型在单元型模块中不只出现一次。第四个单元型(1,0)仅用一个有机体表示。因此,第四个单元型在候选单元型模块中仅出现一次;即单元型模块302中25%的单元型仅用一个用来构建候选单元型模块的有机体表示。如果步骤202的阈比例被设置成20,则模块302将不被作为候选单元型模块。另一方面,如果该阈比例被设置成30,则模块302将被作为候选单元型模块。在优选的具体实施方案中,该阈比例被设置成20,模块302不被作为候选单元型模块。在图3B中,有三个单元型在单元型模块306中出现一次以上[(1,1,1)、(0,0,0)、(0,1,1)]并有一个单元型仅出现一次(1,0,0)。在图3C中,只有两个单元型在单元型模块310中出现一次以上[(1,1,1,1)、(0,0,0,0)]而其余的单元型在模块310中仅出现一次。因此,如果阈比例被设置成20,则模块306而不是模块310被作为单元型模块;但是,如果阈比例被设置成30,模块306将满足条件。
图3示出了与候选单元型模块有关的另一方面。对候选单元型模块中SNPs的数目没有限制,只要满足步骤202的标准即可。换句话说,对候选单元型模块中SNPs的数目没有限制,只要(i)模块中的SNPs是连续的,(ii)每个SNP在有机体基因组内其它SNP的截断距离之内,和(iii)模块内单元型的截断比例都不是独有的。
如上所述,在识别出候选单元型模块之后,将在步骤204中进行记分。在本发明的一个具体实施方案中,该记分是模块中SNP的数目除以该模块中不同单元型数目的平方。举例来说,候选单元型模块302(图3A)的记分为2除以4的平方(0.125)。候选单元型模块306(图3B)的记分为3除以4的平方(0.188)。候选单元型模块310(图3C)的记分为4除以5的平方(0.160)。本领域的普通技术人员将了解,可用多种不同的记分机制来为候选单元型模块记分,所有这些记分机制都在本发明范围之内。例如,在一些具体实施方案中,步骤204所用的记分函数是用模块中SNPs的数目除以该模块中不同单元型的数目。在其它具体实施方案中,步骤204所用的记分函数是用模块中SNP的数目除以该模块中不同单元型数目的2次以上幂(例如3次幂)。
在步骤206中将判断是否所有的候选单元型模块都已由基因型数据库52生成。可用许多方法来完成这种判断。在一个具体实施方案中,如果数据库52中不存在被认为可引发形成新单元型模块的SNP,则所有可能的候选单元型模块都已由基因型数据库52生成(206-是)。如果为生成所有可能的模块(206-否),则控制返回步骤202并开始试图识别其它候选单元型模块。
一旦基因型数据库52中所有可能的候选单元型模块都被识别(206-是),则可生成最终的单元型模块结构(单元型图谱)。最初,例如在步骤202中被识别的所有候选单元型模块都符合条件。在步骤208中,符合条件的候选单元型模块组中记分最高的候选单元型模块被从最终的单元型模块中选出,并从符合条件的候选单元型模块中除去。在步骤210中,与步骤208所选单元型模块重叠的任何单元型模块被从符合条件的候选模块中除去,因此忽略。当两个模块共享至少一个公共SNP时这两个单元型模块相互重叠。此时,在符合条件的单元型模块中可能得到重叠的单元型模块,这是因为步骤202-206被设计用来生成所有可能的符合条件单元型模块,而不论这些模块是否相互重叠。
在步骤212中将判断符合条件的单元型模块中是否存在任何单元型模块。如果是(212-是),则返回步骤208,并使最终的单元型模块中包含在其余符合条件的候选模块组中记分最高的候选单元型模块。步骤208-212被重复,直到符合条件的单元型模块组中不再有单元型模块。重复进行步骤208选出的单元型模块被识别为最终的单元型模块(单元型图谱)结构。
步骤202-214示出了得到单元型模块图谱的一种方法。步骤202-214被用于研究了少量自交品系(有机体)并可获得SNP数据的物种。然而本发明不限于图2步骤202-214所示的单元型模块图谱构建步骤。实际上,用各种方法生成的单元型模块图谱都可用于本发明的方法。例如,当所研究的物种是人,基因型数据库52中存在大量有机体时,可采用下述方法:Patil等,2001,Science 294,1719-1723;Daly等,2001,Nature Genetics 29,229-232;和Zhang等,2002,Proceedingsof the National Academy of Sciences of the United States of America 99,7335-7339。此外,本发明也不限于基于SNPs构建单元型模块。可采用类似于这里所述的方法用任何形式的遗传变异来生成单元型模块。可从以下遗传变异来构建单元型模块:限制性片段长度多态性(RFLPs)、微卫星标记、短串联重复、序列长度多态性和DNA甲基化。例如,Kong等描述了用微卫星标记生成人类单元型图谱的技术。参见Kong等,2002,Nat.Genet 31,241-247。
1.4将单元型模块绘制成表型数据的示例
在步骤216中,识别了在最终的单元型模块结构中与物种所表现的表型性状最匹配的单元型模块。这是通过就所研究物种所表现的表型性状对最终单元型模块结构中每个单元型模块进行记分完成的。用图4所示的假设的表型数据来阐述本发明一个具体实施方案的步骤216所用的记分函数。在该具体实施方案中,较低的记分说明表型和单元型模块匹配得较好。记分函数评价了等位基因在单元型模块内的分布与假设的表型数据匹配的好坏。由步骤216所用的记分函数生成的较好的记分在这里是代表表型和单元型模块之间较好匹配的任何记分。在步骤216的一些具体实施方案所用的一些记分函数中,较好的记分是较低的记分,而在步骤216的一些具体实施方案所用的其它一些记分函数中,较好的记分是较高的记分。
图4示出了候选单元型模块402和404。模块404包括用有机体A和B代表的单元型(0,1,1,0),以及用有机体C和D代表的单元型(1,0,0,1)。模块406包括用有机体A、C和D代表的单元型(1,0,1,1),以及用有机体B代表的单元型(1,0,0,1)。
图4C示出了用来对候选单元型模块402和404进行记分的假设的表型数据的值。假设的表型数据可代表所研究物种的一些表型,例如肺容量、血液胆固醇水平等。每个有机体的表型值用候选单元型模块表示。因此,有机体A具有有6个任意单位的表型PA,有机体B具有有7.5个任意单位的表型PB,等等。
在这个示例性的具体实施方案中,用于步骤216(图2)的记分函数是:
公式1
其中,
∑Dintra是在单元型模块中具有相同单元型的多个有机体中有机体表型值的差异的总和,和
∑Dinter是在单元型模块中不具有相同单元型的多个有机体中有机体表型值之间的的差异的总和。
公式1是单元型组内的表型差异与单元型组之间平均表型差异的比值的负对数。
为了用公式1计算模块402和404,需要考虑与组408(图4C)表型值不同的所有组:
DAB=1.5
DAC=14
DAD=16
DBC=12.5
DBD=14.5
DCD=2
通过两个单元型(0,1,1,0)和(1,0,0,1)计算候选单元型模块402的记分S402。有机体A和B属于一个单元型,而有机体C和D属于其它单元型。
S402=0.610
候选单元型模块406的记分S402是通过考虑两个单元型(1,0,1,1)和(0,1,0,0)计算的。有机体A、C和D属于一个单元型,有机体B属于其它单元型:
S406=-0.576
公式1列出的记分函数说明模块402与图4C的假设表型数据的匹配程度优于模块模块406。设计了公式1,故而单元型模块图谱中与单一物种所表现的表型更好匹配的单元型模块相比与表型不匹配的单元型模块有更加正的记分。
1.4.1另一种记分函数
除了公式1,可用其它记分函数来对单元型模块图谱中每个单元型模块记分。在一个具体实施方案中,所述记分函数是
公式2
其中,∑Dintra和∑Dinter有与公式1相同的含义。公式2强调了本发明的优点。公式2能够根据单元型模块与单元型模块所代表的有机体表型数据的匹配程度区别单元型图谱内的单元型模块。如上所述,公式2将为较好匹配表型数据的单元型模块指派较小的数值,而为较差匹配表型数据的单元型指派较大的数值。公式2也可写成
公式3
其中,∑Dintra和∑Dinter有与公式1相同的含义。在公式3中,将为较好匹配表型数据的单元型模块指派负数程度较低的数值,而为较差匹配表型数据3的单元型指派负数程度更高的数值。关键是,该记分函数能够区分与所给表型更加匹配的单元型模块和与所给表型不十分匹配的单元型模块。
本领域的普通技术人员将了解,在步骤216中可以采用许多不同的记分函数。在一个具体实施方案中,记分函数可以是任何可区分与所研究的单一物种所显示的表型比较匹配的单元型模块和与该表型不十分匹配的单元型模块的函数。在其它具体实施方案中,所述记分函数可以是公式1、2或3中任何一个,公式1、2或3的负数、公式1、2或3的倒数、或公式1、2或3的负倒数。再在其它具体实施方案中,记分函数可以是公式2的对数、公式2的比值的倒数的对数,或公式2的比值的其它函数。
1.4.2加权记分函数
在本发明的一些具体实施方案中,在记分函数的比值的分子和/或分母中引入了权的概念。一些情况下,权是常数值。其它情况下,权的大小是用来与表型数据比较的单元型模块所代表的有机体数目的函数、被考虑的单元型模块中SNPs(或遗传变异的其它形式,如RFLPs)数目的函数,或与该数值有关的其它方面。在一些具体实施方案中,记分被乘以权重因子。例如,在一些具体实施方案中,公式1的负log值被乘以代表被记分的单元型模块大小和结构的权重因子。
在本发明的一些具体实施方案中,用于步骤216的记分函数的分子和/或分母被乘以一个幂(例如平方根、平方、或10次幂)。例如,在一些具体实施方案中,该记分函数是
公式4
已经揭示了许多不同的可用于步骤216的各种具体实施方案的记分函数。这些例子只是为了说明而不是限制。本发明的技术的有利之处在于它们可将影响物种表型的遗传元件定位到物种基因组的特定区域。然后可分析用本发明的技术识别的基因组的特定区域以进一步识别影响物种所表现的特定表型的特定基因。
在本发明的一些具体实施方案中,公式1被用来对每个单元型模块进行记分。将每个记分乘以反应被记分的单元型模块大小和结构的的权以得到原始的匹配记分。然后减去平均原始记分并除以被记分的所有单元型模块的标准差,以将这种原始的匹配记分标准化。所得记分表明了高于或低于平均记分的记分的标准差的数值。
1.5表型
在本发明的一些具体实施方案中,上述技术被用来将所研究物种所表现的表型与染色体内的特定单元型模块相关联。因此,在一些具体实施方案中,本发明的方法将所研究物种所表现的表型与某一染色体区域相关联,该区域小于0.5兆碱基(Mb)、小于1Mb、小于2Mb、在0.5Mb和2Mb之间、小于3Mb、小于4Mb、在2Mb和5Mb之间、小于5Mb、小于10Mb、在1Mb和10Mb之间、小于15Mb或小于20Mb。
可用本发明分析的表型可以是任何复杂性状(相对简单孟德尔式性状而言)。复杂性状包括可连续测量的任何性状。因此,例如,复杂性状可以是高度、重量、血液中生物分子的水平、以及对疾病的易感性。在一些具体实施方案中,所研究的复杂性状是复杂疾病,如糖尿病、癌症、哮喘、精神分裂症、关节炎、多发性硬化和风湿病。在一些具体实施方案中,所研究的表型是疾病的临床指标,例如但不限于,高血压、异常甘油三酯水平、异常胆固醇水平、或异常高密度脂蛋白/低密度脂蛋白水平。在本发明的特定具体实施方案中,所述表型是对特定昆虫或病原体感染的抵抗力弱。可用本发明的系统和方法研究的其它示例性表型包括变态反应、哮喘和强迫性神经失调,如惊恐性障碍、恐怖症和创伤后精神紧张性(精神)障碍。
可用本发明的方法研究的其它表型还包括以下疾病,如自体免疫性疾病(例如艾迪生病、斑秃、强直性脊柱炎、抗磷脂综合征、白塞病、慢性疲乏综合征、克罗恩病和溃疡性结肠炎、糖尿病、纤维肌痛、肺出血肾炎综合征、移植物抗宿主病、狼疮、梅尼埃病、多发性硬化、重症肌无力、肌炎、寻常型天疱疮、原发性胆汁性肝硬变、银屑病、风湿热、结节病、硬皮病、血管炎、白癜风和韦格纳氏肉芽肿病)、骨病(例如软骨发育不全、骨癌、进行性骨化性纤维发育不良、纤维性结构不良、累-卡-佩三氏病、骨髓瘤、成骨不全、骨髓炎、骨质疏松、佩吉特病和和脊柱侧弯)。
可用本发明的方法研究的其它表型包括癌症,例如膀胱癌、骨癌、脑瘤、乳腺癌、宫颈癌、结肠癌、妇科癌症、何杰金病、肾癌、喉癌、白血病、肝癌、肺癌、淋巴瘤、口腔癌、卵巢癌、胰腺癌、前列腺癌、皮肤癌和睾丸癌。
可用本发明的方法研究的其它表型包括遗传病,如软骨发育不全、全色盲、酸性麦芽糖酶缺乏症、脑白质肾上腺萎缩症、艾卡迪综合征、α-1抗胰蛋白酶缺乏症、雄激素不敏感综合征、阿佩尔综合征、发育异常、共济失调毛细血管扩张症、蓝色橡皮疱样痣综合征、卡纳万病、猫叫综合征、囊性纤维化病、德卡姆病、范科尼贫血、进行性骨化性纤维发育不良、脆性X综合征、半乳糖血症、戈谢病、血色素沉着病、血友病、亨廷顿病、赫尔利综合征、磷酸酶过少症、克兰费尔特综合征、克腊伯氏病、兰-吉综合征、脑白质营养不良、QT间期延长综合征、马方综合征、莫比乌斯综合征、粘多糖贮积症(mps)、指甲-髌骨综合征、肾性尿崩症、神经纤维瘤病、尼曼-皮克病、成骨不全、卟啉病、普拉德-威利综合征、吉福德氏综合征、Proteus综合征、视网膜母细胞瘤、蕾特氏综合征、鲁宾斯坦-泰比综合征、山菲立普综合征、Shwachman综合征、镰状红细胞病、Smith-Magenis综合征、Stickler综合征、泰-萨克斯病、血小板减少-桡骨缺失(tar)综合征、特雷歇·柯林斯氏综合征、三体性、结节性硬化症、特纳综合征、尿素循环障碍、多发性成血管细胞瘤病(Von Hippel-Lindau disease)、瓦尔敦堡综合征、威廉斯综合征和威尔逊病。
可用本发明的系统和方法研究的其它表型包括心绞痛、发育异常、动脉粥样硬化/动脉硬化、先天性心脏病、心内膜炎、高胆固醇、高血压、QT间期延长综合征、二尖瓣脱垂、正体位心动过速综合征(posturalorthostatic tachycardia syndrome)和血栓症。
可用本发明的系统和方法研究的其它表型还包括有机体的寿命、有机体血液内抗体的基础血浆水平、有机体接受微扰后有机体血液内抗体的血浆水平、有机体接受缓解疼痛的药物后疼痛模型中的有机体的反应等等。
1.6示例性表型数据
在本发明的一些具体实施方案中,表型数据结构60是微阵列表达数据。微阵列能够定量测量数千个基因的表达水平;使其能够生成品系和组织特异性基因表达数据的庞大数据库。参见,例如,Zhao等,1995,“High-density cDNA filter analysis:a novel approach forlarge-scale,quantitative analysis of gene expression”,Gene 156:207-213;Blanchard等,1996,“Sequence to Array:Probing the genome′s secrets”,Nature Biotechnology 14:1649;Blanchard等,1996,“High-DensityOligonucleotide Arrays”,Biosensors & Bioelectronics 11:687-90;Chee等,1996,“Accessing Genetic Information with High-Density DNAArrays”,Science 274:610-614;Chait,1996,“Trawling for proteins in thepost-genome era”,Nat.Biotech.14:1544;DeRisi等,1996,“Use of a cDNAmivroarray to analyze gene expression pattern in human cancer”,NatureGenetics 14:457-460;以及DeRisi等,1997,“Exploring the metabolic andgenetic control of gene expression on a genomic scale”,Science278:680-686;Schena等,1995,“Quantitative moaitoring of geneexpression patterns with a complementary DNA micro-array”,Science270:467-470;Schena等,1996,“Parallel human genome analysis;microarray-based expression nomitoring of 1000 genes”,Proc.Natl.Acad.Sci.USA 93:10614-10619;Shalon等,1996,“A DNAmicroarray system for analyzing complex DNA samples using two-colorfluorescent probe hybridization”,Genome Res.6:639-645。
在本发明的一些具体实施方案中,微阵列上基因或基因产物的平均表达水平被用作输入,数据的变化被用作权重因子。这便可以更加精确地通过计算机将品系特异性基因表达数据绘制成单元型模块。参见例如下面实施例2中的应用实例3。
1.6.1常规微阵列
在本发明的一些具体实施方案中,表型数据结构60包括测量单一物种的有机体56的转录状态。在一些具体实施方案中,转录状态测量是通过将探针与由固相构成的微阵列杂交完成的。固相表面是被固定的多核苷酸群,如DNA或DNA模拟物群,或者是RNA群。微阵列可被用于,例如,分析细胞的转录状态,比如与分级水平的目标药物接触的细胞的转录状态。
在一些具体实施方案中,微阵列包括一具有有序结合(例如杂交)位点阵列的表面,以结合细胞或有机体基因组内的许多基因,优选是大多数或几乎全部基因。微阵列可用许多方法制造,下面描述了其中一些方法。无论用什么方法制造,微阵列都具有以下特征:阵列是可复制的,以便能够制造所给阵列的多个拷贝并且容易相互比较。优选地,所述微阵列较小,通常小于5cm2,且它们是用在结合(例如核酸杂交)条件下稳定的材料制成的。优选地,微阵列上的某一给定的结合位点或独特的结合位点组将与细胞内单基因的产物(例如特定的mRNA、或其衍生的特定的cDNA)特异性结合(例如杂交)。然而,通常,其它相关或类似序列将与给定的结合位点杂交。尽管每个特定的RNA或DNA可有一个以上的物理结合位点,为澄清下面的讨论,将假定一个单一的完全互补的结合位点。
如本发明一个具体实施方案所述的微阵列包括一个或多个测试探针,其中每个具有与待测RNA或DNA亚序列互补的多核苷酸序列。每个探针优选含有不同的核酸序列。固体表面上每个探针的位置优选是已知的。在一个具体实施方案中,所述微阵列是高密度阵列,优选其密度为每平方厘米有60个以上的不同探针。在一个具体实施方案中,所述微阵列是一种阵列(例如矩阵),其中每个位置代表基因编码产物(例如mRNA或其衍生的cDNA)的不连续的结合位点,且其中的结合位点代表物种基因组中大多数或几乎全部基因的产物。例如,结合位点可以是DNA或DNA类似物,特定的RNA可与其特异性杂交。所述DNA或DNA类似物可以是,例如合成的寡聚体、全长cDNA、非全长cDNA或基因片段。
尽管在一些具体实施方案中微阵列含有与单一物种基因组中所有或几乎所有基因产物结合的结合位点,但这是不必要的。一些情况下,微阵列将结合与基因组中至少50%、至少75%、至少85%、至少90%或至少99%的基因相对应的位点。优选地,微阵列含有与感兴趣的药物的作用有关、或在感兴趣的生物学途径中的基因的结合位点。“基因”是指编码优选至少有50、75或99个氨基酸的序列的开放读框(“ORF”),其在有机体或多细胞生物的一些细胞中可以转录出信使RNA。可根据有机体表达的mRNA的数目,或通过从已经定性的基因组部分外推来估计基因组中基因的数目。当对感兴趣的有机体的基因组进行测序时,可通过分析DNA序列来确定ORF的数目和识别mRNA编码区。例如,酿酒酵母(Saccharomyces cerevisiae)的基因组已被完全测序,据称其含有约6275个长度大于99个氨基酸的ORF。对ORF的分析说明有5885个ORF可能编码蛋白质产物(Goffeau等,1996,Science 274:546-567)。
1.6.2制备微阵列探针
如上所述,在本发明的一些具体实施方案中,与特定多核苷酸分子特异性杂交的“探针”是互补的多核苷酸序列。在一个具体实施方案中,微阵列探针是与物种基因组中每个基因的至少一部分相对应的DNA或DNA“模拟物”(例如衍生物和类似物)。在一些具体实施方案中,微阵列探针是互补的RNA或RNA模拟物。
DNA模拟物是由能够与DNA发生特异性Watson-Crick样杂交、或与RNA特异性杂交的亚单位构成的聚合物。核酸可在碱基部分、糖部分、或磷酸主链上被修饰。示例性的DNA模拟物包括例如硫代磷酸酯。
例如可通过聚合酶链式反应(“PCR”)扩增基因组DNA、cDNA(例如通过RT-PCR)克隆序列的基因区段来获得DNA。优选基于已知的基因或cDNA序列选择PCR引物,这样可扩增独特片段(例如与微阵列上任何其它片段共享的连续相同序列不超过10个碱基的片段)。此领域熟知的计算机程序可被用来设计具有所需特异性和最佳扩增特性的引物,例如Oligo 5.0版(National Biosciences)。一般来说,微阵列的每个探针的长度在约20-12,000个碱基之间,通常在约300-2,000个碱基之间,再通常在约300-800个碱基之间。PCR法是此领域熟知的,并描述在例如Innis等编,1990,PCR Protocols:A Guide to Methods andApplications,Academic Press Inc.,San Diego,Calif中。
另一种制造微阵列多核苷酸探针的方法是通过分析合成的多核苷酸或寡核苷酸,例如使用N-磷酸盐或亚磷酰胺(Froehler等,1986,Necleic Acid Res.14:5399-5407;McBrid等,1983,Tetrahedron Lett.24:246-248)。合成序列的长度通常在约15-500个碱基之间,更通常在约20-50个碱基之间。在一些具体实施方案中,合成的核酸包括非天然的碱基,例如但不限于肌苷。如上所述,核酸类似物可用作杂交结合位点。合适的核酸类似物的一个例子是肽核酸(参见,例如,Egholm等,1993,Nature 363:566-568;美国专利No.5,539,083)。
在其它具体实施方案中,杂交位点(例如探针)是从基因、cDNA(例如表达的序列标记)或其插入片段的质粒或噬菌体克隆制造的(Nguyen等,1995,Genomics 29:207-209)。
1.6.3将探针附到微阵列的固体表面
探针被附到用例如玻璃、塑料(例如聚丙烯、尼龙)、聚丙烯酰胺、硝酸纤维素膜或其它物质制造的固体支持物或表面。优选的将核酸附到表面的方法是在玻璃板上印刷,该方法通常如Schena等,1995,Science 270:467-470的描述。该方法对于制备cDNA微阵列特别有效。
第二种优选的制备微阵列的方法是制造高密度寡核苷酸阵列。用来制造阵列的技术是已知的,该阵列在表面上规定的部位含有数千个与已知序列互补的寡核苷酸,其采用光版印刷技术以原位合成(参见Fodor等,1991,Science 251:767-773;Lockhart等,1996,NatureBiotechnology 14:1675;美国专利No.5,578,832;5,556,752和5,510,270),或采用其它方法以迅速合成并保存规定的多核苷酸(Blanchard等,Biosensors & Bioelectronics 11:687-690)。当使用这些方法时,可在载玻片等表面直接合成已知序列的寡核苷酸(例如20-mers)。通常,所制造的阵列是丰余的,每个RNA有数个寡核苷酸分子。可选择寡核苷酸探针来检测可选的已剪接的mRNA。
也可使用其它方法来制造微阵列,例如通过标记(Maskos和Southern,1992,Nuc.Acids.Res.20:1679-1684)。总之,可使用任何阵列类型,例如尼龙杂交膜上的斑点印迹。
1.6.4表型数据的其它来源
本发明为表型数据结构60提供了其它表型数据来源(图2)。例如,除了上述微阵列技术,可用此领域已知的基因表达技术测量细胞的转录状态。其中一些技术制造复杂度有限的限制性片段的库以进行电泳分析,如将双限制性酶解与取相引物联合的方法(参见,例如,Zabeau等的欧洲专利534858 A1,1992年9月24日提交),或用与规定的mRNA终点靠近的位点选择限制性片段的方法(参见,例如Prashar等,1996,Proc.Natl.Acad.Sci.U.S.A.93:659-663)。其它方法统计学取样cDNA库,如通过测序多个cDNA中每个cDNA内足够数量的碱基(例如20-50个碱基),或通过测序短标记(例如9-10个碱基),这种短标记是在相对于规定的mRNA末端的已知位置产生(参见,例如Velculescu,1995,Science 270:484-487)。
在本发明的各种具体实施方案中,可测量生物状态而不是转录状态方面,如翻译状态、活性状态、或其混合方面,以得到表型数据结构60的表型数据。这些具体实施方案在该部分内有详细描述。
翻译状态的测量。可用几种方法测量翻译状态。例如,可通过构建微阵列来检测蛋白质的完整基因组(例如“proteome”,Goffea等,同上),其中结合位点包括固定的,优选单克隆的,对细胞基因组编码的多种蛋白质种类特异的抗体。优选的,抗体存在于编码蛋白质的实质性部分,或至少存在于与感兴趣的药物的作用有关的那些蛋白质中。制造单克隆抗体的方法是已知的(参见,例如,Harlow and Lane,1988,Antibodies:A Laboratory Manual,Cold Spring Harbor,N.Y.)。用这种抗体阵列,使细胞的蛋白质与阵列接触,并用此领域已知的测定方法测定了它们的结合。
或者,可通过双相凝胶电泳系统分离蛋白质。双相凝胶电泳是此领域熟知的,通常包括在第一相进行等电聚焦然后在第二相进行SDS-PAGE电泳。参见,例如,Hames等,1990,Gel Electrophoresis ofProteins:A Practical Approach,IRL Press,New York;Shevchenko等,1996,Proc.Natl.Acad.Sci.U.S.A.93:1440-1445;Sagliocco等,1996,Yeast12:1519-1533;和Lander,1996,Science 274:536-539。可用许多技术分析所得电泳图谱,包括质谱技术、western印迹、以及用多克隆和单克隆抗体进行免疫印迹分析、以及内部和N-末端微测序。使用这些技术能够识别所有蛋白质的主要部分,这些蛋白质在给定的生理条件下,包括在接触药物的细胞中(如在酵母中),或在通过例如删除或过表达特定基因修饰的细胞中产生的。
活性状态测量。在本发明的一些具体实施方案中,用来构建表型数据结构60的表型数据是单一物种有机体56的蛋白质的活性状态测量。活性测量可通过任何适合已定性的特定活性的功能、生化、或物理方法来进行。这里所述的活性包括化学转化、可与天然物质联系的细胞蛋白质、以及测量的转化率。这里所述的活性包括多聚单元内的关联,例如一种活性的DNA结合复合物与DNA的关联。相关蛋白质的量或关联的继发性结果,如转录的mRNA的量,可被测量。同时,当仅仅知道功能活性时,例如在细胞周期中(控制),可观察到功能表现。无论已知或测量过,可用本发明的方法将形成应答数据的蛋白质活性的变化与单元型模块相匹配。
生物数据的多个方面。在另一个且非限制性的具体实施方案中,表型数据结构(图2)可用单一物种多个不同有机体内的细胞成分(例如基因、蛋白质、mRNA、cDNA等)的生物状态的多个方面来形成。例如,可从例如某些mRNA丰度的变化、某些蛋白质丰度的改变以及某些蛋白质活性的变化的组合来构建应答数据。
除了该部分提供的实施例,任何数目的数据来源都可用来定量测量复杂性状。例如,可分析血液中的化合物的水平,可使用糖尿病测量模型等。
1.7物种和有机体
本发明的系统和方法可用于将表型与许多物种内的染色体位置相关联。在本发明的一些具体实施方案中,被研究的物种是动物,如哺乳动物、灵长目、人、大鼠、狗、猫、鸡、马、牛、猪、小鼠或猴。在其它特定的具体实施方案中,所研究的物种是植物、果蝇、酵母、病毒或秀丽隐杆线虫(C.elegant)。然而,据信使用高度自交的有机体(例如各种小鼠品系)将得到较好结果。物种的各个有机体是该物种(例如特定的小鼠品系)的成员、来自该物种(例如获自特定小鼠品系的小鼠品系)成员的细胞组织或器官、或来自该物种成员的细胞培养物。
1.8影响计算机分析性能的因子
许多因子会影响计算机分析的性能。当表型数据结构60(图1)反应了基因型数据库52中单元型模块内存在的遗传变异时,本发明的方法表现较好。对一些标准有机体56(品系)而言,表型数据结构60或单元型信息内缺乏信息都不利于根据经验绘制图谱的表现。被分析的有机体56的数目是另一个重要的因素。计算机预测是基于被比较的不同有机体56的数目。成对比较的数目是被分析的品系数目的组合函数。覆盖40-50中通常使用的杂交小鼠品系的单元型图谱将使本发明的计算机预测方法具有识别可调节许多疾病相关表型性状的遗传基因座的能力。
在本发明的一些具体实施方案中,在基因型数据库52中有5-1000个有机体56的基因型数据。在本发明的一些具体实施方案中,在基因型数据库52中有10-100个有机体56的基因型数据。在本发明的一些具体实施方案中,在基因型数据库52中有20-75个有机体56的基因型数据。
1.9阐明生物学途径
图11示出了用本发明的系统和方法阐述被研究的单一物种内存在的生物学途径的方法。这里所用的生物学途径是指任何生物过程,其中基因或基因产物会影响被研究的物种内其它基因或基因产物的表达或功能。
在步骤1102中,被研究的单一物种的第一单元型图谱是用基因型数据库52中的一组有机体56的基因型数据构建的。这可通过,例如,采用步骤202-214来完成(图2)。然后,在步骤1104中,在第一单元型图谱中识别与被研究的单一物种所表现的表型性状高度匹配的第一单元型模块。这可通过,例如,采用与图2的步骤216有关的上述技术来完成。
在所述方法的这个阶段,在步骤1104中识别的单元型模块内的单元型被检查。模块内的每个单元型用基因型数据库52内的一个或多个有机体56表示。在步骤1106中,在步骤1104中识别的单元型模块内的单元型被选出,并在步骤1108中,仅用来自数据库52(图2)内的有机体56的数据58构建了第二单元型图谱,它在步骤1106识别的单元型中。由于只用有机体56的一个亚组来构建第二单元型图谱,所以第二单元型图谱内的单元型模块可能与第一单元型图谱内的模块不同。构建第二单元型图谱是有利的,因为它提供了将基因型数据库52细分成亚组的方法。分析这些亚组反过来可以识别影响被研究的物种内感兴趣的表型的其它基因。图11中其它的步骤提供了一种可分析这些亚组的方法。然而,本领域的普通技术人员将知道,可对包括图11的步骤1110-1120在内的方法进行许多改进,所有这些改进都在本发明范围之内。
在步骤1110中将决定第二单元型图谱内是否有与表型性状相关的单元型模块。在非常规情况下,第二单元型图谱中的单元型模块将不与在步骤1104中识别的第一单元型模块重叠。如果发现第二单元型图谱中有与表型性状相关的单元型模块(1110-是),则就阐明了一种生物学途径,该途径包括(i)来自步骤1104中识别的第一单元型模块的基因座,和(ii)来自步骤1110中识别的单元型模块的基因座。
执行步骤1114的一个例子叙述在下面的1.10.3部分中。在1.10.3部分中识别了与小鼠中Cyplal表达相关的单元型模块(步骤1104)。如1.10.3部分的详细描述,这种单元型模块包括包含芳香烃受体(Ahr)基因座在内的部分小鼠基因组。这种单元型模块如图10B所示。在1.10.3部分中,图10B所示单元型模块的组III所代表的物种被用来构建第二单元型图谱(图11;步骤1108)。第二单元型图谱包括与Cyplal表达表达相关的单元型模块(图11;步骤1110-是)。这种第二单元型模块包括Arnt基因座。通过这些数据可得出以下结论,即Arnt基因产物的高度表达可修饰小鼠中Ahr基因座的作用,详细叙述见1.10.3部分(步骤1114)。
回到图11,当在第二图谱中未发现与所研究的表型性状相关的单元型模块时,便可决定第一单元型模块中是否还有任何其它未被选择的单元型(1112)。如果有,(1112-是),一种这样的单元型被选择1106,同时步骤1108和1110被重复。如果没有,(1112-No),则终止该过程(1120)。
1.10实施例
在实施例1中,呈现了用图2所揭示的技术生成的作为基因型数据库52中存在的品系(有机体)数目函数的单元型模块的特征。在实施例2中,本发明的系统和方法被用来将获自自交小鼠品系的表型数据与单元型模块相关联。在实施例3中,本发明的系统和方法被用来构建生物学途径。在实施例4,本发明的系统和方法被用来确定哪个染色体区域对微扰有反应。
1.10.1实施例1
用于该实施例的示例基因型数据库52获自(http:\\mouseSNP.Roche.com)。用对靶基因组区域进行重测序的自动的高通量方法来发现SNP并表征等位基因,参见Grupe等,2001,Science292,1915-1918。被分析的基因组区域都在已知的在生物上重要的基因之内;分析基因内的外显子和关键基因内的调节区域。分析示例基因型数据库52中的等位基因信息以表征这些自交小鼠品系中遗传变异的模式。提到人类基因组内的SNPs时(参见,例如,Patil等,2001,Science294,1719-1723;Daly等,2001,Nature Genetics 29,229-232;Johnson等,2001,Nature Genetics 29,233-237),小鼠基因组内物理上非常接近的等位基因通常是相关的,得到‘SNP单元型’出现在模块样结构内(图5)。模块内的每个单元型显然来自共同的祖先基因组;而模块的大小反映了其它过程,包括重组和突变。
有一些确定单元型模块的方法,适当的定义取决于预期应用。为分析人类遗传变异,生成单元型模块结构时应满足使覆盖每个模块内单元型多样性显著比例的所需SNPs的总数最小的目的。参见,例如,Patil等,2001,Science 294,1719-1723;Daly等,2001,Nature Genetics29,229-232;和Zhang等,2002,Proceedings of the National Academyof Sciences of the United States of America 99,7335-7339。这种类型的单元型模块结构对于人类遗传分析是有用的,它需要生成大量个体的基因型以与进行关联性研究。然而,这种方法无法得到试验鼠类遗传学的最佳模块结构;其需要对较小数量的自交品系进行定性。通过检测大小较小且单元型组成变化较少的模块得到了在小鼠中进行关联性研究的更精确的结果。
由于需要得到比用已知方法生成的那些单元型模块更小的单元型模块,用包括图2步骤202-214的新方法来分析鼠类遗传变异和确定鼠类基因组的单元型模块结构。这种方法分析所有SNPs(不考虑等位基因频率)和所有单元型(不仅仅是常规单元型)以构建单元型模块。重要的是,分析所包含的品系的数量和类型会明显影响单元型模块的结构。例如,将仅分析4个品系(129/SvJ、A/J、C57BL/6J和CAST/Ei)(图6A)得到的单元型模块的结构与用13个自交小鼠品系(未显示)得到的结构进行了比较。分析四个品系中存在的遗传变异得到了不规则的(skewed)单元型模块结构,如染色体1上的单元型模块。这种情况下,所生成的94个单元型模块中超过33%是以CAST/Ei作为唯一带有最小等位基因的品系(即CAST/Ei具有其它品系中不存在的独特单元型)。出于这个原因,仅CAST/Ei或SPRET/Ei品系所具有的最小等位基因的SNP不被用于构建单元型模块;而单元型模块是基于分析13个小鼠品系中的遗传变异。通过采用图2的步骤202-214分析13个小鼠品系生成的染色体1上单元型模块的一般特性显示在表2中。
表2——小鼠染色体1上单元型模块的特性
每个模块的SNP |
模块数 |
每个模块的平均大小(Kb) |
每个模块的平均单元型数 |
SNP的百分比 |
总模块大小(Mb) |
>10 |
24 |
106 |
3.25 |
59 |
2.55 |
4-10 |
47 |
94 |
2.36 |
22 |
4.42 |
2-3 |
69 |
50 |
2.30 |
12 |
3.44 |
1 |
79 |
N/A |
2 |
6 |
N/A |
总计 |
219 |
74 |
2.31 |
100 |
10.41 |
即便在对小鼠品系进行分析时,被分析的品系数也会显著影响单元型模块的结构。当分析数目增加的小鼠品系的多态性时,分析时会将SNP数目的增加作为另一种遗传变异。仅用3个品系构建的单元型图谱明显不同于用13个品系得到的图谱(图6B)。图6B比较了用3个(A/J、129或C57BL/6)或13个小鼠品系在染色体12(29.6兆碱基)上构建的单元型模块。模块边界上的SNP用线连起来。
被分析的品系数目从3增加到13,分析中将包括稳定作为新品系的单元型模块的一般结构(表3)。
表3—作为用于计算的品系数函数的小鼠染色体1上单元型模块的特性
品系数 |
最小品系数 |
SNP总数 |
模块数* |
每个模块的平均SNP数* |
每个模块的平均单元型数* |
模块中SNP百分比* |
最大模块长度SNP |
13 |
7 |
1270 |
71 |
14.61 |
2.66 |
82 |
108 |
12 |
7 |
1139 |
67 |
14.01 |
2.57 |
82 |
104 |
11 |
6 |
1248 |
68 |
15.41 |
2.62 |
84 |
106 |
10 |
6 |
1139 |
65 |
14.25 |
2.45 |
81 |
101 |
9 |
5 |
1225 |
66 |
15.33 |
2.48 |
83 |
104 |
8 |
5 |
1056 |
77 |
10.49 |
2.39 |
77 |
67 |
7 |
4 |
1228 |
96 |
9.27 |
2.21 |
72 |
81 |
6 |
4 |
1101 |
81 |
9.98 |
2.19 |
73 |
44 |
5 |
3 |
1067 |
75 |
10.99 |
2.11 |
77 |
80 |
4 |
3 |
933 |
72 |
8.74 |
2 |
67 |
27 |
3 |
3 |
594 |
46 |
7.93 |
2 |
61 |
19 |
*仅考虑含有4个或更多SNP的模块
由表3可见,当分析中包含其它新品系时每个模块内新单元型的数目仅略微增加。每个品系只增加了0.05新单元型(图7),这说明每个额外的品系通常具有适合每个模块内现有单元型的多态性模式。模块内单元型的数目似乎在分析约8个品系后达到稳定。纵观小鼠基因组,80%以上的SNP在含有4个或更多SNPs的模块内,平均每个模块含有14.6个SNP和2.7个单元型。
随机试验证实,用包括图2的步骤202-214的方法生成的单元型模块结构是由于单元型模块内SNPs之间非常高水平的连锁不平衡产生的。为随机化,将染色体1上1,270个SNPs随机排布并用随机排列的SNPs生成单元型模块结构。为将1,270个SNPs随机排列,每次从组(1、2、...、1270)中随机选取整数,直到所有的数都被取完。按照随机顺序将SNP等位基因信息重排,同时保持原始的染色体位置,以生成随机模块的结构。模块中相邻的NSP相邻1兆碱基。这一随机过程被重复10次。每次重复后评价所得模块的特性。当SNP顺序被随机化之后,相对于正确排序的SNP,含有至少4个SNPs的模块内SNPs的百分比(23%±3%)以及每个模块内SNP的平均数(5.7±0.4)显著降低;同时每个模块内单元型的平均数(3.82±0.18)明显提高。按顺序排列和随机排列的SNP之间的强烈反差显示了相同连锁组内小鼠SNP连锁不平衡的程度。这种高水平的连锁不平衡是通常使用的试验小鼠品系相对简单的谱系造成的。
示例性基因型数据库52含有27,112个独特SNPs;通过分析15个自交小鼠品系得到了总共255,547个等位基因。示例性基因型数据库52中有15个不同的品系,并排除M.Castenius和欧非小鼠(M.Spretus)品系特有的多态性以避免扭曲单元型模块结构。除了在被评价的13个品系中呈多态性的10,766个SNPs,还排除了115个不是双等位的SNPs,和在少于7个品系中含有等位基因的3,559个其它SNPs。其余的7,092个SNPs来自1,709个模块;其中有443个含有4个或更多SNPs(占染色体1上所有SNP的81%)。具有至少4个SNPs的单元型模块平均每个模块上有11.3个SNPs和2.4个单元型,并覆盖了28.6Mb的小鼠基因组。
1.10.2实施例2
在2000年12月15日递交的题为“预测控制表型性状的染色体区域的系统和方法”的美国专利申请09/737,918和2001年12月11日递交的题为“预测控制表型性状的染色体区域的系统和方法”的美国专利申请10/015,167中,可通过对获自自交小鼠品系的表型数据和等位基因在基因组区域内共享的程度进行相关分析,而用计算机来预测出调节复杂性状的染色体区域。可以测定与美国专利申请09/737,918和美国专利申请10/015,167中所揭示的方法相比,将复杂表型与小鼠基因组的单元型图谱相比较是否是计算机分析小鼠表型性状的较佳方法。对于单元型图谱内每个单元型模块,通过计算单元型组内平均表型差异与单元型组之间表型差异的比值的负对数来计算相关性(公式1)。然后基于单元型模块的大小和结构来调整对每个单元型模块用公式1计算的记分。对单元型图谱中所有单元型模块重复这一过程,并得到最匹配的模块。
1.10.2.1应用实例1(MHC)
在第一个应用实例中,本发明所述的基于单元型的经验主义绘图法被用于预测位于鼠染色体17(约33Mb)上的主要组织相容性复合体(MHC)K基因座上的染色体位置。已知的13个自交品系MHC K基因座的H2单元型被用作该分析的输入表型数据。13个品系中每个品系的H2单元型被转化成数字。用同样的数字代表具有相同H2单元型的品系。然后根据分析这些表型数据以用公式1作为记分函数通过表型/单元型处理模块44(图1)将单元型模块相关联。如图8A所示,两个单元型模块显示表型数据之间强烈相关。在图8A中,垂直轴是标准差,水平轴是小鼠染色体的数目和位置。就被分析的所有单元型模块而言,计算出的相关性超过平均值5个标准差。这说明预测的单元型模块与表型数据匹配得非常好(图9);且在具有可与该表型比较的相关性的小鼠基因组中没有其它的峰。预测的两个单元型模块都在染色体17上(33.7-33.9Mb和33.9-34.3Mb),并与MHC K基因座的已知位置直接相邻。图9示出了MHC K单元型(k,d,b,u,?)和染色体17上一个预测的单元型模块结构(33.9-34.3兆碱基)之间的相关性。多数和少数等位基因分别用深阴影和淡阴影表示,缺失的数据未用阴影表示。
1.10.2.2应用实例2(Ahr)
在第二个应用实例中,本发明所述的基于单元型的经验主义绘图法被用于识别调节AH表型(即在自交小鼠品系肝脏微粒体内诱导芳烃羟化酶活性的水平)的遗传基因座。芳烃受体(Ahr)是调节重要的环境试剂,包括多环芳烃(烟草烟气和中发现)和2,3,7,8-四氯二苯并-对-二噁英(TCDD)代谢的胞内蛋白复合物的配体结合组分。在鼠类肝脏微粒体中诱导芳烃羟化酶活性的水平(AH表型)在自交小鼠品系中有50倍以上的变化(参见Nebert等,1982,Genetics 100,79-97)且这种变化被认为是由于Ahr配体结合亲和性不同造成的(参见Chang等,1993,Pharmacogemetics 3,312-321)。40多种自交小鼠品系的AH表型之前已得到表征(参见Nebert等,1982,Genetics 100,79-97);有7种品系在实施例1所描述的小鼠SNP数据库中。所述AKR/J和DBA/2J品系是AH非反应性的,而A/J、A/HeJ、C57BL/6J、BALB/cJ和C3H/HeJ是AH反应性的。用公式1作为记分函数用表型/单元型处理模块44(图1)评价了这7个品系的表型反应。通过计算机预测在染色体12(29.6Mb)上含有Ahr基因座的单元型模块,发现模块44最可能是调节AH反应性的区域(图8B),就这第二个应用实例中分析的所有单元型模块而言,其与表型数据的相关性超过平均值10个标准差。在图8B中,垂直轴是标准差,水平轴是小鼠染色体的数目和位置。
1.10.2.3应用实例3(Cyplal)
自交小鼠品系的基因表达曲线提供了一种有用的中间表型,可对其进行分析以理解复杂性状是如何通过遗传调节的。换句话说,基因表达曲线可被作为表型数据结构60(图1)。用同样的方式,作为表型性状信息,可根据经验将品系特异性基因表达数据绘制成单元型模块,以识别可能调节不同基因表达的遗传基因座。作为一个例子,包括烟气和二噁英在内的生物异源物质的肺部代谢所需的细胞色素P-450(Cyplal)(参见Nebert和Negishi,1982,Biochemical Pharmacology 31,2311-2317;Tukey等1982,Cell 31,275-284)在获自自交小鼠品系的肺中是差异表达的(图10A)。特别地,图10A示出了每个被研究的自交小鼠品系Cyplal基因在肺部的表达水平。
图10A中的数据按如下方法确定。总的RNA分离自整个小鼠肺组织。按照Affynzetrix Expression Analysis Technical Matiual中所述的方法来纯化mRNA(PolyA+)、合成cDNA、生成标记的cRNA并与U74v2GeneChip杂交。在每个品系的三个小鼠上进行试验。通过四次扫描(HP基因阵列扫描仪)从微阵列生成图象文件,并用来自Affymetrix,SantaClara,CA的MAS 5.0软件进行分析。为排除不同细胞色素基因数量过大造成微阵列数据不准确的可能性,还按照已知方法通过RT-PCR分析测量了肺部Cyplal表达。通过RT-PCR测得的Cyplal的表达水平与微阵列结果完全一致(数据未显示)。
在被分析的小鼠品系所有8-kB Cyplal基因中仅识别了7个SNP。这些SNP都不位于外显子中;且品系间多态性的模式与Cyplal的肺部表达水平无关。因此,这些小鼠品系中Cyplal的肺部表达水平在数量上截然不同可能是由于其它基因的多态性造成的,这些基因反式调节Cyplal表达。出于这些原因,以公式1作为记分函数用表型/单元型处理模块44(图1)来评价肺部Cyplal基因表达数据。有5个单元型模块与Cyplal基因表达显著相关。相关性水平第三高的染色体12上的单元型模块是Ahr基因座(图8C)。在图8C中,垂直轴是标准差,水平轴是小鼠染色体的数目和位置。这与鼠类芳烃基因系统在调节包括Cyplal在内的许多药物代谢酶的诱导中的作用相一致(参见Nebert等,1982,Genetics 100,79-87)。
Ahr基因座内的多态性可能会造成Cyplal的品系特异性差异表达。在Ahr基因座内识别的79个SNPs将自交小鼠品系分成三个单元型组。单元型组I包括B10.D2-H2/oSnJ和C57BL/6J品系;组II包括A/J、BALB/cJ和C3H/HeJ品系;组III包括129/SvJ、AKR/J、DBA/2J和MRL/MpJ品系(图10B)。这些SNP大量位于外显子中;这使编码蛋白质的氨基酸序列发生显著变化。4个氨基酸改变使组I的品系不同于其它自交小鼠品系。一个多态性将在组I的品系(B10.D2-H2/oSnJ和C57BL/6J)中发现的终止密码子转变为所有其它品系内的Arg;这在编码蛋白质中产生了另一个羧基末端序列。3个氨基酸改变使组II的品系不同于组III的品系。一个多态性将组II品系中的Arg转变为组III品系中的Val。该SNP位于基序(PAC)中,该基序对于该蛋白质中一个重要的(PAS)结构域的折叠有贡献(参见Ponting和Aravind,1997,Current Biology 7,R674-R677)。PAS结构域可促进结合,并形成一个表面以与含有蛋白质的PAS结构域二聚(参见Burbach等,1992,Proceedings of the National Academy of Sciences of the United States ofAmerica 89,8185-8189)。这种多态性模式和所得氨基酸变化与遗传调节品系特异性Cyplal肺表达的Ahr基因座相一致。该应用实例证实,可用本发明的系统和方法通过计算机分析品系特异性基因表达数据。
对调节肺部Cyplal表达的遗传基因座进行计算机识别,提供了第一个实施例说明了如何将基因表达数据本身直接用于遗传分析。Cyplal是在鼠类(Hagg等,2002,Archiyes of Toxicology 76,621-627)和人类(Hukkanen等,2002,Critical Reviews in Toxicology 32,291-411)肺中表达的主要生物异源物质代谢酶。鼠肺中Cyplal mRNA和蛋白质的表达在试验性接触主要环境致癌物后显示出增加(Hagg等,2002,Archives ofToxicology 76,621-627)。该酶直接参与环境污染物和烟气中存在的芳烃的转化,以活化基因毒性酶。因此,它被认为在肺癌(Nebert等,1993,Annals of the New York Academy of Sciences 685,624-640;以及Hukkanen等,2002,Critical Reviews in Toxicology 32,291-411);以及与烟气有关的肺病,如肺气肿的发病机理中发挥重要作用。该实施例中的计算机遗传分析说明,Ahr基因座内的遗传变异调节小鼠肺内Cyplal表达的基础水平。
总之,实施例2中的三个应用实例证实,可用单元型图谱对小鼠中遗传调节的复杂生物过程进行计算机分析。尽管美国专利申请号09/737,918和10/015,167中所揭示的技术将表型数据与大小大于20兆碱基的染色体区域相关联,但如实施例2所示,本发明的方法能够预测负责这种性状的单个遗传基因座。
1.10.3实施例3
基因表达通常是通过一个或多个途径中蛋白质的活性来调节的,多基因通常亦是如此。因此,基因表达水平的遗传调控通常是多个上游基因多态性组合作用的结果。实施例2中完成的对调节Cyplal肺部表达的遗传因子的分析说明了如何将基因表达数据与本发明所述绘制图谱的方法联合使用来识别调节复杂途径的遗传因子。实施例2的计算机分析预测出Ahr单元型调节Cyplal在肺内的表达,但还可能有其它水平的遗传调节。相比其它具有相同Ahr单元型的品系,129/SvJ小鼠具有较高水平的肺部Cyplal表达(图10B;组III)。这说明其它基因内的多态性可在具有相同Ahr单元型的小鼠内调节Cyplal基因的表达。用本发明的方法(图11;步骤1110;也可参见1.9部分)分析了仅用来自Ahr单元型组III品系(129/SvJ,AKR/J,DBA/2J和MRL/MpJ)(图11;步骤1106)的表达数据构建的基因表达数据的一个亚组。在染色体3上含有Arnt基因座的单元型模块在前5个预测中,超过平均值4个标准差(数据未显示)(图11;步骤1110-是)。在Arnt基因座上,129/SvJ小鼠具有将其与其它Ahr单元型III品系清楚区分的单元型。已知Arnt结合Ahr并形成一种调节肺部Cyplal转录的异源二聚复合物(Hogenesch等,1997,Journal of Biological Chemistry 272,8581-8593;Reyes等,1992,Science 256,1193-1195;Hoffman等,1991,Science 252,954-958)。这一分析说明,Arnt单元型可修饰Ahr单元型在129/SvJ小鼠内的作用。若为129/SvJ小鼠,基于其Ahr基因座上的单元型可预测有相对低水平的肺部Cyplal表达。然而,所观察到的129/SvJ小鼠中较高水平的Cyplal肺部表达可能是由于Arnt基因座上高表达单元型‘拯救’的结果(图11,步骤1114;1.9部分)。尽管该实施例中做出的预测需要单独验证,但该实施例说明了如何用本发明所述的使用小鼠单元型的方法来识别调节复杂途径的遗传因子。
1.10.4实施例4
本发明可用来在物种接触微扰之前和之后将单一物种多个有机体的表型与单一物种基因组中的特定位置相关联。在该方法的一个实例中进行了两组试验。在第一组试验中,本发明的方法被用来在单一物种的有机体接触微扰之前将单元型图谱与表型差异相关联。在第二组试验中,使单一物种的有机体分别接触微扰,并用本发明的方法将物种的单元型图谱与接触微扰后的有机体所表现的表型差异相关联。然后,用这里所述的方法将第一组试验中最匹配的单元型模块与第二组试验中最匹配的单元型模块进行比较。通过比较这两组最匹配的单元型模块之间的差别或相似处,便可以识别对微扰反应性很高的单一物种的基因组区域。
术语“微扰”在本发明中的含义很广。微扰可以是使有机体接触药物或致癌剂等化合物,在有机体基因组内加入外源基因,从有机体内除去外源基因,或改变基因或蛋白质在有机体内的活性。因此,例如,可在小鼠各个品系接触抗原之前和之后测量代表多个不同小鼠种类的小鼠的抗体血清水平。然后,将多个不同小鼠品系的基因型差异与小鼠接触微扰之前和之后所观察到的表型相关联。通过比较与接触微扰之前和之后小鼠表型的差异相匹配的单元型模块,便可将受微扰影响最大的小鼠基因组区域定位。在一些具体实施方案中,微扰是一种药剂。在一些具体实施方案中,微扰是分子量小于1000道尔顿的化合物。
一旦识别出对微扰反应性很高的基因组区域,便可检查包括识别出的基因组部分的基因芯片表达文库。特别感兴趣的是识别(i)用遭受微扰之前的物种品系建造的基因芯片文库,和(ii)用遭受微扰之后的物种品系建造的基因芯片文库中基因的差异表达。如本领域所熟知的,基因芯片文库可以是mRNA表达水平的集合或一些其它标准,如有机体内各个基因的蛋白质表达水平。比较两个基因芯片文库内基因的差异表达水平将识别出在生物样本接触微扰之前和之后高度差异表达的单个基因。用上述相关性标准将这些单个基因的位置与已识别的基因组区域相关联提供了一种识别对微扰反应性很高的特定基因的方法。
用于研究的基因芯片表达文库的例子有以下文献中所描述的那些:Karp等,“Identification of complement factor 5 as a susceptibility locusfor experimental allergic asthma”,Nature Immunology 1(3),221-226(2000)和Rozzo等,“Evidence for an Interferon-inducible Gene,Ifj202,in theSusceptibility of Systemic Lupus”,Immunity 15,435-443(2001)。此外,Hyseq(Sunnyvale California)和Affymax(Palo Alto,California)等厂商提供了制造不同类型基因芯片文库的方法。
在其它设计用来观察基因组中哪个染色体区域受微扰影响的方法中,表型数据结构60包括基因型数据库52中多个有机体56中每个有机体的表型阵列(图2),且这些表型阵列中的每一个都包括该表型阵列所代表的有机体56中多种细胞成分中每种细胞成分的差异表达值。在一个具体实施方案中,每个差异表达值代表
(i)多个有机体中有机体56内细胞成分的天然表达值;和
(ii)有机体56接触微扰后有机体56内细胞成分的表达值之间的差异。
术语“细胞成分”在这里包括各个基因、蛋白质、表达基因的mRNA和/或其它细胞组分,它们通常由本领域的普通技术人员在生物应答试验中测量。
在一些具体实施方案中,所述微扰是一种途径微扰。将生物学途径的微扰靶向不同细胞水平(途径微扰)的方法在本领域是已知的并被采用。任何能够特异性寻靶并可控制修饰(例如通过级联方法或活化或通过级联降低或抑制)特定细胞成分(例如基因表达、RNA浓度、蛋白质丰度、蛋白质活性等)的方法都可用来进行途径微扰。对细胞成分的可控制修饰必然会可控制地扰乱始于被修饰的细胞成分的途径。这种始于特定细胞成分的途径在本发明中被优选用来代表药物作用。优选的修饰方法能够分别寻靶多种细胞成分中的每一种,且最优选这种细胞成分的实质性部分。参见,例如,Bassett,Jr.,等的美国专利6,453,24l中所述的方法。
1.11所引用的参考文献
在这里将所有引用的参考文献全文引入作为参考,就如将各个公开或专利或专利申请单独提出并全文引入作为参考一样。
1.12其它具体实施方案
本发明可作为含有嵌入计算机可读的存储介质的计算机程序机制的计算机程序产品来实施。例如,所述计算机程序产品可含有图1所示的程序模块。这些程序模块可储存在CD-ROM、磁盘存储产品或任何其它计算机可读数据或程序存储产品上。所述计算机程序产品内的软件模块也可通过互联网或通过发送加载在载波上的计算机数据信号(其中嵌有软件模块)用电子学方法进行分布。
在不背离本发明精神和范围的情况下可对本发明进行修改和变化,这对于本领域的普通技术人员是显而易见的。这里所描述的特定具体实施方案只是为了举例说明,本发明的范围仅由附加的权利要求及其等价范围进行限定。