CN101437960A

CN101437960A - 成瘾性的标志物

Info

Publication number: CN101437960A
Application number: CNA2007800158846A
Authority: CN
Inventors: 丹尼斯·巴林杰; 卡雷尔·康维卡; 劳拉·J·比拉特; 约翰·赖斯; 斯科特·萨康尼
Original assignee: Perlegen Sciences Inc
Current assignee: Perlegen Sciences Inc
Priority date: 2006-03-01
Filing date: 2007-03-01
Publication date: 2009-05-20

Abstract

本发明提供了多态性和成瘾性之间的相关性。本发明提供了诊断、预后和治疗成瘾性的方法。提供了用于诊断、预后和治疗成瘾性的系统和试剂盒。还描述了鉴定成瘾性调节剂的方法。

Description

成瘾性的标志物

相关申请的交叉引用

本申请要求2006年3月1日提交的USSN 60/778,597和2006年6月6日提交的USSN 60/811,318的优先权，为了所有目的，每篇在此通过引用全文引入。

提交国际申请的请求

本段为在PCT指定的所有国家下接受本申请作为国际申请的请求。

政府利益的声明

本发明在NIH的第HHSN271200477471C号合约下通过政府支持完成。本工作还得到国立癌症研究所的NIH拨款CA89392、国立研究所涉及药物滥用的DA12854和DA015129以及NIDA的合约N01DA-0-7079的部分支持。因而，美国政府拥有本发明的某些权利。

技术领域

本发明属于成瘾性(addiction)诊断、预后和治疗的领域。本发明涉及多态性和成瘾性之间的相关性以及用于诊断、预后和治疗成瘾性的系统和试剂盒，以及鉴定成瘾性调节剂的方法。

附图

本申请在此通过引用全文引入包含表1的下列图26：

图26的内容如下：

TopSNPs.txt：

本图包含随本申请说明书一起提交的称为表1的表格，其包含在例如实施例1、2、3等等的实施例中发现与尼古丁成瘾性有关的SNP的信息，并且其为可以认为是相关序列的一些实施方案。

上述表格中，第一行为具有列名称的标题行。所述列如下：

1.SNPJDD：Perlegen内部的SNP标识符。

2.refsnp_ID：每个变体的()的标识号。此为通过国立卫生研究所的国立医学图书馆的NCBI产生和维护的dbSNP数据库的索引号)

3.nda01_all_result.CASES_P：所有样品的病例等位基因频率

4.nda01_all_result.CNRLS_P：所有样品的对照等位基因频率

5.nda01_all_result.DELTA_P：所有样品的Δ等位基因频率

6.nda01_all_result.CALL_RATE：所有样品的就诊率

7.nda01_all_result.HWE_P_VALUE_CTRLS：对照的Hardy-Weinberg平均(Hardy-Weinberg equilibrium，HWE)p-值

8.nda01_all_result.GC_TREND_SCORE_P：所有样品的基因组对照-校正趋势得分p-值

9.nda01_all_result.TRENDjSCOREJFWER：所有样品的由候选基因趋势得分算起的族系误差率

10.nda01_all_result_sex_strat.TREND_SCORE_P_SEX_STRAT：所有样品的性别-分层趋势得分p-值

11.nda01_regression_result.ALL_GLM_P_VALUE：对所有样品的病例/对照ANOVA p-值的逻辑回归

12.nda01_regression_result.ALL_LM_P_VALUE：对所有样品的FIND得分ANOVA p-值的线性回归

13.nda01_ig_result.CASES_P：合并的样本的病例等位基因频率

14.nda01_ig_result.CTRLS_P：合并的样本的对照等位基因频率

15.nda01_ig_result.DELTA_P：合并的样本的Δ等位基因频率

16.nda01_ig_result.CALL_RATE：合并的样本的就诊率

17.nda01_ig_result.HWE_P_VALUE_CTRLS：合并的样本中对照的HWEp-值

18.nda01_ig_result.TREND_SCORE_P：合并的样本的趋势得分的未校正p-值

19.nda01_ig_result_sex_strat.TREND_SCORE_P_SEX_STRAT：合并的样本的性别-分层趋势得分p-值

20.nda01_regression_result.IG_GLM_P_VALUE：对合并的样本的病例/对照ANOVAp-值的逻辑回归

21.nda01_regression_result.IG_LM_P_VALUE：对合并的样本的FTND得分ANOVA p-值的线性回归

22.nda01_rep_result.CASES_P：确认样品的病例等位基因频率

23.nda01_rep_result.CTRLS_P：确认样品的对照等位基因频率

24.nda01_rep_result.DELTA_P：确认样品的Δ等位基因频率

25.nda01_rep_result.CALL_RATE：确认样品的就诊率

26.nda01_rep_result.HWE_P_VALUE_CTRLS：确认样品中对照的HWEp-值

27.nda01_rep_result.GC_TREND_SCORE_P：确认样品的基因组对照-校正趋势得分p-值

28.nda01_rep_result_sex_strat.TREND_SCORE_P_SEX_STRAT：确认样品的性别-分层趋势得分p-值

29.nda01_regression_result.REP_GLM_P_VALUE：对确认样品的病例/对照ANOVA p-值的逻辑回归

30.nda01_regression_result.REP_LM_P_VALUE：对确认样品的FTND得分ANOVA p-值的线性回归

31.CHROMOSOMEJDD：其中SNP作图于人基因组的NCBI Build 35的染色体

32.contig(重叠群)：其上SNP作图于人基因组NCBI Build35的重叠群

33.位点：其中SNP作图的染色体上的位点

34.基因名称：SNP作图于其附近或内部的基因的基因符号

35.基因超链接：指示基因可在NCBI GENE数据库中找到

36.HIT_TYPE：其中SNP位于相关基因的例如上游、下游、内含子、外显子中等等。

37.同义词：SNP等位基因是否在所述基因序列中产生同义(＂是＂)或非-同义(＂否＂)的变化

38.is_candidate_region：如果SNP选自候选基因区域的SNP则为1；如果SNP选自合并SNP的分析则为0

39.备注：关于SNP的另外的注释

背景技术

根据发病率、死亡率和对社会的经济成本，尼古丁成瘾性的影响是巨大的。烟草每年杀死超过430,000美国公民，超过酒精、可卡因、海洛因、杀人案件、自杀、车祸、火灾和AIDS的加在一起的人数。在美国烟草的使用为主要的可预防的死因。

经济上看，每年全部美国保健花费的估计800亿美元可归因于吸烟。然而，此花费远远低于社会的总成本，因为其不包括来自吸烟-引起的火灾的烧伤护理，母亲吸烟的低-出生-重量婴儿的产期护理以及与由二手烟引起的疾病有关的医疗护理。合起来，直接和间接的吸烟花费估计为每年1380亿美元。

尼古丁为来自烟草产品如香烟、雪茄、烟斗和无烟烟草产品，如鼻烟和嚼用烟草的烟雾中发现的数千化合物的一种。尼古丁为最常用的上瘾药物的一种。在19世纪早期最初鉴定时，尼古丁为作用于脑的烟草中主要成分，并且表明具有许多复合物且有时对脑和身体具有不可预知的作用。

成瘾性以强迫性的寻求药物并且使用，甚至不顾负面健康后果为特征。大部分吸烟者认为烟草有害并且表示希望减少或停止使用，但每年接近3500万认真尝试放弃的人中小于7％的能够成功。对于最初使用并且最终成瘾，还有一些因素充当决定因素，如其高水平的可得性，烟草使用的法律和社会后果的少数，以及烟草公司所用的改进的销售和广告宣传方法。

研究已经表明尼古丁如何提高脑回路中调节快感的多巴胺的水平，所谓的回报途径，以及其对成瘾性质最重要。还发现尼古丁的药物动力学性质增强其滥用的可能性。香烟烟雾产生尼古丁的快速分布以使大脑死亡，在吸入的10秒内达到药物水平的峰值。在几分钟内尼古丁的急性效应消散，引起吸烟者整天持续频繁给量以维持药物的快乐作用并且防止消退。

发明概述

本发明提供大量尼古丁成瘾性(nicotine addiction)和各种多态性等位基因之间的新的遗传相关性(correlation)，其提供易感个体早期检测的基础，以及在分子和细胞水平提高对尼古丁成瘾性和相关病症的认识。本发明的这些和其它的特征在以下综述中将是明显的。

因此，本发明提供各种多态性和成瘾性表型之间的之前未知的相关性，例如对尼古丁成瘾性的敏感性。这些多态性(或其连接的基因座)的检测因此提供用于鉴定处于尼古丁成瘾性和相关病症风险中有效和精确的方法和系统。此外，这些多态性的鉴定提供用于鉴定成瘾性表型调节剂的高-通量系统和方法。表1提供多态性的说明。多态性的说明还包括表21的多态性，α5烟碱样受体基因rs16969968的多态性或具有包括如图22中举例说明的所述单倍型或任何单倍型连锁不均衡(linkage disequilibrium)的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS13A的多态性、VPS13A的多态性、TRPC7的多态性、CTNNA3的多态性、CLCA1的多态性、表6的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因的多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性。因此，第一个方面提供鉴定生物体或源自其的生物样品成瘾性表型的方法。该方法包括检测所述生物体或生物样品中基因或紧密连接其的基因座的多态性。基因实例包括列于表1的那些，其中多态性与成瘾性表型有关。同样，表1或紧密连接其的基因座的多态性检测可用于鉴定与成瘾性表型有关的多态性。在两种情况下，相应多态性的存在与成瘾性表型相关连，由此鉴定相应的成瘾性表型。与成瘾性有关的任何表型可以构成成瘾性表型，例如表型可包括对尼古丁成瘾性增强的敏感性，等等。所述方面还包括多态性，例如表21中的多态性、α5烟碱样受体基因rs16969968的多态性或具有包括如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18中的多态性、表18的NRXN1的多态性、表18的VPS13A的多态性、表6的VPS13A的多态性、TRPC7的多态性、CTNNA3的多态性、CLCA1的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因的多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9中的多态性。

生物体或生物样品可以是或可以源自哺乳动物。例如，生物体可以是人患者，或生物样品可以源自人患者(血液、淋巴、皮肤、组织、唾液、源自其的原代或次代细胞培养物等等)。

检测多态性可以包括扩增多态性或与此关联的序列以及检测得到的扩增子。例如，扩增多态性可以包括将扩增引物或扩增引物对与分离自生物体或生物样品的核酸模板混合。引物或引物对通常与基因或其它多态性，或其邻近序列的至少一部分互补或部分互补，并且能够通过核酸模板上的聚合酶起始核酸聚合作用。扩增还可以包括在DNA聚合反应中利用聚合酶和模板核酸延伸引物或引物对以产生扩增子。扩增子可以通过将扩增子与阵列杂交、用限制性内切酶消化扩增子、实时PCR分析、扩增子的测序等等检测。任选地，扩增可以包括利用分离自生物体或生物样品的核酸作为PCR、RT-PCR或LCR中的模板而进行聚合酶链式反应(PCR)、逆转录酶PCR(RT-PCR)或连接酶链式反应(LCR)。任选地，扩增可以包括进行全-基因组扩增，如例如2005年6月30日提交的USSN 11/173,309，题为＂Hybridization of Genomic Nucleic Acid without Complexity Reduction.＂中所述。其它形式可以包括等位基因特异性杂交、单核苷酸延伸等等。

多态性可以是任何可检测的多态性，例如SNP。例如，等位基因可以是表1中记录的任何那些等位基因。等位基因可以与一种或多种成瘾性表型正相关或可以负相关。每种的实例在表1中描述。另外的实例包括表21的多态性、α5烟碱样受体基因rs16969968的多态性或具有包括如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS13A的多态性、表6的VPS13A的多态性、TRPC7的多态性、CTNNA3的多态性、CLCA1的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因的多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性。

与列于表1的基因紧密连接的多态性和/或表1的任何多态性可以用作成瘾性表型的标志物(marker)。所述紧密连接的标志物通常离目的基因或其它目的多态性(例如表1中的等位标志基因座(alletic marker locus))约20cM或更近，例如15cM或更近，常常为10cM或更近并且在某些优选实施方案中，为5cM或更近。连接标志物(linker marker)当然可以离表1的基因或标志基因座近于5cM，例如4、3、2、1、0.5、0.25、0.1cM或更近。通常，连锁(linkage)(或关联(association))越紧密，越容易预测关联的标志物为基因或给定的标志基因座(或关联)的等位基因。这里也可任选地使用其它的多态性，例如表21的多态性、α5烟碱样受体基因rs16969968的多态性或具有包括如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS13A的多态性、表6的VPS13A的多态性、TRPC7的多态性、CTNNA3的多态性、CLCA1的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因的多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性。

一个典型的实施方案中，通过对照包括多态性的等位基因和表型之间相关性的查阅表进行多态性关联。该表可以为例如包括相关的关联信息的纸或电子数据库。在一个方面，数据库可以为包括多重关联并且同时考虑多重关联关系的多维数据库。使用查阅表可包括通过查表提取关联信息或可包括更多的复杂统计分析，如主成分分析(principle component analysis，PCA)、追踪和/或更新关联信息(例如神经网络)的启发式算法、隐马尔可夫模型(hidden Markov modeling)等等。

关联信息可用于确定易感性(例如患者对成瘾性的敏感性，例如尼古丁成瘾性)和预后(例如戒烟常规方法根据患者基因型而有效的可能性)。

包括例如用于鉴定此处标志物的探针的试剂盒也为本发明的特征，该标志物例如包装在合适容器中，其带有用于关联检测的等位基因与成瘾性表型，例如对成瘾性增强的敏感性的说明书。

另外的方面，提供鉴定成瘾性表型调节剂的方法。该方法包括将可能的调节剂与基因或基因产物接触，如对应于列于表1的那些的基因产物，和/或表1中任何的基因产物，和/或对应于任何这些基因产物的基因。检测可能的调节剂对基因或基因产物的作用，由此鉴定该可能的调节剂是否调节成瘾性表型。上述用于等位基因、基因、标志物等等的所有特征也适用于这些方法。所述方法还包括多态性，如表21的多态性、α5烟碱样受体基因rs16969968的多态性或具有包括如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS13A的多态性、表6的VPS13A的多态性、TRPC7的多态性、CTNNA3的多态性、CLCA1的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因的多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性。

筛选的目的作用包括：(a)调节剂存在时增强或降低表1的任何基因和/或这些基因编码的任何蛋白质的表达；(b)调节剂存在时表1的任何基因和/或这些基因编码的任何蛋白质表达时间或位置的改变；(c)调节剂存在时表1的任何基因编码的任何基因产物任何活性的改变；和/或(d)调节剂存在时表1的基因编码的蛋白质定位的改变。这里多态性也可包括表21的多态性、α5烟碱样受体基因rs16969968的多态性或具有包括如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS13A的多态性、表6的VPS13A的多态性、TRPC7的多态性、CTNNA3的多态性、CLCA1的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因的多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性。

本发明还包括用于成瘾性表型治疗的试剂盒。在一个方面，试剂盒包括通过以上方法鉴定的调节剂和用于将该化合物给予患者以治疗成瘾性表型的说明书。

另外的方面，提供鉴定生物体或源自其的生物样品成瘾性表型的方法。所述系统包括，例如设置以检测与成瘾性表型关联的一种或多种基因或相连基因座的至少一种等位基因的标志物探针和/或引物组，其中该基因包括或编码表1的任何基因或基因产物。通常，标志物探针或引物组可包括或检测表1的核苷酸序列，或与其紧密连接的等位基因。该系统通常还包括设置以检测一种或多种来自该标志物探针和/或引物组或由该标志物探针和/或引物组产生的扩增子的信号输出(例如光辐射)的检测器，由此确定等位基因的存在或不存在。将预测的成瘾性表型与等位基因的存在或缺乏相关联，由此鉴定生物体或源自其的生物样品成瘾性表型的系统说明书也是该系统的特征。该说明书可包括至少一种查阅表(look up table)，其包括一种或多种等位基因的存在或缺乏与成瘾性易感性之间的关联。该系统可进一步包括样品，其通常源自哺乳动物，包括例如基因组DNA、扩增的基因组DNA、cDNA、扩增的cDNA、RNA或扩增的RNA。此处系统还可以包括表21的多态性、α5烟碱样受体基因rs16969968的多态性或具有包括如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS13A的多态性、表6的VPS13A的多态性、TRPC7的多态性、CTNNA3的多态性、CLCA1的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因的多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性。

可以理解的是以上方法、系统和试剂盒可全部以不同的组合一起使用，并且所述方法的特征可反映在系统和试剂盒中，反之亦然。

附图简述

本专利或申请文件包含至少一种彩图。

具有彩图的本专利或专利申请的拷贝将根据要求和支付必要的费用而由专利商标局提供。

图1-6显示实施例1中第I轮组(round1sets)的Q-Q曲线图。

图7显示来自实施例1的SNPS顺序组中FDR q-值的曲线图。

图8显示第一个600SNP的放大区域。

图9显示实施例1的有序分布曲线图。

图10显示第一个300SNP的放大区域。

图11显示整个实施例1中21SNP滑动窗符号一致。

图12显示与实施例1中图11的101窗口大小的符号一致。

图13显示实施例3中候选基因关联分析的结果。

图14，平板(panel)a-c，显示实施例3中上部关联信号的详细结果。

图15，平板a和b，显示烟碱样受体基因的(A)CHRNB3-CHRNA6和(B)CHRNA5-CHRNA3-CHRNB4簇中标志物之间的连锁不均衡(LD)。

图16显示用于影响发展成尼古丁依赖性风险的基因的基因组-宽关联扫描的P值。

图17，平板a和b，显示(A)选自合并基因型级的31,960个基因型SNP的I级样品的p-值分布和(B)在H级添加的另外的样品的p-值分布。

图18显示来自合并的和第I时期样品(Stage I sample)各基因分型的等位基因频率散布图。

图19显示利用不同标准选择的SNP的标准误的分布图。

图20显示产生自在第II时期(stage II)时加至第I时期样品的逻辑回归ANOVA偏差的Q-Q图。

图21显示CHRNA5基因中SNP中的LD和r²。

图22显示CHRNA5的单倍型网络。

图23显示不同种的α5烟碱受体的对比序列分析。

图24显示rs16969968的A等位基因分布。

图25显示影响nAChR功能的多态性。

图26显示表1。

发明详述

本发明提供表1中基因或基因座中或邻近的基因或基因座中多态性和成瘾性表型之间的相关性。因此，这些基因座、基因或基因产物(例如RNA或蛋白质产物)中具体的多态性的检测提供用于鉴定具有或处于成瘾性风险例如尼古丁成瘾性等等中的患者的方法。用于检测和将等位基因与成瘾性表型关联，例如用于实施该方法的系统也是本发明的特征。此外，这些多态性的鉴定提供用于鉴定成瘾性表型调节剂的高-通量系统和方法。

提供下列定义以更清楚地确定本发明的各方面。其不应用于任何其它的相关或无关的申请或专利。

定义

可理解的是本发明不限于具体的实施方案，其当然可以有变化。还应理解此处所用的术语仅用于描述具体的实施方案而不试图限制。如本说明书和附加的权利要求中所用的，除非上下文另外明确规定，例如单数和单数形式“一”、“一个”和“这个”的术语可任选地包括复数对象。因此例如，“探针”的引用任选地包括多种探针分子；同样取决于上下文，术语“核酸”的使用任选地包括，实际上也是如此，核酸分子的许多拷贝。用于基因或蛋白质的字母名称可指基因形式、RNA形式和/或蛋白质形式，取决于上下文。技术人员完全能通过参考此处的序列、已知序列和遗传密码而将有关生物分子的核酸和氨基酸形式相对应。

除非另有陈述，核酸以5’至3’的方向从左到右书写。说明书内列举的数值范围包括定义范围的数值并且包括该定义的范围内每个整数或任何非-整数部分。除非另外定义，此处所用的所有技术和科学名词具有本发明所属本领域的普通技术人员通常所理解的相同的含义。虽然与此处所述的那些相似或同等的任何方法和材料可用于本发明的实践或检验，此处描述了该优选材料和方法。在描述和权利要求本发明时，下列术语根据以下所述的定义使用。

“表型”为个体或群体中可观察到的性状或性状的集合。性状可以是定量的(定量性状或QTL)或定性的。例如，对成瘾性的敏感性为可根据此处的方法、组合物和系统监测的表型。

“成瘾性表型(addiction phenotype)”为个体中呈现发展为成瘾性的倾向性的表型或呈现对成瘾性增强的敏感性的表型。呈现成瘾性的倾向性的表型例如在具有该表型的个体中比给定环境条件组下的常规群体成员中表现出更高的成瘾性出现的可能性。成瘾性表型包括，例如对成瘾性的敏感性或对成瘾性降低的耐受性病史的存在，如尼古丁成瘾性或对其它物质如可卡因、海洛因、酒精、脱氧麻黄碱等等的成瘾性。成瘾性表型还包括对任何上述表型的治疗(无论是预防性的与否)的应答，包括有效的应答以及副作用。

“多态性”为可变的基因座；其在群体内为具有超过一种型式或等位基因的多态性的核苷酸序列。术语＂等位基因＂指两种或多种不同核苷酸序列中的一种，其在特定的基因座出现或由其编码，或由所述基因座编码的两种或多种不同的多肽序列。例如，第一个等位基因可出现在一条染色体上，而第二个等位基因出现在第二个同源染色体上，例如在杂合体的不同染色体或群体中不同的纯合或杂合体之间出现。多态性的一个实例为“单核苷酸多态性”(SNP)，其为基因组中单个核苷酸位点的多态性(该指定位点的核苷酸在个体或群体之间变化)。

当等位基因与性状关联并且当该等位基因的存在为包括该等位基因的个体中将出现该性状或性状形式的指示时，该等位基因与该性状正相关。当等位基因与性状关联并且当该等位基因的存在为包括该等位基因的个体中不出现该性状或性状形式的指示时，该等位基因与该性状负相关。

当标志物多态性或等位基因与表型可在统计上关联时(正或负)，该标志物多态性(marker polymorphism)或等位基因与该特定表型(成瘾性易感性等等)相关。该相关实际上常常推论为在本质上有因果关系，但其不必为某性状基因座的简单的遗传连锁(与之相关)，在该性状下表型是充分的。

“有利的等位基因”是在特定基因座的等位基因，其与所需表型例如对成瘾性的抵制呈正相关，或者是与不想要的表型呈负相关的等位基因，例如与成瘾性倾向呈负相关的等位基因。关联标志物的有利的等位基因为与有利的等位基因分离的标志物等位基因。染色体区段的有利的等位形式为包括物理上位于该染色体区段上的一个或多个基因位点处与所需表型正相关或与不利表型负相关的核苷酸序列的染色体区段。

“不利的等位基因”为特定基因座的等位基因，其与所需表型呈负相关，或者与不想要的表型呈正相关，例如与成瘾性易感性呈正相关。关联标志物的不利的等位基因为与不利的等位基因分离的标志物等位基因。染色体区段的不利的等位形式为包括物理上位于该染色体区段上的一个或多个基因位点处与所需表型负相关或与不想要的表型正相关的核苷酸序列的染色体区段。

“等位基因频率”指个体内、系内或系的群体内等位基因存在于基因座的频率(比例或百分比)。例如，对于等位基因“A”，二倍体基因型个体“AA”、“Aa”或“aa”分别具有1.0、0.5或0.0的等位基因频率。可以通过平均来自系或群体的个体样品的等位基因频率而评估该系或群体内的等位基因频率。同样，可以通过平均组成群体的系的等位基因频率而计算群体内的等位基因频率。

术语“纯合的(homozygous)”指，如果个体在给定基因座只有一种类型的等位基因，那么该个体是纯合的(例如两个同源染色体的每一个基因座有相同的等位基因的拷贝的二倍体个体。)如果给定的基因座存在超过一种等位基因型，则个体为“杂合的”(例如具有两种不同等位基因的每种一个拷贝的二倍体个体)。术语“同质性(homogeneity)”表示群体中成员具有一种或多种特定基因座的相同基因型。相反，术语“异质性(heterogeneity)”用于表示组内个体在一种或多种特定基因座方面不同。

“基因座(座位)(locus)”是染色体上的位置或区域。例如，多态性基因座为其中多态性核酸、性状决定因素、基因或标志物定位的位置或区域。另一个例子中，“基因座”为其中发现特定基因的物种基因组中特定的染色体部位。同样，术语“定量性状基因座”或“QTL”指具有至少两种等位基因的基因座，其在至少一种遗传背景中，例如在至少一种繁殖种群或子代中分别影响表达或改变定量或连续表型性状的变化。

“标志物”、“分子标记”或“标志物核酸”指在鉴定基因座或连锁基因座时用作参照点的核苷酸序列或其编码产物(例如蛋白质)。标志物可以源自基因组核苷酸序列或来自表达的核苷酸序列(例如来自RNA、cDNA等等)，或来自编码的多肽。该术语还指与该标志物序列互补或其侧翼的核酸序列，如用作能够扩增该标志物序列的探针或引物对的核酸。“标志物探针”为可用于鉴定标志物基因座存在的核酸序列或分子，例如与标志物基因座序列互补的核酸探针。当核酸在溶液中例如根据Watson-Crick碱基配对规则特异性杂交时，核酸为“互补的”。“标志物基因座”为可用于追踪第二个连锁基因座存在的基因座，例如编码或有助于表型性状群体变化的连锁或关联基因座。例如，标志物基因座可用于监测基因座等位基因的分离，如与标志物基因座在遗传学上或物理上连锁的QTL。因此，“标志物等位基因”或者“标志物基因座的等位基因”为在该标志物基因座多态性的群体中标志物基因座处发现的多种多态性核苷酸序列的一种。在一个方面，本发明提供与目的表型，例如成瘾性易感性/耐受性(抵抗性)有关的标志物基因座。每种鉴定的标志物预计与遗传因子，例如有助于相关表型的QTL在物理学上和遗传学上紧密邻近(产生物理和/或遗传连锁)。对应于群体成员之间遗传多态性的标志物可通过本领域已有的方法检测。所述方法包括，例如基于PCR的序列特异性扩增方法、限制性片段长度多态性(RFLP)的检测、同功酶标志物的检测、等位基因特异性杂交(ASH)的检测、单核苷酸延伸的检测、扩增的基因组可变序列的检测、自主序列复制的检测、单序列重复(SSR)的检测、单核苷酸多态性(SNP)的检测或扩增片段长度多态性(AFLP)的检测。

“遗传图谱”为给定的物种内一条或多条染色体上基因座之间遗传连锁(或关联)关系的说明，通常以图表或表格形式描述。“作图”为通过使用遗传标记、标志物的群体分离和标准的重组频率遗传原理定义基因座连锁关系的过程。“作图位置”为相对于其中可在给定的物种内发现特定标志物的连锁遗传标记，遗传图谱上的指定部位。术语“染色体区段”指存在于单条染色体上基因组DNA的连续的线性跨度。同样，“单倍型”为个体或群体的遗传物质中发现的基因座组(该组可以是连续的或非-连续的)。本发明上下文中，遗传因子如此处的一种或多种等位基因和一种或多种连锁标志物等位基因可以坐落在染色体区段内并且因此也遗传连锁指定的小于或等于20分摩(centimorgan，cM)或更短的遗传重组距离，例如15cM或更短，常常为10cM或更短，例如约9、8、7、6、5、4、3、2、1、0.75、0.5、0.25或0.1CM或更短的遗传重组距离。也就是说，单个染色体区段内两种紧密连锁的遗传因子在减数分裂期间互相以小于或等于约20％，例如约19％、18％、17％、16％、15％、14％、13％ 12％、、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％、0.75％、0.5％、0.25％或0.1％或更小的频率重组。

“基因重组频率”是两个基因座之间重组事件的频率。重组频率可以通过减数分裂期间标志物和/或性状的分离而观察。本发明上下文中，当相关的基因座因为关联而为相同连锁群的一部分并且连锁不均衡时，标志物基因座与另一个标志物基因座或其它的基因座(例如成瘾性易感性基因座)关联(连接)。这在当标志物基因座和连锁基因座在子代中比随机分离时更频繁地发现在一起时发生。同样，标志物基因座还可以与所述性状关联，例如当标志物基因座与给定性状连锁不均衡时标志物可以与所述给定的性状(成瘾性耐受性或易感性)关联。术语“连锁不均衡”指基因座或性状(或两者)不随机分离。在任何一种情况下，连锁不均衡暗示相关的基因座在充分物理邻近一段染色体内以使其以大于随机频率而一起分离(在共-分离性状的情况下，支持性状的基因座相互充分接近)。连锁基因座在超过50％的时间内共-分离，例如约51％至约100％的时间内。有利地，两个基因座紧密接近使得减数分裂期间同源染色体对之间的重组在两个基因座之间不以高频率发生，这样使得紧密连锁的基因座在至少约80％的时间，更优选至少约85％的时间，再优选至少90％的时间，例如91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.75％或99.90％或更多时间共-分离(co-segregate)。

本申请中短语＂紧密连锁＂指两个连锁基因座(例如，如此处表1中鉴定的一种SNP和第二个连锁等位基因)之间的重组以等于或小于约20％的频率发生。以另一种方式，紧密(或紧紧)连锁的基因座在至少80％的时间内共-分离。当标志物基因座与靶基因座(例如成瘾性的QTL，或者仅仅是其它的成瘾性标志物基因座)紧密连锁时，其对本发明尤其有用。标志物与靶基因座连接越紧密，该标志物为靶基因座的越好的指示物。因此，在一个实施方案中，紧密连锁的基因座如标志物基因座和第二种基因座呈现约20％或更低，例如15％或更低，例如10％或更低，优选约9％或更低，更优选约8％或更低，再更优选约7％或更低，更优选约6％或更低，再更优选约5％或更低，更优选约4％或更低，再更优选约3％或更低，并且更优选约2％或更低的基因座内重组频率。在非常优选的实施方案中，相关的基因座(例如标志物基因座和靶基因座如QTL)呈现约1％或更低，例如约0.75％或更低，更优选约0.5％或更低，或再更优选约0.25％或更低，或更优选约0.1％或更低的重组频率。定位至相同染色体，并且在使得这两个基因座之间以小于约20％，例如15％，更优选10％(例如约9％、8％、7％、6％、5％、4％、3％、2％、1％、0.75％、0.5％、0.25％、0.1％或更低)的频率重组的距离内的两个基因座称为相互“邻近的”。当涉及两个连锁遗传因子，如体现性状的遗传因子和邻近的标志物之间的关系时，＂偶联＂期连锁表示其中性状基因座上“有利的”等位基因作为各自连锁标志物基因座的“有利的”等位基因而物理关联于相同染色体链上的时期。偶联期中，两种有利的等位基因通过继承该染色体链的子代一起遗传。“排斥”期连锁中，目的基因座的“有利的”等位基因(例如成瘾性易感性的QTL)作为邻近的标志物基因座处“不利的”等位基因而物理关联于相同染色体链上，并且这两个“有利的”等位基因并不一起遗传(即这两个基因座互相＂不同相＂)。

在核酸背景中术语“扩增”为借此产生所选核酸(或其转录形式)的另外的拷贝的任何过程。典型的扩增方法包括基于各种聚合酶的复制方法，包括聚合酶链式反应(PCR)和全基因组扩增、连接酶介导的方法如连接酶链式反应(LCR)和基于RNA聚合酶的扩增方法(例如通过转录)。“扩增子”为扩增的核酸，例如通过任何有效的扩增方法(例如PCR、LCR、转录等等)扩增模板核酸而产生的核酸。

“基因组核酸”为序列上对应于细胞中可遗传核酸的核酸。常见的实例包括核基因组DNA和其扩增子。基因组核酸有时不同于剪接的RNA或相应的cDNA，因为剪接的RNA或cDNA例如通过剪接结构除去内含子而加工。基因组核酸任选地包括未-转录的(例如染色体结构序列、启动子区域、增强子区域等等)和/或未-翻译的序列(例如内含子)，而剪接的RNA/cDNA通常不具有未-转录的序列或内含子。“模板基因组核酸”为在扩增反应(例如基于聚合酶的扩增反应如PCR、全基因组扩增、连接酶介导的扩增反应如LCR、转录反应等等)中充当模板的基因组核酸。

“外源核酸”是对序列、基因组位置，或两者而言，对特定系统不是天然的核酸。如此处所用的，应用于多核苷酸或多肽的术语“外源的”或“异源的”通常指人工提供给生物系统(例如细胞、个体等等)并且对该特定的生物系统并不是天然的的分子。该术语可表示相关的物质来源于除了天然存在的来源外的来源，或可指具有其部分的非天然的构型、遗传位置或排列的分子。

当指将异源或外源的核酸移位入细胞时术语“导入”指利用任何方法将核酸掺入细胞。该术语包含所述核酸的导入方法如“转染”、“转化”和“转导”。

“载体”指将核酸片段转入细胞的多核苷酸或其它分子。术语“媒介物”有时可与“载体”互换使用。载体任选地包括介导载体维持并且能够进行其所需的用途的部分(例如复制所必需的序列、赋予药物或抗生素抗性的基因、多克隆位点、可操作连接的启动子/增强子元件，其使得能够表现克隆的基因等等)。载体常常源自质粒、噬菌体或植物或动物病毒。“克隆载体”或“穿梭载体”或“亚克隆载体”包含便于亚克隆步骤的可操作连接的部分(例如包含多个限制性核酸内切酶位点的多克隆位点)。

如此处所用的术语＂表达载体＂指包括便于编码序列在特定的宿主生物体中表达的可操作连接的多核苷酸序列的载体(例如细菌表达载体或哺乳动物细胞表达载体)。便于在原核生物中表达的多核苷酸序列一般常常包括与其它序列一起的，例如启动子、操纵基因(可选的)和核糖体结合位点。真核细胞可使用启动子、增强子、终止子和聚腺苷酸化信号以及其它的序列，其通常不同于原核生物所使用的那些。在一个可选的实施方案中，对应于此处基因座的基因克隆入表达载体并且表达，其基因产物用于此处用于调节剂鉴定的方法和系统中。

当其利用给定的核酸的序列构建时或当特定的核酸利用给定的核酸构建时，该特定的核酸“源自”给定的核酸。

“基因”为基因组中一起编码一种或多种表达分子例如RNA或多肽的一种或多种核苷酸序列。基因可包括转录为RNA，其可随后翻译为多肽序列的编码序列，并且可包括有助于基因的复制或表达的关联结构或调控序列。本发明中的目的基因包括那些包括表1基因座的那些基因或紧密连锁至表1基因座的那些基因。

“基因型”为一个或多个基因座处个体(或个体组)的基因组成。基因型通过个体的一个或多个已知基因座的等位基因定义，通常等位基因的汇编遗传自其亲本。“单倍型”为单条DNA链上多个基因座处个体的基因型。通常，通过单倍型描述的基因座在物理和遗传上连锁，即在相同的染色体链上。

标志物或探针“组”指标志物或探针的集合或归组，或源自其中的数据，其用于共同的目的，例如鉴定具有特定表型的个体(例如成瘾性耐受性或易感性)。常常，对应于标志物或探针，或源自其用途的数据存储在电子介质中。虽然每个组成员具有对于特定目的的功用，选自该组的个体标志物以及包括一些，而不是所有标志物的子集对于实现特定的目的也是有效的。

“查阅表(look up table)”为一个表，其将数据的一种形式关联至另一种，或具有预计结果的数据的一种或多种形式关联至相关的数据。例如，查阅表可包括等位基因数据和预计性状之间的关联性，包含一种或多种给定等位基因的个体很可能呈现该性状。这些表可以为，并且通常为多维的，例如在进行性状预测中同时考虑多个等位基因，以及任选地也考虑其它的因素，如遗传背景。

“计算机可读介质”为可通过利用可利用的或客户界面的计算机访问的信息存储介质。实例包括存储器(例如ROM或RAM，闪存等等)、光存储介质(例如CD-ROM)、磁存储介质(计算机硬盘、软盘等等)、穿孔卡和许多市场上可买到的其它的存储器。信息可在目的系统和计算机之间传输，或从计算机传输或传输至计算机的用于存储信息贮存或访问的可读介质。该传输可以是电传递，或可通过其它有效的方法进行，如IR链接、无线连接等等。

“系统指令”为可通过系统部分或全部执行的指令组。通常，指令组以系统软件呈现。

“翻译产物”为作为核酸翻译的结果产生的产物(通常为多肽)。＂转录产物＂为作为核酸转录(例如DNA)的结果产生的产物(例如RNA、任选地包括mRNA或例如催化活性或生物学活性的RNA)。

“阵列(array)”为要素的集合。该集合可以是空间有序的(“模式阵列(patterned array)”)或无序的(“随机模式”阵列)。阵列可以形成或包括一种或多种功能性要素(例如微阵列上的探针区域)或其可以是无功能的。

如此处所用的，术语“SNP”或“单核苷酸多态性”指个体之间的遗传变异；例如生物体的DNA中可变的单个含氮碱基的位置。如此处所用的，“SNPs”为SNP的复数。当然，当此处指DNA时，所述引用可包括DNA的衍生物例如扩增子，其RNA转录物等等。

概述

本发明包括表1的多态性之间的新的相关性(和包括或邻近该多态性的基因)以及一种或多种成瘾性表型(例如对成瘾性的倾向性)。这些基因或基因产物中以及与之连锁的某些等位基因预示具有该相关等位基因的个体发展成瘾性或成瘾性表型的可能性。因此，这些等位基因通过任何有效方法的检测可用于诊断目的，如成瘾性表型的早期检测、对成瘾性表型敏感性的诊断、呈现成瘾性表型的患者的预后以及用于确定呈现或处于发展成瘾性表型风险中的患者合适的治疗或预防。

表1的多态性、基因或基因产物与成瘾性表型关联的鉴定也提供用于筛选成瘾性病症潜在的调节剂的平台。对应于表1多态性的任何基因或编码的蛋白质的活性调节剂预计对成瘾性表型起作用。因此，筛选的方法、用于筛选的系统等等为本发明的特征。通过这些筛选方法鉴定的调节剂也为本发明的特征。

用于成瘾性表型诊断和治疗的试剂盒，其例如包括鉴定相关等位基因的探针、包装材料以及用于将相关等位基因的检测与成瘾性表型关联的说明书，也为本发明的特征。这些试剂盒还可以包括成瘾性表型的调节剂和/或用于利用常规方法治疗患者的说明书。

确定成瘾性倾向性的方法

如所要注意的，本发明提供表1的某些基因或其它的基因座与成瘾性表型有关的发现。因此，通过检测与有关表型正或负相关的标志物(例如表1中的SNP或与其紧密连锁的基因座)，可确定个体或群体是否可能包括这些表型。此提供加强的早期检测选择以确定患者是否有处于发展成瘾性表型(例如尼古丁成瘾性等等)的风险，有时例如通过采取早期的预防性措施可以预防成瘾性表型的实际的发生。此外，例如通过提供患者可对成瘾性的常规疗法有多大可能响应的指标，对该病症是否存在分子基础的认识还可以帮助确定患者的预后。疾病治疗还可以基于患者呈现什么类型的分子病症而为靶向性的。

此外，此处各种标志物的用途也增加了现有诊断技术的确定性，所述诊断技术用于确定患者是否患有或将发展特定的成瘾性表型。对于利用用于风险评估、诊断、预后和治疗的标志物的特定方法，参见例如2004年9月30日提交的USSN 10/956,224，题为＂Methods for Genetic Analysis，＂以及2005年3月3日提交的PCT申请US2005/007375，题为＂Methods for GeneticAnalysis＂。

个体或群体是否可能包括一种或多种成瘾性表型的测定可包括检测与有关的表型正或负相关的标志物(例如表1中的SNP或紧密连锁的基因座)，以及结合其它的检验以提供另外的风险分层(对于结合表型利用基因型的方法，参见例如，USSN 11/043,689，2005年1月24日提交，题为＂Associations using Genotypes and Phenotypes＂)。

用于检测有关等位基因的检测方法可包括任何可利用的方法，例如扩增技术。例如，检测可包括扩增多态性或与此关联的序列以及检测得到的扩增子。此可包括将扩增引物或扩增引物对与分离自生物体或生物样品的核酸模板(例如包括SNP或其它的多态性)混合，例如其中引物或引物对与基因或紧密连锁的多态性的至少一部分或与其邻近的序列互补或部分互补。所述引物通常能够通过核酸模板上的聚合酶起始核酸聚合作用。引物或引物对例如在包含聚合酶和模板核酸的DNA聚合反应中(PCR、RT-PCR等等)延伸以产生扩增子。扩增子通过任何可利用的检测方法检测，例如测序、将扩增子与阵列杂交(或将扩增子固定至阵列并使其与探针杂交)、用限制性内切酶消化扩增子(例如RFLP)、实时PCR分析、单核苷酸延伸、等位基因-特异性杂交等等。

所检测的多态性和性状之间的相关性可通过能确定等位基因和表型之间相互关系的任何方法实现。最常见地，这些方法包括参考包含多态性等位基因和表型之间相关性的查阅表。该表可包括多种基因-表型相互关系的数据并且可考虑附加物或其它多种基因-表型相互关系的更高级的作用，例如通过使用如主成分分析、启发式算法等等的统计工具。

在这些方法背景内，下列论述首先集中于标志物和等位基因如何关联以及该现象可怎样用于确定成瘾性表型的方法的环境中，以及随后集中于标志物的检测方法。以下另外的章节论述数据分析。

标志物连锁和等位基因

常规的连锁(或关联)分析中，不需要直接了解染色体上基因的物理关系。

孟德尔第一定律为成对性状的因子是分离的，表示二倍体性状的等位基因分入两个配子并且随后进入不同的子代。标准的连锁分析可认为是不同性状共分离相对频率的统计说明。连锁分析为性状如何以其一起分离的频率为基础集中在一起的良好的已确立的描述框架。也就是说，如果两个非-等位性状以大于随机的频率一起遗传，其称为＂连锁的＂。性状一起遗传的频率为性状如何紧密连锁的主要度量，即以较高频率一起遗传的性状比以较低(但仍然高于随机的)频率一起遗传的性状更紧密地连锁。由于体现性状的基因在相同的染色体上相互靠近，因此性状为连锁的。由于减数分裂期间同源染色体重组，染色体上基因离得越远，其一起分离的可能性越低。因此染色体上基因离得越远，减数分裂期间重组事件的可能性越高，其导致两个基因分别分离进入子代。

连锁(或关联)的常见度量为性状共分离的频率。此可表示为共分离的百分比(重组频率)，或通常也可表示为厘摩(cM)，其实际上为重组频率的倒数单位。cM以先驱遗传学家Thomas Hunt Morgan命名并且为遗传重组频率的度量单位。1cM等于1％的几率，即由于在单个世代中重组(表示性状在99％的时间内分离)，一个基因座的性状与另一个基因座的性状分离的几率。由于染色体的距离大约与性状之间重组事件的频率成正比，因此存在与重组频率有关的估计的物理距离。例如在人中，1cM平均指约一百万个碱基对(IMbp)。

标志物基因座自身为性状并且可通过分离期间追踪标志物基因座的标准连锁分析而评估。因此在本发明中，1cM等于1％的几率，即由于在单个世代中重组，标志物基因座与另一个基因座(其可以是任何其它的性状，例如另一个标志物基因座或编码成瘾性QTL的另一个性状基因座)分离的几率。此处例如列于表1的那些标志物可与成瘾性相关联。此表示标志物包括或足够邻近于成瘾性的QTL，使得其可用作性状本身的预测因子。此在疾病诊断中非常有用。

根据上文，很显然与目的性状基因座有关的任何标志物(例如在目前的情况下为例如表1中的成瘾性的QTL或鉴定的成瘾性连锁标志物基因座)可用作该性状的标志物。因此，除了表1中指出的标志物外，与表1中列举的标志物紧密连锁的其它标志物也可以有效地预测表1中指出的标志物等位基因的存在(以及由此预测有关的表型性状)。所述连锁标志物在其与给定的基因座足够近而使得其呈现出与给定的基因座的低重组频率时尤其有用。本发明中，所述紧密连锁的标志物为本发明的特征。紧密连锁的基因座呈现与给定的标志物约20％或更低的重组频率(给定的标志物在基因座的20cM之内)。换句话说，紧密连锁的基因座在至少80％的时间内共-分离。更优选，重组频率为10％或更低，例如9％、8％、7％、6％、5％、4％、3％、2％、1％、0.5％、0.25％或0.1％或更低。在一类典型的实施方案中，紧密连锁的基因座相互在5cM或更小范围内。

本领域技术人员将认识到重组频率(以及因此的作图位置)可取决于所用的作图(以及该图上的标志物)而不同。紧密连锁(例如约20cM内，或更优选约10cM内)表1中鉴定的标志物的另外的标志物可很容易地用于鉴定成瘾性倾向性的QTL。

当标志物基因座与靶基因座(例如成瘾性表型的QTL，或者仅仅是与所述QTL连锁的其它的成瘾性标志物基因座)紧密连锁时，其对本发明尤其有用，此时靶基因座用作标志物。标志物与编码或影响表型性状的靶基因座连锁越紧密，该标志物为靶基因座越好的指示物(由于靶基因座和标志物之间降低的交叉频率)。因此，在一个实施方案中，紧密连锁的基因座如标志物基因座和第二种基因座(例如给定的表1的标志物基因座和另外的第二种基因座)呈现约20％或更低，例如15％或更低，例如10％或更低，优选约9％或更低，更优选约8％或更低，再更优选约7％或更低，更优选约6％或更低，再更优选约5％或更低，更优选约4％或更低，再更优选约3％或更低，并且更优选约2％或更低的基因座内交叉频率。在非常优选的实施方案中，相关的基因座(例如标志物基因座和靶基因座如QTL)呈现约1％或更低，例如约0.75％或更低，更优选约0.5％或更低，或再更优选约0.25％或更低，或更优选约0.1％或更低的重组频率。因此，基因座相距为约20cM、19cM、18cM、17cM、16cM、15cM、14cM、13cM、12cM、11cM、10cM、9cM、8cM、7cM、6cM、5cM、4cM、3cM、2cM、1cM、0.75cM、0.5cM、0.25cM、0.1cM或更低。换种说法，定位至相同染色体，并且在使得这两个基因座之间以小于约20％，(例如约19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％、0.75％、0.5％、0.25％、0.1％或更低)的频率重组的距离内的两个基因座称为相互“邻近的”。在一个方面，连锁标志物相互在100kb(其在人中约0.1cM，取决于局部重组率)，例如50kb或甚至20kb或更近的距离范围内。

当涉及两个遗传因子，如体现成瘾性的遗传因子和邻近的标志物之间的关系时，“偶联”期连锁表示其中性状基因座上＂有利的＂等位基因作为各自连锁标志物基因座的＂有利的＂等位基因而物理关联于相同染色体链上的时期。偶联期中，两种有利的等位基因通过继承该染色体链的子代一起遗传。“排斥”期连锁中，目的基因座的“有利的”等位基因(例如成瘾性易感性的QTL)与邻近的标志物基因座处“不利的”等位基因而物理连锁，并且这两个“有利的”等位基因并不一起遗传(即这两个基因座互相“不同相”)。

除了追踪基因组和相应的表达核酸和多肽中SNP和其它的多态性外，个体或群体之间mRNA或蛋白质形式的表1的基因产物表达水平的差异也可以与成瘾性相关联。因此，本发明的标志物可包括任何，例如基因组基因座、转录的核酸、剪接的核酸、表达的蛋白质、转录核酸的水平、剪接核酸的水平以及表达蛋白质的水平。

标志物扩增策略

用于扩增标志物(例如标志物基因座)的引物和检测所述标志物或根据多个标志物等位基因基因分型样品的合适的探针为本发明的特征。表1中，与技术人员在设计所述引物中可以很容易地使用的扩增子序列一起(可选择与已知的侧翼序列同时使用)，提供用于扩增的特异性基因座。例如，远程PCR的引物选择在2005年5月24日授权的美国专利6,898,531，题为＂Algorithms for Selection of Primer Pairs＂和2002年9月5日提交的USSN10/236,480中描述；短程PCR的引物选择在2003年1月14日提交的USSN10/341,832中描述并且提供引物选择的指导。此外，还有可用于引物设计的公众可得到的程序如“Oligo”。用所述可得到的引物选择和设计软件，公众可得到的人基因组序列和如提供于表1的多态性位置，技术人员可以设计引物扩增本发明的SNP。进一步，可以理解的是用于包含SNP的核酸(例如包含SNP的扩增子)检测的精确的探针可以不同，例如可鉴定所要检测的标志物扩增子区域的任何探针可与本发明结合使用。进一步，检测探针的构型当然可以不同。因此，本发明不限于此处列举的序列。

实际上，可以理解的是扩增并不是标志物检测必需的-例如可以只通过对基因组DNA样品进行Southern印迹而直接检测未扩增的基因组DNA。进行Southern印迹法、标准扩增(PCR、LCR等等)和许多其它的核酸检测方法的过程是沿用已久的并且例如在Sambrook等，Molecular Cloning-ALaboratory Manual(3rd Ed.)，Vol.1-3，Cold Spring Harbor Laboratory，ColdSpring Harbor，New York，2000(＂Sambrook＂)；Current Protocols in MolecularBiology，F.M.Ausubel等，eds.，Current Protocols，Greene PublishingAssociates，Inc.和John Wiley & Sons，Inc.之间合资的(在2002年增补)(＂Ausubel＂))和PCR Protocols A Guide to Methods and Applications(Innis等)Academic Press Inc.San Diego，CA(1990)(Innis)中教导。

在扩增/检测方法中，还可以例如通过进行实时扩增反应，其通过有关的扩增引物掺入产物、标记的核苷酸掺入扩增子的改进而检测产物形成，或通过监测扩增子相比未扩增的前体在分子旋转性质方面的变化(例如通过荧光偏振)而省略不同的检测探针。

通常，分子标志物通过本领域已知的任何建立的方法检测，包括但不限于，等位基因特异性杂交(ASH)、单个核苷酸延伸的探测、阵列杂交(任选地包括ASH)或用于检测单核苷酸多态性(SNP)的其它方法、扩增片段长度多态性(AFLP)检测、扩增的可变序列检测、随机扩增的多态性DNA(RAPD)检测、限制性片段长度多态性(RFLP)检测、自主序列复制检测、单序列重复(SSR)检测、单-链构象多态性(SSCP)检测、同功酶标志物检测、northern分析(其中表达水平用作标志物)、mRNA或cDNA的定量扩增等等。虽然此处图和表中提供的例证性的标志物为SNP标志物，任何上述标志物类型可应用于本发明上下文中以鉴定与成瘾性表型有关的连锁基因座。

用于标志物检测的例证性技术

本发明提供包括成瘾性表型QTL的分子标志物或连锁至成瘾性表型QTL的分子标志物。该标志物用于疾病倾向性诊断、预后、治疗等等中。本发明并不限于用于这些标志物检测的任何具体的方法。

对应于群体成员之间遗传多态性的标志物可通过本领域公认的许多方法检测(例如基于PCR的序列特异性扩增、限制性片段长度多态性(RFLP)、同功酶标志物、northern分析、等位基因特异性杂交(ASH)、基于阵列的杂交、扩增的基因组可变序列、自主序列复制、单序列重复(SSR)、单核苷酸多态性(SNP)、随机的扩增多态性DNA(“RAPD”)或扩增的片段长度多态性(AFLP))。另外的一个实施方案中，仅通过多态性标志物区域的核苷酸序列的测定确定分子标志物的存在或缺乏。任何这些方法很容易适合于高通量的分析。

用于检测遗传标记的一些技术利用探针核酸与对应于该遗传标记的核酸(例如利用基因组DNA作为模板产生的扩增的核酸)的杂交。包括但不限于：液相、固相、混合相或原位杂交分析的杂交形式可用于等位基因检测。Tijssen(1993)Laboratory Techniques in Biochemistry和Molecular BiologyHybridization with Nucleic Acid Probes Elsevier，New York，以及Sambrook、Berger和Ausubel中给出了核酸杂交的广泛指导。

例如，通过将通常为所要检测核酸的亚-片段(或对应于亚-片段的合成寡核苷酸)的探针与限制性内切酶酶切消化的基因组DNA杂交检测包含限制性片段长度多态性(RFLP)的标志物。选择限制性内切酶以提供不同个体或群体中至少两种可选择(或多态性)长度的限制性片段。确定产生标志物每个等位基因的大信息量片段的一种或多种限制性内切酶为本领域熟知的简单方法。在合适的基质(例如琼脂糖或聚丙烯酰胺)中通过长度分离以及转移至膜(例如硝酸纤维素、尼龙等等)后，标记的探针在导致探针均衡结合的条件下与靶标杂交，随后通过洗涤除去过量探针。

可克隆和/或合成标志物基因座的核酸探针。任何合适的标志物可和本发明的探针一起使用。适于和核酸探针一起使用的可检测的标志物包括，例如通过分光光度镜、放射性同位素、光化学、生化、免疫化学、电学、光学或化学方法可检测的任何组合物。有用的标志物包括用于用标记的链亲和素偶联物染色的生物素、磁珠、荧光染料、放射性标记、酶和比色标志物。其它的标志物包括用荧光团、化学发光试剂和酶标记的抗体的配体。探针还可以组成用于产生放射性标记的扩增子的放射性标记PCR引物。用于标记核酸的标记策略和相应的检测策略可在例如Haugland(2003)Handbook of Fluorescent Probes and Research Chemicals Ninth Edition byMolecular Probes，Inc.(Eugene OR)中找到。关于标志物检测策略的另外的细节如下。

基于扩增的检测方法

PCR、RT-PCR和LCR作为用于扩增目的核酸(例如包含标志物基因座的那些)的扩增和扩增-检测方法尤其具有广泛的应用，便于目的核酸的检测。关于这些和其它扩增方法的详述可在例如包括Sambrook、Ausubel和Berger的任何多种标准文献中找到。许多可得到的生物学文献还具有有关PCR和相关扩增方法的延伸论述。技术人员将理解基本上任何RNA可转化成适于限制性酶切消化、PCR扩充和利用逆转录酶和聚合酶测序(“逆转录-PCR或“RT-PCR”)的双链DNA-也参见上述Ausubel、Sambrook和Berger。这些方法还可以用于定量扩增mRNA或相应的cDNA，提供与例如个体中表1的基因或基因产物对应的mRNA表达水平的指标。个体、家族、系和/或群体之间这些基因的表达水平差异可用作成瘾性表型的标志物。

实时扩增/检测方法

在一个方面，例如利用分子信标或TaqMan^TM探针对此处所述的扩增混合物进行实时PCR或LCR。分子信标(MB)为寡核苷酸或PNA，其在合适的杂交条件下自杂交以形成茎和环结构。MB在寡核苷酸或PNA的末端具有标志物和猝灭剂；因此在允许分子内杂交的条件下，标志物通常通过猝灭剂淬火(或至少改变其荧光)。在MB不显示分子内杂交的条件下(例如当结合靶核酸时，例如在扩增期间结合至扩增子的区域)，MB标志物未淬灭。关于制备和利用MB的标准方法的详述已在文献中沿用已久并且MB可以从大量商品化的试剂来源中获得。也参见例如Leone等.(1995)＂Molecular beacon probes combined with amplification by NASBA enablehomogenous realtime detection of RNA.＂Nucleic Acids Res. 26：2150-2155；Tyagi and Kramer(1996)＂Molecular beacons：probes that fluoresce uponhybridization＂Nature Biotechnology 14：303-308；Blok and Kramer(1997)＂Amplifiable hybridization probes containing a molecular switch＂Mol Cell Probes 11：187-194；Hsuih等.(1997)＂Novel，ligation-dependent PCR assayfor detection of hepatitis C in serum＂J Clin Microbiol 34：501-507；Kostrikis等.(1998)＂Molecular beacons：spectral genotyping of human alleles＂Science279：1228-1229；Sokol等.(1998)＂Real time detection of DNA：RNAhybridization in living cells＂Proc.Natl.Acad.Sci.U.S.A.95：11538-11543；Tyagi等.(1998)＂Multicolor molecular beacons for allele discrimination＂Nature Biotechnology 16：49-53；Bonnet等.(1999)＂Thermodynamic basis ofthe chemical specificity of structured DNA probes＂Proc.Natl.Acad.Sci.U.S.A.96：6171-6176；Fang等.(1999)＂Designing a novel molecular beacon forsurface-immobilized DNA hybridization studies＂J.Am.Chem.Soc.121：2921-2922；Marras等.(1999)＂Multiplex detection of single-nucleotidevariation using molecular beacons＂Genet.Anal.Biomol.Eng.14：151-156；andVet等.(1999)＂Multiplex detection of four pathogenic retroviruses usingmolecular beacons＂Proc.Natl.Acad.Sci.U.S.A.96：6394-6399。关于MB构建和应用的另外的详述在专利文献中，例如Tyagi等.的USP 5,925,517(1999年7月20日)，题为＂Detectably labeled dual conformationoligonucleotide probes，assays and kits；＂Tyagi等.的USP 6,150,097(2000年11月21日)题为＂Nucleic acid detection probes having non-FRETfluorescence quenching and kits and assays including such probes＂和Tyagi等.的USP 6,037,130(2000年3月14日)，题为＂Wavelength-shifting probes andprimers and their use in assays and kits.＂。

还可根据本发明进行利用双-标记生成荧光的寡核苷酸探针的PCR检测和定量，其通常称为TaqMan^TM探针。这些探针由短的(例如20-25个碱基)的寡脱氧核苷酸组成，其用两种不同的荧光染料标记。每个探针5′末端上为报道分子染料，并且每个探针3′末端上为淬火染料。寡核苷酸探针序列与PCR扩增子中存在的内部靶序列互补。当所述探针为完整的时，两种荧光团之间发生能量传递并且来自报道分子的放射通过FRET猝灭剂淬火。PCR延伸期期间，所述探针由反应中所用的聚合酶的5′核酸酶活性裂解，由此从寡核苷酸-猝灭剂释放报道分子并且产生报道分子放射强度的提高。因此，TaqMan^TM探针为具有标志物和猝灭剂的寡核苷酸，其中标志物在扩增期间由扩增中所用的聚合酶的核酸外切酶作用释放。此提供合成期间扩增的实时测量。各种TaqMan ^TM试剂为市场上可买到的，例如从AppliedBiosystems(Division Headquarters in Foster City，CA)以及从各种专门供应商如Biosearch Technologies(例如黑洞猝灭剂探针)购买。关于双-标记探针策略的更多细节例如可在WO92/02638中找到。

其它类似的方法包括例如两种邻近杂交探针之间的荧光共振能量传递，例如利用U.S.6,174,670中所述的“LightCycler

”形式进行。

基于阵列的标志物检测

基于阵列的检测可利用市场上可买到的阵列进行，例如从Affymetrix(Santa Clara，CA)或其它的制造商购买。关于核酸阵列操作的综述包括Sapolsky等.(1999)＂High-throughput polymorphism screening and genotypingwith high-density oligonucleotide arrays.＂Genetic Analysis：Biomolecular Engineering 14：187-192；Lockhart(1998)＂Mutant yeast on drugs＂Nature Medicine 4：1235-1236；Fodor(1997)＂Genes，Chips and the Human Genome.＂FASEB Journal 11：A879；Fodor(1997)＂Massively Parallel Genomics.＂Science277：393-395；和Chee等.(1996)＂Accessing Genetic Information withHigh-Density DNAArrays.＂Science 274：610-614。由于基于阵列的检测固有的高-通量性质，基于阵列的检测为用于鉴定本发明样品中标志物的优选方法。

各种探针阵列已在文献中描述并且可用于本发明范围中用于检测与此处指出的表型相关的标志物。例如，DNA探针阵列芯片或更大的DNA探针阵列晶片(单独的芯片另外通过分解该晶片而获得)用于本发明的一个实施方案中。DNA探针阵列晶片通常包含玻璃晶片，其上置有高密度的DNA探针阵列(短的DNA片段)。每个这些晶片可容纳例如大约6000万个DNA探针，其用于识别更长的样品DNA序列(例如来自个体或群体，例如包含目的标志物)。样品DNA通过玻璃晶片上DNA探针组的识别通过DNA杂交发生。当DNA样品与DNA探针阵列杂交时，样品结合至与样品DNA序列互补的那些探针。通过评估个体的样品DNA与哪个探针更强烈地杂交，有可能确定已知核酸的序列在不在样品中，由此确定核酸中发现的标志物是否存在。还可以通过控制杂交条件以允许单个核苷酸的鉴别而用该方法进行ASH，例如用于SNP鉴定和用于对样品的一个或多个SNP进行基因分型。

使用DNA探针阵列获得等位基因信息通常包括下列常规步骤：DNA探针阵列的设计和制造、样品的制备、样品DNA杂交至阵列、杂交事件的检测和数据分析以确定序列。优选的晶片利用由半导体制造改编而来的方法制造以取得成本效率和高质量，并且例如可从Affymetrix，Inc of SantaClara，California得到。

例如，探针阵列可通过光-引导的化学合成方法制造，其结合固相化学合成与光刻制造技术，后者用于半导体工业中。利用一系列光刻屏蔽以限定芯片的陈列位置，随后为特定的化学合成步骤，该过程构建高-密度寡核苷酸阵列，其每个探针在阵列中的预定位置中。可在大玻璃晶片上同时合成多个探针阵列。该并行过程提高了可再现性并且有助于实现规模经济。

一旦制造，DNA探针阵列可用于获得关于目的标志物存在和/或表达水平的数据。DNA样品可用生物素和/或荧光报道基团通过标准的生化方法标记。标记的样品与阵列温育，并且该样品的片段与阵列上的互补序列结合或杂交。可洗涤和/或染色阵列以产生杂交模式。随后扫描阵列并且通过来自荧光报道基团的光辐射检测杂交的模式。以下实施例中有关于这些方法的另外的详述。由于阵列上每个探针的身份和位置已知，可确定施加于阵列的样品中DNA序列的性质。当这些阵列用于基因分型实验时，其可称为基因分型阵列。

分离所要分析的核酸样品，扩增并且通常用生物素和/或荧光报道基团标记。标记的核酸样品随后利用射流站和杂交烘箱与阵列温育。视检测方法的情况而定，可洗涤和/或染色或复染该阵列。杂交后洗涤和染色，该阵列插入扫描仪中，在其中检测杂交的模式。杂交数据作为来自已掺入标记核酸中的荧光报道基团的光辐射而收集，该核酸如今结合至探针阵列。最清楚匹配标记核酸的探针比那些错配的产生更强的信号。由于阵列上每个探针的序列和位置已知，通过互补性可鉴定施加于探针阵列的核酸样品的身份。

在一个实施方案中，两种DNA样品可分别标记并且与单组设计的基因分型阵列杂交。在这种方法中可从相同的物理阵列获得两组数据。可使用的标志物包括但不限于，cychrome、荧光素或生物素(杂交后稍晚用藻红蛋白-链亲和素染色)。双色标记在美国专利6,342,355中描述，在此通过引用全文引入。可扫描每个阵列使得同时检测来自两种标志物的信号，或可以扫描两次以分别检测每种信号。

通过扫描仪收集每个个体的全部标志物的强度数据，其检测标志物的存在。测量的强度为给定个体的样品中存在的具体标志物量的度量指示(取决于是否分析基因组或表达的核酸，个体中存在的等位基因的表达水平和/或拷贝数)。此可用于确定对于目的标志物个体是否为纯合的或杂合的。处理强度数据以提供相应的各种强度的标志物信息。

关于扩增的可变序列、SSR、AFLP、ASH、SNP和同功酶标志物的另外的详述

扩增的可变序列指相同的物种成员之间表现出高核酸残基可变性的扩增的基因组序列。所有生物体具有可变的基因组序列并且每个生物体(除克隆之外，例如克隆的细胞)具有不同的可变序列组。一旦鉴定，特定的可变序列的存在可用于预测表型的性状。优选，来自基因组的DNA充当用位于DNA可变序列侧翼的引物的扩增模板。扩增可变序列并且随后测序。

或者，自主序列复制可用于鉴定遗传标志物。自主序列复制指利用在基本等温的条件下体外指数复制的靶核酸序列扩增核酸的方法，其利用涉及逆转录复制的三种酶活性：(1)逆转录酶、(2)Rnase H和(3)依赖DNA的RNA聚合酶(Guatelli等.(1990)Proc Natl Acad Sci USA 87：1874)。通过借助cDNA中间体模拟RNA复制的逆转录策略，该反应积累原始靶标的cDNA和RNA拷贝。

扩增的片段长度多态性(AFLP)也可用作基因标志物。短语“扩增的片段长度多态性”指通过限制性核酸内切酶裂解前后扩增的选择的限制性片段。扩增步骤允许特定限制性片段更容易的检测。AFLP允许检测大量多态性标志物并且已用于遗传作图(Becker等.(1995)Mol Gen Genet 249：65；和Meksem等.(1995)Mol Gen Genet 249：74V)

等位基因-特异性杂交(ASH)可用于鉴定本发明的基因标志物。ASH技术基于短的、单链寡核苷酸探针与完全互补的单-链靶核酸的稳定退火。检测可以通过附着于探针的同位素或非-同位素的标志物完成。

对于每种多态性，两种或多种不同的ASH探针设计成除了多态性的核苷酸外具有相同的DNA序列。每种探针具有与一种等位基因序列的精确的同源性以使探针的范围可区分所有已知的另外的等位基因序列。每种探针杂交至靶DNA。在合适的探针设计和杂交条件下，所述探针和靶DNA之间的单-碱基错配将阻止杂交。如此，仅选择性探针的一种杂交至等位基因是纯合的或同质的靶样品。两种等位基因为杂合的或异质的样品将杂交至两种选择性的探针两者。

ASH标志物用作主要标志物，其中仅一种等位基因的存在或缺乏根据仅一种探针的杂交或杂交的缺乏而确定。可根据杂交的缺乏推断选择性的等位基因。ASH探针和靶分子为可选择地是RNA或DNA；靶分子为长度超过与探针互补的序列的任何长度的核苷酸；所述探针设计成能与DNA靶标的任一链杂交；探针的大小范围适应不同严谨度的杂交条件等等。

PCR允许从相对小体积的低浓度核酸中扩增ASH的靶序列。另外，基因组DNA的靶序列用限制性核酸内切酶消化并且通过凝胶电泳分离大小。杂交通常与结合至膜表面的靶序列发生，或如美国专利5,468,613所述，ASH探针序列可以结合至膜。

在一个实施方案中，通常通过利用PCR从基因组DNA扩增核酸片段(扩增子)、将扩增子靶DNA以点-斑点的形式转移至膜、将标记的寡核苷酸探针与扩增子靶标杂交并且通过放射自显影法观察杂交点而获得ASH数据。

单核苷酸多态性(SNP)是在单个核苷酸基础上组成序列差异的标志物。通常，该区别通过包含SNP的扩增子的差异迁移模式，例如在丙烯酰胺凝胶上检测。然而，检测的替代方式如杂交，例如ASH或RFLP分析也是合适的。

同功酶标志物可用作遗传标志物，例如用于追踪与在此的标志物连锁的同功酶标志物。同功酶为彼此氨基酸不同并且因此其核酸序列不同的酶的多个形式。一些同功酶为包含稍不同亚基的多聚体酶。其它的同功酶为多聚体或单体但已在氨基酸序列的不同位点从酶原裂解。可在蛋白水平鉴定和分析同功酶，或者可测定核酸水平不同的同功酶。在此情况下此处所述的任何基于核酸的方法都可用于分析同功酶标志物。

关于核酸扩增的另外的详述

如指出的，核酸扩增技术如PCR和LCR为本领域所熟知并且可用于本发明以扩增和/或检测目的核酸，如包含标志物基因座的核酸。通过所述体外方法，其包括聚合酶链式反应(PCR)、连接酶链式反应(LCR)Qβ-复制酶扩增和其它的RNA聚合酶介导的技术(例如NASBA)足以指导技术人员的技术的实例在以上指出的参考文献中，例如Innis、Sambrook、Ausubel和Berger另外的细节在以下文献中有描述：Mullis et al.(1987)U.S.PatentNo.4,683,202；Arnheim & Levinson(October 1，1990)C&EN 36-47；The Journal Of NIH Research(1991)3，81-94；(Kwoth et al.(1989)Proc.Natl.Acad. Sci.USA 86，1173；Guatelli et al.(1990)Proc.Natl.Acad.Sci.USA 87，1874；Lomell et al.(1989)J.Clin.Chem 35，1826；Landegren et al.，(1988)Science241，1077-1080；Van Brunt(1990)Biotechnology 8，291-294；Wu and Wallace，(1989)Gene 4,560；Barringer et al.(1990)Gene 89，117，and Sooknanan andMalek(1995)Biotechnology 13：563-564。通过PCR扩增大核酸的改进的方法，其用于定点克隆中，在Cheng等.(1994)Nature 369：684和其参考文献中进一步概括，其中可产生长达40kb的PCR扩增子。公开了远程PCR的方法，例如在美国专利6,898,531，2005年5月24日授权，题为＂Algorithms for Selection of Primer Pairs＂；美国专利申请10/236,480，2002年9月9日提交，题为＂Methods for Amplification of Nucleic Acids＂；和美国专利6,740,510，2004年5月24日授权，题为＂Methods for Amplification ofNucleic Acids＂。USSN 10/341,832(2003年1月14日提交)也提供了关于用于进行短程PCR的引物选择方法的详述。

蛋白质表达产物的检测

蛋白质，如由表1所列基因编码的蛋白质由核酸编码，该核酸包括含有与目的表型相关的标志物的那些核酸。用于描述分子生物学的基本范例，包括DNA表达(转录和/或翻译)为RNA及蛋白质的内容，参见，Alberts等(2002)Molecular Biology of the Cell.4 ^th Edition Taylor和Francis，Inc.，ISBN：0815332181(＂Alberts＂)，以及Lodish等(1999)Molecular Cell Biology. 4 ^th Edition W H Freeman & Co，ISBN：071673706X(＂Lodish＂)。因此，对应于表1基因蛋白质可作为标志物检测，例如，通过检测个体之间或群体之间不同的蛋白同种型(isotype)，或通过检测这样的目的蛋白(例如表1中基因的基因产物)的差异性存在、缺如或表达水平来实现上述检测。

各种蛋白检测方法是已知的，并且可用于区分标志物。除了上文的各个参考文献之外，各种蛋白质操作和检测方法为本领域所熟知，包括例如那些在R.Scopes，Protein Purification，Springer-Verlag，N.Y.(1982)；Deutscher，Methods in Enzymology Vol.182：Guide to Protein Purification，Academic Press，Inc.N.Y.(1990)；Sandana(1997)Bioseparation of Proteins，Academic Press，Inc.；Bollag等(1996)Protein Methods，2 ^nd EditionWiley-Liss，NY；Walker(1996)The Protein Protocols Handbook Humana Press，NJ，Harris和Angal(1990)Protein Purification Applications：A Practical Approach IRL Press at Oxford，Oxford，England；Harris和Angal Protein Purification Methods：A Practical Approach IRL Press at Oxford，Oxford，England；Scopes(1993)Protein Purification：Principles and Practice 3 ^rd EditionSpringer Verlag，NY；Janson和Ryden(1998)Protein Purification：Principles. High Resolution Methods and Applications，Second Edition Wiley-VCH，NY；and Walker(1998)Protein Protocols on CD-ROM Humana Press，NJ；以及在其中引用的参考文献中阐述的。关于蛋白质纯化和检测方法的另外的详述可在Sati nder Ahuja ed.，Handbook of Bioseparations，Academic Press(2000)中找到。

“蛋白质组”的检测方法，为同时检测许多蛋白的方法。这些方法可包括各种多维电泳法(例如二维凝胶电泳)、基于质谱法的方法(例如SELDI、MALDI、电喷射等等)或表面胞质团共振方法(surface plasmon reasonancemethod)。例如MALDI中，样品通常与合适的基质混合，置于探针表面并且通过激光解吸/电离检查。MALDI技术为本领域所熟知。参见，例如.美国专利5,045,694(Beavis等)、美国专利5,202,561(Gleissmann等)和美国专利6,111,251(Hillenkamp)。同样对于SELDI，第一等份样品与固相支持物-结合(例如基质-结合的)吸附剂接触。基质通常为探针(例如生物芯片)，其可用气相离子分光计置于可寻址的相互关系中。SELDI也是熟知的技术，并且已经应用于诊断蛋白质组。参见例如Issaq等.(2003)＂SELDI-TOF MS for Diagnostic Proteomics＂Analytical Chemistry 75：149A-155A。

通常，上述方法可用于检测蛋白质的不同形式(等位基因)和/或可用于检测个体、家族、系、群体等等之间蛋白质的不同表达水平(其可应归于等位差异)。当受控于环境因素时，表达水平的差异可以是目的基因QTL的不同等位基因的指示，即使编码差异表达的蛋白质本身相同。此发生在例如其中存在非编码区基因的多个等位形式时，例如如控制基因表达的启动子或增强子区域。因此，差异表达水平的检测可用作检测等位差异的方法。

在本发明的其它方面，包含与成瘾性表型相关的核酸的基因、与成瘾性表型相关的核酸不均衡连锁的基因、在与成瘾性表型相关的核酸控制下的基因，可呈现出差异性的等位基因表达。如此处所用的“差异性等位表达”指存在于细胞的单个基因的多种等位基因等位表达的定性和定量差异。因而，呈现差异性等位表达的基因可具有在相同的细胞/组织中与第二种等位基因相比在不同的时间或以不同水平表达的一种等位基因。例如，与成瘾性表型有关的等位基因可以比与成瘾性表型无关的等位基因更高或较低的水平表达，即使两者为相同基因的等位基因并且存在于相同的细胞/组织中。差异性等位表达和分析方法在2003年5月13日提交的美国专利申请10/438,184和2004年5月12日提交的美国专利申请.10/845,316中详细公开，两者题为＂Allele-specific expression patterns＂。与成瘾性表型的有关一种或多种核酸或其片段、衍生物、多态性、变体或互补体的差异性等位表达模式的检测是用于成瘾性表型易感性/抗性的预后和诊断性的；同样地，与成瘾性表型有关的一种或多种核酸或其片段、衍生物、多态性、变体或互补体的差异性等位表达模式的检测是成瘾性表型和/或成瘾性治疗结果的预后和诊断性的。

关于适于筛选的标志物类型的另外的详述

筛选用于关联此处表型的生物标志物可以是任何类型的标志物，其可通过筛选例如遗传标志物如基因座的等位变体(例如SNP)、表达标志物(例如mRNA和/或蛋白质的存在或定量)和/或同类标志物而检测。

所要用本发明的方法扩增、转录、翻译和/或检测的目的核酸基本上可以是任何核酸，不过源自人来源的核酸与和疾病诊断和临床应用有关的标志物的检测尤其相关。许多核酸和氨基酸(可通过反向翻译从其得到核酸序列)的序列为可得到的，包括表1的基因/蛋白质的序列。已知核酸的共同序列库包括

EMBL、DDBJ和NCBI。其它的库可通过查找互联网而很容易地鉴定。所要扩增、转录、翻译和/或检测的核酸可以是RNA(例如其中扩增包括RT-PCR或LCR、Van-Gelder Eberwine反应或Ribo-SPIA)或DNA(例如扩增的DNA、cDNA或基因组DNA)或甚至其任何类似物(例如对于其合成核酸或类似物的检测，例如其中目的样品包括或用于衍生或合成人工核酸)。个体或群体之间核酸序列或表达水平的任何变化可作为标志物检测，例如突变、多态性、单核苷酸多态性(SNP)、等位基因、同种型、RNA或蛋白质的表达等等。可以检测作为与成瘾性表型相关连的标志物的序列、表达水平或基因拷贝数的变化。

例如，本发明的方法可用于筛选源自患者样品的目的标志物核酸，所述样品例如来自体液(血液、唾液、尿等等)、组织和/或来自患者的排泄物。因此粪便、痰液、唾液、血液、淋巴、眼泪、汗、尿、阴道分泌物、精液等等可很容易地通过本发明的方法筛选其核酸，如基本上可以是包含合适的核酸的任何目的组织。这些样品通常在经同意后，通过标准的医学实验室方法从患者取得。

在纯化和/或检测包含标志物的核酸之前，任选将所述核酸通过任何可利用的方法从样品纯化，所述方法例如，如下文献记载的方法：Berger和Kimmel，Guide to Molecular Cloning Techniques，Methods in Enzymologyvolume 152 Academic Press，Inc.，San Diego，CA(Berger)；Sambrook et al.，Molecular Cloning-A Laboratory Manual(3rd Ed.)，Vol.1-3，Cold Spring HarborLaboratory，Cold Spring Harbor，New York，2001(“Sambrook”)；and/or Current Protocols in Molecular Biology，F.M.Ausubel et al.，eds.，Current Protocols，ajoint venture between Greene Publishing Associates，Inc.and John Wiley & Sons，Inc.，(supplemented through 2002)(“Ausubel”))。从细胞或其它样品纯化核酸的各种试剂盒可以从商业渠道直接购买(参见，例如EasyPrep^TM，FlexiPrep^TM，both from Pharmacia Biotech；StrataClean^TM，from Stratagene；and，QIAprep^TMfrom Qiagen)。或者，样品可简单地直接经过扩增或检测，例如在等份分装和/或稀释后直接扩增或检测。

标志物的实例包括多态性、单核苷酸多态性、样品中一种或多种核酸的存在、样品中一种或多种核酸的缺乏、一种或多种基因组DNA序列的存在、一种或多种基因组DNA序列的缺乏、一种或多种mRNA的存在、一种或多种mRNA的缺乏、一种或多种mRNA的表达水平、一种或多种蛋白质的存在、一种或多种蛋白质的表达水平和/或源自任何之前的或其组合的数据。基本上可利用有效的方法，例如利用提供高密度、高通量标志物作图的阵列技术检测许多标志物。因此，可同时或以连续的方式(或其组合)检测至少约10、100、1,000、10,000或甚至100,000或更多的遗传标志物，用于在第一个和/或第二个群体中关联至相关的表型。还可以预期检测标志物的组合，例如以鉴定群体中与表型相关联的遗传组合或表达模式组合。

如指出的，所要检测的生物标志物可以是任何可检测的生物组分。通常检测的标志物包括遗传标志物(例如存在于基因组DNA中的DNA序列标志物或其表达产物)和表达标志物(其可反映遗传编码因子、环境因素或两者)。标志物为表达标志物时，该方法可包括测定第一个体或群体的第一表达分布型(例如一种或多种表示标志物的，例如表达的标志物组)，并且将第一表达分布型与第二个体或群体的第二表达分布型比较。该实例中，将表达标志物与特定的表型关联可包括将第一或第二表达分布型与目的表型关联。

探针/引物的合成方法

通常，制备寡核苷酸，包括探针、引物、分子信标(beacon)、PNA，LNA(锁定的核酸)的合成方法是已知的。例如，可根据Beaucage和Caruthers(1981)，Tetrahedron Letts..22(20)：1859-1862所述的固相亚磷酰胺三酯物方法化学合成寡核苷酸，例如利用市场上可买到的自动合成器，如Needham-VanDevanter等.(1984)Nucleic Acids Res.，12：6159-6168中所述的。包含修饰的寡核苷酸的寡核苷酸还可以从技术人员所知的各种商品化来源定购。已有寡聚物合成服务的许多商品化供应者，并且因此其为广泛可获得的技术。任何核酸可从任何各种商品化的来源定购，例如TheMidland Certified Reagent Company(mcrc@oligos.com)、The Great AmericanGene Company(www.genco.com)，ExpressGen Inc.(www.expressgen.com)、Operon Technologies Inc.(Alameda，CA)和许多其它的公司。同样，PNA可从任何各种来源定购，例如PeptidoGenic(pkim@ccnet.com)，HTIBio-products，inc.(htibio.com)、BMA Biomedicals Ltd(U.K.)，Bio-Synthesis，Inc.，和许多其它的公司。

计算机标志物检测

一些实施方案中，计算机方法可用于检测目的标志物基因座。例如，包含目的标志物基因座的核酸序列可贮存在计算机中。可利用合适的核酸检索算法鉴定所想要的标志物基因座序列或其同系物，所述算法例如以很容易得到的程序如BLAST或甚至简单的文字处理机中提供。已经测序完整的人基因组并且因此序列信息可用于鉴定标志物区域、侧翼核酸等等。

用于标志物检测的扩增引物

一些优选实施方案中，本发明的分子标志物利用合适的基于PCR的检测方法检测，其中PCR扩增子的大小或序列为标志物缺乏或存在的指示(例如特定的标志物等位基因)。这类方法中，PCR引物杂交多态性标志物区域侧翼的保守区域。

可以理解的是可利用任何合适的方法设计用于本发明的合适的引物。并不希望本发明限于任何具体的引物或引物对。例如，可利用任何合适的软件程序，例如

在例如考虑公众可得到的序列信息后设计引物。

一些实施方案中，本发明的引物为放射性标记的，或通过任何合适的方法标记的(例如利用非放射性的荧光素标签)以允许在扩增反应后没有任何另外的标记步骤或显影步骤时不同大小的扩增子的快速显影。一些实施方案中，不标记引物，并且根据其大小分辨率例如用琼脂糖或丙烯酰胺凝胶电泳显现扩增子。一些实施方案中，PCR扩增子根据大小分辨率的溴化乙锭染色允许不同大小扩增子的显影。

并不希望本发明的引物限于生成任何特定大小的扩增子。例如，用于扩增此处标志物基因座和等位基因的引物不限于扩增相关基因座的整个区域。该引物可产生任何合适长度的扩增子。一些实施方案中，标志物扩增产生至少20个核苷酸长的扩增子，或者至少50个核苷酸长、或者至少100个核苷酸长、或者至少200个核苷酸长。

用于定点克隆的标志物的检测

一些实施方案中，核酸探针用于检测包含标志物序列的核酸。所述探针可例如用于定点克隆以分离连锁标志物核苷酸序列的核苷酸序列。并不希望本发明的核酸探针限于任何特定的大小。一些实施方案中，核酸探针为至少20个核苷酸长、或者至少50个核苷酸长、或者至少100个核苷酸长、或者至少200个核苷酸长。

取决于所要检测的标记，利用放射自显影法、荧光显影或其它类似的检测技术检测杂交探针。特定的杂交方案的实例可在本领域中广泛得到，参见，例如本申请说明书中Berger、Sambrook和Ausubel所述文献，此处所有的。

转基因细胞的产生

本发明还提供用对应于本发明鉴定的QTL的核酸转化的细胞。例如，所述核酸包括染色体间隔(例如基因组片段)、ORF和/或cDNA，其编码对应于或连锁于成瘾性表型的QTL的基因。另外，本发明提供影响成瘾性表型的多肽产物。此例如可用于预防、预测或治疗成瘾性，并且用于产生转基因细胞。这些细胞提供具有影响有关表型的确定基因商业上有用的细胞系，由此提供筛选潜在的表型调节剂的平台，以及每种目的基因作用机理的基础研究平台。此外，基因治疗可用于将合乎需要的基因导入个体或其群体中。所述基因疗法可用于提供通过个体呈现的病症的治疗，或可用作预防处于风险中的个体所述病症发生的预防方法。可产生此处指出的任何基因的基因敲除动物，如基因敲除小鼠以进一步鉴定基因对表型的作用。同样，例如通过基因敲除此处任何天然的基因和导入(例如通过同源重组)人(或其它物种)基因至动物中，重组小鼠或其它的动物可用作人疾病的模型。调节剂对异源人基因和基因产物的作用可随后在得到的体内模型动物系统中监测。

描述用于克隆和核酸操作以及编码的多肽产生的分子生物技术的一般文本包括Berger和Kimmel，Guide to Molecular Cloning Techniques，Methods in Enzymology volume 152 Academic Press，Inc.，San Diego，CA(Berger)；Sambrook et al.，Molecular Cloning-A Laboratory Manual(3rd Ed.).Vol.1-3，Cold Spring Harbor Laboratory，Cold Spring Harbor，New York，2001(＂Sambrook＂)和Current Protocols in Molecular Biology，F.M.Ausubel et al.，eds.，Current Protocols，a joint venture between Greene Publishing Associates，Inc.and John Wiley & Sons，Inc.，(supplemented through 2004 or later)(＂Ausubel＂))。这些文本描述例如与包含目的核酸的克隆产生有关的诱变、载体、启动子和许多其它相关主题的使用，目的核酸为例如与标志物基因座分离的基因、标志物基因座、标志物探针、QTL等等。

宿主细胞为用本发明的载体(例如载体，如包含源自或与QTL有关的的ORF的表达载体)遗传工程改造的(例如转导、转染、转化等等)，本发明的载体可以为例如克隆载体、穿梭载体或表达载体。所述载体为例如质粒、噬菌粒、土壤杆菌、病毒、裸多核苷酸(线性或环形)或偶联的多核苷酸形式的。尤其为了增殖和扩增的目的，载体可导入细菌中。关于核酸导入方法的另外的详述在下文Sambrook、Berger和Ausubel中。将本发明的核酸导入宿主细胞的方法并不是本发明的关键，并且并不希望本发明限于将外源遗传物质导入宿主细胞中的任何具体的方法。因此可采用和与本发明一起使用任何合适的方法，例如包括但不限于此处提供的方法，其使得核酸有效导入细胞或原生质体中。

工程改造的宿主细胞可在常规培养基中培养，其酌情因所述活性如，例如活化启动子或选择转化体而改进。除了Sambrook、Berger和Ausubel之外，所有下文，Atlas和Parks(eds)The Handbook of Microbiological Media(1993)CRC Press，Boca Raton，FL和可得到的商业文献如来自Sigma-Aldrich，Inc(St Louis，MO)(＂Sigma-LSRCCC＂)的Life Science Research Cell Culture Catalogue(2004)提供另外的详述。

制备基因敲除动物和转基因动物

转基因动物为用于研究基因功能和检验假定的基因或基因产物调节剂的有用的工具。人(或其它选择的物种)基因此处可导入而代替实验动物的内源基因，使得其能够在很容易操作和研究的实验动物中研究人(或其它的，例如家畜)基因或基因产物的功能。

可以理解的是不同动物中同源基因之间不会总是存在对调节剂应答的精确的对应，其使得能够在尤其有用的实验动物中研究人或其它目的物种。虽然可在组织培养中进行类似的遗传操作，完整的生物体中基因和基因产物的相互作用提供比在简单的基于细胞的筛选分析中可取得的所述基因和基因产物更全面的和生理学相关的阐述。因此，本发明的一个特征为包含目的异源基因，例如表1中的基因的转基因动物的产生。

通常，所述转基因动物只不过是已将合适的基因(或部分基因，例如包含偶联启动子的编码序列)人工导入其一种或多种细胞的动物。此为最常进行的两种方式的一种。第一，DNA可通过将其注入受精卵原核中而随机整合。在这种情况下，DNA可整合在基因组的任何地方。该方法中，不需要注入的DNA和宿主基因组之间的同源性。第二，可通过将(异源的)DNA导入胚胎干(ES)细胞并且选择其中异源DNA已与细胞基因组的同源序列进行同源重组的细胞而完成靶向插入。通常，异源DNA和基因组DNA之间存在几kb的同源性，并且阳性筛选标志物(例如抗生素抗性基因)包括在异源DNA中以提供转化体的选择。此外，阴性筛选标志物(例如“毒性”基因如核酸酶BN(barnase))可用于选择已通过非-同源重组(随机插入)引入DNA的细胞。

DNA靶向插入的一种常见用途为制备基因敲除小鼠。通常，同源重组用于将由组成型启动子的驱动的可选择的基因插入希望破坏的基因的必要外显子中(例如第一编码外显子)。为了实现此，可筛选的标志物的侧翼为DNA大片段，该片段与所需插入点周围的基因组序列匹配。一旦构建体电穿孔进入ES细胞，细胞的自身结构进行同源重组。为了能够选择通过非同源重组引入DNA的ES细胞，常见的是靶向构建体在想要经重组的区域外部包含可负选择的基因(通常在邻近基因组同源性两个区域的更短的区域克隆该基因)。由于位于基因组同源性区域外部的DNA在同源重组期间丢失，不能选择经同源重组的细胞，而常常可以选择经DNA随机整合的细胞。用于负选择的常用基因为疱疹病毒胸苷激酶基因，其赋予对药物丙氧鸟苷(gancyclovir)的敏感性。

如果需要，在正选择和负选择后，根据构建体是否掺入了正确的基因组基因座筛选ES细胞克隆。通常，设计靶向构建体以使在Southern印迹或PCR扩增后通常可见的条带由当同源重组发生时预计大小的条带代替。由于ES细胞为二倍体，通过重组事件通常改变仅仅一个等位基因，所以当合适的靶向发生时，通常可见代表野生型和靶向等位基因两者的条带。

用于靶向插入的胚胎干(ES)细胞源自胚囊内细胞团(inner cell massesofblastocytes)(早期的小鼠胚胎)。这些细胞为多能性的，表示其可以发展成为任何组织类型。

一旦阳性ES克隆长大并且冷冻，可以开始产生转基因动物。交配供体雌性，收集胚囊并且将一些ES细胞注入每个胚囊中。胚囊随后移植入每个受体的子宫角。通过选择合适的供体系，可简单地观察毛发和/或眼睛的颜色而检测嵌合子代(即其中组织的某部份源自转基因ES细胞的那些)。如果转基因ES细胞对种系(精子或卵)没有做出贡献，则转基因不能传递至子代。

将标志物与表型关联

本发明的一个方面为如表1表明的多态性和成瘾性表型之间相关性的描述。这些相关性的了解可用于本发明以将确定个体或样品具有的多态性组的信息与其可能呈现的表型关联。进一步，还可对与表型的相关性评估一种或多种不同基因中等位基因组合所致的更高级的相关性。

这些相关性可通过能确定等位基因和表型，或等位基因组合和表型组合之间相互关系的任何方法进行。例如，表1中一种或多种基因或基因座的等位基因可与一种或多种成瘾性表型相关连。最常见地，这些方法包括对照包含多态性等位基因和表型之间相关性的查阅表。该表可包括多种等位基因-表型相互关系的数据并且可考虑附加物或其它多种等位基因-表型相互关系的更高级的作用，例如通过使用如主成分分析(principle componentanalysis)、启发式算法(heuristic algorithms)等等的统计工具。

标志物与表型的关联任选地包括进行一种或多种统计学相关检验。许多统计学检验是已知的，并且大多数为便于分析的计算机-执行的。测定表型性状和生物标志物之间关联/相关的各种统计方法是已知的并且可用于本发明中。对于该主题的介绍，参见，Hartl(1981)A Primer of Population Genetics Washington University，Saint Louis Sinauer Associates，Inc.Sunderland，MA ISBN：0-087893-271-2。各种合适的统计模式在Lynch和Walsh(1998)Genetics and Analysis of Quantitative Traits.Sinauer Associates，Inc.Sunderland MA ISBN 0-87893-481-2中描述。例如可提供这些模型用于基因型和表型值之间的关联，鉴定基因座对表型的影响，归类环境和基因分型之间的相互关系，确定基因的显性或外显率(penetrance)，确定母系和其它的后生效应(epigenetic effects)，确定分析中的主要组分(通过主成分分析，或“PCA”)等等。这些文本中引用的参考文献提供对用于关联标志物和表型的统计模式更进一步的详述。

除用于确定相关性的标准统计方法之外，通过模式识别和训练，如通过利用遗传算法确定相关性的其它方法可用于确定标志物和表型之间的相关性。这在鉴定多个等位基因和多种表型之间的更高级相关性时尤其有用。举例说明，神经网络(neural network)方法可与遗传算法型程序结合用于结构-功能数据空间模型的启发式开发，该模型确定遗传信息和表型结果之间的相关性。例如，NNUGA(利用遗传算法的神经网络)为可得到的程序(例如在万维网cs.bgu.ac.il/～omri/NNUGA)其联结神经网络和遗传算法。神经网络的介绍可例如在Kevin Gurney，An Introduction to Neural Networks.UCLPress(1999)和万维网上shef.ac.uk/psychology/gurney/notes/index.html中找到。另外有用的神经网络参照包括以上指出的遗传算法和例如，Bishop，Neural Networks for Pattern Recognition，Oxford University Press(1995)，和Ripley等，Pattern Recognition and Neural Networks.Cambridge UniversityPress(1995)。显示包括某些统计分析的例证性数据组的两个表在附件1中呈现。具体地，表1显示设计成能鉴定与成瘾性有关的遗传基因座的关联研究的数据，表2显示将各种成瘾性表型与＂案例状态＂即至少一种成瘾性发生率关联的关联研究的数据。这些数据在下文进一步讨论。

对了解利用和建立相关性、分析的主要组分、神经网络模型等等的数据分析应用有用的另外的参考文献包括，例如，Hinchliffe，Modeling Molecular Structures.John Wiley and Sons(1996)，Gibas and Jambeck，Bioinformatics Computer Skills，O′Reilly(2001)，Pevzner，Computational Molecular Biology and Algorithmic Approach.The MIT Press(2000)，Durbin等，Biological Sequence Analysis：Probabilistic Models of Proteins and Nucleic Acids，Cambridge University Press(1998)，and Rashidi and Buehler，Bioinformatic Basics：Applications in Biological Science and Medicine.CRCPress LLC(2000)。

总之，基本上任何统计检验可通过标准编程方法或利用任何各种进行所述统计分析的现成的软件包应用于计算机执行模型中，软件包包括例如，以上指出的那些和市场上可买到的那些，例如来自Partek Incorporated(St.Peters，Missouri；www.partek.com)，例如，提供用于模式识别软件(例如提供Partek Pro 2000模式识别软件)的那些，其可用于多元数据分析、交互显现、变量选择、神经网络&统计模型化等等的遗传算法。例如可通过制作分布图和双标图的主成分分析(PCA)、制作分布图、星型图的多维分级(MDS)等等分析相互关系。进行相关分析的可用的软件包括SAS、R和MathLab。

无论是多态性或表达模式的标志物可用于任何各种遗传分析。例如，一旦鉴定标志物，如在目前的情况下，其可用于关联研究的大量不同分析。例如，可设计查询这些标志物的微阵列的探针。其它的例证性分析包括，例如上文所述的Taqman分析和分子信标分析，以及常规的PCR和/或测序技术。一旦在群体中鉴定标志物(例如SNP为基因分型的)，该信息可用于多重关联研究。所述使用可通过标志物和表型信息贮存入数据库中而变得容易，该数据库日后可以用于补充分析而进入。

关于关联研究的另外的详述可在美国专利6,969,589，2005年11月29日授权，题为＂Methods for Genomic Analysis；＂美国专利6,897,025，2005年5月24日授权，题为＂Genetic Analysis Systems and Methods；＂USSN10/286,417，2002年10月31日提交，题为＂Methods for Genomic Analysis；＂USSN 10/768,788，2004年1月30日提交，题为＂Apparatus and Methods forAnalyzing and Characterizing Nucleic Acid Sequences；＂USSN 10/447,685，2003年5月28日提交，题为＂Liver Related Disease Compositions andMemods；＂USSN 10/970,761，2004年10月20日提交，题为＂Analysis Methodsand Apparatus for Individual Genotyping；＂USSN 10/956,224，2004年9月30日提交，题为＂Methods for Genetic Analysis；＂以及USSN 60/722,357，2005年9月30日提交，题为＂Methods and Compositions for Screening andTreatment of Disorders of Blood Glucose Regulation.＂中找到。

一些实施方案中，标志物数据用于进行关联研究以呈现标志物和表型之间的相关性。此可通过测定具有目的表型的个体(即呈现目的表型的个体或群体)中标志物的特征并且将这些个体中标志物的等位基因频率或其它的特征(表达水平等等)与对照组个体中等位基因频率或其它的特征比较而实现。所述标志物测定可在基因组范围的基础上进行，或可集中在基因组的特定区域上(例如目的单倍型区段)。在一个实施方案中，评估连锁表1中基因或基因座的标志物与一种或多种特定表型的相关性。

除了此处公开的本发明方法的另一个实施方案之外，该方法另外允许表型的“分离(dissectiom)”。也就是说，具体的表型可由两种或多种不同的遗传基础产生。例如，一个个体中的易感性表型可以是表1中基因“缺陷”的结果(或只是具体的等位基因-关于易感性表型的“缺陷”与上下文相关，例如不管该表型在给定环境的个体中是合乎需要或不合需要的)，而不同个体中相同的基本表型可以是表1中多个基因多重＂缺陷＂的结果。因此，扫描多个标志物(例如基因组或单倍型区段扫描)允许类似(或渐变(graduated))表型不同遗传基础的分离(dissection)。在一个方面，所述分离允许更个性化的治疗，因为具有相同临床表型的两个不同的患者可能具有体现对治疗差别应答的不同的基因分布型。因而，包括其基因分型分析的个体的诊断可用于确定合适的治疗方案。例如，具有给定表型(例如成瘾史)和表1中的一种或多种SNP或紧密连锁其的SNP具体基因分型的第一个体组可能对医学治疗(例如包括“药物X”的给药)具有非常有效的应答，而具有相同的表型但表1中一种或多种SNP不同基因分型的第二个体组反而所述对治疗产生不良的副作用(例如失眠、增重、抑郁等等)。本发明的标志物可用于关联分析中以区分治疗之前的第一组个体和第二组个体，由此区分哪些人可能受益于所述治疗以及鉴定哪些人可能经历另一种治疗的副作用。这些方法例如在2004年9月30日提交的USSN 10/956,224，题为＂Methods forGenetic Analysis，＂以及2005年3月3日提交的PCT申请US2005/007375，题为＂Methods for Genetic Analysis＂中更详细地讨论。

如上所述，进行关联研究的一种方法为将具有目的表型的个体中(“案例组”)标志物的等位基因频率(或表达水平)与对照组个体中该等位基因的频率比较。在一种方法中，提供信息的SNP用于产生SNP单倍型模式对比(“提供信息的SNP”为遗传SNP标志物，如易于从其它的SNP、基因组或单倍型模式区分一种SNP或基因组或单倍型模式的基因组或单倍型区段中的SNP或SNP子集(超过一种))。利用提供信息的SNP的方法具有超过本领域已知的其它全基因组扫描或基因分型方法的优点，其不读取每个个体基因组的所有30亿个碱基-或甚至读取可能找到的3-4百万常见的SNP-仅需要检测来自预测定群体样品的提供信息的SNP。如上所述，读取这些具体的、提供信息的SNP提供充分的信息以允许从特定的实验群体提取统计上准确的关联数据。

因此，确定遗传关联的一种方法的实施方案中，对不呈现该表型的对照群体的基因组测定提供信息的SNP的等位基因频率。还对显示该表型的群体的基因组测定提供信息的SNP的等位基因频率。比较提供信息的SNP等位基因频率。例如可通过确定每种群体中每个提供信息的SNP位点处等位基因的频率(群体中具体等位基因的例子数除以等位基因总数)并且比较这些等位基因频率来进行等位基因频率比较。选择在对照对比案例群体/组中呈现等位基因出现频率之间差异的提供信息的SNP用于分析。一旦选择出提供信息的SNP，鉴定包含该提供信息的SNP的SNP单倍型区段(block)，随后鉴定与所述表型有关的目的基因组区域。所述基因组区域可通过本领域已知的遗传或任何生物学方法分析，例如用作药物发现靶标或诊断标志物。

本发明的另一实施方案中，不止或除了将SNP分类为单倍型区段和模式之外，连锁不均衡(LD)作图用于分类用于关联研究的SNP。相互紧密邻近的SNP常常强烈关联，但该相关性结构或LD是复杂的并且在基因组的一个区域至另一个区域，以及在不同群体之间不同。鉴定包含连锁SNP的“LD仓(LD bin)”后，能够通过读取(例如基因分型)来自每个LD仓的仅一个或几个SNP而确定另外个体的序列，因为这些SNP预示LD仓中其它SNP基因的分型。至于基于单倍型模式的方法，所述预示性SNP称为＂提供信息的SNP(informative SNP)＂。用于LD模式测定和使用的方法例如在Hinds，等(2005)＂Whole-Genome Patterns of Common DNA Variation in ThreeHuman Populations＂，Science 307：1072-1079中提供。

用于鉴定成瘾性表型的系统

用于进行上述相关性的系统也是本发明的特征。通常，该系统包括将等位基因的存在或缺乏(不管直接检测的或例如通过表达水平检测的)与预测的表型关联的系统指令。系统指令可比较关于等位基因序列或表达水平的检测信息与包含等位基因和相关表型之间相关性的数据库。如上所述，该数据库可以是多维的，由此包含等位基因组合和相关的表型之间更高级的相互关系。这些相互关系可以存储在许多查阅表中，例如采取电子数据表(例如Excel^TM电子数据表)或数据库如Access^TM，SQL^TM，Oracle^TM，Paradox^TM，或类似的数据库的形式。该系统包含用于例如通过自动或用户界面输入涉及等位基因检测信息的样品-特定信息以及用于将该信息与查阅表比较的物质。

任选地，该系统指令还可以包含接受与任何检测的等位基因信息有关的诊断信息的软件，例如具有相关等位基因的主体具有特定表型的诊断。该软件事实上可以是启发式的，利用所述输入的关联以提高查阅表和/或查阅表经该系统解释的准确性。包含神经网络、马尔可夫模型化(Markovmodeling)和其它的统计分析的各种所述方法如上所述。

本发明提供用于检测一种或多种可检测遗传标志物(例如包含一种或多种生物分子探针、检测器、液体处理机等等的一种或多种阵列)的数据采集模件。所述数据采集模件的生物分子探针可包括适于检测生物标志物例如寡核苷酸探针、蛋白质、适体、抗体等等的任何物质。这些可包括样品处理机(例如液体处理机)、机器人、微流体系统、核酸或蛋白质纯化模块、阵列(例如核酸阵列)、检测器、热循环仪或其组合，例如用于获得样品、稀释或等分样品、纯化标志物材料(例如核酸或蛋白质)、扩增标志物核酸、检测扩增的标志物核酸等等。

例如，可加入此处系统的自动化装置已用于评估各种生物现象，包括例如，基因响应选择的刺激的表达水平(Service(1998)＂Microchips ArraysPut DNA on the Spot＂Science 282：396-399)、高通量DNA基因分型(Zhang等.(1999)＂Automated and Integrated System for High-Throughput DNAGenotyping Directly from Blood＂Anal.Chem.71：1138-1145)和许多其它的现象。同样，用于进行混合实验、DNA扩增、DNA测序等等的集成系统也是可利用的。参见例如，Service(1998)＂Coming Soon：the Pocket DNASequencer＂Science 282：399-401。各种自动化系统部件可从例如CaliperTechnologies(Hopkinton，MA)，which utilize various Zymate systems得到，其通常包括例如机器人和流体处置模块。同样，常见的

机器人也是市场上可买到的，例如购自Beckman Coulter，Inc(Fullerton，CA)，其用于各种实验室系统，例如用于微量滴定盘操作。同样，可用作本发明系统部件的市场上可买到的微流体系统包括来自Agilent technologies和CaliperTechnologies的那些。此外，专利和技术文献包括许多微流体系统的实例，包括可直接与用于自动流体处置的微量平皿连接的那些。

任何各种液体操作和/或阵列结构可用于此处的系统中。用于此处系统中的一种常见的形式为微量滴定板，其中阵列或液体处理机包括微量滴定盘。所述盘为市场上可买到的并且可以以各种孔的大小和每一盘的孔数目，以及与用于结合分析或阵列部件的任何各种功能化表面一起定购。常见的盘包括普遍存在的96孔平皿，384和1536孔平皿也是常用的。样品可在所述盘中处理，所有处理步骤在该盘中进行。样品还可以在微流体装置或微量滴定和微流体装置的组合中处理。

除了液相阵列之外，组分可存储在或在固相阵列上分析。这些阵列以在固体基质如膜(例如尼龙或硝酸纤维素)、聚合物或陶器表面、玻璃或修饰的硅石表面、金属表面等等上空间可接近的模式(例如行和列的网格)固定材料。组分可例如通过杂交、通过局部再水合(例如利用移液管或其它的流体处置元件)和流体转移或通过剪下阵列或切下阵列上的目的位点而获取。

该系统还可以包括检测装置，其利用此处指出的任何方法检测等位基因信息。例如，配置以检测实时PCR产物的检测器(例如光检测器，如荧光检测器)或阵列读取器可加入该系统中。例如，可配置检测器以检测来自包含目的等位基因的杂交或扩增反应的光辐射，其中该光辐射为该等位基因存在或缺乏的指示。任选地，提供检测器和包含以上指出的系统指令的计算机之间的可操作连接，允许所检测等位基因-特定的信息自动输入计算机，其可例如存储数据库信息和/或执行系统指令以将所检测的等位基因特定信息与查阅表对照。

用于产生通过检测器检测的信息的探针也可以与利用该探针检测扩增子的任何其它硬件或软件一起引入该系统内。这些可包括热循环仪元件(例如进行通过探针检测的等位基因的PCR或LCR扩增)、其上有探针排列和/或杂交的阵列等等。以上指出用于处理样品的流体处理元件可用于将样品材料(例如所要检测的模板核酸和/或蛋白质)、引物、探针、扩增子等等移动而彼此接触。例如，该系统可包括配置以检测与表型有关的一种或多种基因或连锁基因座的至少一种等位基因的标志物探针或引物组，其中该基因编码表1中的多态性(例如列于表1的基因)。设置检测器模块以检测来自标志物探针或引物组，或由该标志物探针或引物组产生的扩增子的一种或多种信号输出，由此鉴定等位基因的存在或缺乏。

所要分析的样品任选为系统的一部分，或可以考虑与之分离。如此处指出的，样品任选包括例如，基因组DNA、扩增的基因组DNA、cDNA、扩增的cDNA、RNA、扩增的RNA、蛋白质等等。在一个方面，样品源自哺乳动物如人患者。

任选地，提供用于与用户连接的系统部件。例如，系统可包括用于观看计算机-执行系统指令的输出的用户可观察的显示器，用于输入用户命令和激活该系统的用户输入装置(例如键盘或点击装置如鼠标)等等。通常，目的系统包括计算机，其中各种计算机-执行系统指令包含在计算机软件中，例如存储在计算机可读介质上。

标准桌面应用程序如文字处理软件(例如，Microsoft Word^TM或CorelWordPerfect^TM)和数据库软件(例如电子数据表软件如Microsoft Excel^TM，Corel Quattro Pro^TM，或数据库程序如Microsoft Access^TM或Sequel^TM，Oracle^TM，Paradox^TM)可通过输入对应于此处等位基因或等位基因和表型之间关联的字符串而用于本发明。例如，所述系统可包括具有合适的字符串信息(例如与用户界面(例如标准操作系统如Windows、Macintosh或LINUX系统中的GUI)同时使用以操作字符串)的软件。专业的序列对比程序如BLAST也可以纳入本发明系统中用于核酸或蛋白质(或对应的字符串)的比对，例如用于鉴定和联系多个等位基因。

如指出的，系统可包括具有合适的数据库和本发明的等位基因序列或相关性的计算机。用于比对序列的软件，以及被纳入包含此处任何序列的软件系统的数据组，可以是本发明的特征。计算机可以是例如，PC(Intel x86或基于Pentium芯片-兼容的DOS^TM，OS2^TM WINDOWS^TM WINDOWSNT^TM，WINDOWS95^TM，WINDOWS98^TM，WINDOWS2000，WINDOWSME，或LINUX的机器、MACINTOSH^TM，Power PC，或基于UNIX(例如SUN^TM工作站、或基于LINUX的机器)或技术人员已知的其它商业上常见的计算机。输入和排列或操作序列的软件是可得到的，例如BLASTP和BLASTN，或可以通过技术人员利用标准程序语言如Visualbasic、Fortran、Basic、Java等等很容易地构建。

鉴定调节剂的方法

除了提供用于鉴定成瘾性倾向性等的各种诊断和预后标志物外，本发明还提供鉴定成瘾性表型调节剂的方法。该方法中，潜在的调节剂与对应于表1中基因座的相关蛋白质接触，或与编码所述蛋白质的核酸接触。检测潜在的调节剂对基因或基因产物的作用，由此鉴定该潜在的调节剂是否是调节该表型的分子基础。

此外，该方法可包括例如，将一种或多种假定的调节剂给予呈现相关表型的个体并且测定假定的调节剂是否例如在临床试验或治疗范围内调节个体表型。随后确定假定的调节剂是否为临床上有效的。

调节剂接触的基因或基因产物可包括此处指出的任何等位形式。与不想要的表型正相关的等位形式，无论是基因、RNA或蛋白质，为用于调节剂筛选的优选靶标。

筛选的目的作用包括：(a)调节剂存在时表1中基因或基因产物增强或降低的表达；(b)表1中基因和/或其RNA或蛋白质产物表达时间或位置的改变，或者改变的表达模式；(c)调节剂存在时表1中基因的基因产物增强或降低的活性；(d)调节剂存在时表1的基因座编码的RNA和/或蛋白质定位的改变，或者改变的表达模式。

当然，调节剂筛选的精确形式将取决于所要检测的作用和可用的设备而不同。Northern分析、定量RT-PCR和/或基于阵列的检测形式可用于区别以上指出的基因的表达水平或模式。还可以利用有效的方法检测蛋白质表达水平，如Western印迹法、ELISA分析、抗体杂交、BIAcore等等。任何这些方法可用于区分由潜在的调节剂产生的表1的基因座或由其编码的RNA或蛋白质表达水平的变化。

因此，可以根据活性或表达筛选表1的基因和/或由其编码的RNA和蛋白质的潜在调节剂。例如，潜在的调节剂(小分子、RNA(例如RNAi)、有机分子、无机分子、蛋白质、激素、转录因子等等)可接触包含目的等位基因和对对应于表1中基因、RNA或蛋白质的活性或表达(或两者)作用的细胞。例如，可例如通过northern分析或定量(可任选实时定量)RT-PCR在潜在的表达调节剂施加前后检测表1的任何基因的表达。同样，各种基因的启动子区域(例如通常在转录起始位点区域的序列，例如在起始位点的5KB内，例如在起始位点的1KB或更小例如500BP内或250BP或100BP内)可联结报告构建体(CAT、β-半乳糖苷酶、荧光素酶或任何其它有效的报道分子)并且同样可检测潜在调节剂的表达活性调节作用。在两种情况下，可以例如利用以连续或并行方式的自动流体处置和/或检测系统以高-通量的方式进行分析。同样，可通过将潜在的调节剂与合适的细胞接触而利用此处的任何活性检测方法检测活性调节剂，而不管所要检测的活性是否为活性调节、表达调节或两者的结果。这些分析可以是体外的、基于细胞的，或可筛选在如包含目的基因的基因敲除转基因小鼠的实验动物上进行的调节剂活性。

检测调节剂活性的生物传感器也是本发明的特征。这些包括包含对应于表1基因座的基因或基因产物的装置或系统，其与测量或呈现该基因或产物一种或多种活性的读数器连接。因此，任何上述分析部件可通过将合适的分析部件可操作连接至读数器而设置为生物传感器。读数器可以是光学的(例如检测细胞标志物或细胞存活的)、电学的(例如连接FET、BIAcore或其它的任何各种)、光谱的等等，并且可任选地包括用户可观察显示器(例如CRT或光学展示台)。生物传感器可与机器人或其它的自动装置例如微流体系统连接，其直接使本发明蛋白质与所述的推定的调节剂接触而例如用于推定的调节剂接触活性的自动化高-通量分析。适合于本发明的生物传感器一起使用的大量自动化系统为市场上可买到的。例如，已制造自动化系统以评估各种生命现象，包括例如响应所选择刺激的基因表达水平(Service(1998)＂Microchips Arrays Put DNA on the Spot＂Science 282：396-399)。实验室系统还可以执行用于将物质转移至或转移出试剂贮存系统的重复流体处置操作(例如移液)，该试剂贮存系统包含阵列，如微滴定盘(microtiter tray)或其它的芯片盘，其用作各种自动化实验室方法的基本容器元件。同样，系统操纵例如微滴定盘和控制各种环境条件如温度、曝露于光或空气等等。许多所述的自动化系统为市场上可买到的并且在此描述，包括如上所述的那些。这些包括各种Zymate系统、

机器人、微流体装置等等。例如，Caliper Technologies，Mountain View，CA的LabMicrofluidic

高通量筛选系统(HTS)可适用于本发明中以筛选调节剂活性。

通常，检测蛋白质表达水平和活性的方法和传感器为可得到的，包括以上各种参考文献中教导的那些，包括R.Scopes，Protein Purification.Springer-Verlag，N.Y.(1982)；Deutscher，Methods in Enzvmologv Vol.182： Guide to Protein Purification，Academic Press，Inc.N.Y.(1990)；Sandana(1997)Bioseparation of Proteins.Academic Press，Inc.；Bollag et al.(1996)′Protein Methods，2 ^nd Edition Wiley-Liss，NY；Walker(1996)The Protein Protocols Handbook Humana Press，NJ，Harris and Angal(1990)Protein Purification Applications：A Practical Approach IRL Press at Oxford，Oxford，England；Harris and Angal Protein Purification Methods：A Practical Approach IRL Pressat Oxford，Oxford，England；Scopes(1993)Protein Purific ation：Principles and Practice 3 ^rd Edition Springer Verlag，NY；Janson and Ryden(1998)Protein Purification：Principles，High Resolution Methods and Applications，Second Edition Wiley-VCH，NY；and Walker(1998^Protein Protocols on CD-ROMHumana Press，NJ；and Satinder Ahuja ed.，Handbook of Bioseparations，Academic Press(2000)。同时检测许多蛋白质的＂蛋白质组＂检测方法已有描述并且如上所指出的，包括各种多维电泳法(例如二维凝胶电泳)、基于质谱法的方法(例如SELDI、MALDI、电喷射等等)或表面胞质团共振方法。这些还可以用于追踪蛋白质活性和/或表达水平。

同样，可利用任何可得到的方法，包括northern分析、定量RT-PCR等等检测核酸表达水平(例如mRNA)。足以指导技术人员使用这些方法的参考文献是很容易得到的，包括Ausubel、Sambrook和Berger所述的那些。

全动物分析也可以例如通过监测对基于细胞的现象的作用，所呈现的动物表型的改变等等而用于评估调节剂对细胞或全动物(例如转基因的基因敲除小鼠)的作用。

所要筛选对表达和/或活性的作用的潜在调节剂文库为可得到的。这些文库可以是随机的或可以是靶向性的。例如，调节剂文库可以筛选对例如表1的任何基因表达的作用。

靶向性文库包括利用选择支架或结构单元以产生组合文库的任何形式的合理设计技术设计的那些。这些技术包括用于靶标-集中文库的设计和组合合成的许多方法，包括用生物电子等排变形的变构，靶标-特异性特别结构的分析等等。通常，可得到表1基因或基因产物结构的信息时，可以例如利用柔性对接方法等等设计合适的结合配偶体。同样，存在用于各种基本化学支架的随机文库。在两种情况下，可得到用于化学文库的数千支架和结构单元，包括具有多肽、核酸、糖类和其它主链的那些。市场上可买到的文库和文库设计服务包括由Chemical Diversity(San Diego，CA)，Affymetrix(Santa Clara，CA)，Sigma(St.Louis MO)，ChemBridge ResearchLaboratories(San Diego，CA)，TimTec(Newark，DE)，Nuevolution A/S(Copenhagen，Denmark)和许多其它的公司提供的那些。

用于成瘾性表型治疗的试剂盒可包括如上所述鉴定的调节剂和用于将该化合物给予患者以预防或治疗成瘾性的说明书。

细胞拯救和治疗给药

在一个方面，本发明包括细胞的拯救，其为一种或多种表1的内源基因或其基因产物的功能缺陷型(因此赋予相关的目的表型，例如成瘾性易感性或耐受性等等)。此可通过简单地导入基因的新拷贝(或表达相关蛋白质的异源核酸)，即具有所需等位基因的基因进入该细胞而实现。其它的方法，如同源重组以修复缺陷型基因(例如通过嵌合修复术)也可以进行。在任何情况下，功能拯救可例如以在此指出的任何测定法测量。实际上，该方法可用作体外筛选细胞的表1的任何基因或其基因产物的表达或活性的常规方法。因此，功能的体外拯救在这里对如上指出的无数体外筛选方法是有效的。拯救的细胞可包括培养物中的细胞(包括来自患者的原代或次代细胞培养物，以及已建立细胞的培养物)。由于细胞分离自患者，此在确定哪个基因或基因产物在呈现相关表型的患者中为缺陷型中具有另外的诊断功用。

另一个方面中，在患者例如人中存在细胞拯救，例如以弥补缺陷。因此，本发明的一个方面为基因治疗以弥补缺陷。这些应用中，本发明的核酸任选地克隆进入合适的基因治疗载体(和/或仅作为裸露的或脂质体-偶联的核酸投递)，其随后任选地与合适的载体或投递剂结合而投递。蛋白质也可以直接投递，但核酸的投递在需要稳定表达的应用中通常是优选的。同样，通过此处的方法鉴定的任何缺陷的调节剂可用于治疗。

用于给药的组合物例如包含治疗有效量的调节剂、基因治疗载体或其它的相关核酸和药学可接受载体或赋形剂。所述载体或赋形剂包括但不限于，盐水、缓冲盐水、右旋糖、水、甘油、乙醇、和/或其组合。所述制剂制备成适合给药的形式。通常，为了局部应用而给予基因治疗载体的方法为本领域所熟知并且可用于本发明核酸的给药。

包含本发明的一种或多种调节剂或基因治疗核酸的治疗组合物在一种或多种合适的体外和/或体内疾病动物模型中任选地检测以证实其效力、组织代谢，并且根据本领域熟知的方法评估剂量。尤其，剂量可通过所述制剂的活性、稳定性或其它合适的方法而在最初就确定。

给药通过通常用于将分子导入而最终接触细胞的任何途径进行。调节剂和/或编码相关序列(例如表1的任何基因)的核酸可以任何合适的方式给予，任选地与一种或多种药学可接受载体一起。将本发明的所述核酸给予患者的合适的方法是可得到的，并且虽然超过一种途径可用于给予具体的组合物，具体的途径常常可以提供比另一种途径更快速和更有效的作用或反应。

药学可接受载体部分由所给予的具体的组合物，以及由用于给予该组合物的具体的方法确定。因此，存在本发明药物组合物的多种合适的制剂。组合物可以通过许多途径给予，包括但不限于：口腔的、静脉内的、腹腔内的、肌内的、透皮的、皮下的、局部的、舌下的或直肠给药。组合物可以通过脂质体(例如局部地)或经裸DNA或病毒载体的局部投递而给予。所述给药途径和合适的制剂通常为本领域技术人员所知。

单独或与其它合适的组分联合使用的组合物还可以制成气雾剂(即其可以是“雾化的”)以经吸入给药。气雾剂制剂可置于增压的可接受推进剂中，如二氯二氟甲烷、丙烷、氮气等等。例如通过关节内(关节中)、静脉内的、肌内的、皮内的、腹腔内的和皮下的途径适于肠胃外给药的制剂包括水相的和非水的、等渗的无菌注射液，其可以包含抗氧化剂、缓冲液、抑菌剂以及使得制剂与将接受其的受体的血液等渗的溶质，以及可包括悬浮剂、增溶剂、稠化剂、稳定剂和防腐剂的水相的和无水的无菌悬浮液。包装的核酸的制剂可以单位-剂量或多-剂量密封容器，如安瓿和管瓶存在。

本发明范围内给予患者的剂量随着时间足以在患者中产生有益的预防性和/或治疗性应答。所述剂量由具体的载体或其它制剂的效力、所表达的多肽或其它基因产物的活性、稳定性或血清半衰期和所要治疗的患者的病情，以及所要治疗的患者体重或体表面积确定。剂量大小也由伴随具体的载体、制剂等等给药于特定患者的任何有害副作用的存在、性质和程度而确定。在确定疾病治疗(例如成瘾性)中所给药的载体或制剂的有效量中，医师评估局部表达或循环的血浆水平、制剂毒性、相关疾病的进展和/或相关的由多核苷酸编码的蛋白质的抗体的产生。例如给予70千克患者的剂量通常在相当于目前-所用的治疗蛋白质等等的剂量范围中，根据相关组合物改变的活性或血清半衰期而适当调节。本发明的载体可通过任何已知的常规疗法补充治疗条件。

为了给药，本发明的制剂以通过相关制剂的LD-50，和/或本发明的载体在各种浓度的任何副作用的观察，例如施加于群体或局部投递区域时以及患者整体的健康所确定的速率而给予。给药可以经单一或分开的剂量完成。

如果经受治疗的患者出现发烧、寒战或肌肉疼痛，他/她接受合适剂量的阿斯匹林、布洛芬、扑热息痛或其它的疼痛/发烧控制药物。对组合物有反应，如发烧、肌肉疼痛和寒战的患者在输液之前30分钟可给药阿斯匹林、扑热息痛或例如苯海拉明。哌替啶用于更严重的寒战和肌肉疼痛，所述寒战和肌肉疼痛对退热剂和抗组胺药不发生快速响应。治疗减缓或停止取决于于反应的严重程度。

实施例

提供下列实施例用于举例说明，而不是限制所要求的发明。技术人员将能识别各种非-关键的参数，其可在本发明的范围内改变。

实施例1：用于成瘾性标志物鉴定的策略

引言：鉴定常见的遗传变体

本研究的目的是鉴定基因标志物和确定成瘾性。成瘾性标志物等位基因的鉴定对公共健康有重要的应用。其中遗传变异归因于许多基因座，取决于易感性基因座遗传的高-风险等位基因的数目，个体的风险有着很大的不同。赋予合适风险度的常见的遗传变体在群体水平分别具有重要的作用。鉴定为与成瘾性风险相关联的基因可用于对关联的和个体的风险的估计。(参见例如USSN 10/956,224，2004年9月30日提交，题为“Methods forGenetic Analysis，”和PCT申请US2005/007375，2005年3月3日提交，题为“Methods for Genetic Analysis.”)。此风险估计的实际结果是真实的。此外，如果变体指示用于干预的可行机制，此也为靶向预防提供了新的可能性。

除了这些实际的结果之外，成瘾性易感性基因座和基因的鉴定有助于阐明成瘾性和其它相关疾病和病症(例如尼古丁成瘾性等等)的发生机制。扩展超过已知的候选者而至全基因组的查找具有全新机制呈现的重大优点。这些机制也提供新的治疗靶标。

最后，对易感性基因的认识允许通过如利用此处所述的群组研究基因的作用和这些组合的风险因素而阐明生活方式风险因素的作用。

研究设计

鉴定常见的低风险等位基因的有效设计是病例/对照研究。与成瘾性有关的变体通过其在病例中比在遗传背景匹配的对照中以显著更高的频率出现而鉴定。该研究中，所述变体为单核苷酸多态性(SNP)。

病例对照关联研究(case-control association study)方法之前已用于“候选者基因”基础。然而，候选基因方法存在严重的局限性。其缓慢并且相对昂贵，依赖于通过所要检测的每个基因SNP基础对SNP的发生测定法；其在其覆盖范围甚至候选基因中是不完全的，尤其在大多数情况下忽略潜在的调控变化；并且其受到当前对疾病生物学的认识的限制。相反，该研究中所用的基因组-范围的查找具有在对功能或定位没有任何之前的认识情况下鉴定有活性的常见变体的潜力。

该研究中，用于～240万单核苷酸多态性(SNP)的集中的基因分型(pooled genotyping)利用482个“病例”(长期尼古丁使用者，其尼古丁依赖性Fagerstrom检验(Fagerstrom Test of Nicotine Dependence，FTND)得分为至少3)和466个“对照”(长期尼古丁使用者，其FTND得分为0)进行。部分基于集中的基因分型的结果，选择44,454个，以及另外的568个病例和413个对照用于相同的病例和对照组中个体的基因分型。个体基因分型后发现的正关联在表1中显示。

用于样品采集、处理和SNP基因分型的实验设计

简而言之，试验设计如下。其样品用于该研究之前所有患者读取和签字告知的许可表格。所有样品编条型码并且患者信息输入采集场所的电子数据库中。样品唯一联系至所收集的患者，并且每个样品容器为唯一可识别的。提供基因分型实验室条型码样品，并且在该实验室内样品用实验信息管理系统(Thermo，Altringham UK)追踪。如上所述，对样品DNA进行全基因组扩增，并且这些样品随后经PCR和合并和/或个体基因型。基因型输出至数据库并且关联至每个主体的表型数据。作为质量控制步骤，检测对照基因型用于Hardy-Weinberg平衡的偏差(departure fromHardy-Weinberg equilibrium)。

研究设计

该研究为几个时期：

时期1.在482个成瘾性病例和466个对照中利用集中的基因分型方法分析全组-240万个SNP。

时期2.在最初的病例和对照，以及另外的568个成瘾性病例和413个对照中评估44,454个SNP的组(例如在集中的基因分型中成瘾性病例和对照之间呈现频率显著差异的那些)。大约4000个SNP鉴定为与尼古丁成瘾性表型有关，并且这些SNP列于表1中。

用于研究设计的理论

选择分期设计以便所需进行的基因分型最小化，而保持检测SNP的高效，对风险的适度作用。计算表明所述分期设计(phased design)与对所有SNP基因分型所有样品相比非常有效(Satagopan JM等.(2002)“Two-stageddesigns for gene-disease association studies.”Biometrics 58：163-170)。

扫描质量控制

在结合在高-密度寡核苷酸微阵列的240万SNP的基因组-范围的平台上分别对每个样品基因分型。每个样品的扫描经受标准质量标准，其包括在要求覆盖用于重叠SNP的微阵列中的高就诊率(high call rate)、高一致性，以及其它指标。如此获得良好的质量数据。

个体基因分型报道

定制的个体基因分型(IG)芯片上包括的大部分SNP选自集中的基因分型，而为了覆盖候选基因区域和因为其它的具体理由而添加其它的SNP。另外的311个分层SNP(stratification SNP)和许多QC SNP也结合在芯片上以帮助评估群体结构和基因组控制校正。表2以排除的递减次序概述了不同种类中SNP的计数(即如果SNP已由以上给定种类的任何种类覆盖，则其并不算入给定的种类中—以防止SNP的重复计算)。许多选择标准应用于该SNP组以得出35,673个可靠的SNP组，其与其基因分型一起报道。

表2

SNP来源	SNP数目
SNP来源	SNP数目	候选基因	4901
来自集中的基因分型配	39213	候选基因	4901
来自集中的基因分型配	39213	定制的选择	39
分层SNP	301	定制的选择	39
分层SNP	301	QC SNP	1888

表3显示集中的基因分型(pooled genotyping，PG)样品(1/0或Y/N)和复制样品(replication sample)(分别基因分型，而不经集中的基因分型的另外的样品)之间样品数的分离，病例对照状态和性别：

表3

趋势得分分析

对PG样品(第一轮)和复制样品以及对联合组(combined set)分别计算趋势得分(trend score)。以下概述Armitage的趋势得分X²的计算：

χ^{2} = \frac{{(Δp)}^{2}}{Var (Δp)}

Var (Δp) = (p_{1} + P_{11} - 2 p_{1}^{2}) (\frac{1}{{2 n}_{T}} + \frac{1}{{2 n}_{C}})

其中ΔP为病例和对照之间观察到的等位基因频率差异，P₁为随机指定为“1”等位基因的总的群体发病率，P₁₁为具有等位基因“1”两个拷贝的样品部分，n_c和n_r分别为病例和对照样品数。

GC校正

趋势得分用GC校正来校正。对不依赖集中研究(pooled study)和候选基因区域而选择的QC组和分层SNP组计算第一轮样品和全组样品的GC校正。这些SNP因此提供第一轮和全组样品中无偏差的GC校正评估。对于复制样品，所有SNP用于GC评估并且大量SNP允许使用回归以在改变等位基因频率差异评估置信度时更好地分布SNP之间的GC校正。SNP等位基因频率差异的置信度通过计算自滤过和未滤过基因分型的病例和对照之间等位基因频率差异之间的Δ绝对值而评估。未滤过的对比滤过的基因分型的等位基因频率差异之间Δ越大，由基因分型过滤引起的滤过的基因分型中等位基因频率差异的失真可能性越大。等位基因频率差异Δ的趋势得分值的回归利用对数联系和γ分布完成。该方法允许来自以病例和对照之间Δ等位基因频率置信度为基础的SNP之间GC校正更好的命中能力分布。该回归因此产生对计算自SNP的Δ的每个SNP特定的GC校正。

对于性连锁SNP由于样品当中男性的存在，对少量染色体校正GC校正方差膨胀因子(GC correction variance inflation factor)λ：

λ_{corr, X} = 1 + \frac{λ - 1}{R} \cdot R_{X}

λ_{corr, Y} = 1 + \frac{λ - 1}{R} \cdot R_{Y}

其中：

R = \frac{1}{\frac{1}{2 (n_{C, F} + n_{C, M})} + \frac{1}{2 (n_{T, F} + n_{T, M})}}

R_{X} = \frac{1}{\frac{1}{2 n_{C, F} + n_{C, M}} + \frac{1}{2 n_{T, F} + n_{T, M}}}

R_{Y} = \frac{1}{\frac{1}{n_{C, M}} + \frac{1}{n_{T, M}}}

并且其中n_C.F、n_C.M、n_T.F、n_T.M分别为女性病例数、男性病例数、女性对照数和男性对照数。λ_corr.x和λ_corr.y分别为对染色体X和染色体Y性连锁SNP的校正λ。

结果：

应用的检验

第一轮样品得到0.881的GC校正方差膨胀因子并且因此无GC校正应用于趋势得分和其p-值。

复制样品得到1.070的GC校正方差膨胀因子，然而个体GC校正方差膨胀因子利用以上所述的回归方法计算。趋势得分值的回归对利用对数联系(log link)和γ分布得到的等位基因频率差异Δ产生正斜率，表明正如所料，计算自未滤过的和滤过的基因分型等位基因频率差异之间的Δ越大，趋势得分更趋于膨胀。如上所述由于样品当中男性的存在，对少量染色体的性连锁SNP另外校正这些GC校正方差膨胀因子。

整个样品组产生1.026的GC校正方差膨胀因子并且由于评估方差膨胀因子的有限的SNP数目，使用由方差膨胀因子有效等分的每个趋势得分的更强的校正方法。

用线性回归和逻辑回归计算另一组P值。表型关联的显著性评估不同的模型。各种复杂度的模型评估不同协变量根据的显著性：

模型	ANOVA评估的协变量	ANOVA p-值
模型	ANOVA评估的协变量	ANOVA p-值	性别	性别	4.26E-10
性别+年龄	年龄	1.48E-03	性别	性别	4.26E-10
性别+年龄	年龄	1.48E-03	性别+因子(地址)	因子(地址)	4.80E-23
性别+因子(地址)+年龄	年龄	7.90E-01	性别+因子(地址)	因子(地址)	4.80E-23
性别+因子(地址)+年龄	年龄	7.90E-01	性别+因子(地址)+年龄+性别：因子(地址)	性别：因子(地址)	6.30E-01

表4

ANOVA p-值表明仅性别和地址解释显著的表型差异。地址3和4显示与大部分关联有关。性别和地址的显著性预期来自不同性别和地址之间病例和对照的非均匀分布。模型包含性别和地址仅通过基因分型和任何协变量之间的相关性程度而降低了基因分型与表型的可能的关联。可能存在降低检测基因分型关联能力的某些随机相关性，但其不应该有很大的影响。该模型还包含性别和基因分型之间的相互作用，因为可以设想基因分型作用可能对不同性别具有不同的斜率(即两种性别之间的关联强度可能不同)。因此以下模型利用逻辑回归(利用双病例对照分配)调整并且定量FTND性状利用线性回归调整：

表型-性别+因子(地址)+基因分型+性别：基因分型。

图1-6的Q-Q图表明回归产生很好地对应预期的零分布(nulldistribution)的统计分布。仅对期待为无分布的分层和QC SNP进行第一轮样品和全组样品的统计。

候选基因区域的分析

候选基因区域由4901个CG SNP组成并且如与所述的相一致，分别分析39个定制的附加SNP。该区域产生4222个可靠的SNP。该候选基因区域中无SNP在通过Bonferroni对4222个检测的SNP(其与未校正的1.2e-5p-值对应)校正的0.05水平为严格显著的。然而，8个SNP显示来自线性回归的e-5范围p-值并且2个SNP具有来自逻辑回归的e-5范围的p-值。因为存在降低有效独立检验数的LD区域，Bonferroni校正也可能是太过保守。

利用Storey方法分别对候选基因区域计算错误发现率(False discoveryrate，FDR)q-值。FDR q-值计算自从全组样品的趋势得分获得的p-值和来自线性和逻辑回归的p-值。候选基因区域的最先的6个SNP具有计算自逻辑回归<10％的q-值并且591个SNP具有<50％的q-值。图7中的图以通过其逻辑回归p-值排序的SNP组显示FDR q-值。图8显示最初的600个SNP的放大区域(zoomed-in section)。

线性回归提供具有FDR q-值<10％的15个SNP以及具有FDR q-值<50％的234个SNP。图9和10中的图显示其有序分布，图10描述最初的300个SNP的放大区域。

集中的SNP的分析

集中的SNP(pooled SNP)产生31,162个可靠的SNP。无SNP显示来自第一轮IG或来自全组样品的逻辑或线性回归的基因组-范围的显著p-值。具有仅对来自PG的SNP数的校正p-值的复制样品中也无SNP是显著的(p<0.05/31162)。

病例和对照之间第一轮等位基因频率差异和复制等位基因频率差异之间标志一致性(sign agreement)的检查表明由第一轮趋势得分p-值分出的最前面的SNP(top SNP)当中稍微更高的标志一致性。图11显示超过21个SNP滑动窗(sliding window)的标志一致性。如图11所示，最初的约20个SNP显示超过平均值的Δ等位基因频率标志一致性。该一致性非常显著，因为从21个试验获得19个一致性的二项分布的p-值为1.04e-5。因此由21个最显著SNP组成的第一个仓(bin)将具有19个一致性的概率为1.04e-5。然而如图12中具有窗口大小101的图所示，一致性快速降低。从该图看来，根据第一轮和复制之间的一致性，头75至100个SNP仍然是富集的。

不能对集中的SNP和用于PG中的样品计算FDR，因为SNP选自PG并且因此显示与表型无关的PG样品之间任何群体差异的SNP也在此选择。因此根据该样品组中将呈现小的p-值预计所述SNP是富集的。然而，对不参与SNP选择的复制样品没有所述期望并且因此可对该组计算FDR。计算自线性和逻辑回归p-值的FDR q-值具有相当大的值—线性回归提供最小的0.57的q-值并且逻辑回归最小的q-值为0.43。

实施例2：成瘾性标志物

基于研究的个体基因分型结果，表1所述的SNP鉴定为与尼古丁成瘾性风险有关。在互联网www.ncbi.nlm.nih.gov/SNP/上找到给定dbSNP rsED编号的序列。位置指人基因组的NCBI Build 35。病例和对照中的等位基因频率指SNP的任意指定参照等位基因的频率。

根据以下标准选择SNP：1)就诊率(call rate)>80％；2)病例和对照中HWE p-值>1e-15；3)可观察到具有1e-4和1e-15之间的病例或对照中HWEp-值的SNP并且排除不好的SNP；4)排除呈现男性和女性之间固定差异的SNP。基于来自逻辑回归ANOVA检验的p-值选择SNP作为两个种类的最前面的SNP(来自集中研究或对候选基因区域覆盖范围的选择)，在排除性别和DNA采集地址的影响后检验基因分型关联。表1中的列通常指研究的个体基因分型时期并且已在上文详细描述。

实施例3：a5nA ChR基因中氨基酸取代影响对尼古丁依赖性的风险

烟碱样受体基因CHRNA5中发现与尼古丁依赖性关联的非同义(nonsynonymous)SNP并且通过隐性遗传方式造成风险加大2倍。

尼古丁依赖是世界范围内造成死亡的首要原因之一。为了发现影响对尼古丁依赖性风险的遗传变体，靶向超过三百个候选基因用于基因分型并且在1,050个病例和879个对照中分析3,713个单核苷酸多态性(SNP)。尼古丁依赖性的Fagerstrom检验(FIND)用于评估依赖性，其中病例要求具有4或以上的FTND。对照标准很严格：对照主体必须在其一生至少吸烟100根香烟并且在最重的吸烟期间具有0FTND。在通过控制假发现率(falsediscovery rate)而校正多个检验后，一些胆碱能烟碱样受体(nAChR)基因主导主要的信号(top signal)。最强的关联来自代表CHRNB3的SNP，β3烟碱样受体亚基基因(p＝9.4 x 10^-5)。生物学上，风险变体的最有力证据来自α5烟碱样受体亚基基因CHRNA5(p＝6.4 x 10^-4)的不同义的SNP。该SNP表现出隐性遗传方式的证据，引起个体一旦暴露于香烟烟雾时发展尼古丁依赖性的风险加大两倍。主要信号当中其它的基因为KCNJ6和GABRA4。该实施例代表尼古丁依赖性的最有效和广泛的研究，并且已找到由复制研究任选地证实的新的风险基因座。

世界卫生组织评价如果持续目前的趋势每年烟草-相关疾病的死亡数将加倍，从2000年的500万到2020年的1000万。(1，2)尼古丁，烟草中发现的天然存在的生物碱、模拟乙酰胆碱以及尼古丁结合烟碱胆碱能受体(nAChR)的能力构成尼古丁依赖性(对烟草成瘾性的敏感性，[MIM188890])的分子基础。长期的尼古丁暴露产生持久的行为和生理变化，包括提高的突触强度、改变的基因表达和nAChR上调。(3)虽然nAChR在整个中枢神经系统表达，但认为尼古丁上瘾的作用由中脑-皮层-边缘多巴胺(DA)途径介导。(4)人们相信谷氨酸、多巴胺和γ-氨基丁酸(GABA)系统当中的相互作用为加强尼古丁作用的关键。(3，5)香烟为全世界烟草使用的主要形式(6)，并且遗传因素对尼古丁依赖性的病因学很重要，估计遗传率(heritability)从44％到60％(7)。

通过关联研究鉴定影响香烟烟雾行为的易感性基因座的工作使用用病例-对照以及基于家族设计的候选基因方法。已经研究了可能影响烟雾的一些候选基因，包括烟碱样受体(8-10)、尼古丁代谢基因(11-13)、多巴胺系统受体(14-17)、GABA受体(18)以及其它的神经递质和受体(19-21)。候选基因中的连锁发现和关联发现当中似乎极少有一致性(在22中综述)。至今一篇基因组-范围的关联研究(GWAS)论文为Bierut等的，(23)，其与当前的实例研究平行进行并且使用相同的病例-对照样品。

该实施例的方法是为了通过病例-对照设计，将SNP基因分型广泛的候选基因组靶向检测与尼古丁依赖相关的变体。用于基因分型的超过三百个基因作为靶标，设计允许大约4,000个SNP。这些包括编码烟碱样受体、多巴胺能受体和γ-氨基丁酸受体的基因家族，其已知为参与依赖性的生物途径的一部分。此与基因组-范围的关联研究(GWAS)一起完成，参见实施例4和Bierut(23)。两种研究都使用大的欧洲血统的病例和对照样品。1,050个尼古丁依赖的病例与独特的879个个体对照样品对比，后者不是依赖性吸烟者。样品规模和严格的控制准则应当提供足够的能力以检测影响尼古丁依赖性的变体，但已知候选基因覆盖范围的深度是远大的开且需要精密的操作以处理多个检验的复杂问题。假发现率(FDR)用于限制多个检验的作用(23，24)，并且用于在FDR-控制的关联列表上报道。

实施例3的结果

该实施例的候选基因列表最初编号448个，并且分成类别“A”和“B”。靶向所有55个“A”类别基因用于SNP基因分型，但因为其超出了易于靶向所有剩下的393个“B”类别基因的手段之外，根据平行GWAS中集中的基因分型的结果，这些优先考虑用于SNP基因分型(参见Bierut(23)和实施例4)。表5呈现候选基因中集中的基因分型结果的概要。393个考虑用于SNP选择的”B”类基因当中，296个作为靶标用于候选基因研究中的个体基因分型。这些利用最小校正的最小p-值选择，如公式1中定义的(参见以下)，其中边界为大约p≤0.95。这些候选基因中的4,309个SNP分别进行基因分型，以及在质量控制滤过后，对3,713个SNP检测关联。对52个A类基因检测515个SNP并且对296个B类基因检测3,198个SNP。

表5

表5呈现来自平行基因组-范围的关联研究(GWAS)的候选基因中集中的基因分型的结果。总共2,177,718个SNP经过质量控制(QC)方法并且检测关联。结果用于对SNP选择排序B类基因。“检测的基因”和“检测的SNP”列显示经过QC并且检测关联的那些基因中的基因数和SNP数。基因内集中的基因分型中所有检测关联的SNP的最小p-值根据公式(1)校正检测数。a平均值±标准差。

表6中，显示其中加权FDR小于40％的与尼古丁依赖性的主要的关联。当评估FDR时来自“A”类基因的SNP比“B”类基因加权大10倍。信号通过将基因分型项和经过性别相互作用项的基因分型添加至逻辑回归基础模型的主要的2度自由度p-值而归类。具有功能“FP”的SNP在基因覆盖区的范围之内，用于显示目的而定义为转录区域的±10kb。标记“LD BIN”的那些在覆盖区外并且选择用于外显子附近具有SNP的LD的基因分型。括号中的基因为候选基因，对其选择SNP。“LD Bin ID”列确定为LD仓(bin)；具有相同的LD Bin ID的SNP有效地产生单个关联信号。此报道了所述标记和“Min(r²)”列的仓中其它SNP之间最小的相关性。该等级通过所有3,713个基因分型的SNP中最初的p-值确定。自有义链报导所有等位基因。病例p和对照q中风险等位基因的频率(等位基因在病例中比在对照中更常见)用注释p/q报道。

表6

^a非-倍增模型(non-multiplicative model)有重要的证据，参见表8(其显示每一LD仓的一种SNP)；^b性别-特异性风险也有重要的证据，参见表9(其显示每一LD仓的一种SNP)；^c非常微小的等位基因频率。

表7显示最前面的信号(top signal)当中具有SNP(即表6中出现的SNP)的所有“A”类基因和任何“B”类基因的细节。列“检测的SNP”指检测的关联的SNP数，并且“最前面的信号中的SNP(SNPs in top signals”列指表6中出现的SNP。一些SNP代表多个基因，尤其在两个基因相互靠近时；因此由这两列代表的SNP的基因之间存在重叠。具有最前面的信号中的SNP的基因以黑体显示。

表7

对候选基因的个体基因分型中，来自最初的关联分析的十个最小的p-值从9.36 x 10^-5至1.22 x 10^-3。存在39个FDR小于40％的SNP，表明约存在24个正确的信号(signal)(表5和6以及图13)。这些最前面的39个标志由烟碱样受体基因控制(图14和15)。最前面的5个FDR值对应于基因CHRNB3、CHRNA3和CHRNA5并且从0.056至0.166。最好的证据为这5个标志的4个来自真正的关联并且并不归因于随机效应。置换FDR评估与FDR大致相同，相差不超过0.02，SNP rs6474413具有0.07的最小的置换FDR(minimum permutation FDR)。从每个连锁不均衡(LD)仓选择单个SNP后，这39个SNP的3个显示非-倍增模型(non-multiplicative model)(表8)的重要证据并且发现一些SNP具有通过基因分型相互作用的重要性别(表9；也参见表14，来自表6的所有SNP列表显示通过基因分型p-值的性别以及性别-特异性优势率(gender-specific odds ratios))。图13显示候选基因关联分析的结果。来自最初分析的p-值利用-log₁₀(p)变形(transformation)在表意符号(ideogram)下对每个染色体作图。底轴为p＝1以及上轴为p＝10^-3。“A”类基因在以下图中以红色显示而“B”类基因在“A”类基因下以青色显示。其在图14中更详细显示的染色体8和15上的区域以红色显露。图15显示烟碱样受体基因的(A)CHRNB3-CHRNA6和(B)CHRNA5-CHRNA3-CHRNB4簇中标志物之间的连锁不均衡(LD)。

β3烟碱样受体亚基基因CHRNB3，位于染色体8上，说明来自分析：rs6474413和rs10958726(图14A)的两个最有力的标志。由于其在具有r²相关性≥0.99的很高的LD中，这2个SNP有效影响单个标志。其都在假定的5′启动子区域中；SNP rs6474413在第一个5’启动子的2Kb之内并且SNPrs10958726位于另外的上游15Kb。CHRNB3中两个其它的SNP，rs4953和rs4952也在最前面的标志当中。这些为外显子5中的同义SNP并且为仅知晓编码CHRNB3的SNP(dbSNPbulid 125，互联网www.ncbi.nlm.nih.gov/SNP)。此外，这些代表其基因分型完全关联的单个标志。图14显示最前面的关联标志的详细结果。(A)最前面的2个标志靠近染色体8上的CHRNB3烟碱样受体基因。(B)非同义的SNP rs16969968和烟碱样受体基因CHRNA5-CHRNA3-CHRNB4簇在染色体15上。表6中出现的SNP用dbSNP rs ID标记。追踪“UCSC最保守的”(互联网上genome.ucsc.edu，2004年5月建立，表“phastConsElementsl7way”)突显的区域在人和其它的物种包括小鼠、大鼠和鸡之间保守；最大保守性得分为1000。最初的p-值利用-log(p)变形以红色作图。“LD Bins”径迹显示来自“SNP”追踪入LD仓(LD bin)的SNP的分布，其中所有SNP在具有标记SNP的病例和对照中都具有r²≥0.8。仅显示具有超过2个SNP的仓，并且所述仓用SNP N数、仓中具有另外的SNP的标记的最小r²、仓中等位基因频率的范围以及标记SNP注释。(C)表明着色方案的图例。

最前面的标志当中下一组SNP在染色体15上的烟碱样受体基因CHRNA5-CHRNA3-CHRNB4簇中(图14B)。第三个最重要的标志为在α3烟碱样受体亚基基因CHRNA3的3’非翻译区(UTR)中的SNP rs578776(图14B)。来自CHRNA3下游大约5Kb的为第五个最有力的标志rs16969968，α5烟碱样受体亚基基因CHRNA5外显子5中非同义的编码SNP。该SNP在具有rs1051730的非常强的LD中，CHRNA3中同义的编码SNP，r²相关性≥0.99。

最有兴趣的标志好象是CHRNA5中的非同义SNP rs 16969968，然而如上所述，其与CHRNA3基因中的SNP完全关联(图14B)。rs16969968的等位基因A在病例中具有38％的频率并且在对照中具有32％的频率。该SNP的隐性遗传方式存在令人信服的证据(表8)。相比无拷贝，具有1个拷贝和2个拷贝A等位基因的优势率(odds ratio)分别为1.1(95％ CI 0.9-1.4)以及1.9(95％ CI 1.4-2.6)。也就是说，相比具有其它基因分型的个体，具有AA基因分型的个体具有几乎两倍的尼古丁依赖性症状的可能性。表8显示呈现来自倍增遗传模式(multiplicative genetic model)的显著差异的SNP。具有最小的最初p-值的SNP选自表10的每个LD仓。倍增的p-值来自对公式(3)中杂合子项H显著性的1自由度检验。我们仅显示具有p<0.05的SNP。最后二列显示基因分型之间相对风险的优势率和95％的置信区间。SNP rs16969968明显遵循隐性模式，其中携带两个拷贝A等位基因的个体与具有0或1个拷贝的个体相比具有几乎两倍尼古丁依赖性症状的可能性。

表8

SNP	基因	非倍增的p-值	一种风险等位基因的优势率	两种风险等位基因的优势率
SNP	基因	非倍增的p-值	一种风险等位基因的优势率	两种风险等位基因的优势率	rs16969968	CHRNA5	4.04E-02	1.1(0.9-1.4)AG/GG	1.9(1.4-2.6)AA/GG
rs3025382	DBH	2.24E-02	0.6(0.3-1.3)AG/AA	0.9(0.4-2.0)GG/AA	rs16969968	CHRNA5	4.04E-02	1.1(0.9-1.4)AG/GG	1.9(1.4-2.6)AA/GG
rs3025382	DBH	2.24E-02	0.6(0.3-1.3)AG/AA	0.9(0.4-2.0)GG/AA	rs510769	OPRM1	4.16E-04	1.5(1.3-1.9)CT/CC	1.0(0.7-1.4)TT/CC

实施例3的讨论

来自烟草烟雾的尼古丁成瘾性每年造成超过300万人死亡，使得其为世界上可预防死亡率的主要原因(1)。2003年美国21.6％的成人吸烟，其中24％的男人和19％的妇女吸烟(26)。之前的关联研究局限于候选基因研究。本候选基因研究范围更大，在1,050个尼古丁依赖病例和879个非-依赖性吸烟者中对348个候选者基因分型3,713个SNP，其中对照组的限定尤其严格。

主要的控制FDR的发现由烟碱样受体基因控制。α5和β3烟碱样受体亚基的正关联发现为新的。烟碱样受体和尼古丁依赖性的大多数人遗传学和生物学研究集中在α4和β2亚基，因为其以高-亲和受体共同出现并且在脑中广泛表达(27)。然而，小鼠研究已证实α4β2包含介导多巴胺释放的受体，也包含相当大比例的α5(28)。此与当前用于α5在尼古丁依赖性易感性中重要作用的证据相一致。此外，大脑中α4β2受体，α5或β3亚基可占据对应于肌肉的β3五聚物中的第五个位点。虽然认为α5和β3均不参与形成结合位点，其能够影响通道的性质并且影响激动剂的效力，因为其参与与活化和脱敏有关的构象变化(27)。

尼古丁依赖性风险因素的最强有力的生物学证据来自CHRNA5中的非同义SNP rs16969968。该SNP引起氨基酸398从天冬酰胺(由G等位基因编码)变化为天冬氨酸(由A编码，风险等位基因)，其导致α5亚基第二个胞内环氨基酸电荷的改变(29)。风险等位基因看起来以隐性方式起作用，其中A等位基因纯合的个体以2倍风险发展尼古丁依赖性。虽然没有广泛研究α5亚基，并且没有该多态性已知的功能性作用的报道，引人注目的是非-同义电荷-改变α4nAChR亚基相应的胞内环中多态性已经显示在小鼠中响应尼古丁暴露而改变nAChR功能(30-33)。该变体在欧洲血统群体中常见(A等位基因的等位基因频率大约42％)但在亚洲或非洲血统群体中罕见(<5％，数据源自国际HapMap计划，互联网上www.hapmap.org)。

基因KCNJ6(也称为GIRK2)和GABRA4也在主要的39个FDR-控制的标志当中。这些为除了具有小于0.001p-值的SNP的烟碱样受体外唯一其它的基因。KCNJ6属于内向整流钾通道(inwardly rectifying potassiumchannel，GIRK)基因家族。GIRK提供许多神经递质受体和突触传递的调控之间的常用联系(34)。GABA为哺乳动物中枢神经系统中的主要抑制性递质，并且是加强尼古丁作用的关健(3，5)。发现重要的证据，即应归于基因分型的风险在男人中比在妇女中更强(表9)，其中男性优势率为2.2(95％CI 1.4-3.3)。

之前报道的其它烟碱样受体中的发现并不在最重要的发现当中。先前的CHRNA4研究中，用尼古丁依赖性方法的名义上的关联在美裔非洲人家族中的SNP rs2236196和rs3787137以及欧洲-美洲人中的rs2273504和rs1044396报道，但多个检验校正后仅保留非洲-美洲人中的rs2236196(9)。此外在CHRNA4中，rs1044396和rs1044397与基于家族的亚洲男性吸烟者样品中的FTND得分和定性尼古丁依赖性关联(8)。该欧洲血统样品中，对CHRNA4检验11个SNP，包括除了rs2273504的上述的SNP，其没有通过严格的质量检验标准。所有11个SNP最小的最初p-值对rs2236196为0.026(研究-广泛排序＝132)；在该SNP特定的先前发现结果的情况下该特定的结果可能考虑为单个检验，并且因此提供复制的合适证据。分析的之前报道的剩下的4个SNP显示大于0.8的p-值。这些结果的差异可能是部分由于各个样品不同的族性。

以色列妇女中吸烟起始和尼古丁依赖性严重程度的最近的研究(10)分析了11个烟碱样受体亚基基因中的39个SNP。其单个SNP分析也没有检测出α4中SNP的关联，包括rs2236196、rs1044396和rs1044397，而是发现α7、α9、β2和β3亚基中名义上的显著性。其研究不包括包含该实施例烟碱样受体基因中4个最强关联的β3亚基和α5-α3-β4簇，中相同的SNP；其分析了该实施例的第五个烟碱样受体，SNPrs1051730，并且，当在比此处更少的样品中比较＂高＂尼古丁依赖的主体与“低”尼古丁依赖的主体时发现了提示性的0.08的p值。

该研究不能确证Beuten和其同事对GABA_B受体GABBR2(也叫做GABABR2、GABAB2和GPR51)的β2亚基报道的关联发现。对GABBR2中的32个SNP进行基因分型，包括Beuten和同事报道的5个SNP(18)，其中3个通过该研究中的至少一种检验确定为欧洲美洲人中最重要的。此处研究中所有的32个SNP的最初的p-值大于0.07，并且之前报道的5个SNP的p-值大于0.3。

同样，对DDC基因基因分型的31个SNP的最初检测中没发现名义上的关联的证据，其包括在欧洲-美洲人中之前报道重要的SNP(35)。覆盖基因BDNF的11个SNP，3个(rs6265、rs2030324、rs7934165)之前报道在欧洲-美洲男性中关联(21)；这3个在本样品中并不重要(最初的p分别＝0.86、0.088和0.12)，并且剩下的8个SNP当中最小的最初p-值为0.02，其并不经受得住对覆盖该基因的6个LD仓的校正。注意最初的检验利用对数-加法模型，而以前的报道有时在其它的模型下发现其最强的结果(例如隐性的、显性的)；然而对于这些之前报道的关联，对来自对数-加法模型偏差的本检验没有发现另一种遗传方式下改进的证据。

本实施例中最初的关联分析为添加基因分型和性别相互作用项对基础预测因子性别和地址的基因分型显著性的两个自由度检验。该方法有助于确保明显受性别影响的关联的检测。缺点为额外的自由度使得具有不重要的性别相互作用的关联整体上似乎不甚重要。

因为此处的对照是严格选择的，并且甚至可以考虑“保护”对尼古丁依赖性的敏感性，该结果的解释必须考虑来自该研究的关联标志实际上可能代表保护性的而不是风险效应的可能性。更常见的等位基因用于病例中而作为惯例用于报道这些数据以便于SNP当中优势率的对比；此不应该看作是具体的变体如何影响尼古丁依赖性风险的结论。变体改变风险的机制精确的确定仅可来自功能性研究。

利用仅来自美国的个体样品进行另外的关联检验以确定最初的结论是否仍然在797个病例和813个对照子集中保持(仅仅澳大利亚的样品太少而不能用于关联检验，仅具有253个病例和66个对照)。相同的逻辑回归方法用于全部样品，除了省略项“地址”。两个关联检验之间p-值的Spearman等级-顺序相关性(rank-order correlation)为0.87。表15显示来自主要的关联列表的39个SNP的仅美国样品分析的结果(表6)，具有最初的顺序和FDR过滤，和来自美国样品的结果并列。表16描述了完全仅以美国样品开始并且利用其而通过p-值排序的结果，通过FDR<40％滤过，并且计算LD仓。在这种情况下，最初的主要标志组中30/39(77％)的SNP(表6)在仅美国分析的主要标志列表中出现(表16)，其包括来自初次分析的主要基因，基因CHRNA5和CHRNB3。因此，虽然结果的顺序存在一些变化，当对美国子样品进行分析时与烟碱样受体CHRNB3和CHRNA5关联的最初结论仍然有效。

伴随候选基因研究，同时进行基因组范围的关联研究(GWAS)(参见以下和Bierut(23))。在二级设计中对整个人基因组基因分型大约240万个SNP，该设计从在一部分样品中集中的基因分型并且随后为对主要的40,000个标志的全部样品的个体基因分型开始。20个-来自GWAS的最强的标志应归因于CHRNB3第一个5’启动子3Kb上游的SNP，CHRNB3为具有来自候选基因研究的最有力标志的基因。此标志来自SNP rs13277254(仅对GWAS基因分型并且不对候选基因研究进行基因分型)并且具有6.52 x 10^-5的p-值。来自两个不同研究设计的收敛性(convergence)提供该基因中的标志并不是随机效应的另外的支持。

最后，一些遗传变体鉴定为与候选基因中的尼古丁依赖性有关，其大部分为烟碱样受体基因。涉及的一种SNP具有许多生物学上相关的结果，使得其为影响烟雾行为的尤其合理的候选者。这些变体应该考虑为遗传危险的潜在来源。本申请外的另外的研究用以进一步检查复制和详述其在尼古丁剂量给药应答的药物遗传学以及对尼古丁依赖性治疗中的作用。

实施例3的材料和方法

受试者

所有受试者(表10)选自两个正在进行的研究。尼古丁依赖性的合作遗传学研究(美国)从美国的3个市区招募受试者并且尼古丁成瘾性遗传学(澳大利亚)研究征集来自澳大利亚的欧洲祖先的受试者。两种研究都使用基于社区的招募并且进行同等评估。利用其一生吸烟100支或100支以上的标准鉴定为吸烟者的受试者利用FTND调查表更详细地询问。美国样品在圣路易斯、底特律和明尼阿波利斯登记，其中基于社区的受试者的电话筛选用于确定受试者是否满足病例(当前的FTND≥4)或对照状态的标准。澳大利亚样品的研究参与者在澳大利亚的昆士兰医疗研究所登记，其中家族鉴定自澳大利亚孪生小组的两个群组，其包括这两个群组年龄较大群组的配偶，总共大约12,500个具有关于吸烟信息的家族。澳大利亚样品的祖先主要是英国的-凯尔特人和北方的欧洲人。机构评审委员会批准两种研究并且所有受试者同意参与。从每个受试者收集血样用于DNA分析并且与两种研究的电子表型和遗传学数据一起提交至药物滥用国立研究所(NTDA)遗传研究中心，其根据国立卫生研究院的准则管理研究数据的共享。

病例受试者要求在吸烟最重时期对尼古丁依赖性的Fagerstrom检验(FTND)(36)得分在4或以上(最大的可能得分为10)。此为定义尼古丁依赖性的常用标准。对照受试者必须在其一生吸烟100支或以上，然而从未表现出尼古丁依赖性的症状：其为在吸烟最重时期对FTND的得分为0的吸烟者。通过选择具有重要吸烟史的对照，可检查尼古丁依赖性特定的的遗传效应。来自澳大利亚孪生小组的另外的数据支持此对照状态的命名(参见下一个实施例和(23))。美国研究中，在筛选过程期间利用确定为吸烟者(一生吸烟100支或以上)的15,086个受试者样品，“尼古丁依赖性”的发病率(FTND大于或等于4)为46.4％，并且＂无尼古丁依赖性吸烟＂的发病率(FTND＝0)为20.1％。

候选基因选择

用于候选基因选择的标准以已知的生物学、尼古丁依赖性和其它的表型之间的相关性以及之前对尼古丁依赖性遗传学和相关性状的报道为基础。基因通过来自具有尼古丁和其它物质依赖性研究专家NIDA遗传学协会(互联网上的zork.wustl.edu/nida)研究者专家委员会命名。这些包括应答尼古丁的经典的基因，如烟碱样受体以及参与上瘾过程的其它基因。

总共对SNP基因分型考虑448个基因。所述基因分成2个类别：“A”和“B”。“A”类基因，其包括烟碱和多巴胺能受体，被认为具有更高的优先关联概率(prior probability of association)，并且确保靶向用于基因分型。因为研究设计允许大约4,000个单核苷酸多态性(SNP)的个体基因分型，一旦“A”基因已经充分覆盖时“B”类基因太多而不能接受充分的SNP覆盖。因此“B”类基因利用来自伴随GWAS研究的集中的基因分型结果优先考虑(以下和(23))。表现出与尼古丁依赖性关联最多证据的基因为了覆盖而优先考虑。一些基因比其它的更大并且因此可能接受更多的SNP。这些基因可因此由于所进行的增加的检验数而显得更重要。因此，如下进行多个检验的校正。对于“B”列表上给定的候选基因，如果p_min为用于基因中所有SNP基因分型的GWAS I期集中的基因分型中测定的最小p-值，并且N为检测的SNP数时，则利用公式计算校正的最小p-值p_corr

p_{corr} = 1 - {(1 - p_{\min})}^{\frac{N + 1}{2}} - - - (1)

由于任何染色体区域中大致50％的SNP为高度连锁不均衡(LD)(37)，(N+1)/2用作指数。“B”类基因随后通过这些校正的最小p-值排序并且从顺序表最前面选择SNP直至用尽资源。

SNP选择

选择外显子内的所有SNP，而不管等位基因频率，以及所注释的基因启动子+/-2kb内的所有SNP，其中欧洲美洲人较小的等位基因频率为至少4％。随后对所有欧洲美洲人LD仓(38)跨越候选基因外显子选择标记SNP，具有3个或以上SNP的每个仓选择2个SNP。首先从用于在伴随的集中研究(以下和(23))中个体基因分型的那些选择满足这些标准的SNP，并且随后如果存在另外的SNP选择则尽可能均匀地覆盖所述物理区域。此外，包括已在如与尼古丁依赖性有关的文献中报道的具体的SNP(8、9、18、34)。

集中的基因分型

参见以下和Bierut(23)的集中的基因分型(pooled genotyping)说明。

个体基因分型

对于个体基因分型，定制的高-密度寡核苷酸阵列(custom high-densityoligonucleotide array)设计成能查询选自候选基因的SNP，以及质量控制SNP。每个SNP通过在玻璃基质上合成的二十四个25聚体寡核苷酸探针查询。二十四个特征包含查询SNP对照近邻以及正向和对照链上交互等位基因的4组6个特征。每个等位基因和链通过五种位移(offset)表示：-2、-1、0、1、2表示25-聚体内SNP的位置，第十三碱基为零。在位移0处平铺四个一组(quartet)，其包括与对照完全匹配的和交互的SNP等位基因以及作为错配探针的两个保留核苷酸。当可能时，错配特征选择为嘌呤完全匹配核苷酸被嘌呤核苷酸所取代以及嘧啶完全匹配核苷酸被嘧啶核苷酸所取代。因此，每个链和等位基因由包含五个完全匹配的探针和一个错配的六个特征组成。

个体基因分型清理

利用用于基因分型质量的监测预测算法清理个体基因分型，其根据描述SNP和基因分型质量的15个输入度量编写。基因分型质量度量与Perlegen平台和外部基因分型平台(即非-Perlegen HapMap计划基因分型)之间具有不一致呼叫的概率有关。利用Perlegen基因分型和HapMap计划基因分型之间一致数据(concordance data)的独立数据组构建10个自展集合回归树(bootstrap aggregated regression tree)的系统。建立的预测者随后用于预测该数据组中(参见以下关于清理的更多信息)每一基因分型的基因分型质量。

群体分层分析

为了避免由于群体分层(population stratification)带来的假阳性，利用STRUCTURE软件(39)进行分析。该程序通过利用在整个基因组选择的标志物的Markov chain Monte Carlo采样方法鉴定遗传类似的个体亚群。对所有1,929个样品分析289个高性能SNP的基因分型数据。该分析没有显示群体混合的证据。

遗传关联分析

检验各种表型预测能力的ANOVA分析表明性别和地址(美国或澳大利亚)提供最多的信息，以及年龄和其它人口统计变量并不导致重要的另外的性状差异(表11)。最初的分析方法以逻辑回归为基础：如果p为成为病例的概率，则线性逻辑模型具有公式

\log (\frac{p}{1 - p}) = α + β_{1} g + β_{2} s + β_{3} G + β_{4} gG - - - (2)

其中α为截距，g为分别用于男性或女性的性别代码0或1，并且s为分别用于美国或澳大利亚的地址代码0或1。可变量G代表基因分型并且作为风险等位基因的拷贝数而编码，作为病例中比对照中更常见的等位基因而定义。其遵循公式(2)，即基因分型风险利用对数线性(即倍增的)等级而不是加法等级建模。利用SAS软件包计算优势率系数和置信区间的极大似然估计(40)。

基础模型的预测者为性别和地址。随后检测通过基因分型相互作用的基因分型和性别添加至基础模型是否显著提高预测能力，并且使用产生2自由度的x²(chi-squared)统计通过相应的p-值分级SNP。表12显示根据系数的优势率公式。

根据这些最初的分析，最前面等级的SNP进一步分析显性或隐性遗传方式的重要证据。此利用公式的逻辑回归进行

\log (\frac{p}{1 - p}) = α + β_{1} g + β_{2} s + β_{3} G + β_{4} H - - - (3)

其中H对杂合子为1否则为0。当H为显著的时解释为遗传效应明显偏离对数-线性模型。随后如表13所述计算显性和隐性模型的优势率。

连锁不均衡

在病例和对照中对1Mb窗口内的所有SNP对利用如在计算机程序Haploview(3.2型，互联网上www.broad.mit.edu/mpg/haploview)(41)中执行的EM算法分别进行r²相关性评估。LD的最终测量为来自两个样品的最小r²。根据Hinds等(38)和Carlson等(42)的算法，SNP归组于仓中，其中每一仓包含满足该仓中每一SNP的min(r²)≥0.8的至少一个“标记SNP”。来自所述LD仓的关联标志组可基本上看作单个标志(single signal)。

对多个检验的校正

为了说明多个检验，评估假发现率(False Discovery Rate，FDR)(24，25)以控制报道的标志当中假阳性的比例。由于“A”类基因被认为具有更高的关联先验概率(prior probability of association)，进行Roeder等的建议(43)并且加权“A”类基因SNP10倍。因此，“B”类基因一定具有更强的关联标志用以包含在FDR-滤过的最前面标志的列表中。对于每个p-值，利用公式计算加权的p-值p_w

其中定义w以使加权平均值为1(此取决于选择用于“A”和“B”基因的SNP数)。对于每个加权p-值，计算q-值q_w0，其具有在q_w<q_w0的所有SNP当中FDR不大于q_w0的性质(25，44)。此利用计算机程序QVALUE进行(1.1版，互联网上faculty.washington.edu/jstorey/qvalue)(45)。FDR的评估以q-值为基础。

评估FDR的该方法不考虑LD。因此，作为校正多个检验并且评估统计显著性的另外的度量，FDR利用排列和对“A”和“B”基因加权的p-值评估，其保留LD结构。此通过进行病例对照状态的1,000个随机排列和检验关联排列数据而完成。来自原始数据的p-值显著性通过计数更显著的加权p-值以随机排列出现的次数而评估，其中加权与用于FDR评估的那些相同。

实施例3的补充的材料

DNA制备

在利用PuraGene Reagent System(GENTRA系统)的AutoPure LS自动化DNA提取器上从全血和EBV转化的细胞系提取DNA。RNase加至用异丙醇沉淀DNA的WBC溶解期并且重悬浮于IX TE缓冲液(pH 8.0)中。DNA通过DU-640分光光度计(Beckman)上260nm的光密度(OD)定量并且OD260/280吸光率比例在1.8-2.0之间。等份DNA并且在-80℃冷冻储存直至分配至基因分型实验室。

个体基因分型清理

对对照和交互的等位基因特征组独立计算一致性，随后取两个值的最大值。对于在正反向链特征组的每个位移的每个等位基因，标出最有效特征(brightest feature)的身份。具体的等位基因的一致性计算为最有效的完全匹配特征的次数与整个正反向链位移总数的比率。24个特征SNP中每个等位基因通过6个特征表示，顺着5个位移和正反向链分布，五个完全匹配的探针和一个错配。如果N^X _PM为等位基因X在全部位移和两条链中完全匹配的特征比错配特征更夺目时的次数，则：

具有一致性(concordance)<0.9的SNP特征组放弃进一步的评估。

使得I^TM为给定的等位基因和通过下标表示的链完全匹配强度的修整平均值。计算算术平均值之前修整平均值放弃来自24个-特征中5个完全匹配强度的最高和最低强度。使得I^M为错配强度的平均值；因为每个等位基因和链仅存在一个错配并且不进行修整。信噪比(信号/背景)则定义为计算自完全匹配特征强度的修整平均值的信号振辐和计算自错配特征强度平均值的背景振辐之间的比例。信号和背景如下计算：

具有信号/背景<1.5的SNP特征组放弃进一步的评估。饱和特征数计算为达到数字化数字强度值可能的最高强度的特征数。具有非零饱和特征数的SNP放弃进一步的评估。

作为最后的检验，检验SNP的Hardy-Weinberg平衡(HWE)。

放弃在病例或对照中均具有精确的小于10^-15HWE p-值的那些SNP。肉眼检查具有10^-15和10^-4之间HWE p-值的SNP并且在检测成簇(clustering)问题时放弃之。

表14显示表6中SNP的性别-特异性优势率和95％的置信区间。优势率以公式(2)中基因分型项G的系数为基础并代表G中每个单位增加的风险增高；即风险遵循对数-线性模型(参见表12)。

表14

表15显示呈现来自最初分析的结果以及仅以美国样品为基础的结果的尼古丁依赖性最前面的关联(top association)。惯例与表6相同。

^a类别

表15

表16显示仅以美国样品为基础的尼古丁依赖性的最前面的关联。美国样品的p-值利用省略“地址”项的原始分析的相同的逻辑回归模型。仅显示其中美国样品中加权FDR小于40％的结果。用于仓的LD评估来自美国样品。惯例与表6相同。

^a类别

表9.表6中SNP的性别-特异性优势率和95％的置信区间。仅显示其中性别通过基因分型相互作用而显著的(p<0.05)SNP，并且从每个LD仓选择具有最显著最初的p-值的SNP。优势率以公式(2)中基因分型项G的系数为基础并且代表G中每个单位增加的风险的提高；即风险遵循对数-线性模型(参见表12和13)。

表9.

表10.样品中协变量和FIND得分的概要。根据定义，所有对照受试者对尼古丁依赖性Fagerstrom检验(FTND)的得分为0(34)。

表10

^a平均值±标准差。

表11.协变量的ANOVA分析。对显示的协变量进行逻辑回归、建模成为病例的概率。X²统计来自公式-2(ΔlogL)，其中ΔlogL为逻辑回归中可能性的变化。可变量“地址”具有两种水平：美国和澳大利亚。

表11

模型	ANOVA评估的协变量	X²(ldf)	p-值
模型	ANOVA评估的协变量	X²(ldf)	p-值	性别	性别	40.0	4.2 x 10^-10
性别+年龄	年龄	10.3	1.3 x 10^-03	性别	性别	40.0	4.2 x 10^-10
性别+年龄	年龄	10.3	1.3 x 10^-03	性别+地址	地址	100.4	1.2 x 10^-23
性别+地址+年龄	年龄	0.25	0.62	性别+地址	地址	100.4	1.2 x 10^-23
性别+地址+年龄	年龄	0.25	0.62	性别+地址+性别*地址	性别*地址	0.84	0.36

表12和13.(12)用于最初的逻辑回归模型中性别项g和基因分型项G的编码。等位基因α为风险等位基因，该等位基因在病例中比在对照中更常见。可变量G定义为风险等位基因的拷贝数，对男性或女性g分别为0或1。最后一栏显示给定的基因分型相比AA基因分型性别-特异性优势率的表示，其完全遵循公式(2)中的逻辑回归模型。(13)用于第二个逻辑回归模型的编码。优势率完全遵循公式(3)。注意对于显性模型，两种优势率相等，而对于隐性模型，aA的优势率为1。

表12

表13

实施例3的参考文献：

1.World Health Organization，World Health Statistics 2006(2006)WHOPress，on the internet at www.who.int/whosis(accessed 6/20/2006).

2.Warren，C.W.，Jones，N.R.，Eriksen，M.P.and Asma，S.(2006)GlobalTobacco Surveillance System(GTSS)collaborative group.Patterns of globaltobacco use in young people and implications for future chronic disease burdenin adults.Lancet，367，749-753.

3.Tapper，A.R.，Nashmi，R.and Lester，H.A.(2006)Neuronal nicotinicacetylcholine receptors and nicotine dependence.In Madras，B.K.，Colvis，C.M.，Pollock，J.D.，Rutter，J.L.，Shurtleff，D.，von Zastrow，M.，(eds.)，Cell Biology ofAddiction.Cold Spring Harbor Laboratory Press，Cold Spring Harbor，NY.

4.Laviolette，S.R.and Van de Kooy，D.(2004)The neurobiology of nicotineaddiction：Bridging the gap from molecules to behavior.Nat.Rev.Neurosci.5，55-65.

5.Corrigall，W.A.，Coen，K.M.and Adamson，K.L.(1994)Self-administerednicotine activates the mesolimbic dopamine system through the ventral tegmentalarea.Brain.Res.，653，278-284.

6.World Health Organization，The Tobacco Atlas(2006)，Types ofTobacco Use，on the internet atwww.who.int/tobacco/resources/publications/tobacco atlas(accessed 6/19/06)

7.Lessov，C.N.，Martin，N.G.，Statham，D.J.，Todorov，A.A.，Slutske，W.S.，Bucholz，K.K.，Heath，A.C.，Madden，P.A.(2004)Defining nicotine dependencefor genetic research：evidence from Australian twins.Psychol.Med.，34，865-879.

8.Feng，Y.，Niu，T.，Xing，H.，Xu，X.，Chen，C.，Peng，S.，Wang，L.，Laird，N.and Xu，X.(2004)A common haplotype of the nicotine acetylcholine receptoralpha 4 subunit gene is associated with vulnerability to nicotine addiction in men.Am.J.Hum.Genet.，75，112-121.

9.Li，M.D.，Beuten，J.，Ma，J.Z.，Payne，T.J.，Lou，X.Y.，Garcia，V.，Duenes，A.S.，Crews，K.M.and Elston，R.C.(2005)Ethnic-and gender-specificassociation of the nicotinic acetylcholine receptor alpha4 subunit gene(CHRNA4)with nicotine dependence.Hum.Mol.Genet.，14，1211-1219.

10.Greenbaum，L.，Kanyas，K.，Karni，O.，Merbl，Y.，Olender，T.，Horowitz，A.，Yakir，A.，Lancet，D.，Ben-Asher，E.and Lerer，B.(2006)Why do young womensmoke？I.Direct and interactive effects of environment，psychologicalcharacteristics and nicotinic cholinergic receptor genes.Mol.Psychiatir.，11，312-322.

11.Boustead，C.，Taber，H.，Idle，J.R.and Cholerton，S.(1997)CYP2D6genotype and smoking behaviour in cigarette smokers.Pharmacogenetics，7，411-414.

12.Pianezza，M.L.，Sellers，E.M.，and Tyndale，R.F.(1998)Nicotinemetabolism defect reduces smoking.Nature，393，750.

13.Cholerton，S.，Boustead，C.，Taber，H.，Arpanahi，A.and Idle，J.R.(1996)CYP2D6 genotypes in cigarette smokers and non-tobacco users.Pharmacogenetics，6，261-263.

14.Comings，D.E.，Ferry，L.，Bradshaw-Robinson，S.，Burchette，R.，Chiu，C.and Muhleman，D.(1996)The dopamine D2 receptor(DRD2)gene：a geneticrisk factor in smoking.Pharmacogenetics 6，73-79.

15.Shields，P.G.，Lerman，C.，Audrain，J.，Bowman，E.D.，Main，D.，Boyd，N.R.and Caporaso，N.E.(1998)Dopamine D4 receptors and the risk of cigarettesmoking in African-Americans and Caucasians.CancerEpidemiol.BiomarkersPrev.，7，453-458.

16.Lerman，C.，Caporaso，N.E.，Audrain，J.，Main，D.，Bowman，E.D.，Lockshin，B.，Boyd，N.R.and Shields，P.G.(1999)Evidence suggesting the role ofspecific genetic factors in cigarette smoking.Health Psychol.，18，14-20.

17.Spitz，M.R.，Shi，H.，Yang，F.，Hudmon，K.S.，Jiang，H.，Chamberlain，R.M.，Amos，C.I.，Wan，Y.，Cinciripini，P.，Hong，W.K.and Wu，X.(1998)Case-controlstudy of the D2 dopamine receptor gene and smoking status in lung cancerpatients.J.Natl.Cancer.Inst.，90，358-363.

18.Beuten，J.，Ma，J.Z.，Payne，T.J.，Dupont，R.T.，Crews，K.M.，Somes，G.，Williams，N.J.，Elston，R.C.and Li，M.D.(2005)Single-and multilocus allelicvariants within the GABA(B)receptor subunit 2(GABAB2)gene aresignificantly associated with nicotine dependence.Am.J.Hum.Genet.，76，859-864.

19.Hu，S.，Brody，C.L.，Fisher，C.，Gunzerath，L.，Nelson，M.L.，Sabol，S.Z.，Sirota，L.A.，Marcus，S.E.，Greenberg，B.D.，Murphy，D.L.and Hamer，D.H.(2000)Interaction between the serotonin transporter gene and neuroticism in cigarettesmoking behavior.Mol.Psychiatry，5，181-188.

20.Lerman，C.，Caporaso，N.E.，Audrain，J.，Main，D.，Boyd，N.R.andShields，P.G.(2000)Interacting effects of the serotonin transporter gene andneuroticism in smoking practices and nicotine dependence.Mol.Psychiatry，5，189-192.

21.Beuten，J.，Ma，J.Z.，Payne，T.J.，Dupont，R.T.，Quezada，P.，Huang，W.，Crews，K.M.and Li，M.D.(2005)Significant association of BDNF haplotypesin European-American male smokers but not in European-American female orAfrican-American smokers.Am.J.Med.Genet.B Neuropsychiatr.Genet.，139B，73-80.

22.Li，M.D.(2006)The genetics of nicotine dependence.Curr.Psychiatry.Rep.，8，158-164.

23.Bierut，L.J.，et al.，(2006)Novel genes identified in a high-densitygenome wide association study for nicotine dependence，Hum.Mol.Genet.，16，24-35.

24.Hochberg，Y.and Benjamini，Y.(1990)More powerful procedures formultiple significance testing.Stat.Med.，9，811-818.

25.Storey，J.D.(2002)A direct approach to false discovery rates.J.R.Statist.Soc.B，64，479-498.

26.CDC(2005)Annual smoking-attributable mortality，years of potentiallifelost，and productivity losses-United States.Morbidity & Mortality WeeklyReport，54，625-628.

27.Lindstrom，J.M.(2003)Nicotinic acetylcholine receptors of muscles andnerves：comparison of their structures，functional roles，and vulnerability topathology.Ann.N.Y.Acad.Sci.，998，41-52.

28.Salminen，O.，Murphy，K.L.，McIntosh，J.M.，Drago，J.，Marks，M.J.，Collins，A.C.and Grady，S.R.(2004)Subunit composition and pharmacology oftwo classes of striatal presynaptic nicotinic acetylcholine receptors mediatingdopamine release in mice.Mol.Pharmacol.，65，1526-1535.

29.Cserzo，M.，Wallin，E.，Simon，I.，von Heijne，G.and Elofsson，A.(1997)Prediction of transmembrane alpha-helices in prokaryotic membrane proteins：the dense alignment surface method.Protein Eng.，10，673-676.

30.Stitzel，J.A.，Dobelis，P.，Jimenez，M.and Collins，A.C.(2001)Long sleepand short sleep mice differ in nicotine-stimulated 86Rb+efflux and alpha4nicotinic receptor subunit cDNA sequence.Pharmacogenetics，4，331-339.

31.Dobelis，P.，Marks，M.J.，Whiteaker，P.，Balogh，S.A.，Collins，A.C.andStitzel，J.A.(2002)A polymorphism in the mouse neuronal alpha4 nicotinicreceptor subunit results in an alteration in receptor function.Mol.Pharmacol.，62，334-342.

32.Butt，C.M.，Hutton，S.R.，Stitzel，J.A.，Balogh，S.A.，Owens，J.C.andCollins，A.C.(2003)A polymorphism in the alpha4 nicotinic receptor gene(Chrna4)modulates enhancement of nicotinic receptor function by ethanol.Alcohol.Clin.Exp.Res.，27，733-742.

33.Butt，C.M.，King，N.M.，Hutton，S.R.，Collins，A.C.and Stitzel，J.A.(2005)Modulation of nicotine but not ethanol preference by the mouse Chrna4 A529Tpolymorphism.Behav.Neurosci.，119，26-37.

34.Lewohl，J.M.，Wilson，W.R.，Mayfield，R.D.，Brozowski，S.J.，Morrisett，R.A.and Harris，R.A.(1999)G-protein-coupled inwardly rectifyingpotassium channels are targets of alcohol action.Nat.Neurosci.，12，1084-1090.

35.Ma，J.Z.，Beuten，J.，Payne，T.J.，Dupont，R.T.，Elston，R.C.and Li，M.D.(2005)Haplotype analysis indicates an association between the DOPAdecarboxylase(DDC)gene and nicotine dependence.Hum.Mol.Genet.，14，1691-1698.

36.Heatherton，T.F.，Kozlowski，L.T.，Frecker，R.C.and

，K.O.(1991)The

Test for Nicotine Dependence：a revision of the

Tolerance Questionnaire.Br.J.Addict.，86，1119-1127.

37.Saccone，S.F.，Rice，J.P.，Saccone，N.L.(2006)Power-based，phase-informed selection of single nueleotide polymorphisms for diseaseassociation screens.Genet.Epidemiol.，30，459-470.

38.Hinds，D.A.，Stuve，L.L.，Nilsen，G.B.，Halperin，E.，Eskin，E.，Ballinger，D.G.，Frazer，K.A.and Cox，D.R.(2005)Whole-genome pattems ofcommon DNA variation in three human populations.Science，18，1072-1079.

39.Pritchard，J.K.，Stephens，M.and Donnelly，P.J.(2000)Inference ofpopulation structure using multilocus genotype data.Genetics，155，945-959.

40.SAS Institute Inc.(2004)SAS Release 9.1.3，Cary，NC.

41.Barrett，J.C.，Fry，B.，Maller，J.and Daly，M.J.(2005)Haploview：analysisand visualization of LD and haplotype maps.Bioinformatics，15，263-265.

42.Carlson，C.S.，Eberle，M.A.，Rieder，M.J.，Yi，Q.，Kruglyak，L.andNickerson，D.A.(2004)Selecting a maximally informative set ofsingle-nucleotide polymorphisms for association analyses using linkagedisequilibrium.Am.J.Hum.Genet.，74，106-120.

43.Roeder，K.，Bacanu，S.-A.，Wasserman，L.and Devlin，B.(2006)Usinglinkage genome scans to improve power of association genome scans.Am.J.Hum.Genet.，78，243-252.

44.Benjamini，Y.and Hochberg，Y.(1995)Controlling the false discoveryrate：a practical and powerful approach to multiple testing.J.R.Stat.Soc.B，57，289-300.

45.Storey，J.D.and Tibshirani，R.(2003)Statistical significance forgenomewide studies.Proc.Natl.Acad.Sci.，100，9440-9445.

46.Stein，L.D.，Mungall，C.，Shu，S.，Caudy，M.，Mangone，M.，Day，A.，Nickerson，E.，Stajich，J.E.，Harris，T.W.，Arva，A.，et al.(2002)The genericgenome browser：a building block for a model organism system database.Genome.Res.，12，1599-1610.

实施例4：影响尼古丁依赖性的新基因的变体

烟草的使用为导致全世界范围内残疾和死亡的主要因素，并且遗传因素部分影响尼古丁依赖性的发生。为了鉴定新的基因哪个天然变化促进尼古丁依赖性的发生，利用尼古丁依赖性吸烟者作为病例以及非-依赖性吸烟者作为对照进行全基因组范围的关联研究。为了提供基因组的有效、快速和经济合算的筛选，利用两阶段设计进行该研究。第一个阶段中，在病例和对照库中完成超过240万SNP的基因分型。第二个阶段中，以来自集中的结果(pooled results)的病例和对照之间最显著等位基因频率差异为基础选择用于个体基因分型的SNP。在1050个病例和879个对照中利用31960个所选择的SNP进行个体基因分型。最初的分析，年龄、性别、基因分型和性别协变量通过基因分型相互作用的逻辑回归模型鉴定了具有小于10^-4(最小的p-值为1.53 x 10^-6)p-值的35个SNP。虽然对多个检验校正后没有个体发现是统计上显著的，另外的统计分析支持该组中正确发现的存在。研究命名了尼古丁依赖性发生过程中的一些新基因，如神经元表面蛋白1(NRXN1)，也鉴定了已知的候选基因，β3烟碱胆碱能受体。

主要通过吸烟的烟草使用每年造成约500万人死亡，使得其为世界上可预防死亡率的最大原因(1)，并且尼古丁是造成持续吸烟的烟草中的成分。由于发展中国家中烟草使用增加，据预估到2020年全世界每年的死亡人数将达到1000万以上。

在美国，2004年21％的成人为正在吸烟者，23％的男人和19％的妇女吸烟(2)。每年大约440,000人死于吸烟相关的疾病(3)。吸烟的经济负担相应增高。直接医疗费用的年费用估计为750亿美元且带来920亿美元的生产量的损失。在美国最近30年吸烟的发病率已降低，主要是由于吸烟者成功的戒烟努力。然而由于20世纪90年代中期强调当前吸烟治疗的局限性，成人当中吸烟终止率已经变缓。此外，青少年继续开始使用香烟，最后一个月中报道21％的中学生吸烟。

吸烟行为，包括开始吸烟、吸烟持续(当前的吸烟对比过去的吸烟)以及尼古丁依赖性、家族成群(5)和大量并列研究表明所述成群反映了遗传因素(6-10)。以前的方法使用遗传连锁研究(11-14)和候选基因检验(15-17)以鉴定疑似涉及吸烟和尼古丁依赖性的染色体区域和特定的遗传变体。通过利用在无关个体中的病例对照设计进行高-密度全基因组关联研究以鉴定促进吸烟到发展尼古丁依赖性转变的常见遗传变体而扩展了对遗传因素的查找。

实施例4的结果

对最终吸烟的1050个尼古丁依赖性病例受试者和879个非-依赖性对照样品检查群体分层(population stratification)，没有观察到混合的证据。质量控制方法用于个体基因分型SNP并且得到31,960个SNP用来分析。

最重要的发现在表17中，其SNP具有小于10^-4的p值。列出了之前不参与尼古丁依赖性发生的一些基因并且底下讨论其假设的参与机制。在rs2836823观察到最重要的结果(p-值＝1.53 x 10^-6)。该SNP为基因间的(intergenic)，作为在前发现的部分。如果其物理上不在基因中或已知转录区域的10kb内则该SNP定义为“基因间的”。参见图16对个体基因分型结果的概述。图16中，对影响发展为尼古丁依赖性风险的基因进行的基因组-范围关联扫描的P值，-log₁₀(p)以染色体顺序对每个SNP作图。图上SNP之间的间距以物理图谱长度为基础。水平线显示逻辑分析的P值。垂直线显示染色体边界。黑色菱形表示引起非-同义氨基酸变化的SNP。

由于研究的密集的基因组-范围，这些p-值通过大量统计试验的解释是复杂的。集中的筛选阶段检查大约240万个SNP。虽然这是几乎2000个受试者的大样本，在对多个检验Bonferroni校正后没有SNP显示基因组-范围显著的p-值。然而，一些独立的证据线提供支持，即在该最前面的SNP组中鉴定了正确的遗传关联。

我们对阶段I中的最前面的SNP使用了作用方向一致性，这与在阶段II，作为数据组中真正关联的证据指标所添加的那些样品形成对比。如果数据中没有正确的关联，期望值将为两个样品组之间作用方向的随机分配。相反，阶段I样品中头35个SNP的30个在另外的阶段II样品组中显示相同的作用方向。一致性的水平高度显著，具有来自二项分布的1.1 x 10^-5的p-值，表明误差率与排除偶然一致性的假设有关。因此，根据病例和对照之间真实和可再现的等位基因频率差异富集最前面的SNP(top SNP)。

真正关联存在的进一步的证据来自这些结果与同时进行的候选基因研究的对比。候选基因研究中最重要的发现，β3烟碱样受体候选基因CHRNB3也通过在基因组范围的关联研究中鉴定的SNP而得到标记。该基因具有与尼古丁依赖性相互关系的有力的先验概率(strong prior probability)，并且上述实施例中的任何候选基因选择在基因组范围关联研究中最前面的SNP组(top group of SNP)中的可能性小于5％。

为了调查病例和对照之间等位基因频率差异的集中的基因分型评估的准确性，检查了集中的和个体基因分型结果之间的相互关系。集中的基因分型实际上富集了集中的研究中包括的病例和对照之间相当大等位基因频率差异的所选择的SNP组。当p-值仅利用阶段I的样品计算自个体基因分型时，存在小p-值的有力的富集(参见图17a)。如果集中的基因分型一点也不成功，p-值的分布将是均匀的，并且如果合并(pooling)完全准确，则仅小的p-值存在于在样品子集中评估的个体基因分型阶段中。如参见图17a，结果在两端之间。还检查了加入阶段II的样品的p-值，其不在合并的步骤中。因为这些阶段II样品为来自病例和对照群体的独立随机样本，并不期待其显示如阶段I样品的相同的等位基因频率差异，阶段I样品的那些差异应归于抽样误差。因此，其p-值除了可能的真实关联外应该是均匀分布的，其在两组样品之间将是一致的。此参见图17b。该图表是相当均一的，仅有小p-值的微小增加。图17中，板A显示来自31960个选自集中的基因分型阶段个体，基因分型SNP的阶段I样品的p-值分布。该分布表明集中的基因分型产生具有小p-值的SNP的富集。如果集中的基因分型和个体基因分型之间没有相关性则从0-1的均匀分布是可预期的。图17的板B显示来自加入阶段II的另外的样品的p-值分布。该分布是相当均一的，仅有小p-值的微小富集。

此外，直接比较以集中的基因分型为基础评估的等位基因频率与以个体基因分型为基础评估的等位基因频率。如参见图18，评估自集中的和个体的基因分型结果的大部分等位基因频率沿着对角线分布。如果分别检查病例或对照样品可见类似的发现。计算评估自病例集中的基因分型的等位基因频率和阶段I的病例个体基因分型样品(病例受试者N＝482)中计算的等位基因频率之间87％的相关性。同样，来自阶段I的对照样品中(对照受试者N＝466)集中的基因分型和个体的基因分型的对比中存在84％的等位基因频率相关性。当比较库(pool)中病例和对照之间的频率差异(其由于对个体基因分型SNP选择而无疑很大)与个体基因分型中病例和对照之间的差异时，发现58％的相关性。此表明集中的基因分型和个体的基因分型结果之间高水平的一致性；因此集中的基因分型在鉴定个体基因分型病例和对照受试者中呈现等位基因频率差异的SNP上获得成功。图18显示来自阶段I样品的合并的和个体基因分型的等位基因频率散布图。

最后，检查美国和澳大利亚样品之间可能的差异。来自两个群体的病例和对照的对比在性别或分层结果上没有显示任何显著差异。

实施例4的论述

吸烟促进群体的大部分的发病率和死亡率，并列研究提供强有力的证据，即遗传因素实质上影响发生尼古丁依赖性的风险。此为目的是为了鉴定尼古丁依赖性的常见易感性或抗性基因变体的第一个高密度、基因组范围的关联研究。

该研究鉴定了一些新的基因，其作为尼古丁依赖性发生的潜在的贡献者，如神经元表面蛋白1(NRXN1)。NRXN1中至少存在两个信号，参见表18。SNP rs10490162与另外的两个SNP弱相关，其在基因中进行了基因分型(与该另外的两个SNP的最大成对相关性(maximum pair correlation)为r²＝0.45，发现互相处于很强的不均衡中)。感兴趣的是，另一个神经元表面蛋白基因神经元表面蛋白3(NRXN3)报道为通过Uhl和同事(19)的集中的基因组范围关联研究中多种物质成瘾性的易感性基因。此外，研究的NRXN3中最重要的SNP rs2221299具有0.0034的p-值。虽然研究中实质上存在与NRXN3关联的更少的证据，物质依赖性的两个独立研究发现与神经元表面蛋白基因关联的证据的事实值得进一步研究。

神经元表面蛋白基因家族为在细胞间相互作用中起作用并且要求正常的神经递质释放的主要在神经元中表达的一组多型细胞表面蛋白质(20)。神经元表面蛋白为γ-氨基丁酸能和谷氨酸能突触发生的重要因子并且为报道诱导γ-氨基丁酸能突触后分化的唯一的已知因子。NRXN1和NRXN3在最大的已知人基因当中，并且其利用至少两个启动子和可选择的剪接外显子以产生数千不同的mRNA转录物和蛋白质异构体。有假说认为神经元表面蛋白异构型通过γ-氨基丁酸能和谷氨酸能神经元的差异表达促进突触后分化的局部诱导。由于物质依赖性作为刺激性和抑制性神经传递的相对不平衡而建模(或与“抑制解除”有关)，神经元表面蛋白基因为通过刺激性或抑制性途径之间调节的选择而促进依赖性神经生物学的似合理的新候选基因。这些基因的生物学表征可定义神经发育或神经递质释放和依赖性的作用。

该研究还鉴定了空泡分选蛋白VPS13A，其作为尼古丁依赖性潜在的贡献者。感兴趣的是，3个独立的吸烟遗传连锁研究(11-13)鉴定了该基因附近染色体9上的区域。该基因看来似乎通过细胞膜控制蛋白质的循环，并且存在许多可选择的转录物。VPS13A基因中的变体引起渐进性的神经变性以及红细胞棘红细胞症(red cell acanthocytosis)(22)。用于进一步研究的另一个新的基因为TRPC7(瞬间受体电位)通道，其编码多聚体钙离子通道的亚基(23)。利用动物模型的最近的研究表明TRPC通道可在运动回路中功能性地调节尼古丁-诱导的神经元活性(24)。

存在通过最前面的SNP标记的一些其他基因。α连环蛋白基因CTNNA3抑制Wnt信号并且具有影响阿尔茨海默氏病家族中血浆淀粉样蛋白β蛋白(Abeta42)水平的变体(25)，虽然其他报道未能发现与阿尔茨海默氏病的关联(26)。CLCA1基因编码钙-激活的氯通道，其为哮喘(27)和慢性阻塞性肺病(28)的发病机理。虽然这些基因不具有与尼古丁代谢或作用机理的已知的相互关系，但其参与大脑和肺的功能并且因此具有与吸烟行为和依赖性的似合理的生物学相互关系。

除了基因组范围的关联研究涉及的新基因之外，经典的候选基因β3烟碱样受体(CHRNB3)也在该最前面的组(top group)当中。烟碱样受体是突触介导快速信号传递的配体-门控的离子通道家族。尼古丁为产生生理应答的这些受体的激动剂。

根据作为最初的分析模型一部分的不同的性别作用检测SNP。部分最前面的SNP对男人和妇女具有明显不同的优势率(表17)。根据流行病学数据很清楚依赖性发生风险中存在重要的性别差异，并且该研究提供分开的基因可能促进男性和女性中尼古丁依赖性发生的证据。最初的分析之后，进一步分析最前面等级的SNP以确定是否存在其他传递方式，如隐性或显性模型的证据。最前面组中任何SNP的这些模型的任何一个不存在合适改进的证据。

这些最前面关联SNP的最大作用范围为2.53的优势率。由于许多多重比较的“累积效应”，这些评估很可能是正确群体值的过高估计。存在用于校正这些评估的一些替代物，但还没应用于这些数据。效应规模评估与促进依赖性发生的多个基因的合适效应一致。

基因组范围的关联研究是尼古丁依赖性大范围遗传检测的第一步。我们的分析计划确定为演绎性质的，使得我们能够最清楚地解释所述结果。有目的地选择以检查全部样品作为最初的分析，而不是使用分开的样本设计，因为感觉此具有检测正确的发现的最大能力(29)。

例如吸烟和尼古丁依赖性与许多其他的病症有关，如酒精依赖性和主要的压抑病症(-33)。样品的初步分析已证实其他的病症与尼古丁依赖性的集中存在于样品中。此外，尼古丁依赖性可通过其他指标定义，如诊断和统计手册，TV版本(DSM-IV)中的American Psychiatric Association标准(34)。以前的工作已表明由于FIND和DSM-IV定义集中于依赖性的不同特征，因此虽然尼古丁依赖性以不同的指标关联，但不存在完美的重叠(35)。FTND为集中于生理依赖性的指标，而DSM-IV依赖性包括依赖性的认知和行为方面。尼古丁依赖性通过FTND和DSM-IV的不同分类也在受DSM-IV尼古丁依赖性影响的75％的病例(FTND≥4)和24％对照(FTND＝0)样品中可见。还预期可检查并存病症和尼古丁依赖性的不同定义以解释有助于这些关联发现的一些个体特征。

总之，了解尼古丁依赖性的工作很重要而使得可发展新的方法以降低烟草的使用尤其是吸烟。基因组的系统调查命名了新的基因，如NRXN1，其提高个体从吸烟转变至尼古丁依赖性的风险。这些基因的遗传学和生物学表征促进了解强调的尼古丁依赖性的因果关系并且可选择性地提供用于终止吸烟的新的药物开发靶标。这些变体通常也选择性地参与上瘾行为。当前用于尼古丁依赖性的药物治疗继续只产生有限的戒瘾成功性，而改造药物以促进在个体遗传背景下的吸烟终止(例如通过本发明)可显著提高治疗效力。我们的工作可通过遗传变体的大规模研究而选择性地促进医学实践中个性化的方案。如今可研究新的靶标并且有希望促进改进的治疗选择的出现以减轻主要的健康负担并且降低吸烟相关的死亡。

实施例4的材料和方法

该研究的目的为鉴定促进吸烟至发展为尼古丁依赖性的进展的基因。因此，该研究检查尼古丁依赖性受试者和吸烟但从未发展成尼古丁依赖性的个体之间的表型对比。

受试者

所有受试者(1050个病例和879个对照)选自两个正在进行的研究：尼古丁依赖性的合作遗传研究，基于美国的样品(St.Louis，Detroit和Minneapolis)以及尼古丁成瘾性遗传学研究，基于澳大利亚的欧洲-祖先的样品。美国样品通过受试者基于社区电话筛选而招募，电话筛选用以确定作为病例(当前的FTND≥4)或对照状态的招募合格性。邀请合格受试者参与该遗传研究。澳大利亚参与者作为澳大利亚并行小组的家族和配偶而在昆士兰医学研究所登记。

机构评审委员会批准两种研究并且所有受试者书面同意。从每个受试者收集血样用于DNA分析并且与电子表型数据一起提交至NBDA遗传研究中心，其根据NTH准则管理研究数据的共享。所有受试者自我鉴定为欧洲血统的。参见用于进一步人口统计细节的表19。

表型数据

在两个地址进行同等评估。给予利用一些不同的标准如用于尼古丁依赖性的Fagerstrom检验(36)和精神错乱-IV诊断和统计手册(34)全面评估尼古丁依赖性的面谈情况。

尼古丁依赖性的病例定义

该实施例关注用于尼古丁依赖性遗传关联研究的无关个体的病例对照设计。通过常用的尼古丁依赖性定义确定病例，即当吸烟最厉害时用于尼古丁依赖性的Fagerstrom检验(FTND)的得分为4或更大(最大得分为10)(36)。美国和澳大利亚样品之间没有观察到显著差异(平均FTND：美国的为6.43而澳大利亚病例为6.06)。

对照的定义

对照受试者状态定义为吸烟(通过其一生吸烟至少100支定义)然而从未变成依赖性的(一生FTND＝0)个体。历史上吸烟100支或以上的阀值已作为“吸烟者”的定义用于调查研究中。选择吸烟对照后，该研究集中于与从吸烟转变至尼古丁依赖性有发生关的那些遗传效应。来自澳大利亚并行小组的另外的数据支持此对照状态的定义。吸烟的同卵双生孪生子当中，利用重度吸烟指标(HSI-，FTND的简略版)(37)定义为得分4或以上的尼古丁依赖性比率，在具有HSI得分为0的双胞胎中最低；甚至比已尝试吸烟的双胞胎更低，但从未变成吸烟者，或者是从未吸烟甚至是一支香烟的双胞胎(参见表20)。

DNA制备

从全血和EBV转化的细胞系提取DNA并且等份和冷冻储存在-80℃直至分配给基因分型实验室。

研究设计

为了提供超过240万SNP的有效、快速和经济合算的筛选，利用两阶段设计进行全基因组关联研究。

阶段I-集中的基因分型高-密度寡核苷酸基因分型阵列：

阶段I中，选择来自欧洲祖先的美国和澳大利亚受试者的482个病例和466个对照DNA样品用于研究。为了检查潜在的群体分层，利用295个个体基因分型的SNP进行结构分析(38)。选择的SNP大致以均匀间距跨越常染色体并且选择用于分层分析(39)。该结构程序通过利用在整个基因组选择的标记物的Markov chain Monte Carlo采样方法鉴定遗传类似的个体亚群。没有群体混合的证据。病例和对照随后置于库(pool)中用于240万个SNP的基因分型，并且确定病例和对照库之间等位基因频率差异的评估。

利用8个病例和8个对照库进行集中的基因分型。利用Pico Green定量DNA。标准化并且验证浓度至变化系数(coefficient of variation)在<10％内。来自大约60个个体的等摩尔量的DNA置入16个库的每个中。个体样品仅包含在一个库中。该16个库与设计用以查询全基因组2427354个SNP的49个芯片杂交。

库等位基因频率评估的确定：

利用收集自高-密度寡核苷酸阵列的强度估计等位基因频率。SNP的等位基因频率p为参照等位基因的DNA的相对含量与DNA总量的比例，并且因此可具有0和1之间的值：

\underset{&OverBar;}{p = \frac{C_{Ref}}{C_{Ref} + C_{Alt}}}

其中C_Ref和C_Alt分别为参照等位基因和交互等位基因的浓度。因为探针强度与SNP等位基因的浓度直接相关，计算自参照和交互特征强度的

为正确的等位基因频率p的很好的近似值。

值计算自减去计算自错配特征调整的强度平均值的背景数据后，完全匹配特征的调整的强度平均值：

\underset{&OverBar;}{\hat{P} = \frac{I_{PM, Re f}^{TM} - I_{MM}^{TM}}{(I_{PM, Re f}^{TM} - I_{MM}^{TM}) + (I_{PM, Alt}^{TM} - I_{MM}^{TM})}}

其中

\begin{matrix} \underset{&OverBar;}{I_{MM}^{TM} = (I_{MM, Re f, Fwd}^{TM} + I_{MM, Re f, Rev}^{TM} + I_{MM, Alt, Fwd}^{TM} + I_{MM, Alt, Rev}^{TM}) / 4} \\ \underset{&OverBar;}{I_{PM, Re f}^{TM} = (I_{PM, Re f, Fwd}^{TM} + I_{PM, Re f, Rev}^{TM}) / 2} \\ \underset{&OverBar;}{I_{PM, Alt}^{TM} = (I_{PM, Alt, Fwd}^{TM} + I_{PM, Alt, Rev}^{TM}) / 2} \end{matrix}

I^TM为给定的等位基因和通过下标表示的链完全匹配或错配强度的调整的平均值。计算算术平均值之前修整平均值(trimmed mean)不考虑来自40个-特征中5个完全匹配强度和5个错配强度的最高和最低强度。

发展三种质量控制度量以评估阵列扫描上的SNP的强度置信度。第一种度量，一致性(concordance)，对SNP评估靶标的存在。第二种度量，信噪比，涉及特异性和非特异性结合的量，其评估自完全匹配和错配特征的强度。第三种度量追踪具有饱和强度的每个SNP中的特征数。截距应用于所有的三种度量，并且放弃没有通过所述度量的SNP特征组，这些组不进行进一步评估。

对对照和交互的等位基因特征组独立计算一致性，随后取两个值的最大值。对于在正反向链特征组的每个位移的每个等位基因，标出最有效特征(brightest feature)的身份。具体的等位基因的一致性计算为完全匹配特征最有效的次数与整个正反向链位移总数的比率。40个特征SNP中每个等位基因由20个特征表示，沿着5的位移和正反向链分布。如果N^X _PM为等位基因X在全部位移和两条链中完全匹配的特征比错配特征更有效时的次数，则：

具有一致性<0.9的SNP特征组放弃进一步的评估。

信噪比为计算自完全匹配特征强度的修整平均值的信号振辐和计算自错配特征强度修整平均值的背景振辐之间的比例。信号和背景如下计算：

如上所述获得完全匹配特征组的和错配特征组的修整平均强度I^TM。具有信号/背景<1.5的SNP特征组放弃进一步的评估。

饱和特征数计算为达到数字化数字强度值可能的最高强度的特征数。具有>0饱和特征数的SNP放弃进一步的评估。

阶段II SNP选择：

计算经验p-值以分别评估每个SNP的关联

与正常的t检验p-值类似计算校正的t检验p-值。

为了检验平均病例

和平均对照

之间的差异，通过特定设计的加法常数芯片校正标准误。通过最小化每个芯片设计的t检验的离差系数获得加法常数。标准误加法常数确保SNP选择不偏向低的或高的标准误，因为没有具有低或高标准误的SNP或多或少可能与表型有关的之前的证据。经验p-值通过将等级除以该芯片设计上通过的SNP总数而计算自每个芯片设计的校正的t检验p-值等级。参见标准误分布的图19。

SNP选择标准

SNP选自那些对病例和对照具有至少两个合格

值的SNP。选择的SNP作图于人基因组构造(human genome build)35上并且成功设计了测定法。0.0196的经验p-值截距用于选择SNP。

阶段II个体基因分型

为了个体基因分型，设计定制的阵列(custom array)以查询41402个SNP，其包括选自集中的基因分型(39213)的SNP和分层以及质量控制的SNP(2189)。阶段II中，对最初的病例和对照样品以及欧洲血统的另外的病例和对照受试者进行个体基因分型，最终的样本量为1929个个体(1050个病例和879个对照)。

通过将所有的SNP扫描归类于通过参照和交互的完全匹配修整平均值强度定义的2-维空间而确定个体基因分型。修整平均值强度如上所述在节“集中的等位基因频率评估的确定”中计算。基因分型归类方法(genotypeclustering procedure)为作为K-平均值和强制多重线性回归的组合而开发的迭代算法(iterative algorithm)。每个步骤的K-平均值重新评价代表不同二倍体基因分型的归类成员。多重线性回归最小化每个归类内

的变化而优化回归线的普通交叉。普通交叉限定用于调整K-平均值下一步等位基因频率的常见背景。重复K-平均值和多重线性回归步骤直至归类成员和背景评估收敛。通过最大化超过可能的归类数1、2和3(代表3种可能的二倍体基因分型组合)的总可能性而选择最好的归类数(number of cluster)。总可能性由数据可能性和模型可能性组成。利用用于围绕归类平均值(cluster mean)的

分布的标准混合模型确定数据可能性。利用预期归类位置(prior distributionof expected cluster position)的先验分布计算模型可能性，其产生纯合对照归类0.8，杂合归类的0.5以及纯合交互归类的0.2的最适的

位置。

利用描述SNP和基因分型质量的15个输入度量对每个基因分型编写基因分型质量度量。基因分型质量度量与Perlegen平台和外部基因分型平台(即非-Perlegen HapMap计划基因分型)之间具有不一致呼叫的概率有关。利用Perlegen基因分型和HapMap计划基因分型之间一致数据的独立数据集构建10个自展集合回归树(bootstrap aggregated regression tree)的系统。构建的预测因子用于对该数据集中每一基因分型预测基因分型质量。

图19显示利用不同标准选择的SNP的标准误的分布图。该图举例说明了

截距优先选择具有高Δ

标准误的SNP，正常的t检验优先选择具有低标准误的SNP并且校正的t检验以来自所有SNP的标准误分布为中心。

Hardy Weinberg均衡

分别对病例和对照检验Hardy Weinberg均衡(Hardy WeinbergEquilibrium)，(HWE)。排除病例或对照中不满足p-值<10^-15水平HWE的SNP。由于病例和对照中的该极度不均衡分别有859个和797个常染色体SNP被排除，这些SNP的765个为两组所共有。来自HWE的该偏差水平指出SNP基因分型和归类(clustering)的问题。由于与表型关联可导致SNP不在HWE中，观察具有10^-4和10^-15之间HWE p-值的SNP，并且检测归类问题，排除所述SNP用以进一步的分析。此产生分析所用的31960个SNP。

群体分层

为了避免由于在较大样品中隐蔽的群体分层而造成的假阳性结果，在1929个受试者的扩大样本中(38)利用对289个良好表现的SNP的基因分型数据(39)重复结构分析。再次没有显示群体混合(population admixture)的证据。另外仅阶段II样品中检验统计量的非-膨胀(non-inflated)Q-Q图(图20)表明缺乏与病例对照状态有关的群体混合。图20显示产生自在阶段II时加至阶段I样品的样品逻辑回归ANOVA偏差的Q-Q图。由于这些样品与用于来自集中的基因分型的SNP选择的阶段I样品无关，因此检验统计量预计基本上遵循零分布(null distribution)(2自由度的Chi平方分布(Chi-square distribution with 2 degrees of freedom)。由于该样品组相比样品联合组的较低的能力以及该研究中发现的小的效应规模，并不期待任何可能的关联以低p-值群集，由此改变该Q-Q图的线性形状。虚线代表预期零分布的95％点置信度包迹(95％ point-wise confidence envelope)。

协变量分析

个体可用的协变量为性别、年龄、地址(美国或澳大利亚)以及样品(第一个或第二个)。进行遗传分析之前，对数据的检查表明性别和招募地址的协变量为病例和对照状态的重要的预测因子并且用作逻辑回归模型中的协变量。

遗传关联

开发了一种演绎分析策略以使随后能解释结果并且避免利用不同分析方法带来的多个检验问题。由于其检测正确发现的最强的能力，最初的分析中选择检查1929个个体的总样品(29)。对于最初的单个SNP关联分析，使用逻辑回归以引入重要的协变量性别和地址(美国，澳大利亚)并且利用具有2自由度的Chi平方统计量标准似然比与基因分型性别相互作用项一起进行基因分型的作用的检测。该方法使得我们能够检测具有性别-特定作用的SNP以及在男性和女性中具有类似作用的SNP。对于这些最初的分析，根据“风险”等位基因数(0、1或2)编码基因分型，其中该风险等位基因定义为在病例中比在对照中具有更高频率的等位基因。该编码添加至对数标度并且因此与倍增遗传模式对应。完整模型与仅包括性别和招募地址的简化模型相比较，并且通过具有2自由度的Chi平方检验评估显著性。得到的p-值用于排序SNP。

这些最初的分析之后，进一步分析最前面等级的SNP以确定是否存在选择性的传递方式，如隐性或显性模型的重要证据。

表17.具有最初模型p-值<0.0001的SNP。列出的基因在SNP位置的10kb范围之内。

sNP 基因 Chr Pos(bp) 风险等位基因^h 最初的p- 男性优势率女性优势率(95％

值 (95％C1) CI)

rs2836823 21 39,302,119 T(0.48/0.4) 1.53E-06 1.35(1.08-1.68) 1.46(1.23-1.73)

rs4142041 CTNNA3 10^a 68,310,957 G(0.41/0.34) 5.64E-06 1.73(1.37-2.2)^* 1.14(0.97-1.35)^*

GPSM3，AGPAT1，

NOTCH4，RNF5，

rs999ⁱ AGER，PBX2，AGER 6 32,261,864 C(0.96/0.94) 1.42E-05 1.92(1.06-3.45) 253(1.62-3.95)

rs12623467 NRXN1 2^g 51,136,740 C(0.96/0.92) 1.48E-05 2.42(1.51-3.88) 1.57(1.14-2.16)

rs1782159 14^b 40,826,319 C(0.25/0.2) 1.87E-05 1.97(1.46-2.65)^* 1.09(0.87-1.36)^*

rs12380218 VPS13A 9^c 77,165,214 G(0.24/0.19) 2.09E-05 1.18(0.9-1.55) 1.56(1.28-1.91)

rs2022443 VPS13A 9^c 77,099,406 G(0.24/0.19) 2.49E-05 1.12(0.86-1.45)^* 1.57(1.29-1.91)^*

rs2673931 TRPC7 5^d 135,717,335 T(0.66/0.61) 3.89E-05 1.68(1.34-2.12)^* 1.04(0.87-1.24)^*

rs4142603 9^c 76,998,948 C(0.25/0.19) 4.05E-05 1.15(0.9-1.47) 1.52(1.26-1.84)

rs1031006 5 14,040,103 A(0.67/0.62) 430E-05 0.98(0.78-1.24)^* 1.49(1.25-1.78)^*

rs2791480 CLCA1 1 86,680,605 G(0.78/0.72) 4.38E-05 1.53(1.19-1.97) 1.33(1.1-1.61)

rs10049135 3 72,731,670 A(0.89/0.86) 4.65E-05 2.09(1.51-2.91)^* 0.96(0.75-1.24)^*

rs11145381 VPS13A 9^c 77,144,695 C(0.23/0.18) 472E-05 1.19(0.91-1.57) 1.54(1.26-1.88)

rs2798983 14^b 40,841,983 C(0.2810.22) 4.77E-05 1.63(1.25-2.13) 1.28(1.05-1.55)

rs2546657 TRPC7 5^d 135,711,634 A(0.66/0.62) 4.96E-05 1.67(1.33-2.09)^* 1.01(0.85-1.2)^*

rs1782182 14^b 40,766,891 G(0.31/0.25) 5.28E-05 1.72(1.33-2.22)^* 1.14(0.95-1.38)^*

rs10490162 NRXN1 2 51,159,308 T(0.91/0.86) 5.66E-05 1.92(1.34-2.75) 1.39(1.08-1.79)

rs11694463 2 12,732,219 c(0.12/0.09) 6.10E-05 2.1(1.4-3.15) 1.37(1.05-1.78)

rs17706334 11^e 108,486,074 A(0.97/0.94) 6.38E-05 1.71(1.05-2.8) 2.19(1.44-3.33)

rs17706299 11^e 108,486,027 C(0.97/0.94) 6.51E-05 1.71(1.05-2.79) 219(1.44-3.33)

rs13277254 CHRNB3 8^f 42,669,139 A(0.81/0..76) 6.54E-05 1.19(0.92-1.55) 1.55(1.26-1.91)

rs12467557 NRXN1 2^g 51,153,921 A(0.96/0.93) 6.88E-05 2.53(1.48-4.31) 1.62(1.14-2.3)

rs17633258 11^e 108,491,084 c(0.97/0.94) 7.31E-05 1.9(1.14-3.15) 2.11(1.38-3.23)

rs4859365 4 35,345,098 G(0.52/0.45) 7.72E-05 1.49(1.2-1.86) 1.24(1.04-1.47)

rs10793832 FBXL17 5 107,348,129 C(0.32/0.26) 8.13E-05 1.11(0.87-1.41) 1.47(1.23-1.76)

rs1782134 14^b 40,785,318 T(0.3/0.25) 8.18E-05 1.68(1.3-2.18)^* 1.15(0.96-1.39)^*

rs11157219 14^b 40,852,451 G(0.3/0.24) 8.78E-05 1.7(1.31-2.2)^* 1.16(0.96-1.4)^*

rs2302673 FTO 16 52,625,622 T(0.87/0.84) 8.85E-05 1.04(0.76-1.44)^* 1.69(1.33-2.16)^*

rs1612945 14^b 40,805,691 C(0.3/0.24) 8.91E-05 1.66(1.29-2.15)^* 1.18(0.98-1.42)^*

rs1782145 14^b 40,800,126 C(0.3/0.24) 9.06E-05 1.65(1.28-2.14)^* 1.18(0.98-1.42)^*

rs1782141 14^b 40,795,921 A(0.3/0.25) 9.20E-05 1.68(1.3-2.16)^* 1.15(0.96-1.39)^*

rs17633211 11^e 108,490,715 T(0.97/0.94) 9.33E-05 1.9(1.14-3.15) 2.09(1.37-3.19)

rs6474413 CHRNB3 8^f 42,670,221 T(0.81/0.76) 9.36E-05 1.18(0.91-1.53) 1.54(1.25-1.9)

rs9332406 CTNNA3 10^a 68,340,205 A(0.4/0.34) 9.71E-05 1.63(1.28-2.06)^* 1.11(0.94-1.32)^*

rs1782144 14^b 40,799,523 G(0.3/0.24) 9.88E-05 1.65(1.28-2.14)^* 1.18(0.98-1.43)^*

表17的图例：

^*男性和女性显著不同的优势率

^a0.89r²相关性的两个Chr的10个SNP

^b>0.85最小的成对r²相关性的九个Chr的14个SNP

^c>0.85最小的成对r²相关性的四个Chr的9个SNP

^d0.99 r²相关性的两个Chr的5个SNP(另外的两个Chr的5个SNP不相关)

^e>0.95最小的成对r²相关性的四个Chr的11个SNP

^f1 r²相关性的两个Chr的8个SNP

^g0.91 r²相关性的两个Chr的2个SNP(另外的两个Chr的2个SNP具有<50％的成对相关性)

^h任意选择风险等位基因为病例中更占优势的等位基因以便于整个SNP作用规模的对比。无论如何此并不暗示变体的作用是已知的；另外的等位基因可以是保护性的。此外，等位基因可以与dbSNP中报道的那些互补(参见在线SNP信息)。

^Irs999的等位基因频率在这些数据中比dbSNP中报道的有很大的不同；此可以表示该研究中正确基因分型此SNP的失败。

表18.基因NRNX1和VPS13A中所有SNP个体基因分型

^a染色体 ^b来自逻辑回归分析的最初的2dfp-值

表19.病例和对照中性别、年龄、FIND得分和招募地址的分布

表20.同卵双生孪生子中尼古丁依赖性的发病率

双胞胎吸烟史

吸烟者当中尼古丁依赖的应答％

从不吸烟 16.67％

吸烟1-2次 4.84％

吸烟3-20次 4.17％

吸烟21-99次 6.52％

吸烟100次或更多，HSI＝0 1.63％

吸烟100次或更多，HSI＝1 2.47％

吸烟100次或更多，HSI＝2 4.79％

吸烟100次或更多，HSI＝3 5.06％

吸烟100次或更多，HSI＝4 50.78％

吸烟100次或更多，HSI＝5 68.42％

吸烟100次或更多，HSI＝6 72.73％

实施例4的参考文献：

1.WHO(2006)(on the internet atwww.wpro.who.int/media centre/factsheets/fs 20060530.htm)The facts aboutsmoking and health.

2.CDC(2005)Annual smoking-attributable mortality，years of potentiallife lost，and productivity losses--United States，1997-2001.Morbidity &Mortality Weekly Report，54，625-628.

3.CDC(2005)Cigarette smoking among adults-United States，2004.Morbidity & Mortality Weekly Report，54，1121-1124.

4.CDC(2004)Cigarette use among high school students--United States，1991-2003.Morbidity & Mortality Weekly Report，53，499.

5.Bierut，L.J.，Dinwiddie，S.H.，Begleiter，H.，Crowe，R.R.，Hesselbrock，V.，Nurnberger，J.I.，Jr.，Porjesz，B.，Schuckit，M.A.and Reich，T.(1998)Familialtransmission of substance dependence：alcohol，marijuana，cocaine，and habitualsmoking：a report from the Collaborative Study on the Genetics of Alcoholism.Arch.Gen.Psychiatry，55，982-988.

6.Carmelli，D.，Swan，G.E.，Robinette，D.and Fabsitz，R.(1992)Geneticinfluence on smoking--a study of male twins.N.Engl.J.Med.，327，829-833.

7.Heath，A.C.and Martin，N.G.(1993)Genetic models for the naturalhistory of smoking：evidence for a genetic influence on smoking persistence.Addict.Behav.，18，19-34.

8.True，W.R.，Xian，H.，Scherrer，J.F.，Madden，P.A.，Bucholz，K.K.，Heath，A.C.，Eisen，S.A.，Lyons，M.J.，Goldberg，J.and Tsuang，M.(1999)Common genetic vulnerability for nicotine and alcohol dependence in men.Arch.Gen.Psychiatry，56，655-661.

9.Madden，P.A.，Heath，A.C.，Pedersen，N.L，Kaprio，J.，Koskenvuo，M.J.and Martin，N.G.(1999)The genetics of smoking persistence in men and women：a multicultural study.Behav.Genet.，29，423-431.

10.Lessov，C.N.，Martin，N.G.，Statham，D.J.，Todorov，A.A.，Slutske，W.S.，Bucholz，K.K.，Heath，A.C.and Madden，P.A.(2004)Defining nicotinedependence for genetic research：evidence from Australian twins.Psychol.Med.，34，865-879.

11.Li，M.D.，Ma，J.Z.，Cheng，R.，Dupont，R.T.，Williams，N.J.，Crews，K.M.，Payne，T.J.and Elston，R.C.(2003)A genome-wide scan to identify locifor smoking rate in the Framingham Heart Study population.BMC Genet.，4Suppl 1，S103.

12.Bierut，L.J.，Rice，J.P.，Goate，A.，Hinrichs，A.L.，Saccone，N.L.，Foroud，T.，Edenberg，H.J.，Cloninger，C.R.，Begleiter，H.，Conneally，P.M.et al.(2004)A genomic scan for habitual smoking in families of alcoholics：commonand specific genetic factors in substance dependence.Am.J.Med.Genet.A，124，19-27.

13.Gelernter，J.，Liu，X.，Hesselbrock，V.，Page，G.P.，Goddard，A.andZhang，H.(2004)Results of a genomewide linkage scan：support forchromosomes 9 and 11 loci increasing risk for cigarette smoking.Am.J.Med.Genet.B Neuropsychia.tr.Genet，128，94-101.

14.Swan，G.E.，Hops，H.，Wilhelmsen，K.C.，Lessov-Schlaggar，C.N.，Cheng，LS.，Hudmon，K.S.，Amos，C.I.，Feiler，H.S.，Ring，H.Z.，Andrews，J.A.et al.(2006)A genome-wide screen for nicotine dependence susceptibility loci.Am.J.Med.Genet.B Neuropsychia.tr.Genet，141，354-360.

15.Li，M.D.，Beuten，J.，Ma，J.Z.，Payne，T.J.，Lou，X.Y.，Garcia，V.，Duenes，A.S.，Crews，K.M.and Elston，R.C.(2005)Ethnic-and gender-specificassociation of the nicotinic acetylcholine receptor alpha4 subunit gene(CHRNA4)with nicotine dependence.Hum.Mol.Genet.，14，1211-1219.

16.Beuten，J.，Ma，J.Z.，Payne，T.J.，Dupont，R.T.，Crews，K.M.，Somes，G.，Williams，N.J.，Elston，R.C.and Li，M.D.(2005)Single-and multilocusallelic variants within the GABA(B)receptor subunit 2(GABAB2)gene aresignificantly associated with nicotine dependence.Am.J.Hum.Genet.，76，859-864.

17.Feng，Y.，Niu，T.，Xing，H.，Xu，X.，Chen，C.，Peng，S.，Wang，L.andLaird，N.(2004)A common haplotype of the nicotine acetylcholine receptoralpha 4 subunit gene is associated with vulnerability to nicotine addiction in men.Am.J.Hum.Genet.，75，112-121.

18.Saccone，et al.，(2006)Cholinergic nicotinic receptor genes implicatedin a nicotine dependence association study targeting 348 candidate genes with3713 SNPs，Hum.Mol.Genet.，16：36-49.

19.Liu，Q.R.，Drgon，T.，Walther，D.，Johnson，C.，Poleskaya，O.，Hess，J.and Uhl，G.R.(2005)Pooled association genome scanning：validation and use toidentify addiction vulnerability loci in two samples.Proc.Natl.Acad.Sci.U.S.A.，102，11864-11869.

20.Craig，A.M.，Graf，E.R.and Linhoff，M.W.(2006)How to build acentral synapse：clues from cell culture.Trends Neurosci.，29，8-20.

21.Iacono，W.G.，Carlson，S.R.，Malone，S.M.and McGue，M.(2002)P3event-related potential amplitude and the risk for disinhibitory disorders inadolescent boys.Arch.Gen.Psychiatry，59，750-757.

22.Dobson-Stone，C.，Danek，A.，Rampoldi，L.，Hardie，R.J.，Chalmers，R.M.，Wood，N.W.，Bohlega，S.，Dotti，M.T.，Federico，A.，Shizuka，M.et al.(2002)Mutational spectrum of the CHAC gene in patients withchorea-acanthocytosis.Eur.J.Hum.Genet.，10，773-781.

23.Zagranichnaya，T.K.，Wu，X.and Villereal，M.L.(2005)EndogenousTRPC1，TRPC3，and TRPC7 proteins combine to form native store-operatedchannels in HEK-293 cells.J Biol.Chem.，280，29559-29569.

24.Feng，Z.，Li，W.，Ward，A.，Piggott，B.J.，Larkspur，E.R.，Sternberg，P.W.，Xu，X.Z.(2006)A c.elegans model of nicotine-dependent behavior：Regulation by TRP-family channels.Cell，127，621-633.

25.Ertekin-Taner，N.，Ronald，J.，Asahara，H.，Younkin，L.，Hella，M.，Jain，S.，Gnida，E.，Younkin，S.，Fadale，D.，Ohyagi，Y.et al.(2003)Fine mappingof the alpha-T catenin gene to a quantitative trait locus on chromosome 10 inlate-onset Alzheimer′s disease pedigrees.Hum.Mol.Genet.，12，3133-3143.

26.Busby，V.，Goossens，S.，Nowotny，P.，Hamilton，G.，Smemo，S.，Harold，D.，Turic，D.，Jehu，L.，Myers，A.，Womick，M.et al.(2004)Alpha-T-catenin isexpressed in human brain and interacts with the Wnt signaling pathway but is notresponsible for linkage to chromosome 10 in Alzheimer′sdisease.Neuromolecular Med.，5，133-146.

27.Jeulin，C.，Guadagnini，R.and Marano，F.(2005)Oxidant stressstimulates Ca2+-activated chloride channels in the apical activated membrane ofcultured nonciliated human nasal epithelial cells.Am.J.Physiol.Lung Cell.Mol.Physiol.，289，L636-L646.

28.Hegab，A.E.，Sakamoto，T.，Uchida，Y.，Nomura，A.，Ishii，Y.，Morishima，Y.，Mochizuki，M.，Kimura，T.，Saitoh，W.，Massoud，H.H.et al.(2004)CLCA1gene polymorphisms in chronic obstructive pulmonary disease.J.Med.Genet.，41，e27.

29.Skol，A.D.，Scott，L.J.，Abecasis，G.R.and Boehnke，M.(2006)Jointanalysis is more efficient than replication-based analysis for two-stagegenome-wide association studies.Nat.Genet.，38，209-213.

30.Breslau，N.，Novak，S.P.and Kessler，R.C.(2004)Daily smoking andthe subsequent onset of psychiatric disorders.Psychol.Med.，34，323-333.

31.Breslau，N.，Novak，S.P.and Kessler，R.C.(2004)Psychiatric disordersand stages of smoking.Biol.Psychiatry，55，69-76.

32.Grant，B.F.，Hasin，D.S.，Chou，S.P.，Stinson，F.S.and Dawson，D.A.(2004)Nicotine dependence and psychiatric disorders in the United States：results from the national epidemiologic survey on alcohol and related conditions.Arch.Gen.Psychiatry，61，1107-1115.

33.Lasser，K.，Boyd，J.W.，Woolhandler，S.，Himmelstein，D.U.，McCormick，D.and Bor，D.H.(2000)Smoking and mental illness：Apopulation-based prevalence study.Jama，284，2606-2610.

34.American Psychiatric Association(1994)Diagnostic and statisticalmanual of mental disorders.4th ed.American Psychiatric Association，Washington DC.

35.Breslau，N.and Johnson，E.O.(2000)Predicting smoking cessation andmajor depression in nicotine-dependent smokers.Am.J.Public Health，90，1122-1127.

36.Heatherton，T.F.，Kozlowski，L.T.，Frecker，R.C.and

，K.O.(1991)The

Test for Nicotine Dependence：a revision of the

Tolerance Questionnaire.Br.J.Addict.，86，1119-1127.

37.Heatherton，T.F.，Kozlowski，L.T.，Frecker，R.C.，Rickert，W.andRobinson，J.(1989)Measuring the heaviness of smoking：using self-reportedtime to the first cigarette of the day and number of cigarettes smoked per day.Br.J.Addict.，84，791-799.

38.Pritchard，J.K.，Stephens，M.and Donnelly，P.(2000)Inference ofpopulation structure using multilocus genotype data.Genetics，155，945-959.

39.Hinds，D.A.，Stokowski，R.P.，Patil，N.，Konvicka，K.，Kershenobich，D.，Cox，D.R.and Ballinger，D.G.(2004)Matching strategies for genetic associationstudies in structured populations.Am.J.Hum.Genet.，74，317-325.

40.Hinds，D.A.，Stuve，L.L.，Nilsen，G.B.，Halperin，E.，Eskin，E.，Ballinger，D.G.，Frazer，K.A.and Cox，D.R.(2005)Whole-genome patterns of commonDNA variation in three human populations.Science，307，1072-1079.

实施例5：尼古丁依赖性风险和α5烟碱样受体

吸烟为导致每年接近500万人死亡的主要的公共健康问题(WHO，2006)。尽管了解其有不利的健康影响，但美国仍有6500万成人继续吸烟并且约一半人依赖尼古丁(Grant等，2004)。尼古丁为造成持续吸烟的香烟成分，并且尼古丁的生理作用基本上通过神经元烟碱乙酰胆碱受体(nAChR)介导。

我们的研究小组最近完成了大规模基因组范围关联和尼古丁依赖性的候选基因研究，其集中于一生吸烟至少100支但从不发展任何依赖性症状的吸烟者之间的对比(参见上面和Bierut等，2007；Saccone等，2007)。该研究设计集中于促进从吸烟转变至尼古丁依赖的遗传因素。随访的引人注目的关联发现为导致α5烟碱样受体(CHRNA5)氨基酸变化的遗传变体的鉴定。

该研究的目的为进一步确定α5烟碱样受体中变体对尼古丁依赖性的遗传贡献，检验该关联发现是否在独立的数据集中重复，并且确定该氨基酸变化是否导致烟碱样受体的功能改变。

材料和方法

人遗传研究

使用两个独立的数据集：NICSNP，尼古丁依赖的病例和非-依赖的吸烟对照系列以及酒精中毒的遗传学合作研究(COGA)，基于家族的酒精依赖性研究，其具有吸烟的高比率并且允许重度和轻度吸烟对比组的遗传研究。

NICSNP

受试者

受试者(1050个病例和879个对照)选自两个正在进行的研究：尼古丁依赖性的合作遗传研究，基于美国的样品(St.Louis，Detroit和Minneapolis)以及尼古丁成瘾性遗传学研究，基于澳大利亚的欧洲-祖先的样品。

机构评审委员会批准两种研究并且所有受试者书面表示同意。从每个受试者收集血样用于DNA分析并且与电子表型数据一起提交至NIDA遗传研究中心，其根据NTH准则管理研究数据的共享。所有受试者自我鉴定为欧洲血统的。

表型数据

通过常用的尼古丁依赖性定义确定病例，即当吸烟最厉害时用于尼古丁依赖性的Fagerstrom检验(FTND)的得分为4或以上(最大得分为10)(Heatherton等，1981)。对照受试者状态定义为吸烟(通过其一生吸烟至少100支定义)然而从未变成依赖性的(一生FTND＝0)个体。

SNP基因分型

选择查询CHRNA5基因中SNP的定制的阵列(custom array)并且如上以及Bierut等，2007和Saccone等，2007中所述基因分型。引入另外的质量控制指标用以说明大于95％的就诊率。目测检查所有SNP的归类图(clustering plot)以确保基因分型之间的鉴别。分别对病例和对照检验HardyWeinberg均衡(HWE)。

群体分层

为了避免由于隐蔽的群体分层而造成的假阳性结果，利用对289个良好表现的SNP的基因分型数据进行结构分析。没有显示群体混合的证据。

统计分析

对于最初的单个SNP关联分析，使用逻辑回归以引入重要的协变量性别和地址(美国，澳大利亚)并且利用具有2自由度的Chi平方统计量标准似然比与基因分型性别相互作用项一起进行基因分型作用的检测。完整模型与仅包括性别和招募地址的简化模型相比较，并且通过2自由度的Chi平方检验评估显著性。参见如上和Saccone等，2007的另外的详述。

树状扫描

树状扫描(treescan)为用于关联分析的基于进化树的方法并且可助于解释遗传关联结果。软件PHASE对覆盖CHRNA5的SNP评估1050个病例和879个对照中的单倍型期(Stephens M等，AJHG.2003)。PHASE评估样品中33个独特的单倍型。除去非常稀少的单倍型(小于0.1％的频率)，随后利用TCS程序中的统计学简约性检查单倍型网络(Clement等，Mol Ecol.2000)。随后除去显示重组重要证据的单倍型(Templeton AR等，Genetics.1992)。得到的网络用于评估CHRNA5中单倍型与尼古丁依赖性的关联(Templeton AR等，Genetics.2005)。

酒精中毒的遗传学合作研究

样品

酒精中毒的遗传学合作研究(COGA)为在跨越美国的6个中心招募家族的多地址研究：Indiana University、State University of New York HealthScience Center、University of Connecticut、University of Iowa、University ofCalifornia/San Diego以及Washington University，St.Louis(Begleiter等，1995；Reich等，1998和Foroud等，2000)。所有参与机构的机构评审委员会批准该研究。

通过住院病人或门诊病人化学依赖性治疗方案鉴定酒精依赖的先证者(proband)。给予先证者和其家族多诊断仪器、用于酒精中毒遗传学(SSAGA)会诊的半结构评估(Semi-Structured Assessment for the Genetics of Alcoholism)(Bucholz等，1994；Hesselbrock等，1999)。参与该研究遗传时期的家族包括满足用于酒精依赖性的DSM-IIIR标准(American Psychiatric Association1987)和用于明确的酒精中毒的Feighner等(Feighner等，1972)标准的先证者和至少两个一级亲属。

虽然评估了吸烟史，但并不给予FTND，因此可比较的尼古丁表型出现。病例状态定义为当个体一天至少吸烟一包持续6个月或以上(Bierut等，2004)的习惯性吸烟者，其相当于FTND等级至少3或以上的得分。轻度吸烟表型定义为每天从不吸烟10支以上的吸烟者(每天吸烟，持续至少一个月或一生100支香烟)。从不吸烟或不满足起作用或不起作用状态的那些人在该分析中认为是“未知的”表型。

SNP基因分型

利用用于基因分型COGA数据集的MassArray光谱测定技术。PCR引物、终止混合物和多路容量用Sequenom Spectro Designer软件v2.00.17进行测定。标准的PCR方法用于扩增PCR产物。所有未掺入PCR产物中的核苷酸用虾碱性磷酸酶灭活。随后用大量延伸引物和合适的终止混合物进行引物延伸反应。引物延伸产物随后用树脂提纯并且点样于硅SpectroChip上。用质谱工作站(Bruker)扫描芯片并且得到的基因分型光谱用SequenomSpectroTYPER软件分析。

所有SNP基因分型利用程序PEDCHECK(O′Connell和Weeks1998)检查孟德尔式遗传。分别在白种人和非洲的美洲人家族中利用程序USERM13(Boehnke 1991)计算标志物等位基因频率和杂合体。大于90％的就诊率和HWE设定为质量控制指标。

统计分析

利用运用SAS/STAT软件(SAS 2003)以拟合归纳的线性混合模型的SAS Macros程序组进行统计分析。由于分析可遗传的性状，因此期望家谱内的个体与表型以及基因分型相关联。处理所有个体如无关的个体会导致数据的偏差，尤其对大的家谱而言。因此，利用通过估计遗传力加权的亲缘关系系数作为用于该模型的随机-作用协方差阵(random-effects covariancematrix)(Yu等，2006)。除了控制表型之间预期的相关性之外，年龄和性别也纳入分析中。

CHRNA5遗传变体的功能研究

细胞培养

HEK293T细胞维持在37℃湿润状态，5％CO₂环境，Dulbecco改进伊格尔培养基(高葡萄糖，无丙酮酸)(DMEM)，10％加热-灭活的胎牛血清和抗生素/抗霉菌的(100U/mL青霉素，100/ug/mL链霉素和0.25ug/mL二性霉素B)培养基中。培养试剂购自Biowhittaker(East Rutherford，NJ，USA)或Invitrogen(Carlsbad，CA，USA)。

胞内钙的测量

激动剂-引起的胞内钙的变化利用如之前所述的基于水母发光蛋白的发光测定法进行(Karadsheh等，2004)。HEK293T细胞接种在6-孔平皿上(1.5 x 10⁶细胞/孔)并且随后的几天用包含人密码子-优化的水母发光蛋白cDNA(Vernon和Printen 2002)的质粒(每一质粒0.25μg/孔)转染，小鼠的α4和β2cDNA以及野生型小鼠α5cDNA(D398)或小鼠α5cDNA，其中D398突变为N398。利用厂家推荐的任一脂质转染胺Plus试剂(Invitrogen)或Fugene HD转染试剂(Roche，Indianapolis，IN)进行转染。转染后大约48h，培养基用DMEM+0.1％胎牛血清和2.5μM腔肠素-hcp(coelenterizine-hcp)(Invitrogen)代替并且所述细胞在37℃在湿润的5％ CO₂温箱中温育3h。腔肠素温育后，从培养皿轻轻地吸出细胞并且转入2ml试管。细胞随后通过在4℃ 800g离心5min而沉淀，丢弃上清并且细胞重悬浮于1x的分析缓冲液中(补充到10mM的CaCl₂的Hank′s平衡盐溶液(Cambrex，EastRutherford，NJ))。移去一半细胞用于配体结合，剩下的细胞再次沉淀并且随后重悬浮于新鲜的1x分析缓冲液中(500μl/样品)并且在开始分析之前在4°c温育1h。每个nAChR变体的样品大小为n＝12(来自3个独立实验的每一变体的12个分开的转染)。

对于地棘蛙素(epibatidine)浓度-反应曲线，50μl细胞加至96-孔不透明白色平皿的每个孔并且置于Victor3V平皿读数器中(PerkinElmer)。读取1秒基线后，50μl地棘蛙素注入每个样品并且在添加激动剂后立即以0.2s的间隔记录20s发光。激动剂刺激完成时，包含0.1％Tritonx-100和100mMCaCl₂的100μl溶液注入每个孔并且以0.1s的间隔记录5s发光。为了控制每一孔细胞数的差异以及转染率的变化和腔肠素的装载，通过将激动剂-刺激发光(L)的最大峰值除以总峰发光值(Lmax)(最大峰激动剂-刺激发光+由高钙存在时细胞溶解作用产生的最大峰发光)而标准化激动剂应答。

[¹²⁵ _I]-地棘蛙素结合

如之前所述从样品制备膜组分(Marks等，1998)，不同的是第一次离心之前与50μg/mL DNAse一起在37℃进行15分钟温育。基本如之前所述在包括结合缓冲液(118mM NaCl，4.8mM KCl，2.5mM CaCl₂，1.2mMMg₂SO₄和20mM HEPES pH 7.5)和200pM[¹²⁵ _I]-地棘蛙素的30μl反应液中完成[¹²⁵ _I]-地棘蛙素结合至膜组分(Marks等，1998)。通过在该反应中包含10μM金花碱(cytisine)而确定非特异性结合。用不产生配体消耗的大量匀浆进行配体结合。通过Lowry的方法(Lowry等，1951)测定匀浆的蛋白质水平。

数据分析

地棘蛙素-激起的应答通过将该功能性应答(L/Lmax)除以每一样品孔的nAChR fmol而标准化。该标准化提供每一受体值应答。对浓度反应曲线的EC₅₀和最大响应值利用Graphpad Prism 3.0软件(San Diego，CA)中的4参数逻辑公式计算。两种nAChR群体的浓度反应曲线利用地棘蛙素浓度和受体变体的2-式ANOVA评估。α4β2α5D398和α4β2α5N398之间的最大应答和EC₅₀值利用Student′s t检验比较。

结果

单个SNP关联

CHRNA5中存在与NICSNP样品中尼古丁依赖性和COGA样品中习惯性吸烟的两种独立的遗传关联发现的强有力的证据。参见表21的结果。最强有力的发现为rs6969968，其提高两种样品中尼古丁依赖性的风险(OR＝1.56(1.28-1.95)NICSNP中p<0.0001；OR＝1.31(1.14-1.54)p＝0.0001)。该SNP常见具有34-35％的较小的等位基因频率(MAF)，并且其标明从天冬氨酸(G)至天冬酰胺(A)的氨基酸变化。

第二个发现参见基因rs684513，其降低NICSNP样品中发展成为尼古丁依赖性的风险(OR＝0.79(0.66-0.94))。SNP rs905739与rs684513高度连锁不均衡(r²＝0.9)并且其也呈现关联。连锁不均衡的图21跨越该基因。存在与习惯性吸烟的关联趋势以及COGA样品中的这些SNP。

为了进一步调查这些关联发现，进行树状扫描。树状扫描鉴定出两个主分支，其标明与尼古丁成瘾性的显著关联(参见图22)。H4和H5之间的分枝A通过rs16969968的氨基酸变化定义。从G到A的转变定义具有提高的对尼古丁成瘾性风险的单倍型组，并且标记的该分枝的关联非常强(p＝0.0001)。在调节由分枝E定义的作用时(p＝0.004)该作用得到保留。第二个单倍型组证实降低的尼古丁成瘾性风险。降低的风险单倍型组在rs16969968的“保护性的”G等位基因上(P值p.014-p.0074)。调节A分枝的作用后，虽然可能是由于能力(power)的损失，所述关联不再显著。因此，鉴定可以促进尼古丁依赖性的α5烟碱样受体中的两种遗传效应—其为风险变体的rs16969968的氨基酸变化和第二个保护性的单倍型组。

利用生物信息数据库(对照)进一步跨越物种检查rs16969968。参见图23。氨基酸位置398的天冬氨酸残基高度保守进一步提示其功能的重要性。为了跨越多个群体评估较小的等位基因，rs16969968的A等位基因的分布，在HGDP-CEPH人基因组多样性细胞系组中归类该SNP，所述细胞系组包括表示52个不同群体的995个个体(Cann等，2002)。白种人群体中，除雅库特(Yakut)群体(MAF＝0.06)之外A等位基因为从21％到50％。非洲人和亚洲群体中没有检测到A等位基因或很罕见。参见等位基因频率地理分布的图24。

为了确定D398N多态性是否改变了nAChR功能，用异源性表达α4β2α5D398或α4β2α5N398 nAChR的HEK293T细胞，检测了烟碱激动剂引发的细胞内钙变化。为了相对于受体数标准化激动剂应答，对每个样品测定受体水平。双向ANOVA分析表明烟碱激动剂地棘蛙素的浓度反应曲线在α4β2α5N398和α4β2α5D398 nAChR变体之间显著不同(p<0.0001)。发现每一受体对激动剂的最大应答α4β2α5N398 nAChR变体相对于α4β2α5D398 nAChR变体高于超过两倍(分别为0.356±0.022和0.147±0.01；p<0.0005)(图24)。因为其EC₅₀值没有不同(α4β2α5D398 EC₅₀＝25.9±1.5pM；α4β2α5N398 EC₅₀＝19.1±1.4pM，p＝0.25)，因此对激动剂的浓度-应答曲线和最大应答的差异并不归因于nAChR变体之间对通过地棘蛙素活化的敏感性的转变。

讨论

该研究证实α5烟碱样受体中氨基酸的变化提高吸烟者转变成依赖性的风险，并且该发现在独立样品中得到了重复。此外，该氨基酸变化导致烟碱样受体功能的改变。

该氨基酸变化的频率在不同人种/种族组中不同。“处于风险中”的基因分型主要在欧洲血统的群体中可见并且在亚洲或非洲人来源群体中罕见或不存在。这些发现提示该SNP在欧洲来源群体中相比其他的群体，是尼古丁依赖性的更显著的风险因素，不同的遗传风险因素在其他的人种/种族组中起着更重要的作用。

其中氨基酸变化在α5受体中的区域在小鼠、大鼠、鸡、猴和黑猩猩物种之间高度保守，在该位置是天冬氨酸的。人类中，该氨基酸可以是天冬氨酸或天冬酰胺。天冬酰胺取代导致体外试验中α4β2α5受体响应的提高并且与发展成为尼古丁依赖性的风险增加有关。

α5亚基与α4β2受体组合形成五聚体受体，其在纹状体的多巴胺细胞中表达。该脑区域与参与依赖性的反馈途径有关并且神经递质多巴胺在依赖性的发展过程中起着关键作用。汇集的生物学数据另外支持我们的CHRNA5在尼古丁依赖性发展过程中重要作用的发现。

有证据说明该基因存在第二个遗传变体，其为“保护性的”变体。还不知道该变体可能的功能作用。同样需要重点关注的是这些关联SNP与α3基因中的SNP强连锁不均衡，并且因此该功能作用可能在α3基因中。

总之，本实施例提供α5烟碱样受体中氨基酸变化导致功能变化的强有力证据，其提高个体从吸烟者转变为依赖尼古丁的风险。该变体在欧洲血统群体中常见并且提高发展成为尼古丁依赖性的风险，或反之变体的前体预防从吸烟转变为依赖。这些结果支持α5烟碱样受体在对尼古丁的遗传药理学应答中的作用，其导致依赖性并且提供对依赖性产生的更进一步的生物学理解。

COGA的NICSNP和习惯性吸烟中CHRNA5 SNP与尼古丁依赖性的*逻辑回归分析的概要。

利用KINMIX在COGA家族中建模SNP作用。NICSNP和COGA下的空白表条目表明SNP在相关数据集中并不基因分型。

¹常见的等位基因为对照等位基因并且较少的等位基因为风险等位基因。

²rs3841324为indel；22个碱基对缺失为对照并且野生型为风险。

实施例5的参考文献

1.Karadsheh，M.S.，Shah，M.S.，Tang，X.，Macdonald，R.L，& Stitzel，J.A.Functional characterization of mouse alpha4beta2 nicotinic acetylcholinereceptors stably expressed in 5 HEK293T cells.J.Neurochem.91，1138-1150(2004).

2.Lowry，O.H.，Rosebrough，N.J.，Farr，A.L.，& Randall，R.J.Proteinmeasurement with the Folin phenol reagent.J.BiolChem.193，265-275(1951).

3.Marks，M.J.，Smith，K.W.，& Collins，A.C.Differential agonistinhibition identifies multiple epibatidine binding sites in mouse brain.J.PharmacoL Exp.Ther.285，377-386(1998).

4.Vernon，W.I.& Printen，J.A.Assay for intracellular calcium using acodon-optimized aequorin.Biotechniques 33，730，732，734(2002).

虽然为了澄清和了解的目的已较详细地描述了本发明，本领域技术人员清楚的是阅读本说明书后可在不背离本发明正确范围下进行形式和细节上的各种改变。例如，所有如上所述的技术和装置可以不同的组合使用。为了所有的目的，本申请中引用的所有出版物、专利、专利申请和/或其他的文献通过引用整体引入，就像每一出版物、专利、专利申请和/或其他的文献分别表明为了所有目的而通过引用引入一样。

Claims

1.鉴定生物体或源自其中的生物样品成瘾性表型的方法，该方法包括：在该生物体或生物样品中检测多态性或与其紧密连锁的基因座，该多态性选自表1的多态性，其中该多态性与成瘾性表型关联；和将该多态性与表型关联。

2.权利要求1的方法，其中所述生物体为哺乳动物或所述生物样品源自哺乳动物。

3.权利要求1的方法，其中所述生物体为人患者或所述生物样品源自人患者。

4.权利要求1的方法，其中所述检测包括扩增所述多态性、所述连锁的基因座或与此关联的序列并且检测所述得到的扩增子。

5.权利要求4的方法，其中所述扩增包括：

a)将扩增引物或扩增引物对与分离自所述生物体或生物样品的核酸模板混合，其中所述引物或引物对与所述多态性或连锁基因座的邻近区域互补或部分互补，或与包括所述多态性或连锁基因座的区域互补或部分互补，并且能够通过核酸模板上的聚合酶起动核酸聚合反应；和，

b)在包括聚合酶和模板核酸的DNA聚合反应中延伸引物或引物对以产生扩增子。

6.权利要求4的方法，其中所述扩增子通过包括以下一种或多种的方法检测：将所述扩增子与阵列杂交、用限制性内切酶消化所述扩增子或实时PCR分析。

7.权利要求4的方法，包括部分或完全测序所述扩增子。

8.权利要求4的方法，其中所述扩增包括利用分离自在PCR、RT-PCR或LCR中作为模板的所述生物体或生物样品的核酸进行聚合酶链式反应(PCR)、逆转录PCR(RT-PCR)或连接酶链式反应(LCR)。

9.权利要求1的方法，其中所述多态性为SNP。

10.权利要求1的方法，其中所述多态性包括列于表1的一种或多种等位基因。

11.权利要求1的方法，其中与其紧密连锁的所述基因座离所述多态性约5cM或更近。

12.权利要求1的方法，其中关联所述多态性包括对照包含所述多态性的等位基因和所述表型之间相关性的查阅表。

13.鉴定生物体或源自其中的生物样品成瘾性表型的方法，所述方法包括：在所述生物体或生物样品中检测多态性或与其紧密连锁的基因座，所述多态性显示与选自表1的多态性>80％的共分离相关性，其中所述多态性选自与成瘾性表型关联的表1；和将所述多态性与所述表型关联。

14.权利要求13的方法，其中所述多态性显示与选自表1的多态性至少约85％的共分离相关性，至少90％的共分离相关性，至少91％的共分离相关性，92％，至少93％的共分离相关性，至少94％的共分离相关性，至少95％的共分离相关性，至少96％的共分离相关性，至少97％的共分离相关性，至少98％的共分离相关性，至少99％的共分离相关性，至少99.5％的共分离相关性，至少99.75％的共分离相关性或至少99.90％或以上的共分离相关性。

15.鉴定成瘾性表型潜在调节剂的方法，所述方法包括：

使推定的潜在调节剂与基因或基因产物接触，其中所述基因或基因产物与表1的多态性紧密关联；和监测所述推定的潜在调节剂对所述基因或基因产物的作用，由此鉴定所述推定的潜在调节剂是否调节所述基因或基因产物以及因此为成瘾性表型的潜在调节剂。

16.鉴定成瘾性表型调节剂的方法，所述方法包括：

将权利要求15的成瘾性表型的潜在调节剂给予受试者；

监测受试者成瘾性表型的降低或预防，由此鉴定成瘾性表型的调节剂。

17.权利要求15或16的方法，其中所述基因或基因产物包括选自列于表1的多态性。

18.权利要求15或16的方法，其中所述作用选自：

(a)提高或降低所述调节剂存在时所述基因或基因产物的表达；

(b)提高或降低所述调节剂存在时所述基因产物的活性；和，

(c)所述调节剂存在时所述基因或基因产物改变的表达模式。

19.用于成瘾性表型治疗的试剂盒，所述试剂盒包括通过权利要求15的方法鉴定的潜在调节剂和/或权利要求16的调节剂，以及用于将所述调节剂和/或潜在调节剂给予患者以治疗所述表型的说明书。

20.用于鉴定生物体或源自其的生物样品成瘾性表型的系统，所述系统包括：

a)设置以检测一种或多种多态性或与其连锁的基因座的至少一个等位基因的标记物探针组和/或引物组，其中所述多态性选自表1的多态性；

b)设置以检测一种或多种来自所述标记物探针组和/或引物组或由所述标记物探针组和/或引物组产生的扩增子的信号输出的检测器，由此确定所述等位基因的存在或不存在；和，

c)将等位基因的所述存在或缺乏与预测的表型关联的系统说明。

21.权利要求20的系统，其中所述标记物探针组和/或引物组包括表1的核苷酸序列。

22.权利要求20的系统，其中所述检测器检测一种或多种光辐射，其中所述光辐射为所述等位基因存在或缺乏的指示。

23.权利要求20的系统，其中所述说明包含至少一种查阅表，其包括所述等位基因的存在或缺乏与所述表型之间的相关性。

24.权利要求20的系统，其中所述系统包括样品。

25.权利要求24的系统，其中所述样品包括基因组DNA、扩增的基因组DNA、cDNA、扩增的cDNA、RNA或扩增的RNA。

26.权利要求24的系统，其中所述样品源自哺乳动物。

27.鉴定生物体或源自其的生物样品成瘾性表型的方法，所述方法包括：

在所述生物体或生物样品中检测多态性或与其紧密连锁的基因座，所述多态性选自表21的多态性、α5烟碱样受体基因的多态性rs1???6969968或与包含如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS13A的多态性、VPS 13A的多态性、TRPC7的多态性、CTNNA3的多态性、CLCAl的多态性、表6的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性，其中所述多态性与成瘾性表型关联；和将所述多态性与所述表型关联。

28.权利要求27的方法，其中所述多态性包含等位基因，该等位基因选自如下的一种或多种：表21的多态性、α5烟碱样受体基因的多态性rs16969968或与包含如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1???的多态性、表18的VPS13A的多态性、VPS 13A的多态性、TRPC7的多态性、CTNNA3的多态性、CLCA1的多态性、表6的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因的多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性。

29.鉴定生物体或源自其的生物样品成瘾性表型的方法，所述方法包括：

在所述生物体或生物样品中检测多态性或与其紧密连锁的基因座，所述多态性显示与选自表21的多态性、α5烟碱样受体基因的多态性rs16969968或与包含如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS 13A的多态性、VPS13A多态性、TRPC7的多态性、CTNNA3的多态性、CLCA1的多态性、表6的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性>80％的共分离相关性；其中如此选择的所述多态性与成瘾性表型关联；和将所述多态性与所述表型关联。

30.鉴定成瘾性表型潜在调节剂的方法，所述方法包括：将推定的潜在调节剂与基因或基因产物接触，其中所述基因或基因产物与选自表21的多态性、α5烟碱样受体基因的多态性rs16969968或与包含如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS13A的多态性、VPS 13A的多态性、TRPC7的多态性、CTNNA3的多态性、CLCA1的多态性、表6的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性紧密连锁；和，

监测推定的潜在调节剂对所述基因或基因产物的作用，由此鉴定所述推定的潜在调节剂是否调节所述基因或基因产物以及因此为成瘾性表型的潜在调节剂。

31.鉴定成瘾性表型潜在调节剂的方法，所述方法包括：

将权利要求30的成瘾性表型的潜在调节剂给予受试者；

监测受试者成瘾性的降低或预防，

由此鉴定成瘾性表型的调节剂。

32.权利要求30或31的方法，其中所述基因或基因产物包含选自表21的多态性、α5烟碱样受体基因的多态性rs16969968或与包含如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS 13A的多态性、VPS13A的多态性、TRPC7的多态性、CTNNA3的多态性、CLCAl的多态性、表6的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性。

33.用于鉴定生物体或源自其的生物样品成瘾性表型的系统，所述系统包括：

a)设置以检测一种或多种多态性或与其连锁的基因座的至少一个等位基因的标记物探针组和/或引物组，其中所述多态性选自表21的多态性、α5烟碱样受体基因的多态性rs16969968或与包含如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS 13A的多态性、VPS 13A多态性、TRPC7的多态性、CTNNA3的多态性、CLCAl的多态性、表6的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性。

34.权利要求33的系统，其中所述标记物探针组和/或引物组包含选自如下的一种或多种核苷酸序列：表21的多态性，α5烟碱样受体基因的多态性rs16969968或与包含如图22中举例说明的所述单倍型或任何单倍型连锁不均衡的多态性、表17的多态性、表18的多态性、表18的NRXN1的多态性、表18的VPS 13A的多态性、VPS 13A多态性、TRPC7的多态性、CTNNA3的多态性、CLCAl的多态性、表6的多态性、CHRNB3和/或CHRNA3的多态性、选自CHRNB3、CHRNA3、KCNJ6、CHRNA5、GABRA4、CHRNA3和PIP5K2A的基因多态性、选自rs6474413、rs10958726、rs578766、rs6517442、rs16969968、rs3762611、rs1051730和rs10508649的多态性或表9的多态性的。