CN102121046A

CN102121046A - 中国人群连锁分析snp标记集合及其使用方法与应用

Info

Publication number: CN102121046A
Application number: CN2009100874669A
Authority: CN
Inventors: 不公告发明人
Original assignee: Capital Medical University; Beijing Institute of Genomics of CAS
Current assignee: Capital Medical University; Beijing Institute of Genomics of CAS
Priority date: 2009-06-25
Filing date: 2009-06-25
Publication date: 2011-07-13

Abstract

中国人群连锁分析SNP标记集合及其使用方法与应用在国际人类基因组单体型计划产生的海量数据中有上亿份涉及中国汉族人群的数据成果基础上，根据连锁不平衡性质、多态性程度、分型成功率、基因组分布位置与密度、功能特性等多参量的统计比较和多层次挑选与实验验证，构建并优化了分别含有3000和6001位点的中、高密度两套连锁分析用SNP标记集合。其中3000位点包含于6001位点中。该SNP集合在设计上强调针对汉族的遗传背景，使其在中国人中具有高多态性，从而达到具有我国家系样本基因组标记的高效性这一目标。多态位点的选择基于中性进化原则，全部位点位于非基因功能区以避免进化对于基因功能的影响。同时，标记位点的高可分型检测性、均匀覆盖全基因组等特点为完整筛查整个基因组进而定位和发现新的致病基因提供了可靠保障。用这两套SNP标记订制探针或芯片针对家系样本进行全基因组基因分型，并用分型数据做连锁分析，辅以连锁候选区域的单体型分析和精细定位，能够以较低的费用和较快的速度得到比传统方法更为精细的定位结果。附图为6001 SNP标记集合在人类染色体上的分布和覆盖情况。

Description

中国人群连锁分析SNP标记集合及其使用方法与应用

技术领域：

本发明涉及含有3000和6001中、高密度两套连锁分析用的SNP标记集合，属于遗传学和基因组学中的连锁分析领域。此两套标记位点集合完全基于中国人的遗传背景，具有高多态性，全基因组均匀覆盖，高基因分型检测性等多个特点。适用于中国人群特别是汉族人群的全基因组连锁分析，可以达到高效定位所检测家系遗传病的致病基因的目的。

背景技术：

在复杂疾病的基因定位研究中，常常需要对研究样品进行全基因组扫描以确定目标基因在染色体上的位置。目前主要有两个手段，基于病例对照样本的关联分析和基于家系样品的连锁分析[1]。连锁分析使用含有患者和健康成员的家系样本，利用具有多态性的遗传标记进行所有样本的分型(Genotyping)，以鉴定经多代传递仍完整遗传标记的单体(倍)型为基础，通过数学手段计算遗传标记在家系中是否与疾病产生共分离(连锁分析)，从而确定致病基因或所在区域与参考位点(遗传标记)的关系，达到定位疾病相关基因或区域的目的。关联研究和连锁分析的原理与假说基本类似，均以相邻近的DNA变异共分离为基础。连锁分析检测在一个家系中等位基因与疾病的传递是否相关。而关联分析研究在一个群体中疾病和等位基因的相关性的存在与否。

以往的连锁或关联分析都是以微卫星即短片段重复序列作为遗传多态标记。基因组学研究使SNP(Single Nucleotide Polymorphism)即单核苷酸多态位点成为广泛应用的分子遗传标记。SNP指在单条染色体或DNA序列的同一位置上所具有的不同核苷酸形式，是形成个体差异的主要原因，也是基因组上最常见的遗传变异形式。特别是针对常见SNP基因分型的人类基因组国际HapMap计划(International Haplotype Map Project)的完成，使采用SNP标记全基因组高通量扫描已经成为新的趋势。HapMap使用的样本来自亚欧非三大人群的270个人类个体，其中亚洲，欧洲和非洲各90人。HapMap项目针对全基因组300多万个常见SNPs进行了基因分型，获得了这270个个体的全基因组SNP多态信息，为研究人类的进化和基因组变异提供了丰富的遗传资源，所产出的全部数据免费公布于HapMap官方网站http://www.hapmap.org。在HapMap计划的促进下，关联研究定位疾病基因的方法在近年得到迅速发展，并因为多基因疾病研究的复杂性而具有规模越来越大的趋势。同时在发达国家中，相对人口少，人员流动大而亲情联系少，使得家系资料难以收集，所以和关联分析相比，基于家系样本的连锁研究只能占很小比例。虽然具有以上优势，但关联分析通常需要根据严格指标采集大规模研究样品和分型大量的全基因组标记位点，费用较高。因为存在群体样本的遗传背景分层[2]等因素，容易造成假阳性的结果，而且关联分析对低频率，低外显率，低相对风险的等位基因以及异质性较高的致病基因的定位准确度不够。

和关联分析相比，连锁分析的定位结果具有较高的准确度。由于家系样本的重组较少，使用少量遗传标记全基因组扫描分析即可定位致病基因所在区域，在成本上具有很大优势。同时，在研究的可行性和样本资源上，相对不发达国家(如我国，亚洲各国以及中东一些国家)和发达国家相比面临不同的情况。一是大规模关联研究耗费过高，经济上的负担较重，因此大样本量的研究无法广泛开展；二是不发达国家具有大家庭传统和相对隔离区域，拥有多代家系的丰富遗传资源，使得连锁分析在这些国家和地区仍保持重要地位。另外，伴随着新分型技术的出现和HapMap项目的成果，近年来连锁分析方法自身也有了很大的改变和进步。

用于连锁分析的遗传标记主要有两种，传统的微卫星即STR(short tandem repeat)和SNP标记。STR连锁分析曾定位了大量疾病相关区域，但由于解析度不够高，通常所定区域长达十数个厘摩。特别是家系代数太少或连锁分析标记密度过低时还可能造成定位区域的漏查或定位分辨率过低。另外STR的实验操作也比较繁琐，很难实现高成功率的全基因组高通量分型。随着HapMap计划的完成，海量SNP分型数据得以利用，同时基因分型技术也有了极大的发展。HapMap计划之后，SNP具有成为新一代连锁分析遗传标记的优势，它具有高密度、易于自动化和高通量操作、遗传特性更为稳定等特点。但目前用于连锁分析的SNP探针种类少费用高，而且都是基于欧裔白种人的基因组背景，在以汉族人群为主的中国的应用性不高。如Illumina设计的SNP芯片Linkage PanelIV比STR的分型密度高出约10倍，但一套产品的起始价格超过3万美元，使很多中国的研究项目从经济上考虑STR几乎是唯一的选择。另一方面，这套SNP产品在设计上也是以欧裔优先。分析表明在亚洲群体内超过30％的位点处在低多态区(MAF 0-0.2，Minor Allele Frequency)，高多态位点(MAF 0.3-0.5)的比例也仅是欧裔样本的一半，所以不能很好地适用和满足亚裔样本的连锁分析。

总之，在疾病基因定位的研究中，发达国家以高密度SNP芯片为主打，以进行病例对照的大样品关联分析为主要趋势，已有多种全基因组芯片更新问世。然而连锁分析更加适合我国家系资源丰富而科研经费较少的特点。另外，由于在发达国家市场需求较小，连锁分析产品的发展远不如关联分析产品，仅有的一种在我国的应用上也存在两大主要问题或难点。一是人群设计上商用标记是基于欧裔遗传背景，不能满足亚裔人群的遗传分析；二是出于价格的原因，产品的应用在中国较难。为了解决这些问题，我们以HapMap中国人群的基因型数据为基础，通过连锁不平衡(linkage disequilibrium，LD)，高多态性，高分型性能和均匀覆盖全基因组等指标，建立了适合中国人遗传背景的3000和6001中、高密度两套连锁分析用SNP标记集合。

最后，在本发明的实施例中，选用了视网膜色素变性(Retinitis Pigmentosa，RP)疾病家系对中、高密度两套SNP标记集合的效率进行了验证。RP是众多遗传眼病中的一种，RP有很高的致盲性，目前中国有上百万人患病，严重影响了他们的正常工作和生活。它是以视网膜感光细胞受损为特点的一组疾病。患者从“夜盲”，发展至周边视野缺损，最终导致中心视力丧失。RP的发病有多种表现型，是一类视网膜色素病变导致的夜盲症状的总称，发病率约为1/4000[3]，可表现为家族性常染色体显性或隐性遗传，性连锁遗传，散发病例等多种形式[4，5]。不断发现的与此疾病相关的多种基因表明其发病机制非常复杂，不同病例间具有很强的遗传异质性。

发明内容：

本发明为适用于中国人遗传背景的含有3000和6001中、高密度两套连锁分析用SNP标记集合。本发明的两套SNP标记集合的构建是基于HapMap项目产生的亚洲人群的基因型数据。

连锁分析定位遗传病致病基因的基本方法是使用基因组上的具有多态性的标记位点(SNP，STR等)作为探针，寻找标记位点与疾病的连锁情况，研究对象是具有家系结构的样本。基本原理是：当标记位点和致病基因在染色体上的分布距离很近时，它们被重组事件打断的概率将会非常小，标记位点和致病基因因为紧密连锁的关系而在不同代数的家系患病成员之间共同传递。在疾病完全外显的情况下，带有致病基因的个体表现出疾病的症状，即致病基因和疾病症状的连锁关系。通过分析特定类型的标记位点和疾病表型(即致病基因的外显)的连锁关系，借助标记位点的位置间接地获得致病基因在染色体上的位置从而定位致病基因。

以往连锁分析使用低密度的STR探针。STR是存在于人类基因组上的短串连重复片段，通常为两个碱基的简单重复。由于STR在同源染色体上的重复次数有一定差异，同时在传代时具有一定的稳定性，所以可以用作基因组标记来分离致病基因。近年大量发现的SNP比STR具有更多的优势。SNP在世代传递时更加稳定，不产生像传统低密度STR探针中常见的插入/缺失等突变[8，9，10]。SNP在全基因上的覆盖密度远高于STR，可以更高的分辨率定位致病基因。另外SNP多是二态性的，更适用于大规模高通量的操作。另外SNP的易分型性还使那些来自非血样DNA(SNP基因分型可适用于微量的样本DNA或部分降解的DNA等，如从口腔样品中提取的基因组DNA)而不适合进行STR分析的“困难”样品的分析成为可能，扩大了连锁分析样本的应用范围。

本发明的成员参与了国际人类单体型计划，完成了HapMap计划的中国卷部分，熟悉掌握SNP的多种特性和算法工具，特别是对于亚洲和汉族人群的SNP数据进行了多种群体遗传学和基因组学分析研究，并且在使用SNP基因分型的方法在疾病易感基因定位的研究中取得了较好的成果[11]。在以上基础上，使用HapMap海量SNP数据，结合多个参量，构建出适用于连锁分析定位致病基因的中、高密度两套SNP标记集合。这两套标记位点的挑选是基于HapMap项目中的亚洲人(中国人和日本人)特别是中国汉族人的300多万SNP数据，经过反复比较和计算后获得，更符合亚洲特别是中国汉族人的遗传背景。如图1所示，Illumina公司的商用连锁标记位点的在欧裔中有很好的多态性，但在亚裔和非裔中则多态性很差。与之相反，本发明中的标记位点的多态性在亚洲和中国人中则非常突出。

挑选SNP标记集合时，采用多种算法和指标对HapMap计划产生的3百多万SNP在三大群体特别是亚洲人群的分型数据进行多参量的统计比较。包括LD，高多态性(MAF)，基因组均匀分布，非基因功能区等指标。连锁不平衡，是对相邻SNP位点在单体型上共同出现和传代的概率衡量，可用参数r²来计算，r²可估算两个SNP位点之间的连锁关系[12]。LD可以检验SNP位点的可靠性和对附近序列的代表性，连锁不平衡过低的SNP位点不能作为标记位点(和周围50kb范围内所有SNP的r²全低于0.8的SNP位点被剔出)。MAF(Minor Allele Frequency)即小等位基因频率，是一个SNP位点上出现的频率较低的等位基因型的频率。MAF值可以衡量SNP位点的多态情况。本发明的SNP标记位点在HapMap中国人的数据中，MAF值在0.2以上的高多态性位点占95％以上。基因组均匀分布是指所挑选相邻标记位点之间的距离尽可能均匀一致，同时完全覆盖人类基因组。非基因功能区是指挑选的标记位点位于基因组上的非基因区，即分布于基因及其上下游5kb的区域之外，目的是避免基因区受到自然选择而引起标记位点偏离中性原则。

根据以上指标，本发明以HapMap二期三百多万SNP基因型数据集作为基础，开发和编写相应算法程序，去除功能区SNP，以LD(linkage disequilibrium)特性，高多态性，高确信度，均匀覆盖全基因组等条件反复筛选和验证，首先挑选出约10万候选位点。所挑选的候选位点经过两侧序列及其分型反应性和成功率(call rate)打分等过程进一步评估。在分型系统评估的基础上，衡量所挑选SNP的实验可分型性。在分型性能的基础上，再次结合多态程度高，分布均匀，LD特性等指标，最终确定含有3000和6001位点的中、高密度两套“中国型”连锁分析用SNP标记集合，其中中密度的SNP相邻标记位点之间的平均距离是1Mb，高密度SNP位点集合平均距离为500kb。中密度的3000SNP包含于高密度的6001SNP集合之中。在HapMap中国汉族人群基因型数据中，这两套集合内多于95％的位点的MAF值在0.2以上，具有很高的多态性。所有标记位点都可以被成功分型。在家系实施例中85％以上的标记位点具有多态。

本发明的所有6001SNP标记集合呈列于附表中，其中索引号为偶数的为3000SNP标记集合。标记位点的参数如附图所示，附图1显示标记位点在汉族人群中的高度多态性(95％以上的点MAF大于0.2)。图2显示所有6001标记位点的均匀分布情况。，图3为标记位点在全基因组上的覆盖情况。图4-7分别为实施例中两个家系的结构及其所发明的标记位点在这些样品中的分布。

本发明的有益效果是，构建了符合中国人遗传背景的SNP标记集合，这些SNP的高多态性保证了其作为连锁分析标记的有效性。同时标记的高可分型性为高通量分型实验的成功率提供了保障。最后，中性且均匀覆盖全基因组的SNP标记确保了分析结果的可靠性和全面性。另外，在家系分析中，该SNP集合以家系重组信息为基础，能够获得和家系结构相匹配的定位精度，从而最大限度地满足基因定位的需求。可以在此基础上定制或开发出中、高两套连锁分析用试剂盒或芯片。本发明可以适用于任何能够检测出基因型的实验平台，尤其是Illumina，Sequenom，Affymetrix，Agilent，Nimblegen等公司的基因分型系统。这些是提供SNP分型技术、产品、探针和设备体系的主要公司。产品中包含用于SNP标记位点基因分型的核苷酸探针，有试剂盒或者芯片等多种形式。分型设备体系指和分型产品对应的用来进行核苷酸片段扩增和探针杂交以及杂交结果扫描的仪器或平台。这些公司的主要分型原理类似但技术手段不同。主要通过原位合成二态的SNP位点及其上下游几十个核苷酸的序列片段作为探针，或将液体中合成好的探针固定在玻片或者磁珠上，用来和样品核苷酸片段杂交，根据杂交后发出的荧光信号或质谱性质来判断某一SNP位点的基因型。在定制基因分型产品后，使用相应分型系统对研究样本的标记位点进行基因分型。得到SNP标记的分型结果后，通过不同的分析手段或工具可实现致病基因的定位。该发明的两套SNP标记可以充分地挖掘家系的重组信息，对一般的三代家系来说，可以达到把致病基因定位到以Mb为单位的染色体区域上去的目的。

这一构建的最重要意义在于标记位点的高效和覆盖人类全基因组，以及高度适用于亚洲特别是中国人的遗传背景。这些分布于人类基因组中的SNP是经过统计分析挑选而后在实施例中验证过的标记位点，在亚洲特别是中国汉族人遗传背景的应用上具有重要优势，具有更高的多态。在全基因组几百万SNP数据中，仅挑选这些少量且高效的3000和6001SNP标记集合就可以满足连锁分析的需求。。另外，在常见复杂性疾病易感基因研究的战略上，如背景技术中所述，大样本量的全基因组规模关联分析虽然是目前国际流行的趋势，在我国因成本等各方面因素而不易广泛开展。而这类疾病的一个多代遗传家系，如同复杂性疾病的分子遗传机制的一种分解，代表了其中一个易感基因的突出表现型，可以用相对较少的费用将其定至某一位置。家系越多，则越可能找到更多致病或易感基因。本发明的SNP标记集合可以为我国乃至亚洲人群疾病相关基因定位的连锁分析提供经济可行、高解析度和高效力的重要工具。

总之，本发明构建的中国型连锁分析用SNP不但使大量家系研究成为可能，而且可以提高实验的高通量性，简并性以及定位的分辨率和降低研究成本，比传统方法具有更高的操作和分析效力，可望在数年内促成大量致病相关基因的精细定位，使我国在常见的复杂性疾病的研究领域有重要突破。

附图说明：

以下是对附图的说明。

图1是6001SNP位点中两两相邻位点之间的距离频数图，大部分相邻位点之间的距离为500kb。

图2是6001SNP位点在HapMap亚洲人群数据中的MAF值频率图，显示标记位点集合具有很高的多态性(95％以上的点MAF大于0.2)。

图3是6001SNP位点在全基因组上的覆盖情况，黑色为标记位点，灰色为所有HapMap二期分型SNP位点。

图4是实施例RP家系1，其中：**标记为该家系的同一个个体，×为死亡个体，黑色标记为患病个体。

图5是实施例中的RP家系2，其中：**标记为该家系的同一个个体，×为死亡个体，黑色标记为患病个体。

图6是RP家系1中的6001SNP位点的MAF值分布频率图。

图7是RP家系2中的6001SNP位点的MAF值分布频率图。

具体实施方式：

1.探针制备

选择3000或6001SNP标记集合，在基因分型公司如Illumina、Sequenom或Affymetrix或其他可以进行寡聚核苷酸合成的公司定制含有检测SNP标记的寡核苷酸探针的试剂盒。

2.疾病家系样本收集和DNA提取

收集遗传病家系，一个家系中必须含有两代以上(含两代)以及多于三个的患病者。收集所有或主要家系成员的血样，即至少收集到患病个体及其兄妹，以及和患病个体有血缘关系的上下各一代成员的样本。以真空抗凝管低温保存。根据所定制基因分型试剂盒的需求，提取并获得特定浓度的样本基因组DNA，低温保存。

3.SNP标记位点的基因分型

根据定制的分型试剂盒的要求，在相应的分型系统进行家系基因组DNA和SNP标记的寡核苷酸探针的杂交反应，并最终得到SNP标记位点的基因型。

4.连锁分析和单体型分析

将SNP标记位点的基因型和家系信息相结合，选择连锁分析和单体型分析软件进行数据分析，得到致病基因的所在基因组定位。

连锁分析是基于家系样本定位致病基因的一种方法。在考虑染色体减数分裂存在重组的情况下，观察遗传标记在家系中是否与疾病产生共分离和共传代，利用连锁的原理确定致病基因与参考位点(遗传标记)的位置关系。根据孟德尔分离规律，当同一染色体上的位点不连锁时，遗传标记标将独立于致病基因而分离传代，这个时候其与致病基因位于同一染色体和不同染色体的机会各占一半，反之则表明连锁的存在并获得致病基因的位置。连锁分析得到致病基因所在的候选区域之后，对候选区域做单体型分析。根据父母以及子代的传代关系，把位于两条同源染色体上的核苷酸类型推导区分开来，由位于同一条染色体上不同SNP位点的核苷酸类型组成一条单体型，这个单体型可以代表相应染色体区段所携带的信息。基于这些单体型的传递分析称为单体型分析。单体型分析的优势在于可以弥补二态性的SNP做连锁分析时杂合度不高的不足之处。

5.致病基因的精密定位和测序验证

必要时，还可进一步进行致病基因所在区域的精密定位。可以选择高密度SNP分型、候选基因测序、对于定位区域设计探针进行富集后再通过第二代测序直接定位易感基因等方法。

实施例1.SNP标记位点的使用方法：

探针制备：定制合成所有6001SNP位点的寡核苷酸探针(Illumina分型体系)。寡核苷酸探针为含有SNP位点及其上下游几十bp的核苷酸序列，在SNP位点上含有和SNP二态碱基对应互补的两种碱基。因此对应于一个SNP位点，存在两种单核苷酸探针。不同的核苷酸探针制备公司对探针的处理有细微不同，通常是把合成的带有SNP多态位点的寡核苷酸探针固定在微小的磁珠上，并附着于特殊硅质玻片的微孔中，或者直接固定于玻片上，极小的空间可以放置大量探针，以此达到微芯片的高通量基因分型效率。

家系样本的采集和保藏：严格记录每个家系成员的表型症状，每个家系成员取外周血5ml，用含有EDTA等抗血凝物质的一次性真空抗凝采血管保存。为防止细胞破裂导致DNA的降解等损失，用低温保温箱收集。取回的血液样本如不及时提取DNA，应暂时冻存保藏于-80℃冰箱。

基因组DNA提取：使用血液样本DNA提取商品试剂盒，提取所有样本全基因组DNA并测量DNA的终浓度。根据下一步基因分型实验的需要，提取的DNA浓度优选在50ng/μl以上，总体积在20μl以上。提取的DNA样本保存于-20℃冰箱供下一步基因分型等实验用。

基因分型：采用核苷酸探针配套的基因分型相关试剂对样本DNA进行全基因组片段扩增，扩增时间较长，可放置于稳定环境过夜，获得大量的全基因组DNA片段。扩增得到的DNA片段加至寡核苷酸探针所在的芯片载体上，使含有互补序列的核苷酸片段和探针充分杂交结合，杂交过程过夜。杂交结束后，用洗脱试剂清除未结合到探针上的DNA片段。洗脱之后进行杂交结果的固定理。最后把芯片置于扫描仪器中读取SNP位点的基因型。扫描原理是在和寡核苷酸探针结合的DNA片段上加入了一种发光染料，当激光探头扫描时，染料发出的光被扫描仪记录下来，光信号经过软件的处理得到相应SNP位点的碱基基因型。实施例中采用Illumina公司的基因分型系统，在Illumina BeadArray芯片平台上进行核苷酸扩增，探针杂交和芯片扫描，最后获得样本DNA的基因分型信号。分型实验步骤如下：

1、DNA样品扩增前的准备：将200ng的DNA样品先进行预变性使之变成单链，然后中和变性剂，最后加入酶扩增反应混合液。

2、DNA样品37度孵育扩增：将加入扩增反应液的DNA样品放入孵育箱中，37度反应20-24小时进行全基因组扩增。

3、扩增产物进行酶切：在全基因组扩增的产物中加入酶切反应物，使之变成几百碱基大小的片段。由于所用的酶具有非常好的特异性，因此该酶切过程不需要电泳来控制酶切的反应速度。

4、酶切产物沉淀：将酶切后的产物用异丙醇在高速离心作用下进行沉淀，弃废液，并室温干燥。

5、溶解沉淀物：加入杂交液，48度孵育1小时，然后稍微震荡使沉淀DNA充分溶解、混匀。

6、DNA样品与芯片杂交：将充分溶解后的DNA样品在95度变性，然后加到芯片上，使其均匀覆盖在芯片表面，这样能使样品与芯片上的探针充分结合。最后将加好样品的芯片放入密闭的金属盒，在杂交炉中48度杂交16-24小时。

7、芯片洗脱：杂交后的芯片放入洗盒中清洗，洗脱掉没有杂交上或者杂交特异性不好的样品。

8、单碱基延伸和染色：以与芯片上探针杂交的基因组DNA为模板，进行单碱基延伸，延伸的碱基即为要检测的碱基。由于延伸的碱基已经提前进行过修饰，因此只要加入染料对其进行标记即可。

9、芯片扫描结果分析：标记后的芯片经过洗脱、固定、干燥即可进行激光共聚焦扫描，扫描后软件分析得到分型结果。

得到的6001SNP标记位点的基因分型数据用来进行连锁分析定位致病基因。

实施例2.使用标记位点基因型进行连锁分析

两个视网膜色素变性家系致病因素的定位研究。

实验对象：两个家系分别如图4和图5所示。第一个家系来自河北永清县，包括77个人，其中14人患病，共取到43个人的血样，其中36人进入实验和连锁分析；第二个家系在山东菏泽，包括59个人，其中12人患病，取到23人血样，其中16人参与实验和分析过程。两个家系都没有近亲结婚的情况。

根据家系特点，两个RP家系判定为常染色体显性遗传，有部分家系成员为疾病因素的携带者，RP在两个家系都表现为不完全外显(incomplete penetrance)。

样本DNA的制备：如使用方式中所述，使用全血提取基因组DNA的试剂盒，提取所有样本的基因组DNA。电泳检测DNA质量，检查DNA破碎和降解的程度。测量DNA的浓度，对没有达到50ng/μl的样本重新提取或者使用DNA浓缩试剂盒，DNA浓缩试剂盒可以提高样本DNA的浓度。提取好的样本用双蒸水稀释到50ng/μl，按照实施例1中所述的基因分型方法可得到6001SNP标记位点的基因型。

得到6001SNP标记位点的基因型数据之后，进行数据处理和连锁分析。

数据质量控制：每个样本的分型成功率(Call Rate)均在97％以上，绝大部分SNP位点被成功分型。去除在所有样本中分型成功率低于95％的SNP位点，成功率低的位点，由于数据的损失无法参与进一步的数据分析过程。两个RP家系的疾病表现为常染色体遗传，去掉X和Y性染色体上的标记位点，最后分别得到5619和5481个标记SNP的分型数据。

在统计和筛选基因分型数据之后，对家系基因型数据进行初步分析，两个家系标记位点的多态性分别如图6和图7所示，标记SNP的MAF值大于0.2的比率分别达到77.0％和73.2％。因为家系样本在遗传上的同质性要显著高于群体样本，所以上述数据证明所挑选的标记位点集合在汉族人群中具有非常高的多态性，为后续数据分析提供了极为有效的信息。所获标记位点基因型用于下一步连锁分析。

根据连锁分析原理，使用SNP标记集合的基因型和家系结构信息，选择连锁分析软件分析分型数据，获得和疾病紧密连锁的致病基因所在染色体片段。目前有很多软件可以完成这一计算过程，这里选择Merlin软件包做连锁分析。根据软件的输入格式，使用字符编程工具或文本编辑器把基因型数据和家系信息编辑为软件可读的形式。打开Merlin连锁分析软件包对3000和6001标记SNP分别进行全基因组连锁分析[13]。根据Merlin命令格式结合家系结构特征，参数设置为多点连锁分析，用1Mb大小的网格分割基因组，遗传模式为显性遗传。

提取Merlin连锁分析结果中LOD值为正的染色体区域并列于表1。LOD值(Likelyhood ofOdds ratio)是公认和广泛采用的连锁分析结果报告形式。如表1所示，两套SNP标记位点集合都成功定位了染色体上有限的几个疾病基因候选区域。候选区域的大小范围在几至几十Mb。在家系结构不同的情况下，3000和6001SNP标记集合的分析结果差异大小有所不同，家系1的差异大于家系2。主要表现为6001比3000SNP位点排除掉更多的和疾病连锁的区域，得到更少的候选致病基因区域。另外在定位区域的大小上，6001位点定位的候选区域包含在3000位点得到的候选区域之内，具有比3000SNP集合更好的定位效率。

表1

使用软件如SNP2ped 1.0分析单体型。其算法是分析单体型片段在家系患病个体之间的传递为基础，寻找和疾病连锁的单体型片段而定位致病基因。在提供了基因型数据和家系结构信息之后，SNP2ped首先分割出所有三联核心家系(父亲，母亲，一个孩子)，统计剔除孟德尔错误的SNP位点，推导三联家系的完整单体型。在得到家系单体型数据基础上推导和疾病连锁的单体型片段，给出单体型连锁强度的p值，物理位置，单体型SNP组成等参数。单体型分析结果如表2所示，分析结果进一步缩小了候选染色体区域的范围和大小。

表2

按上述步骤，使用SNP标记位点集合进行连锁分析和单体型分析后，定位了致病基因所在的候选染色体区域。为了进一步对目标区域精细定位，还可以在候选区域内部挑选更多的SNP位点。使用和SNP标记位点集合基因分型一样的方法获得这些SNP的基因型，以更高密度的基因分型数据结合家系结构做更精确的单体型分析。

在候选区域补充SNP数据之后(平均每15kb一个SNP位点)，经过单体型分析，最终两个RP家系的致病因素分别定位到染色体上约1-3M大小的区间内部，单体型分析结果如表3，4所示。表3显示定位区域的信息，表4显示携带突变基因的单体型。传统的STR标记全基因组致病基因筛选和定位的实验过程繁琐，且定位结果的最大分辨率都在十几至几十Mb以上[14，15]；而使用SNP具有通量高，操作方便以及分析过程简单等优点，同时通过粗定位和之后的精细定位得到的定位结果比传统的STR方法在定位精度上提高了几到十几倍。

表3：

表4：

实施例3.效果验证

如实施例1和2获得疾病基因候选区域之后，在候选区域附近选择STR标记对验证定位结果。

在家系1的8号和1号染色体定位目标区域内部挑选了STR标记D1S425和D8S1771并完成实验，使用连锁分析软件Mlink分析STR数据，LOD值分别为1.710和1.852；在另一个家系14号染色体的两个候选区域挑选位于附近的STR标记D14S258和D14S68，LOD值分别为3.160和2.600。考虑到可挑选到的STR位点并不能完全落在候选染色体区域之内以及STR自身在RP家系内部的杂合度情况等，此结果较好地验证了候选区域和RP疾病的连锁关系。

通过检索候选区域内部的基因功能和文献报道，在家系1的8号染色体区段内部发现了一个和神经发育相关的基因Nrg1，模式动物的研究中显示，该基因在视网膜色素层活动中心中高度表达[16]；另一个研究显示，该Nrg1基因和小鼠视感受神经的发育和形成相关[17]。2号染色体候选区域有一个RD3基因，即Retinal Degeneration 3，报导该基因是利伯氏先天性黑蒙(LCA，LEBER CONGENITAL AMAUROSIS)的致病基因[18]，LCA也称为先天性视网膜色素变性，该基因也被定为致病基因的候选基因。

另一个家系的14号染色体第一定位区段上有一个ABCD4基因，有报道该基因和脑白质营养不良有关，而脑白质营养不良的一个重要症状就是视力受损[19]；另外，基因ABCD4和基因 ABCA4同处一个基因家族，ABCA4被广泛认为和RP同为眼底病的Stargardt疾病相关。14号染色体上的第二个定位区段上包含有一个视黄醛脱氢酶基因RDH12(Retinol Dehydrogenase 12)，报道显示该基因是早发性视网膜细胞营养不良以及利伯氏先天性黑蒙LCA的致病基因[20，21]。候选致病基因列于表4。

通过以上研究，将NRG1，RD3，ABCD4和RDH12等四个基因定为视网膜色素变性的候选致病基因。

参考文献

1.Hirschhorn J N & Daly M J.Genome-wide association studies for common diseases and complex traits.Nat Rev Genet，2005，6(2)，95-108.

2.Pritchard J K & Rosenberg N A.Use of unlinked genetic markers to detect population stratification inassociation studies.Am J Hum Genet，1999，65(1)，220-228.

3.Wang Q，Chen Q，Zhao K et al.Update on the molecular genetics of retinitis pigmentosa.OphthalmicGenet，2001，22(3)，133-154.

4.Ferreira P A.Insights into X-linked retinitis pigmentosa type 3，allied diseases and underlyingpathomechanisms.Hum Mol Genet，2005，14Spec No.2，R259-267.

5.Mansergh F C，Millington-Ward S，Kennan A et al.Retinitis pigmentosa and progressive sensorineuralhearing loss caused by a C12258A mutation in the mitochondrial MTTS2 gene.Am J Hum Genet，1999，64(4)，971-985.

6.The International HapMap Consortium.A haplotype map of the human genome.Nature，2005，437(27)，1299-1320.

7.The International HapMap Consortium.A second generation human haplotypemap of over 3.1 millionSNPs.Nature，2007，449(18)，851-861.

8.Kondrashov A.S.Direct estimates of human per nucleotide mutation rates at 20 loci causing Mendeliandiseases.Hum Mutat，2003，21(1)，12-27.

9.Dib C，Faure S，Fizames C et al.A comprehensive genetic map of the human genome based on 5，264microsatellites.Nature，1996，380(6570)，152-154.

10.Gyapay G，Morissette J，Vignal A et al.The 1993-94 Genethon human genetic linkage map.Nat Genet，1994，7(2Spec No)，246-339.

11.Tong Sun，Yang Gao，Wen Tan et al.A six-nucleotide insertion-deletion polymorghism in the CASP8promoter is associated with susceptibility to multiple cancers.Nature，2006，1-9.

12.Jonathan K.P，Molly P.Linkage Disequilibrium in Humans：Models and Data.Am.J.Hum.Genet，2001，69，1-14.

13.Goncalo R.A，Stacey S.C，William O.C et al.Merlin-rapid analysis of dense genetic maps usingsparse gene flow trees.Nat Genet，2001，30，97-101.

14.Collin G B，Marshall J D，Lon R et al.Homozygosity mapping of

syndrome to chromosome 2p. Human Molecular Genetics，1997，5(2)，213-219.

15.ACLAND G M.，RAY K et al.Linkage analysis and comparative mapping of canine progressiverod-cone degeneration(prcd)establishes potential locus homology with retinitis pigmentosa(RP 17)in humans.Genetics，1998，95，3048-3053.

16.Fernandez P A，Tang D G，Evidence that Axon-Derived Neuregulin Promotes Oligodendrocyte Survivalin the Developing Rat Optic Nerve.Neuron，2000，28，81-90.

17.Meyer D，Yamaai T，Isoform-specific expression and function of neuregulin.Development，1997，124，3575-3586.

18.James S.F，Bo C，Chitra K.et al.Premature Truncation of a Novel Protein，RD3，Exhibiting SubnuclearLocalization Is Associated with Retinal Degeneration.Am.J.Hum.Genet，2006，79，1059-1070.

19.Asheuer M，Bieche I et al.Decreased expression of ABCD4 and BG1 genes early in the pathogenesis ofX-linked adrenoleukodystrophy.Human Molecular Genetics，2005，14(10)，1293-1303.

20.Andreas R.J，Debra A.T，Gerd U，et al.Mutations in RDH12 encoding a photoreceptor cell retinoldehydrogehase cause childhood-onset severe retinal dystrophy.Nature Genetics，2004，36(8)，850-854.

21.Isabelle P，Sylvain H，Sylvie G，et al.Retinal Dehydrogenase 12(RDH 12)Mutations in Leber CongenitalAmaurosis.Am.J.Hum.Genet，2004，75，639-646.

附表：SNP标记rs#号表(6001，偶数号序号的为3000位点)

注：索引双号为3000中密度SNP标记集。