CN105512514B

CN105512514B - 一种mhc补全数据库、其构建方法和应用

Info

Publication number: CN105512514B
Application number: CN201410490501.2A
Authority: CN
Inventors: 刘小敏; 曹红志; 刘晓; 张涛
Original assignee: BGI Shenzhen Co Ltd
Current assignee: WUHAN BGI MEDICAL LABORATORY CO., LTD.; BGI Shenzhen Co Ltd
Priority date: 2014-09-23
Filing date: 2014-09-23
Publication date: 2018-05-01
Anticipated expiration: 2034-09-23
Also published as: CN105512514A

Abstract

本申请公开了一种MHC补全数据库及其构建方法和应用。本申请的MHC补全数据库包括合成在一起的genotype数据集、HLA分型的型别数据集、氨基酸改变信息数据集和HLA单体型数据集；该数据库的构建过程中首次采用LD和HWE进行变异结果的过滤，提高了数据准确性；采用简单易操作的方法获得一个数量最少的SNP区分数据集，然后在phasing分析得到MHC单体型信息，相比于用整个SNP数据集进行phasing，本申请的构建方法更节约时间、减少CPU和内存使用，并且得到的单体型信息更准确。本申请的MHC补全数据库，包含了MHC区域的多种数据集，能够有效的补全位点，为MHC区域的深入研究奠定了基础。

Description

一种MHC补全数据库、其构建方法和应用

技术领域

本申请涉及基因数据库领域，特别是涉及一种MHC补全数据库，该数据库的构建方法和所构建的数据库的应用。

背景技术

主要组织相容性复合体(Major histocompatibility complex，简称MHC)是脊椎动物的高度多态性基因群。它早期源于解释器官移植中受体排斥供体组织细胞的现象。在进化过程中，MHC在物种之间和种群的个体之间都产生了明显差异。物种之间的差异主要是基因结构的不同，其遗传基础是等位基因的点突变，即核苷酸发生替换。产生MHC多态性的原因主要是环境中病原压力。许多研究已经证实了MHC与复杂疾病尤其是自免疫疾病密切相关，而且也探明了一些与这些疾病相关的MHC的型别，单倍型或MHC分子中的特定位点。但是由于MHC区域序列的高度多态性和强的连锁不平衡性，致使很多真正的致病位点仍没有很好地被鉴定出来。

目前的疾病研究大多是基于genotyping芯片的全基因组关联分析(Genome-wideassociation study，简称GWAS)研究，没有对MHC区域进行全覆盖测序，所以容易漏掉一些关键的致病位点，这就需要我们对这些区域的位点进行补全。但是，MHC区域片段的高度重复性，容易造成比对结果的假阳性bais，影响MHC数据库的准确性。

发明内容

本申请的目的是提供一种高度准确的MHC补全数据库的构建方法，其构建的MHC补全数据库，以及该数据库的应用。

为了实现上述目的，本申请采用了以下技术方案：

本申请一方面公开了一种MHC补全数据库的构建方法，包括：

(1)从人类基因组DNA样品中分离出MHC区域的片段，对分离的MHC片段进行测序，将测序结果与人类基因标准序列比对，采用变异检测软件对比对结果进行检测校正，获得DNA样品的变异基因型数据；

(2)按以下条件对步骤(1)获得的DNA样品变异基因型数据进行筛选，

a.在群体中测序深度≥x的位点，x≥6，

b.在群体中数据的缺失率<0.05的位点，

c.等位基因碱基型出现次数大于一次的位点，

获取满足以上三个条件的位点，然后过滤掉以下条件的位点，

d.在群体中连锁不平衡值LD＝0的位点，

e.在群体中哈温平衡指标log(HWE)≥600的位点，

剩下的位点组成genotype数据集；

(3)采用分型软件对步骤(2)获得的genotype数据集进行分析，得到每个DNA样品的HLA分型的型别数据集；

(4)统计每个HLA分型的SNP，将统计的各个分型的SNP与IMGT数据库中相应分型的SNP相比较，如果两者不同，则把统计的SNP翻译成氨基酸，从而得到每个分型对应的氨基酸改变信息数据集；

(5)根据步骤(4)统计的每个HLA分型的SNP，比较各个HLA分型的SNP数据集，获得数量最少的，且能够区分各个HLA分型的SNP区分数据集，对SNP区分数据集进行phasing分析，获得每个分型的HLA单体型数据集；

(6)将genotype数据集、HLA分型的型别数据集、氨基酸改变信息数据集和HLA单体型数据集合成为一个数据库，即MHC补全数据库。

优选的，DNA样品包括采集自至少205个个体的样品，更优选的，采集自至少1066个个体的样品。需要说明的是，理论上讲样品数量越多，MHC区域的信息越全面，即MHC补全数据库所包含的信息越能全面的反应MHC区域的所有变异、分型、氨基酸改变等信息；但是，采集的样品越多，建库的成本越高，因此，本申请中采集205个样品即可保障所构建的MHC补全数据库对现实的MHC区域的信息覆盖率大于95％，可以满足使用需求，而采集1066个样品，其覆盖率可达到99％以上；可以理解，采集的样品少于205个时，覆盖率会相对减小，对于一些特殊用途的数据库，不需要太高的覆盖率，因此也可以使用少于205个样品进行建库，对此本申请不做具体限定。还需要说明的是，本申请的一种实现方式中，采集了8906个样品，其构建的MHC补全数据库，是目前世界上最全面的MHC区域的数据库，本申请中205个样品和1066个样品的覆盖率都是以8906个样品的数据库为全数据库计算的。

优选的，步骤(1)中的变异检测软件为GATK、SAMTOOLS或SOAPSNP，优选的，变异检测软件为GATK。

优选的，步骤(3)中的分型软件为SOAPHLA分型软件。

优选的，步骤(6)中采用PLINK的merge命令把genotype数据集、HLA分型的型别数据集、氨基酸改变信息数据集和HLA单体型数据集合成为一个数据库。

优选的，人类基因标准序列为hg18。

本申请的另一面公开了一种MHC补全数据库，该数据库包括合成在一起的genotype数据集、HLA分型的型别数据集、氨基酸改变信息数据集和HLA单体型数据集；其中，genotype数据集包含所有MHC区域的单核苷酸多态性位点和插入删除多态性位点的信息；HLA分型的型别数据集包含所有MHC区域的个体型别信息；氨基酸改变信息数据集包含所有MHC区域的各个型别所对应的氨基酸的改变信息；HLA单体型数据集包含所有MHC区域的HLA单体型的信息。

优选的，本申请的MHC补全数据库采用本申请的构建方法构建。需要说明的是，本申请的MHC补全数据库是对MHC区域的变异情况的补充，使得该区域的信息更为全面，以方便GWAS疾病位点的分析研究；本申请的数据库构建方法只是本申请研发的一套简单有效的建库方法，不排除其它建库方法也可以用于本申请的MHC补全数据库的构建。

本申请的再一面还公开了本申请的MHC补全数据库的一种应用，具体包括，提供了一种采用本申请的MHC补全数据库计算建库所需的有效DNA样品数量的方法，包括以下步骤：

(a)设定数据库中的全部数据集的数量为Ta；

(b)从数据库的所有样品中随机抽取N个样品，N个样品包含的数据量为Na，N个样品对数据库全部数据集Ta的覆盖率Cov＝Na/Ta，其中N≥1；

(c)逐步增加随机抽取样品的数量，即逐步增大N值，直至N个样品的覆盖率Cov大于或等于预设值，此时样品数量N即本申请的建库所需的有效DNA样品数量。

优选的，预设值大于等于0.95。需要说明的是，本申请的建库所需的有效DNA样品数量是指构建本申请的MHC补全数据库所需要的有效DNA样品数量，本申请的MHC补全数据库作为一个更为全面的体现MHC区域信息的数据库，所使用的样品越多，自然越接近本申请的MHC补全数据库，但是考虑到建库成本问题，对本申请的MHC补全数据库覆盖率大于0.95的样品数量基本可以满足使用需求，因此，本申请的预设值大于等于0.95。可以理解，在一些更为基础的或者一些特殊的使用中，所要求的覆盖率可以更低，对此本申请不做具体限定。

由于采用以上技术方案，本申请的有益效果在于：

本申请的MHC补全数据库的构建方法首次采用LD和HWE进行变异结果的过滤，提高了数据准确性；采用简单易操作的方法获得一个数量最少的SNP区分数据集，然后在phasing分析得到MHC单体型信息，相比于用整个SNP数据集进行phasing，本申请的构建方法更节约时间、减少CPU和内存使用，并且得到的单体型信息更准确。采用本申请的建构方法构建的MHC补全数据库，包含了MHC区域的多种数据集，能够有效的补全位点，为MHC区域的研究奠定了基础。

附图说明

图1：是本申请实施例中GATK软件检测变异的准确性评估结果；

图2：是本申请实施例中SAMTOOLS软件检测变异的准确性评估结果；

图3：是本申请实施例中SOAPSNP软件检测变异的准确性评估结果；

图4：是本申请实施例中连锁不平衡性(LD)与位点遗传中的哈温平衡(HWE)之间的关系，横坐标表示连锁不平衡性，纵坐标表示哈温平衡的log值；

图5：是本申请实施例中检测的有效样品数目对群体覆盖率的关系，横坐标表示覆盖率，纵坐标表示样品数目，横坐标上的N90-N99分别表示覆盖率90％-99％；

图1-图3中，横坐标表示碱基的覆盖度，纵坐标表示假阳性FP和假阴性FN的百分比；FN为没有校正的变异检测结果和准确数据集之间比较得到的假阴性率，FP为没有校正的变异检测结果和准确数据集之间比较得到的假阳性率，FN-G为采用GATK校正后的变异检测结果和准确数据集之间比较得到的假阴性率，FP-G为采用GATK校正后的变异检测结果和准确数据集之间比较得到的假阳性率，FP-candidate为没有校正的变异检测结果和放宽条件的准确数据集之间比较得到的假阴性率，FP-candidate-G为采用GATK校正后的变异检测结果和放宽条件的准确数据集之间比较得到的假阴性率。

具体实施方式

由于目前的疾病研究大多是基于genotyping芯片的全基因组关联分析研究，没有对MHC区域进行全覆盖测序，容易漏掉一些关键的致病位点；因此，本申请率先研究并首次提出了MHC补全数据库。但是，在MHC补全数据库构建的研究过程中，我们发现MHC区域片段的高度重复性，容易造成比对结果的假阳性bais，影响MHC补全数据库的准确性，针对该技术难题，我们进一步的研究出了一种特别针对MHC补全数据库的构建方法，其中包括准确的变异检测、有效的过滤和数据库构建等，提高了构建的MHC补全数据库的准确性，能够很好的用做GWAS疾病位点的补全和探索。

此外，本申请还率先提出了用构建的大样品数目的MHC补全数据库，计算建库所需的有效DNA样品数量的方法，从而实现了最低的成本和最少的样品量，达到最有效的数据库覆盖率的目的，大大节约了研究成本。

本申请中，连锁不平衡值LD，即linkage disequilibrium，简称LD，是在测序和分析中体现连锁不平衡现象的一个数值。哈温平衡指标HWE，即Hardy-Weinbergequilibrium，简称HWE，是测序分析位点在遗传过程中进行随机配对的数据指标。genotype数据集，即基因型数据集，是体现各DNA样品的基因变异的数据集。HLA，即humanleukocyteantigen，人类白细胞抗原，简称HLA。SNP即Single Nucleotide Polymorphisms，单核苷酸多态性，简称SNP。IMGT数据库，即ImMunoGene Tics db免疫基因标记数据库，简称IMGT数据库。phasing分析，是基于附近位点的连锁不平衡值信息把单体型连接起来的分析手段。GATK、SAMTOOLS和SOAPSNP为三款不同的变异检测软件。SOAPHLA分型软件是一款用于基因分型的软件。PLINK是一款做遗传分析的软件，其中的merge命令可以将各数据集合成为一个完整的数据库，以备存储、研究使用。对于PLINK以及各变异检测软件、分型软件等的具体使用和操作方法在此不累述。

下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例一原始数据准备及变异检测软件比较

本例从华大基因项目中挑选8906个中国人的基因组DNA样品，并采用MHC capture芯片捕获人类MHC区域的序列，对捕获的MHC区域序列进行测序。

本例测序过程得到的原始数据以fastq格式文件存储，简称fq格式，其存储着读长序列，即reads也称读段，以及reads的测序质量等信息。在得到原始的fq格式数据后，对其进行去接头、去低质量reads等基本处理，本例采用的是第二代测序数据采用的基本处理方法，基本处理后得到干净的序列，即clean reads，该clean reads即为测序结果。需要说明的是，本申请中，进行去接头、去低质量reads等基本处理的方式，可以是第二代测序数据采用的基本处理方法，也可以是其它测序技术中的基本处理方式，在本申请中不做具体限定。

本例在获取测序结果后，将其与选自美国国家生物技术信息中心(NCBI，nationalcenter for biotechnology information)数据库中的人类基因标准序列进行比对。本例中人类基因标准序列为NCBI数据库中版本36.3的hg18，即NCBI Build36.3hg18。比对软件可以采用常规的比对软件，例如Tmap，BWA(Burrows-Wheeler Aligner)，SOAP(ShortOligonucleotide Analysis Package)等。本例采用的是BWA软件，比对后得到.bam文件。

采用变异检测软件对比对结果进行检测校正，获得DNA样品的变异基因型数据。本例比较了用GATK进行比对校正和不用GATK进行比对校正后的结果的准确性，又分别比较了三种常用的变异检测软件GATK、SAMTOOLS和SOAPSNP检测MHC变异的准确性，检测结果如图1至图3所示，图1显示了GATK软件检测变异的准确性评估结果，图2显示了SAMTOOLS软件检测变异的准确性评估结果，图3显示了SOAPSNP软件检测变异的准确性评估结果。从比较结果来看我们可以得到三个结论：

第一，从图1和图2可以看出，使用GATK校正后的结果要比不用GATK进行校正的结果要好，也更准确；图1是采用GATK校正比对结果后，用GATK检测的变异结果评估分析，图2是采用GATK校正比对结果后，用SAMTOOLS检测的变异结果评估分析。

第二，SOAPSNP软件并不合适来进行变异检测，一方面是因为GATK校正会影响SOAPSNP软件检测变异的准确性，另一方面可以明显看出在低深度时SOAPSNP软件检测变异的假阳性高达30％，如图3所示，所以我们得到结论是SOAPSNP并不适合进行MHC区域的变异检测。

第三，GATK软件相比于SAMTOOLS软件更适合用于MHC区域的变异检测，一方面是GATK造成的假阴性结果要明显低于SAMTOOLS，另一方面虽然GATK的假阳性稍高于SAMTOOLS，但这是因为GATK可以得到更多的变异检测结果，增强了变异发现率，而不像SAMTOOLS一样漏掉了太多的变异，所以我们认为GATK软件要优于SAMTOOLS软件。

综上，本例最终采用GATK校正后的结果和用GATK软件来进行变异检测，获得DNA样品的变异基因型数据。本例通过对GATK、SAMTOOLS和SOAPSNP三款变异检测软件进行分析比较，最终得出GATK更适合于本申请，提高了变异检测的准确性，为后续的研究奠定了基础。

实施例二数据筛选过滤和genotype数据集

本例根据实施例一的变异检测结果构建MHC补全数据库中的genotype数据集，该genotype数据集包括：所有样本准确的genotype位点，包括比对后的群体的单核苷酸多态性位点SNPs和插入删除多态性位点INDELs的信息。

在实施例一中，我们已经得到了每个样品的genotype结果也就是变异检测结果，我们使用merge程序提取每个样品的genotype结果并把它剪切到一个文件中，得到所有样品的原始的genotype数据集。

并将原始的genotype数据集按以下三个条件过滤：

a.在群体中测序深度≥6的位点；

b.在群体中数据的缺失率<0.05的位点；

c.等位基因碱基型出现次数大于一次的位点。

满足以上3个条件的位点将构成初步过滤后的genotype数据集。

鉴于MHC区域的强连锁不平衡性(linkage disequilibrium，简称LD)，我们分析了LD和HWE的关系，其中HWE即位点在遗传过程中进行随机配对时的哈温平衡指标Hardy-Weinberg equilibrium，简称HWE。如图4所示，我们发现大多数的位点是在遗传过程中是符合哈温平衡的(-log(HWE)<200)，而且很多高深度的准确位点是存在强连锁遗传不平衡的(LD>0.05)，于是我们随机抽取了2500个LD＝1&&-log(HWE)<1，初步认为genotyping正确的样品，以及和2500个LD＝0&&-log(HWE)＝600，初步认为genotyping错误的样品，进行对比，正确的点平均深度在12X以上，错误的点平均深度基本上在6X，7X左右，而且通过手动检查10个初步认为genotyping错误位点的reads覆盖情况，发现多是落在重复区域而且reads比对质量值并不是很好，因此，我们确定进一步的过滤标准：

d.在群体中LD＝0的位点；

e.在群体中log(HWE)≥600的位点；

同时出现以上两种情况的位点被滤掉，剩下的位点构成了最终过滤后的genotype数据集。

需要说明的是，本例总共提出了五个过滤条件，但是每个条件具体的过滤参数只是依据本申请所用到的样品的实际情况来界定的，并不对过滤参数作此限定，例如，本实施例所用到样品的测序平均深度是50X，所以我们保留了群体中测序深度大于等于6的位点，如果样品的测序深度提高到80X，也可以把过滤标准提高到测序深度大于等于10的位点.

本例采取了两步的过滤标准来对原始的数据集进行过滤，首次提出了用LD和HWE这两个质控条件进行数据质控的方法，使得最终过滤获取的genotype数据集更加准确，为最终构建完整的MHC补全数据库奠定了基础。

实施例三 MHC补全数据库

1、genotype数据集

在实施例二中我们得到了genotype数据集，只不过存储格式为genotype格式，我们采用GTOOLS软件将genotype文件转换成PLINK可以识别的ped和map格式。参数如下：gtool-G--g sample.gen--s sample.sampleinfo--pedgenotype.ped--mapgenotype.map--snp

2、HLA分型的型别数据集和分型对应的氨基酸改变信息数据集

基于每个样品高深度的reads序列，我们采用华大基因开发的SOAPHLA分型软件对每个样品进行HLAtyping分型，得到每个样品的型别结果，把它存储为ped和map格式，即HLA分型的型别数据集。针对型别结果，我们依据IMGT数据库找到每个型别对应的SNP，和人类基因标准序列hg18同样位置SNP作比较，如果两者不同，就把它翻译成对应的氨基酸，从而得到型别对应的氨基酸改变信息数据集，也存储成ped和map格式。

其中SOAPHLA分型软件可以向华大基因获取，为公开使用软件，并且该软件公开发表于：Cao H,Wu J,Wang Y,Jiang H,Zhang T,et al.An Integrated Tool to Study MHCRegion:Accurate SNV Detection and HLA Genes Typing in Human MHC Region UsingTargeted High-Throughput Sequencing.PLoS ONE8,e69388(2013).。本例采用的IMGT数据库的网址为http://www.ebi.ac.uk/ipd/imgt/hla。

3、HLA单体型数据集

本例所说的单体型是指把MHC区域五个经典的具有代表性的基因连接起来构成的单体型，比如说A*40:01-B*13:01-C*06:02-DRB1*07:02-DQB1*03:03。我们需要知道每个基因的型别比如说A*40:01都是可以由一些特定的tag-SNP来代表的，即一些并不是随机的自由组合，而是更加倾向于连在一起连锁不平衡的位点形成的区域，这个区域中比较有代表性的单核苷酸多态性位点。所以本实施例的重点就是找到每个基因的特定的tag-SNP数据集，即SNP区分数据集，然后把这些数据集连接起来构成由基因型别来组成的单体型。

tag-SNP数据集的挑选方法如下：

(1)从构建的HLA分型的型别数据集中提取五个基因：HLA-A、HLA-B、HLA-C、HLA-DRB1和HLA-DQB1的型别数据，然后根据IMGT数据库找到每个型别对应的SNP数据，构建成每个型别对应的SNP数据集。

(2)针对每个基因的所有型别对应的SNP数据，找到一个最优的SNP数据集，这个数据集要求SNP的个数最少，但是能够唯一区分每一个型别。

为了便于描述，本例用一个例子说明，如表1所示例子，第一列“型别”是HLA型别，右边编号1、2、3...10的列均是各型别对应的SNP，我们要挑选一个最佳的SNP数据集来区分所有的型别，我们的这个型别数据集定义为一个集合R{A*40:01，A*58:01，A*13:01，A*01:01，A*02:01，A*03:01}，我们的挑选原则类似贪心算法：首先会挑选第一个能最大化区分所有型别的SNP，这样就首先找到了SNP1，即编号1的列，因为这个SNP能最大化把前3个型别和后3个型别区分开来，这样SNP1就使得R数据集就变成了R1{A*40:01，A*58:01，A*13:01}和R2{A*01:01，A*02:01，A*03:01}，接着往下，我们找到了SNP3，即编号3的列，这个SNP能最大化把R1和R2拆分开来，这样就得到了数据集R11{A*40:01，A*58:01}，R12{A*13:01}，R21{A*01:01，A*02:01}和R22{A*03:01}，以此类推，我们第三个就找到了SNP7，即编号7的列，它可以把R11分开，这样就变成了数据集R111{A*40:01}，R112{A*58:01}，R12{A*13:01}，R21{A*01:01，A*02:01}和R22{A*03:01}，最后我们找到了SNP9，即编号9的列，可以把R21区分开来，最终可以把所有的型别区分开来得到R111{A*40:01}，R112{A*58:01}，R12{A*13:01}，R211{A*01:01}，R212{A*02:01}和R22{A*03:01}，最后的结果是我们找到了最佳SNP数据集，这个数据集包含4个SNP位点{1,3,7,9}，这个数据集包含的snp最少，而且最大化把所有的型别区分开。

根据以上原则，我们用相同的方法找到了一个由27个SNP组成的最佳SNP数据集，其中6个SNP能区分出所有HLA-A基因的型别，五个基因的详细信息见表2，这27个SNP可以把我们8906个样品中的所有型别区分开来。然后对这27个最优组合的SNP数据集进行phasing分析，进而判断型别得到单体型结果。最终，通过phasing我们得到了由HLA-A，HLA-B，HLA-C，HLA-DR，HLA-DQ这五个基因组成的中国人群单体型结果，用ped和map格式存成单体型文件。其中phasing分析是指基于附近位点的LD信息把单体型连接起来的分析方式。

表1 SNP区分数据集获取示例

型别

1

2

3

4

5

6

7

8

9

10

A*40:01

A

G

C

T

G

T

A*58:01

A

G

C

T

G

A

G

T

A*13:01

A

G

T

G

T

A*01:01

T

G

C

T

G

T

A*02:01

T

G

C

T

G

T

A*03:01

T

G

T

G

T

G

C

表2 五个基因的SNP区分数据集

基因名称	最佳SNP数据集	SNP数目
			HLA-A	30018537，30019098，30019219，30019048，30018696，30018566	6
HLA-B	31432123，31432187，31432515，31432474，31432900	5
			HLA-C	31347029，31347080，31347396，31347564，31347355，31346830	6
HLA-DRB1	32740759，32740672，32740666，32740748，32737883	5
			HLA-DQB1	32660109，32659977，32659948，32659890，32657589	5

4、完整的MHC补全数据库

上述三个步骤我们得到了四个数据集，分别是：genotype数据集、HLA分型的型别数据集、氨基酸改变信息数据集和HLA单体型数据集。我们把这四个数据集用PLINK的--merge命令把它合成一个最终的MHC补全数据集。本例构建的MHC补全数据库的基本组成如表3所示。

表3 MHC补全数据库基本组成

本实施例把四个数据集合并成一个完整的补全数据集，本例用一个简单易操作的算法挑选出了最优的一个SNP数据集，然后再用这个数据集phasing得到MHC单体型信息，相比于用整个SNP数据集进行phasing，这样做既减少了CPU和内存，又节约了大量时间，最主要的是能够使phasing得到的单体型结果更准确，从而使得我们构建的数据集更准确。更加适合用于做GWAS疾病位点的补全分析(imputation)。

实施例四数据库性能评估

1、数据集

参考数据集：本申请构建的含有8906个样品的MHC补全数据库。

验证集：从其它项目中挑选出1000个样品的只含有MHC少数SNP位点的数据集。

2、方法

把本申请构建的8906个样品的MHC补全数据库作为参考数据集，用它来补全1000个样品中除验证集中记载的SNP以外的其它的genotype位点以及型别、单体型等信息。由于我们有这1000个样品正确的型别结果，所以我们拿补全后的型别结果和真实的型别结果作比较，进而验证补全的正确性，以此来评估我们的MHC补全数据库补全其它缺少信息的样品的准确性。

3.评估结果

1000个验证样品补全后的型别结果和真实的型别结果比较分析结果如表4所示。

表4 MHC补全数据库评估结果

基因名称	两位型别的准确率	四位型别的准确率
			HLA-A基因	99.85％	96.80％
HLA-B基因	99.25％	93.55％
			HLA-C基因	99.90％	97.45％
HLA-DRB基因	99.95％	96.40％
			HLA-DQB基因	100.00％	99.15％
五个基因	99.79％	96.67％

结果显示，采用本申请的构建方法所构建的MHC补全数据库对样品的平均补全准确率达到96％以上，对两位型别的平均补全准确率达99％以上。

实施例五 MHC补全数据库的应用

在本申请的MHC补全数据库的基础上，本例提供了一种评价有效样品数目的方法。该方法的原理是：因为我们构建了8906个大样品数目的MHC补全数据库，可以说这个数据库含有最全的MHC区域信息，但是通常情况下我们很难找到这么大的样品数目，所以基于此考虑，本例提供一种方法，检测多少样品量，即有效样品数目，可以对群体的MHC区域有很好的覆盖，让人们用相对合适的样品量也可以做到很好地研究MHC区域的特征。具体操作方法如下：

(a)首先，我们定义数据库中的全部数据集的数量为Ta，即数据集包含8906个样品的所有MHC区域信息；

(b)其次，我们从8906个样品中随机选择N个样品，这样这N个样品就包含有Na个型别信息，然后定义Na个型别信息对总样品的覆盖率Cov＝Na/Ta，其中N≥1；

(c)逐步增加随机抽取样品的数量，即逐步增大N值，直至N个样品的覆盖率Cov大于或等于预设值，此时样品数量N即所述建库所需的有效DNA样品数量。假设我们希望达到覆盖总样品95％的型别，这样Cov＝0.95，然后我们逐渐增加样品的数目N＝100,..,200,..,300,..，直到挑选的样品数目使得其包含的型别数目Na占总型别数目Ta的比例超过95％位置。则该样品数目就是有效样品数目。

对五个基因分别按照上述方法做有效样品数目的统计，结果如表5所示。最终我们得到205个有效样品可以对每个基因的覆盖率达到95％以上，基本可以满足使用。当有效样品数目达到1066个时，对每个基因的覆盖率达到99％以上。有效样品数量与覆盖率的关系如图5所示，从图5中可以明显看出，随着有效样品数目的增加，我们对群体型别的覆盖率也逐渐增加。

表5 有效样品数目分析结果

本例创造性的将所构建的MHC补全数据库用于评估多少样品量可以很好的覆盖群体的型别变异，实现用最少的样品量、最低的成本达到有效的研究群体特征的目的。这个应用是本申请首次提出来的，连千人基因组(1000genome project)工程和hapmap研究都不曾做过类似的评估。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。

Claims

1.一种MHC补全数据库的构建方法，包括：

a.在群体中测序深度≥x的位点，x≥6，

b.在群体中数据的缺失率<0.05的位点，

c.等位基因碱基型出现次数大于一次的位点，

d.在群体中连锁不平衡值LD＝0的位点，

e.在群体中哈温平衡指标log(HWE)≥600的位点，

剩下的位点组成genotype数据集；

(6)将所述genotype数据集、所述HLA分型的型别数据集、所述氨基酸改变信息数据集和所述HLA单体型数据集合成为一个数据库，即MHC补全数据库。

2.根据权利要求1所述的构建方法，其特征在于：所述DNA样品包括采集自至少205个个体的样品。

3.根据权利要求1所述的构建方法，其特征在于：所述DNA样品包括采集自至少1066个个体的样品。

4.根据权利要求1所述的构建方法，其特征在于：所述步骤(1)中的变异检测软件为GATK、SAMTOOLS或SOAPSNP。

5.根据权利要求1所述的构建方法，其特征在于：所述步骤(3)中的分型软件为SOAPHLA分型软件。

6.根据权利要求1所述的构建方法，其特征在于：所述步骤(6)中采用PLINK的merge命令把所述genotype数据集、所述HLA分型的型别数据集、所述氨基酸改变信息数据集和所述HLA单体型数据集合成为一个数据库。

7.根据权利要求1-6任一项所述的构建方法，其特征在于：所述人类基因标准序列为hg18。

8.一种MHC补全数据库，其特征在于：包括合成在一起的genotype数据集、HLA分型的型别数据集、氨基酸改变信息数据集和HLA单体型数据集；

所述genotype数据集包含所有MHC区域的单核苷酸多态性位点和插入删除多态性位点的信息；

所述HLA分型的型别数据集包含所有MHC区域的个体型别信息；

所述氨基酸改变信息数据集包含所有MHC区域的各个型别所对应的氨基酸的改变信息；

所述HLA单体型数据集包含所有MHC区域的HLA单体型的信息。

9.根据权利要求8所述的MHC补全数据库，其特征在于：所述MHC补全数据库采用权利要求1-6任一项所述的构建方法构建。

10.采用权利要求8或9所述的MHC补全数据库计算建库所需的有效DNA样品数量的方法，包括：

(a)设定数据库中的全部数据集的数量为Ta；

(c)逐步增加随机抽取样品的数量，即逐步增大N值，直至N个样品的覆盖率Cov大于或等于预设值，此时样品数量N即所述建库所需的有效DNA样品数量。

11.根据权利要求10所述的方法，其特征在于：所述预设值大于等于0.95。