CN103020490A

CN103020490A - 目标区域测序中质控位点选取方法及装置

Info

Publication number: CN103020490A
Application number: CN2011102879490A
Authority: CN
Inventors: 蒋涛; 李英睿; 汪建; 王俊; 杨焕明
Original assignee: BGI Shenzhen Co Ltd
Current assignee: Tianjin Huada medical laboratory Co., Ltd.
Priority date: 2011-09-26
Filing date: 2011-09-26
Publication date: 2013-04-03
Anticipated expiration: 2031-09-26
Also published as: CN103020490B

Abstract

本发明公开了一种目标区域测序中质控位点选取方法及装置，所述方法包括：选取目标区域；在数据库中提取各单核苷酸多态性位点对于所有个体的基因型，得到第一位点数据，根据该数据计算检出率以及次等位基因频率；在实验样本中，对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后，合并每个实验个体目标区域内的单核苷酸多态性位点，得到第二位点数据，根据该数据计算检出率以及次等位基因频率；选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。这样选取的一组单核苷酸多态性位点作为质控位点是较有代表性的，且该种质控位点选取方法简单易操作。

Description

目标区域测序中质控位点选取方法及装置

技术领域

本发明涉及基因工程技术领域，特别是涉及一种目标区域测序中质控位点选取方法及装置。

背景技术

单核苷酸多态性(Single Nucleotide Polymorphisms，简称SNP)位点，是指在基因组上单个核苷酸的变异形成的遗传标记，其数量很多，多态性丰富。单核苷酸多态性，主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种，占所有已知多态性的90％以上。SNP在人类基因组中广泛存在，平均每500～1000个碱基对中就有1个，估计其总数可达300万个甚至更多。

对目标区域应用第二代测序技术进行测序后，通过一定的算法或者软件运算可以得到目标区域中潜在的SNP位点，所得到的这些SNP位点在实际应用中为了保证其准确性以及评估目标区域测序好坏，通常会挑选一部分进行质控验证，如何从数以千计的SNP位点中挑选较有代表性的一组SNP位点作为质控位点进行生物学实验验证是现在面临的一个难题。

发明内容

本发明主要解决的技术问题是提供一种目标区域测序中质控位点选取方法及装置，能够从数以千计的SNP位点中挑选较有代表性的一组SNP作为质控位点进行生物学实验验证。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种目标区域测序中质控位点选取方法，包括以下步骤：在测序得到的核酸序列中选取目标区域；对目标区域中的各单核苷酸多态性位点，在数据库中提取各单核苷酸多态性位点对于所有个体的基因型，得到第一位点数据，计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率；在实验样本中，对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后，合并每个实验个体目标区域内的单核苷酸多态性位点，得到第二位点数据，计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率；选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。

其中，计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率的步骤之前，包括：采用单核苷酸多态性位点预测软件预测实验样本中目标区域内的单核苷酸多态性位点。

其中，计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率的步骤之前，包括：对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选，所述对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态性位点预测软件的得分。

其中，在对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的步骤包括：排除未出现在数据库中的单核苷酸多态性位点。

其中，在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤之前，包括：对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序。

其中，在对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序之后，包括：根据排序结果选取在数据库以及实验样本中的次等位基因频率最接近0.5且在数据库以及实验样本中的检出率大于0.97的一组单核苷酸多态性位点作为质控位点。

其中，在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤之后，包括：分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性，分别得到数据库个体间以及实验样本个体间的一致度，所述一致度为拥有不同位点个数样本对在总样本对中的比例。

其中，在分别计算所挑选的质控位点在数据库个体间以及实验样本个体间的一致性的步骤之后，包括：根据拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种目标区域测序中质控位点选取装置，所述装置包括：选取模块，用于在测序得到的核酸序列中选取目标区域；第一提取模块，用于对目标区域中的各单核苷酸多态性位点，在数据库中提取各单核苷酸多态性位点对于所有个体的基因型，得到第一位点数据；第二提取模块，用于在实验样本中，对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后，合并每个实验个体目标区域内的单核苷酸多态性位点，得到第二位点数据；第一计算模块，用于计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率以及计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率；取值模块，用于选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。

其中，预测模块，用于采用单核苷酸多态性位点预测软件预测实验样本中目标区域内的单核苷酸多态性位点，并将预测结果发给筛选模块。

其中，筛选模块，用于对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选，排除未出现在数据库中的单核苷酸多态性位点，并将筛选结果发给所述第二提取模块，所述筛选模块对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态性位点预测软件的得分。

其中，排序模块，用于对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序，并将排序结果发给取值模块。

其中，所述取值模块根据排序结果选取在数据库及实验样本中的次等位基因频率最接近0.5且在数据库及实验样本中的检出率大于0.97的一组单核苷酸多态性位点作为质控位点。

其中，第二计算模块，用于分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性，分别得到数据库个体间以及实验样本个体间的一致度，所述一致度为拥有不同位点个数样本对在总样本对中的比例。

其中，确定模块，用于根据所述拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。

本发明的有益效果是：区别于现有技术难以挑选到具有代表性的质控位点的缺陷，本发明先对目标区域中的各SNP位点，在数据库中提取各SNP位点对于所有个体的基因型，得到第一位点数据，计算第一位点数据中的各SNP位点的检出率(call rate)以及次等位基因频率(maf)；同时在实验样本中，对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后，合并每个实验个体目标区域内的单核苷酸多态性位点，得到第二位点数据，计算第二位点数据中的各SNP位点的检出率以及次等位基因频率；然后选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。通过本发明，能从目标区域中数以千记的SNP位点中挑选出一组SNP位点作为质控位点进行生物学实验验证，设定的第一阈值和第二阈值能确保挑选出的一组SNP位点最有代表性；另外，本发明只需计算目标区域中各SNP位点在数据库中的call rate和maf以及在实验样本中的call rate和maf，再根据call rate、maf以及设定的阈值来选取质控位点，因此该种质控位点选取方法简单易操作。

附图说明

图1是本发明目标区域测序中质控位点选取方法实施例的步骤流程图；

图2是本发明目标区域测序中质控位点选取装置实施例的原理框图。

具体实施方式

下面，结合具体实施例及附图，对本发明作出详细说明。

请参阅图1，本发明的目标区域测序中质控位点选取方法实施例中，包括以下步骤：

步骤101：在测序得到的核酸序列中选取目标区域；

选择已完成测序的特定的基因组区域，如单核苷酸多态性位点区域，作为目标区域。

步骤102：对目标区域中的各单核苷酸多态性位点，在数据库中提取各单核苷酸多态性位点对于所有个体的基因型，得到第一位点数据，计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率；在实验样本中，对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后，合并每个实验个体目标区域内的单核苷酸多态性位点，得到第二位点数据，计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率；

其中，call rate的定义：能够检测到基因型的个体数与总的个体数之商。maf的定义：为所有等位基因型中等位基因频率在特定群体中较低的等位基因的频率。

其中，得到的第二位点数据满足以下三个条件：

1)测序数据唯一覆盖层数大于等于10层；

2)该位点附近区域拷贝数为1；

3)SOAPsnp软件所得一致基因型质量值大于等于40。

当然，上述仅仅是对得到的第二位点数据所满足条件的一个例子的说明，因此，在其他实施例中，测序数据唯一覆盖层数大于等于的层数不限于10层，而该位点附近区域拷贝数也不限于1，SOAPsnp软件所得一致基因型质量值也不限于大于等于40。

步骤103：选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。

其中，上述的数据库为人类基因组单体型图(Haplotype Map，HapMap)数据库。HapMap数据库的定义：国际人类基因组单体型图计划建立的一个免费向公众开放关于人类疾病(及疾病对药物反应)相关基因的数据库，共有270个人的基因组中常见的SNP位点数据以及由群体中频率大于1％的那些共同遗传的相邻SNP位点组合成的单体型数据。

为了从目标区域的各SNP位点中挑选出能作为质控位点的一组SNP位点，把一个SNP位点在数据库及实验样本中的maf为0.5定义为第一阈值，把该位点在HapMap数据库及实验样本中的call rate为0.97定义为第二阈值，则能作为质控位点的一组SNP位点中的每一个SNP位点既要满足其在数据库及实验样本的maf最接近第一阈值又要满足其在HapMap数据库及实验样本中的call rate大于第二阈值。

步骤102中，先对目标区域中的各单核苷酸多态性位点，在数据库中提取各单核苷酸多态性位点对于所有个体的基因型，得到第一位点数据，计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率；然后在实验样本中，对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后，合并每个实验个体目标区域内的单核苷酸多态性位点，得到第二位点数据，计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率，或者：

先在实验样本中，对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后，合并每个实验个体目标区域内的单核苷酸多态性位点，得到第二位点数据，计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率；然后对目标区域中的各单核苷酸多态性位点，在数据库中提取各单核苷酸多态性位点对于所有个体的基因型，得到第一位点数据，计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率；

本发明通过选取目标区域，对目标区域中的各SNP位点，在HapMap数据库中提取各SNP位点对于所有个体的基因型，得到第一位点数据，计算第一位点数据中的各SNP位点的检出率以及次等位基因频率；在实验样本中，对预测所得的目标区域内的各SNP位点进行筛选后，合并每个实验个体目标区域内的SNP位点，得到第二位点数据，计算第二位点数据中的各SNP的检出率以及次等位基因频率；选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在HapMap数据库及实验样本中的检出率大于第二阈值的一组SNP位点作为质控位点。这样选取的一组SNP作为质控位点是较有代表性的，在本发明实施例中甚至是最有代表性的，且该种质控位点的选取方法简单易操作。

在另一实施例中，在计算第二位点数据中的各SNP位点的call rate以及maf的步骤之前，包括：采用SNP位点预测软件(如SOAPSnp)预测实验样本中目标区域内的SNP位点。SOAPSnp软件：是一款华大基因自主研发的基于第二代测序技术数据的SNP位点检测软件。所述SOAPSnp软件的下载地址：http://soap.genomics.org.cn/soapsnp.html。当然，预测实验样本中目标区域内的SNP位点的方法还有其它，在此不再赘述。本实施例中，采用SOAPSnp软件预测实验样本中目标区域内的SNP位点，具有预测效率高、预测准确性较高、预测全面的特点。

在另一实施例中，在计算第二位点数据中的各SNP位点的call rate以及maf的步骤之前，包括：对预测所得的实验样本中目标区域内的SNP位点进行筛选，所述对预测所得的实验样本中目标区域内的SNP位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和SNP位点预测软件的得分。

在另一实施例中，在对预测所得的实验样本中目标区域内的SNP位点进行筛选的步骤中，排除未出现在HapMap数据库中的SNP位点。本实施例中由于排除了未出现在HapMap数据库中的SNP位点，因此提高了合并每个实验个体目标区域内的各SNP位点、得到第二位点数据的效率。

在另一实施例中，在选取在HapMap数据库及实验样本中的maf最接近第一阈值且在HapMap数据库及实验样本中的call rate大于第二阈值的一组SNP位点作为质控位点的步骤之前，包括对各SNP位点在HapMap数据库中得到的call rate、在实验样本中得到的call rate、HapMap在数据库中得到的maf以及在实验样本中得到的maf分别进行排序。本实验例中通过对call rate以及maf分别进行排序，可以十分清楚地得知HapMap数据库中的call rate大小顺序、实验样本中的call rate大小顺序、数据库中的maf大小顺序以及实验样本中的maf的大小顺序，方便取值。

在另一实施例中，对各SNP位点在HapMap数据库中得到的callrate、在实验样本中得到的call rate、HapMap在数据库中得到的maf以及在实验样本中得到的maf分别进行排序的步骤之后，包括：根据排序结果选取在HapMap数据库及实验样本中的maf最接近0.5且在HapMap数据库及实验样本中的call rate大于0.97的一组SNP位点作为质控位点。本实施例为了使所选取的质控位点在大部分个体中均能检测得到，选取在HapMap数据库及实验样本中的检出率为0.97以上的单核苷酸多态性位点，阈值0.97可以根据实际情况进行变动，但变动的底限为0.90，即阈值可为0.90，但不能低于0.90；同时，为了使所选质控位点有足够的多态性以至于在质控过程中被区分开，选取在HapMap数据库中及实验样本中次等位基因频率最接近0.5的若干SNP位点作为质控位点，所选SNP位点个数视实际情况而定，一般为20个或以上。

在另一实施例中，在选取在HapMap数据库及实验样本中的maf最接近第一阈值且在HapMap数据库及实验样本中的call rate大于第二阈值的一组SNP位点作为质控位点的步骤之后，包括：分别计算所选取的质控位点在HapMap数据库个体间以及实验样本个体间的一致性，分别得到HapMap数据库个体间以及实验样本个体间的一致度，所述一致度为拥有不同位点个数样本对在总样本对中的比例。本实施例中，通过对作为质控位点的SNP位点分别进行在HapMap数据库个体间以及实验样本个体间的一致性的计算，分别得到HapMap数据库个体间以及实验样本个体间的一致度，一方面以确保所选取的质控位点具有足够的代表性，能够区分开所有样本；另一方面，根据一致度，可以确定第三阈值来作为判断不同个体间所应有的位点差异数。

在另一实施例中，在根据分别计算所挑选的质控位点在HapMap数据库个体间以及实验样本个体间的一致性的步骤之后，包括：根据拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。对于不同的实验样本，一致度确定的第三阈值不同，在此不再一一赘述。

下面，提供一应用例对本发明进行更详细的说明。

步骤一：在测序得到的核酸序列中选取9587个目标区域。

步骤二：对目标区域中的各SNP位点，在HapMap数据库中提取各SNP位点对于HapMap数据库中所有个体的基因型，得到第一位点数据，所述第一位点数据包括下述文件类型的数据：

SNP编号、SNP位置信息、个体1基因型、个体2基因型......；

每一行代表一个位点，一共有2285个位点被选择。

步骤三：采用SOAPSnp软件预测实验样本中目标区域内的SNP位点，得到实验样本目标区域内的SNP位点预测结果；

步骤四：对实验样本目标区域内的SNP位点预测结果进行筛选，筛选的条件为：

1)测序数据唯一覆盖层数大于等于10层；

2)该位点附近区域拷贝数为1；

3)SOAPsnp所得一致基因型质量值大于等于40。

并且为了提高效率，不在HapMap数据库中的SNP位点不作考虑，根据以上条件参数，得到实验样本中目标区域内的SNP位点筛选结果。步骤五：合并每个实验个体目标区域内的各SNP位点，得到第二位点数据，所述第二位点数据包括下述文件类型的数据：

SNP编号、SNP位置信息、个体1基因型、个体2基因型......；

每一行代表一个位点，一共有1834个位点被选择。

步骤六：根据步骤二与步骤五所得到的结果，分别计算这些SNP位点在HapMap数据库中以及实验样本中的call rate以及maf。

步骤七：对各SNP位点在HapMap数据库中得到的call rate、在实验样本中得到的call rate、在HapMap数据库中得到的maf以及在实验样本中得到的maf分别进行排序，根据排序结果取在HapMap数据库及实验样本中的maf最接近0.5并且在HapMap数据库及实验样本中callrate尽可能高的SNP位点作为质控位点，在本应用例中，总共取31个SNP位点作为质控位点，其在HapMap数据库及实验样本中的call rate均在0.97以上，且在HapMap数据库及实验样本中的maf均为0.4以上。

步骤八：分别计算所选取的质控位点在HapMap数据库个体间以及实验样本个体间的一致性。在本应用例中从所得到的31个SNP位点中挑选其中次等位基因频率最高的20个，计算得到这些SNP位点在HapMap数据库个体间以及实验样本个体间的一致度，一致度为拥有不同位点个数样本对在总样本对中的比例。

步骤九：根据拥有不同位点个数样本对在总样本对中的比例确定一个阈值(第三阈值)作为判断不同个体间所应有的位点差异数。如下表所示的实验样本个体间的一致性，当实验个体间不同位点少于8个时，差异个体对占所有成对样本数目的比例为少于5％，即当一致度为少于5％时，确定第三阈值为8，由第三阈值可以推论得知，如果某个个体此20个不同位点中存在8个以上软件预测结果与质谱实验结果或其它方式验证SNP的实验结果不一致时，此个体将会被定义为测序数据不可靠。由下表可知，所挑选的20个SNP位点能够明确区分开两个个体，具有代表性。

不同位点数目	个体对个数	占所有成对样本数目的比例
			不同位点少于1个	1	0.000143％
不同位点少于2个	5	0.000714％
			不同位点少于3个	44	0.006283％
不同位点少于4个	236	0.033698％
			不同位点少于5个	1063	0.151784％
不同位点少于6个	3746	0.534886％
			不同位点少于7个	11450	1.634930％
不同位点少于8个	29500	4.212264％
			不同位点少于9个	65226	9.313530％
不同位点少于10个	125709	17.949813％
			不同位点少于11个	213836	30.533344％
不同位点少于12个	324071	46.273646％
			不同位点少于13个	440874	62.951783％
不同位点少于14个	545287	77.860770％
			不同位点少于15个	622940	88.948733％
不同位点少于16个	669296	95.567842％
			不同位点少于17个	691010	98.668353％
不同位点少于18个	698533	99.742552％
			不同位点少于19个	700168	99.976012％
不同位点少于20个	700336	100％

对于数据库个体间就所选20个SNP位点的一致性的列表与上表类似，在此不再赘述。

请参见图2，本发明目标区域测序中质控位点选取装置实施例的原理框图中，包括：

选取模块11，用于在测序得到的核酸序列中选取目标区域；

第一提取模块15，用于对目标区域中的各SNP位点，在数据库中提取各SNP位点对于所有个体的基因型，得到第一位点数据；

第二提取模块14，用于在实验样本中，对预测所得的目标区域内的各SNP位点进行筛选后，合并每个实验个体目标区域内的SNP位点，得到第二位点数据；

第一计算模块16，用于计算第一位点数据中的各SNP位点的检出率以及次等位基因频率以及计算第二位点数据中的各SNP位点的检出率以及次等位基因频率；

取值模块18，用于选取在数据库及实验样本中的maf最接近第一阈值且在数据库及实验样本中的call rate大于第二阈值的一组SNP位点作为质控位点。

预测模块12，用于采用SNP位点预测软件预测实验样本中目标区域内的SNP位点，并将预测结果发给筛选模块13。

筛选模块13，用于对预测所得的实验样本中目标区域内的SNP位点进行筛选，排除未出现在数据库中的SNP位点，并将筛选结果发给所述第二提取模块14，所述筛选模块13对预测所得的实验样本中目标区域内的SNP位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和SNP位点预测软件的得分。

排序模块17，用于选取在数据库及实验样本中的maf最接近第一阈值且在数据库及实验样本中的call rate大于第二阈值的一组SNP位点作为质控位点之后，对各SNP位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序，并将排序结果发给取值模块18。

所述取值模块18根据排序结果选取在数据库及实验样本中的maf最接近0.5且在数据库及实验样本中的call rate大于0.97的一组SNP作为质控位点。

第二计算模块19，用于分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性，分别得到数据库个体间以及实验样本个体间的一致度，所述一致度为拥有不同位点个数样本对在总样本对中的比例。

确定模块20，用于根据所述拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。当实验个体间不同位点少于8个时，差异个体对占所有成对样本数目的比例为少于5％，即当一致度为少于5％时，确定第三阈值为8，由第三阈值可以推论得知，如果某个实验个体此20个不同位点中存在8个以上软件预测结果与质谱实验结果不一致时，此实验个体将会被定义为测序数据不可靠。对于不同的实验样本，一致度确定的第三阈值不同，在此不再一一赘述。

所述装置的操作原理与上述方法一致，请参见方法部分，此处不在赘述。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种目标区域测序中质控位点选取方法，其特征在于，包括以下步骤：

在测序得到的核酸序列中选取目标区域；

对目标区域中的各单核苷酸多态性位点，在数据库中提取各单核苷酸多态性位点对于所有个体的基因型，得到第一位点数据，计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率；在实验样本中，对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后，合并每个实验个体目标区域内的单核苷酸多态性位点，得到第二位点数据，计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率；

选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。

2.根据权利要求1所述的目标区域测序中质控位点选取方法，其特征在于：

计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率的步骤之前，包括：采用单核苷酸多态性位点预测软件预测实验样本中目标区域内的单核苷酸多态性位点。

3.根据权利要求1所述的目标区域测序中质控位点选取方法，其特征在于：

计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率的步骤之前，包括：对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选，所述对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态性位点预测软件的得分。

4.根据权利要求3所述的目标区域测序中质控位点选取方法，其特征在于：

在对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的步骤包括：排除未出现在数据库中的单核苷酸多态性位点。

5.根据权利要求1～4任一项所述的目标区域测序中质控位点选取方法，其特征在于：

在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤之前，包括：对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序。

6.根据权利要求5所述的目标区域测序中质控位点选取方法，其特征在于：

在对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序之后，包括：根据排序结果选取在数据库以及实验样本中的次等位基因频率最接近0.5且在数据库以及实验样本中的检出率大于0.97的一组单核苷酸多态性位点作为质控位点。

7.根据权利要求1所述的目标区域测序中质控位点选取方法，其特征在于：

在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤之后，包括：分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性，分别得到数据库个体间以及实验样本个体间的一致度，所述一致度为拥有不同位点个数样本对在总样本对中的比例。

8.根据权利要求7所述的目标区域测序中质控位点选取方法，其特征在于：

在分别计算所挑选的质控位点在数据库个体间以及实验样本个体间的一致性的步骤之后，包括：根据拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。

9.一种目标区域测序中质控位点选取装置，其特征在于，所述装置包括：

选取模块，用于在测序得到的核酸序列中选取目标区域；

第一提取模块，用于对目标区域中的各单核苷酸多态性位点，在数据库中提取各单核苷酸多态性位点对于所有个体的基因型，得到第一位点数据；

第二提取模块，用于在实验样本中，对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后，合并每个实验个体目标区域内的单核苷酸多态性位点，得到第二位点数据；

第一计算模块，用于计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率以及计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率；

取值模块，用于选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。

10.根据权利要求9所述的目标区域测序中质控位点选取装置，其特征在于：

预测模块，用于采用单核苷酸多态性位点预测软件预测实验样本中目标区域内的单核苷酸多态性位点，并将预测结果发给筛选模块。

11.根据权利要求9所述的目标区域测序中质控位点选取装置，其特征在于：

筛选模块，用于对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选，排除未出现在数据库中的单核苷酸多态性位点，并将筛选结果发给所述第二提取模块，所述筛选模块对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态性位点预测软件的得分。

12.根据权利要求9～11任一项所述的目标区域测序中质控位点选取装置，其特征在于：

排序模块，用于对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序，并将排序结果发给取值模块。

13.根据权利要求9所述的目标区域测序中质控位点选取装置，其特征在于：

所述取值模块根据排序结果选取在数据库及实验样本中的次等位基因频率最接近0.5且在数据库及实验样本中的检出率大于0.97的一组单核苷酸多态性位点作为质控位点。

14.根据权利要求9所述的目标区域测序中质控位点选取装置，其特征在于：

第二计算模块，用于分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性，分别得到数据库个体间以及实验样本个体间的一致度，所述一致度为拥有不同位点个数样本对在总样本对中的比例。

15.根据权利要求14所述的目标区域测序中质控位点选取装置，其特征在于：

确定模块，用于根据所述拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。