CN103020490B - 目标区域测序中质控位点选取方法及装置 - Google Patents

目标区域测序中质控位点选取方法及装置 Download PDF

Info

Publication number
CN103020490B
CN103020490B CN201110287949.0A CN201110287949A CN103020490B CN 103020490 B CN103020490 B CN 103020490B CN 201110287949 A CN201110287949 A CN 201110287949A CN 103020490 B CN103020490 B CN 103020490B
Authority
CN
China
Prior art keywords
site
target area
database
experiment sample
mononucleotide polymorphism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110287949.0A
Other languages
English (en)
Other versions
CN103020490A (zh
Inventor
蒋涛
李英睿
汪建
王俊
杨焕明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Huada medical laboratory Co., Ltd.
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201110287949.0A priority Critical patent/CN103020490B/zh
Publication of CN103020490A publication Critical patent/CN103020490A/zh
Application granted granted Critical
Publication of CN103020490B publication Critical patent/CN103020490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种目标区域测序中质控位点选取方法及装置,所述方法包括:选取目标区域;在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得到第一位点数据,根据该数据计算检出率以及次等位基因频率;在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据,根据该数据计算检出率以及次等位基因频率;选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。这样选取的一组单核苷酸多态性位点作为质控位点是较有代表性的,且该种质控位点选取方法简单易操作。

Description

目标区域测序中质控位点选取方法及装置
技术领域
本发明涉及基因工程技术领域,特别是涉及一种目标区域测序中质控位点选取方法及装置。
背景技术
单核苷酸多态性(SingleNucleotidePolymorphisms,简称SNP)位点,是指在基因组上单个核苷酸的变异形成的遗传标记,其数量很多,多态性丰富。单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。
对目标区域应用第二代测序技术进行测序后,通过一定的算法或者软件运算可以得到目标区域中潜在的SNP位点,所得到的这些SNP位点在实际应用中为了保证其准确性以及评估目标区域测序好坏,通常会挑选一部分进行质控验证,如何从数以千计的SNP位点中挑选较有代表性的一组SNP位点作为质控位点进行生物学实验验证是现在面临的一个难题。
发明内容
本发明主要解决的技术问题是提供一种目标区域测序中质控位点选取方法及装置,能够从数以千计的SNP位点中挑选较有代表性的一组SNP作为质控位点进行生物学实验验证。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种目标区域测序中质控位点选取方法,包括以下步骤:在测序得到的核酸序列中选取目标区域;对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得到第一位点数据,计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。
其中,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率的步骤之前,包括:采用单核苷酸多态性位点预测软件预测实验样本中目标区域内的单核苷酸多态性位点。
其中,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率的步骤之前,包括:对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选,所述对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态性位点预测软件的得分。
其中,在对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的步骤包括:排除未出现在数据库中的单核苷酸多态性位点。
其中,在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤之前,包括:对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序。
其中,在对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序之后,包括:根据排序结果选取在数据库以及实验样本中的次等位基因频率最接近0.5且在数据库以及实验样本中的检出率大于0.97的一组单核苷酸多态性位点作为质控位点。
其中,在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤之后,包括:分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性,分别得到数据库个体间以及实验样本个体间的一致度,所述一致度为拥有不同位点个数样本对在总样本对中的比例。
其中,在分别计算所挑选的质控位点在数据库个体间以及实验样本个体间的一致性的步骤之后,包括:根据拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种目标区域测序中质控位点选取装置,所述装置包括:选取模块,用于在测序得到的核酸序列中选取目标区域;第一提取模块,用于对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得到第一位点数据;第二提取模块,用于在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据;第一计算模块,用于计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率以及计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;取值模块,用于选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。
其中,预测模块,用于采用单核苷酸多态性位点预测软件预测实验样本中目标区域内的单核苷酸多态性位点,并将预测结果发给筛选模块。
其中,筛选模块,用于对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选,排除未出现在数据库中的单核苷酸多态性位点,并将筛选结果发给所述第二提取模块,所述筛选模块对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态性位点预测软件的得分。
其中,排序模块,用于对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序,并将排序结果发给取值模块。
其中,所述取值模块根据排序结果选取在数据库及实验样本中的次等位基因频率最接近0.5且在数据库及实验样本中的检出率大于0.97的一组单核苷酸多态性位点作为质控位点。
其中,第二计算模块,用于分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性,分别得到数据库个体间以及实验样本个体间的一致度,所述一致度为拥有不同位点个数样本对在总样本对中的比例。
其中,确定模块,用于根据所述拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。
本发明的有益效果是:区别于现有技术难以挑选到具有代表性的质控位点的缺陷,本发明先对目标区域中的各SNP位点,在数据库中提取各SNP位点对于所有个体的基因型,得到第一位点数据,计算第一位点数据中的各SNP位点的检出率(callrate)以及次等位基因频率(maf);同时在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据,计算第二位点数据中的各SNP位点的检出率以及次等位基因频率;然后选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。通过本发明,能从目标区域中数以千记的SNP位点中挑选出一组SNP位点作为质控位点进行生物学实验验证,设定的第一阈值和第二阈值能确保挑选出的一组SNP位点最有代表性;另外,本发明只需计算目标区域中各SNP位点在数据库中的callrate和maf以及在实验样本中的callrate和maf,再根据callrate、maf以及设定的阈值来选取质控位点,因此该种质控位点选取方法简单易操作。
附图说明
图1是本发明目标区域测序中质控位点选取方法实施例的步骤流程图;
图2是本发明目标区域测序中质控位点选取装置实施例的原理框图。
具体实施方式
下面,结合具体实施例及附图,对本发明作出详细说明。
请参阅图1,本发明的目标区域测序中质控位点选取方法实施例中,包括以下步骤:
步骤101:在测序得到的核酸序列中选取目标区域;
选择已完成测序的特定的基因组区域,如单核苷酸多态性位点区域,作为目标区域。
步骤102:对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得到第一位点数据,计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;
其中,callrate的定义:能够检测到基因型的个体数与总的个体数之商。maf的定义:为所有等位基因型中等位基因频率在特定群体中较低的等位基因的频率。
其中,得到的第二位点数据满足以下三个条件:
1)测序数据唯一覆盖层数大于等于10层;
2)该位点附近区域拷贝数为1;
3)SOAPsnp软件所得一致基因型质量值大于等于40。
当然,上述仅仅是对得到的第二位点数据所满足条件的一个例子的说明,因此,在其他实施例中,测序数据唯一覆盖层数大于等于的层数不限于10层,而该位点附近区域拷贝数也不限于1,SOAPsnp软件所得一致基因型质量值也不限于大于等于40。
步骤103:选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。
其中,上述的数据库为人类基因组单体型图(HaplotypeMap,HapMap)数据库。HapMap数据库的定义:国际人类基因组单体型图计划建立的一个免费向公众开放关于人类疾病(及疾病对药物反应)相关基因的数据库,共有270个人的基因组中常见的SNP位点数据以及由群体中频率大于1%的那些共同遗传的相邻SNP位点组合成的单体型数据。
为了从目标区域的各SNP位点中挑选出能作为质控位点的一组SNP位点,把一个SNP位点在数据库及实验样本中的maf为0.5定义为第一阈值,把该位点在HapMap数据库及实验样本中的callrate为0.97定义为第二阈值,则能作为质控位点的一组SNP位点中的每一个SNP位点既要满足其在数据库及实验样本的maf最接近第一阈值又要满足其在HapMap数据库及实验样本中的callrate大于第二阈值。
步骤102中,先对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得到第一位点数据,计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;然后在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率,或者:
先在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;然后对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得到第一位点数据,计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;
本发明通过选取目标区域,对目标区域中的各SNP位点,在HapMap数据库中提取各SNP位点对于所有个体的基因型,得到第一位点数据,计算第一位点数据中的各SNP位点的检出率以及次等位基因频率;在实验样本中,对预测所得的目标区域内的各SNP位点进行筛选后,合并每个实验个体目标区域内的SNP位点,得到第二位点数据,计算第二位点数据中的各SNP的检出率以及次等位基因频率;选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在HapMap数据库及实验样本中的检出率大于第二阈值的一组SNP位点作为质控位点。这样选取的一组SNP作为质控位点是较有代表性的,在本发明实施例中甚至是最有代表性的,且该种质控位点的选取方法简单易操作。
在另一实施例中,在计算第二位点数据中的各SNP位点的callrate以及maf的步骤之前,包括:采用SNP位点预测软件(如SOAPSnp)预测实验样本中目标区域内的SNP位点。SOAPSnp软件:是一款华大基因自主研发的基于第二代测序技术数据的SNP位点检测软件。所述SOAPSnp软件的下载地址:http://soap.genomics.org.cn/soapsnp.html。当然,预测实验样本中目标区域内的SNP位点的方法还有其它,在此不再赘述。本实施例中,采用SOAPSnp软件预测实验样本中目标区域内的SNP位点,具有预测效率高、预测准确性较高、预测全面的特点。
在另一实施例中,在计算第二位点数据中的各SNP位点的callrate以及maf的步骤之前,包括:对预测所得的实验样本中目标区域内的SNP位点进行筛选,所述对预测所得的实验样本中目标区域内的SNP位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和SNP位点预测软件的得分。
在另一实施例中,在对预测所得的实验样本中目标区域内的SNP位点进行筛选的步骤中,排除未出现在HapMap数据库中的SNP位点。本实施例中由于排除了未出现在HapMap数据库中的SNP位点,因此提高了合并每个实验个体目标区域内的各SNP位点、得到第二位点数据的效率。
在另一实施例中,在选取在HapMap数据库及实验样本中的maf最接近第一阈值且在HapMap数据库及实验样本中的callrate大于第二阈值的一组SNP位点作为质控位点的步骤之前,包括对各SNP位点在HapMap数据库中得到的callrate、在实验样本中得到的callrate、HapMap在数据库中得到的maf以及在实验样本中得到的maf分别进行排序。本实验例中通过对callrate以及maf分别进行排序,可以十分清楚地得知HapMap数据库中的callrate大小顺序、实验样本中的callrate大小顺序、数据库中的maf大小顺序以及实验样本中的maf的大小顺序,方便取值。
在另一实施例中,对各SNP位点在HapMap数据库中得到的callrate、在实验样本中得到的callrate、HapMap在数据库中得到的maf以及在实验样本中得到的maf分别进行排序的步骤之后,包括:根据排序结果选取在HapMap数据库及实验样本中的maf最接近0.5且在HapMap数据库及实验样本中的callrate大于0.97的一组SNP位点作为质控位点。本实施例为了使所选取的质控位点在大部分个体中均能检测得到,选取在HapMap数据库及实验样本中的检出率为0.97以上的单核苷酸多态性位点,阈值0.97可以根据实际情况进行变动,但变动的底限为0.90,即阈值可为0.90,但不能低于0.90;同时,为了使所选质控位点有足够的多态性以至于在质控过程中被区分开,选取在HapMap数据库中及实验样本中次等位基因频率最接近0.5的若干SNP位点作为质控位点,所选SNP位点个数视实际情况而定,一般为20个或以上。
在另一实施例中,在选取在HapMap数据库及实验样本中的maf最接近第一阈值且在HapMap数据库及实验样本中的callrate大于第二阈值的一组SNP位点作为质控位点的步骤之后,包括:分别计算所选取的质控位点在HapMap数据库个体间以及实验样本个体间的一致性,分别得到HapMap数据库个体间以及实验样本个体间的一致度,所述一致度为拥有不同位点个数样本对在总样本对中的比例。本实施例中,通过对作为质控位点的SNP位点分别进行在HapMap数据库个体间以及实验样本个体间的一致性的计算,分别得到HapMap数据库个体间以及实验样本个体间的一致度,一方面以确保所选取的质控位点具有足够的代表性,能够区分开所有样本;另一方面,根据一致度,可以确定第三阈值来作为判断不同个体间所应有的位点差异数。
在另一实施例中,在根据分别计算所挑选的质控位点在HapMap数据库个体间以及实验样本个体间的一致性的步骤之后,包括:根据拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。对于不同的实验样本,一致度确定的第三阈值不同,在此不再一一赘述。
下面,提供一应用例对本发明进行更详细的说明。
步骤一:在测序得到的核酸序列中选取9587个目标区域。
步骤二:对目标区域中的各SNP位点,在HapMap数据库中提取各SNP位点对于HapMap数据库中所有个体的基因型,得到第一位点数据,所述第一位点数据包括下述文件类型的数据:
SNP编号、SNP位置信息、个体1基因型、个体2基因型......;
每一行代表一个位点,一共有2285个位点被选择。
步骤三:采用SOAPSnp软件预测实验样本中目标区域内的SNP位点,得到实验样本目标区域内的SNP位点预测结果;
步骤四:对实验样本目标区域内的SNP位点预测结果进行筛选,筛选的条件为:
1)测序数据唯一覆盖层数大于等于10层;
2)该位点附近区域拷贝数为1;
3)SOAPsnp所得一致基因型质量值大于等于40。
并且为了提高效率,不在HapMap数据库中的SNP位点不作考虑,根据以上条件参数,得到实验样本中目标区域内的SNP位点筛选结果。步骤五:合并每个实验个体目标区域内的各SNP位点,得到第二位点数据,所述第二位点数据包括下述文件类型的数据:
SNP编号、SNP位置信息、个体1基因型、个体2基因型......;
每一行代表一个位点,一共有1834个位点被选择。
步骤六:根据步骤二与步骤五所得到的结果,分别计算这些SNP位点在HapMap数据库中以及实验样本中的callrate以及maf。
步骤七:对各SNP位点在HapMap数据库中得到的callrate、在实验样本中得到的callrate、在HapMap数据库中得到的maf以及在实验样本中得到的maf分别进行排序,根据排序结果取在HapMap数据库及实验样本中的maf最接近0.5并且在HapMap数据库及实验样本中callrate尽可能高的SNP位点作为质控位点,在本应用例中,总共取31个SNP位点作为质控位点,其在HapMap数据库及实验样本中的callrate均在0.97以上,且在HapMap数据库及实验样本中的maf均为0.4以上。
步骤八:分别计算所选取的质控位点在HapMap数据库个体间以及实验样本个体间的一致性。在本应用例中从所得到的31个SNP位点中挑选其中次等位基因频率最高的20个,计算得到这些SNP位点在HapMap数据库个体间以及实验样本个体间的一致度,一致度为拥有不同位点个数样本对在总样本对中的比例。
步骤九:根据拥有不同位点个数样本对在总样本对中的比例确定一个阈值(第三阈值)作为判断不同个体间所应有的位点差异数。如下表所示的实验样本个体间的一致性,当实验个体间不同位点少于8个时,差异个体对占所有成对样本数目的比例为少于5%,即当一致度为少于5%时,确定第三阈值为8,由第三阈值可以推论得知,如果某个个体此20个不同位点中存在8个以上软件预测结果与质谱实验结果或其它方式验证SNP的实验结果不一致时,此个体将会被定义为测序数据不可靠。由下表可知,所挑选的20个SNP位点能够明确区分开两个个体,具有代表性。
不同位点数目 个体对个数 占所有成对样本数目的比例
不同位点少于1个 1 0.000143%
不同位点少于2个 5 0.000714%
不同位点少于3个 44 0.006283%
不同位点少于4个 236 0.033698%
不同位点少于5个 1063 0.151784%
不同位点少于6个 3746 0.534886%
不同位点少于7个 11450 1.634930%
不同位点少于8个 29500 4.212264%
不同位点少于9个 65226 9.313530%
不同位点少于10个 125709 17.949813%
不同位点少于11个 213836 30.533344%
不同位点少于12个 324071 46.273646%
不同位点少于13个 440874 62.951783%
不同位点少于14个 545287 77.860770%
不同位点少于15个 622940 88.948733%
不同位点少于16个 669296 95.567842%
不同位点少于17个 691010 98.668353%
不同位点少于18个 698533 99.742552%
不同位点少于19个 700168 99.976012%
不同位点少于20个 700336 100%
对于数据库个体间就所选20个SNP位点的一致性的列表与上表类似,在此不再赘述。
请参见图2,本发明目标区域测序中质控位点选取装置实施例的原理框图中,包括:
选取模块11,用于在测序得到的核酸序列中选取目标区域;
第一提取模块15,用于对目标区域中的各SNP位点,在数据库中提取各SNP位点对于所有个体的基因型,得到第一位点数据;
第二提取模块14,用于在实验样本中,对预测所得的目标区域内的各SNP位点进行筛选后,合并每个实验个体目标区域内的SNP位点,得到第二位点数据;
第一计算模块16,用于计算第一位点数据中的各SNP位点的检出率以及次等位基因频率以及计算第二位点数据中的各SNP位点的检出率以及次等位基因频率;
取值模块18,用于选取在数据库及实验样本中的maf最接近第一阈值且在数据库及实验样本中的callrate大于第二阈值的一组SNP位点作为质控位点。
预测模块12,用于采用SNP位点预测软件预测实验样本中目标区域内的SNP位点,并将预测结果发给筛选模块13。
筛选模块13,用于对预测所得的实验样本中目标区域内的SNP位点进行筛选,排除未出现在数据库中的SNP位点,并将筛选结果发给所述第二提取模块14,所述筛选模块13对预测所得的实验样本中目标区域内的SNP位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和SNP位点预测软件的得分。
排序模块17,用于选取在数据库及实验样本中的maf最接近第一阈值且在数据库及实验样本中的callrate大于第二阈值的一组SNP位点作为质控位点之后,对各SNP位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序,并将排序结果发给取值模块18。
所述取值模块18根据排序结果选取在数据库及实验样本中的maf最接近0.5且在数据库及实验样本中的callrate大于0.97的一组SNP作为质控位点。
第二计算模块19,用于分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性,分别得到数据库个体间以及实验样本个体间的一致度,所述一致度为拥有不同位点个数样本对在总样本对中的比例。
确定模块20,用于根据所述拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。当实验个体间不同位点少于8个时,差异个体对占所有成对样本数目的比例为少于5%,即当一致度为少于5%时,确定第三阈值为8,由第三阈值可以推论得知,如果某个实验个体此20个不同位点中存在8个以上软件预测结果与质谱实验结果不一致时,此实验个体将会被定义为测序数据不可靠。对于不同的实验样本,一致度确定的第三阈值不同,在此不再一一赘述。
所述装置的操作原理与上述方法一致,请参见方法部分,此处不在赘述。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (13)

1.一种目标区域测序中质控位点选取方法,其特征在于,包括以下步骤:
在测序得到的核酸序列中选取目标区域;
对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得到第一位点数据,计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;
选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点;
其中,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率的步骤之前,包括:对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选,所述对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态性位点预测软件的得分。
2.根据权利要求1所述的目标区域测序中质控位点选取方法,其特征在于:
计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率的步骤之前,包括:采用单核苷酸多态性位点预测软件预测实验样本中目标区域内的单核苷酸多态性位点。
3.根据权利要求1所述的目标区域测序中质控位点选取方法,其特征在于:
在对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的步骤包括:排除未出现在数据库中的单核苷酸多态性位点。
4.根据权利要求1~3任一项所述的目标区域测序中质控位点选取方法,其特征在于:
在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤之前,包括:对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序。
5.根据权利要求4所述的目标区域测序中质控位点选取方法,其特征在于:
在对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序之后,包括:根据排序结果选取在数据库以及实验样本中的次等位基因频率最接近0.5且在数据库以及实验样本中的检出率大于0.97的一组单核苷酸多态性位点作为质控位点。
6.根据权利要求1所述的目标区域测序中质控位点选取方法,其特征在于:
在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤之后,包括:分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性,分别得到数据库个体间以及实验样本个体间的一致度,所述一致度为拥有不同位点个数样本对在总样本对中的比例。
7.根据权利要求6所述的目标区域测序中质控位点选取方法,其特征在于:
在分别计算所挑选的质控位点在数据库个体间以及实验样本个体间的一致性的步骤之后,包括:根据拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。
8.一种目标区域测序中质控位点选取装置,其特征在于,所述装置包括:
选取模块,用于在测序得到的核酸序列中选取目标区域;
第一提取模块,用于对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得到第一位点数据;
第二提取模块,用于在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据;
第一计算模块,用于计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率以及计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;
取值模块,用于选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点;
筛选模块,用于对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选,排除未出现在数据库中的单核苷酸多态性位点,并将筛选结果发给所述第二提取模块,所述筛选模块对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态性位点预测软件的得分。
9.根据权利要求8所述的目标区域测序中质控位点选取装置,其特征在于:
预测模块,用于采用单核苷酸多态性位点预测软件预测实验样本中目标区域内的单核苷酸多态性位点,并将预测结果发给筛选模块。
10.根据权利要求8~9任一项所述的目标区域测序中质控位点选取装置,其特征在于:
排序模块,用于对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序,并将排序结果发给取值模块。
11.根据权利要求8所述的目标区域测序中质控位点选取装置,其特征在于:
所述取值模块根据排序结果选取在数据库及实验样本中的次等位基因频率最接近0.5且在数据库及实验样本中的检出率大于0.97的一组单核苷酸多态性位点作为质控位点。
12.根据权利要求8所述的目标区域测序中质控位点选取装置,其特征在于:
第二计算模块,用于分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性,分别得到数据库个体间以及实验样本个体间的一致度,所述一致度为拥有不同位点个数样本对在总样本对中的比例。
13.根据权利要求12所述的目标区域测序中质控位点选取装置,其特征在于:
确定模块,用于根据所述拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。
CN201110287949.0A 2011-09-26 2011-09-26 目标区域测序中质控位点选取方法及装置 Active CN103020490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110287949.0A CN103020490B (zh) 2011-09-26 2011-09-26 目标区域测序中质控位点选取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110287949.0A CN103020490B (zh) 2011-09-26 2011-09-26 目标区域测序中质控位点选取方法及装置

Publications (2)

Publication Number Publication Date
CN103020490A CN103020490A (zh) 2013-04-03
CN103020490B true CN103020490B (zh) 2015-11-25

Family

ID=47969088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110287949.0A Active CN103020490B (zh) 2011-09-26 2011-09-26 目标区域测序中质控位点选取方法及装置

Country Status (1)

Country Link
CN (1) CN103020490B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091870A (zh) * 2019-12-18 2020-05-01 中国科学院大学 基因变异位点质量控制方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909806B (zh) * 2015-12-22 2019-04-09 广州华大基因医学检验所有限公司 定点检测变异的方法和装置
CN112746097A (zh) * 2021-01-29 2021-05-04 深圳裕康医学检验实验室 一种检测样本交叉污染的方法以及预测交叉污染源的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539967A (zh) * 2008-12-12 2009-09-23 深圳华大基因研究院 一种单核苷酸多态性检测方法
CN101805790A (zh) * 2010-01-26 2010-08-18 中国人民解放军总医院 一种同时检测24个运动相关基因上32个snp位点多态性的方法
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004071155A2 (en) * 2003-02-05 2004-08-26 Amersham Biosciences Corp Solid phase sequencing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539967A (zh) * 2008-12-12 2009-09-23 深圳华大基因研究院 一种单核苷酸多态性检测方法
CN101805790A (zh) * 2010-01-26 2010-08-18 中国人民解放军总医院 一种同时检测24个运动相关基因上32个snp位点多态性的方法
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
48个X-SNP位点的筛选及法医学应用价值分析;畅晶晶等;《中国法医学杂志》;20100220;第25卷(第1期);6-10 *
基因位点预测的一种特征选择优化算法;李骜等;《北京生物医学工程》;20050430;第24卷(第2期);84-88 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091870A (zh) * 2019-12-18 2020-05-01 中国科学院大学 基因变异位点质量控制方法及系统
CN111091870B (zh) * 2019-12-18 2021-11-02 中国科学院大学 基因变异位点质量控制方法及系统

Also Published As

Publication number Publication date
CN103020490A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
Varshney et al. Designing future crops: genomics-assisted breeding comes of age
Silva‐Junior et al. A flexible multi‐species genome‐wide 60K SNP chip developed from pooled resequencing of 240 Eucalyptus tree genomes across 12 species
Lee et al. Development, validation and genetic analysis of a large soybean SNP genotyping array
Kirby et al. Fine mapping in 94 inbred mouse strains using a high-density haplotype resource
Schield et al. Allopatric divergence and secondary contact with gene flow: a recurring theme in rattlesnake speciation
Arouisse et al. Imputation of 3 million SNPs in the Arabidopsis regional mapping population
Didion et al. SNP array profiling of mouse cell lines identifies their strains of origin and reveals cross-contamination and widespread aneuploidy
CN102629305B (zh) 一种面向snp数据的特征选择方法
Nevado et al. Resequencing studies of nonmodel organisms using closely related reference genomes: optimal experimental designs and bioinformatics approaches for population genomics
Zheng et al. Species delimitation and lineage separation history of a species complex of aspens in China
CN101845501A (zh) 一种复杂疾病易感性综合遗传分析方法
MX2011004606A (es) Clasificacion genomica de cancer colorrectal con base en patrones de alteraciones de numero de copias de gene.
Macgregor et al. Analysis of pooled DNA samples on high density arrays without prior knowledge of differential hybridization rates
Meng et al. Characterization of three indica rice multiparent advanced generation intercross (MAGIC) populations for quantitative trait loci identification
Lawrence et al. Prospects and pitfalls in whole genome association studies
Howard et al. Integration of Infinium and Axiom SNP array data in the outcrossing species Malus× domestica and causes for seemingly incompatible calls
KR20240124392A (ko) 표적 참조 게놈을 사용하지 않는 변이체 호출
CN108256293A (zh) 一种疾病关联基因组合的统计方法及系统
CN103020490B (zh) 目标区域测序中质控位点选取方法及装置
Ju et al. Evaluating population genetic structure and demographic history of Quercus spinosa (Fagaceae) based on specific length amplified fragment sequencing
Byrnes et al. The value of statistical or bioinformatics annotation for rare variant association with quantitative trait
Robins et al. Contrasting patterns of population divergence on young and old landscapes in Banksia seminuda (Proteaceae), with evidence for recognition of subspecies
Penco et al. Assessment of the role of genetic polymorphism in venous thrombosis through artificial neural networks
Lammers et al. SNP genotyping for detecting the ‘rare allele phenomenon’in hybrid zones
CN108172296A (zh) 一种数据库的建立方法和遗传疾病的风险预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: BGI-SHENZHEN

Effective date: 20130716

Owner name: BGI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: BGI-SHENZHEN CO., LTD.

Effective date: 20130716

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130716

Address after: 518083 science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Shenzhen, 201

Applicant after: BGI Technology Solutions Co., Ltd.

Address before: North Road No. 146, building 11F-3 Industrial Zone in Yantian District of Shenzhen city of Guangdong Province in 518083

Applicant before: BGI-Shenzhen Co., Ltd.

Applicant before: BGI-Shenzhen

C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160801

Address after: 300308, Tianjin free trade zone (Airport Economic Zone) ring River Road, 80, airport business park, 201-1 East Building, room 3

Patentee after: Tianjin Huada medical laboratory Co., Ltd.

Address before: 518083 science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Shenzhen, 201

Patentee before: BGI Technology Solutions Co., Ltd.