CN106715712B - 用于鉴定多个生物样本之间身份关系的方法和系统 - Google Patents

用于鉴定多个生物样本之间身份关系的方法和系统 Download PDF

Info

Publication number
CN106715712B
CN106715712B CN201480081788.1A CN201480081788A CN106715712B CN 106715712 B CN106715712 B CN 106715712B CN 201480081788 A CN201480081788 A CN 201480081788A CN 106715712 B CN106715712 B CN 106715712B
Authority
CN
China
Prior art keywords
snp
sequencing
genotype
base
primer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480081788.1A
Other languages
English (en)
Other versions
CN106715712A (zh
Inventor
芦静
蒋浩君
陈芳
崔路漫
康雄斌
蒋慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN106715712A publication Critical patent/CN106715712A/zh
Application granted granted Critical
Publication of CN106715712B publication Critical patent/CN106715712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

提供了用于鉴定多个生物样本之间身份关系的方法和系统,其中该方法包括:(1)对来自所述多个生物样本的基因组DNA的至少一部分进行测序,以便获得所述多个生物样本的核酸测序结果;(2)基于所述核酸测序结果,针对所述多个生物样本中的每一个,确定预定SNP位点集合中每一个SNP位点的基因型;(3)基于所述SNP位点的基因型,确定所述多个生物样本之间的身份关系。

Description

用于鉴定多个生物样本之间身份关系的方法和系统
优先权信息
本申请请求2014年9月30日向中国国家知识产权局提交的、申请号为PCT/CN2014/087988的PCT国际申请的优先权和权益,并且通过参照将其全文并入此处。
技术领域
本发明涉及生物医学领域。更具体而言,本发明涉及用于鉴定多个生物样本之间身份关系的方法和系统。
背景技术
人体细胞有总数约为30亿个碱基对的DNA,DNA具有个体的唯一性和群体的多样性,没有任何两个个体的DNA完全一致(同卵双生的双胞胎除外)。也即每个人的DNA都不完全相同,人与人之间不同的碱基对数目达几百万之多,因此通过分子生物学方法显示的DNA图谱也因人而异,由此可以识别不同的人,或判断有争议的父母与子女之间是否存在亲生血缘关系。自1985年英国遗传学家Alec Jeffreys建立了DNA指纹技术以来,新技术、新方法不断出现,可应用的各种遗传标记与日俱增,今天的法医DNA分析技术已成为个人识别和血缘鉴定最有效的方法。
然而,目前的多个生物样本之间的身份关系鉴定例如亲子鉴定、个体鉴定的方法,仍有待改进。
发明内容
需要说明的是,本发明是基于发明人的下列发现而完成的:
短串联重复序列(short tandem repeat,STR)又称微卫星DNA(micro satelliteDNA),是一类广泛存在于人类基因组中的DNA多态性基因座。它由2~6碱基对构成核心序列,呈串联重复排列。STR基因位点长度一般在100~300bp之间。因个体间DNA片断长度或DNA序列差异而成高度多态性,在基因传递过程中遵循孟德尔共显性方式遗传。因其基因片段短、扩增效率高、判型准确等特点。已广泛应用于法医学个体识别和亲子鉴定等领域。SNP全称Single Nucleotide Polymorphisms,是指在基因组上单个核苷酸的变异,包括转换、颠换、缺失和插入,形成的遗传标记,其数量很多,多态性丰富。在人类基因组中大概每1000个碱基就有一个SNP,人类基因组上的SNP总量大概是3×106个。因此,SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。在法医学上,STR位点和单核苷酸(SNP)位点检测分别是第二代、第三代DNA分析技术的核心,是继RFLP(限制性片段长度多态性)和VNTR(可变数量串联重复序列多态性)研究而发展起来的检测技术。随着DNA技术的发展和应用,DNA标志系统的检测将成为破案的重要手段和途径。此方法作为身份鉴定已经是非常成熟的,也是国际上公认的最好的一种方法。
当前DNA亲子鉴定、个体鉴定利用人类基因组中的重复碱基序列(STR,为第二代分子标记)和PCR技术进行个体识别。但STR具有很大的局限性,SNP是第三代分子标记技术是将来的发展方向。首先,SNP遗传标记是通过扩增检测单个位点的多态性来进行个体识别,只需45-55bp的序列长度就可以识别该位点,所以扩增片段更短,相比CODIS位点(现行的STR鉴定位点)100到450bp的扩增长度范围,SNP的60到130bp扩增长度可以用于降解腐败的样本,这在司法应用方面是非常有价值的。其次,SNP的突变率为10-8,而STR的突变率为10-3-10-5,SNP的突变率更低更适合用来做个体识别。最后,SNP二等位基因的本质表明SNP的个体识别是质的问题而不是量的问题,更适合自动化的处理。STR作为第二代分子标记,势必会被90年代后期诞生的第三代分子标记技术(SNP)所取代。然而,目前的SNP也只是用基因芯片或者试剂盒分型的方法来检测,这些检测方法虽然准确度高,但是通量小,成本高,不利于大规模样本的鉴定,也没有公开可信度高的SNP位点。
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的在于,针对当前亲子鉴定和个体鉴定通量小、成本高、二代测序错误率高的难点,提出一种基于SNP分型的用于鉴定多个生物样本之间身份关系的方法。
根据本发明的一个方面,本发明提供了一种用于鉴定多个生物样本之间身份关系的方法。根据本发明的实施例,该方法包括:
(1)对来自所述多个生物样本的基因组DNA的至少一部分进行测序,以便获得所述多个生物样本的核酸测序结果;
(2)基于所述核酸测序结果,针对所述多个生物样本中的每一个,确定预定SNP位点集合中每一个SNP位点的基因型;
(3)基于所述SNP位点的基因型,确定所述多个生物样本之间的身份关系。
发明人惊奇地发现,利用本发明的方法,能够获得准确的SNP分型结果,进而能够有效实现多个生物样本之间的身份关系鉴定。此外,本发明的方法选取第三代DNA分子遗传标记SNP作为身份关系鉴定即亲子鉴定和个体鉴定的遗传标记,具有扩增片段小,突变率低等优势。并且,相比传统的STR亲子鉴定(或个体鉴定),本发明的方法通量高,适合大规模的样本鉴定分析,成本低,例如用于亲子鉴定时每个三联体家系的鉴定成本不足200元,用时短,单次鉴定两天内可以出报告结果,同时所用的遗传标记SNP的突变率比STR更低,鉴定结果的可信度更高。
根据本发明的实施例,预定SNP位点集合中的每一个SNP位点至少满足下列条件之一:MAF>0.4的位点;无连锁不平衡;SNP位点之间符合Hardy–Weinberg平衡。由此,基于满足上述条件的SNP位点的基因型,能够准确有效地确定多个生物样本之间的身份关系。
根据本发明的实施例,所述基因组DNA的至少一部分包含所述预定SNP位点集合中的所有SNP位点。由此,测序后能够有效获得SNP位点信息,确定SNP位点的基因型。
根据本发明的实施例,在进行所述测序之前,预先利用引物对所述生物样本的基因组DNA进行扩增,所述引物特异性识别所述SNP位点集合中的每一个SNP位点。由此,有利于SNP位点信息的获得,从而有利于SNP位点基因型的确定。
根据本发明的实施例,所述预定SNP位点集合包含如下SNP位点:rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039、rs4076086、rs1106201、rs3756050、rs11123823、rs2274212、rs3829868、rs2276967、rs9821880、rs1049500、rs3811474、rs2292564、rs2013162、rs1997660、rs14134、rs26821、rs7690296、rs5745448、rs1343469、rs1699798、rs1698647、rs2293195、rs3805392、rs227368、rs6909306、rs62431284、rs562381、rs10734685、rs929310、rs1355634、rs2356027、rs1657741、rs8076154、rs2235907、rs228104、rs5749426。发明人惊奇地发现,通过确定上述预定SNP位点集合的基因型,能够有效确定多个生物样本之间的身份关系,并且通量高,能够用于大规模的样本鉴定分析,成本低,例如用于亲子鉴定时每个三联体家系的鉴定成本不足200元,用时短,单次鉴定两天内可以出报告结果,鉴定结果的可信度更高。
根据本发明的实施例,所述引物的核酸序列如SEQ ID NO:3-142所示。其中,具有如SEQ ID NO:3-142所示核酸序列的引物特异性识别上述的70个SNP位点,即其分别为上述70个SNP位点的扩增引物,由此,利用这些引物分别对样品DNA进行扩增,能够有效获得包含预定SNP位点集合中的所有SNP位点的基因组DNA的至少一部分,进而,测序后能够有效获得SNP位点信息,确定SNP位点的基因型,用于身份关系鉴定。
根据本发明的实施例,针对给定的SNP位点,所述SNP位点的基因型是通过下列步骤确定的:
(a)基于所述核酸测序结果,构建测序读段集合,所述测序读段集合中的每一个测序读段均对应所述给定SNP位点;
(b)按照测序读段中SNP位点的碱基类型,将所述测序读段集合划分为四个子集,其中,所述四个子集分别支持不同的碱基类型;
(c)按照测序读段数目自多至少的顺序,对所述四个子集进行排序,并且将排序第一位的子集命名为主要碱基支持子集,将排序第二位的子集命名为第二碱基支持子集,将排序第三位的子集命名为第三碱基支持子集;以及
(d)基于所述主要碱基支持子集、第二碱基支持子集和第三碱基支持子集中测序读段的数目确定所述给定的SNP位点的基因型。
由此,能够有效确定给定SNP位点的基因型,并且可信度高,能够有效用于身份关系鉴定。
根据本发明的实施例,针对给定的SNP位点,步骤(d)进一步包括:
(d-1)确定主要碱基支持子集中测序读段的数目A、第二碱基支持子集中测序读段的数目B以及第三碱基支持子集中测序读段的数目C,所述测序读段集合中测序读段的数目M;
(d-2)当A<50时,放弃所述给定的SNP位点;
(d-3)当A≥50时,按照下列标准进行基因型判定:当(A+B)/M≥4/5,B/C>20,且A/B≤15时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M≥4/5,B/C>20,且A/B>15时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;当(A+B)/M≥4/5,B/C≤20,且A/B>10时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;当(A+B)/M≥4/5,B/C≤20,且A/B≤10时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M<4/5,且A/B≤2时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M<4/5,且A/B>2时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型。由此,确定的给定SNP位点的基因型结果可靠,能够有效用于身份关系鉴定。
根据本发明的实施例,利用二代测序平台,优选Hiseq、Miseq、Proton和PGM测序平台的至少之一进行所述测序。由此,能够实现同时对大量样本进行检测,通量高、成本低、结果准确、可重复性高。
根据本发明的实施例,所述生物样本为选自毛发、口腔细胞、血液、尿液、羊水、指甲和唾液的至少之一。
根据本发明的实施例,所述多个生物样本为至少3个生物样本,并且其中两个生物样本已知为三联体家系中的两个,所述方法进一步包括通过下列步骤确定剩余样本中是否存在所述三联体家系中的第三个:针对所述多个生物样本中剩余样本的每一个样本,确定所述每一个样本的基因型与所述两个样本的基因型均不对应的SNP位点数n,其中,1-n*10-8表示样本不是所述三联体家系中的第三个的可行度,n等于0表示样本为所述三联体家系中的第三个。由此,利用本发明的方法能够有效确定样本是否确定三联体家系中的第三个,即有效实现三联体家系成员的亲子鉴定,确定多个生物样本之间的身份关系。
根据本发明的实施例,所述多个生物样本为至少两个,并且通过下列步骤确定所述多个样本是否来自同一个体:确定所述多个样本之间基因型不一致的SNP位点数目p,p等于0是所述多个生物样本来自同一个体的指示。由此,利用本发明的方法能够有效确定多个生物样本是否来自同一个体,即有效实现个人识别、鉴定,确定多个生物样本之间的身份关系。
根据本发明的又一方面,本发明还提供了一种用于鉴定多个生物样本之间身份关系的系统。根据本发明的实施例,该系统包括:测序装置,所述测序装置用于对来自所述多个生物样本的基因组DNA的至少一部分进行测序,以便获得所述多个生物样本的核酸测序结果;基因型确定装置,所述基因型确定装置与所述测序装置相连,用于基于所述核酸测序结果,针对所述多个生物样本中的每一个,确定预定SNP位点集合中每一个SNP位点的基因型;以及身份关系确定装置,所述身份关系确定装置与所述基因型确定装置相连,用于基于所述SNP位点的基因型,确定所述多个生物样本之间的身份关系。
根据本发明的实施例,利用本发明的系统,能够获得准确的SNP分型结果,进而能够有效实现多个生物样本之间的身份关系鉴定。此外,发明人发现,本发明选取第三代DNA分子遗传标记SNP作为身份关系鉴定即亲子鉴定和个体鉴定的遗传标记,具有扩增片段小,突变率低等优势。并且,相比传统的STR亲子鉴定(或个体鉴定),利用本发明的系统进行身份关系鉴定,通量高、能够实现规模化生成,且成本低,例如用于亲子鉴定时每个三联体家系的鉴定成本不足200元,用时短,单次鉴定两天内可以出报告结果,同时所用的遗传标记SNP的突变率比STR更低,鉴定结果的可信度更高。
根据本发明的实施例,预定SNP位点集合中的每一个SNP位点至少满足下列条件之一:MAF>0.4的位点;无连锁不平衡;SNP位点之间符合Hardy–Weinberg平衡。由此,基于满足上述条件的SNP位点的基因型,能够准确有效地确定多个生物样本之间的身份关系。
根据本发明的实施例,所述基因组DNA的至少一部分包含所述预定SNP位点集合中的所有SNP位点。由此,测序后能够有效获得SNP位点信息,确定SNP位点的基因型。
根据本发明的实施例,进一步包括扩增装置,所述扩增装置中设置有引物,用于在进行所述测序之前,预先利用所述引物对所述生物样本的基因组DNA进行扩增,所述引物特异性识别所述SNP位点集合中的每一个SNP位点。由此,有利于SNP位点信息的获得,从而有利于SNP位点基因型的确定。
根据本发明的实施例,所述预定SNP位点集合包含如下SNP位点:rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039、rs4076086、rs1106201、rs3756050、rs11123823、rs2274212、rs3829868、rs2276967、rs9821880、rs1049500、rs3811474、rs2292564、rs2013162、rs1997660、rs14134、rs26821、rs7690296、rs5745448、rs1343469、rs1699798、rs1698647、rs2293195、rs3805392、rs227368、rs6909306、rs62431284、rs562381、rs10734685、rs929310、rs1355634、rs2356027、rs1657741、rs8076154、rs2235907、rs228104、rs5749426。
根据本发明的实施例,所述引物的核酸序列如SEQ ID NO:3-142所示。其中,具有如SEQ ID NO:3-142所示核酸序列的引物特异性识别上述的70个SNP位点,由此,利用这些引物分别对样品DNA进行扩增,能够有效获得包含预定SNP位点集合中的所有SNP位点的基因组DNA的至少一部分,进而,测序后能够有效获得SNP位点信息,确定SNP位点的基因型,用于身份关系鉴定。
根据本发明的实施例,所述基因型确定装置适于针对给定的SNP位点,通过下列步骤确定所述SNP位点的基因型:
(a)基于所述核酸测序结果,构建测序读段集合,所述测序读段集合中的每一个测序读段均对应所述给定SNP位点;
(b)按照测序读段中SNP位点的碱基类型,将所述测序读段集合划分为四个子集,其中,所述四个子集分别支持不同的碱基类型;
(c)按照测序读段数目自多至少的顺序,对所述四个子集进行排序,并且将排序第一位的子集命名为主要碱基支持子集,将排序第二位的子集命名为第二碱基支持子集,将排序第三位的子集命名为第三碱基支持子集;以及
(d)基于所述主要碱基支持子集、第二碱基支持子集和第三碱基支持子集中测序读段的数目确定所述给定的SNP位点的基因型。
由此,能够有效确定给定SNP位点的基因型,并且可信度高,能够有效用于身份关系鉴定。
根据本发明的实施例,针对给定的SNP位点,步骤(d)进一步包括:
(d-1)确定主要碱基支持子集中测序读段的数目A、第二碱基支持子集中测序读段的数目B以及第三碱基支持子集中测序读段的数目C,所述测序读段集合中测序读段的数目M;
(d-2)当A<50时,放弃所述给定的SNP位点;
(d-3)当A≥50时,按照下列标准进行基因型判定:当(A+B)/M≥4/5,B/C>20,且A/B≤15时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M≥4/5,B/C>20,且A/B>15时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;当(A+B)/M≥4/5,B/C≤20,且A/B>10时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;当(A+B)/M≥4/5,B/C≤20,且A/B≤10时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M<4/5,且A/B≤2时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M<4/5,且A/B>2时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型。由此,确定的给定SNP位点的基因型结果可靠,能够有效用于身份关系鉴定。
根据本发明的实施例,所述测序装置为二代测序平台,优选Hiseq、Miseq、Proton和PGM测序平台的至少之一。由此,能够实现同时对大量样本进行检测,通量高、成本低、结果准确、可重复性高。
根据本发明的实施例,所述生物样本为选自毛发、口腔细胞、血液、尿液、羊水、指甲和唾液的至少之一。
根据本发明的实施例,所述多个生物样本为至少3个生物样本,并且其中两个生物样本已知为三联体家系中的两个,所述身份关系确定装置适于通过下列步骤确定剩余样本中是否存在所述三联体家系中的第三个:针对所述多个生物样本中剩余样本的每一个样本,确定所述每一个样本的基因型与所述两个样本的基因型均不对应的SNP位点数n,其中,1-n*10-8表示样本不是所述三联体家系中的第三个的可行度,n等于0表示样本为所述三联体家系中的第三个。由此,利用本发明的系统能够有效确定样本是否确定三联体家系中的第三个,即有效实现三联体家系成员的亲子鉴定,确定多个生物样本之间的身份关系。
根据本发明的实施例,所述多个生物样本为至少两个,并且所述身份关系确定装置适于通过下列步骤确定所述多个样本是否来自同一个体:确定所述多个样本之间基因型不一致的SNP位点数目p,p等于0是所述多个生物样本来自同一个体的指示。由此,利用本发明的系统能够有效确定多个生物样本是否来自同一个体,即有效实现个人识别、鉴定,确定多个生物样本之间的身份关系。
根据本发明的另一方面,本发明还提供了如下所示的一组SNP位点,在鉴定多个生物样本之间身份关系中的用途:rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039、rs4076086、rs1106201、rs3756050、rs11123823、rs2274212、rs3829868、rs2276967、rs9821880、rs1049500、rs3811474、rs2292564、rs2013162、rs1997660、rs14134、rs26821、rs7690296、rs5745448、rs1343469、rs1699798、rs1698647、rs2293195、rs3805392、rs227368、rs6909306、rs62431284、rs562381、rs10734685、rs929310、rs1355634、rs2356027、rs1657741、rs8076154、rs2235907、rs228104、rs5749426。发明人惊奇地发现,针对多个生物样本,通过确定上述预定SNP位点集合的基因型,能够有效确定多个生物样本之间的身份关系,并且通量高,能够用于大规模的样本鉴定分析,成本低,例如用于亲子鉴定时每个三联体家系的鉴定成本不足200元,用时短,单次鉴定两天内可以出报告结果,鉴定结果的可信度更高。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
发明详细描述
下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
方法
根据本发明的一个方面,本发明提供了一种用于鉴定多个生物样本之间身份关系的方法。根据本发明的实施例,该方法包括:
(1)对来自所述多个生物样本的基因组DNA的至少一部分进行测序,以便获得所述多个生物样本的核酸测序结果;
(2)基于所述核酸测序结果,针对所述多个生物样本中的每一个,确定预定SNP位点集合中每一个SNP位点的基因型;
(3)基于所述SNP位点的基因型,确定所述多个生物样本之间的身份关系。
发明人惊奇地发现,利用本发明的方法,能够获得准确的SNP分型结果,进而能够有效实现多个生物样本之间的身份关系鉴定。此外,本发明的方法选取第三代DNA分子遗传标记SNP作为身份关系鉴定即亲子鉴定和个体鉴定的遗传标记,具有扩增片段小,突变率低等优势。并且,相比传统的STR亲子鉴定(或个体鉴定),本发明的方法通量高,适合大规模的样本鉴定分析,成本低,例如用于亲子鉴定时每个三联体家系的鉴定成本不足200元,用时短,单次鉴定两天内可以出报告结果,同时所用的遗传标记SNP的突变率比STR更低,鉴定结果的可信度更高。
根据本发明的实施例,预定SNP位点集合中的每一个SNP位点至少满足下列条件之一:MAF>0.4的位点;无连锁不平衡;SNP位点之间符合Hardy–Weinberg平衡。由此,基于满足上述条件的SNP位点的基因型,能够准确有效地确定多个生物样本之间的身份关系。此外,每一个SNP位点还需能通过设计引物进行扩增,且扩增产物长度在50bp-250bp,优选70bp-90bp,特别优选80bp,由此,通过设计获得的特异性识别SNP位点的引物,对样品DNA进行扩增,能够有效获得包含SNP位点的基因组DNA的至少一部分,进而,测序后能够有效获得SNP位点信息,确定SNP位点的基因型,用于身份关系鉴定。
其中,需要说明的是,在本发明中所采用的术语“MAF”是指Minor AlleleFrequency,即最小等位基因频率,是指在指定人群中的不常见的等位基因发生频率。例如TT,TC,CC三个基因型,在人群中C的频率为0.36,T的频率为0.64,则等位基因C就为最小等位基因频率,MAF=0.36。MAF可通过如下方式进行计算:MAF=Minor Allele/(Minor+MajorAllele)。在本发明中所采用的术语“Hardy-Weinberg平衡”是指在一个群体无限大,且又具备以下条件:随机交配、没有突变没有选择、没有遗传漂变的情况下,群体内一个位点上的基因型频率和基因频率将代代保持不变,处于遗传平衡状态,这一平衡状态就称之为Hardy-Weinberg平衡。
根据本发明的实施例,所述基因组DNA的至少一部分包含所述预定SNP位点集合中的所有SNP位点。由此,测序后能够有效获得SNP位点信息,确定SNP位点的基因型。
根据本发明的实施例,在进行所述测序之前,预先利用引物对所述生物样本的基因组DNA进行扩增,所述引物特异性识别所述SNP位点集合中的每一个SNP位点。由此,有利于SNP位点信息的获得,从而有利于SNP位点基因型的确定。
根据本发明的实施例,所述预定SNP位点集合包含如下SNP位点:rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039、rs4076086、rs1106201、rs3756050、rs11123823、rs2274212、rs3829868、rs2276967、rs9821880、rs1049500、rs3811474、rs2292564、rs2013162、rs1997660、rs14134、rs26821、rs7690296、rs5745448、rs1343469、rs1699798、rs1698647、rs2293195、rs3805392、rs227368、rs6909306、rs62431284、rs562381、rs10734685、rs929310、rs1355634、rs2356027、rs1657741、rs8076154、rs2235907、rs228104、rs5749426。上述70个位点是发明人经过精心筛选的,有很强的鉴别力度,但位点的选取和数量不局限于此,可以灵活的增加和减少。选取高效的SNP位点尽量满足MAF>0.4,位点之间无连锁不平衡,同时位点尽量从已知的数据库中选取,SNP位点之间符合Hardy–Weinberg平衡。根据本发明实施例的上述70个高杂合位点是从中国人的数据库中选取的,这70个位点在个体鉴定中的理论区分度为9.72x10-28(计算公式为:Dp=1-∑Pi2,其中Pi指群体中第i个表型频率,∑Pi2为人群随机抽取,纯粹因机会而一致的概率,
Figure BDA0001240661030000061
。由于考虑到二代测序以及高通量扩增平台的错误率问题,实际发挥个体鉴定效能的SNP位点数不足70个,按照80%有效位点数计算的理论区分度为2.45x10-22,这种区分力度已经远远高于现行的STR的个体鉴定力度(约10-19左右)。由于SNP的等位基因频率在不同的种族中是不同的,所以选取的位点在根据种群基因频率计算的碰撞概率上具有独立性,因此本发明针对中国人数据库筛选的该70个位点,适用于中国人的个体鉴定,但不一定适合于其他种族。因而,同样地,可以从世界不同种族的数据库筛选出的位点,用于相应种族的身份关系鉴定。发明人惊奇地发现,通过确定上述70个SNP位点的基因型,能够有效确定多个生物样本之间的身份关系,并且通量高,能够用于大规模的样本鉴定分析,成本低,例如用于亲子鉴定时每个三联体家系的鉴定成本不足200元,用时短,单次鉴定两天内可以出报告结果,鉴定结果的可信度更高。
如前所述,可以在进行所述测序之前,预先利用引物对生物样本的基因组DNA进行扩增,所述引物特异性识别所述SNP位点集合中的每一个SNP位点。由此,有利于SNP位点信息的获得,从而有利于SNP位点基因型的确定。根据本发明的实施例,所述引物的核酸序列如SEQ ID NO:3-142所示。具体见下表1:
表1
Figure BDA0001240661030000071
Figure BDA0001240661030000081
Figure BDA0001240661030000091
Figure BDA0001240661030000101
如表1所示,具有如SEQ ID NO:3-142所示核酸序列的引物特异性识别上述的70个SNP位点,即其分别为上述70个SNP位点的扩增引物,由此,利用这些引物分别对样品DNA进行扩增,能够有效获得包含预定SNP位点集合中的所有SNP位点的基因组DNA的至少一部分,进而,测序后能够有效获得SNP位点信息,确定SNP位点的基因型,用于身份关系鉴定。
根据本发明的另一些实施例,在进行所述测序之前,预先利用内外双引物扩增的方法构建文库,利用内外双引物对生物样本的基因组DNA进行扩增,进而将扩增产物直接用于测序。其中,内引物扩增目的产物,外引物扩增加入建库接头使得扩增产物,由此扩增产物可以直接上机测序,从而能够达到快速建库的目的。根据本发明的一些具体示例,外引物序列分别如SEQ ID NO:1和SEQ ID NO:2-[Barcode]-SEQ ID NO:143所示,内引物序列如表1中SEQ ID NO:3-142所示。由此,能够快速建库并用于测序,从而能够高效地获得测序结果。
其中,外引物正向:AATGATACGGCGACCACCGAGATCTACACTGACGACATGGTTCTACA(SEQID NO.1);外引物反向:TCTGGTTCAGAGACGATGGCAT(SEQ ID NO.2)-[Barcode]-TAGAGCATACGGCAGAAGACGAAC(SEQ ID NO.143)。需要说明的是,本文所采用的术语“Barcode”为条形码,是指由一组按某种规则排列的碱基序列构成的标记,用以表示一定的信息,有时也称为标签序列。“内引物”是指加入特定连接序列的针对某一特定位点的引物,即在原有的普通引物F和R的5’加入特定的公共接头。“外引物”(包括外侧正向引物和反向引物)是指含有特定的公共接头和适应于二代测序序列的引物。
根据本发明的另一些实施例,扩增所述SNP位点的引物序列如SEQ ID NO.3-72所示,每两个引物依次扩增所述SNP位点,如表1所示。
根据本发明的实施例,针对给定的SNP位点,所述SNP位点的基因型是通过下列步骤确定的:
(a)基于所述核酸测序结果,构建测序读段集合,所述测序读段集合中的每一个测序读段均对应所述给定SNP位点;
(b)按照测序读段中SNP位点的碱基类型,将所述测序读段集合划分为四个子集,其中,所述四个子集分别支持不同的碱基类型;
(c)按照测序读段数目自多至少的顺序,对所述四个子集进行排序,并且将排序第一位的子集命名为主要碱基支持子集,将排序第二位的子集命名为第二碱基支持子集,将排序第三位的子集命名为第三碱基支持子集;以及
(d)基于所述主要碱基支持子集、第二碱基支持子集和第三碱基支持子集中测序读段的数目确定所述给定的SNP位点的基因型。
由此,能够有效确定给定SNP位点的基因型,并且可信度高,能够有效用于身份关系鉴定。
其中,需要说明的是,本发明所采用的术语“测序读段集合”是指测序读段集合中的每一个测序读段均对应给定SNP位点,也即针对一个给定SNP位点,所述测序读段集合是包含该给定SNP位点的所有测序读段(reads)的集合,换言之,所述测序读段集合中的每一个测序读段均包含该给定SNP位点。例如,针对rs11239930位点,其对应的测序读段集合中每一个测序读段都应包含该位点;或者,也可能是针对某一个测序读段集合,其每一个测序读段中均同时包含多个SNP位点。本发明所采用的表达方式“按照测序读段中SNP位点的碱基类型,将所述测序读段集合划分为四个子集,其中,所述四个子集分别支持不同的碱基类型”是指,按照测序读段中预定SNP位点的碱基类型ATCG,将所述测序读段集合划分为四个子集,由此,各子集中包含的测序读段的预定SNP位点的碱基类型分别独立地为对应的ATCG,也即其中一个子集包含的测序读段的SNP位点的碱基类型均为A,一个子集包含的测序读段的SNP位点的碱基类型均为T,一个子集包含的测序读段的SNP位点的碱基类型均为C,另一个子集包含的测序读段的SNP位点的碱基类型均为G。
根据本发明的实施例,针对给定的SNP位点,步骤(d)进一步包括:
(d-1)确定主要碱基支持子集中测序读段的数目A、第二碱基支持子集中测序读段的数目B以及第三碱基支持子集中测序读段的数目C,所述测序读段集合中测序读段的数目M;
(d-2)当A<50时,放弃所述给定的SNP位点;
(d-3)当A≥50时,按照下列标准进行基因型判定:当(A+B)/M≥4/5,B/C>20,且A/B≤15时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M≥4/5,B/C>20,且A/B>15时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;当(A+B)/M≥4/5,B/C≤20,且A/B>10时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;当(A+B)/M≥4/5,B/C≤20,且A/B≤10时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M<4/5,且A/B≤2时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M<4/5,且A/B>2时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型。由此,确定的给定SNP位点的基因型结果可靠,能够有效用于身份关系鉴定。
根据本发明的实施例,针对给定SNP位点,可以以该位点前6-10bp的序列作为定位依据,从测序读段中提取出该位点的特定位置的碱基类型,并统计每种碱基类型的测序读段数目,依照相应的分型阈值(阈值即为前面所述的步骤(d)中对应的参数)进行SNP分型。其中,上述这些分型阈值A、(A+B)/M、B/C、A/B等的确定,是发明人针对性的根据测序数据的有效深度进行评估并调整训练参数,然后通过与金标准(sanger测序结果)比较确定不同阈值的准确率,并根据不同深度的数据对主要碱基支持子集、第二碱基支持子集和第三碱基支持子集中支持的碱基类型(等位基因)设定不同的权重和阈值,以最准确的分型结果作为后续身份关系鉴定的依据。
根据本发明的一些具体示例,对于SNP基因型的分型,提取出所测SNP位点的包括碱基类型及数目的碱基信息,如果该点的主要碱基支持数目低于50X则判定为低覆盖度不足以准确分型,当主要碱基支持数目高于50X则按照如下判定:
如果主要碱基与第二碱基所占比大于所有碱基的4/5,则进行如下杂合型的判定:如果第二碱基数目与第三碱基数目的比值超过20,则对杂合型判定给予一个高的宽容度(主要碱基与第二碱基比值在15倍之内),反之给予一个中等宽容度(主要碱基与第二碱基比值在10倍之内);
如果主要碱基与第二碱基所占比不大于4/5,则对杂合型的判定给予一个低的宽容度(主要碱基与第二碱基比值在2倍之内)。
本发明的方法能够采用的测序平台不限于二代测序平台,一代与三代测序平台也可,只要可以较准确分型出SNP基因型的平台都适用于本发明。根据本发明的实施例,利用二代测序平台,优选Hiseq、Miseq、Proton和PGM测序平台的至少之一进行所述测序。由此,能够实现同时对大量样本进行检测,通量高、成本低、结果准确、可重复性高。根据本发明的一些具体示例,通过WaferGen平台建库,然后利用二代测序平台进行测序。
理论上可以提取出DNA并适用于下一代测序(NGS,Next Generation ofSequencing)平台(包括Hiseq,Miseq,Proton,PGM等相关二代测序机型)测序的样本都可以用本发明的方法来做个体的识别鉴定。根据本发明的具体示例,所述生物样本为选自毛发、口腔细胞、血液、尿液、羊水、指甲和唾液的至少之一。
根据本发明的实施例,所述多个生物样本为至少3个生物样本,并且其中两个生物样本已知为三联体家系中的两个,所述方法进一步包括通过下列步骤确定剩余样本中是否存在所述三联体家系中的第三个:针对所述多个生物样本中剩余样本的每一个样本,确定所述每一个样本的基因型与所述两个样本的基因型均不对应的SNP位点数n,其中,1-n*10-8表示样本不是所述三联体家系中的第三个的可行度,n等于0表示样本为所述三联体家系中的第三个。由此,利用本发明的方法能够有效确定样本是否确定三联体家系中的第三个,即有效实现三联体家系成员的亲子鉴定,确定多个生物样本之间的身份关系。
根据本发明的实施例,所述多个生物样本为至少两个,并且通过下列步骤确定所述多个样本是否来自同一个体:确定所述多个样本之间基因型不一致的SNP位点数目p,p等于0是所述多个生物样本来自同一个体的指示。由此,利用本发明的方法能够有效确定多个生物样本是否来自同一个体,即有效实现个人识别、鉴定,确定多个生物样本之间的身份关系。
由此,根据本发明的实施例,本发明的用于鉴定多个生物样本之间身份关系的方法的用途主要表现为两个方面:亲子鉴定和个体鉴定。下面将分别从这两个方面的用途上,再次对本发明的方法进行详细描述:
1、亲子鉴定
进而,本发明提供了一种基于二代高通量测序的SNP分型结果进行亲子鉴定的方法,所述方法包括如下步骤:
1)选择SNP位点作为分子标记,
优选地,所述SNP满足以下标准:
MAF>0.4的位点,
能通过设计引物进行扩增,扩增产物长度在150bp-250bp,优选180-220,特别优选200bp;
无连锁不平衡;
SNP位点之间符合Hardy–Weinberg平衡;
2)对来自待测子代和父母的样品核酸构建文库;
3)对步骤2)建的库进行测序;
4)将去除外接头的数据在含有扩增目的序列的目的库中进行序列的比对,获得比对后的序列数据集;
5)对4)中比对后的序列,进行SNP基因型的分型;
6)对于5)中得到的分型,统计在父母子三者中统计所述子代与父母在排除因为错误率之后不一致的位点数n,n等于0认定为亲子关系,否则有1-n*10-8的可行度确认无亲子关系。
根据本发明的实施例,所选择的SNP位点是表1中显示的70个SNP位点。在这些位点中随机选择35个位点,用11个样本做准确性评估。
根据本发明的实施例,扩增上述70个SNP位点的引物是SEQ ID NO.3-142,每两个引物依次扩增所述SNP位点,如表1所示。根据本发明的另一些实施例,所选择的SNP位点是35个SNP位点:rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039,扩增所述SNP位点的引物是SEQ ID NO.3-72,每两个引物依次扩增所述SNP位点,如表1所示。
根据本发明的实施例,对于SNP基因型的分型,提取出所测SNP位点的包括碱基类型及数目的碱基信息,如果该点的主要碱基支持数目低于50X则判定为低覆盖度不足以准确分型,当主要碱基支持数目高于50X则按照如下判定:
如果主要碱基与第二碱基所占比大于所有碱基的4/5,则进行如下杂合型的判定:如果第二碱基数目与第三碱基数目的比值超过20,则对杂合型判定给予一个高的宽容度(主要碱基与第二碱基比值在15倍之内),反之给予一个中等宽容度(主要碱基与第二碱基比值在10倍之内),
如果主要碱基与第二碱基所占比不大于4/5,则对杂合型的判定给予一个低的宽容度(主要碱基与第二碱基比值在2倍之内)。相比传统的STR亲子鉴定,本发明的方法通量高,一次扩增多达5184个位点,每个样本只需70个SNP位点,单次扩增可以做74个样本,适合大规模的样本鉴定分析,成本低,每个家系的鉴定成本不足200元,用时短,单次鉴定两天内可以出报告结果,同时所用的遗传标记SNP的突变率比STR更低,鉴定结果的可信度更高。
根据本发明的一些实施例,本发明的SNP基因型分型判定亲子关系方法可以包括:
1)选取测序数据不低于50X的目标SNP位点进行统计;
2)根据SNP定点位置的主要碱基,第二碱基,第三碱基数量之间的关系确定该位点的基因型;
3)根据步骤2)确定的基因型以及选取的错误率的阈值,在三联体家系中统计不一致的位点数进行亲子关系的判定。优选地,所述错误率阈值选择范围为:3-6%,优选6%。进一步优选地,所述亲子关系判定方法还包括:统计在父母子三者中所述子代与父母排除由于实验和测序错误后不一致的位点数n,若n等于0认定为亲子关系,否则有1-n*10-8的可行度确认无亲子关系。
根据本发明的另一些实施例,本发明的SNP基因型分型判定亲子关系方法还可以包括:
1)根据90个炎黄个体的数据(数据来源为炎黄项目的数据)和1500个银屑病正常对照组数据(数据来源为银屑病研究项目的数据)分型出的SNP位点,选取MAF>0.4的位点,经过设计引物,扩增效能测试,平台兼容性测试以及连锁不平衡的进一步筛查测试,在其中筛选出可用的70个无连锁不平衡的SNP位点作为分子标记;
2)通过WaferGen公司的高通量PCR扩增平台,采用基于高通量快速建库的方法,利用内外双引物扩增的方法,内引物扩增目的产物,外引物扩增加入建库接头使得扩增产物可以直接上机测序达到快速建库的目的,同时,5184个反应同时进行,增加了扩增反应的通量;
3)将下机数据进行处理,统计数据的有效性,包括每条读段(read)对应的位点、每个位点对应的读段的长度和数量,有效读段数及百分比,碱基深度等,对测序数据进行合理的评估;
4)将去除外接头的数据在含有扩增目的序列的目的库中进行序列的比对,获得比对后的序列数据集;
5)对4)中比对后的序列,采用自己研发的个体定点SNP分型程序,依据在定点位置上的出现的四种碱基的个数比例进行基因型的分型,并对分型后的结果进行准确率的验证;
6)将5)中得到的分型经过,统计在父母子三联体中统计不一致的位点数,根据不一致的位点数进行亲子的判定,判定的标准是依据排除实验和测序错误后的位点数在子代和亲代中不符合孟德尔遗传规律的位点数,如果为0则判定为亲子关系,如果位点数为n(n>0),则有1-n*10-8的概率说明不是亲子关系。
在上述步骤2)中对位点的引物设计应使扩增的产物较短,扩增条件尽量一致,如此才能提高在高通量扩增平台扩增的成功率,对设计好的引物先预实验成功后才可上高通量扩增平台,扩增产物长度在150bp-1000bp,优选150-500bp,特别优选180-220bp。
上述步骤6)是对步骤5)所得分型结果的统计。根据孟德尔定律,子代的基因型的两个等位基因分别来自父母,将父母双方基因型的所有组合与孩子的基因型进行比较,统计父母双方基因型的所有组合中不包含孩子基因型的位点个数,在排除因为错误率(错误率为选取测试中的几个样本和35个位点进行准确性评估后推测出的一个保守的错误率)产生的不一致位点,如果仍存在不一致的位点,理论上可以认为是由于基因突变产生的,而SNP的突变率为10-8,比以往亲子鉴定用的分子标记STR要低很多,STR的突变率为10-3-10-5。在排除了错误率之后不一致的位点个数n与亲子鉴定的可信度关系为:可信度=1-n*10-8,远高于传统的亲子鉴定标准。
虽然不希望拘囿于理论,但发明人考虑:在本发明中,子代与父母不一致的位点数n理论上完全符合孟德尔遗传定律,如果出现的不一致的位点便是可以认定是因为基因突变产生的,而SNP的基因突变率是非常低的,大约为10-8,如果子代中有n个位点与所选的父母不符合,则表明有1-n*10-8的概率说明不是亲子关系,正常的亲子关系在排除错误率后的位点数与父母的位点数不符合孟德尔遗传规律的个数为0,此时可有认定为亲子关系。
本方法通过选取的70个SNP位点通过子代与父母不一致的位点个数统计来进行高可信度的亲子鉴定,所提及的位点支持证据不局限于本方法中选取的位点。凡有易于扩增并利于进行鉴定的位点同样适用于本方法,均可作为支持证据加入到亲子鉴定的过程。
本方法中所采用的利用第三代分子遗传标记联合多位点证据进行亲子鉴定的方法,有效提高了亲子鉴定的可信度,排除率至少提升了4个数量级。而通过使用高通量扩增、高通量测序,个体定点的SNP分型更是保证了大样本量的工作和效率的提高,能够极大降低亲子鉴定的成本。同时,所用平台的兼容性和扩展性能够保证位点灵活随意的增加,可以进一步提升亲子鉴定的力度,能够最大程度的保证结果的准确性,同时能够最大程度的获取家系的遗传信息,以及以后可以用来进行家系溯祖的检测和家系图谱的建立。因此本发明有益效果在于,在综合了第三代分子遗传标记优势基础之上得到了更加丰富、成本更低的基因信息,能够很好的应用于亲子鉴定的工作中,减少因为大样本量而额外投入的劳动量。
需要说明的是,本发明的方法可以适用于三联体家系亲子鉴定或者有创亲子鉴定。本发明人选取了第三代的DNA分子遗传标记SNP作为亲子鉴定的遗传标记,具有扩增片段小,突变率低等优势,通过SNP位点的选取、引物的设计、目的DNA的提取、高通量PCR扩增、二代测序、SNP分型、个体鉴定等多个步骤,可获得较为准确的分型结果,实现个体鉴定。相比传统的STR亲子鉴定,本发明的方法通量高,一次扩增多达5184个位点,每个样本只需70个SNP位点,单次扩增可以做74个样本,适合大规模的样本鉴定分析,成本低,每个家系的鉴定成本不足200元,用时短,单次鉴定两天内可以出报告结果,同时所用的遗传标记SNP的突变率比STR更低,鉴定结果的可信度更高。
2、个体鉴定
进而,本发明提供了一种基于二代高通量测序的SNP分型结果进行个体鉴定的方法,所述方法包括如下步骤:
1)选择SNP位点作为分子标记,
优选地,所述SNP满足以下标准:
MAF>0.4的位点,
能通过设计引物进行扩增,扩增产物长度在50bp-250bp,优选70bp-90bp,特别优选80bp;
无连锁不平衡;
SNP位点之间符合Hardy–Weinberg平衡;
Fst<0.01。
2)对样品DNA构建文库;
3)对步骤2)建的库进行测序;
4)将去除外接头的数据在含有扩增目的序列的目的库中进行序列的比对,获得比对后的序列数据集;
5)对4)中比对后的序列,进行SNP基因型的分型;
6)对于5)中得到的分型,统计个体之间排除错误率之后不一致的位点数n,n等于0认定为同一个体,否则不是同一个体。
根据本发明的实施例,所选择的SNP位点是表1中显示的70个SNP位点,扩增所述SNP位点的引物是SEQ ID NO.3-142,每两个引物依次扩增所述SNP位点,如表1所示。
根据本发明的另一些实施例,所选择的SNP位点是35个SNP位点:rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039,扩增所述SNP位点的引物是SEQ ID NO.3-72,每两个引物依次扩增所述SNP位点,如表1所示。
根据本发明的实施例,对于SNP基因型的分型,提取出所测SNP位点的包括碱基类型及数目的碱基信息,如果该点的主要碱基支持数目低于50X则判定为低覆盖度不足以准确分型,当主要碱基支持数目高于50X则按照如下判定:
如果主要碱基与第二碱基所占比大于所有碱基的4/5,则进行如下杂合型的判定:如果第二碱基数目与第三碱基数目的比值超过20,则对杂合型判定给予一个高的宽容度(主要碱基与第二碱基比值在15倍之内),反之给予一个中等宽容度(主要碱基与第二碱基比值在10倍之内);
如果主要碱基与第二碱基所占比不大于4/5,则对杂合型的判定给予一个低的宽容度(主要碱基与第二碱基比值在2倍之内)。
相比传统的STR亲子鉴定,本发明的方法通量高,一次扩增多达5184个位点,每个样本只需70个SNP位点,单次扩增可以做74个样本,适合大规模的样本鉴定分析,成本低,每个样本的鉴定成本不足100元,用时短,单次鉴定两天内可以出报告结果,同时所用的遗传标记SNP的突变率比STR更低,鉴定结果的可信度更高。
根据本发明的另一些实施例,本发明的基于二代高通量测序的SNP分型结果进行个体鉴定的方法,还可以包括:
1)根据90个炎黄个体的数据(数据来源为炎黄项目的数据)和1500个银屑病正常对照组数据(数据来源为银屑病研究项目的数据)分型出的SNP位点,选取MAF>0.4的位点,经过设计引物,通过扩增效能测试、平台兼容性测试以及连锁不平衡的进一步筛查测试,在其中筛选出表1所示的可用的70个无连锁不平衡的SNP位点作为分子标记;
2)通过WaferGen公司的高通量PCR扩增平台,采用基于建库的方法,利用前述的内外双引物扩增的方法,内引物扩增目的产物,外引物扩增加入建库接头使得扩增产物可以直接上机测序达到快速建库的目的,同时,5184个反应同时进行,增加了扩增反应的通量;
3)将下机数据进行处理,统计数据的有效性,包括每条读段(read)对应的位点、每个位点对应的读段的长度和数量,有效读段数及百分比,碱基深度等,对测序数据进行合理的评估;
4)将去除外接头的数据在含有扩增目的序列的目的库中进行序列的比对,获得比对后的序列数据集;
5)对4)中比对后的序列,采用自己研发的个体定点SNP分型程序,依据在定点位置上的出现的四种碱基的个数比例进行基因型的分型,并对分型后的结果进行准确率的验证;
6)将5)中得到的分型结果,在两个个体中统计不一致的位点数,根据不一致的位点数进行个体的判定,判定的标准是依据排除实验和测序错误后的位点数在个体中不一致的位点数,如果为0则判定为同一关系,如果位点数为n(n>0),则有1-n*10-8的概率说明不是同一关系。
其中,在上述步骤2)中对位点的引物设计应使扩增的产物较短,扩增条件尽量一致,如此才能提高在高通量扩增平台扩增的成功率,对设计好的引物先预实验成功后才可上高通量扩增平台,扩增产物长度在50bp-250bp,优选70bp-90bp,特别优选80bp。
上述步骤6)是对步骤5)所得分型结果的统计。除非发生SNP位点的基因突变,同一个人的SNP的基因型理论上是一致的,但是在实际操作过程中会因为实验扩增或者测序错误而产生分型结果的不一致,尤其是在高通量扩增的情况下(WaferGen)模板的输入量很低,会产生很严重的SNP等位基因的偏向性,容易在分型过程中发生误判。在排除因为错误率(错误率为选取测试中的几个样本和35个位点进行准确性评估后同时考虑到尽量避免假阳性的产生而推测出的一个相对保守的错误率)产生的不一致位点,如果仍存在不一致的位点,理论上可以认为是由于基因突变产生的,而SNP的突变率为10-8,比以往亲子鉴定用的分子标记STR要低很多,STR的突变率为10-3-10-5。在排除了错误率之后不一致的位点个数n与个体鉴定的可信度关系为:可信度=1-n*10-8,远高于传统的个体鉴定标准。
虽然不希望拘囿于理论,但发明人考虑:在本发明中,个体之间不一致的SNP位点数n理论上完全可以用来判定同一关系,在排除因为错误率产生的不一致的分型后同一个体如果还存在不一致的SNP位点便是可以认定是因为基因突变产生的,而SNP的基因突变率是非常低的,大约为10-8,如果比较的两个个体中有n个位点不相符,则表明有1-n*10-8的概率说明不是同一个体,正常的同一个体在合理排除错误率后的位点数个数为0。
本方法通过选取的70个SNP位点通过对个体之间不一致的位点个数统计来进行高可信度的个体鉴定,所提及的位点支持证据不局限于本方法中选取的位点。凡有易于扩增并利于进行鉴定的位点同样适用于本方法,均可作为支持证据加入到个体鉴定的过程。
本方法中所采用的利用第三代分子遗传标记联合多位点证据进行个体鉴定的方法,有效提高了个体鉴定的可信度,排除率至少提升了4个数量级。而通过使用高通量扩增、高通量测序,个体定点的SNP分型更是保证了大样本量的工作和效率的提高,能够极大降低成本。同时,所用平台的兼容性和扩展性能够保证位点灵活随意的增加,可以进一步提升个体鉴定的力度,能够最大程度的保证结果的准确性,同时能够最大程度的获取个体的遗传信息,以后可以用来进行家系溯祖的检测和家系图谱的建立以及基因疾病的诊断和筛查。因此本发明有益效果在于,在综合了第三代分子遗传标记优势基础之上得到了更加丰富、成本更低的基因信息,能够很好的应用于个体鉴定的工作中,减少因为大样本量而额外投入的劳动量,为以后的基因疾病诊断,种族区分等其他应用打下了坚实的基础。
发明人选取了第三代的DNA分子遗传标记SNP作为个体鉴定的遗传标记,具有扩增片段小,突变率低等优势,通过SNP位点的选取、引物的设计、目的DNA的提取、高通量PCR扩增、二代测序、SNP分型、个体鉴定等多个步骤,可获得较为准确的分型结果,实现个体鉴定。相比传统的STR个体鉴定,本发明的方法通量高,一次扩增多达5184个位点,每个样本只需70个SNP位点,单次扩增可以做74个样本,适合大规模的样本鉴定分析,成本低,每个样本的鉴定成本不足100元,用时短,单次鉴定两天内可以出报告结果,同时所用的遗传标记SNP的突变率比STR更低,鉴定结果的可信度更高。
系统
根据本发明的又一方面,本发明还提供了一种用于鉴定多个生物样本之间身份关系的系统。根据本发明的实施例,该系统包括:测序装置,所述测序装置用于对来自所述多个生物样本的基因组DNA的至少一部分进行测序,以便获得所述多个生物样本的核酸测序结果;基因型确定装置,所述基因型确定装置与所述测序装置相连,用于基于所述核酸测序结果,针对所述多个生物样本中的每一个,确定预定SNP位点集合中每一个SNP位点的基因型;以及身份关系确定装置,所述身份关系确定装置与所述基因型确定装置相连,用于基于所述SNP位点的基因型,确定所述多个生物样本之间的身份关系。
根据本发明的实施例,利用本发明的系统,能够获得准确的SNP分型结果,进而能够有效实现多个生物样本之间的身份关系鉴定。此外,发明人发现,本发明选取第三代DNA分子遗传标记SNP作为身份关系鉴定即亲子鉴定和个体鉴定的遗传标记,具有扩增片段小,突变率低等优势。并且,相比传统的STR亲子鉴定(或个体鉴定),利用本发明的系统进行身份关系鉴定,通量高、能够实现规模化生成,且成本低,例如用于亲子鉴定时每个三联体家系的鉴定成本不足200元,用时短,单次鉴定两天内可以出报告结果,同时所用的遗传标记SNP的突变率比STR更低,鉴定结果的可信度更高。
根据本发明的实施例,预定SNP位点集合中的每一个SNP位点至少满足下列条件之一:MAF>0.4的位点;无连锁不平衡;SNP位点之间符合Hardy–Weinberg平衡。由此,基于满足上述条件的SNP位点的基因型,能够准确有效地确定多个生物样本之间的身份关系。
根据本发明的实施例,所述基因组DNA的至少一部分包含所述预定SNP位点集合中的所有SNP位点。由此,测序后能够有效获得SNP位点信息,确定SNP位点的基因型。
根据本发明的实施例,进一步包括扩增装置,所述扩增装置中设置有引物,用于在进行所述测序之前,预先利用所述引物对所述生物样本的基因组DNA进行扩增,所述引物特异性识别所述SNP位点集合中的每一个SNP位点。由此,有利于SNP位点信息的获得,从而有利于SNP位点基因型的确定。
根据本发明的实施例,所述预定SNP位点集合包含如下SNP位点:rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039、rs4076086、rs1106201、rs3756050、rs11123823、rs2274212、rs3829868、rs2276967、rs9821880、rs1049500、rs3811474、rs2292564、rs2013162、rs1997660、rs14134、rs26821、rs7690296、rs5745448、rs1343469、rs1699798、rs1698647、rs2293195、rs3805392、rs227368、rs6909306、rs62431284、rs562381、rs10734685、rs929310、rs1355634、rs2356027、rs1657741、rs8076154、rs2235907、rs228104、rs5749426。
根据本发明的实施例,所述引物的核酸序列如SEQ ID NO:3-142所示。其中,具有如SEQ ID NO:3-142所示核酸序列的引物特异性识别上述的70个SNP位点,由此,利用这些引物分别对样品DNA进行扩增,能够有效获得包含预定SNP位点集合中的所有SNP位点的基因组DNA的至少一部分,进而,测序后能够有效获得SNP位点信息,确定SNP位点的基因型,用于身份关系鉴定。
根据本发明的实施例,所述基因型确定装置适于针对给定的SNP位点,通过下列步骤确定所述SNP位点的基因型:
(a)基于所述核酸测序结果,构建测序读段集合,所述测序读段集合中的每一个测序读段均对应所述给定SNP位点;
(b)按照测序读段中SNP位点的碱基类型,将所述测序读段集合划分为四个子集,其中,所述四个子集分别支持不同的碱基类型;
(c)按照测序读段数目自多至少的顺序,对所述四个子集进行排序,并且将排序第一位的子集命名为主要碱基支持子集,将排序第二位的子集命名为第二碱基支持子集,将排序第三位的子集命名为第三碱基支持子集;以及
(d)基于所述主要碱基支持子集、第二碱基支持子集和第三碱基支持子集中测序读段的数目确定所述给定的SNP位点的基因型。
由此,能够有效确定给定SNP位点的基因型,并且可信度高,能够有效用于身份关系鉴定。
根据本发明的实施例,针对给定的SNP位点,步骤(d)进一步包括:
(d-1)确定主要碱基支持子集中测序读段的数目A、第二碱基支持子集中测序读段的数目B以及第三碱基支持子集中测序读段的数目C,所述测序读段集合中测序读段的数目M;
(d-2)当A<50时,放弃所述给定的SNP位点;
(d-3)当A≥50时,按照下列标准进行基因型判定:当(A+B)/M≥4/5,B/C>20,且A/B≤15时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M≥4/5,B/C>20,且A/B>15时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;当(A+B)/M≥4/5,B/C≤20,且A/B>10时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;当(A+B)/M≥4/5,B/C≤20,且A/B≤10时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M<4/5,且A/B≤2时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;当(A+B)/M<4/5,且A/B>2时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型。由此,确定的给定SNP位点的基因型结果可靠,能够有效用于身份关系鉴定。
根据本发明的实施例,所述测序装置为二代测序平台,优选Hiseq、Miseq、Proton、和PGM测序平台的至少之一。由此,能够实现同时对大量样本进行检测,通量高、成本低、结果准确、可重复性高。
根据本发明的实施例,所述生物样本为选自毛发、口腔细胞、血液、尿液、羊水、指甲和唾液的至少之一。
根据本发明的实施例,所述多个生物样本为至少3个生物样本,并且其中两个生物样本已知为三联体家系中的两个,所述身份关系确定装置适于通过下列步骤确定剩余样本中是否存在所述三联体家系中的第三个:针对所述多个生物样本中剩余样本的每一个样本,确定所述每一个样本的基因型与所述两个样本的基因型均不对应的SNP位点数n,其中,1-n*10-8表示样本不是所述三联体家系中的第三个的可行度,n等于0表示样本为所述三联体家系中的第三个。由此,利用本发明的系统能够有效确定样本是否确定三联体家系中的第三个,即有效实现三联体家系成员的亲子鉴定,确定多个生物样本之间的身份关系。
根据本发明的实施例,所述多个生物样本为至少两个,并且所述身份关系确定装置适于通过下列步骤确定所述多个样本是否来自同一个体:确定所述多个样本之间基因型不一致的SNP位点数目p,p等于0是所述多个生物样本来自同一个体的指示。由此,利用本发明的系统能够有效确定多个生物样本是否来自同一个体,即有效实现个人识别、鉴定,确定多个生物样本之间的身份关系。
前面对本发明的用于鉴定多个生物样本之间身份关系的方法的描述,同样适用于本系统,在此不再赘述。
根据本发明的另一方面,本发明还提供了如下所示的一组SNP位点,在鉴定多个生物样本之间身份关系中的用途:rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039、rs4076086、rs1106201、rs3756050、rs11123823、rs2274212、rs3829868、rs2276967、rs9821880、rs1049500、rs3811474、rs2292564、rs2013162、rs1997660、rs14134、rs26821、rs7690296、rs5745448、rs1343469、rs1699798、rs1698647、rs2293195、rs3805392、rs227368、rs6909306、rs62431284、rs562381、rs10734685、rs929310、rs1355634、rs2356027、rs1657741、rs8076154、rs2235907、rs228104、rs5749426。发明人惊奇地发现,针对多个生物样本,通过确定上述预定SNP位点集合的基因型,能够有效确定多个生物样本之间的身份关系,并且通量高,能够用于大规模的样本鉴定分析,成本低,例如用于亲子鉴定时每个三联体家系的鉴定成本不足200元,用时短,单次鉴定两天内可以出报告结果,鉴定结果的可信度更高。
综上,本发明利用二代测序平台,采用高通量位点扩增和快速建库的方法,通过大规模测序的方法和对测序数据的SNP位点的分型结果进行身份关系鉴定例如亲子鉴定和个体鉴定,灵活简便,可根据要求随意增加位点,同时通量高,成本低,能有效的进行亲子的鉴定,可信度相比STR鉴定方法更高。
需要说明的是,根据本发明实施例的用于鉴定多个生物样本之间身份关系的方法和系统是本申请的发明人经过艰苦的创造性劳动和优化工作才完成的。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著,黄培堂等译的《分子克隆实验指南》,第三版,科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品,例如可以采购自Illumina公司。
实施例1:
本实施例以两组三联体家系为例,其中一个家系为唇腭裂遗传病家系(父亲、母亲、孩子),另一个家系为正常家系(父亲、母亲、孩子)。
具体方案如下:
1.实验方法
1)引物
本方法实验所用的高通量快速建库实验所用的外引物序列(接头序列)分别为:
外引物正向:AATGATACGGCGACCACCGAGATCTACACTGACGACATGGTTCTACA(SEQ IDNO.1);
外引物反向:TCTGGTTCAGAGACGATGGCAT(SEQ ID NO.2)-[Barcode]-TAGAGCATACGGCAGAAGACGAAC(SEQ ID NO.143)。
本方法实验所用的70个SNP位点的扩增引物(内引物)序列如前述的表1所示。
2)建库的实验步骤:
(1)高通量PCR扩增目的片段
本实施例以26个样品为例,其中20个样本作为随机样本,6个为2个家系的样本(其中一个家系为唇腭裂遗传病家系的父亲、母亲、孩子,另一个家系为正常家系的父亲、母亲、孩子)。
样本编号 样本关系 样本编号 样本关系
P100 随机样本 P124 随机样本
P101 随机样本 P127 随机样本
P102 随机样本 P133 随机样本
P103 随机样本 P134 随机样本
P104 随机样本 P137 家系1父亲
P105 随机样本 P138 家系1母亲
P106 随机样本 P139 家系1孩子
P107 随机样本 P142 随机样本
P108 随机样本 P145 家系2孩子
P109 随机样本 P146 随机样本
P111 随机样本 P155 家系2父亲
P118 随机样本 P156 家系2母亲
P120 随机样本 P122 随机样本
每个样品检测70个SNP位点总共只需要30ng的基因组DNA。应用含有barcode的外引物和本发明设计的内引物进行一轮PCR反应,扩增出目的片段,同时将每个样品加上barcode和测序接头,使PCR产物不必再进行测序文库的构建过程,直接进行二代高通量测序。本发明应用的高通量PCR扩增芯片大大节省了测序文库构建的时间和成本。应用高通量PCR芯片配套的试剂及外引物进行目的片段扩增及建库,具体的操作步骤如下:
a.配制PCR Mix:
根据高通量芯片固定模式,按如下表体系配制PCR Mix,震荡混匀后,放在冰盒上备用:
Figure BDA0001240661030000191
b.准备样品板:
将26个待测样品浓度全部稀释至10ng/μL,每孔20μL分装至96孔PCR板中,再根据芯片固定模式,分别将PCR Mix,模板DNA、外引物反向加入到384孔板相应的70个孔位,Outer Reverse Primer连有barcode,注意按事先安排好的barcode编号严格对应样品,具体加入体积如下表所示:
试剂 V/孔
PCR Mix 9.3μL
10ng/μL DNA 3.11μL
外引物反向(4μM) 3.11μL
c.准备引物板:
将引物干粉稀释至100μM配制成母液,再将母液稀释至0.25μM,每孔100μL分装至96孔板中,再根据芯片固定的模式,分别将PCR Mix、内引物对加入到384孔板的相应26个孔位,具体加入体积如下表所示:
试剂 V/孔
PCR Mix 9.3μL
内引物对(0.25μM) 6.2μL
d.上机点样:
分别将样品板和芯片放入点样仪的相应位置,选择70×26的模式,50nL体积,开始点样。约30min点样结束后,取下芯片,将芯片用特定封口膜封好,离心。取下样品板,封口膜封口存入-20℃冰柜备用。再将引物板和离心好的芯片放入点样仪的相应位置,选择70×26的模式,50nL体积,开始点样。约30min点样结束后,取下芯片,封口膜封口,离心,准备上PCR扩增。取下引物板,封口膜封口存入-20℃冰柜备用。
e.PCR仪扩增
离心好的芯片,特定PCR仪运行程序如下表2所示:
表2
Figure BDA0001240661030000201
(2)产物纯化
将上述步骤得到的扩增产物应用板式离心机离心后收集到500ul的EP管中,取50ul加入1.5倍体积的磁珠进行产物纯化。
(3)质量检测
a.应用Agilent 2100Bioanalyzer和荧光定量PCR(QPCR)进行文库质量检测,片段范围200-300bp,符合扩增目的片段大小,具体检测结果如下:
Figure BDA0001240661030000202
Figure BDA0001240661030000211
b.上机检测
2.对实验以及测序部分的可重复性评估测和数据分型准确率的评估
在此次实施例中,为证明流程的可重复型,加入了一个无关样本(样本P100)的重复实验,70个位点基因分型后结果一致,但有一个位点深度太低未分型成功。位点以及测试的样本如表3。
表3同一样本在本次实验的重复性评估
SNP_ID 样本P100 样本P100重复 SNP_ID 样本P100 样本P100重复
rs11239930 AG AG rs4076086 CT CT
rs10801520 TT TT rs1106201 CT TC
rs3899750 TT TT rs3756050 TC CT
rs11714239 TG TG rs11123823
rs1397228 GG GG rs2274212 TC TC
rs472728 GA AG rs3829868 CC CC
rs7429010 AA AA rs2276967 CC CC
rs4478233 TG TG rs9821880 CT CT
rs2172651 GG GG rs1049500 GG GG
rs325238 CT TC rs3811474 GG GG
rs7715674 TC CT rs2292564 GA AG
rs1337823 AA AA rs2013162 AA AA
rs574202 GG GG rs1997660 GA AG
rs7741536 GG GG rs14134 CT TC
rs4719491 GG GG rs26821 AA AA
rs13438255 GA AG rs7690296 GA AG
rs7834428 TT TT rs5745448 CT TC
rs6994603 GA GA rs1343469 GA AG
rs10124916 TG TG rs1699798 TG TG
rs4606122 CC CC rs1698647 TC TC
rs7035090 CT TC rs2293195 GG GG
rs2038597 CC CC rs3805392 GA AG
rs1484443 CT CT rs227368 CT CT
rs518357 TT TT rs6909306 AC AC
rs895648 CT TC rs62431284 TG TG
rs1939904 GG GG rs562381 AG GA
rs991718 CC CC rs10734685 GT GT
rs7306163 GG GG rs929310 CT TC
rs10860402 CT CT rs1355634 AG AG
rs11146962 GG GG rs2356027 TC CT
rs1147437 AA AA rs1657741 GG GG
rs4789817 AA AA rs8076154 TC CT
rs8083190 GT GT rs2235907 AG AG
rs2829066 TT TT rs228104 AA AA
rs2076039 CT TC rs5749426 CC CC
在本发明中,SNP位点来自炎黄项目的90个炎黄数据以及银屑病项目的1500个正常对照个体的数据。对于SNP的命名,NCBI里对所有提交的SNP进行分类考证之后,都会给出一个rs号,也可称作参考SNP,并给出SNP的具体信息,包括前后序列,位置信息,分布频率等,例如“rs11239930”是指编号为rs11239930的SNP位点。本领域技术人员可以在NCBI数据库中根据该编号确定该SNP位点的具体位置。
35个位点的准确性验证试验结果
本案例在数据分型准确率评估的时候为验证此次分型的准确率,在此次实验中我们同时测序了之前含有分型结果金标准对照的11个样本(即样本P100、P101、P102、P103、P104、P105、P106、P107、P108、P109和P111,包含表1中前35个位点的分型结果),将此次实验分析结果与金标准对照得到一致率的结果,现列出其中一个样本(样本P111)的分型结果与金标准结果在35个位点的对照结果如下表4所示:
表4:样本P111的分型结果与金标准的对照表
Figure BDA0001240661030000221
将此次实验分析结果与金标准对照得到一致率的结果,平均的准确率为98.2%,即错误率平均为1.8%,具体如表5所示(sanger测序验证的结果)。
表5:11个样本的35个位点分型准确率统计
样本编号 比较的位点数 一致的个数 一致率
P100 35 35 1
P101 35 35 1
P102 35 35 1
P103 35 35 1
P104 35 34 0.9714
P105 35 34 0.9714
P106 35 33 0.9428
P107 35 35 1
P108 35 34 0.9714
P109 35 33 0.9428
P111 35 35 1
3结果验证
选取在70个SNP位点上有分型结果的20个无关个体。分别将待测家系的父母子三者中的其中一个混在另外20个无关个体中(并将另一家系的三个成员也作为无关个体混入其中,从而共23个无关个体),用此方法进行鉴定和排除,设置错误率为6%的阈值(错误率评估实验3%,保守性增加到6%),统计各自除错误以外产生的子代与父母不符合孟德尔遗传规律的位点个数。其中,S:样本类型;S_ID:样本编号;T:70个位点中除去低位点之后的总位点数;N:不符合孟德尔遗传规律的位点数;WN:排除6%错误率之后不符合孟德尔遗传规律的位点数,家系1和家系2的统计结果分别如表6和表7所示:
表6-1家系1中父亲样本混入23个其他无关个体中的检出结果
S S_ID T N WN S S_ID T N WN
父亲 P137 66 3 0 随机 P133 68 13 8.92
随机 P120 67 7 2.98 随机 P100 68 14 9.92
随机 P124 68 9 4.92 随机 P156 68 14 9.92
随机 P103 68 10 5.92 随机 P145 67 14 9.98
随机 P122 67 10 5.98 随机 P127 67 15 10.98
随机 P134 67 10 5.98 随机 P101 66 15 11.04
随机 P105 63 10 6.22 随机 P118 66 15 11.04
随机 P102 68 11 6.92 随机 P142 66 15 11.04
随机 P109 68 11 6.92 随机 P108 68 16 11.92
随机 P155 68 11 6.92 随机 P106 66 16 12.04
随机 P107 67 11 6.98 随机 P104 68 18 13.92
随机 P146 67 12 7.98 随机 P111 68 19 14.92
表6-2家系1中母亲样本混入23个其他无关个体中的检出结果
S S_ID T N WN S S_ID T N WN
母亲 P138 66 3 0 随机 P155 68 11 6.92
随机 P124 68 5 0.92 随机 P107 67 11 6.98
随机 P102 68 7 2.92 随机 P103 68 12 7.92
随机 P134 67 8 3.98 随机 P108 68 12 7.92
随机 P120 67 9 4.98 随机 P156 68 12 7.92
随机 P122 67 9 4.98 随机 P127 67 12 7.98
随机 P146 67 9 4.98 随机 P104 68 14 9.92
随机 P106 66 9 5.04 随机 P118 66 14 10.04
随机 P101 66 10 6.04 随机 P145 66 14 10.04
随机 P100 68 11 6.92 随机 P105 63 14 10.22
随机 P109 68 11 6.92 随机 P142 65 16 12.1
随机 P133 68 11 6.92 随机 P111 68 17 12.92
表6-3家系1中孩子样本混入23个其他无关个体中的检出结果
S S_ID T N WN S S_ID T N WN
孩子 P139 66 3 0 随机 P133 66 18 14.04
随机 P134 65 11 7.1 随机 P124 66 19 15.04
随机 P109 66 13 9.04 随机 P122 65 19 15.1
随机 P127 65 15 11.1 随机 P155 66 20 16.04
随机 P102 66 16 12.04 随机 P107 65 20 16.1
随机 P146 65 16 12.1 随机 P101 64 20 16.16
随机 P103 66 17 13.04 随机 P118 64 20 16.16
随机 P111 66 17 13.04 随机 P145 65 21 17.1
随机 P120 65 17 13.1 随机 P104 66 22 18.04
随机 P106 64 17 13.16 随机 P142 64 22 18.16
随机 P105 62 17 13.28 随机 P108 66 23 19.04
随机 P100 66 18 14.04 随机 P156 66 25 21.04
家系2也做了相同的验证,通过对两个家系进一步的分析表明,此方法能够准确鉴定出混入随机个体中的双亲以及孩子,在高度容错的条件下(设置6%的错误率,实际在2%左右)非父排除概率最低在9.99999999,用本发法鉴定出亲子关系经过传统STR亲子鉴定和ABO血型检测可以确认为亲子关系如表7。说明本方法在所用的两个家系的实验中能够得到了可靠的结果。
表7两家系的ABO血型结果
家系1父亲 AO 家系2父亲 AA
家系1母亲 OO 家系2母亲 AO
家系1孩子 AO 家系2孩子 AA
在本发明的两组平行实验中,其中一个实验家系1的样本做过传统的STR的亲子鉴定,经鉴定验证为是同一家系。其中,传统STR的亲子鉴定结果在如下表8中显示:
表8
STR 父亲 母亲 孩子 STR 父亲 母亲 孩子
D8S1179 12,14 11,13 11,12 D2S1338 18,23 19,22 19,23
D21S11 29,35.2 30,31 30,35.2 D19S433 14,15.2 14, 14,15.2
D7S820 11 8,11 11 VWA 16,17 17 16,17
CSF1PO 10,13 10,11 10,11 TPOX 8,11 10,11 11
D3S1358 16,17 15,18 15,16 D18S51 14,15 13,17 15,17
THO1 7,9 9 7,9 AMEL x,y x x,y
D13S317 8,9 8,12, 9,12 D5S818 10,11 11,12 10,12
D16S539 11 11,13 11 FGA 22,24 21,24 24
如上表8,表格中的数字为基因组在两个等位基因上核心序列的拷贝数,例如针对D8S1179位点,父亲为“12,14”即表示父亲的基因组在D8S1179位点两个等位基因上核心序列的拷贝数分别为12、14。根据孟德尔遗传定律,如果只有一个数字表示两个等位基因的拷贝数一致,在基因座的峰图上只显示一个峰所以只有一个值。此方法做家系验证的理论依据是孟德尔遗传定律,同一家系同孩子的两个等位基因分别遗传自父本和母本,即子代的拷贝数一个来自父本一个来自母本。表8的结果显示,家系1的父亲、母亲和孩子为同一家系。
本次实施例利用PGM平台测序,数据的平均深度958X。
上面用到的SNP分型方法以及参数意义:
采用前述的针对给定SNP位点进行基因分型的方法进行,所设参数如下表9所示:
表9
Figure BDA0001240661030000241
在本实例的SNP分型方法里,不同深度的数据量对应不同的分型参数,本实施例中的样本数据量为958X,所用的参数为上表所示,参数为经验总结,能够达到较高的准确率。其分型思路为提取出所测SNP位点的碱基信息(碱基类型及数目),如果该点的主要碱基支持数目低于50X则判定为低覆盖度不足以准确分型,当主要碱基支持数目高于50X则按照如下判定:如果主要碱基与第二碱基所占比大于所有碱基的4/5,则进行如下杂合型的判定[如果第二碱基数目与第三碱基数目的比值超过上表中的阈值,则对杂合型判定给予一个高的宽容度(主要碱基与第二碱基比值在15倍之内),反之给予一个中等宽容度(主要碱基与第二碱基比值在10倍之内)],如果主要碱基与第二碱基所占比不大于4/5,则对杂合型的判定给予一个低的宽容度(主要碱基与第二碱基比值在2倍之内)。
如上所述,多位点联合的高通量亲子方法,在鉴定的准确性方面相对于传统亲子鉴定方法有着有效的提高。尤其在加入更多的位点以及降低容错度后,在排除的可靠性方面有了进一步提升。
实施例2:
本实施例以两批测试结果为例,第一批测试25个样本如表10所示,其中9个样本(表10第一列前9个)有金标准对照分型结果的准确性;第二批测试25个样本,其中11个样本(表10第三列前11个)有金标准对照分型结果的准确性。两次测试中有11个样本是同一样本的两次测试(表10中标记“同一”的样本),用来鉴定同一性的检出效果,第二次测试中加入了家系的样本来测试亲缘关系较近样本的区分效果。
表10两次测试的样本信息表
Figure BDA0001240661030000251
具体方案如下:
1.实验方法
1)引物
本方法实验所用的高通量快速建库实验所用的外引物序列(接头序列)分别为:
外引物正向:AATGATACGGCGACCACCGAGATCTACACTGACGACATGGTTCTACA(SEQ IDNO.1);
外引物反向:TCTGGTTCAGAGACGATGGCAT(SEQ ID NO.2)-[Barcode]-TAGAGCATACGGCAGAAGACGAAC(SEQ ID NO.143)
本方法实验所用的70个SNP位点的扩增引物(内引物)序列如前述的表1所示。
2)建库的实验步骤:
(1)高通量PCR扩增目的片段
每个样品检测70个SNP位点总共只需要30ng的基因组DNA。应用含有barcode的外引物和本发明设计的内引物进行一轮PCR反应,扩增出目的片段,同时将每个样品加上barcode和测序接头,使PCR产物不必再进行测序文库的构建过程,直接进行二代高通量测序。本发明应用的高通量PCR扩增芯片每个样品可以检测70个SNP位点,一次最多可以进行74个样品的PCR反应,相当于一次最多可以构建74个样本的二代测序文库,大大节省了测序文库构建的时间和成本。应用高通量PCR芯片配套的试剂及外引物进行目的片段扩增及建库,具体的操作步骤如下:
a.配制PCR Mix:
根据高通量芯片70X74的模式,按如下表体系配制PCR Mix,震荡混匀后,放在冰盒上备用:
试剂 体积
2×Kappa2G Robust HotStart ReadyMix 1286μL
外引物正向(4μM) 232μL
无核酸酶PCR级水 26μL
总体积 1544μL
b.准备样品板:
将待测样品浓度全部稀释至10ng/μL,每孔20μL分装至96孔PCR板中,再根据芯片70×25的模式,分别将PCR Mix,模板DNA、外引物反向加入到384孔板相应的70个孔位,Outer Reverse Primer连有barcode,注意按事先安排好的barcode编号严格对应样品,具体加入体积如下表所示:
试剂 V/孔
PCR Mix 9.3μL
10ng/μL DNA 3.11μL
外引物反向(4μM) 3.11μL
c.准备引物板:
将引物干粉稀释至100μM配制成母液,再将母液稀释至0.25μM,每孔100μL分装至96孔板中,再根据芯片70×25的模式,分别将PCR Mix、内引物对加入到384孔板的相应25个孔位,具体加入体积如下表所示:
试剂 V/孔
PCR Mix 9.3μL
内引物对(0.25μM) 6.2μL
d.上机点样:
分别将样品板和芯片放入点样仪的相应位置,选择70×25的模式,50nL体积,开始点样。约30min点样结束后,取下芯片,将芯片用特定封口膜封好,离心。取下样品板,封口膜封口存入-20℃冰柜备用。再将引物板和离心好的芯片放入点样仪的相应位置,选择70×25的模式,50nL体积,开始点样。约30min点样结束后,取下芯片,封口膜封口,离心,准备上PCR扩增。取下引物板,封口膜封口存入-20℃冰柜备用。
e.PCR仪扩增
离心好的芯片,特定PCR仪运行如下程序:
Figure BDA0001240661030000261
Figure BDA0001240661030000271
(2)产物纯化
将上述步骤得到的扩增产物应用板式离心机离心后收集到500ul的EP管中,取50ul加入1.5倍体积的磁珠进行产物纯化。
(3)质量检测
a.应用Agilent 2100Bioanalyzer和荧光定量PCR(QPCR)进行文库质量检测,片段范围200-300bp,符合扩增目的片段大小,具体检测结果如下:
Figure BDA0001240661030000272
b.上机检测
2.对实验以及测序部分的可重复性评估测和数据分型准确率的评估
在此次实施例中,为证明流程的可重复型,加入了一个无关样本(样本12)的重复实验,70个位点基因分型后结果一致,但有一个位点深度太低未分型成功。位点以及测试的样本如下表:
同一样本在本次实验的重复性评估
Figure BDA0001240661030000273
Figure BDA0001240661030000281
在本发明中,SNP位点来自炎黄项目的90个炎黄数据以及银屑病项目的1500个正常对照个体的数据。对于SNP的命名,NCBI里对所有提交的SNP进行分类考证之后,都会给出一个rs号,也可称作参考SNP,并给出SNP的具体信息,包括前后序列,位置信息,分布频率等,例如“rs11239930”是指编号为rs11239930的SNP位点。本领域技术人员可以在NCBI数据库中根据该编号确定该SNP位点的具体位置。
关于SNP分型准确率的评估现以第二批测试的实验结果展示本部分的内容,第一批测试的方法和步骤与此类似。本案例在数据分型准确率评估的时候为验证此次分型的准确率,在此次实验中发明人同时测序了表10所示含有分型结果金标准对照的11个样本(表1中前35个位点),表1中显示的前35个SNP位点:
rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039。
将此次实验分析结果与金标准对照得到一致率的结果,现列出其中一个样本(样本11)的分型结果与金标准结果在35个位点的对照结果如下表所示,此样本分型结果与金标准的一致率为100%,即准确率为1。
样本11的分型结果与金标准的对照表
Figure BDA0001240661030000291
将此次实验分析结果与金标准对照得到一致率的结果,平均的准确率为98.2%,即错误率平均为1.8%,具体如下表所示(sanger测序验证的结果)。第一批测试的平均准确率为93%,即平均错误率平均为7%。
11个样本的35个位点分型准确率统计
Figure BDA0001240661030000292
3结果验证(即第二批测试)
选取在70个SNP位点上有分型结果的25个无关个体。分别与第一批中的25个无关个体中进行SNP基因型的比对,统计不一致的位点数,用此方法进行鉴定和排除,设置错误率为0.2的阈值(错误率评估实验3%-7%,为避免假阳性的产生保守性增加到20%),统计各自除错误率以外产生的不一致的位点个数。以第二批测试的样本11(同一关系)和样本1330(非同一关系)为例展示这部分的结果。其中,表12、13、15、16中相应表达方式的含义如下:S_ID:样本编号;NO:不一致的总位点数;Total:70个位点中除去低深度无法分型后的总位点数;Rate:设置的错误率;WN:排除0.2错误率之后不一致的位点数;AA2AB:不一致的位点中是纯合判为杂合的位点数;AB2AA:不一致的位点中是杂合判为纯合的位点数;Others:不一致的位点中是其他错判的情况,若WN为0则判定为同一个体,反之不为同一个体。具体情况如下列表所示:
表11第二批测试中的样本11与第一批中的所有样本进行一致性比对后的鉴定结果
Figure BDA0001240661030000293
Figure BDA0001240661030000301
通过上面可以明显看出,此方法能够准确明显鉴定出同一个体,在高度容错的条件下(设置0.2的错误率,实际在3%-7%左右)也能明显区分出同一个体,并能有效降低假阳性的结果的产生。在第二批的所有样本中与第一批样本比对检出第一批样本的检出率为100%,且无假阳性结果,说明本方法在所用的实施例中能够得到了可靠的结果看,具体结果如表12所示(+表示检出结果为阳性,-表示检出结果为阴性)。
表12第二批样本在第一批样本中的检出结果
样本编号 样本说明 检出结果 样本编号 样本说明 检出结果
11 有金标准(同一) + C 无金标准(同一) +
12 有金标准(同一) + 1424 无金标准(非同) -
13 有金标准(同一) + 家系A姐姐 无金标准(非同) -
14 有金标准(同一) + 家系A妹妹 无金标准(非同) -
15 有金标准(同一) + 家系B父亲 无金标准(非同) -
16 有金标准(同一) + 家系B母亲 无金标准(非同) -
17 有金标准(非同) - 家系B弟弟 无金标准(非同) -
18 有金标准(同一) + 家系B哥哥 无金标准(非同) -
19 有金标准(同一) + 家系C母亲 无金标准(非同) -
20 有金标准(非同) - 家系C女儿 无金标准(非同) -
21 有金标准(非同) - 家系D父亲 无金标准(非同) -
26 无金标准(同一) + 家系D母亲 无金标准(非同) -
65 无金标准(同一) + 家系D孩子 无金标准(非同) -
为验证本方法在亲缘关系较近的个体之间的鉴定力度,利用第二次测试的A、B、C、D、E五组家系个体进行鉴定测试,错误阈值依旧设为0.2,鉴定结果可以看出WN值最小的一个为9.8,其他的全部在10以上,说明本方法即使在鉴定亲缘关系较近的家系时也能给出明显的区分度。具体结果如表13所示,其中家系A姐姐与妹妹的具体分型的鉴定结果如表14所示。
表13家系个体的鉴定结果
家系 Total Rate No WN 家系 Total Rate No WN
家系A姐姐 家系B母亲
家系A妹妹 家系B哥哥
一致性 67 0.2 25 11.6 一致性 56 0.2 27 15.8
家系B父亲 家系C母亲
家系B弟弟 家系C女儿
一致性 67 0.2 26 12.6 一致性 66 0.2 23 9.8
家系B父亲 家系D父亲
家系B哥哥 家系D孩子
一致性 54 0.2 30 19.2 一致性 67 0.2 31 17.6
家系B母亲 家系D母亲
家系B弟弟 家系D孩子
一致性 67 0.2 32 18.6 一致性 67 0.2 32 18.6
表14家系A姐姐与妹妹的具体结果展示
Figure BDA0001240661030000311
Figure BDA0001240661030000321
注:N:位点不一致;Y:位点一致;Low:测序深度太低不足以分型。
本次实施例利用PGM平台测序,数据的平均深度958X。
采用前述的针对给定SNP位点进行基因分型的方法进行,所设参数如下所示:
Figure BDA0001240661030000322
Figure BDA0001240661030000331
在本实例的SNP分型方法里,不同深度的数据量对应不同的分型参数,本实施例中的样本数据量为958X,所用的参数为上表所示,参数为经验总结,能够达到较高的准确率。其分型思路为提取出所测SNP位点的碱基信息(碱基类型及数目),如果该点的主要碱基支持数目低于50X则判定为低覆盖度不足以准确分型,当主要碱基支持数目高于50X则按照如下判定:如果主要碱基与第二碱基所占比大于所有碱基的4/5,则进行如下杂合型的判定[如果第二碱基数目与第三碱基数目的比值超过上表中的阈值,则对杂合型判定给予一个高的宽容度(主要碱基与第二碱基比值在15倍之内),反之给予一个中等宽容度(主要碱基与第二碱基比值在10倍之内)],如果主要碱基与第二碱基所占比不大于4/5,则对杂合型的判定给予一个低的宽容度(主要碱基与第二碱基比值在2倍之内)。
如上所述,多位点联合的个体鉴定方法,在鉴定的准确性方面相对于传统亲子鉴定方法有着有效的提高。尤其在加入更多的位点以及降低容错度后,在排除的可靠性方面有了进一步提升。本实施例仅是用以解释本方法的一种常规实施方案,并不用于限定本发明。凡在本发明的原则和精神至内所做的替换、修改和改进等均包含在本发明的权利要求范围之内。
工业实用性
本发明的用于鉴定多个生物样本之间身份关系的方法和系统,能够有效地应用于身份关系鉴定例如亲子鉴定和个体鉴定,并且通量高,成本低,鉴定结果可信度比STR鉴定方法更高。
尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
SEQUENCE LISTING
<110> 深圳华大基因科技有限公司
<120>用于鉴定多个生物样本之间身份关系的方法和系统
<130> PIOC147543PCN
<150> PCT/CN2014/087988
<151> 2014-09-30
<160> 143
<170>PatentIn version 3.5
<210> 1
<211> 47
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 1
AATGATACGG CGACCACCGA GATCTACACT GACGACATGG TTCTACA 47
<210> 2
<211> 22
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 2
TCTGGTTCAG AGACGATGGC AT 22
<210> 3
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 3
ACACTGACGA CATGGTTCTA CAAAATGAGG AAGGGGGATT ATAGC 45
<210> 4
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 4
TACGGTAGCA GAGACTTGGT CTTTCCATCA CTGGAGCCCT ATAC 44
<210> 5
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 5
ACACTGACGA CATGGTTCTA CACATTCTGT CCAGAGTTGG TTCTC 45
<210> 6
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 6
TACGGTAGCA GAGACTTGGT CTTCATTTAT TCCAGTTCAG GGTCA 45
<210> 7
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 7
ACACTGACGA CATGGTTCTA CATTTGTTTC AGTTTCCTTT CAGTT 45
<210> 8
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 8
TACGGTAGCA GAGACTTGGT CTAGACGAGA GTTAGGCTTC TC 42
<210> 9
<211> 47
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 9
ACACTGACGA CATGGTTCTA CACTGACATG AAGTTAATTC TTTAACG 47
<210> 10
<211> 46
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 10
TACGGTAGCA GAGACTTGGT CTTCTCAGGT GATATTTCCC AGATTA 46
<210> 11
<211> 46
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 11
ACACTGACGA CATGGTTCTA CAAAAGATTT AGAGCCCTGA GAAGGT 46
<210> 12
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 12
TACGGTAGCA GAGACTTGGT CTAAACAACC ATCTTCCCCT AAAAA 45
<210> 13
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 13
ACACTGACGA CATGGTTCTA CAAGAGACCT GCCTTTCATC TA 42
<210> 14
<211> 41
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 14
TACGGTAGCA GAGACTTGGT CTTTGTAAGG TCTGGCTGAC A 41
<210> 15
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 15
ACACTGACGA CATGGTTCTA CAGCTTTACA CTTTAACTTC TACCC 45
<210> 16
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 16
TACGGTAGCA GAGACTTGGT CTAGGTTTCA ACATGAGTTT CTGAT 45
<210> 17
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 17
ACACTGACGA CATGGTTCTA CAGTGAGAAC TGCGTTTCTG TA 42
<210> 18
<211> 47
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 18
TACGGTAGCA GAGACTTGGT CTGAAACAGC AATATCTTTA TGTCACT 47
<210> 19
<211> 39
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 19
ACACTGACGA CATGGTTCTA CATGAGGTTC AAACGCGAG 39
<210> 20
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 20
TACGGTAGCA GAGACTTGGT CTAAAGGCAG TGTTCTCTAT GA 42
<210> 21
<211> 41
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 21
ACACTGACGA CATGGTTCTA CAACAACCTG ACCATGCCTA T 41
<210> 22
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 22
TACGGTAGCA GAGACTTGGT CTCCAAGAAA GTTTGTGCTA CTTT 44
<210> 23
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 23
ACACTGACGA CATGGTTCTA CATGTGAGGT GCTACTGTCT CTTTG 45
<210> 24
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 24
TACGGTAGCA GAGACTTGGT CTTCTCTGGG TTCTGATAGC CACT 44
<210> 25
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 25
ACACTGACGA CATGGTTCTA CACCTACCTT CCTCCATTTG TC 42
<210> 26
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 26
TACGGTAGCA GAGACTTGGT CTAAGGTCCC ATTAGCATTT CAA 43
<210> 27
<211> 40
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 27
ACACTGACGA CATGGTTCTA CACACCTCCA ACACCGGATA 40
<210> 28
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 28
TACGGTAGCA GAGACTTGGT CTAAGGGCAA GAAACATTAG ATGT 44
<210> 29
<211> 46
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 29
ACACTGACGA CATGGTTCTA CACATGTTGA ACTTCCTATT GGTGAA 46
<210> 30
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 30
TACGGTAGCA GAGACTTGGT CTATGTTGAC TGTCACCCTC AGTTT 45
<210> 31
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 31
ACACTGACGA CATGGTTCTA CAGAGTGTTG AGTGGTAAAG TCT 43
<210> 32
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 32
TACGGTAGCA GAGACTTGGT CTCCACCCTG TTAATCATTC CT 42
<210> 33
<211> 40
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 33
ACACTGACGA CATGGTTCTA CAAGGAAACG ATCTTGGCAC 40
<210> 34
<211> 47
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 34
TACGGTAGCA GAGACTTGGT CTCACAGAGG TGACATTAAA TCAATAG 47
<210> 35
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 35
ACACTGACGA CATGGTTCTA CATCTCTTCA GTAAATGGTG CTAAG 45
<210> 36
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 36
TACGGTAGCA GAGACTTGGT CTCAGGCCTT AAACTTAGGT GTT 43
<210> 37
<211> 40
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 37
ACACTGACGA CATGGTTCTA CATTGCTTGA ACCCACCACT 40
<210> 38
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 38
TACGGTAGCA GAGACTTGGT CTTCTGATGC TGAATACTTG TCA 43
<210> 39
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 39
ACACTGACGA CATGGTTCTA CACTCCGCCT AGATTTCAGA GGATA 45
<210> 40
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 40
TACGGTAGCA GAGACTTGGT CTTAGCAGAG ATTCTCCATG AGGAC 45
<210> 41
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 41
ACACTGACGA CATGGTTCTA CAAACAGCTG CCTTCTCACT GTATC 45
<210> 42
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 42
TACGGTAGCA GAGACTTGGT CTTGGTTGGC TTAATTTCCT CATAA 45
<210> 43
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 43
ACACTGACGA CATGGTTCTA CAGGTGGGAG ACGTTTGCAG TAA 43
<210> 44
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 44
TACGGTAGCA GAGACTTGGT CTCAGCTCTG GGATGGCACT CG 42
<210> 45
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 45
ACACTGACGA CATGGTTCTA CATCTGACAG TGCACACTCT TTCAT 45
<210> 46
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 46
TACGGTAGCA GAGACTTGGT CTAAACTACA TCTCCCGGTG AAAAC 45
<210> 47
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 47
ACACTGACGA CATGGTTCTA CAAATGACCC TCCAGTTTCC ATATC 45
<210> 48
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 48
TACGGTAGCA GAGACTTGGT CTTATCACTC TCCCTCATGC TGTTC 45
<210> 49
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 49
ACACTGACGA CATGGTTCTA CAAGAAGGAA GGAAATGGAG ACAGA 45
<210> 50
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 50
TACGGTAGCA GAGACTTGGT CTCCTGGATA TTTTCATGCA TCTTT 45
<210> 51
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 51
ACACTGACGA CATGGTTCTA CACTAAGCCC TCTTCTTCTG GA 42
<210> 52
<211> 41
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 52
TACGGTAGCA GAGACTTGGT CTTAAACTAG GTCAGGCCCT C 41
<210> 53
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 53
ACACTGACGA CATGGTTCTA CACGGCATAA TACTGCAACC TACAT 45
<210> 54
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 54
TACGGTAGCA GAGACTTGGT CTGCACTAGG TGCCTGTCAT TTATT 45
<210> 55
<211> 40
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 55
ACACTGACGA CATGGTTCTA CAGGTGAGTG ACTGCTTTCC 40
<210> 56
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 56
TACGGTAGCA GAGACTTGGT CTGTTAAAGT ATGCCCTACC CA 42
<210> 57
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 57
ACACTGACGA CATGGTTCTA CATCCATTAG GATACAGGAT GGG 43
<210> 58
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 58
TACGGTAGCA GAGACTTGGT CTCAGATCTC ATTTCAATGT CTGGA 45
<210> 59
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 59
ACACTGACGA CATGGTTCTA CAAACAAGCA GGCAATGTTT GTACT 45
<210> 60
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 60
TACGGTAGCA GAGACTTGGT CTCTATCCCT ATTTGATGGC TGGAC 45
<210> 61
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 61
ACACTGACGA CATGGTTCTA CAAGATTGAT GCTGGAGAGG TTCTT 45
<210> 62
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 62
TACGGTAGCA GAGACTTGGT CTCACAGACC GGAAGAGCTA GTTTA 45
<210> 63
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 63
ACACTGACGA CATGGTTCTA CAAGGTAGAA GCTATAGGAA CTCT 44
<210> 64
<211> 41
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 64
TACGGTAGCA GAGACTTGGT CTCATCTGGA CTAGGCTTGT G 41
<210> 65
<211> 41
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 65
ACACTGACGA CATGGTTCTA CAGGCATTGA ACACCTCGAT T 41
<210> 66
<211> 39
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 66
TACGGTAGCA GAGACTTGGT CTCTGGACCG CACTTAGGT 39
<210> 67
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 67
ACACTGACGA CATGGTTCTA CAAGGGTCCA TGTCTGAATG ATTTT 45
<210> 68
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 68
TACGGTAGCA GAGACTTGGT CTACTGGGTC TCTTCATTCC AAGTT 45
<210> 69
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 69
ACACTGACGA CATGGTTCTA CACCTTTACG CCTTCCTCAT TT 42
<210> 70
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 70
TACGGTAGCA GAGACTTGGT CTGGTTTGAC TTACAGCTGA ATCT 44
<210> 71
<211> 41
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 71
ACACTGACGA CATGGTTCTA CACAAAGTGC TCTGAGATGC T 41
<210> 72
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 72
TACGGTAGCA GAGACTTGGT CTGGCAAAGG AGAAAGAGTC TT 42
<210> 73
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 73
ACACTGACGA CATGGTTCTA CAATAATCTC CCCAAAGCCA TCG 43
<210> 74
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 74
TACGGTAGCA GAGACTTGGT CTGGCACCAG GCAGGCTCTT AT 42
<210> 75
<211> 41
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 75
ACACTGACGA CATGGTTCTA CAGAGGTGGG GCGAGTTCAT C 41
<210> 76
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 76
TACGGTAGCA GAGACTTGGT CTGCATCCTC AAACTCAATG GCA 43
<210> 77
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 77
ACACTGACGA CATGGTTCTA CAAAGTTGTC TCCGGAATTT GGC 43
<210> 78
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 78
TACGGTAGCA GAGACTTGGT CTTCCTTTTC TCAGCCTTCC CAC 43
<210> 79
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 79
ACACTGACGA CATGGTTCTA CACTGGGTGC TGTTGGAAGG AT 42
<210> 80
<211> 46
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 80
TACGGTAGCA GAGACTTGGT CTTGCTTGGA AATACCAATT CTTCAG 46
<210> 81
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 81
ACACTGACGA CATGGTTCTA CAGAAGATGA GGAGGAGGAG GGTT 44
<210> 82
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 82
TACGGTAGCA GAGACTTGGT CTTTGCTTCC TCCATTCCAG ACA 43
<210> 83
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 83
ACACTGACGA CATGGTTCTA CAGACATTGG AGTCGGGGAA GTC 43
<210> 84
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 84
TACGGTAGCA GAGACTTGGT CTTGCAGCCC AGTCAGAAGA GAA 43
<210> 85
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 85
ACACTGACGA CATGGTTCTA CACACACACC TGTGGACTCG ATG 43
<210> 86
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 86
TACGGTAGCA GAGACTTGGT CTGGAGGTCA AGGAGAGCCT GAA 43
<210> 87
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 87
ACACTGACGA CATGGTTCTA CAGCTGTCGC CCTGTAATTC TCA 43
<210> 88
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 88
TACGGTAGCA GAGACTTGGT CTGCTTAACC AGCTCGAAAA AGCA 44
<210> 89
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 89
ACACTGACGA CATGGTTCTA CAGTTTCATC CCACTCTCCC AGG 43
<210> 90
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 90
TACGGTAGCA GAGACTTGGT CTAGGCAACT CATGCAGCAA TTC 43
<210> 91
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 91
ACACTGACGA CATGGTTCTA CATGTGGGTC ATTGGGAAAA CAG 43
<210> 92
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 92
TACGGTAGCA GAGACTTGGT CTGGAAGTCA CTCTTGACCA GGGA 44
<210> 93
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 93
ACACTGACGA CATGGTTCTA CATGAGCCCT TTCCCTAGGA CTG 43
<210> 94
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 94
TACGGTAGCA GAGACTTGGT CTTGTCATCC TGCCTGTCAA CCT 43
<210> 95
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 95
ACACTGACGA CATGGTTCTA CAGAAGGTGT CCTGGATGGG AAC 43
<210> 96
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 96
TACGGTAGCA GAGACTTGGT CTGCTCCCTG GGATGAGAAG GAT 43
<210> 97
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 97
ACACTGACGA CATGGTTCTA CACGAAAAAT GTCCCCTTAT GAATG 45
<210> 98
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 98
TACGGTAGCA GAGACTTGGT CTCCCCATAC CAACGACACA AAA 43
<210> 99
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 99
ACACTGACGA CATGGTTCTA CAGGCTTACA ATGGCAACAC TGC 43
<210> 100
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 100
TACGGTAGCA GAGACTTGGT CTTACTTGGG TCTGCTCCCT TCC 43
<210> 101
<211> 46
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 101
ACACTGACGA CATGGTTCTA CAATTTTGGA TTCCTTATGC AGGTTG 46
<210> 102
<211> 46
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 102
TACGGTAGCA GAGACTTGGT CTCAGTAGGA TTCTGCTTCT GTTCCA 46
<210> 103
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 103
ACACTGACGA CATGGTTCTA CACACTGGAA GAATCTCAAA CAGCG 45
<210> 104
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 104
TACGGTAGCA GAGACTTGGT CTGTGTCCTG GTCACTTGGC TG 42
<210> 105
<211> 46
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 105
ACACTGACGA CATGGTTCTA CATGGTCACC AGGAATGATA TCACAA 46
<210> 106
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 106
TACGGTAGCA GAGACTTGGT CTTCATCTGG ATGAAAAATC CTCG 44
<210> 107
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 107
ACACTGACGA CATGGTTCTA CAATCACAAT CACAAGGAGG GCA 43
<210> 108
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 108
TACGGTAGCA GAGACTTGGT CTTGCCATTT TGGTTGCAGT CTT 43
<210> 109
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 109
ACACTGACGA CATGGTTCTA CAGCCCAGGC ACAGAATGAA ATTA 44
<210> 110
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 110
TACGGTAGCA GAGACTTGGT CTCAGCCTTG GATTAGGACT CTTCA 45
<210> 111
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 111
ACACTGACGA CATGGTTCTA CACTCGCCCT TCTCCTTGTC TTC 43
<210> 112
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 112
TACGGTAGCA GAGACTTGGT CTTTGAGAAT GCGGAGCTGA AAG 43
<210> 113
<211> 46
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 113
ACACTGACGA CATGGTTCTA CATGGTTAGT GAGAGGTCAG TGTTCC 46
<210> 114
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 114
TACGGTAGCA GAGACTTGGT CTCCAAATGC TTTCCAAACC TGG 43
<210> 115
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 115
ACACTGACGA CATGGTTCTA CATGTTAAAG GGCTGAAAAC CCA 43
<210> 116
<211> 46
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 116
TACGGTAGCA GAGACTTGGT CTAAAGCTCC TTGACAACAT CCTACA 46
<210> 117
<211> 46
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 117
ACACTGACGA CATGGTTCTA CATCTGTTGT GTTTGCAACT TAGGGA 46
<210> 118
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 118
TACGGTAGCA GAGACTTGGT CTTTGATGTT GTCAGCTCAA AGCC 44
<210> 119
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 119
ACACTGACGA CATGGTTCTA CAAGCAACTT CAAAGGGCGG TAG 43
<210> 120
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 120
TACGGTAGCA GAGACTTGGT CTATTGAGCC CTTACATGCT GCC 43
<210> 121
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 121
ACACTGACGA CATGGTTCTA CAGAAACAGC TGGAGTAATG TGCAG 45
<210> 122
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 122
TACGGTAGCA GAGACTTGGT CTACGGATGG GAACAGCTTG ACT 43
<210> 123
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 123
ACACTGACGA CATGGTTCTA CATGGTGAGT TTCTTCAGGT GGA 43
<210> 124
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 124
TACGGTAGCA GAGACTTGGT CTTGATAAGA GCGCTCACTT GGG 43
<210> 125
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 125
ACACTGACGA CATGGTTCTA CAATAGGCCC ACGTTTCCCT GTA 43
<210> 126
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 126
TACGGTAGCA GAGACTTGGT CTATGGGCCC TCATCTAGGG TTT 43
<210> 127
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 127
ACACTGACGA CATGGTTCTA CACATCATCT TCTGGGTCAT CGC 43
<210> 128
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 128
TACGGTAGCA GAGACTTGGT CTGCACCTGC ATCACACAGG GT 42
<210> 129
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 129
ACACTGACGA CATGGTTCTA CATTGATGTC AAGGGATAGG CCA 43
<210> 130
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 130
TACGGTAGCA GAGACTTGGT CTCCGTAGAT CCTTCTTCCT CTTGG 45
<210> 131
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 131
ACACTGACGA CATGGTTCTA CAAGGGTGGG GTTAGCTTTC CAT 43
<210> 132
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 132
TACGGTAGCA GAGACTTGGT CTGTCATGGC CATAGGCACA CTC 43
<210> 133
<211> 44
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 133
ACACTGACGA CATGGTTCTA CATGGCTTTG ACCTTGTGTC TTGA 44
<210> 134
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 134
TACGGTAGCA GAGACTTGGT CTCATACTCA CCGATGGTGG CCT 43
<210> 135
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 135
ACACTGACGA CATGGTTCTA CAAGGAAGGC CTCTTTTCTT CGC 43
<210> 136
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 136
TACGGTAGCA GAGACTTGGT CTCTGCGAGG AGTACGGAAG GAT 43
<210> 137
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 137
ACACTGACGA CATGGTTCTA CATCTTCAAC AATCCCATCC CCT 43
<210> 138
<211> 42
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 138
TACGGTAGCA GAGACTTGGT CTGGCAGAGG GCGCTTTAAC TT 42
<210> 139
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 139
ACACTGACGA CATGGTTCTA CAGCAGCAAA TGTGTTGACA CCC 43
<210> 140
<211> 43
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 140
TACGGTAGCA GAGACTTGGT CTAGGTAGGG CAACTTGGTC CAG 43
<210> 141
<211> 49
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 141
ACACTGACGA CATGGTTCTA CACCATATTG CTTAGTTGGC TTATATAAG 49
<210> 142
<211> 45
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 142
TACGGTAGCA GAGACTTGGT CTCCCAGAAT ATAGTCACTC AGAAA 45
<210> 143
<211> 24
<212> DNA
<213>人工序列
<220>
<223>引物
<400> 143
TAGAGCATAC GGCAGAAGAC GAAC 24

Claims (27)

1.一种用于鉴定多个生物样本之间身份关系的方法,其特征在于,包括:
(1)对来自所述多个生物样本的基因组DNA的至少一部分进行测序,以便获得所述多个生物样本的核酸测序结果;
(2)基于所述核酸测序结果,针对所述多个生物样本中的每一个,确定预定SNP位点集合中每一个SNP位点的基因型;
(3)基于所述SNP位点的基因型,确定所述多个生物样本之间的身份关系;
所述预定SNP位点集合包含如下SNP位点:
rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039。
2.根据权利要求1所述的方法,其特征在于,预定SNP位点集合中的每一个SNP位点至少满足下列条件之一:
MAF>0.4的位点;
无连锁不平衡;
SNP位点之间符合Hardy–Weinberg平衡。
3.根据权利要求1所述的方法,其特征在于,所述基因组DNA的至少一部分包含所述预定SNP位点集合中的所有SNP位点。
4.根据权利要求1所述的方法,其特征在于,在进行所述测序之前,预先利用引物对所述生物样本的基因组DNA进行扩增,所述引物特异性识别所述SNP位点集合中的每一个SNP位点。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述预定SNP位点集合包含如下SNP位点:
rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039、rs4076086、rs1106201、rs3756050、rs11123823、rs2274212、rs3829868、rs2276967、rs9821880、rs1049500、rs3811474、rs2292564、rs2013162、rs1997660、rs14134、rs26821、rs7690296、rs5745448、rs1343469、rs1699798、rs1698647、rs2293195、rs3805392、rs227368、rs6909306、rs62431284、rs562381、rs10734685、rs929310、rs1355634、rs2356027、rs1657741、rs8076154、rs2235907、rs228104、rs5749426。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述引物的核酸序列如SEQ IDNO:3-142所示。
7.根据权利要求1所述的方法,其特征在于,针对给定的SNP位点,所述SNP位点的基因型是通过下列步骤确定的:
(a)基于所述核酸测序结果,构建测序读段集合,所述测序读段集合中的每一个测序读段均对应所述给定SNP位点;
(b)按照测序读段中SNP位点的碱基类型,将所述测序读段集合划分为四个子集,其中,所述四个子集分别支持不同的碱基类型;
(c)按照测序读段数目自多至少的顺序,对所述四个子集进行排序,并且将排序第一位的子集命名为主要碱基支持子集,将排序第二位的子集命名为第二碱基支持子集,将排序第三位的子集命名为第三碱基支持子集;以及
(d)基于所述主要碱基支持子集、第二碱基支持子集和第三碱基支持子集中测序读段的数目确定所述给定的SNP位点的基因型。
8.根据权利要求7所述的方法,其特征在于,针对给定的SNP位点,步骤(d)进一步包括:
(d-1)确定主要碱基支持子集中测序读段的数目A、第二碱基支持子集中测序读段的数目B以及第三碱基支持子集中测序读段的数目C,所述测序读段集合中测序读段的数目M;
(d-2)当A<50时,放弃所述给定的SNP位点;
(d-3)当A≥50时,按照下列标准进行基因型判定:
当(A+B)/M≥4/5,B/C>20,且A/B≤15时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;
当(A+B)/M≥4/5,B/C>20,且A/B>15时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;
当(A+B)/M≥4/5,B/C≤20,且A/B>10时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;
当(A+B)/M≥4/5,B/C≤20,且A/B≤10时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;
当(A+B)/M<4/5,且A/B≤2时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;
当(A+B)/M<4/5,且A/B>2时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型。
9.根据权利要求1所述的方法,其特征在于,利用二代测序平台进行所述测序。
10.根据权利要求1所述的方法,其特征在于,利用Hiseq、Miseq、Proton和PGM测序平台的至少之一进行所述测序。
11.根据权利要求1所述的方法,其特征在于,所述生物样本为选自毛发、口腔细胞、血液、尿液、羊水、指甲和唾液的至少之一。
12.根据权利要求1所述的方法,其特征在于,所述多个生物样本为至少3个生物样本,并且其中两个生物样本已知为三联体家系中的两个,所述方法进一步包括通过下列步骤确定剩余样本中是否存在所述三联体家系中的第三个:
针对所述多个生物样本中剩余样本的每一个样本,确定所述每一个样本的基因型与所述两个样本的基因型均不对应的SNP位点数n,
其中,1-n*10-8表示样本不是所述三联体家系中的第三个的可行度,
n等于0表示样本为所述三联体家系中的第三个。
13.根据权利要求1所述的方法,其特征在于,所述多个生物样本为至少两个,并且通过下列步骤确定所述多个样本是否来自同一个体:
确定所述多个样本之间基因型不一致的SNP位点数目p,
p等于0是所述多个生物样本来自同一个体的指示。
14.一种用于鉴定多个生物样本之间身份关系的系统,其特征在于,包括:
测序装置,所述测序装置用于对来自所述多个生物样本的基因组DNA的至少一部分进行测序,以便获得所述多个生物样本的核酸测序结果;
基因型确定装置,所述基因型确定装置与所述测序装置相连,用于基于所述核酸测序结果,针对所述多个生物样本中的每一个,确定预定SNP位点集合中每一个SNP位点的基因型;以及
身份关系确定装置,所述身份关系确定装置与所述基因型确定装置相连,用于基于所述SNP位点的基因型,确定所述多个生物样本之间的身份关系;
所述预定SNP位点集合包含如下SNP位点:
rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039。
15.根据权利要求14所述的系统,其特征在于,预定SNP位点集合中的每一个SNP位点至少满足下列条件之一:
MAF>0.4的位点;
无连锁不平衡;
SNP位点之间符合Hardy–Weinberg平衡。
16.根据权利要求14所述的系统,其特征在于,所述基因组DNA的至少一部分包含所述预定SNP位点集合中的所有SNP位点。
17.根据权利要求14所述的系统,其特征在于,进一步包括扩增装置,所述扩增装置中设置有引物,用于在进行所述测序之前,预先利用所述引物对所述生物样本的基因组DNA进行扩增,所述引物特异性识别所述SNP位点集合中的每一个SNP位点。
18.根据权利要求14-17任一项所述的系统,其特征在于,所述预定SNP位点集合包含如下SNP位点:
rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039、rs4076086、rs1106201、rs3756050、rs11123823、rs2274212、rs3829868、rs2276967、rs9821880、rs1049500、rs3811474、rs2292564、rs2013162、rs1997660、rs14134、rs26821、rs7690296、rs5745448、rs1343469、rs1699798、rs1698647、rs2293195、rs3805392、rs227368、rs6909306、rs62431284、rs562381、rs10734685、rs929310、rs1355634、rs2356027、rs1657741、rs8076154、rs2235907、rs228104、rs5749426。
19.根据权利要求14-17任一项所述的系统,其特征在于,所述引物的核酸序列如SEQID NO:3-142所示。
20.根据权利要求14所述的系统,其特征在于,所述基因型确定装置适于针对给定的SNP位点,通过下列步骤确定所述SNP位点的基因型:
(a)基于所述核酸测序结果,构建测序读段集合,所述测序读段集合中的每一个测序读段均对应所述给定SNP位点;
(b)按照测序读段中SNP位点的碱基类型,将所述测序读段集合划分为四个子集,其中,所述四个子集分别支持不同的碱基类型;
(c)按照测序读段数目自多至少的顺序,对所述四个子集进行排序,并且将排序第一位的子集命名为主要碱基支持子集,将排序第二位的子集命名为第二碱基支持子集,将排序第三位的子集命名为第三碱基支持子集;以及
(d)基于所述主要碱基支持子集、第二碱基支持子集和第三碱基支持子集中测序读段的数目确定所述给定的SNP位点的基因型。
21.根据权利要求20所述的系统,其特征在于,针对给定的SNP位点,步骤(d)进一步包括:
(d-1)确定主要碱基支持子集中测序读段的数目A、第二碱基支持子集中测序读段的数目B以及第三碱基支持子集中测序读段的数目C,所述测序读段集合中测序读段的数目M;
(d-2)当A<50时,放弃所述给定的SNP位点;
(d-3)当A≥50时,按照下列标准进行基因型判定:
当(A+B)/M≥4/5,B/C>20,且A/B≤15时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;
当(A+B)/M≥4/5,B/C>20,且A/B>15时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;
当(A+B)/M≥4/5,B/C≤20,且A/B>10时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型;
当(A+B)/M≥4/5,B/C≤20,且A/B≤10时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;
当(A+B)/M<4/5,且A/B≤2时,判定所述给定的SNP位点基因型为由主要碱基和第二碱基组成的杂合型;
当(A+B)/M<4/5,且A/B>2时,判定所述给定的SNP位点基因型为由主要碱基组成的纯合型。
22.根据权利要求14所述的系统,其特征在于,所述测序装置为二代测序平台。
23.根据权利要求14所述的系统,其特征在于,所述测序装置为Miseq、Proton和PGM测序平台的至少之一。
24.根据权利要求14所述的系统,其特征在于,所述生物样本为选自毛发、口腔细胞、血液、尿液、羊水、指甲和唾液的至少之一。
25.根据权利要求14所述的系统,其特征在于,所述多个生物样本为至少3个生物样本,并且其中两个生物样本已知为三联体家系中的两个,所述身份关系确定装置适于通过下列步骤确定剩余样本中是否存在所述三联体家系中的第三个:
针对所述多个生物样本中剩余样本的每一个样本,确定所述每一个样本的基因型与所述两个样本的基因型均不对应的SNP位点数n,
其中,1-n*10-8表示样本不是所述三联体家系中的第三个的可行度,
n等于0表示样本为所述三联体家系中的第三个。
26.根据权利要求14所述的系统,其特征在于,所述多个生物样本为至少两个,并且所述身份关系确定装置适于通过下列步骤确定所述多个样本是否来自同一个体:
确定所述多个样本之间基因型不一致的SNP位点数目p,
p等于0是所述多个生物样本来自同一个体的指示。
27.如下所示的一组SNP位点,在鉴定多个生物样本之间身份关系中的用途:
rs11239930、rs10801520、rs3899750、rs11714239、rs1397228、rs472728、rs7429010、rs4478233、rs2172651、rs325238、rs7715674、rs1337823、rs574202、rs7741536、rs4719491、rs13438255、rs7834428、rs6994603、rs10124916、rs4606122、rs7035090、rs2038597、rs1484443、rs518357、rs895648、rs1939904、rs991718、rs7306163、rs10860402、rs11146962、rs1147437、rs4789817、rs8083190、rs2829066、rs2076039、rs4076086、rs1106201、rs3756050、rs11123823、rs2274212、rs3829868、rs2276967、rs9821880、rs1049500、rs3811474、rs2292564、rs2013162、rs1997660、rs14134、rs26821、rs7690296、rs5745448、rs1343469、rs1699798、rs1698647、rs2293195、rs3805392、rs227368、rs6909306、rs62431284、rs562381、rs10734685、rs929310、rs1355634、rs2356027、rs1657741、rs8076154、rs2235907、rs228104、rs5749426。
CN201480081788.1A 2014-09-30 2014-12-31 用于鉴定多个生物样本之间身份关系的方法和系统 Active CN106715712B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2014/087988 2014-09-30
PCT/CN2014/087988 WO2016049878A1 (zh) 2014-09-30 2014-09-30 一种基于snp分型的亲子鉴定方法及应用
PCT/CN2014/095934 WO2016049993A1 (zh) 2014-09-30 2014-12-31 用于鉴定多个生物样本之间身份关系的方法和系统

Publications (2)

Publication Number Publication Date
CN106715712A CN106715712A (zh) 2017-05-24
CN106715712B true CN106715712B (zh) 2021-02-19

Family

ID=55629305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480081788.1A Active CN106715712B (zh) 2014-09-30 2014-12-31 用于鉴定多个生物样本之间身份关系的方法和系统

Country Status (2)

Country Link
CN (1) CN106715712B (zh)
WO (2) WO2016049878A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106399535A (zh) * 2016-10-19 2017-02-15 江苏苏博生物医学股份有限公司 一种高通量测序检测无创亲子鉴定的方法
CN106599612B (zh) * 2016-10-28 2020-04-28 上海阅尔基因技术有限公司 一种基于高通量测序数据的指纹识别方法
CN110462063B (zh) * 2017-05-23 2023-06-23 深圳华大生命科学研究院 一种基于测序数据的变异检测方法、装置和存储介质
WO2019047083A1 (zh) * 2017-09-06 2019-03-14 深圳华大生命科学研究院 确定snp位点集合的方法、装置及其应用
CA3075266A1 (en) * 2017-09-07 2019-03-14 Regeneron Pharmaceuticals, Inc. System and method for predicting relatedness in a human population
CN110211631B (zh) * 2018-02-07 2024-02-09 深圳先进技术研究院 一种全基因组关联分析方法、系统及电子设备
CN108647495B (zh) * 2018-05-21 2020-04-10 广州金域医学检验中心有限公司 身份关系鉴定方法、装置、设备及存储介质
CN108694304B (zh) * 2018-05-21 2020-03-24 广州金域医学检验中心有限公司 一种身份关系鉴定方法、装置、设备及存储介质
CN108998507B (zh) * 2018-07-24 2022-03-29 广州万德基因医学科技有限公司 一种应用于人群复杂亲缘关系鉴定的无创高通量检测方法
CN110846310B (zh) * 2018-08-21 2024-03-22 深圳华大法医科技有限公司 Snp位点集及胚胎核酸样本进行亲缘鉴定的方法和用途
CN110942806A (zh) * 2018-09-25 2020-03-31 深圳华大法医科技有限公司 一种血型基因分型方法和装置及存储介质
CN114496081A (zh) * 2020-10-27 2022-05-13 深圳华大基因股份有限公司 构建突变集合的方法及其应用
CN113470744B (zh) * 2021-06-04 2024-05-24 中国农业大学 基于snp位点数据的系谱推断方法、装置及电子设备
CN115125314A (zh) * 2022-06-01 2022-09-30 四川大学华西医院 一种异质性耐药细菌中碱基杂合的检测方法
CN117423382B (zh) * 2023-10-21 2024-05-10 云准医药科技(广州)有限公司 一种基于SNP多态性的单细胞barcode身份识别方法
CN118240948A (zh) * 2024-05-29 2024-06-25 中国科学院海洋研究所 基于靶向测序分型的凡纳滨对虾亲缘关系的鉴定方法和应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6328934B2 (ja) * 2010-12-22 2018-05-23 ナテラ, インコーポレイテッド 非侵襲性出生前親子鑑定法
CN102952855B (zh) * 2011-08-26 2015-05-20 深圳华大基因科技服务有限公司 遗传图谱构建方法和装置、单体型分析方法和装置
CN102978286A (zh) * 2012-12-08 2013-03-20 上海迪道科技有限公司 利用特定snp组合进行亲子鉴定的方法
CN103173557A (zh) * 2013-04-08 2013-06-26 上海邃志生物科技有限公司 一组用于人类亲子鉴定的多重pcr引物组合及检测方法

Also Published As

Publication number Publication date
WO2016049878A1 (zh) 2016-04-07
CN106715712A (zh) 2017-05-24
WO2016049993A1 (zh) 2016-04-07

Similar Documents

Publication Publication Date Title
CN106715712B (zh) 用于鉴定多个生物样本之间身份关系的方法和系统
US10612096B2 (en) Methods for determining fraction of fetal nucleic acids in maternal samples
CN105543339B (zh) 一种同时完成基因位点、染色体及连锁分析的方法
CN106591441B (zh) 基于全基因捕获测序的α和/或β-地中海贫血突变的检测探针、方法、芯片及应用
EP2513339B1 (en) Methods for determining fraction of fetal nucleic acid in maternal samples
US20190024149A1 (en) Systems and methods of genetic analysis
WO2018157861A1 (zh) 一种鉴定胚胎平衡易位断裂点和平衡易位携带状态的方法
CN110628891B (zh) 一种对胚胎进行基因异常筛查的方法
WO2014127749A1 (zh) 单细胞基因组测序在植入前遗传学诊断中的应用
CN113278611B (zh) 捕获测序探针及其用途
CN112410410A (zh) 一种基于mlpa-ngs技术的dmd和sma的拷贝数变异检测试剂盒及其用途
CN110129457B (zh) 一种遗传标记组合及其应用
CN106755371B (zh) 利用pcr-rflp检测绵羊pcnp基因单核苷酸多态性的方法及其应用
CN112592981B (zh) 用于dna档案建库的引物组、试剂盒和方法
US20180119210A1 (en) Fetal haplotype identification
CN116622836A (zh) 一种用于检测β-地中海贫血基因突变的引物探针组合及其应用
CN109022594B (zh) 一种与肉牛饲料转化效率有关的牛ahsg基因snp标志物
CN104726604A (zh) 一种腐败检材降解dna的检测方法及其应用
CN116083592A (zh) 一种与绵羊生长性状相关的分子标记及其应用
CN108486230B (zh) 用于无创检测mitf基因突变的试剂盒及其制备方法
CN113151508A (zh) 鉴别具有服从行为犬的生物标记物、试剂盒和方法
US20180179595A1 (en) Fetal haplotype identification
CN114507707B (zh) 一种富集目标区域再酶切构建单倍型的方法
Matar Almheiri Study of Insertion-Deletion Polymorphisms (INDELS) In the UAE Population
EP3371325B1 (en) Method and kit for identifying gene mutations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant