CN103146820B

CN103146820B - 一种推断未知来源个体汉、藏、维群体来源的方法和系统

Info

Publication number: CN103146820B
Application number: CN201310056616.6A
Authority: CN
Inventors: 李彩霞; 魏以梁; 胡兰; 季安全; 贾竟; 李万水
Original assignee: Institute of Forensic Science Ministry of Public Security PRC
Current assignee: Institute of Forensic Science Ministry of Public Security PRC
Priority date: 2013-02-22
Filing date: 2013-02-22
Publication date: 2014-07-02
Anticipated expiration: 2033-02-22
Also published as: CN103146820A

Abstract

本发明提供一种推断未知来源个体汉、藏、维群体来源的方法和系统。该方法包括：通过检测未知来源个体的DNA获得其94个汉、藏、维群体特异性位点的基因型；获得未知来源个体的各特异性位点分别在汉、藏、维群体中的基因型频率；将所述各特异性位点的基因型频率相乘得到94个特异性位点的分别在汉、藏、维群体中的匹配概率值；匹配概率值最高的群体为未知来源个体的来源群体。本发明的方案可以高准确率实现对于汉族、藏族、维群体来源推断。

Description

一种推断未知来源个体汉、藏、维群体来源的方法和系统

技术领域

本发明涉及一种推断未知来源个体来源的方法和系统，尤其涉及一种推断未知来源个体汉、藏、维群体来源的方法和系统。

背景技术

随着各方面对司法诉讼活动的科学性、客观性以及准确性要求的不断提高，物证鉴定领域不断发展，要求更为精确的分析手段来对案件中检材的个体来源进行确定，DNA分析由于其检验结果精确，成为物证鉴定领域的重要技术手段。

当前法医DNA分析通常是对现场生物物证，例如血液、毛发、烟蒂、精斑等，进行常染色体或Y染色体串联重复序列（STR）检测，或者进行线粒体测序和分析。将分型结果输入全国DNA数据库或者与重点嫌疑人的DNA检验结果进行比对，如果有比中结果，则案件通常会被认为已侦破。然而，由于中国人口众多，现有的DNA数据库只存储了占总人口极少比例的重点人群的DNA数据，当没有数据比中时，更多需要通过外围走访摸排工作，虽可利用Y-STR结果进行家系排查，但却耗费大量的人力、物力和财力，无异于“大海捞针”。同时伴随国家、区域间的人员流动加大，涉外、反恐、跨区域流动作案等复杂案件不断增多，案件侦查的难度日益加大。

我国法医DNA领域经过近三十年的发展，取得了包括国产化DNA试剂在内的大量的研究成果，相关技术已成为公安办案实践中的重要科技支撑。但是，目前DNA检验对公安业务的作用主要集中在提供证据方面，而在提供主动侦查线索方面的作用并没有得到充分发挥。对于既无目标嫌疑人，又无其它线索的案件，侦查往往陷入被动状态。事实上，人类基因组中蕴含着大量的遗传信息，如果能够从法医应用角度深入挖掘，就有可能获得人的种族地域、外形体貌等特征信息，而这些信息有可能成为扭转案件侦查方向、引导案件侦查的重要线索。

综合分析目前国内外的研究情况，国外在DNA种族推断方面的研究相对较多，并且开始尝试法医学应用，但是其研究成果更适用于西方人种，不适用于东亚尤其是我国人群的区分。国内虽然也有大量的针对少数民族的遗传结构研究，但缺乏针对法医学应用的研究。国内研究者以STR、Y-SNP、线粒体SNP等遗传标记对部分少数民族的DNA多态性和遗传结构等进行了研究。如：针对东亚人群以及维吾尔族人群的群体遗传结构的研究；针对藏族人群的血红蛋白浓度调节和对高海拔的适应机制等的相关研究。而目前均没有针对中国汉、藏、维吾尔族人群为对象的研究。

因此，如何开发一种系统或方法能够推断该个体的汉、藏、维吾尔族人群来源，为案件提供更多便于主动侦查的线索成为有待解决的问题。

发明内容

本发明提供了一种推断未知来源个体汉、藏、维群体来源的方法，通过确定未知来源个体94个汉、藏、维群体特异性位点的基因型，进一步对各基因型在汉、藏、维群体中的匹配概率值大小进行分析，实现对未知来源个体的汉、藏、维群体来源推断。

本发明还提供一种SNP复合检测体系，通过该体系可以实现对未知来源个体针对上述94个汉、藏、维群体特异性位点基因型的准确分型，为进一步推断未知来源个体汉、藏、维来源提供可靠数据。

本发明还提供了一种推断未知来源个体汉、藏、维群体来源的系统，通过该系统可以高准确率实现对未知来源个体的汉族、藏族、维群体来源推断。

本发明提供的一种推断未知来源个体汉、藏、维群体来源的方法，该方法包括：

检测未知来源个体的DNA获得其94个汉、藏、维群体特异性位点的基因型；

获得所述未知来源个体的各特异性位点分别在汉、藏、维群体中的基因型频率；

将所述各特异性位点的基因型频率相乘得到94个特异性位点的分别在汉、藏、维群体中的匹配概率值；

所述匹配概率值最高的群体为未知来源个体的来源群体，

所述94个汉、藏、维群体特异性位点为：rs11652805、rs37369、rs13419896、rs9522149、rs2024566、rs1871428、rs4891825、rs11725412、rs2899826、rs4984913、rs4908343、rs1471211、rs4717865、rs192655、rs4741658、rs6979076、rs12075、rs3785181、rs1994859、rs12913832、rs7238445、rs129014504、rs3915736、rs6010138、rs855791、rs5768007、rs9319336、rs2247445、rs2835370、rs2070586、rs647325、rs2532060、rs316598、rs4953388、rs6998293、rs6422347、rs7416743、rs4719711、rs1325502、rs1407434、rs385194、rs228918、rs842639、rs6520015、rs12682455、rs11064983、rs1800414、rs4463276、rs3943253、rs2001907、rs4458655、rs961154、rs731257、rs9530435、rs10491265、rs9383760、rs1491238、rs17582830、rs11676473、rs7803075、rs1471939、rs10839880、rs1040404、rs7554936、rs6451722、rs10514802、rs39883、rs7844723、rs7589621、rs10512572、rs2564118、rs7583392、rs7997709、rs2306040、rs1569175、rs12629908、rs3118378、rs7421394、rs10002268、rs1408801、rs1513181、rs798443、rs12657828、rs3907047、rs4454698、rs4142654、rs2033111、rs3805322、rs7745461、rs10204096、rs818386、rs6548616、rs10510228、rs9845457。

在本发明的方案中，所述94个汉、藏、维群体特异性位点是申请人通过对汉族、藏族和维族群体的生活环境、种族起源等进行综合分析，考察各地区民族人口的表型特征差异，包括外形特征，生理指标等，针对这些差异进行文献和网络数据库调研，在已有研究的基础上获得的特异性SNPs位点。

进一步的，所述未知来源个体的94个汉、藏、维群体特异性位点的基因型通过DNA测序获得。

进一步的，所述未知来源个体的94个汉、藏、维群体特异性位点的基因型通过SNP复合检测体系获得，所述体系包括94个SNP位点，还包括扩增引物组、微测序引物组以及通用芯片；

所述扩增引物组由与所述94个SNP位点一一对应的94对扩增引物组成，每对扩增引物能扩增待检测DNA上包括其相应的SNP位点的突变型或野生型碱基在内的核苷酸序列；

所述微测序引物组由与所述94个SNP位点一一对应的94条微测序引物组成，每条微测序引物的5’端连有标签序列能与所述通用芯片的标签序列互补，3’端包括与待检测DNA上其相应的SNP位点之前的核苷酸序列互补的序列。

进一步的，所述扩增引物组为序列表中SEQ ID No.1至SEQ ID No.188的核苷酸序列；所述微测序引物组为序列表中SEQ ID No.189至SEQ ID No.282的核苷酸序列。

进一步的，所述微测序引物5’端连有的标签序列分别为序列表中SEQ ID No.189至SEQ ID No.282的各条核苷酸序列的自5’末端的第1至20位的脱氧核苷酸。

进一步的，所述通用芯片为：微测序反应通用芯片、固相微测序反应芯片或连接酶反应通用芯片。

本发明进一步提供了一种SNP复合检测体系，所述体系包括94个SNP位点，扩增引物组、微测序引物组以及通用芯片；

所述微测序引物组由与所述94个SNP位点一一对应的94条微测序引物组成，每条微测序引物的5’端连有标签序列能与所述通用芯片的标签序列互补，3’端包括与待检测DNA上其相应的SNP位点之前的核苷酸序列互补的序列，所述94个汉、藏、维群体特异性位点为：rs11652805、rs37369、rs13419896、rs9522149、rs2024566、rs1871428、rs4891825、rs11725412、rs2899826、rs4984913、rs4908343、rs1471211、rs4717865、rs192655、rs4741658、rs6979076、rs12075、rs3785181、rs1994859、rs12913832、rs7238445、rs129014504、rs3915736、rs6010138、rs855791、rs5768007、rs9319336、rs2247445、rs2835370、rs2070586、rs647325、rs2532060、rs316598、rs4953388、rs6998293、rs6422347、rs7416743、rs4719711、rs1325502、rs1407434、rs385194、rs228918、rs842639、rs6520015、rs12682455、rs11064983、rs1800414、rs4463276、rs3943253、rs2001907、rs4458655、rs961154、rs731257、rs9530435、rs10491265、rs9383760、rs1491238、rs17582830、rs11676473、rs7803075、rs1471939、rs10839880、rs1040404、rs7554936、rs6451722、rs10514802、rs39883、rs7844723、rs7589621、rs10512572、rs2564118、rs7583392、rs7997709、rs2306040、 rs1569175、rs12629908、rs3118378、rs7421394、rs10002268、rs1408801、rs1513181、rs798443、rs12657828、rs3907047、rs4454698、rs4142654、rs2033111、rs3805322、rs7745461、rs10204096、rs818386、rs6548616、rs10510228、rs9845457。

本发明还提供了一种推断未知来源个体汉、藏、维群体来源的系统，所述系统包括所述的SNP复合检测体系、比较体系和推断体系，

所述SNP复合检测体系用于获得未知来源个体的所述各特异性位点的基因型；

所述比较体系用于获得所述未知来源个体的各特异性位点分别在汉、藏、维群体中的基因型频率，并将所述各特异性位点的基因型频率相乘获得的94个SNP位点在汉、藏、维群体中的匹配概率值进行比较；

所述推断体系用于根据比较结果推断未知来源个体汉、藏、维群体来源，匹配概率值最高的群体为未知来源个体的来源群体。

进一步的，本发明利用所述SNP复合检测体系进行94个汉、藏、维群体特异性位点的基因分型的方法，包括：1)提取待检测个体的DNA作为模板；2)使用所述扩增引物组对提取的DNA模板进行多重PCR扩增反应；3)将上述扩增得到的产物使用所述微测序引物组进行引物延伸反应，所述引物延伸反应中ddNTP为荧光标记的ddNTP；4)将引物延伸反应的产物和通用芯片进行杂交，根据芯片杂交结果确定94个汉、藏、维群体特异性位点的基因型。

经本发明试验证明，利用所筛选的94个SNP位点，可以实现对未知来源个体的汉、藏、维群体来源的推断(推断也可以称为判定或确定)。

在本发明的方案中，所述94个SNP位点信息如表1所示：

表1

本发明提供的优选的扩增引物组序列和延伸引物组序列，通过Autoprimer在线软件设计。所述94对扩增引物及其相对应的SNP位点如下表2所示，PCRU代表上游引物，PCRL代表下游引物；

表2

用于引物延伸反应的微测序引物序列如表3所示，SNPU代表微测序引物序列，所述微测序引物5’端连有的标签序列分别为序列表中SEQ ID No.189至SEQ ID No.282的各条核苷酸序列的自5’末端的第1至20位的脱氧核苷酸(即以下序列从左端起第1至20位的脱氧核苷酸)。

表3

发明人通过对314个汉、藏、维无关个体的DNA样品，其中：汉族104个（男性40个；女性64个），藏族105个（男性52个；女性53个），维族105个（男性60个；女性45个），进行SNP分型检测，例如选用SEQUENOMMassARRAY分子阵列技术进行SNP位点分型，并对获得的SNP位点分型结果进行统计，获得140了个SNP位点来源、频率信息与F_ST值，详见表8。本申请94个汉、藏、维群体特异性位点在汉、藏、维群体中的基因型频率可通过查找下表获得。

表4140个SNP位点来源、等位基因的频率信息与F_ST值

注：斜体字代表存在连锁关系的位点；F_ST值为HapMap数据库11个群体与汉、藏、维3个群体数据共同计算获得。

本发明方案具有以下优点：

1、使用本发明的方法进行中国汉、藏、维三族人群的推断，分类效果显著，通过实际案例样品验证，本发明方法可以高准确率实现对于汉族、藏族、维群体来源推断。

2、本发明的方案弥补了现有DNA种族推断技术的不足，实现生物检材汉、藏、维人种族来源的科学推断，使案件侦查必将由被动变为主动，加快锁定嫌疑人范围，显著降低侦查工作量，提高案件侦破速度，节约办案成本。

3、本发明的方法不仅可以对不同种族来源群体的进行推断，还可实现对单一祖先来源或地理来源个体在内的未知来源个体的汉、藏、维群体来源推断。

4、本发明提供的SNP复合检测体系优点是高通量，可以同时进行单一个体的样品或多个个体的样品的多个SNP位点的检测，数据分析自动化、简便，杂交芯片扫描之后，可直接以excel表的形式给出最终的SNP分型结果。

附图说明

图1是48-plex和46-plex两组SNPs复合检测体系的芯片点阵分布图。

图2A是192个无关个体的192份DNA样品的杂交芯片的双色荧光CCD扫描图像，一份DNA样品分为两组分别进行48-plex体系和46-plex体系检测，第1-8排是48-plex体系的检测孔，第8-16排是46-plex体系的检测孔；

图2B是图2A中单个杂交孔在SNPware杂交板上的排布方式示意图，4个质控点分别为：2个等位基因的纯合子XX和YY，1个杂合子XY,和1个阴性对照NEG；

图2C为图2A经SNPadmin和Get Genos软件分析扫描图像后，位点rs2247445的QCreview结果，其中，横坐标代表蓝荧光信号强度（B）与蓝、绿荧光信号强度之和(B+G)的比值，纵坐标代表蓝、绿荧光信号强度之和(B+G)的Log值，所检测的192个无关个体可分为3个群，左侧绿色群为基因型GG纯合子，右侧的蓝色群为AA纯合子，中间的橙色群为AG杂合子。

具体实施方式

实施例1中使用192个无关个体DNA样品进行检验，其中：汉族92个个体（男性40个；女性52个），藏族50个（男性23个；女性27个），维族50个（男性20个；女性30个），

实施例2中使用的是192个个体中随机筛选的3个已知汉、藏、维群体的DNA样品

实施例3中使用的135个来自汉族、藏族和维族的个体的试验样品(每个个体一份)具体来源为：

类型

来源

数量（份）

编号

汉族DNA样品	本实验室检案	12	1-12
				汉族静脉血	志愿者	33	13-45
维族血斑样品	兵团公安局	12	46-57
				维族静脉血	志愿者	33	58-90
藏族血斑样品	本实验室检案	12	91-102
				藏族静脉血	志愿者	33	103-135

其中，12份维族血斑样品由新疆兵团公安局提供，12份藏族血斑样品和12份汉族血斑样品由公安部物证鉴定中心提供。

静脉血基因组DNA选用Qiagen公司的DNA Blood Midi Kit提取；血斑样品用Qiagen公司的

DNA Mini M48DNA提取试剂盒提取DNA；

所用方法如无特别说明均为常规方法，所用试剂耗材和仪器如下表所示：

SNPstream体系相关试剂

实施例1、对本发明的SNP复合检测体系准确性的验证

利用本发明的SNP复合检测体系，对192份DNA样品进行检验，验证本发明的SNP复合检测体系的准确性。

所述SNP复合检测体系包括94个SNP位点，扩增引物组、微测序引物组以及通用芯片；所述扩增引物组由与所述94个SNP位点一一对应的94对扩增引物组成，每对扩增引物能扩增待检测DNA上包括其相应的SNP位点的突变型或野生型碱基在内的核苷酸序列；所述微测序引物组由与所述94个SNP位点一一对应的94条微测序引物组成，每条微测序引物的5’端连有标签序列能与所述通用芯片的标签序列互补，3’端包括与待检测DNA上其相应的SNP位点之前的核苷酸序列互补的序列，所述94个汉、藏、维群体特异性位点为：rs11652805、rs37369、rs13419896、rs9522149、rs2024566、rs1871428、rs4891825、rs11725412、rs2899826、rs4984913、rs4908343、rs1471211、rs4717865、rs192655、rs4741658、rs6979076、rs12075、rs3785181、rs1994859、rs12913832、rs7238445、rs129014504、rs3915736、rs6010138、rs855791、rs5768007、rs9319336、rs2247445、rs2835370、rs2070586、rs647325、rs2532060、rs316598、rs4953388、rs6998293、rs6422347、rs7416743、rs4719711、rs1325502、rs1407434、rs385194、rs228918、rs842639、rs6520015、rs12682455、rs11064983、rs1800414、rs4463276、rs3943253、rs2001907、rs4458655、rs961154、rs731257、rs9530435、rs10491265、rs9383760、rs1491238、rs17582830、rs11676473、rs7803075、rs1471939、rs10839880、rs1040404、rs7554936、rs6451722、rs10514802、rs39883、rs7844723、rs7589621、rs10512572、rs2564118、rs7583392、rs7997709、rs2306040、rs1569175、rs12629908、rs3118378、rs7421394、rs10002268、rs1408801、rs1513181、rs798443、rs12657828、rs3907047、rs4454698、rs4142654、rs2033111、rs3805322、rs7745461、rs10204096、rs818386、rs6548616、rs10510228、rs9845457。

利用所述SNP复合检测体系进行94个汉、藏、维群体特异性位点的基因分型，包括：1)提取待检测个体的DNA作为模板；2)使用所述扩增引物组对提取的DNA模板进行多重PCR扩增反应；3)将上述扩增得到的产物使用所述微测序引物组进行引物延伸反应，所述引物延伸反应中ddNTP为荧光标记的ddNTP；4)将引物延伸反应的产物和通用芯片进行杂交，根据芯片杂交结果确定94个汉、藏、维群体特异性位点的基因型。

1、提取待检测个体的DNA作为模板

使用

DNA Mini M48磁珠DNA提取试剂盒提取314份汉族无关个体的静脉血DNA。提取步骤按照试剂盒说明书进行。

2、对提取的DNA模板进行多重PCR扩增反应

2.1、引物池配置

扩增引物池的配置，其中所述扩增引物组中为所述94个SNP位点一一对应的94对扩增引物，每对扩增引物能扩增待检测DNA上包括其相应的SNP位点的突变型或野生型碱基在内的核苷酸序列；本实施例中，优选的，所述94个SNP位点的扩增引物组为序列表中SEQ ID No.1至SEQ ID No.188的核苷酸序列；本发明提供的各种引物序列由上海生工生物工程技术服务有限公司合成。

94个位点分2组扩增，第一组48个位点，第二组46个位点。将合成好的引物用去离子水稀释到240μM，从96/92管PCR引物中(每个位点两条引物，所以两组各96管和92管)（浓度为240μM）各取5μL加入到一个新的离心管中，作为48/46重PCR引物池，引物终浓度约为2.5μM。

2.2、多重PCR反应

本实施例使用具有96孔PCR板的AB9700型DNA扩增仪进行多重PCR反应。

（1）配置PCR mix

试剂名称	配置量（μL）
		PCR引物池（2.5μM）	45
dNTP（10mM）	20
		10×PCR Buffer（缓冲液，含15mM的	225

Mg²⁺）
		MgCl₂（25mM）	315
HotStar Taq DNA Polymerase（5U/μL）	45
		ddH₂O（去离子水）	700
总计	1350

按上表中的比例分别配置48/46重PCR mix，每组扩增体系的PCR mix混匀后，取3μL加入到96孔PCR板的反应孔中，再分别在上述反应孔的3μL的PCR mix中加入2μL待检测的DNA模板（5μL反应体系）。封膜后，3000rcf离心1分钟。每个96孔PCR板可同时进行96个个体的DNA扩增。

（2）扩增程序

2.3、PCR产物纯化

（1）按照下表的体系，配制Clean-up试剂

试剂名称	384份样品配置量（μL）
		Exo Ⅰ（10unit/μL）	90
SAP（1unit/μL）	448
		10×SAP Buffer	135
ddH2O	677
		总计	1350

（2）将PCR反应后的96孔PCR板3000rcf离心1分钟，再加入配好的Clean-up试剂，每孔3μL（每孔终体系为8μL）。封膜后，3000rcf离心1分钟，运行下表所示的程序。

步骤	温度	时间
			1	37℃	30min
2	96℃	10min

3

4℃

∞

注：纯化好的PCR产物可以在-20℃条件下存放。

3、对DNA扩增产物进行引物延伸反应

3.1微测序引物池的配置

本实施例中所述微测序引物组中包括与所述94个SNP位点一一对应的94条微测序引物，每条微测序引物的5’端连有标签序列能与所述通用芯片的标签序列互补，3’端包括与待检测DNA上其相应的SNP位点之前的核苷酸序列互补的序列；本实施例中，优选的，所述微测序引物组为序列表中SEQ ID No.189至SEQ ID No.282的核苷酸序列。

分别配置各组微测序引物池：共2组，每组48/46条引物。将合成好的延伸引物用去离子水稀释到240μM，从48/46管延伸引物中（240μM）各取10μL加入到一个新的离心管中，作为延伸引物池，每条延伸引物终浓度约为5μM。

3.2引物延伸反应

（1）解冻纯化好的96孔PCR板（含有步骤2扩增好的DNA）和SNPware extension dilution buffer按照下表所示体系配制引物延伸反应混合物。

试剂名称	配置量（μL）
		Extension Dilution Buffer	1696.5
Extension Primer Mix	13.5
		20×Extension Mix	90
ddH₂O	1340.6
		DNA polymerase	9.4
总计	3150

注：20×Extension Mix为带荧光ddNTP，分别为：A/G、C/G、A/T、A/C、C/T和G/T，按实验需求配置不同组合。Extension Primer Mix为微测序引物池。本发明中使用蓝绿双色荧光标记。

（2）将解冻后的96孔PCR板3000rcf离心1分钟，向每个孔中加入7μL配制好的引物延伸反应混合物（每孔终体系为15μL），封膜，3000rcf离心1分钟，运行下表所示的程序。

注：引物延伸反应结束后的DNA产物可以在-20℃条件下存放。

4、将引物延伸反应产物与微测序反应通用芯片进行杂交，根据芯片杂交结果推断未知来源个体汉、藏、维群体来源

本实施例使用的通用芯片为固定有能与序列表中SEQ ID No.189至SEQ ID No.282的各条核苷酸序列的自5’末端的第1至20位的脱氧核苷酸互补的标签序列的微测序反应通用芯片；所述微测序反应通用芯片购自美国贝克曼公司，为具有384孔的SNPware杂交板，每个孔中固定48条标签序列(或46条标签序列)和4个质控探针，每个孔可以检测一份DNA样品的48个或46个位点，检测一份DNA样品的94个位点需要2个孔，192份共需384个孔。

4.1清洗杂交板

（1）按照下表配置1×SNPware Wash Buffer1（SNP-板清洗缓冲液1）

试剂名称	用量（μL）
		20×SNPware Wash Buffer1	1680
ddH₂O	31920
		总计	33600

注：384孔SNPware杂交板每孔加25μL的1×SNPware Wash Buffer1，可一次吸取50μL的1×SNPware Wash Buffer1，加入到相邻2个杂交孔中。

（2）清洗SNPware384孔杂交板，吸取25μL的1×SNPware Wash Buffer1，加入到杂交板上的对应孔中

（3）将SNPware杂交板翻过来放在无尘纸上，放入离心机的托盘内进行离心，300rcf离心1分钟，使杂交板上每个孔中的清洗液全部脱离。重复步骤2，一共清洗3次。

4.2、将引物延伸反应的产物与微测序反应通用芯片进行杂交

（1）按照下表配置杂交液

试剂名称	配置量（μL）
		Hybridization solution	3402

Hybridization additive	198
		总计	3600

（2）向96孔PCR板每孔加入8μL配好的杂交溶液，3000rcf离心1分钟，使其混合均匀（每孔终体系为23μL）。吸取10ul加入到SNPware杂交板上对应的孔内，每个SNPware384孔杂交板可加入2个96孔板的DNA产物。（注：加杂交液的时候，用枪头反复吹打使之混匀。）

（3）将加入混合液的SNPware杂交板放入一个密封的盒子中，放在温箱内42℃杂交，时间为2小时±15分钟。注：盒内预先放几张湿润的无尘纸巾（用双蒸水湿润），保证孵育过程中盒内湿度，防止杂交板内试剂被蒸干。

4.3、杂交后清洗及扫描

（1）按照下表配置杂交后洗液1×SNPware Wash Buffer2

	用量（μL）384孔×25μL×3次
		64×SNPware Wash Buffer2	526.4
ddH₂O	33073.6
		总计	33600

（2）杂交完成以后，再次清洗SNPware杂交板，每次吸取25μL1×SNPware Wash Buffer2，加入到384孔SNPware杂交板上的每个孔中。

（3）将384孔SNPware杂交板翻过来放在无尘纸上，一起放在离心机的托盘内进行离心，300rcf离心1分钟，使杂交板上每个孔中的清洗液全部脱离。重复步骤2，一共清洗3次。

（4）清洗完毕后，用无尘纸蘸取少量无水甲醇擦拭杂交板背面玻片。

（5）将杂交板置入SNPstream图像分析系统，双色荧光CCD扫描获得图像，如图2A所示(图2A中单个杂交孔在SNPware杂交板上的排布方式示意图如图2B所示)；图像经SNPadmin和GetGenos软件分析获得数据，如图2C所示。

5、杂交结果和测序结果分析

基于48-plex SNPstream技术平台，构建的48-plex和46-plex两组SNPs复合检测体系的芯片点阵分布如图1所示，因第2组46个位点，故最后2个点阵空白。

为了验证分型结果的准确性，192份DNA样品中随机抽取50份DNA样品，对94个位点进行测序(北京迈奥德恩生物科技有限公司测序)，所有的SNPstream分型结果与测序结果均一致，一致性达到100％，此结果证本发明复合检测体系分型结果的准确，分型数据可以用于后续种族来源推断。

实施例2本发明推断未知来源个体汉藏维群体来源方法和系统的准确性验证

本实施例的所述系统包括所述的SNP复合检测体系、比较体系和推断体系，所述SNP复合检测体系用于获得未知来源个体的所述各特异性位点的基因型；所述比较体系用于获得所述未知来源个体的各特异性位点分别在汉、藏、维群体中的基因型频率，并将所述各特异性位点的基因型频率相乘获得的94个SNP位点在汉、藏、维群体中的匹配概率值进行比较；所述推断体系用于根据比较结果推断未知来源个体汉、藏、维群体来源，匹配概率值最高的群体为未知来源个体的来源群体。

本实施例使用HapMap数据库中已有的11个群体和本研究检测的汉族、藏族、维族3个群体，以这14个群体的SNPs位点基因型频率结果作为基础数据，根据各样品的SNP分型结果，计算各样品在14个群体中各自的基因型频率，也称为匹配概率值（Match probability，MP）。

首先，以1份汉族样品为例，说明通过本发明方法推断未知来源个体汉藏维群体来源的过程：

1、通过实施例1的复合检测体系或测序获得该汉族样品的94个SNP位点的基因型，

2、通过所述比较体系获得各位点分别在汉、藏、维群体中的基因型频率，可通过表4中给出的等位基因频率查找计算得到，各位点在其余11个群体中的基因型频率可通过公知数据库中记载的等位基因频率查找计算得到，将所述各特异性位点的基因型频率相乘获得的94个SNP位点在汉、藏、维群体中的匹配概率值进行比较；表5列举了部分SNP位点(7个)在14个群体中的基因型(PP,2PQ,以及QQ)频率；

3、利用所述推断体系根据比较结果推断未知来源个体汉、藏、维群体来源，匹配概率值（Match probability，MP）最高的群体为未知来源个体的来源群体。

表5：7个AIMs位点在14个群体中的基因型频率期望值

注：基因型频率采用期望值，当等位基因频率为0时，频率以1/(2n+1)取代。ASW：African anscetry in Southwest USA；CEU(C):Utah residents with Northern and Western European ancestry from the CEPH collection；CHB(H):Han Chinese in Beijing,China；CHD(D):Chinese in Metropolitan Denver，Colorado；GIH(G):Gujarati Indians in Houston,Texas；JPT(J):Japanese in Tokyo,Japan；LWK(L):Luhya in Webuye,Kenya；MEX(M):Mexican ancestry in Los Angeles,California；MKK(K):Maasai in Kinyawa,Kenya；TSI(T):Tuscan in Italy；YRI(Y):Yoruban in Ibadan,Nigeria

表6为使用本发明方法推断出的3个已知汉、藏、维群体来源的个体(从192个无关个体中随机筛选)在14个群体中的MP值

表6

由表6可以看出，3个样品在其各自来源群体中的MP值分别为6.62E-55、3.1E-51和4.44E-62，均为14个群体MP的最高值，说明本发明方法的推断结果准确，与样品的实际来源完全相符。

实施例3使用本发明推断未知来源个体汉藏维群体来源方法对实际样品进行检测

共选择了135份来自汉族、藏族和维族的试验样品进行系统有效性验证，包括案例和志愿者样品，全部135份样品。使用实施例1的复核检测体系进行94个SNP位点基因分型，位点检出率为98.7%（实际检出数12529/理论检出数12690）。

人种来源推断结果如表7所示：

表7

通过所述方法对135份试验样品进行人种来源推断，仅维族群体中的5个体出现误判，其中2个被判定为汉族，另3个被判定为藏族，整个系统的准确性为：100/105×100%=99.9%，因此通过上述系统可以进行准确高效的汉、藏、维人种推断。

Claims

1.一种推断未知来源个体汉、藏、维群体来源的方法，该方法包括：

所述匹配概率值最高的群体为未知来源个体的来源群体，

2.根据权利要求1所述的方法，所述未知来源个体的94个汉、藏、维群体特异性位点的基因型通过DNA测序获得。

3.根据权利要求1所述的方法，所述未知来源个体的94个汉、藏、维群体特异性位点的基因型通过SNP复合检测体系获得，所述体系包括94个SNP位点，还包括扩增引物组、微测序引物组以及通用芯片；

4.根据权利要求3所述的方法，所述扩增引物组为序列表中SEQ ID No.1至SEQ ID No.188的核苷酸序列；所述微测序引物组为序列表中SEQ IDNo.189至SEQ ID No.282的核苷酸序列。

5.根据权利要求3所述的方法，其特征在于，所述微测序引物5’端连有的标签序列分别为序列表中SEQ ID No.189至SEQ ID No.282的各条核苷酸序列的自5’末端的第1至20位的脱氧核苷酸。

6.根据权利要求3-5任一项所述的方法，其特征在于，所述通用芯片为：微测序反应通用芯片、固相微测序反应芯片或连接酶反应通用芯片。

7.一种SNP复合检测体系，所述体系包括94个SNP位点，扩增引物组、微测序引物组以及通用芯片；

所述微测序引物组由与所述94个SNP位点一一对应的94条微测序引物组成，每条微测序引物的5’端连有标签序列能与所述通用芯片的标签序列互补，3’端包括与待检测DNA上其相应的SNP位点之前的核苷酸序列互补的序列，所述94个汉、藏、维群体特异性位点为：rs11652805、rs37369、rs13419896、rs9522149、rs2024566、rs1871428、rs4891825、rs11725412、rs2899826、rs4984913、rs4908343、rs1471211、rs4717865、rs192655、rs4741658、rs6979076、rs12075、rs3785181、rs1994859、rs12913832、rs7238445、rs129014504、rs3915736、rs6010138、rs855791、rs5768007、rs9319336、rs2247445、rs2835370、rs2070586、rs647325、rs2532060、rs316598、rs4953388、rs6998293、rs6422347、rs7416743、rs4719711、rs1325502、rs1407434、rs385194、rs228918、rs842639、rs6520015、rs12682455、rs11064983、rs1800414、rs4463276、rs3943253、rs2001907、rs4458655、rs961154、rs731257、rs9530435、rs10491265、rs9383760、rs1491238、rs17582830、rs11676473、rs7803075、rs1471939、rs10839880、rs1040404、rs7554936、rs6451722、rs10514802、rs39883、rs7844723、rs7589621、rs10512572、rs2564118、rs7583392、rs7997709、rs2306040、rs1569175、rs12629908、rs3118378、rs7421394、rs10002268、rs1408801、rs1513181、rs798443、rs12657828、rs3907047、rs4454698、rs4142654、rs2033111、rs3805322、rs7745461、rs10204096、rs818386、rs6548616、rs10510228、rs9845457。

8.根据权利要求7所述的SNP复合检测体系，其特征在于，所述扩增引物组为序列表中SEQ ID No.1至SEQ ID No.188的核苷酸序列；所述微测序引物组为序列表中SEQ ID No.189至SEQ ID No.282的核苷酸序列。

9.根据权利要求7所述的SNP复合检测体系，其特征在于，所述微测序引物5’端连有的标签序列分别为序列表中SEQ ID No.189至SEQ ID No.282的各条核苷酸序列的自5’末端的第1至20位的脱氧核苷酸。

10.根据权利要求7-9任一项所述的SNP复合检测体系，其特征在于，所述通用芯片为：微测序反应通用芯片、固相微测序反应芯片或连接酶反应通用芯片。

11.一种用于推断未知来源个体汉、藏、维群体来源的系统，所述系统包括权利要求7-10任一项所述的SNP复合检测体系、比较体系和推断体系，