CN108504750A

CN108504750A - 确定菌群snp位点集合的方法、系统及其应用

Info

Publication number: CN108504750A
Application number: CN201810368491.3A
Authority: CN
Inventors: 李生斌; 王帅; 李静迪; 梁雪
Original assignee: Shenzhen Huada Forensic Science And Technology Co Ltd
Current assignee: Shenzhen Huada Forensic Science And Technology Co Ltd
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2018-09-07
Anticipated expiration: 2038-04-23
Also published as: CN108504750B

Abstract

本发明提出了一种确定菌群SNP位点集合的方法。该菌群SNP位点集合用于特定人群的个体鉴定，该方法包括：(1)将来自于待测样本的测序结果与参照基因组序列进行比对，所述测序结果由多个测序序列构成，以便确定能够与所述参照基因组序列比对上的所述测序序列，(2)基于步骤(1)所获得的所述测序序列，确定SNP位点分型，以及(3)基于步骤(2)所获得的SNP位点分型，确定所述SNP位点集合。该方法操作简单，准确率高，能从宏基因组中精准、快速得到用来个体鉴定的菌群SNP位点集合，且该方法得到的特定人群的SNP位点集合可用于确定欧美人群中未知样本的个体来源，尤其可用于对痕量、降解检材的肠道微生物DNA进行个体识别以确定检材的个体来源。

Description

确定菌群SNP位点集合的方法、系统及其应用

技术领域

本发明涉及生物鉴定领域，具体地，本发明涉及确定菌群SNP位点集合的方法、系统及其应用。

背景技术

随着社会发展，各方面对司法诉讼活动的科学性、客观性以及准确性的要求也在不断提高，在物证鉴定领域，DNA证据一般应用于人类个体识别领域，即犯罪现场DNA分型与法医数据库DNA分型的唯一匹配需要在案件诉讼过程中提交法院。DNA分析由于其检验结果精确，成为物证鉴定领域的重要技术手段，因而使得提供DNA证据的法医学遗传标记位点成为人们关注的焦点。

目前世界主要国家(美、欧、中国等)主要使用十几至二十多个短片段重复遗传标记位点(Short tandem repeats,STRs)作为DNA证据，即法医DNA实验室通常采用复合PCR-STR分型技术对未知个体来源的检材进行基于STR位点的分型来确定来源个体。

人体的肠道微生物对于宿主的免疫功能和新陈代谢有着十分重要的影响，与癌症、糖尿病等疾病的发生密切相关。研究表明人体肠道微生物的种类和遗传物质在个体之间均稳定地存在差异，因而使得用人体肠道微生物基因组的分子标记来进行个体识别成为可能。

单核苷酸多态性遗传标记位点(Single nucleotide polymorphism,SNP)由基因组中单个碱基的突变造成，广泛存在于人体基因组中，由于其分布广，突变率小，因而继STR成为了第三代分子标记。

发明内容

本申请是基于发明人对以下事实和问题的发现和认识作出的：

现有技术中主要利用人体基因组STR进行法医学鉴定，STR的应用较为广泛，但STR存在着复杂的多态性，例如，核心序列的非整倍重复等现象，增加了STR准确分型的难度；另外，STR基因突变率明显高于人类基因的平均突变率(STR基因座的突变率为10^-3～10^-5，人类基因的平均突变率为1.4×10^-10)。而在SNP检测中不存在此类问题，肠道基因组SNP相比人体基因组STR具有诸多优势，包括：

(1)SNP在基因组上的分布比STR更为广泛，即候选的分子标记位点更多；

(2)SNP位点的突变率远比STR的要小(前者为10^-8，后者为10^-3～10^-5)，使得SNP更加稳定可靠；

(3)SNP可以设计比STR更短的扩增子，且产物的长度不到100bp，相比STR能够更好地适用于降解的DNA样本；

(4)SNP作为第三代分子标记，已经在新的技术平台上实现了从实验到分析的自动化操作，并且有潜力在未来的操作系统上得到更好的应用。

并且传统的个体识别技术在法医学检材来源中不存在人体血液、毛发等样本时难以运用，而利用人体肠道微生物基因组中的分子标记可以扩大可使用的样本范围，为法医学鉴定提供新的思路。

为此，本发明首次提出了肠道微生物样本用于进行个体识别的新方法。同时本发明还提供了一组能够对欧美人群进行个体识别的肠道微生物SNP位点组合，上述位点可用于确定欧美人群的样本的个体来源。更为重要的是，本发明还提供了一种确定用于个体识别的SNP位点集合的方法，该方法适于筛选包括肠道、口腔、皮肤等部位的用于个体识别的微生物SNP位点集合。同时，肠道微生物除了能应用于法医个体识别领域，它与营养物质代谢、人体自身发育、免疫及疾病的产生等方面都有紧密联系，很多研究结果都表明肠道微生物和多种疾病发病直接相关，如癌症、肥胖、神经变性疾病等，因此根据本发明实施例的确定菌群SNP位点集合的方法以及本发明提出的SNP位点集合还可以应用于表型预测、疾病的预防、诊断和治疗等方面。

在本发明的第一方面，本发明提出了确定菌群SNP位点集合的方法。根据本发明的实施例，所述菌群SNP位点集合用于特定人群的个体鉴定，包括：(1)将来自于待测样本的测序结果与参照基因组序列进行比对，所述测序结果由多个测序序列构成，以便确定能够与所述参照基因组序列比对上的所述测序序列，(2)基于步骤(1)所获得的测序序列，确定SNP位点分型，以及(3)基于步骤(2)所获得的SNP位点分型，确定所述SNP位点集合，其中，基于步骤(2)所获得的SNP位点分型，确定所述SNP位点集合是通过如下步骤获得的：a.选取至少在75％样本中都出现的SNP位点，作为初始SNP位点集合，所述样本为步骤(1)所获得的测序序列所在的样本；b.去除所述初始SNP位点集合中不符合哈温平衡的SNP位点，以便获得第一SNP位点集合，c.保留所述第一SNP集合中邻近SNP较为稀疏的位点，所述稀疏的位点为前后至少300bp范围内，优选350bp，优选400bp，更优选450bp或500bp，SNP个数都少于10，以便获得第二SNP位点集合，d.依据第二SNP位点集合中的SNP位点的多态性和随机匹配率，获得第三SNP位点集合，所述SNP位点的多态性数目等于2以及随机匹配率小于0.8是所述SNP位点进入第三SNP位点集合的指示，e.依据第三SNP位点集合的SNP位点的随机匹配率，获得所述SNP位点集合，所述随机匹配率最小的SNP位点组成所述SNP位点集合。根据本发明的实施例的方法，可用于对不同人群中不同微生物的个体识别位点筛选，例如肠道微生物、口腔部位微生物、皮肤部位微生物等。发明人发现，SNP位点的多态性数目等于2可以提高在实际运用过程中，分型的准确度，同时也简化了计算模型。同时，随机匹配率是指随机两个个体，其基因型相同的频率，因此可以说，随机匹配率越小，个体识别效果越好。发明人在实验中发现，随机匹配率大于0.8的SNP位点不能满足个体识别的要求，从而，发明人选择多态性数目等于2以及随机匹配率小于0.8的SNP位点进入第三SNP位点集合，并从第三SNP位点集合中选择随机匹配率最小的SNP位点组成所述SNP位点集合。根据本发明实施例的方法，操作简单，准确率高，能从宏基因组中精准、快速得到用来个体鉴定的菌群SNP位点集合。根据本发明实施例的方法得到的特定人群的SNP位点集合可用于确定欧美人群中未知样本的个体来源，尤其可用于对痕量、降解检材的肠道微生物DNA进行个体识别以确定检材的个体来源。

在本发明的第二方面，本发明提出了一种SNP位点集合。根据本发明的实施例，所述SNP位点集合是通过前面所述的方法确定的。根据本发明实施例的SNP位点集合，可用于确定特定人群中未知样本的个体来源，尤其可用于对痕量、降解检材的肠道微生物DNA进行个体识别以确定检材的个体来源。

在本发明的第三方面，本发明提出了一种SNP位点集合。根据本发明的实施例，所述SNP位点集合由下表所示的100个SNP位点构成：

根据本发明的具体实施例，本发明的上述100个SNP位点的最大FDP值，即人群中最常见的基因型组合出现的频率，为1.748e-56，这说明了即使在将近5.721e55个欧美人个体中，都不太可能存在两个具有完全相同的基因型组合的个体。根据本发明的具体实施例，本发明100个SNP位点对未知肠道微生物样本进行个体识别，计算得到的累积随机匹配概率为9.632e-36，累积个体识别率达到0.999999999999999999999999999999999990368，远超出行业标准，个体识别效果可靠。

在本发明的第三方面，本发明提出了一种针对特定人群确定个体来源的方法。根据本发明的实施例，所述方法包括：将待确定个体来源的样本的SNP位点集合与已知样本的SNP位点集合进行对比，所述SNP位点集合如前面所限定的，其中，所述待确定个体来源的样本的SNP位点集合的每一个SNP位点分型与所述已知样本的SNP位点集合的每一个SNP位点分型100％吻合，是待确定个体来源的样本与所述已知样本为同一来源的指示。根据本发明的实施例，待确定个体来源的样本的SNP位点集合的位点只要有一个与已知样本不同，即可排除两者为同一来源。根据本发明的具体实施例，利用根据本发明实施例的SNP位点集合对未知样本进行个体识别，计算得到的累积随机匹配概率为9.632e-36，累积个体识别率达到0.999999999999999999999999999999999990368，远超出行业标准，个体识别效果可靠。

在本发明的第四方面，本发明提出了一种用于确定菌群SNP位点集合的系统。根据本发明的实施例，所述菌群SNP位点集合用于特定人群的个体鉴定，所述系统包括：比对装置，所述比对装置用于将来自于待测样本的测序结果与参照基因组序列进行比对，所述测序结果由多个测序序列构成，以便确定能够与所述参照基因组序列比对上的所述测序序列，分型装置，所述分型装置与所述比对装置相连，所述分型装置用于基于比对装置所获得的测序序列，确定SNP位点分型，筛选装置，所述筛选装置与所述分型装置相连，所述筛选装置用于基于分型装置所获得的SNP位点分型，确定所述SNP位点集合，其中，所述筛选装置包括：初始SNP位点集合获得单元，所述初始SNP位点集合获得单元用于选取至少在75％样本中都出现的SNP位点，作为初始SNP位点集合，所述样本为比对装置所获得的测序序列所在的样本；第一SNP位点集合获得单元，所述第一SNP位点集合获得单元与所述初始SNP位点集合获得单元相连，所述第一SNP位点集合获得单元用于去除所述初始SNP位点集合中不符合哈温平衡的SNP位点，获得第一SNP位点集合，第二SNP位点集合获得单元，所述第二SNP位点集合获得单元与所述第一SNP位点集合获得单元相连，所述第二SNP位点集合获得单元用于保留所述第一SNP集合中邻近SNP较为稀疏的位点，所述稀疏的位点为前后至少300bp范围内，优选350bp，优选400bp，更优选450bp或500bp，SNP个数都少于10，获得第二SNP位点集合；第三SNP位点集合获得单元，所述第三SNP位点集合获得单元与所述第二SNP位点集合获得单元相连，所述第三SNP位点集合获得单元用于依据第二SNP位点集合中的SNP位点的多态性和随机匹配率，获得第三SNP位点集合，所述SNP位点的多态性数目等于2以及随机匹配率小于0.8是所述SNP位点进入第三SNP位点集合的指示；最终SNP位点集合获得单元，所述最终SNP位点集合获得单元与所述第三SNP位点集合获得单元相连，所述最终SNP位点集合获得单元用于依据第三SNP位点集合的SNP位点的随机匹配率，获得所述SNP位点集合，所述随机匹配率最小的SNP位点组成所述SNP位点集合。根据本发明的实施例的系统，可用于对不同人群中不同微生物的个体识别位点筛选，例如肠道微生物、口腔部位微生物、皮肤部位微生物等。发明人发现，SNP位点的多态性数目等于2可以提高在实际运用过程中，分型的准确度，同时也简化了计算模型。同时，随机匹配率是指随机两个个体，其基因型相同的频率，因此可以说，随机匹配率越小，个体识别效果越好。发明人在实验中发现，随机匹配率大于0.8的SNP位点不能满足个体识别的要求，从而，发明人选择多态性数目等于2以及随机匹配率小于0.8的SNP位点进入第三SNP位点集合，并从第三SNP位点集合中选择随机匹配率最小的SNP位点组成所述SNP位点集合。根据本发明实施例的系统适于执行上述确定菌群SNP位点集合的方法，且准确率高，能从宏基因组中精准、快速得到用来个体鉴定的菌群SNP位点集合。根据本发明实施例的系统得到的特定人群的SNP位点集合可用于确定欧美人群中未知样本的个体来源，尤其可用于对痕量、降解检材的肠道微生物DNA进行个体识别以确定检材的个体来源。

在本发明的第五方面，本发明提出了一种用于对特定人群进行个体识别的试剂盒。根据本发明的实施例，所述试剂盒包括：试剂，所述试剂用于特异性识别或扩增预定SNP位点，所述预定SNP位点为前面所述的SNP集合中的SNP位点。根据本发明实施例的试剂盒可用于确定特定人群中未知样本的个体来源，尤其可用于对痕量、降解检材的肠道微生物DNA进行个体识别以确定检材的个体来源。

附图说明

图1是根据本发明实施例的样本两两之间位点差异数，

图2是根据本发明实施例的样本FDP值(取对数)的频率分布直方图，

图3是根据本发明实施例的确定菌群SNP位点集合的系统的结构示意图，

图4是根据本发明实施例的确定菌群SNP位点集合的系统的结构示意图(含过滤和去污装置)，以及

图5是根据本发明实施例的确定菌群SNP位点集合的系统的结构示意图(含验证装置)。

附图标记：比对装置100，分型装置200，筛选装置300，过滤和去污装置400，验证装置500，初始SNP位点集合单元301，第一SNP位点集合单元302，第二SNP位点集合单元303，第三SNP位点集合单元304，最终SNP位点集合单元305。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

确定菌群SNP位点集合的方法

在本发明的一方面，本发明提出了一种确定菌群SNP位点集合的方法。根据本发明的实施例，所述菌群SNP位点集合用于特定人群的个体鉴定，包括：(1)将来自于待测样本的测序结果与参照基因组序列进行比对，所述测序结果由多个测序序列构成，以便确定能够与所述参照基因组序列比对上的所述测序序列，(2)基于步骤(1)所获得的测序序列，确定SNP位点分型，以及(3)基于步骤(2)所获得的SNP位点分型，确定所述SNP位点集合，其中，基于步骤(2)所获得的SNP位点分型，确定所述SNP位点集合是通过如下步骤获得的：a.选取至少在75％样本中都出现的SNP位点，作为初始SNP位点集合，所述样本为步骤(1)所获得的测序序列所在的样本；b.去除所述初始SNP位点集合中不符合哈温平衡的SNP位点，以便获得第一SNP位点集合，c.保留所述第一SNP集合中邻近SNP较为稀疏的位点，所述稀疏的位点为前后至少300bp范围内，优选350bp，优选400bp，更优选450bp或500bp，SNP个数都少于10，以便获得第二SNP位点集合，d.依据第二SNP位点集合中的SNP位点的多态性和随机匹配率，获得第三SNP位点集合，所述SNP位点的多态性数目等于2以及随机匹配率小于0.8是所述SNP位点进入第三SNP位点集合的指示，e.依据第三SNP位点集合的SNP位点的随机匹配率，获得所述SNP位点集合，所述随机匹配率最小的SNP位点组成所述SNP位点集合。根据本发明的实施例的方法，可用于对不同人群中不同微生物的个体识别位点筛选，例如肠道微生物、口腔部位微生物、皮肤部位微生物等。发明人发现，SNP位点的多态性数目等于2可以提高在实际运用过程中，分型的准确度，同时也简化了计算模型。同时，随机匹配率是指随机两个个体，其基因型相同的频率，因此可以说，随机匹配率越小，个体识别效果越好。发明人在实验中发现，随机匹配率大于0.8的SNP位点不能满足个体识别的要求，从而，发明人选择多态性数目等于2以及随机匹配率小于0.8的SNP位点进入第三SNP位点集合，并从第三SNP位点集合中选择随机匹配率最小的SNP位点组成所述SNP位点集合。根据本发明实施例的方法得到的特定人群的SNP位点集合可用于确定欧美人群中未知样本的个体来源，尤其可用于对痕量、降解检材的肠道微生物DNA进行个体识别以确定检材的个体来源。

根据本发明的实施例，预先将所述待测样本的测序结果进行过滤和去污处理。进行去除干扰，比对结果更加真实可靠。

根据本发明的具体实施例，所述过滤处理包括去除所述测序序列中的测序接头、质量值低于10以及剪切掉测序接头后长度不足50bp的序列，以便得到干净的测序序列(clean read)。

根据本发明的具体实施例，所述去污处理为去除宿主污染，是通过BWA-mem算法将过滤处理后的测序序列比对hg19参考组，去除比对到hg19参考组上的序列，提取未比对到hg19参考组上的序列，即以去除来自宿主全基因组的污染，保留来自菌群基因组的序列，得到仅有菌群基因组的测序序列(pure reads)的测序结果，用于后续与参照基因组序列进行比对。

根据本发明的实施例，所述参照基因组序列为Metagenome参考基因组数据集。根据本发明的具体实施例，下载并整合NCBI数据库公开发布(截止到2017年4月27日)的所有细菌基因组的代表序列，共同构成本发明所使用Metagenome参考基因组数据集，约27G，共计13700个菌种。

根据本发明的实施例，所述步骤1)中进一步包括：去除比对质量值(MAPQ)低于10的所述测序序列。根据本发明的具体实施例，使用BWA-mem算法将去除宿主后的pure reads比对到上述metagenomics参考基因组数据集上，同时去除MAPQ值低于10的序列(reads)，进而可以有效防止错误比对(因为MAPQ值低于10的reads，很有可能是错误比对的)，提高SNP位点筛选的可靠性。

根据本发明的实施例，进一步包括对所述SNP位点集合进行验证，所述SNP位点集合的最大DNA频率小于1/(7*10⁹)，优选为小于等于1.748e-56是所述SNP位点集合为目的SNP位点集合的指示。需要说明的是，DNA频率代表了SNP集合的基因型组合出现的频率，比如某个个体的DNA频率，表示了某个个体的基因型组合出现的频率，其倒数N的意思是，理论上在N个人的群体里，才会出现一个某个个体这样的组合。可以理解的是，DNA频率越大，其倒数越小，最大DNA频率的倒数就代表了位点集合所使用的人数。例如，以地球上约70亿人计，根据本发明实施例的SNP集合的最大DNA频率小于1/(7*10⁹)，是该SNP集合有足够的鉴别能力的指示。根据本发明的具体实施例，SNP位点集合的最大DNA频率是1.748e-56，倒数为5.721e55，即在一个具有5.721e55个个体的群体中，上述SNP位点集合只出现一次，根据本发明实施例的上述SNP位点集合能准确鉴定出欧美人群的个体来源。

根据本发明的实施例，也可以进一步使用累积随机匹配率来验证上述SNP位点集合的识别效能，累积随机匹配率越小，识别效能越高，根据本发明实施例的上述SNP位点集合的累积随机匹配率为9.632e-36，远超出行业标准，个体识别效果可靠。根据本发明的具体实施例，所述SNP位点的累积随机匹配率是依照公式确定的，其中，CPM表示累积随机匹配率，l为所述SNP位点集合中所有SNP位点的个数，如根据本申请实施例的SNP位点集合的SNP位点的个数为100，(PM)_i表示第i个SNP位点的随机匹配率。根据本发明的实施例，所述步骤b是通过如下方式实现的：对所述初始SNP位点集合的每个位点分型进行卡方检验，以便获得符合哈温平衡的SNP位点分型，所述符合哈温平衡的SNP位点分型组成所述第一SNP位点集合。

根据本发明的实施例，所述SNP位点的随机匹配率是依照公式确定的，其中，PM表示SNP位点的随机匹配率，k表示SNP位点的基因型个数，Pn表示所述SNP位点第n个基因型的基因型频率。

根据本发明的实施例，所述随机匹配率最小的至少80个，优选90个，更优选100个SNP位点组成所述SNP位点集合。

SNP位点集合

在本发明的另一方面，本发明提出了一种SNP位点集合。根据本发明的实施例，所述SNP位点集合是通过前面所述的方法确定的。根据本发明实施例的SNP位点集合，可用于确定特定人群中未知样本的个体来源，尤其可用于对痕量、降解检材的肠道微生物DNA进行个体识别以确定检材的个体来源。

在本发明的另一方面，本发明提出了一种SNP位点集合。根据本发明的实施例，所述SNP位点集合由下表所示的100个SNP位点构成：

针对特定人群确定个体来源的方法

在本发明的另一方面，本发明提出了一种针对特定人群确定个体来源的方法。根据本发明的实施例，所述方法包括：将待确定个体来源的样本的SNP位点集合与已知样本的SNP位点集合进行对比，所述SNP位点集合如前面所限定的；其中，所述待确定个体来源的样本的SNP位点集合的每一个SNP位点分型与所述已知样本的SNP位点集合的每一个SNP位点分型100％吻合，是待确定个体来源的样本与所述已知样本为同一来源的指示。根据本发明的实施例，待确定个体来源的样本的SNP位点集合的位点只要有一个与已知样本不同，即可排除两者为同一来源。根据本发明的具体实施例，利用根据本发明实施例的SNP位点集合对未知样本进行个体识别，计算得到的累积随机匹配概率为9.632e-36，累积个体识别率达到0.999999999999999999999999999999999990368，远超出行业标准，个体识别效果可靠。

用于确定菌群SNP位点集合的系统

在本发明的另一方面，本发明提出了一种用于确定菌群SNP位点集合的系统。根据本发明的实施例，所述菌群SNP位点集合用于特定人群的个体鉴定，参考图3，所述系统包括：

比对装置100，所述比对装置100用于将来自于待测样本的测序结果与参照基因组序列进行比对，所述测序结果由多个测序序列构成，以便确定能够与所述参照基因组序列比对上的所述测序序列，根据本发明的具体实施例，所述参照基因组序列为Metagenome参考基因组数据集，如，下载并整合NCBI数据库公开发布(截止到2017年4月27日)的所有细菌基因组的代表序列，共同构成本发明所使用Metagenome参考基因组数据集，约27G，共计13700个菌种，

分型装置200，所述分型装置200与所述比对装置100相连，所述分型装置200用于基于比对装置所获得的测序序列，确定SNP位点分型，

筛选装置300，所述筛选装置300与所述分型装置200相连，所述筛选装置300用于基于分型装置所获得的SNP位点分型，确定所述SNP位点集合，根据本发明的实施例，所述比对装置300进一步适于去除MAPQ值低于10的所述测序序列，根据本发明的具体实施例，比对装置300使用BWA-mem算法将去除宿主后的pure reads比对到上述metagenomics参考基因组数据集上，同时去除MAPQ值低于10的reads，

其中，所述筛选装置300包括：

初始SNP位点集合获得单元301，所述初始SNP位点集合获得单元301用于选取至少在75％样本中都出现的SNP位点，作为初始SNP位点集合，所述样本为比对装置所获得的测序序列所在的样本，

第一SNP位点集合获得单元302，所述第一SNP位点集合获得单元302与所述初始SNP位点集合获得单元301相连，所述第一SNP位点集合获得单元302用于去除所述初始SNP位点集合中不符合哈温平衡的SNP位点，获得第一SNP位点集合，根据本发明的实施例，所述第一SNP位点集合获得单元302适于执行以下操作：对所述初始SNP位点集合的每个位点分型进行卡方检验，获得符合哈温平衡的SNP位点分型，所述符合哈温平衡的SNP位点分型组成所述第一SNP位点集合。

第二SNP位点集合获得单元303，所述第二SNP位点集合获得单元303与所述第一SNP位点集合获得单元302相连，所述第二SNP位点集合获得单元303用于保留所述第一SNP集合中邻近SNP较为稀疏的位点，所述稀疏的位点为前后至少300bp范围内，优选350bp，优选400bp，更优选450bp或500bp，SNP个数都少于10，获得第二SNP位点集合，

第三SNP位点集合获得单元304，所述第三SNP位点集合获得单元304与所述第二SNP位点集合获得单元303相连，所述第三SNP位点集合获得单元304用于依据第二SNP位点集合中的SNP位点的多态性和随机匹配率，获得第三SNP位点集合，所述SNP位点的多态性数目等于2以及随机匹配率小于0.8是所述SNP位点进入第三SNP位点集合的指示，根据本发明的具体实施例，所述SNP位点的随机匹配率是依照公式确定的，其中，PM表示SNP位点的随机匹配率，k表示SNP位点的基因型个数，Pn表示所述SNP位点第n个基因型的基因型频率，

最终SNP位点集合获得单元305，所述最终SNP位点集合获得单元305与所述第三SNP位点集合获得单元304相连，所述最终SNP位点集合获得单元305用于依据第三SNP位点集合的SNP位点的随机匹配率，获得所述SNP位点集合，所述随机匹配率最小的SNP位点组成所述SNP位点集合。根据本发明的实施例，所述随机匹配率最小的至少80个，优选90个，更优选100个SNP位点组成所述SNP位点集合。

根据本发明的实施例的系统，可用于对不同人群中不同微生物的个体识别位点筛选，例如肠道微生物、口腔部位微生物、皮肤部位微生物等。发明人发现，SNP位点的多态性数目等于2可以提高在实际运用过程中，分型的准确度，同时也简化了计算模型。同时，随机匹配率是指随机两个个体，其基因型相同的频率，因此可以说，随机匹配率越小，个体识别效果越好。发明人在实验中发现，随机匹配率大于0.8的SNP位点不能满足个体识别的要求，从而，发明人选择多态性数目等于2以及随机匹配率小于0.8的SNP位点进入第三SNP位点集合，并从第三SNP位点集合中选择随机匹配率最小的SNP位点组成所述SNP位点集合。根据本发明实施例的系统适于执行上述确定菌群SNP位点集合的方法，且准确率高，能从宏基因组中精准、快速得到用来个体鉴定的菌群SNP位点集合。根据本发明实施例的系统得到的特定人群的SNP位点集合可用于确定欧美人群中未知样本的个体来源，尤其可用于对痕量、降解检材的肠道微生物DNA进行个体识别以确定检材的个体来源。

根据本发明的另一具体实施例，参考图4，所述系统进一步包括过滤和去污装置400，所述过滤和去污装置400与比对装置100相连，所述过滤和去污装置400用于将所述待测样本的测序结果进行过滤和去污处理。根据本发明的具体实施例，所述过滤处理包括去除所述测序序列中的测序接头、质量值低于10以及剪切掉测序接头后长度不足50bp的序列，获得clean reads。根据本发明的具体实施例，所述去污处理为去除宿主污染，是通过BWA-mem算法将过滤处理后的clean reads比对hg19参考组，去除比对到hg19参考组上的序列，提取未比对到hg19参考组上的序列，即以去除来自宿主全基因组的污染，保留来自肠道菌群基因组的序列，得到pure reads，即所述待测样本的测序结果。

根据本发明的再一具体实施例，参考图5，所述系统进一步包括验证装置500，所述验证装置500与所述筛选装置300相连，用于对筛选装置300所获得的所述SNP位点集合进行验证，所述SNP位点集合的最大DNA频率小于1/(7*10⁹)，优选为小于等于1.748e-56是所述SNP位点集合为目的SNP位点集合的指示。需要说明的是，DNA频率代表了SNP集合的基因型组合出现的频率，比如某个个体的DNA频率，表示了某个个体的基因型组合出现的频率，其倒数N的意思是，理论上在N个人的群体里，才会出现一个某个个体这样的组合。可以理解的是，DNA频率越大，其倒数越小，最大DNA频率的倒数就代表了位点集合所使用的人数。例如，以地球上约70亿人计，根据本发明实施例的SNP集合的最大DNA频率小于1/(70亿)，是该SNP集合有足够的鉴别能力的指示。根据本发明的具体实施例，SNP位点集合的最大DNA频率是1.748e-56，倒数为5.721e55，即在一个具有5.721e55个个体的群体中，上述SNP位点集合只出现一次，根据本发明实施例的上述SNP位点集合能准确鉴定出欧美人群的个体来源。根据本发明的实施例，也可以进一步使用累积随机匹配率来验证上述SNP位点集合的识别效能，累积随机匹配率越小，识别效能越高，根据本发明实施例的上述SNP位点集合的累积随机匹配率为9.632e-36，远超出行业标准，个体识别效果可靠。

用于对特定人群进行个体识别的试剂盒

根据本发明的实施例，本发明提出了一种用于对特定人群进行个体识别的试剂盒。根据本发明的实施例，所述试剂盒包括：试剂，所述试剂用于特异性识别或扩增预定SNP位点，所述预定SNP位点为前面所述的SNP集合中的SNP位点。根据本发明实施例的试剂盒可用于确定特定人群中未知样本的个体来源，尤其可用于对痕量、降解检材的肠道微生物DNA进行个体识别以确定检材的个体来源。

根据本发明的实施例，所述试剂具有SEQ ID NO:1～200所示的核苷酸序列，详见表1。根据本发明实施例表1中所示的核苷酸引物能够特异性扩增包含前面所述SNP引物集合中的SNP位点的片段，进而可用于对前面所述SNP引物集合中的SNP位点进行特异性识别。

在宏基因组中寻找个体识别位点的流程

根据本发明的实施例，本发明提供了一套在宏基因组中寻找个体识别位点的可靠流程。根据本发明的具体实施例，发明人从168个肠道微生物基因组样本中筛选出最优SNP位点组合，应用于欧美人群法医学个体识别。

具体方法如下：

1)数据收集：

发明人从NCBI-SRA数据库获取250个英国双胞胎肠道微生物基因组数据(女性，ERP010700)、145个美国人肠道微生物基因组数据(男&女，SRP002163)。并从ERP010700中选取100个无生物学关联的个体，从SRP002163中选取68个无生物学关联的个体，共计168个样本用于筛选SNP位点(训练集)，并从全部样本中挑选出数据量符合要求的样本作为验证集，共计348个，其中包括102对双胞胎样本。

2)格式转换：

使用sratoolkit.2.8.2-1-ubuntu64软件包中的fastq-dump函数，将下载得到的原始SRA格式转换为fastq格式。

3)数据清洗：

使用FASTQC(Version:0.11.4)对原始数据进行质控，使用CUTADAPT(version:1.14)对原始数据进行初步过滤，主要包括去除双端测序接头、质量值低于10以及剪切掉测序接头后长度不足50bp的序列，得到clean reads。

4)去除宿主污染：

使用BWA-mem算法将clean reads比对到hg19参考组，去除比对到hg19参考组上的序列，提取未比对到hg19参考组上的序列，即以去除来自宿主全基因组的污染，保留来自肠道菌群基因组的序列，得到pure reads。

5)Metagenome参考数据集构建：

下载并整合NCBI数据库公开发布(截止到2017年4月27日)的所有细菌基因组的代表序列，共同构成本研究所使用参考基因集，约27G，共计13700个菌种。

6)SNP位点分型：

使用BWA-mem算法将去除宿主后的pure reads比对到上述metagenomics参考组上，同时去除MAPQ值低于10的reads，使用Samtools中fixmate函数去除未比对上的reads，再使用Samtools对BAM文件进行排序和索引，最后使用Freebayes对训练样本进行SNP分型得到VCF文件，针对验证样本只需针对选取的位点进行直接分型即可。

7)SNP位点筛选：

为了从VCF文件的13,900,000个SNP位点中筛选出最优的SNP位点集合，应用于法医学个体识别，发明人制定了一套系统化的筛选标准：

1、选取在超过130个样本中都检测出的SNP位点，

2、根据卡方检验，去除不符合哈温平衡的SNP位点，

3、保留邻近SNP较为稀疏的位点(前后500bp范围内，SNP个数都少于10)，

4、保留多态性数目等于2的SNP位点，

5、去除随机匹配率大于0.8的SNP位点，

6、为了去除连锁不平衡现象对统计效能的影响，同一物种内，仅保留随机匹配率最小的SNP位点，

7、将得到的全部位点按随机匹配率降序排列，选取排名前100的SNP位点。

基于上述标准，最终得到100个符合条件的SNP位点(详见表1)。

8)SNP位点验证：

发明人对收集的所有样本进行比对，并筛除了数据量较小的样本，选取BAM文件大于500M的样本，共348个样本，使用Freebayes检测出这些样本在选取的100个位点上的基因型，撰写脚本统计所有样本两两之间的差异位点数目，并作出位点差异数直方图，结果表明，即使这些样本中有双胞胎样本存在，这其中仍然没有在这100个位点上基因型完全一致的情况(详见图1)。

除此之外，发明人还对每个样本求出其DNA频率(FDP)，所有样本FDP值的中位数为9.341e-66，并对所有样本求对数后的FDP值作出频率分布直方图(详见图2)。可以看到，发明人选取的100个位点，对于所有这些样本，都有很高的鉴别能力。

发明人同时计算出了100个位点的最大FDP值，即人群中最常见的基因型组合出现的频率。最大FDP值为1.748e-56，这保证了即使在将近5.721e55个欧美人个体中，都不太可能存在两个具有完全相同的基因型组合的个体。

9)法医学参数计算：

a.对于某个SNP位点，其随机匹配率(PM)的计算公式为：

式中，k表示该SNP位点的基因型个数，Pn表示该SNP位点第n个基因型的基因型频率。

b.对于某个SNP位点，其个体识别率(PD)的计算公式为：

式中，PM为该位点的随机匹配率。

c.对于给定的SNP位点集合，其累积随机匹配率(CPM)的计算公式为：

式中，l为所述给定SNP位点集合中SNP位点的个数。

d.由于每个SNP位点之间相互独立，因此累积随机匹配率(CPM)的期望E(CPM)的计算公式为：

e.考虑到有些SNP位点可能会发生丢失，对于每个SNP位点，其随机匹配率期望E(PM)的计算公式为：

E(PM)＝(1-P_m)·PM+P_m×1

式中，Pm为该SNP位点发生丢失的概率。

f.因此对于SNP位点集合，其累积随机匹配率的期望E(CPM)的计算公式为：

g.对于SNP位点集合，其累积个体识别率CPD的计算公式为：

CPD＝1-CPM

h.对于SNP位点集合，其累积个体识别率期望E(CPD)的计算公式为：

E(CPD)＝1-E(CPM)

综合上述公式，可计算出某个特定SNP位点集合累积个体识别率的期望。

i.对于某个SNP位点的某种基因型，其随机匹配率PMA的计算公式为：

PMA＝(PA)²

式中，PA为该SNP位点基因型的基因型频率。

j.对于某个SNP位点的某种基因型，其随机匹配率的期望E(PMA)的计算公式为：

E(PMA)＝(1-P_m)·PMA+P_m·(PMA/PM)

式中，Pm为该位点发生丢失的概率，PM为该位点的随机匹配率。

k.对于某个个体，其DNA频率FDP的计算公式为：

式中，c为该个体检测出的位点数。

根据本发明的具体实施例，利用上述100个SNP位点对未知肠道微生物样本进行个体识别，计算得到的累积随机匹配概率为9.632e-36，累积个体识别率达到0.999999999999999999999999999999999990368，远超出行业标准，说明个体识别效果可靠。

在以下实施例中，如无特殊说明，按照以下所述的一般方法鉴定样本的个体来源。

一般方法：从已知肠道微生物样本中提取用于个体识别的SNP位点

a.DNA提取：提取肠道微生物样本中的DNA并纯化；

b.引物合成：合成表1：提供的参考引物；

c.PCR扩增：制备PCR体系，进行PCR复合扩增；

d.基因分型：对PCR产物进行毛细管电泳检测，实现基因分型；

e.数据处理：统计表1：100个SNP位点的分型数据，辅助法医学进行个体识别。

实施例验证未知肠道微生物样本和已知样本是否来源于同一个体

a.样本采集：用无菌牙签或粪便取样器截取粪便样品中段里部约50～100mg，装入2mL无菌离心管中，立即液氮速冻或直接放入-80℃低温保存；

b.DNA提取：采用MP Biomedicals的FastDNA^TM粪便DNA提取试剂盒(货号：116570000)从粪便样本中提取基因组DNA，无需预处理即可在数秒内裂解样本；

c.引物合成：采用固相亚磷酰胺三酯法合成本发明中提供的100对参考引物(详见表1)，并配成Primer Mix；

d.PCR扩增：配置PCR体系，依次按照高温变性、低温退火(复性)及适温延伸等反应进行PCR复合扩增；其中，相应的PCR扩增条件可根据扩增的具体引物来确定；

e.SNP分型：采用ABI 3730XL全自动DNA测序仪对PCR产物进行毛细管电泳检测，包括自动灌胶、上样、电泳分离和检测；

f.数据处理：采用专业法医鉴定软件GeneMapper(v4.0)对分型结果进行判读，最后统计表1：所示的每个SNP位点的分型数据；

g.结果比对：将上一步得到的未知样本的SNP分型结果与已知样本的SNP位点集合进行比对(个体识别)，得出排除或不排除是同一个体的结论。如果未知样本的SNP分型结果与已知样本的SNP位点集合完全一致，则可判定为未知肠道微生物样本和已知样本来源于同一个体，如果未知样本的SNP分型结果与已知样本的SNP位点集合只要有一个不一致，则可判定未知肠道微生物样本和已知样本不是来源于同一个体。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种确定菌群SNP位点集合的方法，其特征在于，所述菌群SNP位点集合用于特定人群的个体鉴定，包括：

(1)将来自于待测样本的测序结果与参照基因组序列进行比对，所述测序结果由多个测序序列构成，以便确定能够与所述参照基因组序列比对上的所述测序序列，

(2)基于步骤(1)所获得的测序序列，确定SNP位点分型，以及

(3)基于步骤(2)所获得的SNP位点分型，确定所述SNP位点集合，

其中，基于步骤(2)所获得的SNP位点分型，确定所述SNP位点集合是通过如下步骤获得的：

a.选取至少在75％样本中都出现的SNP位点，作为初始SNP位点集合，所述样本为步骤(1)所获得的测序序列所在的样本，

b.去除所述初始SNP位点集合中不符合哈温平衡的SNP位点，以便获得第一SNP位点集合，

c.保留所述第一SNP集合中邻近SNP较为稀疏的位点，所述稀疏的位点为前后至少300bp范围内，优选350bp，优选400bp，更优选450bp或500bp，SNP个数都少于10，以便获得第二SNP位点集合，

d.依据第二SNP位点集合中的SNP位点的多态性和随机匹配率，获得第三SNP位点集合，所述SNP位点的多态性数目等于2以及随机匹配率小于0.8是所述SNP位点进入第三SNP位点集合的指示，

e.依据第三SNP位点集合的SNP位点的随机匹配率，获得所述SNP位点集合，所述随机匹配率最小的SNP位点组成所述SNP位点集合。

2.根据权利要求1所述的方法，其特征在于，预先将所述待测样本的测序结果进行过滤和去污处理；

任选地，所述参照基因组序列为Metagenome参考基因组数据集；

任选地，所述步骤1)中进一步包括：去除MAPQ值低于10的所述测序序列；

任选地，进一步包括对所述SNP位点集合进行验证，所述SNP位点集合的最大DNA频率小于1/(7*10⁹)，优选为小于等于1.748e-56是所述SNP位点集合为目的SNP位点集合的指示；

任选地，所述步骤b是通过如下方式实现的：

对所述初始SNP位点集合的每个位点分型进行卡方检验，以便获得符合哈温平衡的SNP位点分型，所述符合哈温平衡的SNP位点分型组成所述第一SNP位点集合；

任选地，所述SNP位点的随机匹配率是依照公式确定的，

其中，PM表示SNP位点的随机匹配率，k表示SNP位点的基因型个数，Pn表示所述SNP位点第n个基因型的基因型频率。

3.根据权利要求1所述的方法，其特征在于，所述随机匹配率最小的至少80个，优选90个，更优选100个SNP位点组成所述SNP位点集合。

4.一种SNP位点集合，其特征在于，所述SNP位点集合是通过权利要求1～3任一项所述的方法确定的。

5.一种SNP位点集合，其特征在于，所述SNP位点集合由下表所示的100个SNP位点构成：

6.一种针对特定人群确定个体来源的方法，其特征在于，包括：

将待确定个体来源的样本的SNP位点集合与已知样本的SNP位点集合进行对比，所述SNP位点集合如权利要求4或5所限定的，

其中，所述待确定个体来源的样本的SNP位点集合的每一个SNP位点分型与所述已知样本的SNP位点集合的每一个SNP位点分型100％吻合，是待确定个体来源的样本与所述已知样本为同一来源的指示。

7.一种用于确定菌群SNP位点集合的系统，其特征在于，所述菌群SNP位点集合用于特定人群的个体鉴定，所述系统包括：

比对装置，所述比对装置用于将来自于待测样本的测序结果与参照基因组序列进行比对，所述测序结果由多个测序序列构成，以便确定能够与所述参照基因组序列比对上的所述测序序列，

分型装置，所述分型装置与所述比对装置相连，所述分型装置用于基于比对装置所获得的测序序列，确定SNP位点分型，

筛选装置，所述筛选装置与所述分型装置相连，所述筛选装置用于基于分型装置所获得的SNP位点分型，确定所述SNP位点集合，

其中，所述筛选装置包括：

初始SNP位点集合获得单元，所述初始SNP位点集合获得单元用于选取至少在75％样本中都出现的SNP位点，作为初始SNP位点集合，所述样本为比对装置所获得的测序序列所在的样本，

第一SNP位点集合获得单元，所述第一SNP位点集合获得单元与所述初始SNP位点集合获得单元相连，所述第一SNP位点集合获得单元用于去除所述初始SNP位点集合中不符合哈温平衡的SNP位点，获得第一SNP位点集合，

第二SNP位点集合获得单元，所述第二SNP位点集合获得单元与所述第一SNP位点集合获得单元相连，所述第二SNP位点集合获得单元用于保留所述第一SNP集合中邻近SNP较为稀疏的位点，所述稀疏的位点为前后至少300bp范围内，优选350bp，优选400bp，更优选450bp或500bp，SNP个数都少于10，获得第二SNP位点集合，

第三SNP位点集合获得单元，所述第三SNP位点集合获得单元与所述第二SNP位点集合获得单元相连，所述第三SNP位点集合获得单元用于依据第二SNP位点集合中的SNP位点的多态性和随机匹配率，获得第三SNP位点集合，所述SNP位点的多态性数目等于2以及随机匹配率小于0.8是所述SNP位点进入第三SNP位点集合的指示，

最终SNP位点集合获得单元，所述最终SNP位点集合获得单元与所述第三SNP位点集合获得单元相连，所述最终SNP位点集合获得单元用于依据第三SNP位点集合的SNP位点的随机匹配率，获得所述SNP位点集合，所述随机匹配率最小的SNP位点组成所述SNP位点集合。

8.根据权利要求7所述的系统，其特征在于，进一步包括过滤和去污装置，所述过滤和去污装置用于将所述待测样本的测序结果进行过滤和去污处理；

任选地，所述参照基因组序列为Metagenome参考基因组数据集；

任选地，所述比对装置进一步适于去除MAPQ值低于10的所述测序序列；

任选地，进一步包括验证装置，所述验证装置与所述筛选装置相连，用于对筛选装置所获得的所述SNP位点集合进行验证，所述SNP位点集合的最大DNA频率小于1/(7*10⁹)，优选为小于等于1.748e-56是所述SNP位点集合为目的SNP位点集合的指示；

任选地，所述第一SNP位点集合获得单元适于执行以下操作：

对所述初始SNP位点集合的每个位点分型进行卡方检验，获得符合哈温平衡的SNP位点分型，所述符合哈温平衡的SNP位点分型组成所述第一SNP位点集合；

任选地，所述SNP位点的随机匹配率是依照公式确定的，

其中，PM表示SNP位点的随机匹配率，k表示SNP位点的基因型个数，Pn表示所述SNP位点第n个基因型的基因型频率；

任选地，所述随机匹配率最小的至少80个，优选90个，更优选100个SNP位点组成所述SNP位点集合。

9.一种用于对特定人群进行个体识别的试剂盒，其特征在于，包括：试剂，所述试剂用于特异性识别或扩增预定SNP位点，所述预定SNP位点为权利要求4或5所限定的SNP集合中的SNP位点。

10.根据权利要求9所述的试剂盒，其特征在于，所述试剂具有SEQ ID NO:1～200所示的核苷酸序列。