CN112466395B

CN112466395B - 基于snp多态性位点的样本识别标签筛选方法与样本识别检测方法

Info

Publication number: CN112466395B
Application number: CN202011192800.XA
Authority: CN
Inventors: 栗海波; 余伟师; 梁萌萌; 张斯佳; 李珉
Original assignee: Suzhou Semek Gene Technology Co ltd
Current assignee: Suzhou Semek Gene Technology Co ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-08-17
Anticipated expiration: 2040-10-30
Also published as: CN112466395A

Abstract

本发明提供的基于SNP多态性位点的样本识别标签筛选方法与样本识别检测方法，涉及生物学与精准医学全基因组变异检测领域；首先根据多个样本的基因组比对与矫正数据经SNP变异检测后建立SNP人群频率数据库，再在SNP人群频率数据库中经五次筛选出检测效果好的若干SNP位点构建SNP候选标签位点集合，SNP候选标签位点集合中特定数目的SNP位点构成样本识别标签；然后统计待识别样本中所有个体按照样本识别标签中各SNP位点的分型结果构成SNP位点基因型矩阵，采用距离计算方法获得样本间距离矩阵，根据样本间距离矩阵的数据即可实现样本个体识别或样本来源判定；本发明通过样本识别标签简单高效的实现样本识别。

Description

基于SNP多态性位点的样本识别标签筛选方法与样本识别检测方法

技术领域

本发明涉及生物学与精准医学全基因组变异检测技术领域，具体涉及一种基于SNP多态性位点的样本识别标签筛选方法与样本识别检测方法。

背景技术

随着精准医学的发展，高通量测序(next-generation sequencing,NGS)越来越成为有效的检测手段，与此同时，带来了大量样本的检测需求。一方面针对临床检测机构，面对大量的个体检测样本，如何确保前端送测样本与最后分析样本一致性，避免样本间的搞混，或是交叉污染的发生，需要耗费大量的监控资源。另一方面，在发现样本存在问题的情况下，如何高效准确的区分样本，排查问题发生的环节，也存在一定的技术挑战。当前，精准医学在迅速的普及与发展，医学领域不同疾病大型队列研究也在逐渐兴起，因此，大量的个体与对应的样本间有效的对应管理，以及发现异常后，对样本与个体间的高效识别，也越来越重要。

针对样本的个体识别需求，当前主要的技术手段为PCR-STR分型技术，即采用PCR(聚合酶链式反应)对基因组中特定的短串联重复序列多态性位点(SRT) 区进行扩增，并通过电泳的方式进行扩增片段分离，并显示带型，通过对带型的差异分析，来进行个体样本的区分，该方法目前是个体识别的主要技术手段。

当前PCR-STR作为第二代DNA分型技术，具有高的灵敏度和准确性，但是该技术仍然存在一些问题：1)效率较低，PCR-STR技术的实验处理环节较多，包括了样本DNA提取、PCR扩增、电泳、显带STR分型，整体的流程周期比较长；2)通量较低，由于实验流程的复杂性，该技术已经无法适配精准医学领域个体样本检测规模通量，成为一个比较关键的制约因素；3)普适性偏低， PCR-STR实验设计需要选取STR基因座，而STR基因座存在地缘人种的差异。不同的地缘人种需要设计不同的STR基因座，来适用该地缘人种的个体识别；4) 有比较高的技术要求，只有相关有资质的检测机构和专业人员，才能完成如此复杂的PCR-STR分型实验流程；即现有技术中缺乏可高效用于样本个体识别的检测方法，也缺乏能普遍适用于任何样本进行识别判断的有效的识别标签。

发明内容

本发明目的在于提供一种基于SNP多态性位点的样本识别标签筛选方法与样本识别检测方法，通过该筛选方法获得的样本识别标签可直接应用于筛选个体SNP标签，应用在样本识别检测过程中高效对个体进行分型并识别样本的个体来源。

为达成上述目的，本发明提出如下技术方案：一种基于SNP多态性位点的样本识别标签筛选方法，该筛选方法筛选的样本识别标签用于判定样本间对应关系，具体包括如下步骤：

1)对多个样本的基因组比对与矫正数据进行SNP变异检测，获得各样本的 SNP变异检测数据；

2)对各样本的SNP变异检测数据中的变异进行合并，获得群体变异数据；

3)对群体变异数据中各变异位点进行频率统计，获得各SNP位点的人群频率统计数据；

4)将SNP位点人群频率统计数据按照指定人群频率过滤，保留指定人群频率区间范围内的SNP位点，构成第一SNP位点集合；

5)基于不同捕获探针共有的捕获区，筛选并保留第一SNP位点集合中共有捕获区域内的SNP位点，构成第二SNP位点集合；

6)过滤第二SNP位点集合中同源区域和重复区域的SNP位点，获得去重后的第三SNP位点集合；

7)根据第三SNP位点集合中任一SNP位点所在基因组片段的GC碱基含量筛选第三SNP位点集合中所有SNP位点，获得基因组片段中GC碱基含量处于平衡区的所有SNP位点，构成第四SNP位点集合；

8)对第四SNP位点集合中位于基因组上连锁区中的若干SNP位点，仅保留位于连锁区上任一SNP位点，去除连锁区上冗余SNP位点，获得最终无连锁现象的第五SNP位点集合，第五SNP位点集合定义为SNP候选标签位点集合；

9)从SNP候选标签位点集合中任意选取特定数目的SNP位点，特定数目的SNP位点构成样本识别标签。

进一步的，所述步骤3)中获得SNP位点人群频率统计数据的过程为：

对群体变异数据中任一变异位点，定义为目标SNP位点，获取目标SNP位点在基因组中的参考碱基类型和目标SNP位点经SNP变异后碱基类型；计算目标SNP位点人群频率，所述目标SNP位点人群频率包括变异频率和纯合比例；所述变异频率为群体所有样本中目标SNP位点经SNP变异后单碱基数量和占群体变异数据中群体所有样本目标位点碱基总数的比例，所述纯合比例为群体所有样本中目标SNP位点经SNP变异后纯合碱基数量占群体变异数据中群体所有样本目标位点双碱基总数的比例。

进一步的，所述步骤4)中指定人群频率区间为满足变异频率区间为(0.4， 0.6)，且同时满足纯合比例区间为(0.15，0.25)。

进一步的，所述步骤5)中捕获探针包括IDT、Agilent、T192V1、MGIV4 和T084V2。

进一步的，所述步骤7)中根据SNP位点所在基因组片段的GC碱基含量筛选SNP位点的过程为：

以任一SNP位点在基因组中的位置为参考位置，定义基因组上沿参考位置上下游100bp区域为基因组片段；查找基因组片段中所有碱基，统计基因组片段内GC碱基含量占基因组片段中所有碱基的比例；当该SNP位点对应的基因组片段中GC碱基的比例在[30％，50％]区间内，则保留该SNP位点至第四SNP 位点集合中，否则筛去该SNP位点。

本发明还公开了采用上述样本识别标签进行样本识别的检测方法，该方法包括如下步骤：

6.1)首先根据上述的基于SNP多态性位点的样本识别标签筛选方法构建样本识别标签；

6.2)基于待识别样本的基因组比对与矫正数据，指定样本识别标签中所有 SNP位点信息，重复获取每个SNP位点上的四类碱基分布情况；

6.3)根据每个SNP位点上同一碱基的频率，判定各SNP位点的分型，得到待识别样本中每个SNP位点的基因型统计结果；

6.4)分别获取多个待识别样本在样本识别标签下的所有SNP位点基因型统计结果，合并待识别样本中所有SNP位点基因型统计结果，进行基因型结果合并，获得多样本的SNP位点基因型矩阵；

6.5)基于SNP位点基因型矩阵，采用距离计算方法，得到样本间距离矩阵；

6.6)根据样本间距离矩阵，进行样本个体识别或样本来源判定。

进一步的，所述步骤6.6)中基于样本间距离矩阵，判定样本间距离远近，绘制距离关系热图，样本间距离值的大小表征样本间亲缘关系的远近。

进一步的，所述步骤6.5)中距离计算方法为：

对SNP位点基因型矩阵中每个SNP位点计算任意两个待识别样本间的距离值，任意两个待识别样本间的距离值为两个待识别样本上所有样本识别标签中的对应SNP位点间距离和的均值，公式如下：

其中，x、y分别表示待识别样本中任意两个样本，Dxy表示任意两个待识别样本间的距离值，i表示样本识别标签中特定的SNP位点，n表示样本识别标签中SNP位点的总数，dxy表示特定的SNP位点在两个待识别样本间距离值；

当两个待识别样本对于特定的SNP位点检出的基因型相同时，dxy＝0.0；当两个待识别样本对于特定的SNP位点检出的基因型部分相同时，dxy＝0.5；当两个待识别样本对于特定的SNP位点检出的基因型完全不相同时，dxy＝1.0。

由以上技术方案可知，本发明的技术方案提供的基于SNP多态性位点的样本识别标签筛选方法与样本识别检测方法，获得了如下有益效果：

本发明公开的基于SNP多态性位点的样本识别标签筛选方法与样本识别检测方法，先通过筛选对样本个体具有普遍适用的样本识别标签，再通过样本识别标签实现对样本中若干个体来源识别或对应关系的检测；具体为，首先根据多个样本的基因组比对与矫正数据经SNP变异检测后建立SNP人群频率数据库，再在SNP人群频率数据库中经五次筛选出检测效果好的若干SNP位点构建 SNP候选标签位点集合，SNP候选标签位点集合中特定数目的SNP位点构成样本识别标签；统计待识别样本中所有个体按照样本识别标签中各SNP位点的分型结果构成SNP位点基因型矩阵，采用距离计算方法获得样本间距离矩阵，根据样本间距离矩阵的数据即可实现样本个体识别或样本来源判定。

本发明创新性的提出了对待识别样本建立样本识别标签的高效筛选方法，创新性的运用样本识别标签对待识别样本进行分型并进行个体识别，创新性的将该技术应用于NGS测序技术中，实现对样本进行“指纹识别”，根据计算的样本间距离判定样本的个体来源，能准确判别样本是否源于同一个体，同时能根据样本间距离关系，辅助判定样本亲缘关系。

此外，本发明可高通量检测样本，样本识别标签构建后可以直接执行检测过程，自动化进行并行分析；本发明的方法适用于目前NGS的多种数据类型，包括基因组测序(WGS)，全外显子组测序(WES)等，针对不同探针类型的WES 测序数据也同样使用；整体筛选和检测方法流程简便，使用方便。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1为本发明筛选样本识别标签并进行样本识别整体流程图；

图2为本发明SNP人群频率数据库构建流程图；

图3为本发明SNP候选标签位点集合筛选流程图；

图4为本发明待识别样本SNP位点分型统计流程图；

图5为本发明根据样本间距离进行个体识别流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，除非上下文清楚地指明其它情况，否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件，并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。“上”“下”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

基于现有技术中针对样本的个体识别需求主要是采用PCR-STR分型技术，该技术由于技术及流程复杂，导致检测工作效率、通量和普适性较低，进而应用范围小，识别成本高；本发明旨在提出一种基于SNP多态性位点的样本识别标签筛选方法与样本识别检测方法，构建了对不同样本具有普适性的样本识别标签，对多个样本在分型能快速进行样本个体识别和来源对应关系判断，适用范围广，工作效率和通量高。

下面结合附图所示的实施例，对本发明的基于SNP多态性位点的样本识别标签筛选方法与样本识别检测方法作进一步具体介绍。

结合图1所示，本发明主要公开了两部分内容，其一为基于SNP多态性位点的样本识别标签筛选方法，其二为通过该筛选方法筛选出的样本识别标签进行样本识别检测的方法，上述两部分技术方案可直接概括为四个阶段，即SNP 人群频率数据库构建、SNP候选标签位点筛选、样本SNP位点检测与分型和样本间距离关系计算与个体识别。其中，样本识别标签的筛选方法涉及SNP人群频率数据库构建和SNP候选标签位点筛选两个阶段，样本识别检测包括样本 SNP位点检测与分型和样本间距离关系计算与个体识别两个阶段。

结合图2和图3所示，样本识别标签筛选方法主要如下步骤：

其中，步骤3)中获得SNP位点人群频率统计数据的过程为：对群体变异数据中任一变异位点，定义为目标SNP位点，获取目标SNP位点在基因组中的参考碱基类型和目标SNP位点经SNP变异后碱基类型；计算目标SNP位点人群频率，所述目标SNP位点人群频率包括变异频率和纯合比例；所述变异频率为群体所有样本中目标SNP位点经SNP变异后单碱基数量和占群体变异数据中群体所有样本目标位点碱基总数的比例，所述纯合比例为群体所有样本中目标 SNP位点经SNP变异后纯合碱基数量占群体变异数据中群体所有样本目标位点双碱基总数的比例。具体实施时，样本的基因组比对与矫正数据通常为存储的 BAM文件，SNP变异检测数据存储为gVCF文件。

例如，选取构建SNP人群频率数据库的样本数为1000份，目标SNP位点在基因组上的坐标为chr1:100000，其在基因组中参考碱基类型为C，SNP变异类型为C突变T，若数据库中有100份该目标SNP位点碱基类型为TT，600 份该目标SNP位点碱基类型为CT，其余300份碱基类型为CC，则该目标SNP 位点T碱基的变异频率Freq(T)为0.4，该目标SNP位点T碱基纯合比例 Ratio_Hom(T)为0.1，即

Freq(T)＝(100*2+600)/(1000*2)＝0.4

Ratio_Hom(T)＝100/1000＝0.1。

筛选方法在步骤1)至步骤3)实现对SNP人群频率数据库的构建，如图2 所示，一方面可以得到初始候选SNP位点集合，另一方面，可以基于每个SNP 位点的频率值来进行SNP位点筛选，有效提升SNP位点的筛选效率。SNP人群频率数据库可以依据现有收录的多个已知样本进行构建，也可以从公共开源的数据库中下载获取，通常用来构建SNP人群频率数据库的样本总数至少要超过 1000份，确保选取的SNP位点具有普适性。

如图3所示，步骤4)至步骤8)实现的是SNP候选标签位点筛选的阶段；由于SNP人群频率数据库中的变异位点数量巨大，存在部分样本检出，部分样本未检出等多种情况，因此不是每一个变异位点都能作为有效的标签位点，需要进一步基于不同的条件进行筛选，最终获得可作为标签的SNP位点候选集合，并用于后续的相关检测和分析。

SNP候选标签位点筛选阶段首先通过指定人群频率区间进行第一次筛选，当SNP人群频率数据库中的变异位点满足变异频率区间为(0.4，0.6)，且同时满足纯合比例区间为(0.15，0.25)，保留该变异位点至第一SNP位点集合中；人群中发生变异频率过高或者过低的变异位点，因为不能有效的区分人群而不适用于作为个体标签。在不同的临检机构对样本会采用不同的测序方式，例如 WGS(全基因组测序)，WES(全外显子组测序)，Panel(特定基因或区域捕获测序)等，而WES和Panel又有不同的类型的捕获探针，例如IDT、Agilent、T192V1、MGIV4和T084V2，各探针对基因组捕获的区域各不相同，因此为了提高筛选到的SNP位点适用范围，可预先将不同捕获试剂盒共同捕获区的SNP 位点进行过滤保留，即进行步骤5)的第二次筛选，并获得第二SNP位点集合。基于在基因组中存在大量的基因组序列信息相似度很高的同源区域和重复区域，在测序实验过程中，同源区域和重复区域的变异位点是会因为同源或重复因素的影响，无法准确判定真实的状态，因此在步骤6)的第二SNP位点集合需要提前去除同源区域和重复区域的SNP位点。

另外，在基因组中存在一些高GC碱基含量或者低GC碱基含量的区域，这些区域无论是一代测序，还是其他高通量测序技术都是测序的难点区，因此需要对第三SNP位点集合中每个SNP位点进行区域GC碱基含量统计，并去除高 GC碱基含量或低GC碱基含量区的SNP位点，确保最终得到的标签位点在不同方式的测序实验中，都是容易被检测到的。在步骤7)中，高GC碱基含量是指 GC碱基达50％以上，低GC碱基含量指GC碱基处于30％以下；根据SNP位点所在基因组片段的GC碱基含量筛选SNP位点的过程为：以任一SNP位点在基因组中的位置为参考位置，定义基因组上沿参考位置上下游100bp区域为基因组片段；查找基因组片段中所有碱基，统计基因组片段内GC碱基含量占基因组片段中所有碱基的比例；当该SNP位点对应的基因组片段中GC碱基的比例在 [30％，50％]区间内，则保留该SNP位点至第四SNP位点集合中，否则筛去该 SNP位点。

由于基因组DND在遗传过程中存在连锁遗传的现象，因此会出现不同的 SNP位点间存在连锁效应，即两个或多个SNP位点，总是会同时发生存在，即几个存在连锁的SNP位点，在同时作为标签位点发挥作用，与任意选取其中一个SNP位点发挥作用，效力是等同的，因此获得位于平衡区的第四SNP位点集合后，对第四SNP位点集合中的SNP位点进一步去除冗余，获得各SNP位点不连锁、不重复的第五SNP位点集合，即SNP候选标签位点集合。

通过上述SNP人群频率数据库构建和SNP候选标签位点筛选两个阶段筛选出可供选择使用的SNP候选标签位点集合后，即可随机从SNP候选标签位点集合选择特定数目的SNP位点直接构成样本识别标签进行样本识别，如多个样本是否来源同一个体，两个样本间的亲缘对应关系等。

结合图4和图5所示，样本识别检测方法，具体包括如下步骤：

6.1)根据上述的基于SNP多态性位点的样本识别标签筛选方法构建样本识别标签；

其中步骤6.1)至步骤6.3)构成样本SNP位点检测与分型阶段，步骤6.4) 至步骤6.6)构成样本间距离关系计算与个体识别阶段。其中，步骤6.5)中距离计算方法为：

当两个待识别样本计算得到的样本间的距离值Dxy为零，表示这两个样本来源于同一个体，在实验室测序环境中，即时忘记样品来源，可通过待识别样本与有标记的怀疑样本进行样本间距离计算，验证是否是来源同一个体，实现样本来源识别。

在步骤6.5)建立样本间距离矩阵中，由于具有多个样本，可能来源于同一个体，也可能是家系多个个体，此时可基于样本间距离矩阵，判定样本间距离远近，绘制距离关系热图，样本间距离值的大小表征样本间亲缘关系的远近；例如，Dxy值越大表示两个样本亲缘关系越远，Dxy值越小表示两个样本亲缘关系越近。

本发明基于SNP多态性位点的样本识别标签筛选方法与样本识别检测方法创新性的提出样本识别标签，该标签的筛选高效，且对于个体通用，在个体的不同样本中均能被检测到，通过该标签对样本进行分型、准确识别样本来源，进行个体识别；创新性的将样本识别标签应用于NGS测序技术中，构成样本的“指纹”，通过样本的“指纹”判定样本的个体来源，或进行样本间距离计算判定与个体的对应关系或样本亲缘关系。本发明的样本识别检测方法分析流程简便，部署方便，效率高、检测精度高，可高通量检测多个样本，并且能适用不同检测仪器，使用范围广。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种样本识别检测方法，其特征在于，包括如下步骤：

基于SNP多态性位点的样本识别标签筛选方法构建样本识别标签；

基于待识别样本的基因组比对与矫正数据，指定样本识别标签中所有SNP位点信息，重复获取每个SNP位点上的四类碱基分布情况；

根据每个SNP位点上同一碱基的频率，判定各SNP位点的分型，得到待识别样本中每个SNP位点的基因型统计结果；

分别获取多个待识别样本在样本识别标签下的所有SNP位点基因型统计结果，合并待识别样本中所有SNP位点基因型统计结果，进行基因型结果合并，获得多样本的SNP位点基因型矩阵；

基于SNP位点基因型矩阵，采用距离计算方法，得到样本间距离矩阵；

根据样本间距离矩阵，进行样本个体识别或样本来源判定。

2.根据权利要求1所述的样本识别检测方法，其特征在于，所述样本识别标签用于判定样本间对应关系，所述基于SNP多态性位点的样本识别标签筛选方法包括如下步骤：

1)对多个样本的基因组比对与矫正数据进行SNP变异检测，获得各样本的SNP变异检测数据；

3.根据权利要求2所述的样本识别检测方法，其特征在于，所述步骤3)中获得SNP位点人群频率统计数据的过程为：

4.根据权利要求3所述的样本识别检测方法，其特征在于，所述步骤4)中指定人群频率区间为满足变异频率区间为(0.4，0.6)，且同时满足纯合比例区间为(0.15，0.25)。

5.根据权利要求2所述的样本识别检测方法，其特征在于，所述步骤5)中捕获探针包括IDT、Agilent、T192V1、MGIV4和T084V2。

6.根据权利要求2所述的样本识别检测方法，其特征在于，所述步骤7)中根据SNP位点所在基因组片段的GC碱基含量筛选SNP位点的过程为：

以任一SNP位点在基因组中的位置为参考位置，定义基因组上沿参考位置上下游100bp区域为基因组片段；查找基因组片段中所有碱基，统计基因组片段内GC碱基含量占基因组片段中所有碱基的比例；当该SNP位点对应的基因组片段中GC碱基的比例在[30％，50％]区间内，则保留该SNP位点至第四SNP位点集合中，否则筛去该SNP位点。

7.根据权利要求1所述的样本识别检测方法，其特征在于，根据样本间距离矩阵，判定样本间距离远近，绘制距离关系热图，样本间距离值的大小表征样本间亲缘关系的远近。

8.根据权利要求1所述的样本识别检测方法，其特征在于，所述样本间距离计算方法为：