CN115572770A

CN115572770A - 一种通过snp错配率判断亲缘关系的方法

Info

Publication number: CN115572770A
Application number: CN202211079628.6A
Authority: CN
Inventors: 曾丰波; 熊露; 黄奎匀; 杨功达; 巫萍; 严俊
Original assignee: Shanghai Biocsi Technology Co ltd
Current assignee: Shanghai Biocsi Technology Co ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-01-06
Anticipated expiration: 2042-09-05
Also published as: CN115572770B

Abstract

本发明提供了一种通过SNP错配率判断亲缘关系的方法，通过模拟样本数据，模拟测序，使用特定的生物信息学分析方法等步骤获得模拟样本的SNP错配率数据，再与实际待测样本的SNP错配率进行比较，进而判断实际待测样本间的亲缘关系。本发明的方法不但可以判断亲子关系，还可以判断全同胞关系、半同胞关系等，方法简便、准确率和可信性高、可重复性高，在亲缘关系鉴定领域具备广泛的应用前景。

Description

一种通过SNP错配率判断亲缘关系的方法

技术领域

本发明涉及生物检测领域，具体为亲子鉴定检测领域，尤其涉及一种通过SNP错配率判断亲缘关系的方法。

背景技术

亲子鉴定是基因检测技术非常成熟的应用领域，一般通过检测两个检材的遗传标记，对两个样品的检测结果进行比对，如果两个样品的遗传标记符合孟德尔遗传定律，则认为两个样品符合亲子关系。目前常用的遗传标记主要有两种，短序列串联重复(STR)和单碱基多态性位点(SNP)，此外也有一些研究采用插入缺失(InDel)突变位点作为遗传标记物。一代测序技术是亲子鉴定领域应用最为成熟的检测技术，一般通过21个STR位点来进行亲子鉴定，判别。一代测序有速度快，成本低和操作简便等优势，被各类的鉴定机构广泛使用，是目前亲子鉴定方向的主要检测技术。

单碱基多态性位点(single nucleotide polymorphism，SNP)是第三代遗传学标记，这种遗传标记是由于单碱基突变使特定核苷酸位置上出现两种碱基，其中最少的一种在群体中的频率不少于1％。与第一代的RFLP及第二代的STR以长度的差异作为遗传标记的特点截然不同。SNP的分布密集，如果以1％的频率计算，在人基因组中就有300万个以上的SNP遗传标记，这可能达到了人类基因组多态位点数目的极限，因此被认为是应用前景最好的遗传标记物。

涉及SNP作为标记物用于检测的现有技术，CN106599612B(授权公告日2020.04.28)公开了一种基于高通量测序数据的指纹识别方法，选取人类基因组中多个SNP位点作为指纹特征点，所述SNP位点为单碱基二态，MAF值在0.35～0.65之间，同一染色体上的SNP位点的相互距离大于一百万个碱基；选取的SNP位点选自以下1820个SNP位点的组合，以这些SNP位点作为坐标点，将测序数据的特征进行数据模型化和指纹化，为高通量测序数据构建指纹识别方法，可用于鉴定高通量测序数据是否来自同一个样本，也可用于鉴定是否来自同一个数据生产机构，或者用于鉴定有争议的高通量测序数据是否是同一个数据，还可用于鉴定不同样本间的亲缘关系。CN108504750B(授权公告日2021.10.15)公开了一种确定菌群SNP位点集合的方法。该菌群SNP位点集合用于特定人群的个体鉴定，该方法包括：(1)将来自于待测样本的测序结果与参照基因组序列进行比对，所述测序结果由多个测序序列构成，以便确定能够与所述参照基因组序列比对上的所述测序序列，(2)基于步骤(1)所获得的所述测序序列，确定SNP位点分型，以及(3)基于步骤(2)所获得的SNP位点分型，确定所述SNP位点集合。

如上所述，现有技术中虽然公开了多种通过SNP进行鉴定的方法，但未有公开通过计算SNP错配率用于判断亲缘关系。虽然现有技术中已有判断亲缘关系的方法，但本领域仍存在广泛的诉求，提供一种简便、准确率和可信性高、可重复性高的判断亲缘关系的方法，特别是判断除亲子关系以外，还可以判断全同胞关系、半同胞关系等。

发明内容

为了解决现有技术的不足，本发明通过新一代的高通量测序技术，以SNP位点为遗传标记物，通过对人类基因组中上千个二态性常染色体的SNP位点进行目标区域捕获测序，每个SNP点位可以检测到低至千分之一的低频突变，并获得待测样本的分型结果，通过统计两个待测样本之间的错配位点并计算错配率，可以对亲缘关系进行判断。该方法可以用于判断常见的亲缘关系，包含：亲子关系、全同胞关系、半同胞关系、叔侄关系、叔侄(半)关系、堂亲关系、爷孙关系、爷孙(半)关系、随机无任何亲缘关系人群。

本发明通过模拟新一代的高通量测序技术，通过随机生成样本数据，模拟测序等步骤，通过统计两个待测样本之间的错配位点并计算错配率，可以对亲缘关系进行判断，具体包括：

(1)通过人群频率分别随机生成500-1500组模拟样本T1、样本T2，模拟亲缘关系和随机人群关系；选择样本基因组上2000-3000个突变频率在[0.05-0.95]之间二态性的常染色体SNP位点，以此作为遗传标记物，进行模拟高通量测序，并依据测序深度进行SNP分型；

进一步地，模拟样本数为1000组，SNP位点为2500个，模拟测序深度为50X-100X；

进一步地，亲缘关系包括亲子关系、全同胞关系、半同胞关系、叔侄关系、半叔侄、堂亲、爷孙、半爷孙关系中的一种或数种。

(2)通过每个SNP位点模拟测序的深度分别获得待测样本T1与T2的SNP分型位点集X(T1)、X(T2)，再获取分析位点集X’，X’＝X(T1)∩X(T2)，统计分析位点集X’的SNP位点个数，将这些位点记为有效位点；

(3)统计有效位点中T1与T2之间的错配位点。规则如下：如果模拟样本T1在该位点为AA型，而模拟样本T2在该位点为AA或Aa，则该位点不排除T1和T2的亲缘关系，计作“匹配”位点；而当T2为aa型时，则该位点排除T1和T2的亲缘关系，计作“错配”位点；

(4)计算错配率，公式如下：

如果T1、T2为亲子关系的两个个体，可获得亲子关系下的错配率，理论值为0；

如果T1、T2为毫无关系的两个个体，可获得无任何亲缘关系之间的错配率；

如果T1、T2为全同胞(同父同母)的两个个体，可获得全同胞之间的错配率；

如果T1、T2为半同胞(同父异母、或同母异父)的两个个体，可获得半同胞之间的错配率；

如果T1、T2为叔侄关系的两个个体，可获得叔侄之间的错配率；

如果T1、T2为半叔侄关系的两个个体，可获得半叔侄之间的错配率；

如果T1、T2为堂亲关系的两个个体，可获得堂亲之间的错配率；

如果T1、T2为爷孙关系的两个个体，可获得爷孙之间的错配率；

如果T1、T2为半爷孙关系的两个个体，可获得半爷孙之间的错配率。

(5)用密度图对所有模拟样本的错配率进行拟合；

(6)对实际待测样本进行高通量测序和分析，以测定错配率，并与步骤(5)生成的模拟样本的错配率进行比较，得到实际待测样本间的关系。

进一步地，所述步骤(1)中人群为中国人群。

进一步地，步骤(1)模拟亲缘关系和随机人群关系具体包含如下步骤：根据不同SNP位点的人群频率获得不同位点的基因型的频率；A代表野生型位点，a代表突变型位点，如该位点人群频率A：a＝X：Y，则AA型频率为X²、aa型频率为Y²、Aa型频率为2XY；根据基因型频率随机抽取获取每个位点的基因型。

进一步地，步骤(6)对实际待测样本进行高通量测序和分析具体包含如下步骤：在获得检材后，首先对目标检材进行核酸提取，并进行全基因组建库，在建库的过程中对每个样品的DNA序列加上代表编号的barcode序列和可以用于高通量测序的测序接头和其它必要序列，并进行全基因组扩增；在建库完成后，使用一组探针序列，对所述SNP位点进行液相杂交捕获，并进行高通量测序和生物信息学分析。

进一步地，步骤(6)还包含SNP分型步骤，测序和分析完成后，对每个样品的每个SNP位点进行总的测序深度，进一步根据人类基因组参考序列进行判别的“野生型”和“突变型”位点深度。

进一步地，步骤(6)待测样本SNP分型结果通过如下方式获得，A代表野生型位点，a代表突变型位点，当测序结果中该位点的总深度为100X时，其中A为100X，a为0X，则该位点为纯合野生型位点，记为AA；如果A为0X，a为100X，则为纯合突变型位点，记为aa；如果A和a的测序深度接近1:1，则该位点为杂合子，记为Aa。

进一步地，当两个个体样本之间的亲子关系成立时，所有检测位点100％都为匹配位点；而当两个无关个体进行比对时，有80-85％的位点随机符合孟德尔遗传，有10-15％的位点为错配位点。

进一步地，如果两个待测样本之间的错配率在[0％,0.6782％]之间，可以判定为亲子关系；错配率在[1.737％,4.268％]之间，可以判定为全同胞关系；错配率在[4.127％,7.667％]、[4.089％,7.238％]、[3.828％,7.823％]之间，可以判定为半同胞，叔侄，爷孙三种之一；错配率在[6.576％,10.648％]、[6.802％,10.566％]、[6.774％,10.666％]之间，可以判定为堂亲、半叔侄、半爷孙三种之一；错配率在[9.41％,13.89％]之间，可以判定为无任何亲缘关系的两个个体。

进一步地，计算亲子、全同胞、半同胞、爷孙、叔侄、堂亲、爷孙(半)、叔侄(半)、随机的错配率均值分别为0、3.003％、5.897％、5.663％、5.825％、8.612％、8.684％、8.720％、11.65％。

SNP高通量测序方法示例：选取了人类基因组上2500个左右突变频率在[0.05-0.95]之间二态性的常染色体SNP位点，(SNP数据来源于：ftp://ftp.ncbi.nlm.nih.gov/snp/.redesign/.archive/b155/VCF/GCF_000001405.39.gz)以此作为遗传标记物，用于亲缘关系鉴定。在获得检材后，首先对目标检材进行核酸提取，并进行全基因组建库，在建库的过程中对每个样品的DNA序列加上代表编号的barcode序列和可以用于高通量测序的测序接头和其它必要序列，并进行全基因组扩增。在建库完成后，使用一组探针序列，对上千个SNP位点进行液相杂交捕获，并进行高通量测序和生物信息学分析。

SNP分型方法：测序和分析完成后，每个样品的每个SNP位点都会有一个总的测序深度，以及根据人类基因组参考序列进行判别的“野生型”和“突变型”位点深度。以某一个SNP位点为例，用A代表野生型位点，a代表突变型位点，如果测序结果中该位点的总深度为100X，其中A为100X，a为0X，则该位点为纯合野生型位点，记为AA；如果A为0X，a为100X，则为纯合突变型位点，记为aa；如果A和a的测序深度接近1:1，则该位点为杂合子，记为Aa。依此可以获得待测样本的SNP分型结果。

如果样品甲在该位点为AA型，而样品乙在该位点为AA或Aa，则该位点不排除甲和乙的亲子关系，在本方法中计作“匹配”位点；而当乙为aa型时，则该位点排除甲和乙的亲子关系，在本方法中计作“错配”位点。一般来说，当甲和乙的亲子关系成立时，所有检测位点100％都为匹配位点；而当两个无关个体进行比对时，有80-85％的位点随机符合孟德尔遗传，而有10-15％的位点为错配位点。

SNP分型后，经数理统计算法统计错配位点并计算错配率，计算公式如下，用密度图表示错配率的分布。

与现有技术相比，本发明具有如下显著的效果：

(1)本发明的技术方案不但可以用于判断亲子关系，还可以判断、全同胞关系、半同胞关系、叔侄关系等亲缘关系，应用范围广；

(2)本发明的技术方案应用特有的生物信息学分析方法，可以通过错配率准确地判断亲缘关系或随机人群关系，方法简便、准确率和可信性高、可重复性高，在亲缘关系鉴定领域有很好的应用前景。

附图说明

图1为本发明实施例1生成的密度分布图。

图2为亲缘关系图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。下列实施例中未注明具体条件的实验方法，按照常规方法和条件，或按照商品说明书选择。

本发明中，亲子关系指两个样本的遗传标记符合孟德尔遗传定律。

亲子关系，即P1与F1之间的关系；

全同胞关系，即P1与P1S1之间的关系；

半同胞关系，即F1与F1S1’之间的关系；

叔侄关系，即F2与F1S1之间的关系；

半叔侄关系，即F2与F1S1’之间的关系；

堂亲关系：F2与F之间的关系；

爷孙关系，即F2与P1之间的关系；

半爷孙关系，即F2与P1S1之间的关系；

随机人群关系指无任何亲缘关系。

其中：

P1:亲本，指父本或者母本；

P2:亲二代，指P1的亲本；

F1:子一代；

F2:子二代；

F：F1S1的子代；

P1S1:P1的全同胞，即P1同父同母的兄弟姐妹；

F1S1:F1的全同胞，即F1同父同母的兄弟姐妹；

F1S1’:F1的半同胞，即F1同父异母/同母异父的兄弟姐妹。

实施例1

1.通过中国人群频率分别随机生成1000组样本T1、样本T2，模拟亲子关系、全同胞关系(同父同母的兄弟姐妹，包括兄弟、姐弟、兄妹、姐妹)、半同胞关系(同父异母或同母异父的兄弟姐妹)、叔侄关系(叔侄、姑侄、舅甥、姨甥)、半叔侄、堂亲、爷孙、半爷孙、随机人群(无任何亲缘)关系。模拟亲缘关系和随机人群关系具体包含如下步骤：根据不同SNP位点的人群频率获得不同位点的基因型的频率；A代表野生型位点，a代表突变型位点，如该位点人群频率A：a＝X：Y，则AA型频率为X²、aa型频率为Y²、Aa型频率为2XY；例如该位点人群频率A：a＝0.6：0.4，则AA型频率为0.36、aa型频率为0.16、Aa型频率为0.48。根据基因型频率随机抽取获取每个位点的基因型。模拟测序深度为50X-100X；选择样本基因组上2500个突变频率在[0.05-0.95]之间二态性的常染色体SNP位点，以此作为遗传标记物，采用的部分SNP位点见表1，所有符合上述要求的SNP位点均可实现本发明；依据测序深度进行SNP分型。

表1本实施例方法中选择的部分SNP实例

2.通过每个位点的测序深度分别获得待测样本T1与T2的SNP分型位点集X(T1)、X(T2)，再获取分析位点集X’，

X’＝X(T1)∩X(T2)。统计分析位点集X’的SNP位点个数，将这些位点记为有效位点。

3.统计有效位点中T1与T2之间的的错配位点。规则如下：如果样品T1在该位点为AA型，而样品T2在该位点为AA或Aa，则该位点不排除T1和T2的亲缘关系，在本方法中计作“匹配”位点；而当T2为aa型时，则该位点排除T1和T2的亲子关系，在本方法中计作“错配”位点。

4.计算错配率，公式如下：

如果T1、T2为叔侄关系的两个个体，可获得叔侄之间的错配率；依次类推。

5.用密度图对1000组错配率进行拟合；

各种亲缘关系下，错配率如表2，生成的密度分布图如图1。

表2各种亲缘关系的错配率密度分布以及错配率均值

(6)如果两个待测样本之间的错配率在[0％,0.6782％]之间，可以判定为亲子关系；错配率在[1.737％,4.268％]之间，可以判定为全同胞关系；错配率在[4.127％,7.667％]、[4.089％,7.238％]、[3.828％,7.823％]之间，可以判定为半同胞，叔侄，爷孙三种之一；错配率在[6.576％,10.648％]、[6.802％,10.566％]、[6.774％,10.666％]之间，可以判定为堂亲、半叔侄、半爷孙三种之一；错配率在[9.41％,13.89％]之间，可以判定为无任何亲缘关系的两个个体。如果样本错配率同时落入以上两种或两种以上亲缘关系的错配率密度分布范围内，根据具体的错配率密度分布拟合曲线，判断亲缘关系为所述两种或两种亲缘关系中的一种。

根据本实施例1的方法，计算亲子、全同胞、半同胞、爷孙、叔侄、堂亲、爷孙(半)、叔侄(半)、随机的错配率均值分别为0、3.003％、5.897％、5.663％、5.825％、8.612％、8.684％、8.720％、11.65％。

图2显示本实施例样本分析的亲缘关系图，其中P1:亲本，指父本或者母本；P2:亲二代，指P1的亲本；F1:子一代；F2:子二代；F：F1S1的子代；P1S1:P1的全同胞，即P1同父同母的兄弟姐妹；F1S1:F1的全同胞，即F1同父同母的兄弟姐妹；F1S1’:F1的半同胞，即F1同父异母/同母异父的兄弟姐妹。

实施例2

已知A和B两人为亲子关系，抽取双方的血液，分别标记为样本CS248和CS249，进行亲子关系鉴定。通过测序分析得到CS248和CS249的SNP分型结果。根据实施例1的规则获取两个样本的有效位点集，计算错配率。检测结论：错配率为0，符合本发明亲子关系的错配率密度分布范围，支持CS248和CS249两者为亲子关系。

实施例3

已知A和C两人为非亲子关系，对A的血液样本标记为CS248，C的血痕样本标记为RTH6021F，进行亲子关系鉴定。通过测序分析得到RTH6021F和CS248的SNP分型结果。根据实施例1的规则获取两个样本的有效位点集，计算错配率。检测结论：错配率为11.31％，符合本发明随机个体的错配率密度分布范围及拟合曲线，排除RTH6021F和CS248之间存在亲子、全同胞、半同胞、叔侄、爷孙等亲子关系，为无关个体的两个人。

实施例4

已知D和E为同父异母的半同胞，对D和E的毛发样本分别标记为RTM5668F和RTM5668S,进行半同胞关系鉴定。通过测序分析得到RTM5668F和RTM5668S的SNP分型结果。根据实施例1的规则获取两个样本的有效位点集，计算错配率。检测结论：错配率为5.49％，符合本发明半同胞的错配率密度分布范围及拟合曲线，支持RTZ2933S1和RTM2933S2两者为半同胞关系。

实施例5

已知G和H为爷孙关系，对G的口拭子样本标记为RTS5331S,对H的血痕样本标记为RTH5331F,进行爷孙关系鉴定。通过测序分析得到RTS5331S和RTH5331F的SNP分型结果。根据实施例1的规则获取两个样本的有效位点集，计算错配率。检测结论：错配率为5.69％，符合本发明爷孙关系的错配率密度分布范围及拟合曲线，支持RTS5331S和RTH5331F两者为爷孙关系。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种通过SNP错配率判断亲缘关系的方法，其特征在于，包括：

1)通过人群频率分别随机生成500-1500组模拟样本T1、样本T2，模拟亲缘关系和随机无亲缘人群关系；选择样本基因组上2000-3000个突变频率在[0.05-0.95]之间二态性的常染色体SNP位点，以此作为遗传标记物，进行模拟高通量测序，并依据测序深度进行SNP分型；

(2)通过每个位点模拟测序的深度分别获得待测样本T1与T2的SNP分型位点集X(T1)、X(T2)，再获取分析位点集X’，X’＝X(T1)∩X(T2)，统计分析位点集X’的SNP位点个数，将这些位点记为有效位点；

(3)统计有效位点中T1与T2之间的错配位点，规则如下：如果模拟样本T1在该位点为AA型，而模拟样本T2在该位点为AA或Aa，则该位点不排除T1和T2的亲缘关系，计作匹配位点；而当T2为aa型时，则该位点排除T1和T2的亲缘关系，计作错配位点；

(4)计算错配率，公式如下：

(5)用密度图对所有模拟样本的错配率进行拟合；

(6)对实际待测样本进行高通量测序和生物信息学分析，以测定错配率，并与步骤(5)生成的模拟样本的错配率进行比较，得到实际待测样本间的关系。

2.根据权利要求1所述的方法，其中，步骤(1)所述的模拟样本数为1000组。

3.根据权利要求1所述的方法，其中，步骤(1)所述的SNP位点为2500个。

4.根据权利要求1所述的方法，其中，步骤(1)所述的模拟测序深度为50X-100X。

5.根据权利要求1所述的方法，其中，步骤(1)所述的亲缘关系包括亲子关系、全同胞关系、半同胞关系、叔侄关系、半叔侄、堂亲、爷孙、半爷孙中的一种或数种。

6.根据权利要求5所述的方法，其中，步骤(4)还包括：

如果T1、T2为全同胞同父同母的两个个体，可获得全同胞之间的错配率；

如果T1、T2为半同胞同父异母、或同母异父的两个个体，可获得半同胞之间的错配率；

7.根据权利要求1所述的方法，其中，步骤(1)模拟亲缘关系和随机人群关系具体包含如下步骤：根据不同SNP位点的人群频率获得不同位点的基因型的频率；A代表野生型位点，a代表突变型位点，如该位点人群频率A：a＝X：Y，则AA型频率为X²、aa型频率为Y²、Aa型频率为2XY；根据基因型频率随机抽取获取每个位点的基因型。

8.根据权利要求1所述的方法，其中，步骤(6)对实际待测样本进行高通量测序和分析具体包含如下步骤：在获得检材后，首先对目标检材进行核酸提取，并进行全基因组建库，在建库的过程中对每个样品的DNA序列加上代表编号的barcode序列和可以用于高通量测序的测序接头和其它必要序列，并进行全基因组扩增；在建库完成后，使用一组探针序列，对所述SNP位点进行液相杂交捕获，并进行高通量测序和生物信息学分析。

9.根据权利要求8所述的方法，其中，步骤(6)还包含SNP分型步骤，测序和分析完成后，对每个样品的每个SNP位点进行总的测序深度，进一步根据人类基因组参考序列进行判别的野生型和突变型位点深度。

10.根据权利要求9所述的方法，其中，步骤(6)待测样本SNP分型结果通过如下方式获得，A代表野生型位点，a代表突变型位点，当测序结果中该位点的总深度为100X时，其中A为100X，a为0X，则该位点为纯合野生型位点，记为AA；如果A为0X，a为100X，则为纯合突变型位点，记为aa；如果A和a的测序深度接近1:1，则该位点为杂合子，记为Aa。

11.根据权利要求1所述的方法，其中，如果两个待测样本之间的错配率在[0％,0.6782％]之间，可以判定为亲子关系；错配率在[1.737％,4.268％]之间，可以判定为全同胞关系；错配率在[4.127％,7.667％]、[4.089％,7.238％]、[3.828％,7.823％]之间，可以判定为半同胞，叔侄，爷孙三种之一；错配率在[6.576％,10.648％]、[6.802％,10.566％]、[6.774％,10.666％]之间，可以判定为堂亲、半叔侄、半爷孙三种之一；错配率在[9.41％,13.89％]之间，可以判定为无任何亲缘关系的两个个体。

12.根据权利要求11所述的方法，其中，计算亲子、全同胞、半同胞、爷孙、叔侄、堂亲、半爷孙、半叔侄、随机的错配率均值分别为0、3.003％、5.897％、5.663％、5.825％、8.612％、8.684％、8.720％、11.65％。

13.根据权利要求1所述的方法，其中，步骤(1)采用的部分SNP位点如下：