CN114496081A

CN114496081A - 构建突变集合的方法及其应用

Info

Publication number: CN114496081A
Application number: CN202011163812.XA
Authority: CN
Inventors: 谢刚; 黄树嘉; 金鑫; 尹烨; 王洪琦
Original assignee: Shenzhen Huada Forensic Technology Co ltd; BGI Shenzhen Co Ltd
Current assignee: Shenzhen Huada Forensic Technology Co ltd; BGI Shenzhen Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-05-13
Anticipated expiration: 2040-10-27
Also published as: CN114496081B

Abstract

本发明提供了一种构建突变集合的方法及其应用，该方法包括：(1)基于所述群体的个体总数和预先确定的碰撞概率阈值，确定所述突变集合中突变位点数目的最小值；和(2)从预先确定的初始集合中，选择预定数目的突变，以便获得所述突变集合，所述预定数目不小于步骤(1)中的所述最小值，其中，所述初始集合包括多个突变位点，所述多个突变位点的至少一部分满足下列条件：(a)所述突变位点的最大基因型概率不超过0.5；(b)所述突变位点的杂合比例不小于0.4；(c)所述突变位点不在重复序列区域中；(d)所述多个突变位点之间不存在连锁不平衡关系；和(e)所述突变位点满足哈温伯格平衡。

Description

构建突变集合的方法及其应用

技术领域

本发明涉及生物信息领域，具体地，涉及构建突变集合的方法及其应用，更具体地，涉及一种突变集合、构建突变集合的装置、基于所述突变集合对个体进行身份识别的应用、一种非临时性可存储介质、一种计算机设备和一种计算机程序产品。

背景技术

目前在司法领域的个体身份识别中，主要采用的是基于STR(short tandemrepeat，短片段重复序列)多态性的技术。其主要是用于解决两个个体(比如犯罪现场嫌疑犯与随机个人)之间的识别问题，在该场景中主要运用的是一个称为“个体识别能力DP(discrimination power)”的统计量作为评价指标，用于衡量遗传标记系统中识别不同个体效能的大小，其考虑的是随机两个个体之间在遗传标记上存在差别的概率，该过程在统计学中被称为“单次伯努利试验”。

这套方法的重点在于确保单次比较中的两个个体区分度的“平均效能”达到最大，即确保平均进行一次比较的DP值达到最大。

但这种将DP最大化的原理在用于构建总体人群的DNA身份证(DNA身份证要求人群中的每个个体都具有一个唯一标识)时存在着很多问题，因此研发新的用于构建个体区分体系的方法显得很有必要。

发明内容

本申请是基于发明人对以下问题的发现和认识所作出的：

根据现有技术，在保证DP最大化的情况下，所选择的遗传标记并不是总体人群中DNA身份证所需位点的最优选择。这是因为真正的DNA身份证需要确保每一个个体在总群体中都是唯一可识别的，这就必须保证群体中的任何一个个体的DNA身份证信息和群体中其他所有人相比都必须是唯一的，或者必须保证发生DNA身份证重复的几率足够低。这个过程不是DP的单次伯努利实验，而是群体间的多次伯努利抽样试验。因此，这意味着DP从其根本的数学原理上不适合总体人群的DNA身份证识别。

个体识别能力DP的计算结果是一个与人群基数无关的数值。这意味着无论该群体规模是大是小，都只使用相同的DP作为个体的识别能力。这种计算方法在单次的伯努利试验中是合适的，因为每次都只比较两个人，而且只需要比较一次。但在群体的DNA身份证中是不合适的，构成DNA身份证的多态性位点集合在群体中发生重复的几率(在本发明中为碰撞概率)会随着人群基数的变化而发生改变。然而DP显然无法准确描述这个问题，也无法计算出在任意给定的人群基数中如何选择DP的大小。

例如，DP无法计算在相同的位点集合下100人和100亿人的人群个体唯一标识的概率，换言之，不能计算在100个人和100亿人的人群分别需要多大的DP才能很好地实现个体身份的区分，DP通常只选择给出一个与人群基数无关的数值，为了确保能够尽可能符合足够大的人群基数，DP会被选择为一个足够灵敏的值——发生重复概率足够低的值。

基于以上问题和分析，DP并不能满足构建人群DNA身份证的需求，因此，构建一套新的个体唯一身份标识的原理方法很有必要。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，在本发明的第一方面，本发明提出了一种构建突变集合的方法，所述突变集合用于在群体中进行个体身份识别。根据本发明的实施例，所述方法包括：(1)基于所述群体的个体总数和预先确定的碰撞概率阈值，确定所述突变集合中突变位点数目的最小值；和(2)从预先确定的初始集合中，选择预定数目的突变，以便获得所述突变集合，所述预定数目不小于步骤(1)中的所述最小值，其中，所述初始集合包括多个突变位点，所述多个突变位点的至少一部分满足下列条件：(a)所述突变位点的最大基因型概率不超过0.5，优选地，所述突变位点的最大基因型概率为4/9；(b)所述突变位点的杂合比例不小于0.4；(c)所述突变位点不在重复序列区域中；(d)所述多个突变位点之间不存在连锁不平衡关系；和(e)所述突变位点满足哈温伯格平衡。根据本发明实施例的方法可以方便快捷地构建用于群体内个体区分的突变集合，并且可以依据群体大小确定所需突变位点的数目以保证所构建的突变集合内的任一元素区别于突变集合中的其他元素，进而保证突变集合中每个元素所对应的群体中的个体可以依据突变集合中的元素区别于其他个体。此外，本发明基于DNA身份证的应用场景构建了新的方法用于解决人群中的个体唯一标识问题，以及遗传标记的最优选择问题。

根据本发明的实施例，上述方法还可以进一步包括如下附加技术特征至少之一：

根据本发明的实施例，所述突变包括选自SNP、STR、Indel的至少之一。根据本发明实施例的方法适用于多种核酸突变位点：所有基于单碱基多态性位点(SNP)、STR、基因组上存在突变并且可以在生物群体中稳定传播的突变位点，本方法都适用。

根据本发明的实施例，在步骤(1)中基于下列公式确定所述最小值：

其中，m表示所述突变集合中的突变位点的数目；n表示所述群体的个体总数；和α表示所述碰撞概率阈值，α是根据a/n确定，其中n为群体的个体总数，a为大于0小于等于1的任意值，优先选0.05、0.01、0.001、0.0001。根据本发明实施例的方法，将预先确定的碰撞概率阈值α和预定群体的个体总数n代入公式中即可计算得到构建预定群体的DNA身份证所需的最小突变位点数目。

根据本发明的实施例，所述初始集合包括下列至少部分：

根据本发明实施例的方法，基于SNP位点，通过中国人基因频率数据库(https://db.cngb.org/cmdb/)，发明人一共筛选出了适合在中国人群体中用于构建突变集合的突变位点258个，这些突变位点特别适用于中国人DNA身份证构建。

在本发明的第二方面，本发明提出了一种突变集合，所述突变集合用于在群体中进行个体身份识别。根据本发明的实施例，所述突变集合由多个突变位点构成，其中，所述多个突变位点的数目满足下列条件：

其中，m表示所述突变集合中突变位点的数目；n表示所述群体的个体总数；和α表示所述预先确定的碰撞概率阈值，所述多个突变位点的每一个均满足下列条件：(a)所述突变位点的最大基因型概率不超过0.5，优选地，所述突变位点的最大基因型概率为4/9；(b)所述突变位点的杂合比例不小于0.4；(c)所述突变位点不在重复序列区域中；(d)所述多个突变位点之间不存在连锁不平衡关系；和(e)所述突变位点满足哈温伯格平衡。根据本发明实施例的突变集合可以保证突变集合内的任一元素区别于突变集合中的其他元素，进而保证突变集合中每个元素所对应的群体中的个体可以依据突变集合中的元素区别于其他个体。

根据本发明的实施例，上述突变集合还可以进一步包括如下附加技术特征至少之一：

根据本发明的实施例，所述α是根据a/n确定，其中n为群体的个体总数，a为大于0小于等于1的任意值，优先选0.05、0.01、0.001、0.0001。根据本发明实施例的突变集合，α是碰撞概率阈值，对于构成DNA身份证的序列串而言，它在群体中必须具有唯一性，也就是其在群体中发生碰撞的概率必须足够低，因此当突变集合用于构建群体的DNA身份证时，须确定碰撞概率阈值的最大值，以便后续计算所需突变位点的最小值。

在本发明的第三方面，本发明提出了一种突变集合。根据本发明的实施例，所述突变集合包括选自下列的至少一部分：

根据本发明实施例的突变集合，基于SNP位点，通过中国人基因频率数据库(https://db.cngb.org/cmdb/)，发明人一共筛选出了适合在中国人群体中用于构建突变集合的突变位点258个，这些突变位点特别适用于中国人DNA身份证构建。

在本发明的第四方面，本发明提出了一种对个体进行身份识别的方法。根据本发明的实施例，所述方法包括：针对预定突变集合中每一个突变位点，确认所述个体的突变信息；基于所述突变信息，对所述个体进行身份识别，其中，所述预定突变集合是通过上述突变集合构建的方法构建的。

在本发明的第五方面，本发明提出了一种构建突变集合的装置。根据本发明的实施例，所述装置包括：确定突变位点数目最小值模块，基于所述群体的个体总数和预先确定的碰撞概率阈值，确定所述突变集合中突变位点数目的最小值；构建初始集合模块，所述构建初始集合模块与所述确定突变位点数目最小值模块相连，基于下列条件构建所述初始集合，以便所述初始集合内的突变位点至少一部分满足下列条件：(a)所述突变位点的最大基因型概率不超过0.5，优选地，所述突变位点的最大基因型概率为4/9；(b)所述突变位点的杂合比例不小于0.4；(c)所述突变位点不在重复序列区域中；(d)所述多个突变位点之间不存在连锁不平衡关系；和(e)所述突变位点满足哈温伯格平衡；和确定突变集合模块，所述确定突变集合模块与所述构建初始集合模块相连，从预先确定的初始集合中，选择预定数目的突变，以便获得所述突变集合，所述预定数目不小于所述确定突变位点数目最小值模块所确定的所述最小值。利用根据本发明实施例的装置，适于执行前面所述的构建突变集合的方法，从而能够方便快捷地构建用于群体内个体区分的突变集合，并且可以依据群体大小确定所需突变位点的数目以保证所构建的突变集合内的任一元素区别于突变集合中的其他元素，进而保证突变集合中每个元素所对应的群体中的个体可以依据突变集合中的元素区别于其他个体。

在本发明的第六方面，本发明提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现构建突变集合的方法的步骤。由此，能够有效地实施前面所描述的构建突变集合的方法，从而能够方便快捷地构建用于群体内个体区分的突变集合。

在本发明的第七方面，本发明提出了一种计算机设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现所述的构建突变集合的方法。

在本发明的第八方面，本发明提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行所述的构建突变集合的方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的构建突变集合的流程示意图；

图2为根据本发明实施例的构建突变集合的装置框图；

图3为根据本发明实施例的SNP挑选流程。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在本文中所使用的单核苷酸多态性(SNP)是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。

需要说明的是，在本文中所使用的插入缺失标记(Indel)是指基因组中有一定数量的核苷酸插入或缺失。

需要说明的是，本文中所使用的短串联重复序列(STR)是指一类广泛存在于人类基因组中的DNA多态性基因座。

在本发明的第一方面，本发明提出了一种构建突变集合的方法，所述突变集合用于在群体中进行个体身份识别。根据本发明的实施例，参考图1，所述方法包括：

S100，基于所述群体的个体总数和预先确定的碰撞概率阈值，确定所述突变集合中突变位点数目的最小值；和

S200，从预先确定的初始集合中，选择预定数目的突变，以便获得所述突变集合，所述预定数目不小于步骤S100中的所述最小值，其中，所述初始集合包括多个突变位点，所述多个突变位点的至少一部分满足下列条件：(a)所述突变位点的最大基因型概率不超过0.5，优选地，所述突变位点的最大基因型概率为4/9；(b)所述突变位点的杂合比例不小于0.4；(c)所述突变位点不在重复序列区域中；(d)所述多个突变位点之间不存在连锁不平衡关系；和(e)所述突变位点满足哈温伯格平衡。根据本发明的具体实施例，基于预定群体内的个体数目和预先确定的碰撞概率阈值计算得到所需要的突变位点的最小值，然后从初始集合中选择突变位点组成序列串，所得到的序列串即为DNA身份证，预定群体中的每一个个体均可获得至少一个序列串用于个体身份认证，所获得的序列串在预定群体中具有唯一性。

根据本发明的实施例，所述突变包括选自SNP、STR、Indel的至少之一。根据本发明实施例的方法适用于多种核酸突变位点：所有基于单碱基多态性位点、STR、基因组上存在突变并且可以在生物群体中稳定传播的突变位点，本方法都适用。

根据本发明的实施例，在步骤S100中基于下列公式确定所述最小值：

其中，m表示所述突变集合中的突变位点的数目；n表示所述群体的个体总数；和α表示所述碰撞概率阈值。根据本发明实施例的方法基于DNA身份证的应用场景，解决了人群中的个体唯一标识问题以及遗传标记的最优选择问题，并计算出在给定人群基数(比如14亿人)中最少应该选取多少个符合条件的遗传标记作为身份识别的DNA身份证。

根据本发明的具体实施例，首先，发明人建立了描述上述应用场景的数学模型。假设人群基数为n(n代表人群的总数量，且n＞＞1)，DNA身份证所需的遗传标记位点(如SNP)个数为m(m＞0)，每一个位点上突变碱基的分布频率为p。基因组所有的二态单碱基多态性位点上，每一个位点都有三种不同的基因型(genotype)，而每一种基因型在群体中都有一定的分布频率。假设所挑选的每一个SNP位点都彼此独立，那么每一个位点的基因型分布频率都可以借助哈迪温伯格平衡进行计算，结果如下表1所示。

表1：遗传标记位点的基因型分布频率

其中，A和a代表任一个二态SNP位点i上的两个碱基，并假设a为突变型，且a在群体中的突变频率是p_i，那么该位点上三种基因型AA、Aa和aa的分布频率如上表中所示。

以上，m个位点的每一种基因型组合都能构成一个独立的DNA序列串，每一个序列串都是唯一的，而所有的基因型组合序列串汇集起来就构成了一个总集合，在该集合中序列串的个数记为s，其中任意一个序列串的存在概率为PE_k(k＝1，2，...，s),由于这m个位点彼此独立，因此每一个序列串的存在概率计算公式为：

发明人将群体中发生序列串组合重复出现的情况称之为“序列碰撞”，并将由这m个位点组成的序列串k在群体中发生碰撞的概率称为“碰撞概率”(Probability ofcollision)，在假设总人口数量为n时,该序列的碰撞概率分布如表2所示：

表2：序列碰撞概率

通过表2所示的概率分布，可以计算序列串k在群体中发生2次以及2次以上碰撞的累计概率为：

c(k)＝1-(1-PE)ⁿ-nPE(1-PE)^n-1≈1-(1+nPE)(1-PE)ⁿ (公式2)

由于对构成DNA身份证的序列串而言，在群体中必须确保其具有唯一性，也就是其在群体中发生碰撞的概率必须足够低，假设α为碰撞概率最大阈值，即要求：

C(k)≤α

另外，由于可以证明存在概率PE_k的期望为：

并且在真实应用场景中，为了确保个体DNA身份证信息在群体中的唯一性，将存在s≥n，同时由于n＞＞1，那么以上存在概率的期望

因此，此时序列串k在群体中出现的次数近似服从泊松分布。

由此，公式2可以近似化简为：

求解公式3可以得到：

为了保证集合s中的所有序列串中都有(公式4)成立，PE_k的最大值也应符合如下条件：

通过计算可知，当选取基因突变频率

的位点时可以得到m的最小组合数构成序列串作为DNA身份证，此时碰撞概率：

以上即为DNA身份证的完整数学模型。由公式6的结果，可知，在总人数为n＝10¹⁰(一百亿人口)时，只要选取m≥43个突变碱基频率在0.333和0.667附近的二碱基多态性位点即可以满足群体中每一个人的DNA身份证与他人发生重复的概率低于一百亿分之一。

根据本发明的实施例，所述初始集合包括下列的至少一部分：

根据本发明实施例的方法，基于SNP位点，通过中国人基因频率数据库(https://db.cngb.org/cmdb/)，发明人一共筛选出了适合在中国人群体中用于构建突变集合的突变位点258个，这些突变位点可用于中国人DNA身份证构建。

根据本发明的实施例，所述α是根据a/n确定的，其中n为群体的个体总数，a为大于0小于等于1的任意值，优先选0.05、0.01、0.001、0.0001。根据本发明实施例的突变集合，α是碰撞概率阈值，对于构成DNA身份证的序列串而言，它在群体中必须具有唯一性，也就是其在群体中发生碰撞的概率必须足够低，因此当突变集合用于构建群体的DNA身份证时，须确定碰撞概率阈值的最大值，以便后续计算所需突变位点的最小值。

根据本发明实施例的突变集合，基于SNP位点，通过中国人基因频率数据库(https://db.cngb.org/cmdb/)，发明人一共筛选出了258个适合在中国人群体中用于构建突变集合的突变位点，这些突变位点特别适用于中国人DNA身份证构建。

在本发明的第五方面，本发明提出了一种构建突变集合的装置。根据本发明的实施例，参考图2，所述装置包括：确定突变位点数目最小值模块100，基于所述群体的个体总数和预先确定的碰撞概率阈值，确定所述突变集合中突变位点数目的最小值；构建初始集合模块200，所述构建初始集合模块200与所述确定突变位点数目最小值模块100相连，基于下列条件构建所述初始集合，以便所述初始集合内的突变位点至少一部分满足下列条件：(a)所述突变位点的最大基因型概率不超过0.5，优选地，所述突变位点的最大基因型概率为4/9；(b)所述突变位点的杂合比例不小于0.4；(c)所述突变位点不在重复序列区域中；(d)所述多个突变位点之间不存在连锁不平衡关系；和(e)所述突变位点满足哈温伯格平衡；和确定突变集合模块300，所述确定突变集合模块300与所述构建初始集合模块200相连，从预先确定的初始集合中，选择预定数目的突变，以便获得所述突变集合，所述预定数目不小于所述确定突变位点数目最小值模块所确定的所述最小值。利用根据本发明实施例的构建突变集合的装置，适于执行前面所述的构建突变集合的方法，从而能够方便快捷地构建用于群体内个体区分的突变集合，并且可以依据群体大小确定所需突变位点的数目以保证所构建的突变集合内的任一元素区别于突变集合中的其他元素，进而保证突变集合中每个元素所对应的群体中的个体可以依据突变集合中的元素区别于其他个体。

本领域技术人员能够理解的是，前面针对构建突变集合的方法所描述的特征和优点均适用于该计算机可读存储介质、计算机设备及计算机程序产品，在此不再赘述。

下面参考具体实施例，对本发明进行描述，需要说明的是，这些实施例仅仅是描述性的，而不以任何方式限制本发明。

实施例1

按照以上理论，发明人制定了如何挑选合适二态单核苷酸多态性(SNP)位点的挑选流程，参考图3，挑选符合(a)所述突变位点的最大基因型概率为0.5；(b)所述突变位点的杂合比例不小于0.4；(c)所述突变位点不在重复序列区域中；(d)所述多个突变位点之间不存在连锁不平衡关系；和(e)所述突变位点满足哈温伯格平衡的SNP位点。

通过该方法，可以挑选出符合突变频率要求，并且能够保证SNP之间彼此独立的位点，位点如表3所示：

表3：

实施例2

在本实施例中，发明人以国际千人基因组计划的数据集作为例子，用来验证该DNA身份证的构造方法。千人基因组计划的数据集中一共包含了2504个样本，利用公式

n＝2504,α取0.01/n，计算获知只需要17个位点既可以满足在该群体中的DNA身份证的构造。从表3所示的SNP位点中选取前17个SNP候选位点，这17个位点分散在17条常染色体，具体如表4所示。(注：17个SNP候选位点可以从表3所示位点中随机选择，仅在本实施例中选择表3中的前17个SNP位点作为示例)

表4：

CHROM

POS

ID

CHROM

POS

ID

CHROM

POS

ID

chr2

240815859

rs148895494

chr12

116184485

rs2384676

chr3

1609245

rs374018

chr14

77229656

rs2270325

chr4

186903422

rs12640032

chr7

49328101

rs7795792

chr16

85531362

rs9930924

chr5

52247737

rs10471826

chr20

45136444

rs2780231

chr17

15332770

rs3109780

chr18

67461052

rs28552903

chr15

93710061

rs16947539

chr9

113597938

rs4978959

chr10

20743148

rs10828054

chr8

73443198

rs12679106

chr1

85340098

rs12022391

chr13

47152097

rs3742270

经确认，生成的这2504个人的遗传标识(DNA身份证)是唯一的。需要注意的是，以上17个位点只是所有符合条件的位点中的一部分。

因此，本发明提供的方法首次解决了DNA身份证的理论构建问题，并且本发明的方法简单有效，利于推广。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。