CN113889191A

CN113889191A - 一种基于cpe和cpd实现高效个体识别位点筛选的贪心算法

Info

Publication number: CN113889191A
Application number: CN202111087037.9A
Authority: CN
Inventors: 赵梓丞; 李梦瑶; 贺小兰; 原榛良; 陈银; 王轶男
Original assignee: Shenzhen Bairen Technology Co ltd
Current assignee: Shenzhen Bairen Technology Co ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2022-01-04

Abstract

本发明涉及生物信息学分析技术领域，具体涉及一种基于CPE和CPD实现高效个体识别位点筛选的贪心算法，包括：S1、变量声明与专有名词设置：S11、寻找一个有效的STR位点集合：L；S12、一个位点l的辨别能力(PD)：dl；S13、L的联合辨别能力(CPD)：DL。本发明，CODIS主要是针对美国人群，而本算法适用于不同的人群，由于这一算法是在假设数据中的个体在生物学上无关的情况下提出的，因此还可以用于其他人种甚至物种的个体识别，同时，本算法的效果好，所选位点在身份鉴定中具有较高的联合鉴别能力，在亲子鉴定中具有较高的联合排除概率。在我们的模拟中，所选的STRs在统计学上优于CODIS的STRs，错误包含和排除的概率较低。

Description

一种基于CPE和CPD实现高效个体识别位点筛选的贪心算法

技术领域

本发明涉及生物信息学分析技术领域，具体涉及一种基于CPE和 CPD实现高效个体识别位点筛选的贪心算法。

背景技术

等位基因频率信息筛选算法既可丰富国内的群体遗传学资料，也为构建适合国内法医学应用的SNPs复合检测体系提供了优良的解决方案。

现有技术中，包括STRs：一类重复的DNA片段，其中长度为2 到6个碱基对的某些基序被重复多次。CODIS：美国联邦调查局联合DNA索引系统(CODIS)程序在1997年发布的13个核心短串联重复 (STR)位点被广泛应用于法医标记，如身份鉴定和亲子鉴定。目前，全球建立起了基于CODIS核心str的法医数据库。

但现有技术具有以下缺点：

1、由于数据库规模的急剧扩大，数据库中随机命中(冷命中) 的风险将会增加，这就可能会导致当新的犯罪发生时，法医数据库中的一个人被错误的指控为罪犯，误判的可能性提高；

2、13个STR位点偏向于不同的亚群，例如在中国，只有9种被广泛采用，因为其他4种对我国人口的鉴别能力较低；

3、由于现在常用的13个个体识别位点是美国FBI公开的，但是并没有算法能够进行错误排查与优化。

发明内容

针对现有技术所存在的上述缺点，本发明的目的在于提供一种基于CPE和CPD实现高效个体识别位点筛选的贪心算法，本发明的算法基于STRs共同法医约束，即杂合度、随机匹配效率、识别概率和排除概率，以及两个平衡检验，即哈代－温伯格平衡检验以及连锁平衡检验，是一种贪心算法，适用于不同的人群，由于这一算法是在假设数据中的个体在生物学上无关的情况下提出的，因此还可以用于其他人种甚至物种的个体识别。

为实现上述目的，本发明提供了如下技术方案：

一种基于CPE和CPD实现高效个体识别位点筛选的贪心算法，包括：

S1、变量声明与专有名词设置：

S11、寻找一个有效的STR位点集合：L；

S12、一个位点l的辨别能力(PD)：dl；

S13、L的联合辨别能力(CPD)：DL；

S14、每个位点的四个法医学参数约束：

杂合度设为HE；

随机匹配概率设为：RMP；

识别能力设为：PD；

排除概率设为：PE；

S15、个体DNA谱(FDP)的频率记为f；

S16、具有集合L的FDP的上限是L中选定位点的最大基因型频率的乘积，最大值记为fl；

S17、所选标记应用于最大可能的群体规模记为S；

S2、约束条件：

S20、每个位点的四个法医学参数大于等于阈值；

S21、位点l的速率nl大于一个预先确定的阈值dn；

S22、fl小于S的倒数；

S23、所有位点处于哈代－温伯格平衡(HWE)；

S24、复合基因型连锁平衡(GLE)；

S3、算法步骤：

S30、预先设置dn，设置好dh,dr,dd,de,dn五个阈值；

S31、计算l的等位基因频率；

S32、判断是否符合步骤S20和步骤S21中的约束条件；

S33、对符合的位点，判断是否符合步骤S22中的约束条件，并将符合位点新建组合L；

S34、判断集合L是否满足fL小于S的倒数；

S35、判断是否符合步骤S23和步骤S24中的约束条件；

S36、求得最终位点集合L0。

进一步的，所述步骤S2中，所有的约束条件都可以应用于单个位点。

进一步的，所述步骤S15中，f定义为其DNA谱中标记各自基因型频率的乘积。

进一步的，所述步骤S31中，在HWE假设下计算l的HE、RMP、 PD、PE。

进一步的，所述步骤S32中，位点l不满足步骤S20所述的约束条件或步骤S21所述的约束条件，将这个位点从集合C中删除。

进一步的，所述步骤S33中，根据PD对C中位点进行排序更新，当PD值相同的不同位点，按照最大基因型频率再次进行排序。

进一步的，所述步骤S35中，若L中所有位点都处在HWE下，则在L中排除两者中PD值较低的位点，从C中引入新的位点以维护步骤S22中所述的约束条件。

有益效果

采用本发明提供的技术方案，与已知的公有技术相比，具有如下有益效果：

1、本发明的基于CPE和CPD实现高效个体识别位点筛选的贪心算法，CODIS主要是针对美国人群，而本算法适用于不同的人群，由于这一算法是在假设数据中的个体在生物学上无关的情况下提出的，因此还可以用于其他人种甚至物种的个体识别。

2、本发明的基于CPE和CPD实现高效个体识别位点筛选的贪心算法，本算法的效果好，所选位点在身份鉴定中具有较高的联合鉴别能力，在亲子鉴定中具有较高的联合排除概率。在我们的模拟中，所选的STRs在统计学上优于CODIS的STRs，错误包含和排除的概率较低。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合实施例对本发明作进一步的描述。

实施例1

步骤一、变量声明与专有名词设置：

11)寻找一个有效的STR位点集合：L。

12)一个位点l的辨别能力(PD)：dl。

13)L的联合辨别能力(CPD)：DL。

14)每个位点的四个法医学参数约束：

杂合度设为HE。

随机匹配概率设为：RMP。

识别能力设为：PD。

排除概率设为：PE。

15)个体DNA谱(FDP)的频率记为f，定义为其DNA谱中标记各自基因型频率的乘积。

16)具有集合L的FDP的上限是L中选定位点的最大基因型频率的乘积，最大值记为fl。

17)所选标记应用于最大可能的群体规模记为S。

步骤二、约束条件：

20)每个位点的四个法医学参数大于等于阈值。

21)位点l的速率nl大于一个预先确定的阈值dn，所有的约束条件都可以应用于单个位点。

22)fl小于S的倒数。

23)所有位点处于哈代－温伯格平衡(HWE)。

24)复合基因型连锁平衡(GLE)。

经过检查，除了GLE之外，所有的约束条件都可以应用于单个位点，因此可以简单的排除掉不能满足约束的低质量STR候选基因。

对于GLE，如果将每一个位点建模成为一个节点，并将每个基因型连锁建模为一条边，问题就可以转换为从一个图中找到一个独立的集。以此来设计位点选择的贪心算法：

算法步骤：

30)预先设置dn，设置好dh,dr,dd,de,dn五个阈值。

31)计算l的等位基因频率，在HWE假设下计算l的HE、RMP、 PD、PE。

32)判断是否符合步骤S20和步骤S21中的约束条件，位点l不满足步骤20所述的约束条件或步骤21所述的约束条件，将这个位点从集合C中删除。

33)对符合的位点，判断是否符合步骤S22中的约束条件，并将符合位点新建组合L，根据PD对C中位点进行排序更新，当PD值相同的不同位点，按照最大基因型频率再次进行排序。

34)判断集合L是否满足fL小于S的倒数。

35)判断是否符合步骤S23和步骤S24中的约束条件，若L中所有位点都处在HWE下，则在L中排除两者中PD值较低的位点，从C 中引入新的位点以维护步骤S22中所述的约束条件。

36)求得最终位点集合L0。

算法伪码：

dn＝0.95；//0.95是一个预先设置的值

设置好dh,dr,dd,de,dn五个阈值

for(位点l：lobSTR观察到的数据库C中所有位点)

计算l的等位基因频率；

在HWE假设下计算l的HE,RMP,PD,PE；

if(位点l不满足约束条件1&&不满足约束条件2){

将这个位点从集合C中删除；

设位点l上一个等位基因li的等位基因频率为pi；

设集合C中每个位点l的最大基因型频率为pl，赋初值为一个比较小的数；

for(位点l：lobSTR观察到的数据库C中所有位点){

for(int i＝0；该位点上不同等位基因的数量；i++){

for(int j＝i+1；j<该位点上不同等位基因的数量；j++){

int temp＝max(pow(pi,2),2*pi*pj)；

If(pl<temp)pl＝temp；

根据PD对C中位点进行排序更新，当PD值相同的不同位点，按照最大基因型频率再次进行排序

新建集合L

选出第一组满足约束条件3的N个位点添加进新的集合L

//这个集合L最终满足fL小于S的倒数

//接下来进行约束条件4和5的筛选

bool tag＝false；

while(tag＝＝false&&dn高于一个限定的最低值)

tag＝true；

for(位点l:集合L中的所有位点)

If(存在l不处于HWE下)

将所有位点从L中删除，并选出第二组满足约束条件3的N 个位点添加进集合L；

降低dn的值

tag＝false；

If(tag＝＝true){//如果L中所有位点都处在HWE下

for(遍历L中的成对位点){

if(这对位点不满足GLE){

在L中排除两者中PD值较低的位点

从C中引入新的位点以维护约束条件3

最终位点集合L即所求。

用本算法在公开的数据上测试得到一组新的位点，得到的位点比 FBI公开的少，效果同样好。

本算法应用于1000基因组项目的中国个体，有效选择了10多个位点，这比公开的CODIS的13个STR位点具有更高的识别能力。从等位基因频率中，每组位点模拟10000个个体，将算法选择的位点与 CODIS位点进行比较，结果表明，我们选择的STRs能够提供更小频率的DNA图谱，这意味着所选择的位点更加可靠和强大。此外，使用这一算法进行数据库搜索，发现误判的可能性也更小，所选位点的错误排除和包含的概率更低。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于CPE和CPD实现高效个体识别位点筛选的贪心算法，其特征在于，包括：

S1、变量声明与专有名词设置：

S11、寻找一个有效的STR位点集合：L；

S12、一个位点l的辨别能力(PD)：dl；

S13、L的联合辨别能力(CPD)：DL；

S14、每个位点的四个法医学参数约束：

杂合度设为HE；

随机匹配概率设为：RMP；

识别能力设为：PD；

排除概率设为：PE；

S15、个体DNA谱(FDP)的频率记为f；

S17、所选标记应用于最大可能的群体规模记为S；

S2、约束条件：

S20、每个位点的四个法医学参数大于等于阈值；

S21、位点l的速率nl大于一个预先确定的阈值dn；

S22、fl小于S的倒数；

S23、所有位点处于哈代－温伯格平衡(HWE)；

S24、复合基因型连锁平衡(GLE)；

S3、算法步骤：

S30、预先设置dn，设置好dh,dr,dd,de,dn五个阈值；

S31、计算l的等位基因频率；

S32、判断是否符合步骤S20和步骤S21中的约束条件；

S34、判断集合L是否满足fL小于S的倒数；

S35、判断是否符合步骤S23和步骤S24中的约束条件；

S36、求得最终位点集合L0。

2.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法，其特征在于：所述步骤S2中，所有的约束条件都可以应用于单个位点。

3.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法，其特征在于：所述步骤S15中，f定义为其DNA谱中标记各自基因型频率的乘积。

4.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法，其特征在于：所述步骤S31中，在HWE假设下计算l的HE、RMP、PD、PE。

5.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法，其特征在于：所述步骤S32中，位点l不满足步骤S20所述的约束条件或步骤S21所述的约束条件，将这个位点从集合C中删除。

6.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法，其特征在于：所述步骤S33中，根据PD对C中位点进行排序更新，当PD值相同的不同位点，按照最大基因型频率再次进行排序。

7.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法，其特征在于：所述步骤S35中，若L中所有位点都处在HWE下，则在L中排除两者中PD值较低的位点，从C中引入新的位点以维护步骤S22中所述的约束条件。