CN113889191A - 一种基于cpe和cpd实现高效个体识别位点筛选的贪心算法 - Google Patents
一种基于cpe和cpd实现高效个体识别位点筛选的贪心算法 Download PDFInfo
- Publication number
- CN113889191A CN113889191A CN202111087037.9A CN202111087037A CN113889191A CN 113889191 A CN113889191 A CN 113889191A CN 202111087037 A CN202111087037 A CN 202111087037A CN 113889191 A CN113889191 A CN 113889191A
- Authority
- CN
- China
- Prior art keywords
- site
- cpd
- cpe
- sites
- greedy algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 title claims abstract description 17
- 230000007717 exclusion Effects 0.000 claims abstract description 8
- 108700028369 Alleles Proteins 0.000 claims description 10
- 239000003550 marker Substances 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000003766 bioinformatics method Methods 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 abstract description 2
- 108091092878 Microsatellite Proteins 0.000 description 9
- 108020004414 DNA Proteins 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及生物信息学分析技术领域,具体涉及一种基于CPE和CPD实现高效个体识别位点筛选的贪心算法,包括:S1、变量声明与专有名词设置:S11、寻找一个有效的STR位点集合:L;S12、一个位点l的辨别能力(PD):dl;S13、L的联合辨别能力(CPD):DL。本发明,CODIS主要是针对美国人群,而本算法适用于不同的人群,由于这一算法是在假设数据中的个体在生物学上无关的情况下提出的,因此还可以用于其他人种甚至物种的个体识别,同时,本算法的效果好,所选位点在身份鉴定中具有较高的联合鉴别能力,在亲子鉴定中具有较高的联合排除概率。在我们的模拟中,所选的STRs在统计学上优于CODIS的STRs,错误包含和排除的概率较低。
Description
技术领域
本发明涉及生物信息学分析技术领域,具体涉及一种基于CPE和 CPD实现高效个体识别位点筛选的贪心算法。
背景技术
等位基因频率信息筛选算法既可丰富国内的群体遗传学资料,也为构建适合国内法医学应用的SNPs复合检测体系提供了优良的解决方案。
现有技术中,包括STRs:一类重复的DNA片段,其中长度为2 到6个碱基对的某些基序被重复多次。CODIS:美国联邦调查局联合DNA索引系统(CODIS)程序在1997年发布的13个核心短串联重复 (STR)位点被广泛应用于法医标记,如身份鉴定和亲子鉴定。目前,全球建立起了基于CODIS核心str的法医数据库。
但现有技术具有以下缺点:
1、由于数据库规模的急剧扩大,数据库中随机命中(冷命中) 的风险将会增加,这就可能会导致当新的犯罪发生时,法医数据库中的一个人被错误的指控为罪犯,误判的可能性提高;
2、13个STR位点偏向于不同的亚群,例如在中国,只有9种被广泛采用,因为其他4种对我国人口的鉴别能力较低;
3、由于现在常用的13个个体识别位点是美国FBI公开的,但是并没有算法能够进行错误排查与优化。
发明内容
针对现有技术所存在的上述缺点,本发明的目的在于提供一种基于CPE和CPD实现高效个体识别位点筛选的贪心算法,本发明的算法基于STRs共同法医约束,即杂合度、随机匹配效率、识别概率和排除概率,以及两个平衡检验,即哈代-温伯格平衡检验以及连锁平衡检验,是一种贪心算法,适用于不同的人群,由于这一算法是在假设数据中的个体在生物学上无关的情况下提出的,因此还可以用于其他人种甚至物种的个体识别。
为实现上述目的,本发明提供了如下技术方案:
一种基于CPE和CPD实现高效个体识别位点筛选的贪心算法,包括:
S1、变量声明与专有名词设置:
S11、寻找一个有效的STR位点集合:L;
S12、一个位点l的辨别能力(PD):dl;
S13、L的联合辨别能力(CPD):DL;
S14、每个位点的四个法医学参数约束:
杂合度设为HE;
随机匹配概率设为:RMP;
识别能力设为:PD;
排除概率设为:PE;
S15、个体DNA谱(FDP)的频率记为f;
S16、具有集合L的FDP的上限是L中选定位点的最大基因型频率的乘积,最大值记为fl;
S17、所选标记应用于最大可能的群体规模记为S;
S2、约束条件:
S20、每个位点的四个法医学参数大于等于阈值;
S21、位点l的速率nl大于一个预先确定的阈值dn;
S22、fl小于S的倒数;
S23、所有位点处于哈代-温伯格平衡(HWE);
S24、复合基因型连锁平衡(GLE);
S3、算法步骤:
S30、预先设置dn,设置好dh,dr,dd,de,dn五个阈值;
S31、计算l的等位基因频率;
S32、判断是否符合步骤S20和步骤S21中的约束条件;
S33、对符合的位点,判断是否符合步骤S22中的约束条件,并将符合位点新建组合L;
S34、判断集合L是否满足fL小于S的倒数;
S35、判断是否符合步骤S23和步骤S24中的约束条件;
S36、求得最终位点集合L0。
进一步的,所述步骤S2中,所有的约束条件都可以应用于单个位点。
进一步的,所述步骤S15中,f定义为其DNA谱中标记各自基因型频率的乘积。
进一步的,所述步骤S31中,在HWE假设下计算l的HE、RMP、 PD、PE。
进一步的,所述步骤S32中,位点l不满足步骤S20所述的约束条件或步骤S21所述的约束条件,将这个位点从集合C中删除。
进一步的,所述步骤S33中,根据PD对C中位点进行排序更新,当PD值相同的不同位点,按照最大基因型频率再次进行排序。
进一步的,所述步骤S35中,若L中所有位点都处在HWE下,则在L中排除两者中PD值较低的位点,从C中引入新的位点以维护步骤S22中所述的约束条件。
有益效果
采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
1、本发明的基于CPE和CPD实现高效个体识别位点筛选的贪心算法,CODIS主要是针对美国人群,而本算法适用于不同的人群,由于这一算法是在假设数据中的个体在生物学上无关的情况下提出的,因此还可以用于其他人种甚至物种的个体识别。
2、本发明的基于CPE和CPD实现高效个体识别位点筛选的贪心算法,本算法的效果好,所选位点在身份鉴定中具有较高的联合鉴别能力,在亲子鉴定中具有较高的联合排除概率。在我们的模拟中,所选的STRs在统计学上优于CODIS的STRs,错误包含和排除的概率较低。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
实施例1
一种基于CPE和CPD实现高效个体识别位点筛选的贪心算法,包括:
步骤一、变量声明与专有名词设置:
11)寻找一个有效的STR位点集合:L。
12)一个位点l的辨别能力(PD):dl。
13)L的联合辨别能力(CPD):DL。
14)每个位点的四个法医学参数约束:
杂合度设为HE。
随机匹配概率设为:RMP。
识别能力设为:PD。
排除概率设为:PE。
15)个体DNA谱(FDP)的频率记为f,定义为其DNA谱中标记各自基因型频率的乘积。
16)具有集合L的FDP的上限是L中选定位点的最大基因型频率的乘积,最大值记为fl。
17)所选标记应用于最大可能的群体规模记为S。
步骤二、约束条件:
20)每个位点的四个法医学参数大于等于阈值。
21)位点l的速率nl大于一个预先确定的阈值dn,所有的约束条件都可以应用于单个位点。
22)fl小于S的倒数。
23)所有位点处于哈代-温伯格平衡(HWE)。
24)复合基因型连锁平衡(GLE)。
经过检查,除了GLE之外,所有的约束条件都可以应用于单个位点,因此可以简单的排除掉不能满足约束的低质量STR候选基因。
对于GLE,如果将每一个位点建模成为一个节点,并将每个基因型连锁建模为一条边,问题就可以转换为从一个图中找到一个独立的集。以此来设计位点选择的贪心算法:
算法步骤:
30)预先设置dn,设置好dh,dr,dd,de,dn五个阈值。
31)计算l的等位基因频率,在HWE假设下计算l的HE、RMP、 PD、PE。
32)判断是否符合步骤S20和步骤S21中的约束条件,位点l不满足步骤20所述的约束条件或步骤21所述的约束条件,将这个位点从集合C中删除。
33)对符合的位点,判断是否符合步骤S22中的约束条件,并将符合位点新建组合L,根据PD对C中位点进行排序更新,当PD值相同的不同位点,按照最大基因型频率再次进行排序。
34)判断集合L是否满足fL小于S的倒数。
35)判断是否符合步骤S23和步骤S24中的约束条件,若L中所有位点都处在HWE下,则在L中排除两者中PD值较低的位点,从C 中引入新的位点以维护步骤S22中所述的约束条件。
36)求得最终位点集合L0。
算法伪码:
dn=0.95;//0.95是一个预先设置的值
设置好dh,dr,dd,de,dn五个阈值
for(位点l:lobSTR观察到的数据库C中所有位点)
计算l的等位基因频率;
在HWE假设下计算l的HE,RMP,PD,PE;
if(位点l不满足约束条件1&&不满足约束条件2){
将这个位点从集合C中删除;
设位点l上一个等位基因li的等位基因频率为pi;
设集合C中每个位点l的最大基因型频率为pl,赋初值为一个比较小的数;
for(位点l:lobSTR观察到的数据库C中所有位点){
for(int i=0;该位点上不同等位基因的数量;i++){
for(int j=i+1;j<该位点上不同等位基因的数量;j++){
int temp=max(pow(pi,2),2*pi*pj);
If(pl<temp)pl=temp;
根据PD对C中位点进行排序更新,当PD值相同的不同位点,按照最大基因型频率再次进行排序
新建集合L
选出第一组满足约束条件3的N个位点添加进新的集合L
//这个集合L最终满足fL小于S的倒数
//接下来进行约束条件4和5的筛选
bool tag=false;
while(tag==false&&dn高于一个限定的最低值)
tag=true;
for(位点l:集合L中的所有位点)
If(存在l不处于HWE下)
将所有位点从L中删除,并选出第二组满足约束条件3的N 个位点添加进集合L;
降低dn的值
tag=false;
If(tag==true){//如果L中所有位点都处在HWE下
for(遍历L中的成对位点){
if(这对位点不满足GLE){
在L中排除两者中PD值较低的位点
从C中引入新的位点以维护约束条件3
最终位点集合L即所求。
用本算法在公开的数据上测试得到一组新的位点,得到的位点比 FBI公开的少,效果同样好。
本算法应用于1000基因组项目的中国个体,有效选择了10多个位点,这比公开的CODIS的13个STR位点具有更高的识别能力。从等位基因频率中,每组位点模拟10000个个体,将算法选择的位点与 CODIS位点进行比较,结果表明,我们选择的STRs能够提供更小频率的DNA图谱,这意味着所选择的位点更加可靠和强大。此外,使用这一算法进行数据库搜索,发现误判的可能性也更小,所选位点的错误排除和包含的概率更低。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种基于CPE和CPD实现高效个体识别位点筛选的贪心算法,其特征在于,包括:
S1、变量声明与专有名词设置:
S11、寻找一个有效的STR位点集合:L;
S12、一个位点l的辨别能力(PD):dl;
S13、L的联合辨别能力(CPD):DL;
S14、每个位点的四个法医学参数约束:
杂合度设为HE;
随机匹配概率设为:RMP;
识别能力设为:PD;
排除概率设为:PE;
S15、个体DNA谱(FDP)的频率记为f;
S16、具有集合L的FDP的上限是L中选定位点的最大基因型频率的乘积,最大值记为fl;
S17、所选标记应用于最大可能的群体规模记为S;
S2、约束条件:
S20、每个位点的四个法医学参数大于等于阈值;
S21、位点l的速率nl大于一个预先确定的阈值dn;
S22、fl小于S的倒数;
S23、所有位点处于哈代-温伯格平衡(HWE);
S24、复合基因型连锁平衡(GLE);
S3、算法步骤:
S30、预先设置dn,设置好dh,dr,dd,de,dn五个阈值;
S31、计算l的等位基因频率;
S32、判断是否符合步骤S20和步骤S21中的约束条件;
S33、对符合的位点,判断是否符合步骤S22中的约束条件,并将符合位点新建组合L;
S34、判断集合L是否满足fL小于S的倒数;
S35、判断是否符合步骤S23和步骤S24中的约束条件;
S36、求得最终位点集合L0。
2.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法,其特征在于:所述步骤S2中,所有的约束条件都可以应用于单个位点。
3.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法,其特征在于:所述步骤S15中,f定义为其DNA谱中标记各自基因型频率的乘积。
4.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法,其特征在于:所述步骤S31中,在HWE假设下计算l的HE、RMP、PD、PE。
5.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法,其特征在于:所述步骤S32中,位点l不满足步骤S20所述的约束条件或步骤S21所述的约束条件,将这个位点从集合C中删除。
6.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法,其特征在于:所述步骤S33中,根据PD对C中位点进行排序更新,当PD值相同的不同位点,按照最大基因型频率再次进行排序。
7.根据权利要求1所述的基于CPE和CPD实现高效个体识别位点筛选的贪心算法,其特征在于:所述步骤S35中,若L中所有位点都处在HWE下,则在L中排除两者中PD值较低的位点,从C中引入新的位点以维护步骤S22中所述的约束条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111087037.9A CN113889191A (zh) | 2021-09-16 | 2021-09-16 | 一种基于cpe和cpd实现高效个体识别位点筛选的贪心算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111087037.9A CN113889191A (zh) | 2021-09-16 | 2021-09-16 | 一种基于cpe和cpd实现高效个体识别位点筛选的贪心算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113889191A true CN113889191A (zh) | 2022-01-04 |
Family
ID=79009749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111087037.9A Pending CN113889191A (zh) | 2021-09-16 | 2021-09-16 | 一种基于cpe和cpd实现高效个体识别位点筛选的贪心算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113889191A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010045252A1 (en) * | 2008-10-14 | 2010-04-22 | Casework Genetics | System and method for inferring str allelic genotype from snps |
CN104480205A (zh) * | 2014-12-10 | 2015-04-01 | 西安交通大学 | 一种基于全基因组str建立动物亲权鉴定系统的方法 |
CN105205344A (zh) * | 2015-05-18 | 2015-12-30 | 上海交通大学 | 基于多目标蚁群优化算法的基因位点挖掘方法 |
CA3069828A1 (en) * | 2017-07-14 | 2019-01-17 | Cofactor Genomics, Inc. | Immuno-oncology applications using next generation sequencing |
CN110241234A (zh) * | 2019-07-19 | 2019-09-17 | 华中科技大学 | 一种荧光标记的32-plex InDels复合扩增系统及其应用 |
CA3100250A1 (en) * | 2018-05-18 | 2019-11-21 | Grail, Inc. | Inferring selection in white blood cell matched cell-free dna variants and/or in rna variants |
CN111868260A (zh) * | 2017-08-07 | 2020-10-30 | 约翰斯霍普金斯大学 | 用于评估和治疗癌症的方法和材料 |
-
2021
- 2021-09-16 CN CN202111087037.9A patent/CN113889191A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010045252A1 (en) * | 2008-10-14 | 2010-04-22 | Casework Genetics | System and method for inferring str allelic genotype from snps |
CN104480205A (zh) * | 2014-12-10 | 2015-04-01 | 西安交通大学 | 一种基于全基因组str建立动物亲权鉴定系统的方法 |
CN105205344A (zh) * | 2015-05-18 | 2015-12-30 | 上海交通大学 | 基于多目标蚁群优化算法的基因位点挖掘方法 |
CA3069828A1 (en) * | 2017-07-14 | 2019-01-17 | Cofactor Genomics, Inc. | Immuno-oncology applications using next generation sequencing |
CN111868260A (zh) * | 2017-08-07 | 2020-10-30 | 约翰斯霍普金斯大学 | 用于评估和治疗癌症的方法和材料 |
CA3100250A1 (en) * | 2018-05-18 | 2019-11-21 | Grail, Inc. | Inferring selection in white blood cell matched cell-free dna variants and/or in rna variants |
CN110241234A (zh) * | 2019-07-19 | 2019-09-17 | 华中科技大学 | 一种荧光标记的32-plex InDels复合扩增系统及其应用 |
Non-Patent Citations (2)
Title |
---|
董青原;曹隽喆;张国范;李莉;刘圣;顾宏;: "基于全基因组选择的长牡蛎肥满度分布参数预测方法", 大连理工大学学报, no. 01, 15 January 2020 (2020-01-15) * |
薛天羽;成建定;张晋湘;李海霞;孙宏钰;: "华南地区汉族群体15个STR基因座的遗传多态性调查", 中山大学学报(医学科学版), no. 1, 15 June 2009 (2009-06-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200098445A1 (en) | Ancestral human genomes | |
CN109346130A (zh) | 一种直接从全基因组重测序数据中得到微单体型及其分型的方法 | |
CN110692101A (zh) | 用于比对靶向的核酸测序数据的方法 | |
Horscroft et al. | Sequencing era methods for identifying signatures of selection in the genome | |
CN111755067A (zh) | 一种肿瘤新生抗原的筛选方法 | |
Pavy et al. | Development of highly reliable in silico SNP resource and genotyping assay from exome capture and sequencing: an example from black spruce (Picea mariana) | |
CN109448794A (zh) | 一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法 | |
Wang et al. | AI-Driver: an ensemble method for identifying driver mutations in personal cancer genomes | |
Zhang et al. | TAPER: Pinpointing errors in multiple sequence alignments despite varying rates of evolution | |
CN110444253B (zh) | 一种适用于混池基因定位的方法及系统 | |
CN107862177B (zh) | 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法 | |
Chen et al. | Revisiting ancient polyploidy in leptosporangiate ferns | |
Van den Oord et al. | Will haplotype maps be useful for finding genes? | |
CN113889191A (zh) | 一种基于cpe和cpd实现高效个体识别位点筛选的贪心算法 | |
CN107103206B (zh) | 基于标准熵的局部敏感哈希的dna序列聚类 | |
CN110885888B (zh) | 用于推断亚洲不同地理区域人群的snp标记组合 | |
CN113096734B (zh) | 一种筛选用于二倍体群体亲子鉴定的分子标记组合的方法 | |
Gu et al. | SVLR: genome structural variant detection using Long-read sequencing data | |
CN109033752A (zh) | 一种基于长读长测序的多基因融合检测方法 | |
CN108920904A (zh) | 一种同源基因特异性甲基化时序数据的分析方法 | |
CN111798926B (zh) | 致病基因位点数据库及其建立方法 | |
CN110656184B (zh) | 用于区分中国汉族、日本、朝鲜/韩国人群的snp标记组合 | |
CN111833964A (zh) | 一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法 | |
CN108334749B (zh) | 一种基于染色质调控环路检测复杂疾病上位性的方法及系统 | |
Bohutínská et al. | Population Genomic Analysis of Diploid-Autopolyploid Species |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |