CN110444251B - 基于分支定界的单体型格局生成方法 - Google Patents
基于分支定界的单体型格局生成方法 Download PDFInfo
- Publication number
- CN110444251B CN110444251B CN201910666530.2A CN201910666530A CN110444251B CN 110444251 B CN110444251 B CN 110444251B CN 201910666530 A CN201910666530 A CN 201910666530A CN 110444251 B CN110444251 B CN 110444251B
- Authority
- CN
- China
- Prior art keywords
- haplotype patterns
- haplotype
- ordered
- genotype
- conditional probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了基于分支定界的单体型格局生成方法,本发明所采用的技术方案是在搜索单体型格局时,采用有界深度优先搜索、分支定界以及参数控制约束等方法,遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性。这里产生的单体型格局可以用来计算家族IBD矩阵,单体型格局重要性的衡量以及单体型格局的精确选择对准确计算IBD至关重要。本发明的有益效果是为遗传学中连锁和关联分析研究提供更准确的数据信息,为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法。
Description
技术领域
本发明属于生物信息学技术领域,涉及基于分支定界的单体型格局生成方法。
背景技术
新一代基因测序技术的飞速发展使得人类基因组计划提前完成,核酸数据库、基因的遗传、物理及转录表达图谱已趋完整,这为生物遗传学家和相关领域研究者提供了染色体侯选区域内海量的高密度遗传多态性标志信息。如何充分利用这些微卫星多态性(microsatellite polymorphisms)或核苷酸多态性(single-nucleotide polymorphisms,SNP)携带的重要遗传学信息,构建合适的形式化模型,研究分析SNP、基因和表型数据间关系并从中识别人类复杂疾病的致病基因及其发病机理,是生物医学、遗传学等相关领域科学家研究的热点和难点,也是后基因组时代的重要课题。在含有缺失等位基因的家族数据中,既使经过等位基因精确推断方法和基因型近似指派方法处理后,整个家族数据中一般还可能含有缺失等位基因,这就导致出现大量的可能单体型格局。而且,每个单体型格局的缺失等位基因位点又不尽相同,导致单体型格局的重要性衡量不可比较。
发明内容
本发明的目的在于提供基于分支定界的单体型格局生成方法,本发明的有益效果是为遗传学中连锁和关联分析研究提供更准确的数据信息,为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法。
本发明所采用的技术方案是在搜索单体型格局时,采用有界深度优先搜索、分支定界以及参数控制约束等方法,遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性。
把一个特定个体和特定标记位点的组合称为一个个体-标记(individual-marker),简记为IM。如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定(non deterministic)IM,简称为ND IM。令U0表示家族数据中所有ND IMs组成的集合。假设U0中含有t个ND IMs。设M1,M2,...,Mt是U0中IMs的一个特定顺序。对于Mi(i=1,2,...,t),假设有s个可能的有序基因型与之兼容,分别用表示,与这s个有序基因型对应的条件概率分别用/>表示且有/>理论上,计算概率/>取决于前i-1个IMs M1,M2,...,Mi-1的指派m1,m2,...,mi-1和当前观测的家族数据D。设IM Mi涉及到位点u和个体k,用/>表示位点u和个体k的具有已知有序基因型的位点组成的集合。条件概率/>的计算公式如下:
其中Gk,Gf和Gm分别是个体k及其父亲、母亲在中位点上的部分有序多位点基因型,Hoff是个体k的孩子们在这些位点上的部分已知基因型集合。/>是Hoff中孩子O的已知单体型,noff是个体k的孩子数,/>是Gk中位点u为基因型/>的多位点基因型,j=1,2,…,s,和/>分别是多位点基因型/>中来自个体k的父亲和母亲的两个单体型。对于家族中没有双亲的始祖,条件概率/>公式可简化如下:
在执行算法之前,我们需要设置一个条件概率的阈值,用λ(0<λ≤1)表示。λ的取值直接影响到缺失家族数据的补全率和准确率。进一步地,采用以下步骤:
Step 1利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率。令i=1,U=U0。
Step 2在U中寻找条件概率最大的IM Mi(涉及到位点u和个体k)及其相应的有序基因型/>若/>则给IM Mi指派有序基因型/>然后对标记位点u进行等位基因推断。令i=i+1,U=U-U0。重新计算U中IM的所有可能有序基因型的条件概率(注意:这里需要采用适当的策略避免基因型条件概率的重复计算)。重复执行Step 2直到U中最大的条件概率小于λ。
在执行Step 3之前,需要指定一个用于分支定界的阈值α(α<0),旨在筛选出现可能性较小的单体型格局,降低算法时间复杂性。
Step 3若且/>其中2≤j≤s,则为IM Mi保留可能基因型进一步地,对每个l(2≤l≤j),若给Mi指派基因型/>使得Qi≤10a(这意味着包含有序基因型/>的单体型格局出现的可能性较小),则删除Mi的可能有序基因型/>其中/>(这里产生了深度优先搜索图中的l-1个分支节点/>)。选择/>作为深度优先搜索的节点(k依次取1,2,...,l-1),即:在当前单体型格局中对IM Mi指派有序基因型/>令i=i+1,U=U-Mi。重新计算侧翼标记信息改变的IM的可能有序单体型条件概率。转Step2。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
在含有缺失等位基因的家族数据中,既使经过等位基因精确推断方法和可能基因型近似指派方法处理后,整个家族数据中一般还可能含有缺失等位基因,这就导致出现大量的可能单体型格局。而且,每个单体型格局的缺失等位基因位点又不尽相同,导致单体型格局的重要性衡量不可比较。本发明提出在搜索单体型格局时,采用有界深度优先搜索、分支定界和参数控制约束的方法,用单体型格局的联合条件概率来衡量单体型格局出现的可能性。基于分支定界的单体型格局生成方法,采用有界深度优先搜索、分支定界以及参数控制约束等方法,遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性。这里产生的单体型格局可以用来计算家族IBD矩阵,单体型格局重要性的衡量以及单体型格局的精确选择对准确计算IBD至关重要。
本发明基于分支定界的单体型格局生成方法步骤如下:
Step 1利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率。令i=1,U=U0。
Step 2在U中寻找条件概率最大的IM Mi(涉及到位点u和个体k)及其相应的有序基因型/>若/>则给IM Mi指派有序基因型/>然后对标记位点u进行等位基因推断。令i=i+1,U=U-U0。重新计算U中IM的所有可能有序基因型的条件概率(注意:这里需要采用适当的策略避免基因型条件概率的重复计算)。重复执行Step 2直到U中最大的条件概率小于λ。
在执行Step 3之前,需要指定一个用于分支定界的阈值α(α<0),旨在筛选出现可能性较小的单体型格局,降低算法时间复杂性。
Step 3若且/>其中2≤j≤s,则为IM Mi保留可能基因型进一步地,对每个l(2≤l≤j),若给Mi指派基因型/>使得Qi≤10α(这意味着包含有序基因型/>的单体型格局出现的可能性较小),则删除Mi的可能有序基因型/>其中/>(这里产生了深度优先搜索图中的l-1个分支节点/>)。选择/>作为深度优先搜索的节点(k依次取1,2,...,l-1),即:在当前单体型格局中对IM Mi指派有序基因型/>令i=i+1,U=U-Mi。重新计算侧翼标记信息改变的IM的可能有序单体型条件概率。转Step2。
Step 3后得到对于家族所有成员和所有标记位点的一个单体型格局集并且集合中所有单体型格局都可根据出现可能性大小进行排序。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (1)
1.基于分支定界的单体型格局生成方法,其特征在于:在搜索单体型格局时,采用有界深度优先搜索、分支定界以及参数控制约束等方法,遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性;
Step 1利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率,令i=1,U=U0;ND IM表示IM的基因型无序或含有缺失等位基因,IM为一个特定个体和特定标记位点的组合,U0表示家族数据中所有ND IMs组成的集合;
Step 2在U中寻找条件概率最大的IM Mi涉及到位点u和个体k及其相应的有序基因型若/>则给IM Mi指派有序基因型/>然后对标记位点u进行等位基因推断,令i=i+1,U=U-U0,重新计算U中IM的所有可能有序基因型的条件概率,重复执行Step 2直到U中最大的条件概率小于λ,λ为条件概率的阈值;
Step 3若且/>其中2≤j≤s,则为IM Mi保留可能基因型s为有序基因型的个数;进一步地,对每个l,2≤l≤j,若给Mi指派基因型/>使得Qi≤10α,则删除Mi的可能有序基因型/>其中/>产生深度优先搜索图中的l-1个分支节点/>选择/>作为深度优先搜索的节点,k依次取1,2,...,l-1,在当前单体型格局中对IM Mi指派有序基因型/>令i=i+1,U=U–Mi,重新计算侧翼标记信息改变的IM的可能有序单体型条件概率,转Step 2;其中,D表示当前观测的家族数据,α是指定的一个用于分支定界的阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910666530.2A CN110444251B (zh) | 2019-07-23 | 2019-07-23 | 基于分支定界的单体型格局生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910666530.2A CN110444251B (zh) | 2019-07-23 | 2019-07-23 | 基于分支定界的单体型格局生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110444251A CN110444251A (zh) | 2019-11-12 |
CN110444251B true CN110444251B (zh) | 2023-09-22 |
Family
ID=68431189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910666530.2A Active CN110444251B (zh) | 2019-07-23 | 2019-07-23 | 基于分支定界的单体型格局生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110444251B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1233364A2 (en) * | 1999-06-25 | 2002-08-21 | Genaissance Pharmaceuticals, Inc. | Methods for obtaining and using haplotype data |
CN101256602A (zh) * | 2008-03-18 | 2008-09-03 | 中南大学 | 基于优化解集合的个体单体型重建方法 |
WO2008115497A2 (en) * | 2007-03-16 | 2008-09-25 | Gene Security Network | System and method for cleaning noisy genetic data and determining chromsome copy number |
CN101346724A (zh) * | 2005-11-26 | 2009-01-14 | 吉恩安全网络有限责任公司 | 清除干扰遗传数据,并使用遗传数据进行预测的方法和体系 |
WO2010066960A1 (fr) * | 2008-12-11 | 2010-06-17 | Conservatoire National Des Arts Et Métiers (Cnam) | Méthode de calcul par ordinateur de la probabilité d'observer différentes séquences d'arrangements d'états observés d'une variable modélisée par un modèle de markov caché |
CN102121046A (zh) * | 2009-06-25 | 2011-07-13 | 中国科学院北京基因组研究所 | 中国人群连锁分析snp标记集合及其使用方法与应用 |
CN104732118A (zh) * | 2008-08-04 | 2015-06-24 | 纳特拉公司 | 等位基因调用和倍性调用的方法 |
CN104862380A (zh) * | 2014-02-25 | 2015-08-26 | 林巍 | 家族特异性遗传病关联等位基因单体型变异标签确认方法 |
CN105593683A (zh) * | 2013-10-01 | 2016-05-18 | 考利达基因组股份有限公司 | 鉴定基因组中的变异的定相和连接方法 |
CN105648045A (zh) * | 2014-11-13 | 2016-06-08 | 天津华大基因科技有限公司 | 确定胎儿目标区域单体型的方法和装置 |
CN109146136A (zh) * | 2018-07-20 | 2019-01-04 | 九江学院 | 一种基于免疫遗传算法求解第一类装配线平衡问题的方法 |
CN109346130A (zh) * | 2018-10-24 | 2019-02-15 | 中国科学院水生生物研究所 | 一种直接从全基因组重测序数据中得到微单体型及其分型的方法 |
CN109378037A (zh) * | 2018-10-31 | 2019-02-22 | 中国石油大学(华东) | 基于遗传学规律的等位基因准确推断方法 |
CN109493919A (zh) * | 2018-10-31 | 2019-03-19 | 中国石油大学(华东) | 基于条件概率的基因型指派方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI116468B (fi) * | 2002-04-04 | 2005-11-30 | Licentia Oy | Geenikartoitusmenetelmä genotyyppi- ja fenotyyppidatasta sekä muistiväline ja tietokonejärjestelmä menetelmän suorittamiseksi |
US20100256917A1 (en) * | 2007-06-15 | 2010-10-07 | Mcvean Gilean | Allelic determination |
-
2019
- 2019-07-23 CN CN201910666530.2A patent/CN110444251B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1233364A2 (en) * | 1999-06-25 | 2002-08-21 | Genaissance Pharmaceuticals, Inc. | Methods for obtaining and using haplotype data |
CN101346724A (zh) * | 2005-11-26 | 2009-01-14 | 吉恩安全网络有限责任公司 | 清除干扰遗传数据,并使用遗传数据进行预测的方法和体系 |
WO2008115497A2 (en) * | 2007-03-16 | 2008-09-25 | Gene Security Network | System and method for cleaning noisy genetic data and determining chromsome copy number |
CN101256602A (zh) * | 2008-03-18 | 2008-09-03 | 中南大学 | 基于优化解集合的个体单体型重建方法 |
CN104732118A (zh) * | 2008-08-04 | 2015-06-24 | 纳特拉公司 | 等位基因调用和倍性调用的方法 |
WO2010066960A1 (fr) * | 2008-12-11 | 2010-06-17 | Conservatoire National Des Arts Et Métiers (Cnam) | Méthode de calcul par ordinateur de la probabilité d'observer différentes séquences d'arrangements d'états observés d'une variable modélisée par un modèle de markov caché |
CN102121046A (zh) * | 2009-06-25 | 2011-07-13 | 中国科学院北京基因组研究所 | 中国人群连锁分析snp标记集合及其使用方法与应用 |
CN105593683A (zh) * | 2013-10-01 | 2016-05-18 | 考利达基因组股份有限公司 | 鉴定基因组中的变异的定相和连接方法 |
CN104862380A (zh) * | 2014-02-25 | 2015-08-26 | 林巍 | 家族特异性遗传病关联等位基因单体型变异标签确认方法 |
CN105648045A (zh) * | 2014-11-13 | 2016-06-08 | 天津华大基因科技有限公司 | 确定胎儿目标区域单体型的方法和装置 |
CN109146136A (zh) * | 2018-07-20 | 2019-01-04 | 九江学院 | 一种基于免疫遗传算法求解第一类装配线平衡问题的方法 |
CN109346130A (zh) * | 2018-10-24 | 2019-02-15 | 中国科学院水生生物研究所 | 一种直接从全基因组重测序数据中得到微单体型及其分型的方法 |
CN109378037A (zh) * | 2018-10-31 | 2019-02-22 | 中国石油大学(华东) | 基于遗传学规律的等位基因准确推断方法 |
CN109493919A (zh) * | 2018-10-31 | 2019-03-19 | 中国石油大学(华东) | 基于条件概率的基因型指派方法 |
Non-Patent Citations (3)
Title |
---|
PEIS: a novel approach of tumor purity estimation by identifying information sites through integrating signal based on DNA methylation data;Shudong Wang等;《International Conference on Data Science, Medicine and Bioinformatics》;全文 * |
基于R语言的互信息网络模型在乳腺癌易感基因检测分析中的应用;王淑栋等;《计算机系统应用》;第27卷(第1期);全文 * |
杨英杰.《粒子群算法及其应用研究》.北京理工大学出版社,2017,第134-139页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110444251A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021201500B2 (en) | Haplotype phasing models | |
Frachon et al. | Intermediate degrees of synergistic pleiotropy drive adaptive evolution in ecological time | |
CN109448794B (zh) | 一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法 | |
Paşaniuc et al. | Accurate estimation of expression levels of homologous genes in RNA-seq experiments | |
CN114999573A (zh) | 一种基因组变异检测方法及检测系统 | |
Wang et al. | Tool evaluation for the detection of variably sized indels from next generation whole genome and targeted sequencing data | |
CN109493919B (zh) | 基于条件概率的基因型指派方法 | |
Paşaniuc et al. | Accurate estimation of expression levels of homologous genes in RNA-seq experiments | |
CN110444251B (zh) | 基于分支定界的单体型格局生成方法 | |
Lee et al. | Selection on the regulation of sympathetic nervous activity in humans and chimpanzees | |
Sell | Addressing challenges of ancient DNA sequence data obtained with next generation methods | |
JP2016184185A5 (zh) | ||
Jakaitiene et al. | Beta-binomial model for the detection of rare mutations in pooled next-generation sequencing experiments | |
Ou et al. | Complex genetic architecture of the chicken Growth1 QTL region | |
Brookes et al. | An alternative method of SNP inclusion to develop a generalized polygenic risk score analysis across Alzheimer's disease cohorts | |
US20240185953A1 (en) | Systems and methods for high-throughput predictions | |
Elphinstone et al. | RepeatOBserver: tandem repeat visualization and centromere detection | |
CN106446606A (zh) | 一种基于枚举策略重建多倍体个体单体型的方法 | |
Alsaedi | Evaluating the Application of Allele Frequency in the Saudi Population Variant Detection | |
Barcelona Cabeza | Genomics tools in the cloud: the new frontier in omics data analysis | |
Frachon et al. | B) Manuscrit: Intermediate degrees of synergistic pleiotropy drive adaptive evolution in ecological time. | |
Johnson et al. | ACCURATE CONSTRUCTION OF LONG RANGE HAPLOTYPE IN UNRELATED INDIVIDUALS | |
Gao | Machine Learning Methods for Prediction of Human Infectious Virus and Imputation of HLA Alleles | |
Sood | Bioinformatic analysis of human Next Generation Sequencing data; extracting additional information, optimising mapping and variant calling, and application in a rare disease | |
Navarro | Harvesting data from polyploid plants: developing tools for genetic analysis in strawberry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |