CN109493919B - 基于条件概率的基因型指派方法 - Google Patents
基于条件概率的基因型指派方法 Download PDFInfo
- Publication number
- CN109493919B CN109493919B CN201811282085.1A CN201811282085A CN109493919B CN 109493919 B CN109493919 B CN 109493919B CN 201811282085 A CN201811282085 A CN 201811282085A CN 109493919 B CN109493919 B CN 109493919B
- Authority
- CN
- China
- Prior art keywords
- genotypes
- genotype
- individual
- conditional probability
- ordered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明属于数学和遗传学技术领域,涉及基于条件概率的基因型指派方法。
背景技术
新一代基因测序技术的飞速发展使得人类基因组计划提前完成,核酸数据库、基因的遗传、物理及转录表达图谱已趋完整,这为生物遗传学家和相关领域研究者提供了染色体侯选区域内海量的高密度遗传多态性标志信息。如何充分利用这些微卫星多态性(microsatellite polymorphisms)或核苷酸多态性(single-nucleotide polymorphisms,SNP)携带的重要遗传学信息,构建合适的形式化模型,研究分析SNP、基因和表型数据间关系并从中识别人类复杂疾病的致病基因及其发病机理,是生物医学、遗传学等相关领域科学家研究的热点和难点,也是后基因组时代的重要课题。
发明内容
本发明的目的在于提供基于条件概率的基因型指派方法,本发明的有益效果是针对密集SNP的大家族缺失型数据,为遗传学中连锁和关联分析研究提供更准确的数据信息;为复杂疾病的遗传方式研究提供重要依据;为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法;充分利用家族成员的基因型信息并且尽可能减少循环次数,这样既增加了等位基因的补全率又降低了算法的时间和空间复杂性。
本发明所采用的技术方案是首先把一个特定个体和特定标记位点的组合称为一个个体-标记,简记为IM,如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定IM,简称为ND IM,令U0表示家族数据中所有ND IMs组成的集合,假设U0中含有t个ND IMs,设M1,M2,…,Mt是U0中IMs的一个特定顺序,对于Mi(i=1,2,…,t),假设有s个可能的有序基因型与之兼容,分别用表示,与这s个有序基因型对应的条件概率分别用表示且有设IM Mi涉及到位点u和个体k,用表示位点u和个体k的具有已知有序基因型的位点组成的集合,条件概率的计算公式如下:
其中Gk,Gf和Gm分别是个体k及其父亲、母亲在中位点上的部分有序多位点基因型,Hoff是个体k的孩子们在这些位点上的部分已知基因型集合,当然这些基因型都是在IMsM1,M2,…,Mi-1分别指派了基因型m1,m2,…,mi-1后的数据,是Hoff中孩子O的已知单体型,noff是个体k的孩子数,是Gk中位点u为基因型的多位点基因型,j=1,2,…,s,和分别是多位点基因型中来自个体k的父亲和母亲的两个单体型,由于家族中的始祖没有双亲,所以需要简化上述公式如下:
在进行基因型指派算法之前,需要设置一个条件概率的阈值,用λ(0<λ≤1)表示,基因型指派算法如下:
Step 1利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率,令i=1,U=U0;
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明基于条件概率的基因型指派方法,先引入一些术语和符号。把一个特定个体和特定标记位点的组合称为一个个体-标记(individual-marker),简记为IM。如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定(non deterministic)IM,简称为ND IM。令U0表示家族数据中所有NDIMs组成的集合。假设U0中含有t个NDIMs。设M1,M2,…,Mt是U0中IMs的一个特定顺序。对于Mi(i=1,2,…,t),假设有s个可能的有序基因型与之兼容,分别用表示,与这s个有序基因型对应的条件概率分别用表示且有理论上,计算概率取决于前i-1个IMs M1,M2,…,Mi-1的指派m1,m2,…,mi-1和当前观测的家族数据D。但实际上,利用一个大家族中所有已知信息计算概率几乎是不可行的。因此,缩小搜索范围,只用当前个体及其近亲(父母和孩子)的有用信息来近似计算概率设IM Mi涉及到位点u和个体k,用表示位点u和个体k的具有已知有序基因型的位点组成的集合。条件概率的计算公式如下:
其中Gk,Gf和Gm分别是个体k及其父亲、母亲在中位点上的部分有序多位点基因型,Hoff是个体k的孩子们在这些位点上的部分已知基因型集合。当然这些基因型都是在IMsM1,M2,…,Mi-1分别指派了基因型m1,m2,…,mi-1后的数据,是Hoff中孩子O的已知单体型,noff是个体k的孩子数,是Gk中位点u为基因型的多位点基因型,j=1,2,…,s,和分别是多位点基因型中来自个体k的父亲和母亲的两个单体型。
由于家族中的始祖没有双亲,所以需要简化上述公式如下:
这里涉及到单体型频率的估计。目前对单体型频率估计的方法较多,但大多是针对连续标记位点的单体型而言的。需要考虑带“洞”的单体型频率。在进行基因型指派算法之前,需要设置一个条件概率的阈值,用λ(0<λ≤1)表示。λ的取值直接影响到缺失家族数据的补全率和准确率。基因型指派算法如下:
Step 1利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率。令i=1,U=U0。
Step 2在U中寻找条件概率最大的IMMi(涉及到位点u和个体k)及其相应的有序基因型若则给IMMi指派有序基因型然后对标记位点u进行等位基因推断。令i=i+1,U=U-U0。重新计算U中IM的所有可能有序基因型的条件概率(注意:这里需要采用适当的策略避免基因型条件概率的重复计算)。重复执行Step 2直到U中最大的条件概率小于λ。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (1)
1.基于条件概率的基因型指派方法,其特征在于:首先把一个特定个体和特定标记位点的组合称为一个个体-标记,简记为IM,如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定IM,简称为NDIM,令U0表示家族数据中所有NDIMs组成的集合,假设U0中含有t个NDIMs,设M1,M2,…,Mt是U0中IMs的一个特定顺序,对于Mi(i=1,2,…,t),假设有s个可能的有序基因型与之兼容,分别用表示,与这s个有序基因型对应的条件概率分别用表示且有设IMMi涉及到位点u和个体k,用表示位点u和个体k的具有已知有序基因型的位点组成的集合,条件概率的计算公式如下:
其中Gk,Gf和Gm分别是个体k及其父亲、母亲在中位点上的部分有序多位点基因型,Hoff是个体k的孩子们在这些位点上的部分已知基因型集合,当然这些基因型都是在IMsM1,M2,…,Mi-1分别指派了基因型m1,m2,…,mi-1后的数据,是Hoff中孩子O的已知单体型,noff是个体k的孩子数,是Gk中位点u为基因型的多位点基因型,j=1,2,…,s,和分别是多位点基因型中来自个体k的父亲和母亲的两个单体型,由于家族中的始祖没有双亲,所以需要简化上述公式如下:
在进行基因型指派算法之前,需要设置一个条件概率的阈值,用λ(0<λ≤1)表示,基因型指派算法如下:
Step1利用条件概率计算公式,计算U0中每个NDIMs的所有可能有序基因型的条件概率,令i=1,U=U0;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811282085.1A CN109493919B (zh) | 2018-10-31 | 2018-10-31 | 基于条件概率的基因型指派方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811282085.1A CN109493919B (zh) | 2018-10-31 | 2018-10-31 | 基于条件概率的基因型指派方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109493919A CN109493919A (zh) | 2019-03-19 |
CN109493919B true CN109493919B (zh) | 2023-04-14 |
Family
ID=65691800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811282085.1A Active CN109493919B (zh) | 2018-10-31 | 2018-10-31 | 基于条件概率的基因型指派方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109493919B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444251B (zh) * | 2019-07-23 | 2023-09-22 | 中国石油大学(华东) | 基于分支定界的单体型格局生成方法 |
CN110400603A (zh) * | 2019-07-23 | 2019-11-01 | 中国石油大学(华东) | 基于格局加权的ibd矩阵计算方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008115497A2 (en) * | 2007-03-16 | 2008-09-25 | Gene Security Network | System and method for cleaning noisy genetic data and determining chromsome copy number |
CN103608818A (zh) * | 2011-02-09 | 2014-02-26 | 纳特拉公司 | 非侵入性产前倍性识别方法 |
CN103745136A (zh) * | 2013-12-26 | 2014-04-23 | 中国农业大学 | 高效推断单倍型和填充缺失基因型的方法 |
CN106570350A (zh) * | 2015-12-17 | 2017-04-19 | 复旦大学 | 单核苷酸多态位点分型算法 |
CN108197435A (zh) * | 2018-01-29 | 2018-06-22 | 绥化学院 | 一种基于标记位点基因型含有误差的多性状多区间定位方法 |
CN108277267A (zh) * | 2016-12-29 | 2018-07-13 | 安诺优达基因科技(北京)有限公司 | 检测基因突变的装置和用于对孕妇和胎儿的基因型进行分型的试剂盒 |
-
2018
- 2018-10-31 CN CN201811282085.1A patent/CN109493919B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008115497A2 (en) * | 2007-03-16 | 2008-09-25 | Gene Security Network | System and method for cleaning noisy genetic data and determining chromsome copy number |
CN103608818A (zh) * | 2011-02-09 | 2014-02-26 | 纳特拉公司 | 非侵入性产前倍性识别方法 |
CN103745136A (zh) * | 2013-12-26 | 2014-04-23 | 中国农业大学 | 高效推断单倍型和填充缺失基因型的方法 |
CN106570350A (zh) * | 2015-12-17 | 2017-04-19 | 复旦大学 | 单核苷酸多态位点分型算法 |
CN108277267A (zh) * | 2016-12-29 | 2018-07-13 | 安诺优达基因科技(北京)有限公司 | 检测基因突变的装置和用于对孕妇和胎儿的基因型进行分型的试剂盒 |
CN108197435A (zh) * | 2018-01-29 | 2018-06-22 | 绥化学院 | 一种基于标记位点基因型含有误差的多性状多区间定位方法 |
Non-Patent Citations (2)
Title |
---|
Huang Jian ; Huang YuSong.Sibship Analysis Based on Parental Genotype Reconstruction from Any Number of Reference Siblings..《Journal of forensic sciences》.2017,第62卷(第01期),233-238. * |
敖雁 等.侧连标记基因型下QTL基因型的条件概率.《阜阳师范学院学报》.2007,(第01期),46-48. * |
Also Published As
Publication number | Publication date |
---|---|
CN109493919A (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Richardson et al. | Statistical methods in integrative genomics | |
Lu et al. | Integrative tissue-specific functional annotations in the human genome provide novel insights on many complex traits and improve signal prioritization in genome wide association studies | |
Wei et al. | Detecting epistasis in human complex traits | |
Huang et al. | Gene-based tests of association | |
CN106068330B (zh) | 将已知等位基因用于读数映射中的系统和方法 | |
Morton | Linkage disequilibrium maps and association mapping | |
Sinoquet | Probabilistic graphical models for genetics, genomics, and postgenomics | |
Manor et al. | Robust prediction of expression differences among human individuals using only genotype information | |
Paşaniuc et al. | Accurate estimation of expression levels of homologous genes in RNA-seq experiments | |
Patané et al. | Phylogenomics | |
Kolosov et al. | Prioritization of disease genes from GWAS using ensemble-based positive-unlabeled learning | |
CN109493919B (zh) | 基于条件概率的基因型指派方法 | |
Balding et al. | Handbook of statistical genomics | |
Morota et al. | An assessment of linkage disequilibrium in H olstein cattle using a B ayesian network | |
Miller et al. | Innovative strategies for annotating the “relationSNP” between variants and molecular phenotypes | |
Song et al. | Complement genome annotation lift over using a weighted sequence alignment strategy | |
Zhang et al. | Chapter 10: Mining genome-wide genetic markers | |
CN110444251B (zh) | 基于分支定界的单体型格局生成方法 | |
Schiavinato et al. | JLOH: Inferring loss of heterozygosity blocks from sequencing data | |
Hancock et al. | Concise Encyclopaedia of Bioinformatics and Computational Biology | |
Bian et al. | Hidden Markov models in bioinformatics: SNV inference from next generation sequence | |
Li et al. | Learning functional conservation between pig and human to decipher evolutionary mechanisms underlying gene expression and complex trait | |
Barcelona Cabeza | Genomics tools in the cloud: the new frontier in omics data analysis | |
Aneli et al. | Recombulator-X: A fast and user-friendly tool for estimating X chromosome recombination rates in forensic genetics | |
Fang et al. | Rapid and accurate multi-phenotype imputation for millions of individuals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |