CN109493919B - 基于条件概率的基因型指派方法 - Google Patents

基于条件概率的基因型指派方法 Download PDF

Info

Publication number
CN109493919B
CN109493919B CN201811282085.1A CN201811282085A CN109493919B CN 109493919 B CN109493919 B CN 109493919B CN 201811282085 A CN201811282085 A CN 201811282085A CN 109493919 B CN109493919 B CN 109493919B
Authority
CN
China
Prior art keywords
genotypes
genotype
individual
conditional probability
ordered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811282085.1A
Other languages
English (en)
Other versions
CN109493919A (zh
Inventor
王淑栋
李华昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201811282085.1A priority Critical patent/CN109493919B/zh
Publication of CN109493919A publication Critical patent/CN109493919A/zh
Application granted granted Critical
Publication of CN109493919B publication Critical patent/CN109493919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于条件概率的基因型指派方法,利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率,在U中寻找条件概率
Figure DDA0001848243530000011
最大的IMMi,涉及到位点u和个体k及其相应的有序基因型
Figure DDA0001848243530000012
Figure DDA0001848243530000014
则给IMMi指派有序基因型
Figure DDA0001848243530000013
然后对标记位点u进行等位基因推断,令i=i+1,U=U‑U0,重新计算U中IM的所有可能有序基因型的条件概率,重复执行Step2直到U中最大的条件概率小于λ。本发明的有益效果是充分利用家族成员的基因型信息并且尽可能减少循环次数,这样既增加了等位基因的补全率又降低了算法的时间和空间复杂性。

Description

基于条件概率的基因型指派方法
技术领域
本发明属于数学和遗传学技术领域,涉及基于条件概率的基因型指派方法。
背景技术
新一代基因测序技术的飞速发展使得人类基因组计划提前完成,核酸数据库、基因的遗传、物理及转录表达图谱已趋完整,这为生物遗传学家和相关领域研究者提供了染色体侯选区域内海量的高密度遗传多态性标志信息。如何充分利用这些微卫星多态性(microsatellite polymorphisms)或核苷酸多态性(single-nucleotide polymorphisms,SNP)携带的重要遗传学信息,构建合适的形式化模型,研究分析SNP、基因和表型数据间关系并从中识别人类复杂疾病的致病基因及其发病机理,是生物医学、遗传学等相关领域科学家研究的热点和难点,也是后基因组时代的重要课题。
发明内容
本发明的目的在于提供基于条件概率的基因型指派方法,本发明的有益效果是针对密集SNP的大家族缺失型数据,为遗传学中连锁和关联分析研究提供更准确的数据信息;为复杂疾病的遗传方式研究提供重要依据;为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法;充分利用家族成员的基因型信息并且尽可能减少循环次数,这样既增加了等位基因的补全率又降低了算法的时间和空间复杂性。
本发明所采用的技术方案是首先把一个特定个体和特定标记位点的组合称为一个个体-标记,简记为IM,如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定IM,简称为ND IM,令U0表示家族数据中所有ND IMs组成的集合,假设U0中含有t个ND IMs,设M1,M2,…,Mt是U0中IMs的一个特定顺序,对于Mi(i=1,2,…,t),假设有s个可能的有序基因型与之兼容,分别用
Figure BDA0001848243520000011
表示,与这s个有序基因型对应的条件概率分别用
Figure BDA0001848243520000012
表示且有
Figure BDA0001848243520000013
设IM Mi涉及到位点u和个体k,用
Figure BDA0001848243520000014
表示位点u和个体k的具有已知有序基因型的位点组成的集合,条件概率
Figure BDA00018482435200000214
的计算公式如下:
Figure BDA0001848243520000021
其中Gk,Gf和Gm分别是个体k及其父亲、母亲在
Figure BDA0001848243520000022
中位点上的部分有序多位点基因型,Hoff是个体k的孩子们在这些位点上的部分已知基因型集合,当然这些基因型都是在IMsM1,M2,…,Mi-1分别指派了基因型m1,m2,…,mi-1后的数据,
Figure BDA0001848243520000023
是Hoff中孩子O的已知单体型,noff是个体k的孩子数,
Figure BDA0001848243520000024
是Gk中位点u为基因型
Figure BDA0001848243520000025
的多位点基因型,j=1,2,…,s,
Figure BDA0001848243520000026
Figure BDA0001848243520000027
分别是多位点基因型
Figure BDA0001848243520000028
中来自个体k的父亲和母亲的两个单体型,由于家族中的始祖没有双亲,所以需要简化上述公式如下:
Figure BDA0001848243520000029
在进行基因型指派算法之前,需要设置一个条件概率的阈值,用λ(0<λ≤1)表示,基因型指派算法如下:
Step 1利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率,令i=1,U=U0
Step 2在U中寻找条件概率
Figure BDA00018482435200000210
最大的IM Mi,涉及到位点u和个体k及其相应的有序基因型
Figure BDA00018482435200000211
Figure BDA00018482435200000212
则给IM Mi指派有序基因型
Figure BDA00018482435200000213
然后对标记位点u进行等位基因推断,令i=i+1,U=U-U0,重新计算U中IM的所有可能有序基因型的条件概率,重复执行Step 2直到U中最大的条件概率小于λ。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明基于条件概率的基因型指派方法,先引入一些术语和符号。把一个特定个体和特定标记位点的组合称为一个个体-标记(individual-marker),简记为IM。如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定(non deterministic)IM,简称为ND IM。令U0表示家族数据中所有NDIMs组成的集合。假设U0中含有t个NDIMs。设M1,M2,…,Mt是U0中IMs的一个特定顺序。对于Mi(i=1,2,…,t),假设有s个可能的有序基因型与之兼容,分别用
Figure BDA0001848243520000031
表示,与这s个有序基因型对应的条件概率分别用
Figure BDA0001848243520000032
表示且有
Figure BDA0001848243520000033
理论上,计算概率
Figure BDA0001848243520000034
取决于前i-1个IMs M1,M2,…,Mi-1的指派m1,m2,…,mi-1和当前观测的家族数据D。但实际上,利用一个大家族中所有已知信息计算概率
Figure BDA00018482435200000310
几乎是不可行的。因此,缩小搜索范围,只用当前个体及其近亲(父母和孩子)的有用信息来近似计算概率
Figure BDA0001848243520000035
设IM Mi涉及到位点u和个体k,用
Figure BDA0001848243520000036
表示位点u和个体k的具有已知有序基因型的位点组成的集合。条件概率
Figure BDA0001848243520000037
的计算公式如下:
Figure BDA0001848243520000038
其中Gk,Gf和Gm分别是个体k及其父亲、母亲在
Figure BDA0001848243520000039
中位点上的部分有序多位点基因型,Hoff是个体k的孩子们在这些位点上的部分已知基因型集合。当然这些基因型都是在IMsM1,M2,…,Mi-1分别指派了基因型m1,m2,…,mi-1后的数据,
Figure BDA0001848243520000041
是Hoff中孩子O的已知单体型,noff是个体k的孩子数,
Figure BDA0001848243520000042
是Gk中位点u为基因型
Figure BDA0001848243520000043
的多位点基因型,j=1,2,…,s,
Figure BDA0001848243520000044
Figure BDA0001848243520000045
分别是多位点基因型
Figure BDA0001848243520000046
中来自个体k的父亲和母亲的两个单体型。
由于家族中的始祖没有双亲,所以需要简化上述公式如下:
Figure BDA0001848243520000047
这里涉及到单体型频率的估计。目前对单体型频率估计的方法较多,但大多是针对连续标记位点的单体型而言的。需要考虑带“洞”的单体型频率。在进行基因型指派算法之前,需要设置一个条件概率的阈值,用λ(0<λ≤1)表示。λ的取值直接影响到缺失家族数据的补全率和准确率。基因型指派算法如下:
Step 1利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率。令i=1,U=U0
Step 2在U中寻找条件概率
Figure BDA0001848243520000048
最大的IMMi(涉及到位点u和个体k)及其相应的有序基因型
Figure BDA0001848243520000049
Figure BDA00018482435200000410
则给IMMi指派有序基因型
Figure BDA00018482435200000411
然后对标记位点u进行等位基因推断。令i=i+1,U=U-U0。重新计算U中IM的所有可能有序基因型的条件概率(注意:这里需要采用适当的策略避免基因型条件概率的重复计算)。重复执行Step 2直到U中最大的条件概率小于λ。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (1)

1.基于条件概率的基因型指派方法,其特征在于:首先把一个特定个体和特定标记位点的组合称为一个个体-标记,简记为IM,如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定IM,简称为NDIM,令U0表示家族数据中所有NDIMs组成的集合,假设U0中含有t个NDIMs,设M1,M2,…,Mt是U0中IMs的一个特定顺序,对于Mi(i=1,2,…,t),假设有s个可能的有序基因型与之兼容,分别用
Figure FDA0001848243510000011
表示,与这s个有序基因型对应的条件概率分别用
Figure FDA0001848243510000012
表示且有
Figure FDA0001848243510000013
设IMMi涉及到位点u和个体k,用
Figure FDA0001848243510000014
表示位点u和个体k的具有已知有序基因型的位点组成的集合,条件概率
Figure FDA0001848243510000015
的计算公式如下:
Figure FDA0001848243510000016
其中Gk,Gf和Gm分别是个体k及其父亲、母亲在
Figure FDA0001848243510000017
中位点上的部分有序多位点基因型,Hoff是个体k的孩子们在这些位点上的部分已知基因型集合,当然这些基因型都是在IMsM1,M2,…,Mi-1分别指派了基因型m1,m2,…,mi-1后的数据,
Figure FDA0001848243510000018
是Hoff中孩子O的已知单体型,noff是个体k的孩子数,
Figure FDA0001848243510000019
是Gk中位点u为基因型
Figure FDA00018482435100000110
的多位点基因型,j=1,2,…,s,
Figure FDA00018482435100000111
Figure FDA00018482435100000112
分别是多位点基因型
Figure FDA00018482435100000113
中来自个体k的父亲和母亲的两个单体型,由于家族中的始祖没有双亲,所以需要简化上述公式如下:
Figure FDA0001848243510000021
在进行基因型指派算法之前,需要设置一个条件概率的阈值,用λ(0<λ≤1)表示,基因型指派算法如下:
Step1利用条件概率计算公式,计算U0中每个NDIMs的所有可能有序基因型的条件概率,令i=1,U=U0
Step2在U中寻找条件概率
Figure FDA0001848243510000022
最大的IMMi,涉及到位点u和个体k及其相应的有序基因型
Figure FDA0001848243510000023
Figure FDA0001848243510000024
则给IMMi指派有序基因型
Figure FDA0001848243510000025
然后对标记位点u进行等位基因推断,令i=i+1,U=U-U0,重新计算U中IM的所有可能有序基因型的条件概率,重复执行Step2直到U中最大的条件概率小于λ。
CN201811282085.1A 2018-10-31 2018-10-31 基于条件概率的基因型指派方法 Active CN109493919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811282085.1A CN109493919B (zh) 2018-10-31 2018-10-31 基于条件概率的基因型指派方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811282085.1A CN109493919B (zh) 2018-10-31 2018-10-31 基于条件概率的基因型指派方法

Publications (2)

Publication Number Publication Date
CN109493919A CN109493919A (zh) 2019-03-19
CN109493919B true CN109493919B (zh) 2023-04-14

Family

ID=65691800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811282085.1A Active CN109493919B (zh) 2018-10-31 2018-10-31 基于条件概率的基因型指派方法

Country Status (1)

Country Link
CN (1) CN109493919B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444251B (zh) * 2019-07-23 2023-09-22 中国石油大学(华东) 基于分支定界的单体型格局生成方法
CN110400603A (zh) * 2019-07-23 2019-11-01 中国石油大学(华东) 基于格局加权的ibd矩阵计算方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008115497A2 (en) * 2007-03-16 2008-09-25 Gene Security Network System and method for cleaning noisy genetic data and determining chromsome copy number
CN103608818A (zh) * 2011-02-09 2014-02-26 纳特拉公司 非侵入性产前倍性识别方法
CN103745136A (zh) * 2013-12-26 2014-04-23 中国农业大学 高效推断单倍型和填充缺失基因型的方法
CN106570350A (zh) * 2015-12-17 2017-04-19 复旦大学 单核苷酸多态位点分型算法
CN108197435A (zh) * 2018-01-29 2018-06-22 绥化学院 一种基于标记位点基因型含有误差的多性状多区间定位方法
CN108277267A (zh) * 2016-12-29 2018-07-13 安诺优达基因科技(北京)有限公司 检测基因突变的装置和用于对孕妇和胎儿的基因型进行分型的试剂盒

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008115497A2 (en) * 2007-03-16 2008-09-25 Gene Security Network System and method for cleaning noisy genetic data and determining chromsome copy number
CN103608818A (zh) * 2011-02-09 2014-02-26 纳特拉公司 非侵入性产前倍性识别方法
CN103745136A (zh) * 2013-12-26 2014-04-23 中国农业大学 高效推断单倍型和填充缺失基因型的方法
CN106570350A (zh) * 2015-12-17 2017-04-19 复旦大学 单核苷酸多态位点分型算法
CN108277267A (zh) * 2016-12-29 2018-07-13 安诺优达基因科技(北京)有限公司 检测基因突变的装置和用于对孕妇和胎儿的基因型进行分型的试剂盒
CN108197435A (zh) * 2018-01-29 2018-06-22 绥化学院 一种基于标记位点基因型含有误差的多性状多区间定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Huang Jian ; Huang YuSong.Sibship Analysis Based on Parental Genotype Reconstruction from Any Number of Reference Siblings..《Journal of forensic sciences》.2017,第62卷(第01期),233-238. *
敖雁 等.侧连标记基因型下QTL基因型的条件概率.《阜阳师范学院学报》.2007,(第01期),46-48. *

Also Published As

Publication number Publication date
CN109493919A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
Richardson et al. Statistical methods in integrative genomics
Lu et al. Integrative tissue-specific functional annotations in the human genome provide novel insights on many complex traits and improve signal prioritization in genome wide association studies
Wei et al. Detecting epistasis in human complex traits
Huang et al. Gene-based tests of association
CN106068330B (zh) 将已知等位基因用于读数映射中的系统和方法
Morton Linkage disequilibrium maps and association mapping
Sinoquet Probabilistic graphical models for genetics, genomics, and postgenomics
Manor et al. Robust prediction of expression differences among human individuals using only genotype information
Paşaniuc et al. Accurate estimation of expression levels of homologous genes in RNA-seq experiments
Patané et al. Phylogenomics
Kolosov et al. Prioritization of disease genes from GWAS using ensemble-based positive-unlabeled learning
CN109493919B (zh) 基于条件概率的基因型指派方法
Balding et al. Handbook of statistical genomics
Morota et al. An assessment of linkage disequilibrium in H olstein cattle using a B ayesian network
Miller et al. Innovative strategies for annotating the “relationSNP” between variants and molecular phenotypes
Song et al. Complement genome annotation lift over using a weighted sequence alignment strategy
Zhang et al. Chapter 10: Mining genome-wide genetic markers
CN110444251B (zh) 基于分支定界的单体型格局生成方法
Schiavinato et al. JLOH: Inferring loss of heterozygosity blocks from sequencing data
Hancock et al. Concise Encyclopaedia of Bioinformatics and Computational Biology
Bian et al. Hidden Markov models in bioinformatics: SNV inference from next generation sequence
Li et al. Learning functional conservation between pig and human to decipher evolutionary mechanisms underlying gene expression and complex trait
Barcelona Cabeza Genomics tools in the cloud: the new frontier in omics data analysis
Aneli et al. Recombulator-X: A fast and user-friendly tool for estimating X chromosome recombination rates in forensic genetics
Fang et al. Rapid and accurate multi-phenotype imputation for millions of individuals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant