CN110444251A - 基于分支定界的单体型格局生成方法 - Google Patents

基于分支定界的单体型格局生成方法 Download PDF

Info

Publication number
CN110444251A
CN110444251A CN201910666530.2A CN201910666530A CN110444251A CN 110444251 A CN110444251 A CN 110444251A CN 201910666530 A CN201910666530 A CN 201910666530A CN 110444251 A CN110444251 A CN 110444251A
Authority
CN
China
Prior art keywords
genotype
haplotype pattern
branch
orderly
bound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910666530.2A
Other languages
English (en)
Other versions
CN110444251B (zh
Inventor
王淑栋
李华昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201910666530.2A priority Critical patent/CN110444251B/zh
Publication of CN110444251A publication Critical patent/CN110444251A/zh
Application granted granted Critical
Publication of CN110444251B publication Critical patent/CN110444251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了基于分支定界的单体型格局生成方法,本发明所采用的技术方案是在搜索单体型格局时,采用有界深度优先搜索、分支定界以及参数控制约束等方法,遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性。这里产生的单体型格局可以用来计算家族IBD矩阵,单体型格局重要性的衡量以及单体型格局的精确选择对准确计算IBD至关重要。本发明的有益效果是为遗传学中连锁和关联分析研究提供更准确的数据信息,为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法。

Description

基于分支定界的单体型格局生成方法
技术领域
本发明属于生物信息学技术领域,涉及基于分支定界的单体型格局生成方法。
背景技术
新一代基因测序技术的飞速发展使得人类基因组计划提前完成,核酸数据库、基因的遗传、物理及转录表达图谱已趋完整,这为生物遗传学家和相关领域研究者提供了染色体侯选区域内海量的高密度遗传多态性标志信息。如何充分利用这些微卫星多态性(microsatellite polymorphisms)或核苷酸多态性(single-nucleotide polymorphisms,SNP)携带的重要遗传学信息,构建合适的形式化模型,研究分析SNP、基因和表型数据间关系并从中识别人类复杂疾病的致病基因及其发病机理,是生物医学、遗传学等相关领域科学家研究的热点和难点,也是后基因组时代的重要课题。在含有缺失等位基因的家族数据中,既使经过等位基因精确推断方法和基因型近似指派方法处理后,整个家族数据中一般还可能含有缺失等位基因,这就导致出现大量的可能单体型格局。而且,每个单体型格局的缺失等位基因位点又不尽相同,导致单体型格局的重要性衡量不可比较。
发明内容
本发明的目的在于提供基于分支定界的单体型格局生成方法,本发明的有益效果是为遗传学中连锁和关联分析研究提供更准确的数据信息,为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法。
本发明所采用的技术方案是在搜索单体型格局时,采用有界深度优先搜索、分支定界以及参数控制约束等方法,遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性。
把一个特定个体和特定标记位点的组合称为一个个体-标记(individual-marker),简记为IM。如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定(non deterministic)IM,简称为ND IM。令U0表示家族数据中所有ND IMs组成的集合。假设U0中含有t个ND IMs。设M1,M2,…,Mt是U0中IMs的一个特定顺序。对于Mi(i=1,2,…,t),假设有s个可能的有序基因型与之兼容,分别用表示,与这s个有序基因型对应的条件概率分别用表示且有理论上,计算概率取决于前i-1个IMs M1,M2,…,Mi-1的指派m1,m2,…,mi-1和当前观测的家族数据D。设IM Mi涉及到位点u和个体k,用表示位点u和个体k的具有已知有序基因型的位点组成的集合。条件概率的计算公式如下:
其中Gk,Gf和Gm分别是个体k及其父亲、母亲在中位点上的部分有序多位点基因型,Hoff是个体k的孩子们在这些位点上的部分已知基因型集合。是Hoff中孩子O的已知单体型,noff是个体k的孩子数,是Gk中位点u为基因型的多位点基因型,j=1,2,…,s,分别是多位点基因型中来自个体k的父亲和母亲的两个单体型。对于家族中没有双亲的始祖,条件概率公式可简化如下:
在执行算法之前,我们需要设置一个条件概率的阈值,用λ(0<λ≤1)表示。λ的取值直接影响到缺失家族数据的补全率和准确率。进一步地,采用以下步骤:
Step 1利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率。令i=1,U=U0
Step 2在U中寻找条件概率最大的IM Mi(涉及到位点u和个体k)及其相应的有序基因型则给IM Mi指派有序基因型然后对标记位点u进行等位基因推断。令i=i+1,U=U-U0。重新计算U中IM的所有可能有序基因型的条件概率(注意:这里需要采用适当的策略避免基因型条件概率的重复计算)。重复执行Step 2直到U中最大的条件概率小于λ。
在执行Step 3之前,需要指定一个用于分支定界的阈值α(α<0),旨在筛选出现可能性较小的单体型格局,降低算法时间复杂性。
Step 3若其中2≤j≤s,则为IM Mi保留可能基因型进一步地,对每个l(2≤l≤j),若给Mi指派基因型使得Qi≤10α(这意味着包含有序基因型的单体型格局出现的可能性较小),则删除Mi的可能有序基因型其中(这里产生了深度优先搜索图中的l-1个分支节点)。选择作为深度优先搜索的节点(k依次取1,2,...,l-1),即:在当前单体型格局中对IM Mi指派有序基因型令i=i+1,U=U–Mi。重新计算侧翼标记信息改变的IM的可能有序单体型条件概率。转Step 2。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
在含有缺失等位基因的家族数据中,既使经过等位基因精确推断方法和可能基因型近似指派方法处理后,整个家族数据中一般还可能含有缺失等位基因,这就导致出现大量的可能单体型格局。而且,每个单体型格局的缺失等位基因位点又不尽相同,导致单体型格局的重要性衡量不可比较。本发明提出在搜索单体型格局时,采用有界深度优先搜索、分支定界和参数控制约束的方法,用单体型格局的联合条件概率来衡量单体型格局出现的可能性。基于分支定界的单体型格局生成方法,采用有界深度优先搜索、分支定界以及参数控制约束等方法,遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性。这里产生的单体型格局可以用来计算家族IBD矩阵,单体型格局重要性的衡量以及单体型格局的精确选择对准确计算IBD至关重要。
本发明基于分支定界的单体型格局生成方法步骤如下:
Step 1利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率。令i=1,U=U0
Step 2在U中寻找条件概率最大的IM Mi(涉及到位点u和个体k)及其相应的有序基因型则给IM Mi指派有序基因型然后对标记位点u进行等位基因推断。令i=i+1,U=U-U0。重新计算U中IM的所有可能有序基因型的条件概率(注意:这里需要采用适当的策略避免基因型条件概率的重复计算)。重复执行Step 2直到U中最大的条件概率小于λ。
在执行Step 3之前,需要指定一个用于分支定界的阈值α(α<0),旨在筛选出现可能性较小的单体型格局,降低算法时间复杂性。
Step 3若其中2≤j≤s,则为IM Mi保留可能基因型进一步地,对每个l(2≤l≤j),若给Mi指派基因型使得Qi≤10α(这意味着包含有序基因型的单体型格局出现的可能性较小),则删除Mi的可能有序基因型其中(这里产生了深度优先搜索图中的l-1个分支节点)。选择作为深度优先搜索的节点(k依次取1,2,...,l-1),即:在当前单体型格局中对IM Mi指派有序基因型令i=i+1,U=U–Mi。重新计算侧翼标记信息改变的IM的可能有序单体型条件概率。转Step 2。
Step 3后得到对于家族所有成员和所有标记位点的一个单体型格局集并且集合中所有单体型格局都可根据出现可能性大小进行排序。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (2)

1.基于分支定界的单体型格局生成方法,其特征在于:在搜索单体型格局时,采用有界深度优先搜索、分支定界以及参数控制约束等方法,遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性。
2.按照权利要求1所述基于分支定界的单体型格局生成方法,其特征在于按照以下步骤进行:
Step1利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率。令i=1,U=U0
Step2在U中寻找条件概率最大的IM Mi涉及到位点u和个体k及其相应的有序基因型则给IM Mi指派有序基因型然后对标记位点u进行等位基因推断,令i=i+1,U=U-U0,重新计算U中IM的所有可能有序基因型的条件概率,重复执行Step2直到U中最大的条件概率小于λ;
Step3若其中2≤j≤s,则为IM Mi保留可能基因型进一步地,对每个l,2≤l≤j,若给Mi指派基因型使得Qi≤10α,则删除Mi的可能有序基因型其中产生深度优先搜索图中的l-1个分支节点选择作为深度优先搜索的节点,k依次取1,2,...,l-1,在当前单体型格局中对IM Mi指派有序基因型令i=i+1,U=U–Mi,重新计算侧翼标记信息改变的IM的可能有序单体型条件概率。转Step2。
CN201910666530.2A 2019-07-23 2019-07-23 基于分支定界的单体型格局生成方法 Active CN110444251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910666530.2A CN110444251B (zh) 2019-07-23 2019-07-23 基于分支定界的单体型格局生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910666530.2A CN110444251B (zh) 2019-07-23 2019-07-23 基于分支定界的单体型格局生成方法

Publications (2)

Publication Number Publication Date
CN110444251A true CN110444251A (zh) 2019-11-12
CN110444251B CN110444251B (zh) 2023-09-22

Family

ID=68431189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910666530.2A Active CN110444251B (zh) 2019-07-23 2019-07-23 基于分支定界的单体型格局生成方法

Country Status (1)

Country Link
CN (1) CN110444251B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1233364A2 (en) * 1999-06-25 2002-08-21 Genaissance Pharmaceuticals, Inc. Methods for obtaining and using haplotype data
US20050250098A1 (en) * 2002-04-04 2005-11-10 Toivonen Hannu T T Method for gene mapping from genotype and phenotype data
CN101256602A (zh) * 2008-03-18 2008-09-03 中南大学 基于优化解集合的个体单体型重建方法
WO2008115497A2 (en) * 2007-03-16 2008-09-25 Gene Security Network System and method for cleaning noisy genetic data and determining chromsome copy number
CN101346724A (zh) * 2005-11-26 2009-01-14 吉恩安全网络有限责任公司 清除干扰遗传数据,并使用遗传数据进行预测的方法和体系
WO2010066960A1 (fr) * 2008-12-11 2010-06-17 Conservatoire National Des Arts Et Métiers (Cnam) Méthode de calcul par ordinateur de la probabilité d'observer différentes séquences d'arrangements d'états observés d'une variable modélisée par un modèle de markov caché
US20100256917A1 (en) * 2007-06-15 2010-10-07 Mcvean Gilean Allelic determination
CN102121046A (zh) * 2009-06-25 2011-07-13 中国科学院北京基因组研究所 中国人群连锁分析snp标记集合及其使用方法与应用
CN104732118A (zh) * 2008-08-04 2015-06-24 纳特拉公司 等位基因调用和倍性调用的方法
CN104862380A (zh) * 2014-02-25 2015-08-26 林巍 家族特异性遗传病关联等位基因单体型变异标签确认方法
CN105593683A (zh) * 2013-10-01 2016-05-18 考利达基因组股份有限公司 鉴定基因组中的变异的定相和连接方法
CN105648045A (zh) * 2014-11-13 2016-06-08 天津华大基因科技有限公司 确定胎儿目标区域单体型的方法和装置
CN109146136A (zh) * 2018-07-20 2019-01-04 九江学院 一种基于免疫遗传算法求解第一类装配线平衡问题的方法
CN109346130A (zh) * 2018-10-24 2019-02-15 中国科学院水生生物研究所 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
CN109378037A (zh) * 2018-10-31 2019-02-22 中国石油大学(华东) 基于遗传学规律的等位基因准确推断方法
CN109493919A (zh) * 2018-10-31 2019-03-19 中国石油大学(华东) 基于条件概率的基因型指派方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1233364A2 (en) * 1999-06-25 2002-08-21 Genaissance Pharmaceuticals, Inc. Methods for obtaining and using haplotype data
US20050250098A1 (en) * 2002-04-04 2005-11-10 Toivonen Hannu T T Method for gene mapping from genotype and phenotype data
CN101346724A (zh) * 2005-11-26 2009-01-14 吉恩安全网络有限责任公司 清除干扰遗传数据,并使用遗传数据进行预测的方法和体系
WO2008115497A2 (en) * 2007-03-16 2008-09-25 Gene Security Network System and method for cleaning noisy genetic data and determining chromsome copy number
US20100256917A1 (en) * 2007-06-15 2010-10-07 Mcvean Gilean Allelic determination
CN101256602A (zh) * 2008-03-18 2008-09-03 中南大学 基于优化解集合的个体单体型重建方法
CN104732118A (zh) * 2008-08-04 2015-06-24 纳特拉公司 等位基因调用和倍性调用的方法
WO2010066960A1 (fr) * 2008-12-11 2010-06-17 Conservatoire National Des Arts Et Métiers (Cnam) Méthode de calcul par ordinateur de la probabilité d'observer différentes séquences d'arrangements d'états observés d'une variable modélisée par un modèle de markov caché
CN102121046A (zh) * 2009-06-25 2011-07-13 中国科学院北京基因组研究所 中国人群连锁分析snp标记集合及其使用方法与应用
CN105593683A (zh) * 2013-10-01 2016-05-18 考利达基因组股份有限公司 鉴定基因组中的变异的定相和连接方法
CN104862380A (zh) * 2014-02-25 2015-08-26 林巍 家族特异性遗传病关联等位基因单体型变异标签确认方法
CN105648045A (zh) * 2014-11-13 2016-06-08 天津华大基因科技有限公司 确定胎儿目标区域单体型的方法和装置
CN109146136A (zh) * 2018-07-20 2019-01-04 九江学院 一种基于免疫遗传算法求解第一类装配线平衡问题的方法
CN109346130A (zh) * 2018-10-24 2019-02-15 中国科学院水生生物研究所 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
CN109378037A (zh) * 2018-10-31 2019-02-22 中国石油大学(华东) 基于遗传学规律的等位基因准确推断方法
CN109493919A (zh) * 2018-10-31 2019-03-19 中国石油大学(华东) 基于条件概率的基因型指派方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHUDONG WANG等: "PEIS: a novel approach of tumor purity estimation by identifying information sites through integrating signal based on DNA methylation data", 《INTERNATIONAL CONFERENCE ON DATA SCIENCE, MEDICINE AND BIOINFORMATICS》, pages 134 - 139 *
杨英杰, 北京理工大学出版社 *
王淑栋等: "基于R语言的互信息网络模型在乳腺癌易感基因检测分析中的应用", 《计算机系统应用》, vol. 27, no. 1 *

Also Published As

Publication number Publication date
CN110444251B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
Campbell et al. MAKER-P: a tool kit for the rapid creation, management, and quality control of plant genome annotations
Garrick et al. Implementing a QTL detection study (GWAS) using genomic prediction methodology
Orengo et al. Bioinformatics: genes, proteins and computers
Edwards et al. High-resolution genetic mapping with pooled sequencing
Liu et al. The impact of genetic relationship and linkage disequilibrium on genomic selection
CN106068330A (zh) 将已知等位基因用于读数映射中的系统和方法
Zheng et al. Species delimitation and lineage separation history of a species complex of aspens in China
CN107849612A (zh) 比对和变体测序分析管线
Hejase et al. From summary statistics to gene trees: methods for inferring positive selection
Luo et al. The molecular clock and evolutionary timescales
CN109493919A (zh) 基于条件概率的基因型指派方法
Gagneur et al. Selective phenotyping, entropy reduction, and the mastermind game
CN107058298B (zh) 一种基于人工减数分裂的辅助基因组组装方法
CN109706231A (zh) 一种用于凡纳滨对虾分子育种的高通量snp分型方法
CN108182348A (zh) 基于种子序列信息的dna甲基化数据检测方法及其装置
CN110444251A (zh) 基于分支定界的单体型格局生成方法
CN106446601A (zh) 一种大规模标注lncRNA功能的方法
CN106021998A (zh) 单通多变体识别计算流水线
Zhang et al. Basics for bioinformatics
Wang et al. Machine learning and ensemble learning for transcriptome data: principles and advances
Cheshire Bioinformatic investigations into the genetic architecture of renal disorders
Imam et al. A comprehensive overview on application of bioinformatics and computational statistics in rice genomics toward an Amalgamated approach for improving acquaintance base
Tyagi et al. On the road to losing connectivity: Fecal samples provide genome-wide insights into anthropogenic impacts on two large herbivore species in central India
Hayawi et al. Leveraging Nucleotide Dependencies for Improved mRNA Vaccine Degradation Prediction
Wei Hidden Markov models for controlling false discovery rate in genome-wide association analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant