CN109493919B

CN109493919B - 基于条件概率的基因型指派方法

Info

Publication number: CN109493919B
Application number: CN201811282085.1A
Authority: CN
Inventors: 王淑栋; 李华昱
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2023-04-14
Anticipated expiration: 2038-10-31
Also published as: CN109493919A

Abstract

本发明公开了基于条件概率的基因型指派方法，利用条件概率计算公式，计算U₀中每个ND IMs的所有可能有序基因型的条件概率，在U中寻找条件概率

最大的IMM_i，涉及到位点u和个体k及其相应的有序基因型

若

则给IMM_i指派有序基因型

然后对标记位点u进行等位基因推断，令i＝i+1，U＝U‑U₀，重新计算U中IM的所有可能有序基因型的条件概率，重复执行Step2直到U中最大的条件概率小于λ。本发明的有益效果是充分利用家族成员的基因型信息并且尽可能减少循环次数，这样既增加了等位基因的补全率又降低了算法的时间和空间复杂性。

Description

基于条件概率的基因型指派方法

技术领域

本发明属于数学和遗传学技术领域，涉及基于条件概率的基因型指派方法。

背景技术

新一代基因测序技术的飞速发展使得人类基因组计划提前完成，核酸数据库、基因的遗传、物理及转录表达图谱已趋完整，这为生物遗传学家和相关领域研究者提供了染色体侯选区域内海量的高密度遗传多态性标志信息。如何充分利用这些微卫星多态性(microsatellite polymorphisms)或核苷酸多态性(single-nucleotide polymorphisms，SNP)携带的重要遗传学信息，构建合适的形式化模型，研究分析SNP、基因和表型数据间关系并从中识别人类复杂疾病的致病基因及其发病机理，是生物医学、遗传学等相关领域科学家研究的热点和难点，也是后基因组时代的重要课题。

发明内容

本发明的目的在于提供基于条件概率的基因型指派方法，本发明的有益效果是针对密集SNP的大家族缺失型数据，为遗传学中连锁和关联分析研究提供更准确的数据信息；为复杂疾病的遗传方式研究提供重要依据；为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法；充分利用家族成员的基因型信息并且尽可能减少循环次数，这样既增加了等位基因的补全率又降低了算法的时间和空间复杂性。

本发明所采用的技术方案是首先把一个特定个体和特定标记位点的组合称为一个个体-标记，简记为IM，如果一个IM的基因型无序或含有缺失等位基因，称这个IM为非确定IM，简称为ND IM，令U₀表示家族数据中所有ND IMs组成的集合，假设U₀中含有t个ND IMs，设M₁,M₂,…,M_t是U₀中IMs的一个特定顺序，对于M_i(i＝1,2,…,t)，假设有s个可能的有序基因型与之兼容，分别用

表示，与这s个有序基因型对应的条件概率分别用

表示且有

设IM M_i涉及到位点u和个体k，用

表示位点u和个体k的具有已知有序基因型的位点组成的集合，条件概率

的计算公式如下：

其中G_k,G_f和G_m分别是个体k及其父亲、母亲在

中位点上的部分有序多位点基因型，H_off是个体k的孩子们在这些位点上的部分已知基因型集合，当然这些基因型都是在IMsM₁,M₂,…,M_i-1分别指派了基因型m₁,m₂,…,m_i-1后的数据，

是H_off中孩子O的已知单体型，n_off是个体k的孩子数，

是G_k中位点u为基因型

的多位点基因型，j＝1,2,…,s，

和

分别是多位点基因型

中来自个体k的父亲和母亲的两个单体型，由于家族中的始祖没有双亲，所以需要简化上述公式如下：

在进行基因型指派算法之前，需要设置一个条件概率的阈值，用λ(0<λ≤1)表示，基因型指派算法如下：

Step 1利用条件概率计算公式，计算U₀中每个ND IMs的所有可能有序基因型的条件概率，令i＝1，U＝U₀；

Step 2在U中寻找条件概率

最大的IM M_i，涉及到位点u和个体k及其相应的有序基因型

若

则给IM M_i指派有序基因型

然后对标记位点u进行等位基因推断，令i＝i+1，U＝U-U₀，重新计算U中IM的所有可能有序基因型的条件概率，重复执行Step 2直到U中最大的条件概率小于λ。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

本发明基于条件概率的基因型指派方法，先引入一些术语和符号。把一个特定个体和特定标记位点的组合称为一个个体-标记(individual-marker)，简记为IM。如果一个IM的基因型无序或含有缺失等位基因，称这个IM为非确定(non deterministic)IM，简称为ND IM。令U₀表示家族数据中所有NDIMs组成的集合。假设U₀中含有t个NDIMs。设M₁,M₂,…,M_t是U₀中IMs的一个特定顺序。对于M_i(i＝1,2,…,t)，假设有s个可能的有序基因型与之兼容，分别用

表示，与这s个有序基因型对应的条件概率分别用

表示且有

理论上，计算概率

取决于前i-1个IMs M₁,M₂,…,M_i-1的指派m₁,m₂,…,m_i-1和当前观测的家族数据D。但实际上，利用一个大家族中所有已知信息计算概率

几乎是不可行的。因此，缩小搜索范围，只用当前个体及其近亲(父母和孩子)的有用信息来近似计算概率

设IM M_i涉及到位点u和个体k，用

表示位点u和个体k的具有已知有序基因型的位点组成的集合。条件概率

的计算公式如下：

其中G_k,G_f和G_m分别是个体k及其父亲、母亲在

中位点上的部分有序多位点基因型，H_off是个体k的孩子们在这些位点上的部分已知基因型集合。当然这些基因型都是在IMsM₁,M₂,…,M_i-1分别指派了基因型m₁,m₂,…,m_i-1后的数据，

是H_off中孩子O的已知单体型，n_off是个体k的孩子数，

是G_k中位点u为基因型

的多位点基因型，j＝1,2,…,s，

和

分别是多位点基因型

中来自个体k的父亲和母亲的两个单体型。

由于家族中的始祖没有双亲，所以需要简化上述公式如下：

这里涉及到单体型频率的估计。目前对单体型频率估计的方法较多，但大多是针对连续标记位点的单体型而言的。需要考虑带“洞”的单体型频率。在进行基因型指派算法之前，需要设置一个条件概率的阈值，用λ(0<λ≤1)表示。λ的取值直接影响到缺失家族数据的补全率和准确率。基因型指派算法如下：

Step 1利用条件概率计算公式，计算U₀中每个ND IMs的所有可能有序基因型的条件概率。令i＝1，U＝U₀。

Step 2在U中寻找条件概率

最大的IMM_i(涉及到位点u和个体k)及其相应的有序基因型

若

则给IMM_i指派有序基因型

然后对标记位点u进行等位基因推断。令i＝i+1，U＝U-U₀。重新计算U中IM的所有可能有序基因型的条件概率(注意：这里需要采用适当的策略避免基因型条件概率的重复计算)。重复执行Step 2直到U中最大的条件概率小于λ。

以上所述仅是对本发明的较佳实施方式而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施方式所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.基于条件概率的基因型指派方法，其特征在于：首先把一个特定个体和特定标记位点的组合称为一个个体-标记，简记为IM，如果一个IM的基因型无序或含有缺失等位基因，称这个IM为非确定IM，简称为NDIM，令U₀表示家族数据中所有NDIMs组成的集合，假设U₀中含有t个NDIMs，设M₁,M₂,…,M_t是U₀中IMs的一个特定顺序，对于M_i(i＝1,2,…,t)，假设有s个可能的有序基因型与之兼容，分别用