CN110444251B

CN110444251B - 基于分支定界的单体型格局生成方法

Info

Publication number: CN110444251B
Application number: CN201910666530.2A
Authority: CN
Inventors: 王淑栋; 李华昱
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2023-09-22
Anticipated expiration: 2039-07-23
Also published as: CN110444251A

Abstract

本发明公开了基于分支定界的单体型格局生成方法，本发明所采用的技术方案是在搜索单体型格局时，采用有界深度优先搜索、分支定界以及参数控制约束等方法，遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性。这里产生的单体型格局可以用来计算家族IBD矩阵，单体型格局重要性的衡量以及单体型格局的精确选择对准确计算IBD至关重要。本发明的有益效果是为遗传学中连锁和关联分析研究提供更准确的数据信息，为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法。

Description

基于分支定界的单体型格局生成方法

技术领域

本发明属于生物信息学技术领域，涉及基于分支定界的单体型格局生成方法。

背景技术

新一代基因测序技术的飞速发展使得人类基因组计划提前完成，核酸数据库、基因的遗传、物理及转录表达图谱已趋完整，这为生物遗传学家和相关领域研究者提供了染色体侯选区域内海量的高密度遗传多态性标志信息。如何充分利用这些微卫星多态性(microsatellite polymorphisms)或核苷酸多态性(single-nucleotide polymorphisms，SNP)携带的重要遗传学信息，构建合适的形式化模型，研究分析SNP、基因和表型数据间关系并从中识别人类复杂疾病的致病基因及其发病机理，是生物医学、遗传学等相关领域科学家研究的热点和难点，也是后基因组时代的重要课题。在含有缺失等位基因的家族数据中，既使经过等位基因精确推断方法和基因型近似指派方法处理后，整个家族数据中一般还可能含有缺失等位基因，这就导致出现大量的可能单体型格局。而且，每个单体型格局的缺失等位基因位点又不尽相同，导致单体型格局的重要性衡量不可比较。

发明内容

本发明的目的在于提供基于分支定界的单体型格局生成方法，本发明的有益效果是为遗传学中连锁和关联分析研究提供更准确的数据信息，为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法。

本发明所采用的技术方案是在搜索单体型格局时，采用有界深度优先搜索、分支定界以及参数控制约束等方法，遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性。

把一个特定个体和特定标记位点的组合称为一个个体-标记(individual-marker)，简记为IM。如果一个IM的基因型无序或含有缺失等位基因，称这个IM为非确定(non deterministic)IM，简称为ND IM。令U₀表示家族数据中所有ND IMs组成的集合。假设U₀中含有t个ND IMs。设M₁，M₂，...，M_t是U₀中IMs的一个特定顺序。对于M_i(i＝1，2，...，t)，假设有s个可能的有序基因型与之兼容，分别用表示，与这s个有序基因型对应的条件概率分别用/>表示且有/>理论上，计算概率/>取决于前i-1个IMs M₁，M₂，...，M_i-1的指派m₁，m₂，...，m_i-1和当前观测的家族数据D。设IM M_i涉及到位点u和个体k，用/>表示位点u和个体k的具有已知有序基因型的位点组成的集合。条件概率/>的计算公式如下：

其中G_k，G_f和G_m分别是个体k及其父亲、母亲在中位点上的部分有序多位点基因型，H_off是个体k的孩子们在这些位点上的部分已知基因型集合。/>是H_off中孩子O的已知单体型，n_off是个体k的孩子数，/>是G_k中位点u为基因型/>的多位点基因型，j＝1，2，…，s，和/>分别是多位点基因型/>中来自个体k的父亲和母亲的两个单体型。对于家族中没有双亲的始祖，条件概率/>公式可简化如下：

在执行算法之前，我们需要设置一个条件概率的阈值，用λ(0＜λ≤1)表示。λ的取值直接影响到缺失家族数据的补全率和准确率。进一步地，采用以下步骤：

Step 1利用条件概率计算公式，计算U₀中每个ND IMs的所有可能有序基因型的条件概率。令i＝1，U＝U₀。

Step 2在U中寻找条件概率最大的IM M_i(涉及到位点u和个体k)及其相应的有序基因型/>若/>则给IM M_i指派有序基因型/>然后对标记位点u进行等位基因推断。令i＝i+1，U＝U-U₀。重新计算U中IM的所有可能有序基因型的条件概率(注意：这里需要采用适当的策略避免基因型条件概率的重复计算)。重复执行Step 2直到U中最大的条件概率小于λ。

在执行Step 3之前，需要指定一个用于分支定界的阈值α(α＜0)，旨在筛选出现可能性较小的单体型格局，降低算法时间复杂性。

Step 3若且/>其中2≤j≤s，则为IM M_i保留可能基因型进一步地，对每个l(2≤l≤j)，若给M_i指派基因型/>使得Q_i≤10^a(这意味着包含有序基因型/>的单体型格局出现的可能性较小)，则删除M_i的可能有序基因型/>其中/>(这里产生了深度优先搜索图中的l-1个分支节点/>)。选择/>作为深度优先搜索的节点(k依次取1，2，...，l-1)，即：在当前单体型格局中对IM M_i指派有序基因型/>令i＝i+1，U＝U-M_i。重新计算侧翼标记信息改变的IM的可能有序单体型条件概率。转Step2。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

在含有缺失等位基因的家族数据中，既使经过等位基因精确推断方法和可能基因型近似指派方法处理后，整个家族数据中一般还可能含有缺失等位基因，这就导致出现大量的可能单体型格局。而且，每个单体型格局的缺失等位基因位点又不尽相同，导致单体型格局的重要性衡量不可比较。本发明提出在搜索单体型格局时，采用有界深度优先搜索、分支定界和参数控制约束的方法，用单体型格局的联合条件概率来衡量单体型格局出现的可能性。基于分支定界的单体型格局生成方法，采用有界深度优先搜索、分支定界以及参数控制约束等方法，遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性。这里产生的单体型格局可以用来计算家族IBD矩阵，单体型格局重要性的衡量以及单体型格局的精确选择对准确计算IBD至关重要。

本发明基于分支定界的单体型格局生成方法步骤如下：

Step 3若且/>其中2≤j≤s，则为IM M_i保留可能基因型进一步地，对每个l(2≤l≤j)，若给M_i指派基因型/>使得Q_i≤10^α(这意味着包含有序基因型/>的单体型格局出现的可能性较小)，则删除M_i的可能有序基因型/>其中/>(这里产生了深度优先搜索图中的l-1个分支节点/>)。选择/>作为深度优先搜索的节点(k依次取1，2，...，l-1)，即：在当前单体型格局中对IM M_i指派有序基因型/>令i＝i+1，U＝U-M_i。重新计算侧翼标记信息改变的IM的可能有序单体型条件概率。转Step2。

Step 3后得到对于家族所有成员和所有标记位点的一个单体型格局集并且集合中所有单体型格局都可根据出现可能性大小进行排序。

以上所述仅是对本发明的较佳实施方式而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施方式所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.基于分支定界的单体型格局生成方法，其特征在于：在搜索单体型格局时，采用有界深度优先搜索、分支定界以及参数控制约束等方法，遍历含有缺失等位基因家族数据的单体型格局并用其联合条件概率来衡量单体型格局的重要性和准确性；

Step 1利用条件概率计算公式，计算U₀中每个ND IMs的所有可能有序基因型的条件概率，令i＝1，U＝U₀；ND IM表示IM的基因型无序或含有缺失等位基因，IM为一个特定个体和特定标记位点的组合，U₀表示家族数据中所有ND IMs组成的集合；

Step 2在U中寻找条件概率最大的IM M_i涉及到位点u和个体k及其相应的有序基因型若/>则给IM M_i指派有序基因型/>然后对标记位点u进行等位基因推断，令i＝i+1，U＝U-U₀，重新计算U中IM的所有可能有序基因型的条件概率，重复执行Step 2直到U中最大的条件概率小于λ，λ为条件概率的阈值；

Step 3若且/>其中2≤j≤s，则为IM M_i保留可能基因型s为有序基因型的个数；进一步地，对每个l，2≤l≤j，若给M_i指派基因型/>使得Q_i≤10^α，则删除M_i的可能有序基因型/>其中/>产生深度优先搜索图中的l-1个分支节点/>选择/>作为深度优先搜索的节点，k依次取1,2,...,l-1，在当前单体型格局中对IM M_i指派有序基因型/>令i＝i+1，U＝U–M_i，重新计算侧翼标记信息改变的IM的可能有序单体型条件概率，转Step 2；其中，D表示当前观测的家族数据，α是指定的一个用于分支定界的阈值。