CN114974413A

CN114974413A - 父母子三元亲属结构的候选区域基因关联检测系统及方法

Info

Publication number: CN114974413A
Application number: CN202210535249.7A
Authority: CN
Inventors: 盛晓娜; 田素材; 佟良; 周影
Original assignee: Harbin University
Current assignee: Harbin University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-30
Anticipated expiration: 2042-05-17
Also published as: CN114974413B

Abstract

父母子三元亲属结构的候选区域基因关联检测系统及方法，涉及生物统计学技术领域。本发明是为了解决现有基因关联检测方法还存在难以克服群体分层的影响，从而导致无法实现在家庭型数据框架下基因与性状的关联检测问题。本发明包括：信息获取模块，主成分提取模块，家庭内部相关性统计量构造模块，全部家庭数据关联检测统计量获取模块，基因关联检测模块；信息获取模块用于获取标记位点信息、性状信息；主成分提取模块用于提取信息主成分；家庭内部相关性统计量构造模块用于构造家庭内部相关性统计量；全部家庭数据关联检测统计量获取模块用于取全部家庭数据关联检测统计量；所述基因关联检测模块用于进行基因关联检测。本发明用于基因关联检测。

Description

父母子三元亲属结构的候选区域基因关联检测系统及方法

技术领域

本发明涉及生物统计学技术领域，特别涉及父母子三元亲属结构的候选区域基因关联检测系统及方法。

背景技术

基因是指携带有遗传信息的DNA或RNA序列，也称为遗传因子，是控制性状的基本遗传单位。基因通过指导蛋白质的合成来表达自己所携带的遗传信息，从而控制生物个体的性状表现。现代医学研究证明，除外伤外，几乎所有的疾病都和基因有关系。人体中正常基因也分为不同的基因型，不同的基因型对环境因素的敏感性不同，敏感基因型在环境因素的作用下可引起疾病，单独由异常基因直接引起疾病，被称为遗传病。因此基因与性状的关联检测问题成为本领域的研究重点。

目前基因关联检测方法主要是针对独立个体的基因关联检测，但是疾病的状态一般都不是独立的，而是受相似遗传因素和环境因素影响。由于家庭成员具有相似的遗传和环境因素，且家庭成员的疾病状态一般并不独立，所以目前针对独立个体的基因关联检测还存在难以克服群体分层的影响，从而无法精准实现基因与性状的关联检测问题。

发明内容

本发明目的是为了解决现有基因关联检测方法还存在难以克服群体分层的影响，从而导致无法精准实现基因与性状的关联检测的问题，而提出了父母子三元亲属结构的候选区域基因关联检测系统及方法。

父母子三元亲属结构的候选区域基因关联检测系统具体过程为：

信息获取模块，主成分提取模块，家庭内部相关性统计量构造模块，全部家庭数据关联检测统计量获取模块，基因关联检测模块；

所述信息获取模块用于获取父母子三元亲属结构家庭成员基因组上的标记位点信息x_ijl以及性状信息y_ijl；

其中，x_ijl和y_ijl分别表示第i个子群体第j个家庭中第l个个体的基因型得分和数量性状值；

所述主成分提取模块用于提取信息获取模块获取的信息主成分t_ijl＝(t_ijl1,···,t_ijlf)；

其中，f是主成分的总数量；

所述家庭内部相关性统计量构造模块用于根据x_ijl和y_ijl和t_ijl构造家庭内部相关性统计量U_ij；

所述全部家庭数据关联检测统计量获取模块用于根据U_ij获取全部家庭数据关联检测统计量；

所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值，并根据统计P值确定基因与性状信息是否有关联。

父母子三元亲属结构的候选区域基因关联检测方法应用于父母子三元亲属结构的候选区域基因关联检测系统中。

本发明的有益效果为：

本发明从家庭型数据着眼，提出了一种新的基于广义估计方程的主成分法，对常见或罕见遗传变异的关联性进行检测，同时建立了关联检验统计量，对目标性状的潜在因果变异位点进行检测，克服了群体分层的影响，从而实现了在家庭型数据框架下基因与性状的精准关联检测。

附图说明

图1为本发明模块图。

具体实施方式

具体实施方式一：本实施方式父母子三元亲属结构的候选区域基因关联检测系统，包括：信息获取模块，主成分提取模块，家庭内部相关性统计量构造模块，全部家庭数据关联检测统计量获取模块，基因关联检测模块(如图1)；

其中，f是主成分的总数量；

具体实施方式二：所述家庭内部相关性统计量构造模块用于根据x_ijl和y_ijl和t_ijl构造家庭内部相关性统计量，具体为：

步骤一、建立主成分t_ijl＝(t_ijl1,···,t_ijlf)与y_ijl的广义线性函数和主成分t_ijl＝(t_ijl1,···,t_ijlf)与候选标记点位信息x_1ijl的广义线性函数：

y_ijl＝g₁(t_ijl)+ψ_ijl,

x_1ijl＝g₂(t_ijl)+ε_ijl

其中，ψ_ijl是随机变量，ε_ijl是随机变量，g₁(t_ijl)和g₂(t_ijl)是模型核心函数，候选标记点位信息x_1ijl是标记点位信息x_ijl中的一部分，E(ψ_ijl)＝E(ε_ijl)＝0，E(ψ_ijl)和E(ε_ijl)是随机变量ψ_ijl和ε_ijl的期望；

β₁＝(β₁₀,β₁₁...,β_1f)是模型核心函数g₁(t_ijl)中主成分的系数；β₂＝(β₂₀,β₂₁...,β_2f)是模型核心函数g₂(t_ijl)中主成分的系数；

步骤二、利用步骤一获取的广义线性函数获取家庭内部的相关性统计量U_ij：

步骤二一、基于广义估计方程理论对g₁(t_ijl)和g₂(t_ijl)进行估计获得的

步骤二二、将步骤二一获得的

代入步骤一获得广义线性函数中获得

和

并利用

和

配置残差变量，如下：

步骤二三、利用步骤二二获得的残差变量构造家庭内部的相关性统计量U_ij：

其中，

是第i个子群体的性状值平均值，

是第i个子群体的基因型的平均值，c_ij是第i个群体中第j个家庭中的个体总数。

具体实施方式三：所述全部家庭数据关联检测统计量获取模块用于根据U_ij获取全部家庭数据关联检测统计量，具体为：

其中，k是子群的总数，n_i是i个子群中家庭的总数；

具体实施方式四：所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值，并根据统计P值进行基因关联检测，具体为：

S1、在零假设下计算全部家庭数据关联检测统计量的统计P值；

S2、将获得的统计P值与预设的显著性水平进行比较，若P大于预设的显著性水平，则表示基因与性状产生关联，若P小于等于预设的显著性水平则表示基因与性状没有关联；

其中，统计P值是显著性水平。

具体实施方式五：父母子三元亲属结构的候选区域基因关联检测方法应用于父母子三元亲属结构的候选区域基因关联检测系统中。

Claims

1.父母子三元亲属结构的候选区域基因关联检测系统，其特征在于：所述系统包括：信息获取模块，主成分提取模块，家庭内部相关性统计量构造模块，全部家庭数据关联检测统计量获取模块，基因关联检测模块；

所述主成分提取模块用于提取信息获取模块获取的信息主成分t_ijl＝(t_ijl1,…,t_ijlf)；

其中，f是主成分的总数量；

2.根据权利要求1所述的父母子三元亲属结构的候选区域基因关联检测系统，其特征在于：所述家庭内部相关性统计量构造模块用于根据x_ijl和y_ijl和t_ijl构造家庭内部相关性统计量，具体为：

步骤一、建立主成分t_ijl＝(t_ijl1,…,t_ijlf)与y_ijl的广义线性函数和主成分t_ijl＝(t_ijl1,…,t_ijlf)与候选标记点位信息x_1ijl的广义线性函数：

y_ijl＝g₁(t_ijl)+ψ_ijl

x_1ijl＝g₂(t_ijl)+ε_ijl

其中，ψ_ijl是随机变量，ε_ijl是随机变量，g₁(t_ijl)和g₂(t_ijl)是模型核心函数；

步骤二、利用步骤一获取的广义线性函数获取家庭内部的相关性统计量U_ij。

3.根据权利要求2所述的父母子三元亲属结构的候选区域基因关联检测系统，其特征在于：

其中，β₁＝(β₁₀,β₁₁...,β_1f)是模型核心函数g₁(t_ijl)中主成分的系数；β₂＝(β₂₀,β₂₁...,β_2f) 是模型核心函数g₂(t_ijl)中主成分的系数。

4.根据权利要求3所述的父母子三元亲属结构的候选区域基因关联检测系统，其特征在于：E(ψ_ijl)＝E(ε_ijl)＝0；

其中，E(ψ_ijl)和E(ε_ijl)是随机变量ψ_ijl和ε_ijl的期望。

5.根据权利要求4所述的父母子三元亲属结构的候选区域基因关联检测系统，其特征在于：所述步骤二中的利用步骤一获取的广义线性函数获取家庭内部的相关性统计量U_ij：

步骤二二、将步骤二一获得的

代入步骤一获得广义线性函数中获得

和

并利用

和

配置残差变量；

步骤二三、利用步骤二二获得的残差变量构造家庭内部的相关性统计量U_ij。

6.根据权利要求5所述的父母子三元亲属结构的候选区域基因关联检测系统，其特征在于：所述步骤二二中用

和

配置残差变量，具体如下：

7.根据权利要求6所述的父母子三元亲属结构的候选区域基因关联检测系统，其特征在于：所述步骤二三中的利用步骤二二获得的残差变量构造家庭内部的相关性统计量U_ij，如下式：

其中，

是第i个子群体的性状值平均值，

8.根据权利要求7所述的父母子三元亲属结构的候选区域基因关联检测系统，其特征在于：所述全部家庭数据关联检测统计量获取模块用于根据U_ij获取全部家庭数据关联检测统计量，具体为：

其中，k是子群的总数，n_i是i个子群中家庭的总数。

9.根据权利要求8所述的父母子三元亲属结构的候选区域基因关联检测系统，其特征在于：所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值，并根据统计P值进行基因关联检测，具体为：

S2、将获得的统计P值与预设的显著性水平进行比较，若P大于预设的显著性水平，则表示基因与性状信息有关联，若统计P值小于等于预设的显著性水平则表示基因与性状信息没有关联。

10.父母子三元亲属结构的候选区域基因关联检测方法，其特征在于：所述方法应用于权利要求1-9任一项所述的父母子三元亲属结构的候选区域基因关联检测系统中。