CN114974413A - 父母子三元亲属结构的候选区域基因关联检测系统及方法 - Google Patents

父母子三元亲属结构的候选区域基因关联检测系统及方法 Download PDF

Info

Publication number
CN114974413A
CN114974413A CN202210535249.7A CN202210535249A CN114974413A CN 114974413 A CN114974413 A CN 114974413A CN 202210535249 A CN202210535249 A CN 202210535249A CN 114974413 A CN114974413 A CN 114974413A
Authority
CN
China
Prior art keywords
ijl
family
parent
gene
statistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210535249.7A
Other languages
English (en)
Other versions
CN114974413B (zh
Inventor
盛晓娜
田素材
佟良
周影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University
Original Assignee
Harbin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University filed Critical Harbin University
Priority to CN202210535249.7A priority Critical patent/CN114974413B/zh
Publication of CN114974413A publication Critical patent/CN114974413A/zh
Application granted granted Critical
Publication of CN114974413B publication Critical patent/CN114974413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Ecology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

父母子三元亲属结构的候选区域基因关联检测系统及方法,涉及生物统计学技术领域。本发明是为了解决现有基因关联检测方法还存在难以克服群体分层的影响,从而导致无法实现在家庭型数据框架下基因与性状的关联检测问题。本发明包括:信息获取模块,主成分提取模块,家庭内部相关性统计量构造模块,全部家庭数据关联检测统计量获取模块,基因关联检测模块;信息获取模块用于获取标记位点信息、性状信息;主成分提取模块用于提取信息主成分;家庭内部相关性统计量构造模块用于构造家庭内部相关性统计量;全部家庭数据关联检测统计量获取模块用于取全部家庭数据关联检测统计量;所述基因关联检测模块用于进行基因关联检测。本发明用于基因关联检测。

Description

父母子三元亲属结构的候选区域基因关联检测系统及方法
技术领域
本发明涉及生物统计学技术领域,特别涉及父母子三元亲属结构的候选区域基因关联检测系统及方法。
背景技术
基因是指携带有遗传信息的DNA或RNA序列,也称为遗传因子,是控制性状的基本遗传单位。基因通过指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体的性状表现。现代医学研究证明,除外伤外,几乎所有的疾病都和基因有关系。人体中正常基因也分为不同的基因型,不同的基因型对环境因素的敏感性不同,敏感基因型在环境因素的作用下可引起疾病,单独由异常基因直接引起疾病,被称为遗传病。因此基因与性状的关联检测问题成为本领域的研究重点。
目前基因关联检测方法主要是针对独立个体的基因关联检测,但是疾病的状态一般都不是独立的,而是受相似遗传因素和环境因素影响。由于家庭成员具有相似的遗传和环境因素,且家庭成员的疾病状态一般并不独立,所以目前针对独立个体的基因关联检测还存在难以克服群体分层的影响,从而无法精准实现基因与性状的关联检测问题。
发明内容
本发明目的是为了解决现有基因关联检测方法还存在难以克服群体分层的影响,从而导致无法精准实现基因与性状的关联检测的问题,而提出了父母子三元亲属结构的候选区域基因关联检测系统及方法。
父母子三元亲属结构的候选区域基因关联检测系统具体过程为:
信息获取模块,主成分提取模块,家庭内部相关性统计量构造模块,全部家庭数据关联检测统计量获取模块,基因关联检测模块;
所述信息获取模块用于获取父母子三元亲属结构家庭成员基因组上的标记位点信息xijl以及性状信息yijl
其中,xijl和yijl分别表示第i个子群体第j个家庭中第l个个体的基因型得分和数量性状值;
所述主成分提取模块用于提取信息获取模块获取的信息主成分tijl=(tijl1,···,tijlf);
其中,f是主成分的总数量;
所述家庭内部相关性统计量构造模块用于根据xijl和yijl和tijl构造家庭内部相关性统计量Uij
所述全部家庭数据关联检测统计量获取模块用于根据Uij获取全部家庭数据关联检测统计量;
所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值,并根据统计P值确定基因与性状信息是否有关联。
父母子三元亲属结构的候选区域基因关联检测方法应用于父母子三元亲属结构的候选区域基因关联检测系统中。
本发明的有益效果为:
本发明从家庭型数据着眼,提出了一种新的基于广义估计方程的主成分法,对常见或罕见遗传变异的关联性进行检测,同时建立了关联检验统计量,对目标性状的潜在因果变异位点进行检测,克服了群体分层的影响,从而实现了在家庭型数据框架下基因与性状的精准关联检测。
附图说明
图1为本发明模块图。
具体实施方式
具体实施方式一:本实施方式父母子三元亲属结构的候选区域基因关联检测系统,包括:信息获取模块,主成分提取模块,家庭内部相关性统计量构造模块,全部家庭数据关联检测统计量获取模块,基因关联检测模块(如图1);
所述信息获取模块用于获取父母子三元亲属结构家庭成员基因组上的标记位点信息xijl以及性状信息yijl
其中,xijl和yijl分别表示第i个子群体第j个家庭中第l个个体的基因型得分和数量性状值;
所述主成分提取模块用于提取信息获取模块获取的信息主成分tijl=(tijl1,···,tijlf);
其中,f是主成分的总数量;
所述家庭内部相关性统计量构造模块用于根据xijl和yijl和tijl构造家庭内部相关性统计量Uij
所述全部家庭数据关联检测统计量获取模块用于根据Uij获取全部家庭数据关联检测统计量;
所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值,并根据统计P值确定基因与性状信息是否有关联。
具体实施方式二:所述家庭内部相关性统计量构造模块用于根据xijl和yijl和tijl构造家庭内部相关性统计量,具体为:
步骤一、建立主成分tijl=(tijl1,···,tijlf)与yijl的广义线性函数和主成分tijl=(tijl1,···,tijlf)与候选标记点位信息x1ijl的广义线性函数:
yijl=g1(tijl)+ψijl,
x1ijl=g2(tijl)+εijl
其中,ψijl是随机变量,εijl是随机变量,g1(tijl)和g2(tijl)是模型核心函数,候选标记点位信息x1ijl是标记点位信息xijl中的一部分,E(ψijl)=E(εijl)=0,E(ψijl)和E(εijl)是随机变量ψijl和εijl的期望;
Figure BDA0003647633100000031
Figure BDA0003647633100000032
β1=(β1011...,β1f)是模型核心函数g1(tijl)中主成分的系数;β2=(β2021...,β2f)是模型核心函数g2(tijl)中主成分的系数;
步骤二、利用步骤一获取的广义线性函数获取家庭内部的相关性统计量Uij
步骤二一、基于广义估计方程理论对g1(tijl)和g2(tijl)进行估计获得的
Figure BDA0003647633100000033
步骤二二、将步骤二一获得的
Figure BDA0003647633100000034
代入步骤一获得广义线性函数中获得
Figure BDA0003647633100000035
Figure BDA0003647633100000036
并利用
Figure BDA0003647633100000037
Figure BDA0003647633100000038
配置残差变量,如下:
Figure BDA0003647633100000039
Figure BDA00036476331000000310
步骤二三、利用步骤二二获得的残差变量构造家庭内部的相关性统计量Uij
Figure BDA00036476331000000311
其中,
Figure BDA00036476331000000312
是第i个子群体的性状值平均值,
Figure BDA00036476331000000313
是第i个子群体的基因型的平均值,cij是第i个群体中第j个家庭中的个体总数。
具体实施方式三:所述全部家庭数据关联检测统计量获取模块用于根据Uij获取全部家庭数据关联检测统计量,具体为:
Figure BDA0003647633100000041
其中,k是子群的总数,ni是i个子群中家庭的总数;
具体实施方式四:所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值,并根据统计P值进行基因关联检测,具体为:
S1、在零假设下计算全部家庭数据关联检测统计量的统计P值;
S2、将获得的统计P值与预设的显著性水平进行比较,若P大于预设的显著性水平,则表示基因与性状产生关联,若P小于等于预设的显著性水平则表示基因与性状没有关联;
其中,统计P值是显著性水平。
具体实施方式五:父母子三元亲属结构的候选区域基因关联检测方法应用于父母子三元亲属结构的候选区域基因关联检测系统中。

Claims (10)

1.父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:所述系统包括:信息获取模块,主成分提取模块,家庭内部相关性统计量构造模块,全部家庭数据关联检测统计量获取模块,基因关联检测模块;
所述信息获取模块用于获取父母子三元亲属结构家庭成员基因组上的标记位点信息xijl以及性状信息yijl
其中,xijl和yijl分别表示第i个子群体第j个家庭中第l个个体的基因型得分和数量性状值;
所述主成分提取模块用于提取信息获取模块获取的信息主成分tijl=(tijl1,…,tijlf);
其中,f是主成分的总数量;
所述家庭内部相关性统计量构造模块用于根据xijl和yijl和tijl构造家庭内部相关性统计量Uij
所述全部家庭数据关联检测统计量获取模块用于根据Uij获取全部家庭数据关联检测统计量;
所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值,并根据统计P值确定基因与性状信息是否有关联。
2.根据权利要求1所述的父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:所述家庭内部相关性统计量构造模块用于根据xijl和yijl和tijl构造家庭内部相关性统计量,具体为:
步骤一、建立主成分tijl=(tijl1,…,tijlf)与yijl的广义线性函数和主成分tijl=(tijl1,…,tijlf)与候选标记点位信息x1ijl的广义线性函数:
yijl=g1(tijl)+ψijl
x1ijl=g2(tijl)+εijl
其中,ψijl是随机变量,εijl是随机变量,g1(tijl)和g2(tijl)是模型核心函数;
步骤二、利用步骤一获取的广义线性函数获取家庭内部的相关性统计量Uij
3.根据权利要求2所述的父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:
Figure FDA0003647633090000011
其中,β1=(β1011...,β1f)是模型核心函数g1(tijl)中主成分的系数;β2=(β2021...,β2f) 是模型核心函数g2(tijl)中主成分的系数。
4.根据权利要求3所述的父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:E(ψijl)=E(εijl)=0;
其中,E(ψijl)和E(εijl)是随机变量ψijl和εijl的期望。
5.根据权利要求4所述的父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:所述步骤二中的利用步骤一获取的广义线性函数获取家庭内部的相关性统计量Uij
步骤二一、基于广义估计方程理论对g1(tijl)和g2(tijl)进行估计获得的
Figure FDA0003647633090000021
步骤二二、将步骤二一获得的
Figure FDA0003647633090000022
代入步骤一获得广义线性函数中获得
Figure FDA0003647633090000023
Figure FDA0003647633090000024
并利用
Figure FDA0003647633090000025
Figure FDA0003647633090000026
配置残差变量;
步骤二三、利用步骤二二获得的残差变量构造家庭内部的相关性统计量Uij
6.根据权利要求5所述的父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:所述步骤二二中用
Figure FDA0003647633090000027
Figure FDA0003647633090000028
配置残差变量,具体如下:
Figure FDA0003647633090000029
Figure FDA00036476330900000210
7.根据权利要求6所述的父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:所述步骤二三中的利用步骤二二获得的残差变量构造家庭内部的相关性统计量Uij,如下式:
Figure FDA00036476330900000211
其中,
Figure FDA00036476330900000212
是第i个子群体的性状值平均值,
Figure FDA00036476330900000213
是第i个子群体的基因型的平均值,cij是第i个群体中第j个家庭中的个体总数。
8.根据权利要求7所述的父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:所述全部家庭数据关联检测统计量获取模块用于根据Uij获取全部家庭数据关联检测统计量,具体为:
Figure FDA0003647633090000031
其中,k是子群的总数,ni是i个子群中家庭的总数。
9.根据权利要求8所述的父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值,并根据统计P值进行基因关联检测,具体为:
S1、在零假设下计算全部家庭数据关联检测统计量的统计P值;
S2、将获得的统计P值与预设的显著性水平进行比较,若P大于预设的显著性水平,则表示基因与性状信息有关联,若统计P值小于等于预设的显著性水平则表示基因与性状信息没有关联。
10.父母子三元亲属结构的候选区域基因关联检测方法,其特征在于:所述方法应用于权利要求1-9任一项所述的父母子三元亲属结构的候选区域基因关联检测系统中。
CN202210535249.7A 2022-05-17 2022-05-17 父母子三元亲属结构的候选区域基因关联检测系统及方法 Active CN114974413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210535249.7A CN114974413B (zh) 2022-05-17 2022-05-17 父母子三元亲属结构的候选区域基因关联检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210535249.7A CN114974413B (zh) 2022-05-17 2022-05-17 父母子三元亲属结构的候选区域基因关联检测系统及方法

Publications (2)

Publication Number Publication Date
CN114974413A true CN114974413A (zh) 2022-08-30
CN114974413B CN114974413B (zh) 2023-05-05

Family

ID=82983654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210535249.7A Active CN114974413B (zh) 2022-05-17 2022-05-17 父母子三元亲属结构的候选区域基因关联检测系统及方法

Country Status (1)

Country Link
CN (1) CN114974413B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060111849A1 (en) * 2002-08-02 2006-05-25 Schadt Eric E Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
US20100145624A1 (en) * 2008-12-04 2010-06-10 Syngenta Participations Ag Statistical validation of candidate genes
CN109694924A (zh) * 2019-03-07 2019-04-30 山东省花生研究所 一种有效锚定花生数量性状候选基因区域的方法
CN113593630A (zh) * 2021-08-23 2021-11-02 北京果壳生物科技有限公司 一种家庭冠心病患病风险评估及其风险因素鉴定系统
CN113793637A (zh) * 2021-09-06 2021-12-14 中国科学院水生生物研究所 基于亲本基因型与子代表型的全基因组关联分析算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060111849A1 (en) * 2002-08-02 2006-05-25 Schadt Eric E Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
US20100145624A1 (en) * 2008-12-04 2010-06-10 Syngenta Participations Ag Statistical validation of candidate genes
CN109694924A (zh) * 2019-03-07 2019-04-30 山东省花生研究所 一种有效锚定花生数量性状候选基因区域的方法
CN113593630A (zh) * 2021-08-23 2021-11-02 北京果壳生物科技有限公司 一种家庭冠心病患病风险评估及其风险因素鉴定系统
CN113793637A (zh) * 2021-09-06 2021-12-14 中国科学院水生生物研究所 基于亲本基因型与子代表型的全基因组关联分析算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALKES L PRICE: "Principal components analysis corrects for stratification in genome-wide association studies" *
ZHIWU ZHANG ETC.: "Mixed linear model approach adapted for genome-wide association studies" *
张敬言: "全基因组广义混合模型关联分析快速近似方法" *
祖培福;: "基于主成分分析下候选基因关联检验的数学模型" *

Also Published As

Publication number Publication date
CN114974413B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
Shirai et al. Skull modularity in neotropical marsupials and monkeys: size variation and evolutionary constraint and flexibility
CN112837741B (zh) 一种基于循环神经网络的蛋白质二级结构预测方法
CN105986008A (zh) Cnv检测方法和装置
Wang Effects of genotyping errors on parentage exclusion analysis
CN115136242A (zh) 来自大量组织转录组的准确稳健的信息反卷积
CN106055922A (zh) 一种基于基因表达数据的混合网络基因筛选方法
CN108363902A (zh) 一种致病遗传变异的精确预测方法
Tournebize et al. McSwan: A joint site frequency spectrum method to detect and date selective sweeps across multiple population genomes
CN108346466A (zh) 一种利用支持向量机构建肺癌计算机辅助检测模型的方法
US7587280B2 (en) Genomic data mining using clustering logic and filtering criteria
CN109101783B (zh) 一种基于概率模型的癌症网络标志物确定方法及系统
CN103473416A (zh) 蛋白质相互作用的模型建立方法和装置
CN114974413A (zh) 父母子三元亲属结构的候选区域基因关联检测系统及方法
Zhou et al. Eigenvalue significance testing for genetic association
Villarroel et al. Cluster analysis using multivariate mixed effects models
CN110060736B (zh) Dna甲基化扩展方法
CN115223654A (zh) 检测胎儿染色体非整倍体异常的方法、装置及存储介质
CN109785899B (zh) 一种基因型校正的装置和方法
CN113593698A (zh) 一种基于图注意网络的中医证型识别方法
CN109243533B (zh) 一种用于计算基因的组织特异表达的鲁棒z-score打分方法
Holste et al. Optimization of coding potentials using positional dependence of nucleotide frequencies
Farcomeni et al. A Bayesian autoregressive three-state hidden Markov model for identifying switching monotonic regimes in Microarray time course data
Conomos Inferring, Estimating, and Accounting for Population and Pedigree Structure in Genetic Analyses
Dror et al. A Bayesian approach to transcript estimation from gene array data: the BEAM technique
Jiang Novel statistical approaches to integrate multi-omic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant