CN114974413A - 父母子三元亲属结构的候选区域基因关联检测系统及方法 - Google Patents
父母子三元亲属结构的候选区域基因关联检测系统及方法 Download PDFInfo
- Publication number
- CN114974413A CN114974413A CN202210535249.7A CN202210535249A CN114974413A CN 114974413 A CN114974413 A CN 114974413A CN 202210535249 A CN202210535249 A CN 202210535249A CN 114974413 A CN114974413 A CN 114974413A
- Authority
- CN
- China
- Prior art keywords
- ijl
- family
- parent
- gene
- statistic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 11
- 238000001514 detection method Methods 0.000 claims abstract description 48
- 238000010276 construction Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 239000003550 marker Substances 0.000 claims abstract description 3
- 230000002068 genetic effect Effects 0.000 claims description 9
- 238000012886 linear function Methods 0.000 claims description 9
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Databases & Information Systems (AREA)
- Ecology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
父母子三元亲属结构的候选区域基因关联检测系统及方法,涉及生物统计学技术领域。本发明是为了解决现有基因关联检测方法还存在难以克服群体分层的影响,从而导致无法实现在家庭型数据框架下基因与性状的关联检测问题。本发明包括:信息获取模块,主成分提取模块,家庭内部相关性统计量构造模块,全部家庭数据关联检测统计量获取模块,基因关联检测模块;信息获取模块用于获取标记位点信息、性状信息;主成分提取模块用于提取信息主成分;家庭内部相关性统计量构造模块用于构造家庭内部相关性统计量;全部家庭数据关联检测统计量获取模块用于取全部家庭数据关联检测统计量;所述基因关联检测模块用于进行基因关联检测。本发明用于基因关联检测。
Description
技术领域
本发明涉及生物统计学技术领域,特别涉及父母子三元亲属结构的候选区域基因关联检测系统及方法。
背景技术
基因是指携带有遗传信息的DNA或RNA序列,也称为遗传因子,是控制性状的基本遗传单位。基因通过指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体的性状表现。现代医学研究证明,除外伤外,几乎所有的疾病都和基因有关系。人体中正常基因也分为不同的基因型,不同的基因型对环境因素的敏感性不同,敏感基因型在环境因素的作用下可引起疾病,单独由异常基因直接引起疾病,被称为遗传病。因此基因与性状的关联检测问题成为本领域的研究重点。
目前基因关联检测方法主要是针对独立个体的基因关联检测,但是疾病的状态一般都不是独立的,而是受相似遗传因素和环境因素影响。由于家庭成员具有相似的遗传和环境因素,且家庭成员的疾病状态一般并不独立,所以目前针对独立个体的基因关联检测还存在难以克服群体分层的影响,从而无法精准实现基因与性状的关联检测问题。
发明内容
本发明目的是为了解决现有基因关联检测方法还存在难以克服群体分层的影响,从而导致无法精准实现基因与性状的关联检测的问题,而提出了父母子三元亲属结构的候选区域基因关联检测系统及方法。
父母子三元亲属结构的候选区域基因关联检测系统具体过程为:
信息获取模块,主成分提取模块,家庭内部相关性统计量构造模块,全部家庭数据关联检测统计量获取模块,基因关联检测模块;
所述信息获取模块用于获取父母子三元亲属结构家庭成员基因组上的标记位点信息xijl以及性状信息yijl;
其中,xijl和yijl分别表示第i个子群体第j个家庭中第l个个体的基因型得分和数量性状值;
所述主成分提取模块用于提取信息获取模块获取的信息主成分tijl=(tijl1,···,tijlf);
其中,f是主成分的总数量;
所述家庭内部相关性统计量构造模块用于根据xijl和yijl和tijl构造家庭内部相关性统计量Uij;
所述全部家庭数据关联检测统计量获取模块用于根据Uij获取全部家庭数据关联检测统计量;
所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值,并根据统计P值确定基因与性状信息是否有关联。
父母子三元亲属结构的候选区域基因关联检测方法应用于父母子三元亲属结构的候选区域基因关联检测系统中。
本发明的有益效果为:
本发明从家庭型数据着眼,提出了一种新的基于广义估计方程的主成分法,对常见或罕见遗传变异的关联性进行检测,同时建立了关联检验统计量,对目标性状的潜在因果变异位点进行检测,克服了群体分层的影响,从而实现了在家庭型数据框架下基因与性状的精准关联检测。
附图说明
图1为本发明模块图。
具体实施方式
具体实施方式一:本实施方式父母子三元亲属结构的候选区域基因关联检测系统,包括:信息获取模块,主成分提取模块,家庭内部相关性统计量构造模块,全部家庭数据关联检测统计量获取模块,基因关联检测模块(如图1);
所述信息获取模块用于获取父母子三元亲属结构家庭成员基因组上的标记位点信息xijl以及性状信息yijl;
其中,xijl和yijl分别表示第i个子群体第j个家庭中第l个个体的基因型得分和数量性状值;
所述主成分提取模块用于提取信息获取模块获取的信息主成分tijl=(tijl1,···,tijlf);
其中,f是主成分的总数量;
所述家庭内部相关性统计量构造模块用于根据xijl和yijl和tijl构造家庭内部相关性统计量Uij;
所述全部家庭数据关联检测统计量获取模块用于根据Uij获取全部家庭数据关联检测统计量;
所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值,并根据统计P值确定基因与性状信息是否有关联。
具体实施方式二:所述家庭内部相关性统计量构造模块用于根据xijl和yijl和tijl构造家庭内部相关性统计量,具体为:
步骤一、建立主成分tijl=(tijl1,···,tijlf)与yijl的广义线性函数和主成分tijl=(tijl1,···,tijlf)与候选标记点位信息x1ijl的广义线性函数:
yijl=g1(tijl)+ψijl,
x1ijl=g2(tijl)+εijl
其中,ψijl是随机变量,εijl是随机变量,g1(tijl)和g2(tijl)是模型核心函数,候选标记点位信息x1ijl是标记点位信息xijl中的一部分,E(ψijl)=E(εijl)=0,E(ψijl)和E(εijl)是随机变量ψijl和εijl的期望;
β1=(β10,β11...,β1f)是模型核心函数g1(tijl)中主成分的系数;β2=(β20,β21...,β2f)是模型核心函数g2(tijl)中主成分的系数;
步骤二、利用步骤一获取的广义线性函数获取家庭内部的相关性统计量Uij:
步骤二三、利用步骤二二获得的残差变量构造家庭内部的相关性统计量Uij:
具体实施方式三:所述全部家庭数据关联检测统计量获取模块用于根据Uij获取全部家庭数据关联检测统计量,具体为:
其中,k是子群的总数,ni是i个子群中家庭的总数;
具体实施方式四:所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值,并根据统计P值进行基因关联检测,具体为:
S1、在零假设下计算全部家庭数据关联检测统计量的统计P值;
S2、将获得的统计P值与预设的显著性水平进行比较,若P大于预设的显著性水平,则表示基因与性状产生关联,若P小于等于预设的显著性水平则表示基因与性状没有关联;
其中,统计P值是显著性水平。
具体实施方式五:父母子三元亲属结构的候选区域基因关联检测方法应用于父母子三元亲属结构的候选区域基因关联检测系统中。
Claims (10)
1.父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:所述系统包括:信息获取模块,主成分提取模块,家庭内部相关性统计量构造模块,全部家庭数据关联检测统计量获取模块,基因关联检测模块;
所述信息获取模块用于获取父母子三元亲属结构家庭成员基因组上的标记位点信息xijl以及性状信息yijl;
其中,xijl和yijl分别表示第i个子群体第j个家庭中第l个个体的基因型得分和数量性状值;
所述主成分提取模块用于提取信息获取模块获取的信息主成分tijl=(tijl1,…,tijlf);
其中,f是主成分的总数量;
所述家庭内部相关性统计量构造模块用于根据xijl和yijl和tijl构造家庭内部相关性统计量Uij;
所述全部家庭数据关联检测统计量获取模块用于根据Uij获取全部家庭数据关联检测统计量;
所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值,并根据统计P值确定基因与性状信息是否有关联。
2.根据权利要求1所述的父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:所述家庭内部相关性统计量构造模块用于根据xijl和yijl和tijl构造家庭内部相关性统计量,具体为:
步骤一、建立主成分tijl=(tijl1,…,tijlf)与yijl的广义线性函数和主成分tijl=(tijl1,…,tijlf)与候选标记点位信息x1ijl的广义线性函数:
yijl=g1(tijl)+ψijl
x1ijl=g2(tijl)+εijl
其中,ψijl是随机变量,εijl是随机变量,g1(tijl)和g2(tijl)是模型核心函数;
步骤二、利用步骤一获取的广义线性函数获取家庭内部的相关性统计量Uij。
4.根据权利要求3所述的父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:E(ψijl)=E(εijl)=0;
其中,E(ψijl)和E(εijl)是随机变量ψijl和εijl的期望。
9.根据权利要求8所述的父母子三元亲属结构的候选区域基因关联检测系统,其特征在于:所述基因关联检测模块用于根据获取全部家庭数据关联检测统计量的统计P值,并根据统计P值进行基因关联检测,具体为:
S1、在零假设下计算全部家庭数据关联检测统计量的统计P值;
S2、将获得的统计P值与预设的显著性水平进行比较,若P大于预设的显著性水平,则表示基因与性状信息有关联,若统计P值小于等于预设的显著性水平则表示基因与性状信息没有关联。
10.父母子三元亲属结构的候选区域基因关联检测方法,其特征在于:所述方法应用于权利要求1-9任一项所述的父母子三元亲属结构的候选区域基因关联检测系统中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210535249.7A CN114974413B (zh) | 2022-05-17 | 2022-05-17 | 父母子三元亲属结构的候选区域基因关联检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210535249.7A CN114974413B (zh) | 2022-05-17 | 2022-05-17 | 父母子三元亲属结构的候选区域基因关联检测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114974413A true CN114974413A (zh) | 2022-08-30 |
CN114974413B CN114974413B (zh) | 2023-05-05 |
Family
ID=82983654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210535249.7A Active CN114974413B (zh) | 2022-05-17 | 2022-05-17 | 父母子三元亲属结构的候选区域基因关联检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114974413B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060111849A1 (en) * | 2002-08-02 | 2006-05-25 | Schadt Eric E | Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits |
US20100145624A1 (en) * | 2008-12-04 | 2010-06-10 | Syngenta Participations Ag | Statistical validation of candidate genes |
CN109694924A (zh) * | 2019-03-07 | 2019-04-30 | 山东省花生研究所 | 一种有效锚定花生数量性状候选基因区域的方法 |
CN113593630A (zh) * | 2021-08-23 | 2021-11-02 | 北京果壳生物科技有限公司 | 一种家庭冠心病患病风险评估及其风险因素鉴定系统 |
CN113793637A (zh) * | 2021-09-06 | 2021-12-14 | 中国科学院水生生物研究所 | 基于亲本基因型与子代表型的全基因组关联分析算法 |
-
2022
- 2022-05-17 CN CN202210535249.7A patent/CN114974413B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060111849A1 (en) * | 2002-08-02 | 2006-05-25 | Schadt Eric E | Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits |
US20100145624A1 (en) * | 2008-12-04 | 2010-06-10 | Syngenta Participations Ag | Statistical validation of candidate genes |
CN109694924A (zh) * | 2019-03-07 | 2019-04-30 | 山东省花生研究所 | 一种有效锚定花生数量性状候选基因区域的方法 |
CN113593630A (zh) * | 2021-08-23 | 2021-11-02 | 北京果壳生物科技有限公司 | 一种家庭冠心病患病风险评估及其风险因素鉴定系统 |
CN113793637A (zh) * | 2021-09-06 | 2021-12-14 | 中国科学院水生生物研究所 | 基于亲本基因型与子代表型的全基因组关联分析算法 |
Non-Patent Citations (4)
Title |
---|
ALKES L PRICE: "Principal components analysis corrects for stratification in genome-wide association studies" * |
ZHIWU ZHANG ETC.: "Mixed linear model approach adapted for genome-wide association studies" * |
张敬言: "全基因组广义混合模型关联分析快速近似方法" * |
祖培福;: "基于主成分分析下候选基因关联检验的数学模型" * |
Also Published As
Publication number | Publication date |
---|---|
CN114974413B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shirai et al. | Skull modularity in neotropical marsupials and monkeys: size variation and evolutionary constraint and flexibility | |
CN112837741B (zh) | 一种基于循环神经网络的蛋白质二级结构预测方法 | |
CN105986008A (zh) | Cnv检测方法和装置 | |
Wang | Effects of genotyping errors on parentage exclusion analysis | |
CN115136242A (zh) | 来自大量组织转录组的准确稳健的信息反卷积 | |
CN106055922A (zh) | 一种基于基因表达数据的混合网络基因筛选方法 | |
CN108363902A (zh) | 一种致病遗传变异的精确预测方法 | |
Tournebize et al. | McSwan: A joint site frequency spectrum method to detect and date selective sweeps across multiple population genomes | |
CN108346466A (zh) | 一种利用支持向量机构建肺癌计算机辅助检测模型的方法 | |
US7587280B2 (en) | Genomic data mining using clustering logic and filtering criteria | |
CN109101783B (zh) | 一种基于概率模型的癌症网络标志物确定方法及系统 | |
CN103473416A (zh) | 蛋白质相互作用的模型建立方法和装置 | |
CN114974413A (zh) | 父母子三元亲属结构的候选区域基因关联检测系统及方法 | |
Zhou et al. | Eigenvalue significance testing for genetic association | |
Villarroel et al. | Cluster analysis using multivariate mixed effects models | |
CN110060736B (zh) | Dna甲基化扩展方法 | |
CN115223654A (zh) | 检测胎儿染色体非整倍体异常的方法、装置及存储介质 | |
CN109785899B (zh) | 一种基因型校正的装置和方法 | |
CN113593698A (zh) | 一种基于图注意网络的中医证型识别方法 | |
CN109243533B (zh) | 一种用于计算基因的组织特异表达的鲁棒z-score打分方法 | |
Holste et al. | Optimization of coding potentials using positional dependence of nucleotide frequencies | |
Farcomeni et al. | A Bayesian autoregressive three-state hidden Markov model for identifying switching monotonic regimes in Microarray time course data | |
Conomos | Inferring, Estimating, and Accounting for Population and Pedigree Structure in Genetic Analyses | |
Dror et al. | A Bayesian approach to transcript estimation from gene array data: the BEAM technique | |
Jiang | Novel statistical approaches to integrate multi-omic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |