CN113593630A - 一种家庭冠心病患病风险评估及其风险因素鉴定系统 - Google Patents
一种家庭冠心病患病风险评估及其风险因素鉴定系统 Download PDFInfo
- Publication number
- CN113593630A CN113593630A CN202110967043.7A CN202110967043A CN113593630A CN 113593630 A CN113593630 A CN 113593630A CN 202110967043 A CN202110967043 A CN 202110967043A CN 113593630 A CN113593630 A CN 113593630A
- Authority
- CN
- China
- Prior art keywords
- family
- risk
- data
- module
- disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 208000029078 coronary artery disease Diseases 0.000 title claims abstract description 90
- 238000012502 risk assessment Methods 0.000 title abstract description 21
- 201000010099 disease Diseases 0.000 claims abstract description 136
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 136
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000013058 risk prediction model Methods 0.000 claims abstract description 56
- 230000001364 causal effect Effects 0.000 claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 20
- 238000010801 machine learning Methods 0.000 claims abstract description 18
- 230000009286 beneficial effect Effects 0.000 claims abstract description 16
- 230000002349 favourable effect Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 42
- 238000003908 quality control method Methods 0.000 claims description 40
- 238000012360 testing method Methods 0.000 claims description 39
- 230000002068 genetic effect Effects 0.000 claims description 38
- 239000011785 micronutrient Substances 0.000 claims description 18
- 235000013369 micronutrients Nutrition 0.000 claims description 18
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 claims description 16
- 239000011701 zinc Substances 0.000 claims description 16
- 229910052725 zinc Inorganic materials 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000003066 decision tree Methods 0.000 claims description 9
- 238000007637 random forest analysis Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 230000036541 health Effects 0.000 abstract description 5
- 230000002265 prevention Effects 0.000 abstract description 5
- 238000004393 prognosis Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 18
- 238000011160 research Methods 0.000 description 18
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 11
- 108090000623 proteins and genes Proteins 0.000 description 10
- 230000007614 genetic variation Effects 0.000 description 8
- 238000007737 ion beam deposition Methods 0.000 description 8
- 238000012217 deletion Methods 0.000 description 7
- 238000010197 meta-analysis Methods 0.000 description 7
- FYYHWMGAXLPEAU-UHFFFAOYSA-N Magnesium Chemical compound [Mg] FYYHWMGAXLPEAU-UHFFFAOYSA-N 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 239000011777 magnesium Substances 0.000 description 6
- 229910052749 magnesium Inorganic materials 0.000 description 6
- 239000011573 trace mineral Substances 0.000 description 6
- 235000013619 trace mineral Nutrition 0.000 description 6
- 238000012098 association analyses Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000001627 detrimental effect Effects 0.000 description 5
- 229910052742 iron Inorganic materials 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 210000002966 serum Anatomy 0.000 description 4
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 3
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 3
- 108091081548 Palindromic sequence Proteins 0.000 description 3
- 244000292604 Salvia columbariae Species 0.000 description 3
- 235000012377 Salvia columbariae var. columbariae Nutrition 0.000 description 3
- 235000001498 Salvia hispanica Nutrition 0.000 description 3
- 229930003316 Vitamin D Natural products 0.000 description 3
- QYSXJUFSXHHAJI-XFEUOLMDSA-N Vitamin D3 Natural products C1(/[C@@H]2CC[C@@H]([C@]2(CCC1)C)[C@H](C)CCCC(C)C)=C/C=C1\C[C@@H](O)CCC1=C QYSXJUFSXHHAJI-XFEUOLMDSA-N 0.000 description 3
- 239000011575 calcium Substances 0.000 description 3
- 229910052791 calcium Inorganic materials 0.000 description 3
- 235000014167 chia Nutrition 0.000 description 3
- 229910052802 copper Inorganic materials 0.000 description 3
- 239000010949 copper Substances 0.000 description 3
- 238000011056 performance test Methods 0.000 description 3
- 235000019166 vitamin D Nutrition 0.000 description 3
- 239000011710 vitamin D Substances 0.000 description 3
- 150000003710 vitamin D derivatives Chemical class 0.000 description 3
- 229940046008 vitamin d Drugs 0.000 description 3
- 108700028369 Alleles Proteins 0.000 description 2
- 238000001353 Chip-sequencing Methods 0.000 description 2
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 2
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 230000003143 atherosclerotic effect Effects 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 210000004351 coronary vessel Anatomy 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 208000019622 heart disease Diseases 0.000 description 2
- 239000010903 husk Substances 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 208000031225 myocardial ischemia Diseases 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004579 scanning voltage microscopy Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 206010002383 Angina Pectoris Diseases 0.000 description 1
- 206010064063 CHARGE syndrome Diseases 0.000 description 1
- 102100038215 Chromodomain-helicase-DNA-binding protein 7 Human genes 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 206010019280 Heart failures Diseases 0.000 description 1
- 206010021143 Hypoxia Diseases 0.000 description 1
- DGAQECJNVWCQMB-PUAWFVPOSA-M Ilexoside XXIX Chemical compound C[C@@H]1CC[C@@]2(CC[C@@]3(C(=CC[C@H]4[C@]3(CC[C@@H]5[C@@]4(CC[C@@H](C5(C)C)OS(=O)(=O)[O-])C)C)[C@@H]2[C@]1(C)O)C)C(=O)O[C@H]6[C@@H]([C@H]([C@@H]([C@H](O6)CO)O)O)O.[Na+] DGAQECJNVWCQMB-PUAWFVPOSA-M 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 206010028851 Necrosis Diseases 0.000 description 1
- 208000031481 Pathologic Constriction Diseases 0.000 description 1
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 1
- 241001237728 Precis Species 0.000 description 1
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 1
- 206010042434 Sudden death Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000007954 hypoxia Effects 0.000 description 1
- 230000000302 ischemic effect Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000010125 myocardial infarction Diseases 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000011591 potassium Substances 0.000 description 1
- 229910052700 potassium Inorganic materials 0.000 description 1
- 239000011669 selenium Substances 0.000 description 1
- 229910052711 selenium Inorganic materials 0.000 description 1
- 239000011734 sodium Substances 0.000 description 1
- 229910052708 sodium Inorganic materials 0.000 description 1
- 229910000029 sodium carbonate Inorganic materials 0.000 description 1
- 208000037804 stenosis Diseases 0.000 description 1
- 230000036262 stenosis Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000002792 vascular Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种家庭冠心病患病风险评估及其风险因素鉴定系统。本发明所保护的一种家庭冠心病患病风险评估及其风险因素鉴定装置包括数据搜集与整理模块、多基因风险评分计算模块、个人风险预测模型搭建模块、家庭风险预测模型搭建模块、特定疾病的有利与有害因素评估模块。具体是以样本基因型数据为基础,采用多基因风险评分算法计算样本个人风险评分,然后通过机器学习算法构建预测模型,通过计算家系平均患病可能性给出家系中家庭的患病风险评估,再通过孟德尔随机化方法,提供与疾病有显著因果关联的有利因素与有害因素,帮助家庭更好的规避冠心病风险,保持健康,进一步为冠心病的预防、治疗与预后提供了证据支持与相关方法。
Description
技术领域
本发明涉及生物信息学领域,具体涉及一种家庭冠心病患病风险评估及其风险因素鉴定系统。
背景技术
冠心病,一般指冠状动脉粥样硬化性心脏病,是由于冠状动脉血管发生动脉粥样硬化病变而引其血管腔狭窄或阻塞,造成心肌缺血、缺氧或坏死而导致的心脏病,常常被称为“冠心病”。世界卫生组织将冠心病分为5大类:无症状心肌缺血、心绞痛、心肌梗死、缺血性心力衰竭和猝死5种临床表型。多基因遗传风险评分(PRS),是根据多个基因位点的变异及其相应的权重计算得到的数字。当出现多个基因变量的差异时,多基因遗传风险评分是多种基因导致某种特质的最好预测。在全基因组关联分析研究中(GWAS),多基因遗传风险评分在预测方面远远好于在全基因组中寻找统计上有显著影响的基因的方法,被研究的特质不仅受这些在统计上显著的基因影响,而且同样还受到很多很多基因的影响,且样本量越大,影响特质的基因也越多。对于具有高遗传性的特质,用其他研究方法只能解释其中很小一部分整体差异,而通过多基因遗传风险方法,一旦计算出一个至少能够解释几个百分比整体差异的多基因遗传评分,这个分数就可以作为检测遗传性是否被有偏估计的一个下界,从而得到某种特质一种较为合理的预测。
机器学习是一种多学科交叉专业,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行只是结构划分来有效提高学习效率。机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中不断的改善具体算法的性能,使得结果越来越准确。传统机器学习的研究方向主要包括决策树,随机森林,支持向量机,人工神经网络,贝叶斯网络等,不同的方法适用于不同的场景,在使用中挑选合适的研究方法可以使预测的结果更加准确,效果更加好。
孟德尔随机化是一种在非实验数据中使用遗传变异来估计暴露因素与结局变量之间的因果关系的方法,目前已广泛应用于疾病研究中。在孟德尔随机化研究中,使用暴露因素来指代的因果风险因素,也称为中间表型,他可以是生物标志物(Biomarker),可以是人体测量指标(Physical measurement),也可以是其他任何可能影响结果的风险因素(Risk factor);使用结局变量来指代疾病,但并不限于疾病。
发明内容
本发明所要解决的技术问题是如何评估家庭冠心病患病风险和/或如何鉴定家庭冠心病患病风险因素。
为了解决上述技术问题,本发明首先提供了一种家庭特定疾病患病风险预测及患病风险因素鉴定装置。所述装置可包括如下模块:
A、数据搜集与整理模块:用于获得所述特定疾病相关的个体样本的全基因组基因型数据,所述特定疾病的GWAS数据和家系样本的全基因组基因型数据。
B、多基因风险评分计算模块:用于获得所述个体样本中每个样本的多基因风险评分。
C、个人风险预测模型搭建模块:用于基于B模块所述的多基因风险评分,确定最优个人特定疾病患病风险预测模型。
所述C模块可具体包括如下模块:
C1)模型搭建模块:用于搭建多种个人特定疾病患病风险预测模型;
C2)模型训练与测试模块:用于获得最优个人特定疾病患病风险预测模型。
D、家庭风险预测模型搭建模块:用于通过家庭风险预测模型得到家庭患病风险预测结果。
所述D模块可具体包括如下模块:
D1)家系图谱计算模块:用于确定所述家系样本的亲缘关系,获得所述家系样本中的家庭;
D2)个人患病风险预测模块:用于得到所述家系样本中每个样本个人患病风险预测值;
D3)家庭患病风险预测模块:用于预测所述家庭的患病风险。
E、特定疾病的有利与有害因素评估模块:用于确定所述家庭相关的特定疾病危险因素与有益因素。
所述E模块可具体包括如下模块:
E1)特定疾病相关暴露因素数据获取模块:用于获得暴露因素的GWAS研究数据和结局变量的GWAS研究数据;所述结局变量为所述特定疾病;
E2)工具变量筛选确定模块:用于确定候选工具变量;
E3)暴露因素与结局变量的因果关系评估模块:用于评估所述暴露因素与所述结局变量的因果关系;
E4)特定疾病的有利与有害因素评估模块:用于评估出所述家庭相关的所述特定疾病的危险因素与有益因素。
上文所述装置中,A模块所述的全基因组基因型数据可为经过质量控制和基因型填充得到的合格样本的合格SNP位点数据。上文A模块中所述GWAS数据可为经过质控后得到的标准化的GWAS数据。
所述合格样本可为检出率高于或等于97%的样本。所述合格样本可包括合格个体样本和合格家系样本。所述合格SNP位点可为不重合的SNP位点且填充质量大于等于0.3的SNP位点且符合哈温伯格平衡的SNP位点且基因型缺失率小于等于2%的位点且次等位基因频率大于等于1%的SNP位点。
上文所述多基因风险评分(PRS)的计算过程可为:将所述标准化后的GWAS数据与所述合格个体样本的合格SNP位点数据,使用LDpred软件中的coord函数统一两组数据中的参考连锁不平衡(LD)信息;使用LDpred软件中的gibbs函数矫正同一研究中不同SNP位点的效应值大小;使用LDpred软件中的score函数进行多基因风险评分(PRS)计算,得到所述合格个体样本中每个样本的PRS得分。
上文所述装置中,C1)所述模型搭建模块可通过包括如下步骤的方法建立:基于B模块得到的所述每个样本的多基因风险评分,结合该样本的特征数据,使用多种机器学习的方法搭建所述个人特定疾病的患病风险预测模型;所述特征数据包括所述样本的年龄和性别信息。
上文所述装置中,C2)所述模型训练与测试模块可通过包括如下步骤的方法建立:
将A模块中的所述个体样本进行拆分,随机选择所述个体样本的80%的样本为训练样本集,选择剩余20%的所述个体样本为测试样本集。将所述训练样本集的数据确定为训练数据,所述测试样本集的数据确定为测试数据。
使用所述训练数据对C1中得到的所述个人特定疾病的患病风险预测模型进行训练,得到所述患病风险预测模型的回归系数。
使用所述测试数据,对所述患病风险预测模型进行测试,绘制ROC曲线,计算ROC曲线下面积值。选择所述ROC曲线下面积值最大的所述患病风险预测模型为最优个人特定疾病患病风险预测模型。
所述个体样本可为质控得到的合格个体样本。所述训练样本集的数据可为所述训练样本集中样本的PRS得分和特征数据。所述测试样本集的数据可为所述测试样本集中样本的PRS得分和特征数据。
上文所述装置中,所述多种机器学习方法可为逻辑回归、k近邻、决策树、随机森林和/或SVM。所述个人特定疾病患病风险预测模型可为逻辑回归预测模型、k近邻预测模型、决策树预测模型、随机森林预测模型和/或SVM预测模型。
上文所述使用多种机器学习方法,具体可为使用Python中的sklearn模块中的多种机器学习方法。
上文所述装置中,D1)所述家系图谱计算模块可为通过包括如下步骤的方法建立:
根据A模块中所述家系样本的的基因型数据,使用KING软件build函数计算其相应家系图谱,使用related函数计算其遗传相似度,统计同源相同片段(IBD)数量,使用king_segments_plot函数得到同源相同片段(IBD)图,最终确定所述家系样本的亲缘关系,获得所述家系样本中的家庭。所述质控得到的合格家系样本的合格SNP位点数据。
所述家系的概念可为个人、家族从祖先或更老形态传下来的正常世系,记录某一家族各世代成员数目、亲属关系以及有关遗传性状或遗传病在该家系中分布的情况,一般包含三代人或以上。所述家系可为展示家庭的结构、家庭关系、遗传史的工具。所述家庭的概念可为以婚姻关系、血缘关系基础产生的的社会生活单位,包括父母、子女及生活在一起的其他亲属。
上文所述装置中,D2)中所述家系样本的个人患病风险预测模块可通过包括如下步骤的方法建立:
基于C模块中得到的最优个人特定疾病患病风险预测模型,对所述家系样本中的样本进行个人特定疾病患病风险预测,得到所述家系样本中每个样本的个人特定疾病患病风险预测值。
上文所述装置中,D3)所述家系样本的个人患病风险预测模块可通过包括以下步骤的方法建立:
基于D2)模块中得到的所述家系样本中每个样本的个人特定疾病患病风险预测值,统计所述家系中的家庭患病风险的判定阈值,根据所述判定阈值预测预测所述家系中家庭的特定疾病患病风险。
上文所述判定阈值可分为高风险判定阈值和低风险判定阈值。所述高风险判定阈值和低风险判定阈值可通过所述家庭的平均患病预测值分布确定。所述家庭的平均患病预测值分布可根据所述家系样本中的家庭中的个人特定疾病患病风险预测值计算获得。所述高风险判定阈值可为所述家庭的所述平均患病预测值分布由高到低前百分之五的临界值。所述低风险判定阈值可为所述家庭的所述平均患病预测值分布由高到低后百分之五的临界值。
上文所述特定疾病可为冠心病。上文所述最优个人特定疾病患病风险预测模型可为SVM预测模型。
上文所述暴露因素可为微量营养素。所述微量营养素可为钙、铁、锌、铜、镁,维生素D等。所述暴露因素还可为其他非遗传因素。
上文所述装置中,E3)所述暴露因素与结局变量的因果关系评估模块可通过包括以下步骤的方法建立:
基于所述微量营养素的GWAS研究结果和冠心病的GWAS研究结果,通过双样本孟德尔随机化策略,使用逆方差加权法与MR-Egger法评估微量营养素与冠心病之间的因果关系。
上述装置中,E2)中所述的显著相关具体可为P小于等于5e×10-8。
上文所述装置中,所述暴露因素与结局变量的因果关系可为锌元素含量的减少与冠心病之间存在显著的因果关联。所述家庭冠心病患病风险因素可为锌元素。
为了解决上述技术问题,本发明还提供了一种家庭特定疾病患病风险预测装置。所述装置可包括上文所述的装置中的A、B、C和D模块。
上文所述特定疾病可为冠心病。
为了解决上述技术问题,本发明还提供了存储有计算机程序的计算机可读存储介质。所述计算机程序使计算机建立如上文所述所述装置的模块的步骤。
本发明通过使用建立的家庭特定疾病患病风险预测及患病风险因素鉴定装置,预测了1000组家系中家庭冠心病患病风险,将家系中的家庭平均患病可能性值0.89作为高风险的判定阈值,若待鉴定家庭的平均患病可能性值大于0.89,则标记为患病高风险可能性家庭;将家庭平均患病可能性值0.03作为低风险的判定阈值,若待鉴定家庭的平均患病可能性值小于该阈值0.03,则标记为患病低风险可能性家庭;若鉴定家庭的平均患病可能性值小于等于0.89且大于等于0.03,则标记为一般患病风险可能性家庭。同时使用该装置预测了家庭冠心病患病风险因素是微量营养素中的锌元素。这意味着在已有的微量元素研究中,遗传变异与冠心病之间的任何关联都必须通过遗传变异与微量营养素锌元素之间的关联来进行,因此暗示了微量营养素锌元素对冠心病的因果关系,可以进一步为家庭冠心病的预防、治疗与预后提供了证据支持与相关方法。
附图说明
图1为本发明提供的基于芯片数据的冠心病家庭风险评估及风险因素鉴定系统的流程图。
图2为个人冠心病患病风险预测效果最好的SVM方法的ROC曲线图及AUC值。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例一、一种家庭冠心病患病风险评估及其风险因素鉴定系统
一、家庭冠心病患病风险评估及其风险因素鉴定系统的建立
1.数据搜集与整理
搜集获得冠心病相关样本的全基因组的基因型数据,以及冠心病全基因组关联分析(GWAS)数据;对搜集得到的原始的基因型数据进行质量控制、并对质量控制后的基因型数据进行基因型填补,最终得到合格样本的合格SNP位点数据;同时对搜集得到的GWAS数据进行质量控制得到标准化GWAS数据。
1.1.数据搜集
1.1.1个体样本全基因组基因型数据获得
芯片测序:
获取个体的全基因组基因型数据。具体步骤为:
(1)搜集个体样本数据:冠心病患者与健康个体样本,其中健康个体作为冠心病患者的对照样本;
(2)利用北京果壳生物科技有限公司牵头定制的百万芯片计划的Illumina ASA_CHIA芯片平台获取冠心病患者与健康个体样本的全基因组基因型数据;
1.1.2GWAS数据的获得
搜集冠心病全基因组关联分析(GWAS)数据
1.1.3搜集家系样本数据
搜集家系全基因组基因型数据;
1.2数据质控和基因型填补
1.2.1个体样本基因型数据质控和基因型填补
将步骤1.1.1得到的全基因组基因型数据(芯片数据)进行样本质量控制,去掉检出率低于97%的样本,去掉性别不一致的个体,得到合格样本的全基因组SNP位点信息数据。
对得到的合格样本的全基因组SNP位点信息数据进行基因型填充(imputation)得到填补后的SNP位点:采用impute2软件进行基因型填充,以千人基因组计划Phase3的基因组数据作为参照;再针对填补后的SNP位点进行质量控制,具体为删除填充质量较小的点(阈值为0.3,填充质量低于0.3的位点删除),去掉不符合哈温伯格平衡的SNP位点(P值小于1×10-5的位点删除),去掉基因型缺失率大于2%的位点,去掉次等位基因频率小于1%的SNP位点,得到最终的合格个体样本的合格SNP位点数据。
1.2.2GWAS数据质控
将步骤1.1.2中搜集到的GWAS数据进行数据标准化,得到标准化后的GWAS数据。
1.2.3家系样本数据质控和基因型填补
将步骤1.1.3得到的家系样本的全基因组基因型数据(芯片数据)进行样本质量控制,去掉检出率低于97%的样本,去掉性别不一致的个体,得到合格家系样本的全基因组SNP位点信息数据。
对得到的合格家系样本的全基因组SNP位点信息数据进行基因型填充(imputation)得到填补后的SNP位点:采用impute2软件进行基因型填充,以千人基因组计划Phase3的基因组数据作为参照;再针对填补后的SNP位点进行质量控制,具体为删除填充质量较小的点(阈值为0.3,填充质量低于0.3的位点删除),去掉不符合哈温伯格平衡的SNP位点(P值小于1×10-5的位点删除),去掉基因型缺失率大于2%的位点,去掉次等位基因频率小于1%的SNP位点,得到最终的合格家系样本的合格SNP位点数据。
2.多基因风险评分计算
将步骤1.2.2得到的标准化后的GWAS数据与步骤1.2.1得到的合格样本的合格SNP位点数据,使用LDpred软件进行多基因风险评分(PRS)计算,得到相应的单个样本的PRS得分。
3.搭建个人风险预测模型
根据步骤2得到的样本的PRS得分,将合格个体样本拆分成无样本交集的训练样本集和测试样本集;采取多种机器学习方法构建多个患病风险评估模型,在独立的训练样本集和测试样本集中分别进行训练与测试,选择各项评估指标最优的模型作为最终个人风险评估的系统。具体步骤包括:
3.1.构建多个患病风险评估模型
基于步骤2得到的单个样本的PRS得分数据,结合该样本的特征数据(样本的年龄、性别信息),使用Python语言的sklearn模块,使用逻辑回归、k近邻、决策树、随机森林、SVM等机器学习方法构建多种个人风险预测模型;
3.2.模型训练与测试
将步骤1.2.1中质控得到的合格个体样本进行拆分,随机选择80%的样本为训练样本集,选择剩余20%的样本为测试样本集。将训练样本集的数据(样本的PRS得分数据和样本的特征数据)确定为训练数据,测试样本集的数据(样本的PRS得分数据和样本的特征数据)确定为测试数据;
使用训练数据对3.1得到的多种个人风险预测模型进行训练,得到各模型相应的回归系数;
使用测试数据,对多种个人风险预测模型进行性能测试,绘制ROC曲线,计算ROC曲线下面积(Area Under Curve,AUC)值;选择AUC值最大的机器学习方法构建的个人风险预测模型为最优预测模型(即个人患病风险评估系统)。
4.搭建家庭风险预测模型,预测家庭的患病风险
根据步骤1.1.3中搜集到的家系样本,通过各家系样本成员之间的亲缘关系制定家庭患病风险评估判定标准,结合步骤3.2得到的个人患病风险评估系统的结果给予家庭风险评估结果。具体步骤包括:
4.1.计算家系图谱、分析家系数据
根据步骤1.2.3中得到的合格家系样本的合格SNP位点数据,使用KING软件build函数计算其相应家系图谱,related函数计算其遗传相似度,统计同源相同片段(IBD)数量,使用king_segments_plot函数得到同源相同片段(IBD)图,最终确定家系样本中的亲缘关系,获得所述家系样本中的家庭(单位)。
4.2.家系样本的个人患病风险预测
基于步骤3.2中得到的最优预测模型,对家系中的样本进行个人风险预测,得到家系样本中每个样本个人患病风险预测值;
4.3.预测家系组中家庭的患病风险
基于步骤4.2中得到的家系中每个样本的个人患病风险预测值,构建家系中家庭风险评估判定标准,给出该家系中的家庭风险评估结果;具体步骤为:统计家系中的家庭平均患病可能性,确定家庭患病风险的判定阈值,根据判定阈值预测家系中家庭的患病风险。
5.评估冠心病的有利与有害因素
下载微量营养素(暴露因素)相关的GWAS研究结果,筛选显著相关的遗传易感位点作为工具变量,下载冠心病(结局变量)相关的GWAS研究结果,采用两样本孟德尔随机化方法,对冠心病(结局变量)进行相关危险因素与有益因素的评估,得到的显著性的因果关系的非遗传因素,可以应用于后续冠心病预防或干预;所述步骤5包括:
5.1.下载冠心病相关暴露因素数据
下载微量营养素(暴露因素)相关的GWAS研究结果,下载冠心病(结局变量)相关的GWAS研究结果;
5.2.筛选确定工具变量
筛选暴露因素文件中显著相关的遗传易感位点作为候选工具变量,调整回文序列,去除连锁不平衡位点;
5.3.评估暴露因素与冠心病的因果关系
通过双样本孟德尔随机化策略,使用逆方差加权法与MR-Egger法评估暴露因素与冠心病(结局变量)之间的因果关系;
5.4.评估冠心病的有利与有害因素
基于步骤5.3得到的结果,评估出危险因素与有益因素,得到显著性因果关系的非遗传因素或许可以用于后续冠心病的预防与干预。
实施例二、家庭冠心病患病风险评估及其风险因素鉴定系统应用实例
1.数据搜集与整理
1.1.数据搜集
1.1.1个体样本全基因组基因型数据获得
芯片测序:
利用北京果壳生物科技有限公司牵头定制的百万芯片计划的Illumina ASA_CHIA芯片平台获取样本每个个体的全基因组基因型数据;
具体内容:
(1)搜集到脱敏后冠心病患者数据239例作为病例组(case),参照病例组年龄,性别的结果信息,从北京果壳生物科技有限公司芯片数据库中随机选择500例健康个体作为对照组(control)。具体实施时,要求两组选择的对象年龄、性别等结构信息相匹配,且均来自与中国汉族人群。
(2)利用北京果壳生物科技有限公司牵头定制的百万芯片计划的Illumina ASA_CHIA芯片平台获取冠心病患者与健康个体的全基因组基因型数据;
1.1.2GWAS数据的获得
搜集冠心病全基因组关联分析(GWAS)数据(包括两组GWAS数据,相关文献:YamajiT,Sawada N,Iwasaki M.Transethnic Meta-Analysis of Genome-Wide AssociationStudies Identifies Three New Loci and Characterizes Population-SpecificDifferences for Coronary Artery Disease.Circ Genom Precis Med.2020 Jun;13(3):e002670.doi:10.1161/CIRCGEN.119.002670.Epub 2020 May 29.PMID:32469254)(NikpayMajid,Goel Anuj,Won Hong-Hee,&Leo-.(2015).A comprehensive 1,000Genomes-based genome-wide association meta-analysis of coronary arterydisease.Nature genetics(10),doi:10.1038/ng.3396.);
1.1.3搜集家系样本数据
搜集1000组家系全基因组基因型数据(北京果壳生物数据库);
1.2数据质控和基因型填补
1.2.1基因型数据质控和基因型填补
将步骤1.1.1搜集到的239例冠心病患者与北京果壳生物科技有限公司芯片数据库中随机选择的500例健康个体的739例个体样本全基因组基因型数据(芯片数据)进行质量控制使数据标准化,去掉不重合的SNP位点,剩余738980个位点,去掉检出率低于97%的样本,共去掉0个样本,得到739例合格个体样本的全基因组SNP位点信息数据。
对上述得到的739例个体样本的全基因组SNP位点数据,通过SNP位点信息进行基因型填充(imputation):使用impute2软件(https://genome.sph.umich.edu/wiki/IMPUTE2:_1000_Genomes_Imputation_Cookbook)进行基因型填充,以千人基因组计划Phase3的基因组(https://genome.sph.umich.edu/wiki/Minimac:_1000_Genomes_Imputation_Cookbook)作为参照,共得到2157223个SNP位点;再针对填补后的SNP位点进行质量控制,删除填充质量较小的点(阈值为0.3,填充质量低于0.3的位点删除);去掉不符合哈温伯格平衡的SNP位点(阈值为1×10-5,P值小于1×10-5的位点删除);去掉基因型缺失率大于2%的位点;去掉次等位基因频率小于1%的SNP位点,得到最终的合格个体(739例)样本的合格SNP位点(2150395个位点)数据。
1.2.2GWAS数据质控
将步骤1.1.2中搜集到的GWAS数据进行数据标准化,得到标准化后的GWAS数据。
1.2.3家系样本数据质控和基因型填补
将步骤1.1.3得到的家系样本的全基因组基因型数据(芯片数据)进行样本质量控制,去掉检出率低于97%的样本,去掉性别不一致的个体,得到合格家系样本的全基因组SNP位点信息数据。
对得到的合格家系样本的全基因组SNP位点信息数据进行基因型填充(imputation)得到填补后的SNP位点:采用impute2软件进行基因型填充,以千人基因组计划Phase3的基因组数据作为参照;再针对填补后的SNP位点进行质量控制,具体为删除填充质量较小的点(阈值为0.3,填充质量低于0.3的位点删除),去掉不符合哈温伯格平衡的SNP位点(P值小于1×10-5的位点删除),去掉基因型缺失率大于2%的位点,去掉次等位基因频率小于1%的SNP位点,得到最终的合格家系样本(4000例)的合格SNP位点(2150395个位点)数据。
2.多基因风险评分计算
将步骤1.2.2得到的标准化后的GWAS数据与步骤1.2.1得到的合格样本的合格SNP位点数据,使用LDpred软件(https://github.com/bvilhjal/ldpred)中的coord函数统一两组数据中的参考连锁不平衡(LD)信息;使用LDpred软件中的gibbs函数矫正同一个GWAS数据来源中的不同SNP位点的效应值大小;使用LDpred软件中的score函数进行多基因风险评分(PRS)计算,得到相应单个样本的PRS得分。
3.搭建个人风险预测模型
将步骤1.2.1中质控得到的739例合格样本进行拆分,随机选择总样本80%的样本为训练样本集,选择剩余20%的样本为测试样本集。将训练样本集的数据(样本的PRS得分数据和样本的特征数据)确定为训练数据,测试样本集的数据(样本的PRS得分数据和样本的特征数据)确定为测试集数据;采取多种机器学习方法构建多个患病风险评估模型,在独立的样本训练集和测试集中分别进行训练与测试,选择各项评估指标最优的模型作为最终个人风险评估的系统。
具体内容:
3.1.构建多个患病风险评估模型
基于步骤2得到的单个样本的PRS得分,结合该样本的年龄与性别信息,使用Python(https://www.python.org/)中的sklearn模块中多种机器学习方法进行预测,构建多种个人风险预测模型,包括逻辑回归预测模型,k近邻预测模型,决策树预测模型,随机森林预测模型,SVM预测模型;
3.2.模型训练与测试
将步骤1.2.1中得到的739例合格个体样本进行拆分,随机选择总样本80%的样本(591例样本)为训练样本集,选择剩余20%的样本(148例样本)为测试样本集。将训练样本集的数据(样本的PRS得分数据和样本的特征数据)确定为训练数据,测试样本集的数据(样本的PRS得分数据和样本的特征数据)确定为测试数据;
使用训练数据对3.1得到的多种个人风险预测模型进行训练,得到各模型相应的回归系数;
使用测试数据,对多种个人风险预测模型进行性能测试,绘制ROC曲线,计算AUC值,结果显示,SVM预测模型的预测效果最好,其AUC值可达0.792,因此选择SVM预测模型为最优预测模型(即最优个人患病风险评估系统);
4.搭建家庭风险预测模型,预测家庭的患病风险
根据步骤1.1.3中搜集到的家系样本,通过各家系样本成员之间的亲缘关系制定家庭患病风险评估判定标准,结合步骤3.2得到的个人患病风险评估系统的结果给予家庭风险评估结果。具体步骤包括:
4.1.计算家系图谱、分析家系数据
根据步骤1.2.3中得到的合格家系样本的合格SNP位点数据使用KING软件(https://www.chen.kingrelatedness.com/#pedigree)判断其亲缘关系,判断结果显示,亲缘关系均准确:使用KING软件中的build函数计算其相应家系图谱,绘制成图;related函数计算其遗传相似度,统计同源相同片段(IBD)数量,使用king_segments_plot函数得到同源相同片段(IBD)图,通过两个维度相互印证,最终确定家系样本中的亲缘关系,获得所述伦理上家庭样本中的遗传上家系关系。
4.2.家系样本的个人患病风险预测基于步骤3.2筛选出的最优预测模型SVM预测模型,对家系中的样本进行个人患病风险预测,得到家系样本中个人患病风险预测值,即个人患冠心病可能性;
4.3.预测家系组中家庭的患病风险
基于步骤4.2中得到的家系样本中的个人患病风险预测值,确定家庭平均患病可能性质,划定风险级别界定阈值,给出家庭风险评估结果。
具体方法为:计算1000组家系中每个人的个人患病风险预测值,取其均数作为家庭平均患病可能性值;统计1000组家系中的家庭平均患病可能性值及其分布,将前百分之五的边界值0.89作为高风险的判定阈值,若待鉴定家庭的平均患病可能性值大于0.89,则标记为患病高风险可能性家庭;将后百分之五的边界值0.03作为低风险的判定阈值,若待鉴定家庭的平均患病可能性值小于该阈值0.03,则标记为患病低风险可能性家庭;若鉴定家庭的平均患病可能性值小于等于0.89且大于等于0.03,则标记为一般患病风险可能性家庭;
5.评估冠心病的有利与有害因素
下载冠心病相关非遗传风险因素(暴露因素)的GWAS研究结果数据,筛选显著相关的遗传易感SNP位点作为工具变量,采用两样本孟德尔随机化方法,对冠心病(作为结局变量)进行相关危险因素与有益因素的评估,得到的显著性的因果关系的非遗传因素,可以应用于后续冠心病预防或干预。
具体内容:
5.1.下载冠心病相关暴露因素数据
下载微量营养素(作为暴露因素)的GWAS研究结果并进行质控(包括五组Meta分析数据:钙、铁、铜和锌、镁、以及维生素D相关数据)。钙元素的遗传变异位点来自于一项欧洲的Meta分析,包含了17个基于人群的队列中的39400个人(O'SEAGHDHA C M,WU H,YANG Q,et al.Meta-analysis of genome-wide association studies identifies six newLoci for serum calcium concentrations[J].PLoS genetics,2013,9(9):e1003796.);铁元素的遗传变异位点来自于一项包含12000人的血清铁Meta分析(RAFFIELD L M,LOUIET,SOFER T,et al.Genome-wide association study of iron traits and relation todiabetes in the Hispanic Community Health Study/Study of Latinos(HCHS/SOL):potential genomic intersection of iron and glucose regulation?[J].Humanmolecular genetics,2017,26(10):1966-78.);镁元素相关的遗传变异位点来自于国际CHARGE协会一项包含15366名参与者的血清镁Meta分析(MEYER T E,VERWOERT G C,HWANGS J,et al.Genome-wide association studies of serum magnesium,potassium,andsodium concentrations identify six Loci influencing serum magnesium levels[J].PLoS genetics,2010,6(8).);铜元素与锌元素的遗传变异位点来自于一项包含2603名成年人的GWAS研究(EVANS D M,ZHU G,DY V,et al.Genome-wide association studyidentifies loci affecting blood copper,selenium and zinc[J].Human moleculargenetics,2013,22(19):3998-4006.);维生素D的遗传变异位点来自于一项包含79366名欧洲人的Meta分析(JIANG X,O'REILLY P F,ASCHARD H,et al.Genome-wide associationstudy in 79,366European-ancestry individuals informs the genetic architectureof25-hydroxyvitamin D levels[J].Nature communications,2018,9(1):260.)。
下载冠心病(作为结局变量)相关的GWAS研究结果并进行质控(包括两组GWAS数据,Yamaji T,Sawada N,Iwasaki M.Transethnic Meta-Analysis of Genome-WideAssociation Studies Identifies Three New Loci and Characterizes Population-Specific Differences for Coronary Artery Disease.Circ Genom Precis Med.2020Jun;13(3):e002670.doi:10.1161/CIRCGEN.119.002670.Epub 2020 May 29.PMID:32469254.)(Nikpay Majid,Goel Anuj,Won Hong-Hee,&Leo-.(2015).Acomprehensive 1,000Genomes-based genome-wide association meta-analysis ofcoronary artery disease..Nature genetics(10),doi:10.1038/ng.3396.)。
5.2.筛选确定工具变量
选取暴露因素文件中(步骤5.1中下载的微量营养素相关的GWAS数据)各种微量营养素显著相关(P<=5e×10-8)的SNP位点作为工具变量候选位点,然后排除掉工具变量中无法调整回文序列的位点,去除掉连锁不平衡位点,剩下的SNP确认为工具变量,得到工具变量文件;
5.3.评估暴露因素与冠心病的因果关系
根据步骤5.2中得到的暴露因素(微量营养素)的工具变量文件,与步骤1.1.2下载的冠心病全基因组关联分析质控后得到的(GWAS)数据,通过双样本孟德尔随机化策略,使用逆方差加权法与MR-Egger方法评估微量营养素与冠心病之间的因果关系,结果发现:锌含量的减少与冠心病之间存在显著的因果关联(OR=1.06,P=0.04,95%CI=1.001-1.126);在正常含量下,锌元素每减少一个单位(0.5md/dL),患冠心病的风险增加0.06倍。其余微量元素对冠心病没有显著的因果关系。
5.4.评估冠心病的有利与有害因素
根据5.3的结果可知,锌含量的减少对于冠心病来说是有害因素,故要注意维持家庭中每个成员的正常锌含量水平,适量补充,以降低家庭每个成员患冠心病的风险以保持健康;其余微量元素与冠心病没有显著的因果关系,既不是有害因素,也不是有利因素。
实施例三、一种家庭冠心病患病风险评估(预测)及其风险因素鉴定的装置
基于实施例一中的家庭冠心病患病风险评估及其风险因素鉴定系统,和实施例二中的家庭冠心病患病风险评估及其风险因素鉴定系统的应用实例,得到本实施例家庭冠心病患病风险评估(预测)及其风险因素鉴定的装置,该装置包括如下模块:
A.数据搜集与整理模块
A1)数据搜集模块:用于搜集个体样本的基因型数据、冠心病相关GWAS数据和家系样本的的基因型数据。具体通过以下步骤建立:
搜集获得冠心病相关个体样本的全基因组的基因型数据;搜集获得冠心病全基因组关联分析(GWAS)数据;搜集家系样本的全基因组的基因型数据。
如果搜集到的数据为原始基因型数据和原始GWAS数据,需要进行A2)数据整理过程;如果搜集到的数据为已经进行数据整理后的数据,即已经过质控和基因型填补后的基因型数据和标准化的GWAS数据,则可以直接进行下述B模块。
A2)数据整理模块:用于对A1)模块中搜集到的数据进行质量控制。具体通过以下步骤建立:
包括对个体样本的全基因组的基因型数据进行质控和基因型填补、GWAS数据质控和家系样本的基因型数据进行质控和基因型填补。对个体样本的全基因组的基因型数据进行质控和基因型填补的步骤为:对搜集得到的冠心病相关个体样本的原始的基因型数据进行质量控制、并对质量控制后的基因型数据进行基因型填补,最终得到合格个体样本的合格SNP位点数据;对GWAS数据进行质控的步骤为:对搜集得到的GWAS数据进行质量控制得到标准化GWAS数据;对搜集得到的家系样本基因型数据质控和基因型填补的步骤为:对搜集得到的原始的基因型数据进行质量控制、并对质量控制后的基因型数据进行基因型填补,最终得到合格家系样本的合格SNP位点数据。
B.多基因风险评分计算模块
用于获得单个样本的多基因风险评分(PRS),具体通过以下步骤建立:
基于A模块中搜集和整理的数据(标准化GWAS数据和合格个体样本的合格SNP位点数据),使用LDpred软件进行多基因风险评分(PRS)计算,得到合格个体样本中每个样本的PRS得分。
C、个人风险预测模型搭建模块
用于基于B模块得到的PRS得分,确定最优个人患病风险预测模型。
C1)模型搭建模块:用于搭建多种个人特定疾病患病风险预测模型。具体通过以下步骤建立:
基于B模块得到的单个样本的PRS,结合该样本的特征数据(样本的年龄、性别信息),使用Python语言的sklearn模块,使用逻辑回归、k近邻、决策树、随机森林、SVM等多种机器学习方法构建个人风险预测模型:逻辑回归预测模型、k近邻预测模型、决策树预测模型、随机森林预测模型、SVM预测模型。
C2)模型训练与测试模块:用于获得最优个人特定疾病患病风险预测模型(最优个人风险预测模型)。具体通过以下步骤建立:
将A2)模块中质控得到的合格个体样本进行拆分,随机选择个体样本80%的样本为训练样本集,选择剩余20%的个体样本为测试样本集。将训练样本集的数据(样本的PRS得分数据和样本的特征数据)确定为训练数据,测试样本集的数据(样本的PRS得分数据和样本的特征数据)确定为测试数据;
使用训练数据对3.1得到的多种个人风险预测模型进行训练,得到各模型相应的回归系数;
使用测试数据,对多种个人风险预测模型进行性能测试,绘制ROC曲线,计算ROC曲线下面积(Area Under Curve,AUC)值;选择AUC值最大的机器学习方法构建的个人风险预测模型为最优预测模型(即个人患病风险评估系统)。
D、家庭风险预测模型搭建模块
用于通过家庭风险预测模型得到家庭患病风险评估结果。
D1)家系图谱计算模块:用于确定家系样本的亲缘关系,获得家系样本中的家庭。具体通过以下步骤建立:
根据A2)模块中质控得到的合格家系样本的合格SNP位点数据,使用KING软件build函数计算其相应家系图谱,related函数计算其遗传相似度,统计同源相同片段(IBD)数量,使用king_segments_plot函数得到同源相同片段(IBD)图,最终确定家系样本的亲缘关系。
D2)个人患病风险预测模块:用于得到家系样本中每个样本个人患病风险预测值。具体通过以下步骤建立:
基于C模块中得到的最优个人患病风险预测模型,对家系中的样本进行个人风险预测,得到家系样本中每个样本个人患病风险预测值。
D3)家庭患病风险预测模块:用于预测家系组中家庭的患病风险。
基于D2)模块中得到的家系中每个样本的个人患病风险预测值,构建家系中家庭风险评估判定标准,给出该家系中的家庭风险评估结果;具体步骤为:统计家系中的家庭平均患病可能性,确定家庭患病风险的判定阈值,根据判定阈值预测家系中家庭的患病风险。
E、特定疾病的有利与有害因素评估模块:用于确定家庭相关的特定疾病危险因素与有益因素。
E1)特定疾病相关暴露因素数据获取模块:用于获得暴露因素相关的GWAS研究数据和结局变量(特定疾病)相关的GWAS研究数据。具体通过以下步骤建立:
下载微量营养素(暴露因素)相关的GWAS研究结果(数据文件),冠心病(结局变量)相关的GWAS研究结果(数据文件)。
E2)工具变量筛选确定模块:用于确定候选工具变量。具体通过以下步骤建立:
筛选微量营养素GWAS研究结果中与所述微量元素显著相关的遗传易感位点作为候选工具变量,调整回文序列,去除连锁不平衡位点。
E3)暴露因素与结局变量的因果关系评估模块:用于评估暴露因素与结局变量的因果关系。具体通过以下步骤建立:
基于微量营养素的GWAS研究结果和冠心病的GWAS研究结果,通过双样本孟德尔随机化策略,使用逆方差加权法与MR-Egger法评估微量营养素与冠心病之间的因果关系。
E4)特定疾病的有利与有害因素评估模块:用于评估出家庭相关的特定疾病危险因素与有益因素。具体通过以下步骤建立:
基于E3)模块得到的结果,评估出冠心病相关的危险因素与有益因素,得到显著性因果关系的非遗传因素,可以用于后续冠心病的预防与干预。
综上所述,本发明提供了一种家庭特定疾病患病风险评估及其风险因素鉴定系统和装置。具体而言是以家系数据为基础,采用多基因风险评分算法计算个人风险评分,再通过机器学习算法构建预测模型,通过计算家系平均患病可能性给出家系的相应风险评估,再通过孟德尔随机化方法,提供有显著因果关联的有利因素与有害因素,帮助家庭更好的规避特定疾病风险,保持健康。进一步为特定疾病的预防、治疗与预后提供了证据支持与相关方法。本发明以冠心病为例进行了家庭冠心病患病风险评估及其风险因素鉴定,得到家庭冠心病患病风险评估结果和微量营养素锌元素为家庭相关冠心病的危险因素,可以进一步为家庭冠心病的预防、治疗与预后提供了证据支持与相关方法。
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。
Claims (10)
1.一种家庭特定疾病患病风险预测及患病风险因素鉴定装置,其特征在于:所述装置包括如下模块:
A、数据搜集与整理模块:用于获得所述特定疾病相关的个体样本的全基因组基因型数据,所述特定疾病的GWAS数据和家系样本的全基因组基因型数据;
B、多基因风险评分计算模块:用于获得所述个体样本中每个样本的多基因风险评分;
C、个人风险预测模型搭建模块:用于基于B模块所述的多基因风险评分,确定最优个人特定疾病患病风险预测模型;
所述C模块包括如下模块:
C1)模型搭建模块:用于搭建多种个人特定疾病患病风险预测模型;
C2)模型训练与测试模块:用于获得最优个人特定疾病患病风险预测模型;
D、家庭风险预测模型搭建模块:用于通过家庭风险预测模型得到家庭患病风险预测结果;
所述D模块包括如下模块:
D1)家系图谱计算模块:用于确定所述家系样本的亲缘关系,获得所述家系样本中的家庭;
D2)个人患病风险预测模块:用于得到所述家系样本中每个样本个人患病风险预测值;
D3)家庭患病风险预测模块:用于预测所述家庭的患病风险;
E、特定疾病的有利与有害因素评估模块:用于确定所述家庭相关的特定疾病危险因素与有益因素;
所述E模块包括如下模块:
E1)特定疾病相关暴露因素数据获取模块:用于获得暴露因素的GWAS研究数据和结局变量的GWAS研究数据;所述结局变量为所述特定疾病;
E2)工具变量筛选确定模块:用于确定候选工具变量;
E3)暴露因素与结局变量的因果关系评估模块:用于评估所述暴露因素与所述结局变量的因果关系;
E4)特定疾病的有利与有害因素评估模块:用于评估出所述家庭相关的所述特定疾病的危险因素与有益因素。
2.根据权利要求1所述的装置,其特征在于:A模块所述的全基因组基因型数据为经过质量控制和基因型填充得到的合格样本的合格SNP位点数据。
3.根据权利要求1或2所述的装置,其特征在于:C1)所述模型搭建模块通过包括如下步骤的方法建立:基于B模块得到的所述每个样本的多基因风险评分,结合该样本的特征数据,使用多种机器学习的方法搭建所述个人特定疾病的患病风险预测模型;所述特征数据包括所述样本的年龄和性别信息;
和/或,C2)所述模型训练与测试模块通过包括如下步骤的方法建立:
将A模块中的所述个体样本进行拆分,随机选择所述个体样本的80%的样本为训练样本集,选择剩余20%的所述个体样本为测试样本集;将所述训练样本集的数据确定为训练数据,所述测试样本集的数据确定为测试数据;
使用所述训练数据对C1中得到的所述个人特定疾病的患病风险预测模型进行训练,得到所述患病风险预测模型的回归系数;
使用所述测试数据,对所述患病风险预测模型进行测试,绘制ROC曲线,计算ROC曲线下面积值;选择所述ROC曲线下面积值最大的所述患病风险预测模型为最优个人特定疾病患病风险预测模型。
4.根据权利要求3所述的装置,其特征在于:所述多种机器学习方法为逻辑回归、k近邻、决策树、随机森林和/或SVM;所述个人特定疾病患病风险预测模型为逻辑回归预测模型、k近邻预测模型、决策树预测模型、随机森林预测模型和/或SVM预测模型。
5.根据权利要求1-4中任一权利要求所述的装置,其特征在于:D2)中所述家系样本的个人患病风险预测模块通过包括如下步骤的方法建立:
基于C模块中得到的最优个人特定疾病患病风险预测模型,对所述家系样本中的样本进行个人特定疾病患病风险预测,得到所述家系样本中每个样本的个人特定疾病患病风险预测值;
和/或,D3所述家系样本的个人患病风险预测模块通过包括以下步骤的方法建立:
基于D2)模块中得到的所述家系样本中每个样本的个人特定疾病患病风险预测值,统计所述家系中的家庭患病风险的判定阈值,根据所述判定阈值预测预测所述家系中家庭的特定疾病患病风险。
6.根据权利要求1-5中任一权利要求所述的装置,其特征在于:所述特定疾病为冠心病;所述最优个人特定疾病患病风险预测模型为SVM预测模型。
7.根据权利要求1-6中任一权利要求所述的装置,其特征在于:所述暴露因素为微量营养素。
8.根据权利要求6或7所述的装置,其特征在于:所述暴露因素与结局变量的因果关系为锌元素含量的减少与冠心病之间存在显著的因果关联;所述家庭冠心病患病风险因素为锌元素。
9.一种家庭特定疾病患病风险预测装置,所述装置包括权利要求1-7中任一权利要求所述的装置中的A、B、C和D模块。
10.存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机建立如权利要求1-7中任一权利要求所述装置的模块的步骤或权利要求9所述装置的模块的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110967043.7A CN113593630A (zh) | 2021-08-23 | 2021-08-23 | 一种家庭冠心病患病风险评估及其风险因素鉴定系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110967043.7A CN113593630A (zh) | 2021-08-23 | 2021-08-23 | 一种家庭冠心病患病风险评估及其风险因素鉴定系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113593630A true CN113593630A (zh) | 2021-11-02 |
Family
ID=78238795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110967043.7A Withdrawn CN113593630A (zh) | 2021-08-23 | 2021-08-23 | 一种家庭冠心病患病风险评估及其风险因素鉴定系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593630A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974413A (zh) * | 2022-05-17 | 2022-08-30 | 哈尔滨学院 | 父母子三元亲属结构的候选区域基因关联检测系统及方法 |
CN115281635A (zh) * | 2022-08-30 | 2022-11-04 | 华中科技大学同济医学院附属协和医院 | Snp在判断心衰类型中的用途及心衰致病原因分析系统 |
CN115862869A (zh) * | 2022-12-15 | 2023-03-28 | 山东大学 | 一种基于因果网络不确定性推理的疾病预测预警系统 |
CN116469554A (zh) * | 2023-03-21 | 2023-07-21 | 天津医科大学 | 一种2型糖尿病发病综合风险预测模型的构建方法和系统 |
CN117789819A (zh) * | 2024-02-27 | 2024-03-29 | 北京携云启源科技有限公司 | Vte风险评估模型的构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091903A (zh) * | 2019-12-12 | 2020-05-01 | 和宇健康科技股份有限公司 | 针对遗传疾病风险概率评估及阻断或改善方法推荐系统 |
CN111354464A (zh) * | 2018-12-24 | 2020-06-30 | 深圳先进技术研究院 | Cad预测模型建立方法、装置以及电子设备 |
CN113066586A (zh) * | 2021-04-01 | 2021-07-02 | 北京果壳生物科技有限公司 | 一种基于多基因风险打分构建疾病分类模型的方法 |
CN113113141A (zh) * | 2021-04-02 | 2021-07-13 | 北京果壳生物科技有限公司 | 一种基于孟德尔随机化评估微量营养素与精神类疾病因果关系的方法 |
-
2021
- 2021-08-23 CN CN202110967043.7A patent/CN113593630A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111354464A (zh) * | 2018-12-24 | 2020-06-30 | 深圳先进技术研究院 | Cad预测模型建立方法、装置以及电子设备 |
CN111091903A (zh) * | 2019-12-12 | 2020-05-01 | 和宇健康科技股份有限公司 | 针对遗传疾病风险概率评估及阻断或改善方法推荐系统 |
CN113066586A (zh) * | 2021-04-01 | 2021-07-02 | 北京果壳生物科技有限公司 | 一种基于多基因风险打分构建疾病分类模型的方法 |
CN113113141A (zh) * | 2021-04-02 | 2021-07-13 | 北京果壳生物科技有限公司 | 一种基于孟德尔随机化评估微量营养素与精神类疾病因果关系的方法 |
Non-Patent Citations (1)
Title |
---|
郭航远: "冠心病", pages: 30 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974413A (zh) * | 2022-05-17 | 2022-08-30 | 哈尔滨学院 | 父母子三元亲属结构的候选区域基因关联检测系统及方法 |
CN115281635A (zh) * | 2022-08-30 | 2022-11-04 | 华中科技大学同济医学院附属协和医院 | Snp在判断心衰类型中的用途及心衰致病原因分析系统 |
CN115281635B (zh) * | 2022-08-30 | 2024-02-09 | 华中科技大学同济医学院附属协和医院 | Snp在判断心衰类型中的用途及心衰致病原因分析系统 |
CN115862869A (zh) * | 2022-12-15 | 2023-03-28 | 山东大学 | 一种基于因果网络不确定性推理的疾病预测预警系统 |
CN116469554A (zh) * | 2023-03-21 | 2023-07-21 | 天津医科大学 | 一种2型糖尿病发病综合风险预测模型的构建方法和系统 |
CN117789819A (zh) * | 2024-02-27 | 2024-03-29 | 北京携云启源科技有限公司 | Vte风险评估模型的构建方法 |
CN117789819B (zh) * | 2024-02-27 | 2024-06-11 | 北京携云启源科技有限公司 | Vte风险评估模型的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113593630A (zh) | 一种家庭冠心病患病风险评估及其风险因素鉴定系统 | |
Blanco-Míguez et al. | Extending and improving metagenomic taxonomic profiling with uncharacterized species using MetaPhlAn 4 | |
Fu et al. | A gene prioritization method based on a swine multi-omics knowledgebase and a deep learning model | |
KR101542529B1 (ko) | 대립유전자의 바이오마커 발굴방법 | |
JP5479431B2 (ja) | バイオマーカー抽出装置および方法 | |
Yin et al. | Using the structure of genome data in the design of deep neural networks for predicting amyotrophic lateral sclerosis from genotype | |
KR101460520B1 (ko) | 차세대 시퀀싱 데이터의 질병변이마커 검출 방법 | |
Hassan et al. | Evaluation of computational techniques for predicting non-synonymous single nucleotide variants pathogenicity | |
KR101693504B1 (ko) | 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템 | |
Mieth et al. | DeepCOMBI: explainable artificial intelligence for the analysis and discovery in genome-wide association studies | |
KR102351306B1 (ko) | 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법 | |
CN114446389B (zh) | 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用 | |
Holzinger et al. | ATHENA: a tool for meta-dimensional analysis applied to genotypes and gene expression data to predict HDL cholesterol levels | |
CN113362894A (zh) | 一种对协同致死的癌症驱动基因进行预测的方法 | |
KR102042824B1 (ko) | 류마티스관절염 예후 예측용 snp 마커 세트 | |
CN116287204A (zh) | 检测特征基因的突变情况在制备静脉血栓栓塞症风险检测产品中的应用 | |
KR20150024232A (ko) | 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법 | |
CN112037863B (zh) | 一种早期nsclc预后预测系统 | |
WO2021078794A1 (en) | In vitro method for determining the risk of developing breast cancer in a subject | |
Nayak et al. | Deep learning approaches for high dimension cancer microarray data feature prediction: A review | |
CN116525108A (zh) | 基于snp数据的预测方法、装置、设备及存储介质 | |
CN116153396A (zh) | 一种基于迁移学习的非编码变异预测方法 | |
CN111128300A (zh) | 基于突变信息的蛋白相互作用影响判断方法 | |
JP2022534236A (ja) | 多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法 | |
Shi et al. | An application based on bioinformatics and machine learning for risk prediction of sepsis at first clinical presentation using transcriptomic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211102 |