CN113593630A

CN113593630A - 一种家庭冠心病患病风险评估及其风险因素鉴定系统

Info

Publication number: CN113593630A
Application number: CN202110967043.7A
Authority: CN
Inventors: 马玉昆; 李�根; 贾寒; 韩仕伟; 孙琼琳; 李伟华
Original assignee: Beijing Fruit Shell Biotechnology Co ltd
Current assignee: Beijing Fruit Shell Biotechnology Co ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-02

Abstract

本发明公开了一种家庭冠心病患病风险评估及其风险因素鉴定系统。本发明所保护的一种家庭冠心病患病风险评估及其风险因素鉴定装置包括数据搜集与整理模块、多基因风险评分计算模块、个人风险预测模型搭建模块、家庭风险预测模型搭建模块、特定疾病的有利与有害因素评估模块。具体是以样本基因型数据为基础，采用多基因风险评分算法计算样本个人风险评分，然后通过机器学习算法构建预测模型，通过计算家系平均患病可能性给出家系中家庭的患病风险评估，再通过孟德尔随机化方法，提供与疾病有显著因果关联的有利因素与有害因素，帮助家庭更好的规避冠心病风险，保持健康，进一步为冠心病的预防、治疗与预后提供了证据支持与相关方法。

Description

一种家庭冠心病患病风险评估及其风险因素鉴定系统

技术领域

本发明涉及生物信息学领域，具体涉及一种家庭冠心病患病风险评估及其风险因素鉴定系统。

背景技术

冠心病，一般指冠状动脉粥样硬化性心脏病，是由于冠状动脉血管发生动脉粥样硬化病变而引其血管腔狭窄或阻塞，造成心肌缺血、缺氧或坏死而导致的心脏病，常常被称为“冠心病”。世界卫生组织将冠心病分为5大类：无症状心肌缺血、心绞痛、心肌梗死、缺血性心力衰竭和猝死5种临床表型。多基因遗传风险评分(PRS)，是根据多个基因位点的变异及其相应的权重计算得到的数字。当出现多个基因变量的差异时，多基因遗传风险评分是多种基因导致某种特质的最好预测。在全基因组关联分析研究中(GWAS)，多基因遗传风险评分在预测方面远远好于在全基因组中寻找统计上有显著影响的基因的方法，被研究的特质不仅受这些在统计上显著的基因影响，而且同样还受到很多很多基因的影响，且样本量越大，影响特质的基因也越多。对于具有高遗传性的特质，用其他研究方法只能解释其中很小一部分整体差异，而通过多基因遗传风险方法，一旦计算出一个至少能够解释几个百分比整体差异的多基因遗传评分，这个分数就可以作为检测遗传性是否被有偏估计的一个下界，从而得到某种特质一种较为合理的预测。

机器学习是一种多学科交叉专业，涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行只是结构划分来有效提高学习效率。机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中不断的改善具体算法的性能，使得结果越来越准确。传统机器学习的研究方向主要包括决策树，随机森林，支持向量机，人工神经网络，贝叶斯网络等，不同的方法适用于不同的场景，在使用中挑选合适的研究方法可以使预测的结果更加准确，效果更加好。

孟德尔随机化是一种在非实验数据中使用遗传变异来估计暴露因素与结局变量之间的因果关系的方法，目前已广泛应用于疾病研究中。在孟德尔随机化研究中，使用暴露因素来指代的因果风险因素，也称为中间表型，他可以是生物标志物(Biomarker)，可以是人体测量指标(Physical measurement)，也可以是其他任何可能影响结果的风险因素(Risk factor)；使用结局变量来指代疾病，但并不限于疾病。

发明内容

本发明所要解决的技术问题是如何评估家庭冠心病患病风险和/或如何鉴定家庭冠心病患病风险因素。

为了解决上述技术问题，本发明首先提供了一种家庭特定疾病患病风险预测及患病风险因素鉴定装置。所述装置可包括如下模块：

A、数据搜集与整理模块：用于获得所述特定疾病相关的个体样本的全基因组基因型数据，所述特定疾病的GWAS数据和家系样本的全基因组基因型数据。

B、多基因风险评分计算模块：用于获得所述个体样本中每个样本的多基因风险评分。

C、个人风险预测模型搭建模块：用于基于B模块所述的多基因风险评分，确定最优个人特定疾病患病风险预测模型。

所述C模块可具体包括如下模块：

C1)模型搭建模块：用于搭建多种个人特定疾病患病风险预测模型；

C2)模型训练与测试模块：用于获得最优个人特定疾病患病风险预测模型。

D、家庭风险预测模型搭建模块：用于通过家庭风险预测模型得到家庭患病风险预测结果。

所述D模块可具体包括如下模块：

D1)家系图谱计算模块：用于确定所述家系样本的亲缘关系，获得所述家系样本中的家庭；

D2)个人患病风险预测模块：用于得到所述家系样本中每个样本个人患病风险预测值；

D3)家庭患病风险预测模块：用于预测所述家庭的患病风险。

E、特定疾病的有利与有害因素评估模块：用于确定所述家庭相关的特定疾病危险因素与有益因素。

所述E模块可具体包括如下模块：

E1)特定疾病相关暴露因素数据获取模块：用于获得暴露因素的GWAS研究数据和结局变量的GWAS研究数据；所述结局变量为所述特定疾病；

E2)工具变量筛选确定模块：用于确定候选工具变量；

E3)暴露因素与结局变量的因果关系评估模块：用于评估所述暴露因素与所述结局变量的因果关系；

E4)特定疾病的有利与有害因素评估模块：用于评估出所述家庭相关的所述特定疾病的危险因素与有益因素。

上文所述装置中，A模块所述的全基因组基因型数据可为经过质量控制和基因型填充得到的合格样本的合格SNP位点数据。上文A模块中所述GWAS数据可为经过质控后得到的标准化的GWAS数据。

所述合格样本可为检出率高于或等于97％的样本。所述合格样本可包括合格个体样本和合格家系样本。所述合格SNP位点可为不重合的SNP位点且填充质量大于等于0.3的SNP位点且符合哈温伯格平衡的SNP位点且基因型缺失率小于等于2％的位点且次等位基因频率大于等于1％的SNP位点。

上文所述多基因风险评分(PRS)的计算过程可为：将所述标准化后的GWAS数据与所述合格个体样本的合格SNP位点数据，使用LDpred软件中的coord函数统一两组数据中的参考连锁不平衡(LD)信息；使用LDpred软件中的gibbs函数矫正同一研究中不同SNP位点的效应值大小；使用LDpred软件中的score函数进行多基因风险评分(PRS)计算，得到所述合格个体样本中每个样本的PRS得分。

上文所述装置中，C1)所述模型搭建模块可通过包括如下步骤的方法建立：基于B模块得到的所述每个样本的多基因风险评分，结合该样本的特征数据，使用多种机器学习的方法搭建所述个人特定疾病的患病风险预测模型；所述特征数据包括所述样本的年龄和性别信息。

上文所述装置中，C2)所述模型训练与测试模块可通过包括如下步骤的方法建立：

将A模块中的所述个体样本进行拆分，随机选择所述个体样本的80％的样本为训练样本集，选择剩余20％的所述个体样本为测试样本集。将所述训练样本集的数据确定为训练数据，所述测试样本集的数据确定为测试数据。

使用所述训练数据对C1中得到的所述个人特定疾病的患病风险预测模型进行训练，得到所述患病风险预测模型的回归系数。

使用所述测试数据，对所述患病风险预测模型进行测试，绘制ROC曲线，计算ROC曲线下面积值。选择所述ROC曲线下面积值最大的所述患病风险预测模型为最优个人特定疾病患病风险预测模型。

所述个体样本可为质控得到的合格个体样本。所述训练样本集的数据可为所述训练样本集中样本的PRS得分和特征数据。所述测试样本集的数据可为所述测试样本集中样本的PRS得分和特征数据。

上文所述装置中，所述多种机器学习方法可为逻辑回归、k近邻、决策树、随机森林和/或SVM。所述个人特定疾病患病风险预测模型可为逻辑回归预测模型、k近邻预测模型、决策树预测模型、随机森林预测模型和/或SVM预测模型。

上文所述使用多种机器学习方法，具体可为使用Python中的sklearn模块中的多种机器学习方法。

上文所述装置中，D1)所述家系图谱计算模块可为通过包括如下步骤的方法建立：

根据A模块中所述家系样本的的基因型数据，使用KING软件build函数计算其相应家系图谱，使用related函数计算其遗传相似度，统计同源相同片段(IBD)数量，使用king_segments_plot函数得到同源相同片段(IBD)图，最终确定所述家系样本的亲缘关系，获得所述家系样本中的家庭。所述质控得到的合格家系样本的合格SNP位点数据。

所述家系的概念可为个人、家族从祖先或更老形态传下来的正常世系，记录某一家族各世代成员数目、亲属关系以及有关遗传性状或遗传病在该家系中分布的情况，一般包含三代人或以上。所述家系可为展示家庭的结构、家庭关系、遗传史的工具。所述家庭的概念可为以婚姻关系、血缘关系基础产生的的社会生活单位，包括父母、子女及生活在一起的其他亲属。

上文所述装置中，D2)中所述家系样本的个人患病风险预测模块可通过包括如下步骤的方法建立：

基于C模块中得到的最优个人特定疾病患病风险预测模型，对所述家系样本中的样本进行个人特定疾病患病风险预测，得到所述家系样本中每个样本的个人特定疾病患病风险预测值。

上文所述装置中，D3)所述家系样本的个人患病风险预测模块可通过包括以下步骤的方法建立：

基于D2)模块中得到的所述家系样本中每个样本的个人特定疾病患病风险预测值，统计所述家系中的家庭患病风险的判定阈值，根据所述判定阈值预测预测所述家系中家庭的特定疾病患病风险。

上文所述判定阈值可分为高风险判定阈值和低风险判定阈值。所述高风险判定阈值和低风险判定阈值可通过所述家庭的平均患病预测值分布确定。所述家庭的平均患病预测值分布可根据所述家系样本中的家庭中的个人特定疾病患病风险预测值计算获得。所述高风险判定阈值可为所述家庭的所述平均患病预测值分布由高到低前百分之五的临界值。所述低风险判定阈值可为所述家庭的所述平均患病预测值分布由高到低后百分之五的临界值。

上文所述特定疾病可为冠心病。上文所述最优个人特定疾病患病风险预测模型可为SVM预测模型。

上文所述暴露因素可为微量营养素。所述微量营养素可为钙、铁、锌、铜、镁，维生素D等。所述暴露因素还可为其他非遗传因素。

上文所述装置中，E3)所述暴露因素与结局变量的因果关系评估模块可通过包括以下步骤的方法建立：

基于所述微量营养素的GWAS研究结果和冠心病的GWAS研究结果，通过双样本孟德尔随机化策略，使用逆方差加权法与MR-Egger法评估微量营养素与冠心病之间的因果关系。

上述装置中，E2)中所述的显著相关具体可为P小于等于5e×10^-8。

上文所述装置中，所述暴露因素与结局变量的因果关系可为锌元素含量的减少与冠心病之间存在显著的因果关联。所述家庭冠心病患病风险因素可为锌元素。

为了解决上述技术问题，本发明还提供了一种家庭特定疾病患病风险预测装置。所述装置可包括上文所述的装置中的A、B、C和D模块。

上文所述特定疾病可为冠心病。

为了解决上述技术问题，本发明还提供了存储有计算机程序的计算机可读存储介质。所述计算机程序使计算机建立如上文所述所述装置的模块的步骤。

本发明通过使用建立的家庭特定疾病患病风险预测及患病风险因素鉴定装置，预测了1000组家系中家庭冠心病患病风险，将家系中的家庭平均患病可能性值0.89作为高风险的判定阈值，若待鉴定家庭的平均患病可能性值大于0.89，则标记为患病高风险可能性家庭；将家庭平均患病可能性值0.03作为低风险的判定阈值，若待鉴定家庭的平均患病可能性值小于该阈值0.03，则标记为患病低风险可能性家庭；若鉴定家庭的平均患病可能性值小于等于0.89且大于等于0.03，则标记为一般患病风险可能性家庭。同时使用该装置预测了家庭冠心病患病风险因素是微量营养素中的锌元素。这意味着在已有的微量元素研究中，遗传变异与冠心病之间的任何关联都必须通过遗传变异与微量营养素锌元素之间的关联来进行，因此暗示了微量营养素锌元素对冠心病的因果关系，可以进一步为家庭冠心病的预防、治疗与预后提供了证据支持与相关方法。

附图说明

图1为本发明提供的基于芯片数据的冠心病家庭风险评估及风险因素鉴定系统的流程图。

图2为个人冠心病患病风险预测效果最好的SVM方法的ROC曲线图及AUC值。

具体实施方式

下面结合具体实施方式对本发明进行进一步的详细描述，给出的实施例仅为了阐明本发明，而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南，并不以任何方式构成对本发明的限制。

下述实施例中的实验方法，如无特殊说明，均为常规方法，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例一、一种家庭冠心病患病风险评估及其风险因素鉴定系统

一、家庭冠心病患病风险评估及其风险因素鉴定系统的建立

1.数据搜集与整理

搜集获得冠心病相关样本的全基因组的基因型数据，以及冠心病全基因组关联分析(GWAS)数据；对搜集得到的原始的基因型数据进行质量控制、并对质量控制后的基因型数据进行基因型填补，最终得到合格样本的合格SNP位点数据；同时对搜集得到的GWAS数据进行质量控制得到标准化GWAS数据。

1.1.数据搜集

1.1.1个体样本全基因组基因型数据获得

芯片测序：

获取个体的全基因组基因型数据。具体步骤为：

(1)搜集个体样本数据：冠心病患者与健康个体样本，其中健康个体作为冠心病患者的对照样本；

(2)利用北京果壳生物科技有限公司牵头定制的百万芯片计划的Illumina ASA_CHIA芯片平台获取冠心病患者与健康个体样本的全基因组基因型数据；

1.1.2GWAS数据的获得

搜集冠心病全基因组关联分析(GWAS)数据

1.1.3搜集家系样本数据

搜集家系全基因组基因型数据；

1.2数据质控和基因型填补

1.2.1个体样本基因型数据质控和基因型填补

将步骤1.1.1得到的全基因组基因型数据(芯片数据)进行样本质量控制，去掉检出率低于97％的样本，去掉性别不一致的个体，得到合格样本的全基因组SNP位点信息数据。

对得到的合格样本的全基因组SNP位点信息数据进行基因型填充(imputation)得到填补后的SNP位点：采用impute2软件进行基因型填充，以千人基因组计划Phase3的基因组数据作为参照；再针对填补后的SNP位点进行质量控制，具体为删除填充质量较小的点(阈值为0.3，填充质量低于0.3的位点删除)，去掉不符合哈温伯格平衡的SNP位点(P值小于1×10^-5的位点删除)，去掉基因型缺失率大于2％的位点，去掉次等位基因频率小于1％的SNP位点，得到最终的合格个体样本的合格SNP位点数据。

1.2.2GWAS数据质控

将步骤1.1.2中搜集到的GWAS数据进行数据标准化，得到标准化后的GWAS数据。

1.2.3家系样本数据质控和基因型填补

将步骤1.1.3得到的家系样本的全基因组基因型数据(芯片数据)进行样本质量控制，去掉检出率低于97％的样本，去掉性别不一致的个体，得到合格家系样本的全基因组SNP位点信息数据。

对得到的合格家系样本的全基因组SNP位点信息数据进行基因型填充(imputation)得到填补后的SNP位点：采用impute2软件进行基因型填充，以千人基因组计划Phase3的基因组数据作为参照；再针对填补后的SNP位点进行质量控制，具体为删除填充质量较小的点(阈值为0.3，填充质量低于0.3的位点删除)，去掉不符合哈温伯格平衡的SNP位点(P值小于1×10^-5的位点删除)，去掉基因型缺失率大于2％的位点，去掉次等位基因频率小于1％的SNP位点，得到最终的合格家系样本的合格SNP位点数据。

2.多基因风险评分计算

将步骤1.2.2得到的标准化后的GWAS数据与步骤1.2.1得到的合格样本的合格SNP位点数据，使用LDpred软件进行多基因风险评分(PRS)计算，得到相应的单个样本的PRS得分。

3.搭建个人风险预测模型

根据步骤2得到的样本的PRS得分，将合格个体样本拆分成无样本交集的训练样本集和测试样本集；采取多种机器学习方法构建多个患病风险评估模型，在独立的训练样本集和测试样本集中分别进行训练与测试，选择各项评估指标最优的模型作为最终个人风险评估的系统。具体步骤包括：

3.1.构建多个患病风险评估模型

基于步骤2得到的单个样本的PRS得分数据，结合该样本的特征数据(样本的年龄、性别信息)，使用Python语言的sklearn模块，使用逻辑回归、k近邻、决策树、随机森林、SVM等机器学习方法构建多种个人风险预测模型；

3.2.模型训练与测试

将步骤1.2.1中质控得到的合格个体样本进行拆分，随机选择80％的样本为训练样本集，选择剩余20％的样本为测试样本集。将训练样本集的数据(样本的PRS得分数据和样本的特征数据)确定为训练数据，测试样本集的数据(样本的PRS得分数据和样本的特征数据)确定为测试数据；

使用训练数据对3.1得到的多种个人风险预测模型进行训练，得到各模型相应的回归系数；

使用测试数据，对多种个人风险预测模型进行性能测试，绘制ROC曲线，计算ROC曲线下面积(Area Under Curve，AUC)值；选择AUC值最大的机器学习方法构建的个人风险预测模型为最优预测模型(即个人患病风险评估系统)。

4.搭建家庭风险预测模型，预测家庭的患病风险

根据步骤1.1.3中搜集到的家系样本，通过各家系样本成员之间的亲缘关系制定家庭患病风险评估判定标准，结合步骤3.2得到的个人患病风险评估系统的结果给予家庭风险评估结果。具体步骤包括：

4.1.计算家系图谱、分析家系数据

根据步骤1.2.3中得到的合格家系样本的合格SNP位点数据，使用KING软件build函数计算其相应家系图谱，related函数计算其遗传相似度，统计同源相同片段(IBD)数量，使用king_segments_plot函数得到同源相同片段(IBD)图，最终确定家系样本中的亲缘关系，获得所述家系样本中的家庭(单位)。

4.2.家系样本的个人患病风险预测

基于步骤3.2中得到的最优预测模型，对家系中的样本进行个人风险预测，得到家系样本中每个样本个人患病风险预测值；

4.3.预测家系组中家庭的患病风险

基于步骤4.2中得到的家系中每个样本的个人患病风险预测值，构建家系中家庭风险评估判定标准，给出该家系中的家庭风险评估结果；具体步骤为：统计家系中的家庭平均患病可能性，确定家庭患病风险的判定阈值，根据判定阈值预测家系中家庭的患病风险。

5.评估冠心病的有利与有害因素

下载微量营养素(暴露因素)相关的GWAS研究结果，筛选显著相关的遗传易感位点作为工具变量，下载冠心病(结局变量)相关的GWAS研究结果，采用两样本孟德尔随机化方法，对冠心病(结局变量)进行相关危险因素与有益因素的评估，得到的显著性的因果关系的非遗传因素，可以应用于后续冠心病预防或干预；所述步骤5包括：

5.1.下载冠心病相关暴露因素数据

下载微量营养素(暴露因素)相关的GWAS研究结果，下载冠心病(结局变量)相关的GWAS研究结果；

5.2.筛选确定工具变量

筛选暴露因素文件中显著相关的遗传易感位点作为候选工具变量，调整回文序列，去除连锁不平衡位点；

5.3.评估暴露因素与冠心病的因果关系

通过双样本孟德尔随机化策略，使用逆方差加权法与MR-Egger法评估暴露因素与冠心病(结局变量)之间的因果关系；

5.4.评估冠心病的有利与有害因素

基于步骤5.3得到的结果，评估出危险因素与有益因素，得到显著性因果关系的非遗传因素或许可以用于后续冠心病的预防与干预。

实施例二、家庭冠心病患病风险评估及其风险因素鉴定系统应用实例

1.数据搜集与整理

1.1.数据搜集

1.1.1个体样本全基因组基因型数据获得

芯片测序：

利用北京果壳生物科技有限公司牵头定制的百万芯片计划的Illumina ASA_CHIA芯片平台获取样本每个个体的全基因组基因型数据；

具体内容：

(1)搜集到脱敏后冠心病患者数据239例作为病例组(case)，参照病例组年龄，性别的结果信息，从北京果壳生物科技有限公司芯片数据库中随机选择500例健康个体作为对照组(control)。具体实施时，要求两组选择的对象年龄、性别等结构信息相匹配，且均来自与中国汉族人群。

(2)利用北京果壳生物科技有限公司牵头定制的百万芯片计划的Illumina ASA_CHIA芯片平台获取冠心病患者与健康个体的全基因组基因型数据；

1.1.2GWAS数据的获得

搜集冠心病全基因组关联分析(GWAS)数据(包括两组GWAS数据，相关文献：YamajiT,Sawada N,Iwasaki M.Transethnic Meta-Analysis of Genome-Wide AssociationStudies Identifies Three New Loci and Characterizes Population-SpecificDifferences for Coronary Artery Disease.Circ Genom Precis Med.2020 Jun；13(3):e002670.doi:10.1161/CIRCGEN.119.002670.Epub 2020 May 29.PMID:32469254)(NikpayMajid,Goel Anuj,Won Hong-Hee,&

Leo-.(2015).A comprehensive 1,000Genomes-based genome-wide association meta-analysis of coronary arterydisease.Nature genetics(10),doi:10.1038/ng.3396.)；

1.1.3搜集家系样本数据

搜集1000组家系全基因组基因型数据(北京果壳生物数据库)；

1.2数据质控和基因型填补

1.2.1基因型数据质控和基因型填补

将步骤1.1.1搜集到的239例冠心病患者与北京果壳生物科技有限公司芯片数据库中随机选择的500例健康个体的739例个体样本全基因组基因型数据(芯片数据)进行质量控制使数据标准化，去掉不重合的SNP位点，剩余738980个位点，去掉检出率低于97％的样本，共去掉0个样本，得到739例合格个体样本的全基因组SNP位点信息数据。

对上述得到的739例个体样本的全基因组SNP位点数据，通过SNP位点信息进行基因型填充(imputation)：使用impute2软件(https://genome.sph.umich.edu/wiki/IMPUTE2:_1000_Genomes_Imputation_Cookbook)进行基因型填充，以千人基因组计划Phase3的基因组(https://genome.sph.umich.edu/wiki/Minimac:_1000_Genomes_Imputation_Cookbook)作为参照，共得到2157223个SNP位点；再针对填补后的SNP位点进行质量控制，删除填充质量较小的点(阈值为0.3，填充质量低于0.3的位点删除)；去掉不符合哈温伯格平衡的SNP位点(阈值为1×10^-5，P值小于1×10^-5的位点删除)；去掉基因型缺失率大于2％的位点；去掉次等位基因频率小于1％的SNP位点，得到最终的合格个体(739例)样本的合格SNP位点(2150395个位点)数据。

1.2.2GWAS数据质控

1.2.3家系样本数据质控和基因型填补

对得到的合格家系样本的全基因组SNP位点信息数据进行基因型填充(imputation)得到填补后的SNP位点：采用impute2软件进行基因型填充，以千人基因组计划Phase3的基因组数据作为参照；再针对填补后的SNP位点进行质量控制，具体为删除填充质量较小的点(阈值为0.3，填充质量低于0.3的位点删除)，去掉不符合哈温伯格平衡的SNP位点(P值小于1×10^-5的位点删除)，去掉基因型缺失率大于2％的位点，去掉次等位基因频率小于1％的SNP位点，得到最终的合格家系样本(4000例)的合格SNP位点(2150395个位点)数据。

2.多基因风险评分计算

将步骤1.2.2得到的标准化后的GWAS数据与步骤1.2.1得到的合格样本的合格SNP位点数据，使用LDpred软件(https://github.com/bvilhjal/ldpred)中的coord函数统一两组数据中的参考连锁不平衡(LD)信息；使用LDpred软件中的gibbs函数矫正同一个GWAS数据来源中的不同SNP位点的效应值大小；使用LDpred软件中的score函数进行多基因风险评分(PRS)计算，得到相应单个样本的PRS得分。

3.搭建个人风险预测模型

将步骤1.2.1中质控得到的739例合格样本进行拆分，随机选择总样本80％的样本为训练样本集，选择剩余20％的样本为测试样本集。将训练样本集的数据(样本的PRS得分数据和样本的特征数据)确定为训练数据，测试样本集的数据(样本的PRS得分数据和样本的特征数据)确定为测试集数据；采取多种机器学习方法构建多个患病风险评估模型，在独立的样本训练集和测试集中分别进行训练与测试，选择各项评估指标最优的模型作为最终个人风险评估的系统。

具体内容：

3.1.构建多个患病风险评估模型

基于步骤2得到的单个样本的PRS得分，结合该样本的年龄与性别信息，使用Python(https://www.python.org/)中的sklearn模块中多种机器学习方法进行预测，构建多种个人风险预测模型，包括逻辑回归预测模型，k近邻预测模型，决策树预测模型，随机森林预测模型，SVM预测模型；

3.2.模型训练与测试

将步骤1.2.1中得到的739例合格个体样本进行拆分，随机选择总样本80％的样本(591例样本)为训练样本集，选择剩余20％的样本(148例样本)为测试样本集。将训练样本集的数据(样本的PRS得分数据和样本的特征数据)确定为训练数据，测试样本集的数据(样本的PRS得分数据和样本的特征数据)确定为测试数据；

使用测试数据，对多种个人风险预测模型进行性能测试，绘制ROC曲线，计算AUC值，结果显示，SVM预测模型的预测效果最好，其AUC值可达0.792，因此选择SVM预测模型为最优预测模型(即最优个人患病风险评估系统)；

4.搭建家庭风险预测模型，预测家庭的患病风险

4.1.计算家系图谱、分析家系数据

根据步骤1.2.3中得到的合格家系样本的合格SNP位点数据使用KING软件(https://www.chen.kingrelatedness.com/#pedigree)判断其亲缘关系，判断结果显示，亲缘关系均准确：使用KING软件中的build函数计算其相应家系图谱，绘制成图；related函数计算其遗传相似度，统计同源相同片段(IBD)数量，使用king_segments_plot函数得到同源相同片段(IBD)图，通过两个维度相互印证，最终确定家系样本中的亲缘关系，获得所述伦理上家庭样本中的遗传上家系关系。

4.2.家系样本的个人患病风险预测基于步骤3.2筛选出的最优预测模型SVM预测模型，对家系中的样本进行个人患病风险预测，得到家系样本中个人患病风险预测值，即个人患冠心病可能性；

4.3.预测家系组中家庭的患病风险

基于步骤4.2中得到的家系样本中的个人患病风险预测值，确定家庭平均患病可能性质，划定风险级别界定阈值，给出家庭风险评估结果。

具体方法为：计算1000组家系中每个人的个人患病风险预测值，取其均数作为家庭平均患病可能性值；统计1000组家系中的家庭平均患病可能性值及其分布，将前百分之五的边界值0.89作为高风险的判定阈值，若待鉴定家庭的平均患病可能性值大于0.89，则标记为患病高风险可能性家庭；将后百分之五的边界值0.03作为低风险的判定阈值，若待鉴定家庭的平均患病可能性值小于该阈值0.03，则标记为患病低风险可能性家庭；若鉴定家庭的平均患病可能性值小于等于0.89且大于等于0.03，则标记为一般患病风险可能性家庭；

5.评估冠心病的有利与有害因素

下载冠心病相关非遗传风险因素(暴露因素)的GWAS研究结果数据，筛选显著相关的遗传易感SNP位点作为工具变量，采用两样本孟德尔随机化方法，对冠心病(作为结局变量)进行相关危险因素与有益因素的评估，得到的显著性的因果关系的非遗传因素，可以应用于后续冠心病预防或干预。

具体内容：

5.1.下载冠心病相关暴露因素数据

下载微量营养素(作为暴露因素)的GWAS研究结果并进行质控(包括五组Meta分析数据：钙、铁、铜和锌、镁、以及维生素D相关数据)。钙元素的遗传变异位点来自于一项欧洲的Meta分析，包含了17个基于人群的队列中的39400个人(O'SEAGHDHA C M,WU H,YANG Q,et al.Meta-analysis of genome-wide association studies identifies six newLoci for serum calcium concentrations[J].PLoS genetics,2013,9(9):e1003796.)；铁元素的遗传变异位点来自于一项包含12000人的血清铁Meta分析(RAFFIELD L M,LOUIET,SOFER T,et al.Genome-wide association study of iron traits and relation todiabetes in the Hispanic Community Health Study/Study of Latinos(HCHS/SOL):potential genomic intersection of iron and glucose regulation？[J].Humanmolecular genetics,2017,26(10):1966-78.)；镁元素相关的遗传变异位点来自于国际CHARGE协会一项包含15366名参与者的血清镁Meta分析(MEYER T E,VERWOERT G C,HWANGS J,et al.Genome-wide association studies of serum magnesium,potassium,andsodium concentrations identify six Loci influencing serum magnesium levels[J].PLoS genetics,2010,6(8).)；铜元素与锌元素的遗传变异位点来自于一项包含2603名成年人的GWAS研究(EVANS D M,ZHU G,DY V,et al.Genome-wide association studyidentifies loci affecting blood copper,selenium and zinc[J].Human moleculargenetics,2013,22(19):3998-4006.)；维生素D的遗传变异位点来自于一项包含79366名欧洲人的Meta分析(JIANG X,O'REILLY P F,ASCHARD H,et al.Genome-wide associationstudy in 79,366European-ancestry individuals informs the genetic architectureof25-hydroxyvitamin D levels[J].Nature communications,2018,9(1):260.)。

下载冠心病(作为结局变量)相关的GWAS研究结果并进行质控(包括两组GWAS数据，Yamaji T,Sawada N,Iwasaki M.Transethnic Meta-Analysis of Genome-WideAssociation Studies Identifies Three New Loci and Characterizes Population-Specific Differences for Coronary Artery Disease.Circ Genom Precis Med.2020Jun；13(3):e002670.doi:10.1161/CIRCGEN.119.002670.Epub 2020 May 29.PMID:32469254.)(Nikpay Majid,Goel Anuj,Won Hong-Hee,&

Leo-.(2015).Acomprehensive 1,000Genomes-based genome-wide association meta-analysis ofcoronary artery disease..Nature genetics(10),doi:10.1038/ng.3396.)。

5.2.筛选确定工具变量

选取暴露因素文件中(步骤5.1中下载的微量营养素相关的GWAS数据)各种微量营养素显著相关(P<＝5e×10^-8)的SNP位点作为工具变量候选位点，然后排除掉工具变量中无法调整回文序列的位点，去除掉连锁不平衡位点，剩下的SNP确认为工具变量，得到工具变量文件；

5.3.评估暴露因素与冠心病的因果关系

根据步骤5.2中得到的暴露因素(微量营养素)的工具变量文件，与步骤1.1.2下载的冠心病全基因组关联分析质控后得到的(GWAS)数据，通过双样本孟德尔随机化策略，使用逆方差加权法与MR-Egger方法评估微量营养素与冠心病之间的因果关系，结果发现：锌含量的减少与冠心病之间存在显著的因果关联(OR＝1.06，P＝0.04，95％CI＝1.001-1.126)；在正常含量下，锌元素每减少一个单位(0.5md/dL)，患冠心病的风险增加0.06倍。其余微量元素对冠心病没有显著的因果关系。

5.4.评估冠心病的有利与有害因素

根据5.3的结果可知，锌含量的减少对于冠心病来说是有害因素，故要注意维持家庭中每个成员的正常锌含量水平，适量补充，以降低家庭每个成员患冠心病的风险以保持健康；其余微量元素与冠心病没有显著的因果关系，既不是有害因素，也不是有利因素。

实施例三、一种家庭冠心病患病风险评估(预测)及其风险因素鉴定的装置

基于实施例一中的家庭冠心病患病风险评估及其风险因素鉴定系统，和实施例二中的家庭冠心病患病风险评估及其风险因素鉴定系统的应用实例，得到本实施例家庭冠心病患病风险评估(预测)及其风险因素鉴定的装置，该装置包括如下模块：

A.数据搜集与整理模块

A1)数据搜集模块：用于搜集个体样本的基因型数据、冠心病相关GWAS数据和家系样本的的基因型数据。具体通过以下步骤建立：

搜集获得冠心病相关个体样本的全基因组的基因型数据；搜集获得冠心病全基因组关联分析(GWAS)数据；搜集家系样本的全基因组的基因型数据。

如果搜集到的数据为原始基因型数据和原始GWAS数据，需要进行A2)数据整理过程；如果搜集到的数据为已经进行数据整理后的数据，即已经过质控和基因型填补后的基因型数据和标准化的GWAS数据，则可以直接进行下述B模块。

A2)数据整理模块：用于对A1)模块中搜集到的数据进行质量控制。具体通过以下步骤建立：

包括对个体样本的全基因组的基因型数据进行质控和基因型填补、GWAS数据质控和家系样本的基因型数据进行质控和基因型填补。对个体样本的全基因组的基因型数据进行质控和基因型填补的步骤为：对搜集得到的冠心病相关个体样本的原始的基因型数据进行质量控制、并对质量控制后的基因型数据进行基因型填补，最终得到合格个体样本的合格SNP位点数据；对GWAS数据进行质控的步骤为：对搜集得到的GWAS数据进行质量控制得到标准化GWAS数据；对搜集得到的家系样本基因型数据质控和基因型填补的步骤为：对搜集得到的原始的基因型数据进行质量控制、并对质量控制后的基因型数据进行基因型填补，最终得到合格家系样本的合格SNP位点数据。

B.多基因风险评分计算模块

用于获得单个样本的多基因风险评分(PRS)，具体通过以下步骤建立：

基于A模块中搜集和整理的数据(标准化GWAS数据和合格个体样本的合格SNP位点数据)，使用LDpred软件进行多基因风险评分(PRS)计算，得到合格个体样本中每个样本的PRS得分。

C、个人风险预测模型搭建模块

用于基于B模块得到的PRS得分，确定最优个人患病风险预测模型。

C1)模型搭建模块：用于搭建多种个人特定疾病患病风险预测模型。具体通过以下步骤建立：

基于B模块得到的单个样本的PRS，结合该样本的特征数据(样本的年龄、性别信息)，使用Python语言的sklearn模块，使用逻辑回归、k近邻、决策树、随机森林、SVM等多种机器学习方法构建个人风险预测模型：逻辑回归预测模型、k近邻预测模型、决策树预测模型、随机森林预测模型、SVM预测模型。

C2)模型训练与测试模块：用于获得最优个人特定疾病患病风险预测模型(最优个人风险预测模型)。具体通过以下步骤建立：

将A2)模块中质控得到的合格个体样本进行拆分，随机选择个体样本80％的样本为训练样本集，选择剩余20％的个体样本为测试样本集。将训练样本集的数据(样本的PRS得分数据和样本的特征数据)确定为训练数据，测试样本集的数据(样本的PRS得分数据和样本的特征数据)确定为测试数据；

D、家庭风险预测模型搭建模块

用于通过家庭风险预测模型得到家庭患病风险评估结果。

D1)家系图谱计算模块：用于确定家系样本的亲缘关系，获得家系样本中的家庭。具体通过以下步骤建立：

根据A2)模块中质控得到的合格家系样本的合格SNP位点数据，使用KING软件build函数计算其相应家系图谱，related函数计算其遗传相似度，统计同源相同片段(IBD)数量，使用king_segments_plot函数得到同源相同片段(IBD)图，最终确定家系样本的亲缘关系。

D2)个人患病风险预测模块：用于得到家系样本中每个样本个人患病风险预测值。具体通过以下步骤建立：

基于C模块中得到的最优个人患病风险预测模型，对家系中的样本进行个人风险预测，得到家系样本中每个样本个人患病风险预测值。

D3)家庭患病风险预测模块：用于预测家系组中家庭的患病风险。

基于D2)模块中得到的家系中每个样本的个人患病风险预测值，构建家系中家庭风险评估判定标准，给出该家系中的家庭风险评估结果；具体步骤为：统计家系中的家庭平均患病可能性，确定家庭患病风险的判定阈值，根据判定阈值预测家系中家庭的患病风险。

E、特定疾病的有利与有害因素评估模块：用于确定家庭相关的特定疾病危险因素与有益因素。

E1)特定疾病相关暴露因素数据获取模块：用于获得暴露因素相关的GWAS研究数据和结局变量(特定疾病)相关的GWAS研究数据。具体通过以下步骤建立：

下载微量营养素(暴露因素)相关的GWAS研究结果(数据文件)，冠心病(结局变量)相关的GWAS研究结果(数据文件)。

E2)工具变量筛选确定模块：用于确定候选工具变量。具体通过以下步骤建立：

筛选微量营养素GWAS研究结果中与所述微量元素显著相关的遗传易感位点作为候选工具变量，调整回文序列，去除连锁不平衡位点。

E3)暴露因素与结局变量的因果关系评估模块：用于评估暴露因素与结局变量的因果关系。具体通过以下步骤建立：

基于微量营养素的GWAS研究结果和冠心病的GWAS研究结果，通过双样本孟德尔随机化策略，使用逆方差加权法与MR-Egger法评估微量营养素与冠心病之间的因果关系。

E4)特定疾病的有利与有害因素评估模块：用于评估出家庭相关的特定疾病危险因素与有益因素。具体通过以下步骤建立：

基于E3)模块得到的结果，评估出冠心病相关的危险因素与有益因素，得到显著性因果关系的非遗传因素，可以用于后续冠心病的预防与干预。

综上所述，本发明提供了一种家庭特定疾病患病风险评估及其风险因素鉴定系统和装置。具体而言是以家系数据为基础，采用多基因风险评分算法计算个人风险评分，再通过机器学习算法构建预测模型，通过计算家系平均患病可能性给出家系的相应风险评估，再通过孟德尔随机化方法，提供有显著因果关联的有利因素与有害因素，帮助家庭更好的规避特定疾病风险，保持健康。进一步为特定疾病的预防、治疗与预后提供了证据支持与相关方法。本发明以冠心病为例进行了家庭冠心病患病风险评估及其风险因素鉴定，得到家庭冠心病患病风险评估结果和微量营养素锌元素为家庭相关冠心病的危险因素，可以进一步为家庭冠心病的预防、治疗与预后提供了证据支持与相关方法。

以上对本发明进行了详述。对于本领域技术人员来说，在不脱离本发明的宗旨和范围，以及无需进行不必要的实验情况下，可在等同参数、浓度和条件下，在较宽范围内实施本发明。虽然本发明给出了特殊的实施例，应该理解为，可以对本发明作进一步的改进。总之，按本发明的原理，本申请欲包括任何变更、用途或对本发明的改进，包括脱离了本申请中已公开范围，而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围，可以进行一些基本特征的应用。

Claims

1.一种家庭特定疾病患病风险预测及患病风险因素鉴定装置，其特征在于：所述装置包括如下模块：

A、数据搜集与整理模块：用于获得所述特定疾病相关的个体样本的全基因组基因型数据，所述特定疾病的GWAS数据和家系样本的全基因组基因型数据；

B、多基因风险评分计算模块：用于获得所述个体样本中每个样本的多基因风险评分；

C、个人风险预测模型搭建模块：用于基于B模块所述的多基因风险评分，确定最优个人特定疾病患病风险预测模型；

所述C模块包括如下模块：

C2)模型训练与测试模块：用于获得最优个人特定疾病患病风险预测模型；

D、家庭风险预测模型搭建模块：用于通过家庭风险预测模型得到家庭患病风险预测结果；

所述D模块包括如下模块：

D3)家庭患病风险预测模块：用于预测所述家庭的患病风险；

E、特定疾病的有利与有害因素评估模块：用于确定所述家庭相关的特定疾病危险因素与有益因素；

所述E模块包括如下模块：

E2)工具变量筛选确定模块：用于确定候选工具变量；

2.根据权利要求1所述的装置，其特征在于：A模块所述的全基因组基因型数据为经过质量控制和基因型填充得到的合格样本的合格SNP位点数据。

3.根据权利要求1或2所述的装置，其特征在于：C1)所述模型搭建模块通过包括如下步骤的方法建立：基于B模块得到的所述每个样本的多基因风险评分，结合该样本的特征数据，使用多种机器学习的方法搭建所述个人特定疾病的患病风险预测模型；所述特征数据包括所述样本的年龄和性别信息；

和/或，C2)所述模型训练与测试模块通过包括如下步骤的方法建立：

将A模块中的所述个体样本进行拆分，随机选择所述个体样本的80％的样本为训练样本集，选择剩余20％的所述个体样本为测试样本集；将所述训练样本集的数据确定为训练数据，所述测试样本集的数据确定为测试数据；

使用所述训练数据对C1中得到的所述个人特定疾病的患病风险预测模型进行训练，得到所述患病风险预测模型的回归系数；

使用所述测试数据，对所述患病风险预测模型进行测试，绘制ROC曲线，计算ROC曲线下面积值；选择所述ROC曲线下面积值最大的所述患病风险预测模型为最优个人特定疾病患病风险预测模型。

4.根据权利要求3所述的装置，其特征在于：所述多种机器学习方法为逻辑回归、k近邻、决策树、随机森林和/或SVM；所述个人特定疾病患病风险预测模型为逻辑回归预测模型、k近邻预测模型、决策树预测模型、随机森林预测模型和/或SVM预测模型。

5.根据权利要求1-4中任一权利要求所述的装置，其特征在于：D2)中所述家系样本的个人患病风险预测模块通过包括如下步骤的方法建立：

基于C模块中得到的最优个人特定疾病患病风险预测模型，对所述家系样本中的样本进行个人特定疾病患病风险预测，得到所述家系样本中每个样本的个人特定疾病患病风险预测值；

和/或，D3所述家系样本的个人患病风险预测模块通过包括以下步骤的方法建立：

6.根据权利要求1-5中任一权利要求所述的装置，其特征在于：所述特定疾病为冠心病；所述最优个人特定疾病患病风险预测模型为SVM预测模型。

7.根据权利要求1-6中任一权利要求所述的装置，其特征在于：所述暴露因素为微量营养素。

8.根据权利要求6或7所述的装置，其特征在于：所述暴露因素与结局变量的因果关系为锌元素含量的减少与冠心病之间存在显著的因果关联；所述家庭冠心病患病风险因素为锌元素。

9.一种家庭特定疾病患病风险预测装置，所述装置包括权利要求1-7中任一权利要求所述的装置中的A、B、C和D模块。

10.存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机建立如权利要求1-7中任一权利要求所述装置的模块的步骤或权利要求9所述装置的模块的步骤。