CN116386882A

CN116386882A - 融合不同人群遗传信息的冠心病遗传风险预测方法及系统

Info

Publication number: CN116386882A
Application number: CN202310220334.9A
Authority: CN
Inventors: 王超龙; 邬堂春; 王慧慧; 张晓敏; 郝兴杰
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-07-04

Abstract

本发明公开了一种融合不同人群遗传信息的冠心病遗传风险预测方法及系统，方法包括：从公共数据库中获取第一性状对应的不同人群的GWAS数据；计算不同预设超参数下各GWAS数据中变异后验效应量，利用变异后验效应量对个体基因型数据加权求和，得到相应的候选PRS；以对应表型为结局，对同一预设超参数下不同人群的候选PRS进行线性组合，以确定整合不同人群遗传信息的最佳单性状PRS；线性组合多个性状的PRS，确定每个性状对应PRS的最佳组合权重；将多个性状的PRS权重转化为变异水平的权重；构建冠心病多基因风险评分PRS_CAD+，用于表征冠心病的遗传风险。本发明对冠心病的发病风险预测和遗传风险分层具有重要意义。

Description

融合不同人群遗传信息的冠心病遗传风险预测方法及系统

技术领域

本发明属于冠心病遗传风险预测领域，更具体地，涉及一种融合不同人群遗传信息的冠心病遗传风险预测方法及系统。

背景技术

冠心病(Coronary Artery Disease，CAD)具有较高的遗传率，且受环境因素的影响。多基因遗传风险评分(Polygenic risk score，PRS)能够整合来自全基因组的遗传信息，以实现复杂性状的遗传预测。大样本全基因组关联研究(Genome-wide AssociationStudy，GWAS)在欧洲率先发展，研究人员已经针对欧洲人群开发了诸多冠心病PRS，并在欧洲人群进行了验证。受不同人群遗传异质性和地理环境因素的影响，在欧洲人群开发的冠心病PRS在非欧洲人群的应用中性能明显降低。

现有研究中，提出对日本生物银行数据库与欧洲两大生物银行数据库参与者的遗传信息进行荟萃分析，开发东亚人群的冠心病PRS，虽然整合了不同人群的遗传多样性，但是，直接对遗传信息进行荟萃分析忽略了人群特定的等位基因频率和连锁不平衡模式，导致其预测效果一般。对于在中国人群开发的冠心病PRS，虽然显著提升了PRS在中国人群中的预测性能，但是由于只包含已被发现的风险位点而忽略了目前尚未发现的位点的遗传效应，真实的预测效果需要进一步提升。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种融合不同人群遗传信息的冠心病遗传风险预测方法及系统，其目的在于提供一种具有多人群遗传多样性、变异效应量高度精确性、遗传信息全面性、冠心病风险预测性能优良的冠心病遗传风险预测方法。

为实现上述目的，按照本发明的一个方面，提供了一种融合不同人群遗传信息的遗传风险预测方法，包括参数确定阶段和预测阶段，参数确定阶段包括S1-S3，预测阶段包括S4；S1，从公共数据库中获取第一性状对应的不同人群的GWAS数据，不同人群包括东亚人群和欧洲人群；S2，计算不同预设超参数下各GWAS数据中变异后验效应量，利用所述变异后验效应量对个体基因型数据加权求和，得到相应的候选PRS；S3，以R²或Nagelkerke’spseudo-R²最大为目标，对同一预设超参数下不同人群的候选PRS进行线性组合，以确定整合不同人群遗传信息的最佳PRS；S4，以所述最佳PRS中各变异的后验效应量为权重，与待预测性状中各变异的风险等位基因数加权求和，所得结果用于表征所述待预测性状的遗传风险预测结果。

更进一步地，所述S3包括：基于同一预设超参数下不同人群的候选PRS，以样本数据库中第一性状为结果，进行线性回归分析或logistic回归分析；将R²或Nagelkerke’spseudo-R²最大时，线性回归分析或logistic回归分析所得到的结果作为所述第一性状的最佳PRS。

更进一步地，所述最佳PRS中各变异的后验效应量为：

其中，

为性状t的最佳PRS中变异j的后验效应量，/>

分别为东亚人群、欧洲人群的性状t的候选PRS中变异j的后验效应量，/>

分别为东亚人群、欧洲人群的性状t对应的PRS中的变异后验效应量的最佳组合标准化权重，所述第一性状为性状t。

更进一步地，变异不包含满足变异排除条件的变异，所述变异排除条件包括：基因型缺失率大于0.05的变异；变异被多个探针锁定时，检出率低于检出率阈值的变异；在重复测量的样本中，基因型一致率小于0.95的变异；次等位基因计数小于3的变异；哈迪-温伯格平衡检验小于10^-6的变异；以实验年份为表型的GWAS分析中P值小于5×10^-8的变异；次等位基因频率小于0.001的变异；填充小于0.3的变异；排除以上条件后的变异同时满足存在于人群匹配的连锁不平衡参考面板中的变异，即来自HapMap3所包含的常见遗传变异。

按照本发明的另一个方面，提供了一种融合不同人群遗传信息的冠心病遗传风险预测方法，包括：S1′，筛选与冠心病相关且包含冠心病在内的多个性状，对于每一性状，执行如上所述融合不同人群遗传信息的遗传风险预测方法中的参数确定阶段，得到各性状下的最佳PRS；S2′，以一致性指数最大为目标，对各性状的最佳PRS进行线性组合，以确定各变异的后验效应量；S3′，预测阶段，以各变异的后验效应量为权重，与待预测数据中各变异的风险等位基因数加权求和，所得结果用于表征所述待预测数据的冠心病遗传风险预测结果。

更进一步地，所述S2′包括：以样本数据库中相应对象是否新发冠心病和随访时间为响应变量，采用基于LASSO的COX回归模型，将各性状的最佳PRS以及协变量进行线性组合，所述协变量包括年龄和性别；采用十折交叉验证进行训练，将一致性指数最大时线性组合得到的结果作为冠心病最终PRS；对一致性指数最大时线性组合中各性状的PRS权重进行转化，得到各变异的后验效应量。变异j的后验效应量为：

其中，β_j为变异j的后验效应量，w_t为性状t对应PRS的最佳组合标准化权重，

为性状t的最佳PRS中变异j的后验效应量，T为筛选的多个性状的个数。

更进一步地，所述S3′之前还包括：构建冠心病临床风险预测模型；所述S3′还包括：将所述待预测数据中各临床风险因素输入所述冠心病临床风险预测模型，得到所述待预测数据的冠心病临床风险预测结果；根据所述冠心病遗传风险预测结果和所述冠心病临床风险预测结果，确定所述待预测数据的风险等级。

按照本发明的另一个方面，提供了一种融合不同人群遗传信息的遗传风险预测系统，包括：获取模块，用于从公共数据库中获取第一性状对应的不同人群的GWAS数据，不同人群包括东亚人群和欧洲人群；计算模块，用于计算不同预设超参数下各GWAS数据中变异后验效应量，利用所述变异后验效应量对个体基因型数据加权求和，得到相应的候选PRS；第一组合模块，用于以R²或Nagelkerke’s pseudo-R²最大为目标，对同一预设超参数下不同人群的候选PRS进行线性组合，以确定整合不同人群遗传信息的最佳PRS；第一预测模块，用于以所述最佳PRS中各变异的后验效应量为权重，与待预测性状中各变异的风险等位基因数加权求和，所得结果用于表征所述待预测性状的遗传风险预测结果。

按照本发明的另一个方面，提供了一种融合不同人群遗传信息的冠心病遗传风险预测系统，包括：筛选及执行模块，用于筛选与冠心病相关且包含冠心病在内的多个性状，对于每一性状，执行如上所述融合不同人群遗传信息的遗传风险预测方法中的参数确定阶段，得到各性状下的最佳PRS；第二组合模块，用于以一致性指数最大为目标，对各性状的最佳PRS进行线性组合，以确定各变异的后验效应量；第二预测模块，用于在预测阶段，以各变异的后验效应量为权重，与待预测数据中各变异的风险等位基因数加权求和，所得结果用于表征所述待预测数据的冠心病遗传风险预测结果。

按照本发明的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的融合不同人群遗传信息的遗传风险预测方法，或者实现如上所述的融合不同人群遗传信息的冠心病遗传风险预测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)提供了一种融合不同人群遗传信息的遗传风险预测方法，在构建单个性状的PRS时，整合了东亚人群和欧洲人群的遗传信息，利用了不同人群的连锁不平衡多样性，可以提高该性状的PRS的遗传变异效应量估计的精确度；

(2)提供了一种融合不同人群遗传信息的冠心病遗传风险预测方法，利用上述方法构建各单个性状的最佳PRS，提高冠心病及相关性状的PRS的遗传变异效应量估计的精确度，之后，整合冠心病以及多个相关风险因素的PRS，充分利用了多个相关性状之间共享的遗传信息和基因多效性，可以提高冠心病遗传风险评分的预测性能，得到更精准的冠心病多基因遗传风险评分PRS_CAD+；

(3)其冠心病多基因遗传风险评分包含了更多的遗传变异，解释了更大比例的遗传力；采用前瞻性的东风同济队列训练模型相比病例对照研究，更符合现实发病情况，避免了回顾性病例对照研究的回忆偏倚和选择偏倚；最终实现了提高冠心病多基因遗传风险评分的预测性能的目的。

附图说明

图1为本发明实施例提供的融合不同人群遗传信息的遗传风险预测方法的流程图；

图2为本发明实施例提供的融合不同人群遗传信息的冠心病遗传风险预测方法的流程图；

图3为本发明实施例提供的融合不同人群遗传信息的冠心病遗传风险预测方法的实现过程图；

图4为本发明实施例提供的16个性状在不同参数设置下，分别由东亚和欧洲人群的遗传信息得到的PRS，以及两个人群PRS组合后的PRS在东风-同济队列训练集的预测结果示意图；

图5为本发明实施例提供的在前瞻性东风-同济队列训练集中每个性状最佳PRS与新发冠心病的关联示意图；

图6为本发明实施例提供的在前瞻性东风-同济队列训练集和验证集中16个性状的PRS间的相关性图

图7A、图7B分别为本发明实施例提供的冠心病多基因遗传风险评分PRS_CAD+与现有的冠心病PRS在验证集中的风险比、一致性指数的比较结果示意图；

图8为本发明实施例提供的依据PRS_CAD+划分的不同遗传风险等级(<20％，20％-80％，>80％)下随访时间累积的冠心病发病风险示意图；

图9为本发明实施例提供的不同临床风险等级下不同遗传风险人群的冠心病发生的绝对风险和相对风险示意图；

图10A、图10B分别为本发明实施例提供的不同临床风险等级下不同遗传风险人群的冠心病发生的5年发病风险、10年发病风险的示意图；

图11为本发明实施例提供的融合不同人群遗传信息的遗传风险预测系统的框图；

图12为本发明实施例提供的融合不同人群遗传信息的冠心病遗传风险预测系统的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1为本发明实施例提供的融合不同人群遗传信息的遗传风险预测方法的流程图。参阅图1，方法包括操作S1-操作S4，其中，操作S1-操作S3为参数确定阶段，操作S4为预测阶段。

操作S1，从公共数据库中获取第一性状对应的不同人群的GWAS数据，不同人群包括东亚人群和欧洲人群。

第一性状例如为身高、体质指数、空腹血糖、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、甘油三脂、总胆固醇、收缩压、舒张压、脉压差、红细胞计数、血红蛋白含量、红细胞比容、尿酸、二型糖尿病或冠心病等。可以理解的是，第一性状也可以为其它带有遗传性质的性状。

操作S2，计算不同预设超参数下各GWAS数据中变异后验效应量，利用变异后验效应量对样本数据库中个体基因型数据加权求和，得到相应的候选PRS。

操作S3，以R²或Nagelkerke’s pseudo-R²最大为目标，对同一预设超参数下不同人群的候选PRS进行线性组合，以确定整合不同人群遗传信息的最佳PRS。

本实施例中，操作S2采用PRS-CSx方法计算每一预设超参数下东亚人群和欧洲人群的GWAS数据对应的候选PRS，例如为超参数φ设置4个候选值10^-6、10^-4、10^-2、1作为预设超参数，每一性状对应产生4对候选PRS。PRS包含各变异的后验效应量。

PRS-CSx方法估计变异后验效应量时，人群匹配的连锁不平衡参考面板来自PRS-CSx开发者提供的UKBB基因型数据，包括HapMap3所包含的常见遗传变异。PRS-CSx方法通过共享的连续收缩耦合不同人群共享的遗传信息，并通过变异特定的局部收缩保留不同样本的连锁不平衡多样性，从而提高变异效应量的估计精度。

根据本发明的实施例，操作S3包括：基于同一预设超参数下不同人群的候选PRS，以样本数据库中第一性状为响应变量，进行线性回归分析或logistic回归分析；将R²或Nagelkerke’s pseudo-R²最大时，线性回归分析或logistic回归分析所得到的结果作为第一性状的最佳PRS。最佳PRS包含各变异的后验效应量，本实施例中，选取的变异的数量可以达百万量级。

得到第一性状的最佳PRS中各变异的后验效应量为：

其中，

为性状t的最佳PRS中变异j的后验效应量，/>

分别为东亚人群、欧洲人群的性状t的变异后验效应量的最佳组合标准化权重，性状t为第一性状。

根据本发明的实施例，样本数据库中变异不包含满足变异排除条件的变异。变异排除条件包括：基因型缺失率大于0.05的变异；变异被多个探针锁定时，检出率低于检出率阈值的变异；在重复测量的样本中，基因型一致率小于0.95的变异；次等位基因计数小于3的变异；哈迪-温伯格平衡检验小于10^-6的变异；以实验年份为表型的GWAS分析中P值小于5×10^-8的变异；次等位基因频率小于0.001的变异；填充小于0.3的变异；排除以上条件后的变异同时满足存在于人群匹配的连锁不平衡参考面板中的变异，即来自HapMap3所包含的常见遗传变异。

样本数据库中不包含满足样本排除条件的样本。样本排除条件包括：利用芯片设计的重复位点，样本在重复位点的一致率小于0.95的样本；缺失率大于0.10的样本；由常染色体计算的近亲系数小于-0.1或大于0.3的样本；由性染色体计算的近亲系数小于-0.2的样本；重复测量的样本；记录性别与基因型推断性别不一致的样本；基因型相同而医保号不同的样本，或医保号相同而基因型不一致的样本；基因型推断的亲子关系年龄差小于15岁的样本。进一步地，对以上样本排除失访对象、心脑血管疾病现患病例、缺失率高的个体、具有二级以上亲缘关系的个体以及根据基因型数据主成分分析判断为离群值的样本。

操作S4，以最佳PRS中各变异的后验效应量为权重，与待预测性状中各变异的风险等位基因数加权求和，所得结果用于表征待预测性状的遗传风险预测结果：

其中，PRS^t为个体i对应待预测性状t的遗传风险预测结果，

为性状t的最佳PRS中变异j的后验效应量，x_ij为个体i所携带的变异j的风险等位基因数(0、1或2)，m为PRS中包含的变异数目。

待预测性状与第一性状属于相同性状。例如，若待预测性状为冠心病，则操作S4中所得结果用于表征个体患冠心病的遗传风险。若待预测性状为二型糖尿病，则操作S4中所得结果用于表征个体患二型糖尿病的遗传风险。若待预测性状为身高，则操作S4中所得结果用于表征个体身高的遗传风险。

图2为本发明实施例提供的融合不同人群遗传信息的冠心病遗传风险预测方法的流程图。参阅图2，结合图3-图10B，对本实施例中融合不同人群遗传信息的冠心病遗传风险预测方法进行详细说明，整体流程如图3所示。方法包括操作S1′-操作S3′，其中，操作S1′-操作S2′为参数确定阶段，操作S3′为预测阶段。

操作S1′，筛选与冠心病相关且包含冠心病在内的多个性状，对于每一性状，执行融合不同人群遗传信息的遗传风险预测方法的参数确定阶段，得到各性状下的最佳PRS。

具体地，操作S1′包括子操作S11′-子操作S14′。

在子操作S11′中，筛选与冠心病相关且包含冠心病在内的多个性状。

优选地，筛选出的多个性状包括：冠心病、身高、体质指数、空腹血糖、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、甘油三脂、总胆固醇、收缩压、舒张压、脉压差、红细胞计数、血红蛋白含量、红细胞比容、尿酸和二型糖尿病，共计16个性状。

对于每一性状，分别执行子操作S12′-子操作S14′，以得到各性状下的最佳PRS。

在子操作S12′中，从公共数据库中获取性状t对应的不同人群的GWAS数据，不同人群包括东亚人群和欧洲人群，性状t为筛选的任一性状。

在子操作S13′中，计算不同预设超参数下各GWAS数据中变异后验效应量，利用变异后验效应量对个体基因型数据加权求和，得到相应的候选PRS。

本实施例中，采用PRS-CSx方法计算每一预设超参数下东亚人群和欧洲人群的GWAS数据对应的候选PRS，例如为超参数φ设置4个候选值10^-6、10^-4、10^-2、1作为预设超参数，每一性状对应产生4对候选PRS。PRS包含各变异的后验效应量。

在子操作S14′中，以R²或Nagelkerke’s pseudo-R²最大为目标，以样本数据库中对应性状为响应变量，对同一预设超参数下不同人群的候选PRS进行线性组合，以确定整合不同人群遗传信息的对应性状的最佳PRS。

基于以下方式对同一预设超参数下不同人群的候选PRS进行线性组合：

其中，PRS^t为性状t的整合不同人群遗传信息的PRS，

分别为东亚人群、欧洲人群的性状t的候选PRS，/>

分别为东亚人群、欧洲人群的性状t的候选PRS的标准化权重。

对于变异而言，进行的线性组合为：

以R²或Nagelkerke’s pseudo-R²最大为目标，对上述线性组合进行优化，得到最优的

以及相应的φ。16个性状的最佳PRS对应的最优的/>

φ如表1所示。

表1

Height为身高；BMI为体质指数；FG为空腹血糖；HDL-C为高密度脂蛋白胆固醇；LDL-C为低密度脂蛋白胆固醇；TG为甘油三酯；TC为总胆固醇；SBP为收缩压；DBP为舒张压；PP为脉压差；RBC为红细胞计数；Hb为血红蛋白；Ht为血细胞比容；UA为尿酸；T2D为二型糖尿病；CAD为冠心病；EAS为东亚；EUR为欧洲。

性状t的最佳PRS包含m个变异、相应的风险等位基因及对应的后验效应量

每个性状的两个人群的PRS以及组合后的PRS与对应表型的相关性如图4所示。对于每个性状，与表型相关性最高的两人群组合的PRS为最佳单性状PRS，并用于后续构建PRS_CAD+。参阅图4，对于每个性状，与仅由东亚人群或仅由欧洲人群得到的PRS相比，两人群组合后的PRS与表型的关联更大。因此，选择两人群组合后的R²或Nagelkerke’spseudo-R²最大的PRS作为单性状最佳PRS，用于构建冠心病多基因遗传风险评分PRS_CAD+。

操作S2′，以一致性指数最大为目标，对各性状的最佳PRS进行线性组合，以确定各变异的后验效应量。

根据本发明的实施例，操作S2′包括：以样本数据库中相应对象是否新发冠心病和随访时间为响应变量，采用基于LASSO的COX回归模型，将各性状的最佳PRS以及协变量进行线性组合，协变量包括年龄和性别；采用十折交叉验证进行训练，将一致性指数最大时线性组合得到的结果作为冠心病最终PRS；对一致性指数最大时线性组合中各性状的PRS权重进行转化，得到各变异的后验效应量β_j。

基于以下方式对各性状的最佳PRS线性组合时的最佳权重转化为变异水平的权重：

其中，β_j为变异j的后验效应量，w_t为性状t对应的最佳组合标准化权重，

16个性状的PRS在冠心病多基因遗传风险评分PRS_CAD+的最佳权重如表2所示。

表2

性状	w_t	性状	w_t	性状	w_t	性状	w_t
								Height	0	LDL-C	0.07	DBP	0.32	Ht	0
BMI	0	TG	0	PP	0	UA	0
								FG	0	TC	0	RBC	0	T2D	0
HDL-C	0	SBP	0.24	Hb	0	CAD	1.00

操作S3′，预测阶段，以各变异的后验效应量为权重，与待预测数据中各变异的风险等位基因数加权求和，所得结果用于表征待预测数据的冠心病遗传风险预测结果。

根据本发明实施例，得到的冠心病遗传风险预测结果为：

其中，

为个体i待预测数据的冠心病遗传风险预测结果，β_j为变异j对应的后验效应量，x_ij为个体i所携带的变异j的风险等位基因数(0、1或2)。本实施例中，最终产生包含1,079,319个变异的PRS_CAD+。

本实施例中，在验证集人群中，根据所有个体的冠心病遗传风险预测结果PRS_CAD+的20％和80％百分位数，将个体罹患冠心病的遗传风险划分为低、中、高三种遗传风险等级，以低风险人群为参照，通过COX回归确定每个风险等级的风险比。由此，可以基于所得结果确定不同风险等级的个体罹患冠心病的相对遗传风险。

根据本发明实施例，操作S3′之前还包括：构建冠心病临床风险预测模型。此实施例中，操作S3′还包括：将待预测数据中各临床风险因素输入冠心病临床风险预测模型，得到待预测数据的冠心病临床风险预测结果；根据冠心病遗传风险预测结果和冠心病临床风险预测结果，确定待预测数据的风险等级。

具体地，筛选冠心病临床风险因素，优选包括：年龄、性别、吸烟、饮酒、锻炼、睡眠质量、身高、体质指数、空腹血糖、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、甘油三脂、总胆固醇、收缩压、舒张压、脉压差、红细胞计数、血红蛋白含量、红细胞比容、尿酸和二型糖尿病，基于这些因素构建冠心病临床风险预测模型：

其中，CRS_i为个体i的冠心病临床风险预测结果，β_k为第k个冠心病临床风险因素V_k的最佳权重。采用LASSO惩罚的COX回归模型，以一致性指数最大为目标，优化得到最佳权重β_k。各临床风险因素的最佳权重如表3所示。

表3

在验证集中，以队列中所有个体的临床风险评分的20％和80％百分位数为切点，将个体的冠心病临床风险划分为低、中、高三种临床风险等级。进一步地，在每个临床风险等级中，以PRS_CAD+的20％和80％百分位数为切点，划分个体的冠心病发病遗传风险为低、中、高风险人群。以最低临床风险中的最低遗传风险的等级为参照，采用单变量COX回归计算每个风险等级的风险比。将冠心病遗传风险与临床风险整合，构建完善的冠心病风险评价系统，便于临床风险因素结合PRS_CAD+的推广应用。

本实施例中，可以从东亚大型生物数据库和欧洲大型生物数据库中分别搜索上述多个性状(如上述16个性状)的大样本量的GWAS汇总统计数据。具体地，对于东亚人群，冠心病的GWAS数据来自Ishigaki的研究，主要包含日本生物银行(BioBank Japan，BBJ)的212,453例样本；身高、体质指数、空腹血糖、收缩压、舒张压、红细胞计数、血红蛋白含量、红细胞比容、二型糖尿病的GWAS数据来自BBJ和韩国生物银行的荟萃分析数据，样本量均高于20万；高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、甘油三脂、总胆固醇的GWAS数据来自Graham的研究，样本量为146,492；脉压差、尿酸的GWAS数据来自BBJ，样本量分别为136,597、109,029。对于欧洲人群，冠心病的GWAS数据来自英国生物银行(UK Biobank，UKBB)、FinnGen以及CARDIoGRAMplusC4D的荟萃分析结果，样本量达到864,434；身高、体质指数的GWAS数据来自UKBB和GIANT的荟萃分析结果，样本量均大于68万；空腹血糖、红细胞计数、血红蛋白含量、红细胞比容、尿酸的GWAS数据来自UKBB，样本量均高于31万；高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、甘油三脂、总胆固醇的GWAS数据来自Graham的研究，样本量为1,320,016；收缩压、舒张压、脉压差的GWAS数据来自Evangelou的研究，样本量为757,601；二型糖尿病的GWAS数据来自UKBB和FinnGen的荟萃分析结果，样本量为1,113,784。

进一步地，将前瞻性东风-同济队列视为样本数据库。东风-同济队列在2008年纳入了27,009名职工(DFTJ-08)，并进行了问卷调查(包括一般人口学资料、个体健康行为、疾病史等信息)、体格检查(包括身高、体重、血压等信息)、生化指标检测(空腹血糖、血脂指标、肝功能指标、血常规等)和血液采集。随后分别在2013年和2018年对该队列进行了两次随访，并于2013年新纳入了14,120名参与者(DFTJ-13)。

对DFTJ-08和DFTJ-13的样本进行DNA提取工作、基因分型，并对遗传变异和样本进行质控，最终得到31,155个样本的775,059个常染色体变异的基因型数据。使用Eagle2对质控后的数据进行单倍体分型，并以国际千人基因组和SG10K中的东亚人群为参考数据，用Minimac4进行基因型填充。随后剔除次等位基因频率MAF<0.001以及填充的Rsq<0.3的位点。

本实施例中，对东风-同济队列的表型数据的样本和基因型数据的样本进行合并后共获得31,155个样本，其中，包含DFTJ-08的20,142例样本以及DFTJ-13的11,013例样本。进一步地，对以上样本排除失访对象、心脑血管疾病现患病例、缺失率高的个体、具有二级以上亲缘关系的个体以及根据基因型数据主成分分析判断为离群值的样本后，DFTJ-08的样本剩余13,135例，DFTJ-13的样本剩余7748例。对质控后的样本的表型数据校正年龄、性别和医院后，对缺失值进行填补后用于后续分析。划分DFTJ-08样本的2/3为训练集，用于训练单性状PRS以及冠心病多基因遗传风险评分PRS_CAD+。DFTJ-08剩余的1/3样本与DFTJ-13的样本合并为验证集，用于测试冠心病多基因遗传风险评分的预测性能。训练集包括8756例样本，其中2299例为新发冠心病；验证集一共12,127例样本，其中2360例为新发冠心病病例。

新发冠心病诊断：冠心病的诊断严格遵循美国心脏协会的标准。在随访中首次出现心绞痛、心肌梗死、其他形式的急性或慢性心脏病、进行冠脉搭桥术或经皮冠状动脉腔内成形术等冠状动脉血管重建术的病例定义为新发冠心病。同时，工作组还搜集了死亡信息，根据国际疾病分类码(ICD)判断是否为冠心病死亡事件，包括ICD-9 410-414和ICD-10I20-I25。随访时间定义为进入队列的时间到首次出现冠心病事件或死亡时间或研究截止时间。

表型信息定义：身高、体质指数、空腹血糖、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、甘油三酯、总胆固醇、收缩压、舒张压、红细胞计数、血红蛋白、血细胞比容、尿酸等临床可测量的信息，由专业的医疗团队采用标准测量手段获得；脉压差由收缩压和舒张压的差值获得。二型糖尿病的定义为：参与者的自我报告、或者空腹血糖≥7.0mmol/L、或者使用降糖类药物。吸烟定义为个体当前或曾经吸烟。饮酒定义为当前饮酒或曾经饮酒。锻炼定义为在过去的6个月定期进行超过20分钟的体育活动(包括跑步、骑自行车、打球等)。睡眠质量差定义为具有睡眠不足、失眠、入睡困难、早起和卧床不起等症状的个体。

在验证集进行如下统计分析：对于每个性状的PRS与新发冠心病的关联，采用COX回归分析计算风险比(HR)及其95％置信区间(CI)，并校正年龄、性别和PRS_CAD。对于不同性状PRS间的相关性计算采用皮尔逊相关性分析。在模型比较阶段，采用COX回归模型估计不同冠心病PRS对于新发冠心病事件的HR及最大一致性指数。使用有放回的自助抽样计算不同模型比较的P值。PRS_CAD+按照<20％,20％-80％,>80％分位数分为低、中、高风险人群，以随访时间为尺度查看不同遗传风险等级的累积冠心病发病风险。采用经年龄和性别调整的COX回归模型估计不同遗传风险等级的冠心病事件的HR及95％置信区间。log-rank检验用于不同累积风险曲线的假设检验。临床风险结合PRS_CAD+风险划分阶段，以临床风险评分的20％和80％百分位数为切点，划分个体的冠心病临床风险为低、中、高风险人群。进一步地，在每个临床风险等级中，以PRS_CAD+的20％和80％百分位数为切点，划分个体的冠心病发病遗传风险为低、中、高风险人群。以最低临床风险中的最低遗传风险的等级为参照，采用单变量COX回归计算每个风险等级的风险比。如果没有特殊说明，显著性阈值设为0.05。

本发明实施例在验证集中分析了每个冠心病相关性状的PRS与新发冠心病的关联。结果如图5所示，校正年龄、性别和冠心病单性状PRS后，收缩压SBP和舒张压DBP的PRS与冠心病独立相关。

16个性状的PRS间存在不同程度的相关性，如图6所示，其中，*表示P<0.05/一半的格子数。进一步利用LASSO惩罚的COX回归模型获得结合多性状遗传效应的冠心病遗传风险评分(PRS_CAD+)。该模型可以校正各个PRS间的相关性，一致性指数(C-index)最大的模型视为最佳线性组合模型。最后，通过整合16个性状的PRS构建PRS_CAD+并在验证集进行比较评估。

本发明的冠心病多基因遗传风险评分(PRS_CAD+)与其他已报道的冠心病PRS相比，对新发冠心病具有较高的预测价值。参阅图7A和图7B，PRS_CAD+每增加一个标准差，冠心病的HR为1.21(95％CI:1.17-1.26)，显著高于其他已发表的冠心病PRS(其他已发表PRS的信息见表4)以及单性状的冠心病PRS(PRS_CAD)(P<0.05)。PRS_CAD+对应的C-index为0.562，显著高于其他冠心病PRS(P<0.05)。同时采用PRS-CSx方法计算得到的PRS_CAD优于荟萃分析得到的PRS_Koyama2020。

表4

将PRS_CAD+按照20％、80％分位数划分风险组，与遗传风险低的个体(<20％)相比，遗传风险高的个体(>80％)发生冠心病事件的风险要高1.81倍(HR＝1.81,95％CI:1.59-2.06)，如图8所示。高风险组的累积风险曲线显著高于其他风险组(P<0.05)。

在验证集中，临床风险结合PRS_CAD+风险划分阶段，所有验证集均显示出明显的发病风险等级。如图9所示，与最低临床风险中的最低遗传风险人群为参照，高临床风险等级中的高遗传风险人群发生冠心病事件的风险要高9.06倍(HR＝9.06,95％CI:6.20-13.24)；在中等临床风险等级中的高遗传风险人群的冠心病的发病率为23.40％，相对于低临床风险等级中低遗传风险等级的个体患冠心病的风险为4.91倍(HR＝4.91,95％CI:3.40-7.09)。如图10A和图10B所示，在5年风险和10年风险预测的数据集中，对于高临床风险的个体，冠心病的绝对风险分别从低遗传风险的19.64％和32.26％增长到高遗传风险个体的33.58％和43.52％。

本发明实施例中融合不同人群遗传信息的冠心病遗传风险预测方法对新发冠心病的预测优于当前已发表的冠心病多基因遗传风险预测方法。研究发现，高临床风险中的遗传风险高的个体(CRS>80％且PRS_CAD+>80％)发生冠心病的风险比低临床风险中遗传风险低的个体(CRS<20％且PRS_CAD+<20％)高约9倍(HR＝9.06,95％CI:6.20-13.24)。本发明实施例证实：整合东亚和欧洲遗传信息的冠心病单性状PRS可以提升PRS的预测性能，进一步整合冠心病及相关风险因素的PRS构建的PRS_CAD+优于单性状PRS的预测性能。本发明实施例可以实现冠心病遗传风险的精细化分层，也可为其他慢性病遗传风险预测提供参考。

图11为本发明实施例提供的融合不同人群遗传信息的遗传风险预测系统的框图。参阅图11，该融合不同人群遗传信息的遗传风险预测系统110包括获取模块111、计算模块112、第一组合模块113以及第一预测模块114。

获取模块111例如执行操作S1，用于从公共数据库中获取第一性状对应的不同人群的GWAS数据，不同人群包括东亚人群和欧洲人群。

计算模块112例如执行操作S2，用于计算不同预设超参数下各GWAS数据中变异后验效应量，利用变异后验效应量对个体基因型数据加权求和，得到相应的候选PRS。

第一组合模块113例如执行操作S3，用于以R²或Nagelkerke’spseudo-R²最大为目标，对同一预设超参数下不同人群的候选PRS进行线性组合，以确定整合不同人群遗传信息的最佳PRS。

第一预测模块114例如执行操作S4，用于以最佳PRS中各变异的后验效应量为权重，与待预测性状中各变异的风险等位基因数加权求和，所得结果用于表征待预测性状的遗传风险预测结果。

融合不同人群遗传信息的遗传风险预测系统110用于执行上述实施例中的融合不同人群遗传信息的遗传风险预测方法。

图12为本发明实施例提供的融合不同人群遗传信息的冠心病遗传风险预测系统的框图。参阅图12，该融合不同人群遗传信息的冠心病遗传风险预测系统120包括筛选及执行模块121、第二组合模块122以及第二预测模块123。

筛选及执行模块121例如执行操作S1′，用于筛选与冠心病相关且包含冠心病在内的多个性状，对于每一性状，执行如上融合不同人群遗传信息的遗传风险预测方法中的参数确定阶段，得到各性状下的最佳PRS。

第二组合模块122例如执行操作S2′，用于以一致性指数最大为目标，对各性状的最佳PRS进行线性组合，以确定各变异的后验效应量。

第二预测模块123例如执行操作S3′，用于在预测阶段，以各变异的后验效应量为权重，与待预测数据中各变异的风险等位基因数加权求和，所得结果用于表征待预测数据的冠心病遗传风险预测结果。

融合不同人群遗传信息的冠心病遗传风险预测系统120用于执行上述实施例中的融合不同人群遗传信息的冠心病遗传风险预测方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述实施例中融合不同人群遗传信息的遗传风险预测方法，或者实现如前述实施例中融合不同人群遗传信息的冠心病遗传风险预测方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合不同人群遗传信息的遗传风险预测方法，其特征在于，包括参数确定阶段和预测阶段，参数确定阶段包括S1-S3，预测阶段包括S4；

S1，从公共数据库中获取第一性状对应的不同人群的GWAS数据，不同人群包括东亚人群和欧洲人群；

S2，计算不同预设超参数下各GWAS数据中变异后验效应量，利用所述变异后验效应量对个体基因型数据加权求和，得到相应的候选PRS；

S3，以R²或Nagelkerke’s pseudo-R²最大为目标，对同一预设超参数下不同人群的候选PRS进行线性组合，以确定整合不同人群遗传信息的最佳PRS；

S4，以所述最佳PRS中各变异的后验效应量为权重，与待预测性状中各变异的风险等位基因数加权求和，所得结果用于表征所述待预测性状的遗传风险预测结果。

2.如权利要求1所述的方法，其特征在于，所述S3包括：

基于同一预设超参数下不同人群的候选PRS，以样本数据库中第一性状为结果，进行线性回归分析或logistic回归分析；

将R²或Nagelkerke’s pseudo-R²最大时，线性回归分析或logistic回归分析所得到的结果作为所述第一性状的最佳PRS。

3.如权利要求1或2所述的方法，其特征在于，所述最佳PRS中各变异的后验效应量为：

其中，

为性状t的最佳PRS中变异j的后验效应量，/>

分别为东亚人群、欧洲人群的性状t的变异后验效应量的最佳组合标准化权重，所述第一性状为性状t。

4.如权利要求1所述的方法，其特征在于，变异不包含满足变异排除条件的变异，所述变异排除条件包括：基因型缺失率大于0.05的变异；变异被多个探针锁定时，检出率低于检出率阈值的变异；在重复测量的样本中，基因型一致率小于0.95的变异；次等位基因计数小于3的变异；哈迪-温伯格平衡检验小于10^-6的变异；以实验年份为表型的GWAS分析中P值小于5×10^-8的变异；次等位基因频率小于0.001的变异；填充的Rsq小于0.3的变异；排除以上条件后的变异同时满足存在于人群匹配的连锁不平衡参考面板中的变异，即来自HapMap3所包含的常见遗传变异。

5.一种融合不同人群遗传信息的冠心病遗传风险预测方法，其特征在于，包括：

S1′，筛选与冠心病相关且包含冠心病在内的多个性状，对于每一性状，执行如权利要求1-4任一项所述方法中的参数确定阶段，得到各性状下的最佳PRS；

S2′，以一致性指数最大为目标，对各性状的最佳PRS进行线性组合，以确定各变异的后验效应量；

S3′，预测阶段，以各变异的后验效应量为权重，与待预测数据中各变异的风险等位基因数加权求和，所得结果用于表征所述待预测数据的冠心病遗传风险预测结果。

6.如权利要求5所述的方法，其特征在于，所述S2′包括：

以样本数据库中相应对象是否新发冠心病和随访时间为响应变量，采用基于LASSO的COX回归模型，将各性状的最佳PRS以及协变量进行线性组合，所述协变量包括年龄和性别；

采用十折交叉验证进行训练，将一致性指数最大时线性组合得到的结果作为冠心病最终PRS；

对一致性指数最大时线性组合中各性状的PRS权重进行转化，得到各变异的后验效应量；

变异j的后验效应量为：

其中，β_j为变异j的后验效应量，w_t为性状t对应的最佳PRS在最佳组合中的标准化权重，

7.如权利要求5所述的方法，其特征在于，所述S3′之前还包括：构建冠心病临床风险预测模型；

所述S3′还包括：将所述待预测数据中各临床风险因素输入所述冠心病临床风险预测模型，得到所述待预测数据的冠心病临床风险预测结果；根据所述冠心病遗传风险预测结果和所述冠心病临床风险预测结果，确定所述待预测数据的风险等级。

8.一种融合不同人群遗传信息的遗传风险预测系统，其特征在于，包括：

获取模块，用于从公共数据库中获取第一性状对应的不同人群的GWAS数据，不同人群包括东亚人群和欧洲人群；

计算模块，用于计算不同预设超参数下各GWAS数据中变异后验效应量，利用所述变异后验效应量对个体基因型数据加权求和，得到相应的候选PRS；

第一组合模块，用于以R²或Nagelkerke’s pseudo-R²最大为目标，对同一预设超参数下不同人群的候选PRS进行线性组合，以确定整合不同人群遗传信息的最佳PRS；

第一预测模块，用于以所述最佳PRS中各变异的后验效应量为权重，与待预测性状中各变异的风险等位基因数加权求和，所得结果用于表征所述待预测性状的遗传风险预测结果。

9.一种融合不同人群遗传信息的冠心病遗传风险预测系统，其特征在于，包括：

筛选及执行模块，用于筛选与冠心病相关且包含冠心病在内的多个性状，对于每一性状，执行如权利要求1-4任一项所述方法中的参数确定阶段，得到各性状下的最佳PRS；

第二组合模块，用于以一致性指数最大为目标，对各性状的最佳PRS进行线性组合，以确定各变异的后验效应量；

第二预测模块，用于在预测阶段，以各变异的后验效应量为权重，与待预测数据中各变异的风险等位基因数加权求和，所得结果用于表征所述待预测数据的冠心病遗传风险预测结果。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4任一项所述的融合不同人群遗传信息的遗传风险预测方法，或者实现如权利要求5-7任一项所述的融合不同人群遗传信息的冠心病遗传风险预测方法。