CN117877573A

CN117877573A - 一种利用伊辛模型的多基因遗传风险评估模型的构建方法

Info

Publication number: CN117877573A
Application number: CN202311654913.0A
Authority: CN
Inventors: 徐宸原; 王曰海; 戴庭舸
Original assignee: Shaoxing Research Institute Of Zhejiang University
Current assignee: Shaoxing Research Institute Of Zhejiang University
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-04-12

Abstract

本发明公开了一种利用伊辛模型的多基因遗传风险评估模型的构建方法，包括读取原始样本的SNP数据，计算各单核苷酸多态性之间的相关系数；获取目标疾病的全基因组关联分析公开数据，设定P值的阈值，作为后续筛选SNP的基准：根据原始样本中各SNP的相关系数，构造伊辛模型，并加入正则项；利用伊辛机求解伊辛模型的解，获取用于预测目标疾病的SNP；基于筛选后的SNP，利用机器学习算法预测目标疾病。本发明公开的一种利用伊辛模型的多基因遗传风险评估模型的构建方法，将传统方法中筛选SNP的过程转化为对伊辛模型的求解，利用伊辛机高效准确地筛选用于算法建模PRS的SNP，提高了对目标疾病的预测效率和准确度。

Description

一种利用伊辛模型的多基因遗传风险评估模型的构建方法

技术领域

本发明属于遗传风险评估模型构建技术领域，具体涉及一种利用伊辛模型的多基因遗传风险评估模型的构建方法。

背景技术

疾病由许多复杂原因共同作用下所导致，其成因可以大致分为遗传因素和环境因素两部分。为了从个体的基因数据中预测目标疾病的遗传风险，诸多研究机构利用其大规模的患者样本实施个体样本的单核苷酸多态性(SNP)与表型性状之间的关联性分析，并将全基因组关联分析(Genome wide association study，GWAS)结果对外公开。对于只拥有小规模样本数据的机构，可基于大型研究机构发布的GWAS数据对预测目标构建多基因遗传风险评分(Polygenic risk score，PRS)模型，并在小规模样本数据上验证构建的PRS模型。

然而利用GWAS公开数据中各SNP的效应值加权，依然很难做到对表型性状的有效预测。其中一个困难点在于，绝大部分的SNP对表型性状的贡献非常小，但它们累积起来却往往有相对显著的临床效应，因此在实际构建PRS的过程中，是选取最有意义的少数SNP，还是选取大范围的低显著性的SNP，需要针对实际情况调整。另一个困难点在于，距离相对较近的SNP之间往往具有极强的相关性(连锁不平衡效果，linkage disequilibrium,LD)，将强相关的SNP同时选取加入到PRS建模中，将对预测模型的构建造成阻碍，导致预测精度下降，因此传统PRS构建方法在建模前筛除强相关的SNP。

因此，针对上述问题，予以进一步改进。

发明内容

本发明的主要目的在于提供一种利用伊辛模型的多基因遗传风险评估模型的构建方法，其基于样本数据中各SNP的相关系数矩阵构建伊辛模型，用0或1来代表该SNP的筛选结果，利用伊辛机高效精准地求解伊辛模型，基于伊辛模型筛选后的SNP用机器学习算法对目标表型性状建模，提升了PRS的预测效率和准确度。

为达到以上目的，本发明提供一种利用伊辛模型的多基因遗传风险评估模型的构建方法，包括以下步骤：

步骤S1：读取样本的基因组数据，同时读取外部参照数据，从而对样本的基因组数据进行SNP位点质控；

步骤S2：获取目标表型性状的GWAS统计数据；

步骤S3：基于获取的SNP位点数据，计算各SNP位点之间的相关系数；

步骤S4：基于步骤S2获取的GWAS统计数据中的各SNP的P值，设定用于筛选SNP的P值的阈值；

步骤S5：根据质控和筛选后的SNP之间的相关系数，生成伊辛模型；

步骤S6：在步骤S5生成的伊辛模型中加入正则项；

步骤S7：对步骤S6中加入正则项后的伊辛模型，利用伊辛机求解；

步骤S8：根据步骤S7中所得的伊辛模型的解，确定PRS建模所使用的SNP位点；

步骤S9：基于所选取的SNP位点，利用机器学习建模PRS以预测目标表型性状。

作为上述技术方案的进一步优选的技术方案，对于步骤S1：

读取的样本基因数据，(可以)为全基因组测序(Whole Genome Sequencing，WGS)或全外显子组测序(Whole Exome Sequencing，WES)结果，或者(可以)是基于Affy500k或Illumina330(等)SNP芯片所测得的结果(等)；

在进行SNP位点质控时，(可以)选择去除频率<预设值的SNP，以及去除未通过遗传平衡检验(Hardy-Weinberg Equilibrium，HWE)的SNP；在进行SNP质控时，参照数据为外部的千人基因组公开数据或者基于样本基因数据(等)。

作为上述技术方案的进一步优选的技术方案，基于SNP间的相关系数构造伊辛模型，以用于筛选SNP。

作为上述技术方案的进一步优选的技术方案，通过构造伊辛模型筛选SNP，以用于预测表型性状。

作为上述技术方案的进一步优选的技术方案，步骤S6中，在构造的伊辛模型中加入L1或L2正则项。

作为上述技术方案的进一步优选的技术方案，利用伊辛机处理组合优化问题的特性求解伊辛模型，筛选最适合用于预测表型形状的SNP。

作为上述技术方案的进一步优选的技术方案，基于SNP间的相关系数构造伊辛模型，使用包括基于光芯片、FPGA、超导量子、离子阱、CPU和GPU形式在内的伊辛机求解。

作为上述技术方案的进一步优选的技术方案，基于伊辛模型筛选适合用于预测的SNP后，用包括Lasso、Ridge回归、Elastic-Net、贝叶斯神经网络和隐形马尔可夫模型在内的机器学习算法预测表型性状；

基于伊辛模型得出多组解后，基于训练样本集或多个交叉校验子集的预测精度，确定最优的解作为输出模型。

作为上述技术方案的进一步优选的技术方案，GWAS统计结果中包括各个SNP的染色体号、在染色体中的位置、P值、beta值或OR值、SE(标准偏差)等信息。

为达到以上目的，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述利用伊辛模型的多基因遗传风险评估模型的构建方法的步骤。

为达到以上目的，本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述利用伊辛模型的多基因遗传风险评估模型的构建方法的步骤。

本发明的有益效果为：

本发明通过将筛选SNP的过程转化为伊辛模型求解，利用伊辛机对组合优化问题的高速求解能力，比传统方法更高效率且更准确地选取对PRS建模最合适的SNP，提高了PRS建模的效率和准确度。

附图说明

图1是本发明的一种利用伊辛模型的多基因遗传风险评估模型的构建方法的流程图。

图2是本发明的一种利用伊辛模型的多基因遗传风险评估模型的构建方法的针对肥胖症的GWAS统计数据的P值取-log10(P)后的曼哈顿图示例图。

图3是本发明的一种利用伊辛模型的多基因遗传风险评估模型的构建方法的19号染色体上的各SNP间的连锁不平衡效果图示。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

在本发明的优选实施例中，本领域技术人员应注意，本发明所涉及的基因组数据等可被视为现有技术。

优选实施例。

本发明公开了一种利用伊辛模型的多基因遗传风险评估模型的构建方法，包括以下步骤：

步骤S2：获取目标表型性状的GWAS统计数据；

步骤S6：在步骤S5生成的伊辛模型中加入正则项；

具体的是，对于步骤S1：

在进行SNP位点质控时，(可以)选择去除频率<预设值(根据需求进行设定，例如1％)的SNP，以及去除未通过遗传平衡检验(Hardy-Weinberg Equilibrium，HWE)的SNP；在进行SNP质控时，参照数据为外部的千人基因组公开数据或者基于样本基因数据(等)。

更具体的是，基于SNP间的相关系数构造伊辛模型，以用于筛选SNP。

进一步的是，通过构造伊辛模型筛选SNP，以用于预测表型性状。

更进一步的是，步骤S6中，在构造的伊辛模型中加入L1或L2正则项。

优选地，利用伊辛机处理组合优化问题的特性求解伊辛模型，筛选最适合用于预测表型形状的SNP。

优选地，基于SNP间的相关系数构造伊辛模型，使用包括基于光芯片、FPGA、超导量子、离子阱、CPU和GPU形式在内的伊辛机求解。

优选地，基于伊辛模型筛选适合用于预测的SNP后，用包括Lasso、Ridge回归、Elastic-Net、贝叶斯神经网络和隐形马尔可夫模型在内的机器学习算法预测表型性状；

作为补充举例，对于步骤S1：

获取样本的SNP数据并划分为训练集与检验集，实际应用中也可以将样本划分为多个子集进行交叉校验。本实施例中使用软件工具GWAsimulator2与公开数据集HAPMAP3模拟仿真了4万条位于3号染色体的SNP，生成了2千人的训练集与1千人的验证集，同时生成了5千人的数据集用于GWAS统计分析；随机选取若干条(例如400条、40条、4条)SNP作为致病位点，从～N(0,1)的高斯分布中随机生成致病SNP位点的真实效应值β_i，并按以下公式计算得出个人的表型性状：

y_j＝e_j+∑_iβ_ix_i,j；

以上公式中，x_i,j对应第j位个人样本中第i条SNP的数据，∑_iβ_ix_i,j代表目标表型性状中的遗传因素，残余项e_j代表环境因素；

个人的环境因素的高斯分布中随机生成，以确保仿真得到的表型形状的遗传率h为0.2：

更具体的是，在步骤S2中，GWAS统计数据包括各SNP的染色体号、在染色体中的位置、P值、beta值或OR值、SE(标准偏差)信息。GWAS统计结果可以从外部数据库下载，也可以从大量样本数据中分析所得。本实施例中，基于5千人的仿真数据进行GWAS统计分析。实际应用中，可以从UK BioBank、China Kadoorie Biobank等机构获取目标表型性状的GWAS统计数据。

进一步的是，在步骤S3中，在SNP位点数据的数目过大时，计算所有SNP之间的相关系数占用的内存过大，从而设置一定距离的移动窗口，进而仅对移动窗口内的SNP进行计算。步骤S3中，在计算各SNP之间的相关系数时可以使用移动窗口确定计算范围，例如在同一个染色体上以每隔1000个SNP为一组计算得出1000×1000的相关系数矩阵。

更进一步的是，在步骤S4中，基于-log10(P)的值，将预设区间(优选为[0,10]，可根据需求进行调整)进行若干(优选为50)等分，作为-log10(P)的阈值，如1,2,3,4,5,6,7,8,9,10的阈值。

优选地，对于步骤S5的基于相关系数矩阵R构造伊辛模型，其中：

基于最小二乘法构造如下公式：

以上公式中w为各要素取值0或1的向量，即伊辛模型的解。以上公式中k为可按实际情况设定的参数，本实施例中k取1,2,5,10,20,50,100。

所述步骤S 6中，在上述步骤5中构造的伊辛模型中加入L1或L2正则项。本实施例中，因w为各要素取值0或1的向量，故L2正则化与L1正则化本质一致。

以上公式中，λ为控制正则项的参数，本实施例中λ取0.01,0.03,0.1,0.3。

所述步骤S7中，将上述步骤S6中得到伊辛模型的输入伊辛机求解；伊辛机可以对结果为(0,1)的组合优化问题高速求解；伊辛机可以为基于FPGA或光芯片的计算设备，也可以是基于低温超导或离子阱等量子系统的计算设备，也可以是基于CPU或GPU的算法系统。本实施例中，使用CPU运行模拟退火算法求解伊辛模型。

所述步骤S8中，基于上述步骤S7中伊辛机所得的解，确定对目标表型性状预测建模时使用的SNP。本实施例中，因对P值设置了50种阈值，对参数k取了7种值，对参数λ取了4种值，故一共有1400组解。

优选地，在步骤S9中：

本实施例中，基于1400组伊辛模型的解，使用GWAS统计数据中对应SNP的beta值，按照以下公式计算PRS预测值：

以上公式中，x_i,j对应第j位个人样本中第i条SNP的数据，为GWAS统计数据中对应SNP的beta值，/>为针对第j位个人样本的PRS预测值。特别指出，本实施例中的目标表型性状为数值指标，因此以上公式即为线性回归，实际应用中如果目标表型性状为是否患病的case-control样本，可以按以下公式使用logistic回归，其中α为logistic回归的常量：

所述步骤S9中，基于上述步骤S8中选取的SNP，用包含LASSO、Ridge回归、随机森林、Lassosum、LDpred、神经网络等方法在内的机器学习算法预测目标表型性状；也可以直接使用GWAS统计数据中对应SNP的beta值或OR值；目标表型性状可以是包含糖尿病、高血压等在内的某种疾病，也可以是空腹血糖值、收缩期血压等指标值。

分别在训练集与检验集上计算1400组预测值的精度，取训练集内精度最高的一组作为最终结果，并验证其在验证集上的精度。在实际应用中也可以将样本数据划分为多个子集进行交叉校验。精度的计算标准，在目标表型形状为数值指标的情况下可以是预测值与真实值的判定系数，在目标表型形状为case-control样本的情况下可以是预测值与真实患病情况的ROC-AUC值。本实施例中，在仿真数据生成过程中对致病SNP位点数量设置了400条、40条、4条三种情况，三种情况下的验证精度如下表1所示。

表1

致病SNP位点数	传统方法(P+T)精度	本实施例精度
			400	0.0945	0.0985
40	0.0989	0.1086
			4	0.1546	0.1553

特别指出，作为比较对象的传统方法P+T中，同样根据GWAS统计数据的P值设置50个阈值，但在处理SNP间的连锁不平衡效果时去除相关系数平方r²在0.01,0.05,0.1,0.2,0.5,0.8,0.95以上的SNP，计算SNP间相关系数时的窗口设置为50kb(kilobase)、100kb、200kb、500kb。传统方法P+T总计得出1400组解，直接使用GWAS统计数据中对应SNP的beta值，取训练集内精度最高的一组解作为最终结果。本实施例在处理SNP间的连锁不平衡效果时利用了伊辛机能高效准确求解伊辛模型的特性，在公正的实验条件下比传统方法P+T取得了更好的预测精度。

本发明还公开了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述利用伊辛模型的多基因遗传风险评估模型的构建方法的步骤。

本发明还公开了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述利用伊辛模型的多基因遗传风险评估模型的构建方法的步骤。

对于本发明，伊辛机是专门针对组合优化问题的求解器，这种问题在经典计算机上难以在有效时间内求解。将伊辛机用于实际问题的困难点在于，如何将目标问题有效转化为伊辛机能处理的伊辛模型。

值得一提的是，本发明专利申请涉及的基因组数据等技术特征应被视为现有技术，这些技术特征的具体结构、工作原理以及可能涉及到的控制方式、空间布置方式采用本领域的常规选择即可，不应被视为本发明专利的发明点所在，本发明专利不做进一步具体展开详述。

对于本领域的技术人员而言，依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种利用伊辛模型的多基因遗传风险评估模型的构建方法，其特征在于，包括以下步骤：

步骤S2：获取目标表型性状的GWAS统计数据；

步骤S6：在步骤S5生成的伊辛模型中加入正则项；

2.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法，其特征在于，基于SNP间的相关系数构造伊辛模型，以用于筛选SNP。

3.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法，其特征在于，通过构造伊辛模型筛选SNP，以用于预测表型性状。

4.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法，其特征在于，步骤S6中，在构造的伊辛模型中加入L1或L2正则项。

5.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法，其特征在于，利用伊辛机处理组合优化问题的特性求解伊辛模型，筛选最适合用于预测表型形状的SNP。

6.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法，其特征在于，基于SNP间的相关系数构造伊辛模型，使用包括基于光芯片、FPGA、超导量子、离子阱、CPU和GPU形式在内的伊辛机求解。

7.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法，其特征在于，基于伊辛模型筛选适合用于预测的SNP后，用包括Lasso、Ridge回归、Elastic-Net、贝叶斯神经网络和隐形马尔可夫模型在内的机器学习算法预测表型性状；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述利用伊辛模型的多基因遗传风险评估模型的构建方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述利用伊辛模型的多基因遗传风险评估模型的构建方法的步骤。