CN111429970B

CN111429970B - 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统

Info

Publication number: CN111429970B
Application number: CN201911343021.2A
Authority: CN
Inventors: 马宝山; 潘建桥; 董佳昕; 郑璐瑶
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2024-03-22
Anticipated expiration: 2039-12-24
Also published as: CN111429970A

Abstract

本发明实施例公开了一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统，所述方法包括：基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理；基于极端梯度提升方法，创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数；基于所述模型进行特征重要性排序以选择出前k个SNP位点；基于多基因风险评分方法，依次对每一样本数据进行评分。本发明为用户提供客观的理论数据处理方法，以在未来的个性化医疗和精准医学进行辅助性应用。

Description

基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统

技术领域

本发明涉及基因检测分析技术领域，尤其涉及一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统。

背景技术

多基因风险评分(polygenic risk scores,PRS)方法是一种可以从个体水平进行遗传风险评估的方法，它是在传统的全基因组关联分析(Genome-wide associationstudies,GWAS)的基础上，对通过特定阀值的单核苷酸多态性(single nucleotidepolymorphisms，SNP)进行基因型效应大小加权计算，最终得到个体水平的风险评分。随着GWAS样本量的增加PRS分析将变得更加有效，它们将在未来的个性化医疗和精准医学中发挥关键作用。

SNP是在人类基因组中是一种很常见的基因突变，平均每500到1000个碱基对中就有1个，估计其总数可达300万个甚至更多，这种变化可以使基因组水平上的DNA单个碱基位点发生改变，从而导致在DNA水平上的多态性，最终在生物蛋白结构或表达水平造成直接影响。SNP的一个至关重要的作用就是能表达出基因和疾病之间的关系，对疾病中存在的有关基因进行搜索。对于部分单基因的遗传性疾病，采用家系研究方法对疾病的病因进行搜索的应用，在目前临床上已经取得了一定的成果。但是，在多基因疾病中，因为基因数目和影响疾病发生发展存在的差异，且环境因素也起到了重要作用，在病因学研究方面多基因疾病增加了很多的困难。因此，如何确定对于特定疾病相关的SNP位点成为PRS分析的关键问题所在。

需要说明的是与疾病相关的SNP位点个数相当庞大，可能达到百万的数量级，如果将所有的SNP位点作为机器学习的特征，以现有的计算机处理能力难以进行快速有效的训练，因此对大量的SNP位点进行筛选从而得到无冗余信息的特征是PRS计算分析的关键。传统GWAS对所有的SNP位点进行P值筛选，最终得到与目标疾病的相关SNP位点。但是某些与疾病相关联的P值较低的SNP位点也可能携带一些重要的信息，简单通过P值筛选SNP位点可能会损失与疾病相关的重要信息。

发明内容

基于此，为解决现有技术存在的不足，特提出了一种基于极端梯度提升方法进行特征选择的多基因风险评分方法。

一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法，其特征在于，包括如下步骤：

S1、基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理；

S2、基于极端梯度提升方法，创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数；

S3、基于所述模型进行特征重要性排序以选择出前k个SNP位点；

S4、基于多基因风险评分方法，依次对每一样本数据进行评分。

可选的，在其中一个实施例中，所述S1中的基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理包括：假设与目标疾病相关的原始SNP位点为m个，对SNP位点的序列进行离散化数值处理得到离散特征；同时将样本数据分为训练数据与测试数据，其中训练数据的对应样本数量为n₁个，测试数据的对应样本数量为n₂个，则给出每一样本数据对应的目标疾病程度标签和标识健康或患病的身体状态标签，以得到训练数据矩阵X(n₁*m)和训练标签向量Y(n₁*1)，测试数据矩阵W(n₂*m)和测试标签向量Z(n₂*1)，其中，所述目标疾病程度标签用0到1的连续值表示，身体状态标签用0和1两个离散值表示。

可选的，在其中一个实施例中，所述S2中基于极端梯度提升方法，创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数包括：

S21、设定样本数据的训练数据中每一行样本表示为x_i(i＝1,2···n₁)，对应的每一行样本标签表示为y_i(i＝1,2···n₁)，同时每一行样本的预测标签表示为则建立训练数据对应的特征重要性排序模型，模型公式如下述公式(1-1)所示：

其中，表示每一步生成回归树的模型，q(x_i)表示样本i落在叶节点上的索引，表示样本i落在叶节点上的取值，F(x_i)表示生成T个弱分类器总预测模型；

S22、给定目标函数，以获取特征重要性排序模型中每棵回归树的结构和取值，所述目标函数对应的函数公式如下述公式(1-2)所示

其中，表示损失函数，Ω(f_t)表示f_t对应的正则化项，

针对不同类型的标签，所述损失函数对应的损失函数模型分别为

若连续值对应的标签，则所述损失函数模型为平方损失函数，对应的公式为下述公式(1-3)

若离散值对应的标签，则所述损失函数模型为逻辑损失函数，对应的公式为下述公式(1-4)

上述公式(1-3)与(1-4)对应的正则化项，其对应的公式为下述公式(1-5)

其中，J和w_j分别表示当前建立回归树的叶节点个数和取值，γ和均λ表示用于调节回归树的结构和取值的超参数；

S23、确定所述目标函数的最小化形式，即利用前向分步的方式展开目标函数后，使用泰勒展开式进行二阶近似展开以获取所述目标函数的最小化形式；

其中，利用前向分步的方式展开所述目标函数，所获得的公式如下式(1-6)

用泰勒展开式进行二阶近似展开，得到所述目标函数的二阶近似展开形式如下式(1-7)

其中，f_t(x_i)表示第t棵回归树的预测值，表示前t-1棵回归树的预测值；

移除公式(1-7)中的常数项同时定义I_j＝{i|q(x_i)＝j}作为回归树叶节点j的样本数据集，并将正则化项对应的公式(1-5)带入到所述公式(1-7)中，将目标函数重新改写成公式(1-8)的形式，即

S24、对所述目标函数对应的公式(1-8)的形式进行最小化计算得到最优叶节点j的取值w_j ^*并确定出当前结构最小目标函数；

最优叶节点j的取值w_j ^*对应的计算公式为下述公式(1-9)

当前结构最小目标函数对应的公式为下述公式(1-10)

S25、确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能指标参数。

可选的，在其中一个实施例中，所述S25中确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能指标参数包括：

S251、通过枚举所有回归树的分割节点来遍历所有可能的回归树获取最佳回归树的结构，所述分割节点所构成的样本集合I中的一部分样本构成子集合I_L，另一部分样本构成子集合I_R，即I＝I_L∪I_R，其中节点的分割标准通过下述增益函数公式(1-11)获得，即

S252、确定每一步的生成回归树的结构和取值后，通过给定所有参数的范围进行模型训练，以得出最优模型即搜索出所述模型对应的最佳性能指标参数，所述参数至少包括迭代的步长、分类树的最大深度、最小叶节点的权重值以及正则化参数中一种或者多种组合。

可选的，在其中一个实施例中，所述S3中基于所述模型进行特征重要性排序以选择出前k个SNP位点包括：对所述最佳性能指标参数对应的特征重要性排序模型进行特征重要性排序即通过下述公式(1-12)计算每个特征的最大增益，并获取所述特征出现的频次平均值后，按照每个SNP位点特征平均信息增益的大小确定特征的重要程度并进行特征重要性排序得到需要的前k个SNP位点，其中

其中c_f为第f个特征在所有分类树出现的次数，Gain_i为该特征第i次作为分割节点的信息增益，S_f为第f个特征的平均信息增益。

可选的，在其中一个实施例中，所述S4中基于多基因风险评分方法，依次对每一样本数据进行评分以获取对应的评分结果包括：通过PRS计算公式对每一样本数据进行评分，其中PRS计算公式为公式(1-13)：

其中，表示样本x_i在第f个SNP位点的表达值；β_f表示第f个特征经过特征选择之后前k个SNP位点的权重系数。

可选的，在其中一个实施例中，所述权重系数的确定包括：

对于所有经过特征选择之后的样本进行LASSO回归以得到模型的拟合系数，即为SNP位点的权重系数。

此外，为解决传统技术所存在的不足，还提出了一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的系统，其特征在于，包括：

离散化处理单元，其能够基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理；所述离散化处理单元中的基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理的具体处理过程包括：假设与目标疾病相关的原始SNP位点为m个，对SNP位点的序列进行离散化数值处理得到离散特征；同时将样本数据分为训练数据与测试数据，其中训练数据的对应样本数量为n₁个，测试数据的对应样本数量为n₂个，则给出每一样本数据对应的目标疾病程度标签和标识健康或患病的身体状态标签，以得到训练数据矩阵X(n₁*m)和训练标签向量Y(n₁*1)，测试数据矩阵W(n₂*m)和测试标签向量Z(n₂*1)，其中，所述目标疾病程度标签用0到1的连续值表示，身体状态标签用0和1两个离散值表示；

模型创建单元，其能够基于极端梯度提升方法，创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数；

特征重要性排序单元，其能够基于所述模型进行特征重要性排序以选择出前k个SNP位点；

以及评分单元，其能够基于多基因风险评分方法，依次对每一样本数据进行评分。

可选的，在其中一个实施例中，所述模型创建单元包括特征重要性排序模型建立模块、第一数据处理模块、第二数据处理模块、第三数据处理模块以及参数输出模块，

其中所述特征重要性排序模型建立模块能够建立训练数据对应的特征重要性排序模型，其具体过程包括设定样本数据的训练数据中每一行样本表示为x_i(i＝1,2···n₁)，对应的每一行样本标签表示为y_i(i＝1,2···n₁)，同时每一行样本的预测标签表示为则建立训练数据对应的特征重要性排序模型，模型公式如下述公式(2-1)所示：

第一数据处理模块能够给定目标函数，以获取特征重要性排序模型中每棵回归树的结构和取值，所述目标函数对应的函数公式如下述公式(2-2)所示

其中，表示损失函数，Ω(f_t)表示f_t对应的正则化项，

若连续值对应的标签，则所述损失函数模型为平方损失函数，对应的公式为下述公式(2-3)

若离散值对应的标签，则所述损失函数模型为逻辑损失函数，对应的公式为下述公式(2-4)

上述公式(3)与(4)对应的正则化项，其对应的公式为下述公式(2-5)

第二数据处理模块能够确定所述目标函数的最小化形式，即利用前向分步的方式展开目标函数后，使用泰勒展开式进行二阶近似展开以获取所述目标函数的最小化形式；

其中，利用前向分步的方式展开所述目标函数，所获得的公式如下式(2-6)

用泰勒展开式进行二阶近似展开，得到所述目标函数的二阶近似展开形式如下式(2-7)

其中，f_t(x_i)表示第t棵回归树的预测值，表示前t-1棵回归树的预测值，

移除公式(2-7)中的常数项同时定义I_j＝{i|q(x_i)＝j}作为回归树叶节点j的样本数据集，并将正则化项对应的公式(2-5)带入到所述公式(2-7)中，将目标函数重新改写成公式(8)的形式，即

第三数据处理模块能够对所述目标函数对应的公式(2-8)的形式进行最小化计算得到最优叶节点j的取值w_j ^*并确定出当前结构最小目标函数；

最优叶节点j的取值w_j ^*对应的计算公式为下述公式(2-9)

当前结构最小目标函数对应的公式为下述公式(2-10)

参数输出模块能够确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能指标参数。

可选的，在其中一个实施例中，所述特征重要性排序单元中基于所述模型进行特征重要性排序以选择出前k个SNP位点包括：对所述最佳性能指标参数对应的特征重要性排序模型进行特征重要性排序即通过下述公式(2-12)计算每个特征的最大增益，并获取所述特征出现的频次平均值后，按照每个SNP位点特征平均信息增益的大小确定特征的重要程度并进行特征重要性排序得到需要的前k个SNP位点，其中

其中c_f为第f个特征在所有分类树出现的次数，Gain_i为该特征第i次作为分割节点的信息增益，S_f为第f个特征的平均信息增益；基于多基因风险评分方法，依次对每一样本数据进行评分以获取对应的评分结果包括：通过PRS计算公式对每一样本数据进行评分，其中PRS计算公式为公式(2-13)：

其中，表示样本x_i在第f个SNP位点的表达值；β_f表示第f个特征经过特征选择之后前k个SNP位点的权重系数；所述权重系数的确定包括：对于所有经过特征选择之后的样本进行LASSO回归以得到模型的拟合系数，即为SNP位点的权重系数。

实施本发明实施例，将具有如下有益效果：

采用了上述技术之后，本发明通过所建立的与SNP位点特征选择相匹配的模型，实现了从大量的SNP位点中通过非线性方法选择出与目标疾病关联程度最大的位点，其能够更精准的确定影响目标疾病的SNP位点，可以节约大量的计算开销；为用户提供客观的理论数据，以在未来的个性化医疗和精准医学进行辅助性应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中方法对应的核心步骤流程图；

图2为一个实施例中方法对应的具体实施步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。可以理解，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一元件称为第二元件，且类似地，可将第二元件为第一元件。第一元件和第二元件两者都是元件，但其不是同一元件。

为了解决在面对多基因风险评估所存在的不足，因此本发明开发一种通过极端梯度提升(eXtreme Gradient Boosting，XGBoost)的方法获取对SNP位点进行特征重要性排序，从而筛选出前k个SNP位点得到PRS的预测结果(k为所需SNP位点的经验值)的评分方法，进而为用户提供客观的理论数据，以在未来的个性化医疗和精准医学进行辅助性应用。所述方法基本可以分为下述几大步骤：1.在样本数据集合中对SNP位点进行预处理；2.建立初始的XGBoost模型并搜索该模型对应的最佳参数以确定出最佳XGBoost模型；3.基于XGBoost特征选择出前k个SNP位点；4.对样本进行PRS评分。具体的如图1-2所示，该方法包括S1、基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理；S2、基于极端梯度提升方法，创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数；S3、基于所述模型进行特征重要性排序以选择出前k个SNP位点；S4、基于多基因风险评分方法，依次对每一样本数据进行评分以获取评分结果。

其中，在S1基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理中：由于基因是由染色单体上一段固定长度的碱基来表示，而每个SNP是由单个碱基发生该改变所引起，例如胞嘧啶C转化为胸腺嘧啶T，而一对等位基因可以由同源的染色单体上相同位置的基因来表示，则任意一个样本的SNP位点都可以表示为两个碱基序列，例如CT，则变异之后的位点序列有三种情况CC、CT、TT。基于上述理论，则假设与目标疾病相关的原始SNP位点为m个，对SNP位点的序列进行离散化数值处理以得到对应的离散特征，分别用0、1、2表示。假设训练数据的样本为n₁个，测试数据的样本为n₂个，对于样本的标签可以用0到1的连续值(代表目标疾病的程度)或用0和1两个离散值(代表健康或患病)表示，此时得到训练数据矩阵X(n₁*m)和训练标签向量Y(n₁*1)，测试数据矩阵W(n₂*m)和测试标签向量Z(n₂*1)。

在一些具体的实施例中，所述S2中基于极端梯度提升方法，创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数包括：

S21、设定样本数据的训练数据中每一行样本表示为x_i(i＝1,2···n₁)，对应的每一行样本标签表示为y_i(i＝1,2···n₁)，同时每一行样本的预测标签表示为则建立训练数据对应的特征重要性排序模型即XGBoost模型，模型公式如下述公式(1-1)所示：

其中，表示每一步生成回归树的模型，q(x_i)表示样本i落在叶节点上的索引，表示样本i落在叶节点上的取值，F(x_i)表示生成T个弱分类器总预测模型；本文中的XGBoost是梯度提升树(Gradient Boosting Decision Tree，GBDT)的强化模型，而GBDT是一种以回归树为基本分类器的回归方法，被认为是统计学习中性能最好的方法之一，则XGBoost本质上是一种以集成学习中的提升为主体思想的统计学习方法，每一步产生一个弱分类器的模型，并累加到总模型中去；

其中，表示损失函数，Ω(f_t)表示f_t对应的正则化项；

针对不同类型的标签可以选择不同的损失函数模型即针对不同类型的标签，所述损失函数对应的损失函数模型分别为

上述公式(1-3)与(1-4)对应的正则化项，对应的公式为下述公式(1-5)，正则项(1-5)可以防止预测结果发生过拟合现象：

其中，J和w_j分别表示当前建立回归树的叶节点个数和取值，γ和均λ表示设置的用于调节回归树的结构和取值的超参数；

S23、确定所述目标函数的最小化形式，即利用前向分步的方式展开目标函数后，使用泰勒展开式进行二阶近似展开以获取所述目标函数的最小化形式；本步骤的作用是：一般来讲，很难直接对公式(1-1)的回归树集成模型进行目标函数最小化，因此特别选用前向分步的方式展开成目标函数(1-6)之后用泰勒展开式进行二阶近似展开；

最优叶节点j的取值w_j ^*对应的计算公式为下述公式(1-9)

当前结构最小目标函数对应的公式为下述公式(1-10)

至此，可以通过公式(1-9)计算出每一棵回归树叶节点的最优取值，同时还可以计算出当前回归树结构的最小目标函数值，这个值能代表当前所建立回归树的纯度指标。对于最佳回归树的结构可以通过枚举所有回归树的分割节点来遍历所有可能的回归树；

在一些具体的实施例中，所述S25中确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能指标参数包括：

S251、通过枚举所有回归树的分割节点来遍历所有可能的回归树获取最佳回归树的结构，所述分割节点所构成的样本集合I中的一部分样本构成子集合I_L或者称为左半部分集合，另一部分样本构成子集合I_R或者称为右半部分集合，即I＝I_L∪I_R，其中节点的分割标准通过下述增益函数公式(1-11)获得，

通过上述计算就可以确定每一步的生成回归树的结构和取值，从而确定整个模型结构，但是上述步骤中影响XGBoost模型的参数有很多，例如迭代的步长、分类树的最大深度、最小叶节点的权重值以及正则化参数等，可以通过给定所有参数的范围不断地对上述过程进行模型训练，直到得出最优模型因此引入步骤S252；

S252、确定每一步的生成回归树的结构和取值后，通过给定所有参数的范围不断地对上述过程进行模型训练，直到得出最优模型即搜索出所述模型对应的最佳性能指标参数，所述参数至少包括迭代的步长、分类树的最大深度、最小叶节点的权重值以及正则化参数中一种或者多种组合。具体的包括：给出所选参数的范围，根据参数的排列组合计算出所要循环的次数l，首先从参数的首位组合开始训练XGBoost模型，并记当前的循环次数为l`，在每次循环中对测试数据矩阵W和测试数据标签Z进行模型预测并评价，如果目标疾病的标签为连续值，则使用决定系数(R²)作为性能评价指标，R²是一个取值在0到1之间的数，该R²的值越接近1，表明模型效果越好；如果目标疾病的标签为离散值，则使用受试者工作特性(Receiver Operating Characteristic,ROC)曲线下的面积(Area Under ROC Curve,AUC)作为性能评价指标，AUC是一个取值在0到1之间的数，该AUC的值越接近1，表明模型效果越好。同时保留当前所选参数和性能指标p，并判断是否满足循环次数，如果未满足则更新所选参数继续上述步骤；若满足则选择所有循环的结果中性能指标最好的参数作为XGBoost的模型参数。

在一些具体的实施例中，XGBoost的特征排序方法可以通过计算每个特征的最大增益，并对其出现的频次做算术平均，最后按照每个SNP位点特征平均信息增益的大小确定特征的重要程度，即所述S3中基于所述模型进行特征重要性排序以选择出前k个SNP位点包括：对所述最佳性能指标参数对应的特征重要性排序模型进行特征重要性排序即通过下述公式1-12计算每个特征的最大增益，并获取所述特征出现的频次平均值后，按照每个SNP位点特征平均信息增益的大小确定特征的重要程度并进行特征重要性排序得到需要的前k个SNP位点，其中

在一些具体的实施例中，所述S4中基于多基因风险评分方法，依次对每一样本数据进行评分，PRS本质上是一个对SNP位点进行加权计算的过程，其包括：通过PRS计算公式对每一样本数据进行评分，其中PRS计算公式为公式(1-13)：

在一些具体的实施例中，所述权重系数的确定包括：

此外，为解决传统技术所存在的不足，还提出了一种基于极端梯度提升方法进行特征选择获取多基因风险评分的系统，其包括：

离散化处理单元，其能够基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理；

以及评分单元，其能够基于多基因风险评分方法，依次对每一样本数据进行评分获取评分结果。

可选的，在其中一个实施例中，所述离散化处理单元中的基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理的具体处理过程包括：假设与目标疾病相关的原始SNP位点为m个，对SNP位点的序列进行离散化数值处理以获取离散特征；同时将样本数据分为训练数据与测试数据，其中训练数据的对应样本数量为n₁个，测试数据的对应样本数量为n₂个，则给出每一样本数据对应的目标疾病程度标签和标识健康或患病的身体状态标签，以得到训练数据矩阵X(n₁*m)和训练标签向量Y(n₁*1)，测试数据矩阵W(n₂*m)和测试标签向量Z(n₂*1)，其中，所述目标疾病程度标签用0到1的连续值表示，身体状态标签用0和1两个离散值表示。

在一些具体的实施例中，所述模型创建单元包括特征重要性排序模型建立模块、第一数据处理模块、第二数据处理模块、第三数据处理模块以及参数输出模块，

其中，表示损失函数，Ω(f_t)表示f_t对应的正则化项，

上述公式3与4对应的正则化项，对应的公式为下述公式(2-5)

移除公式(2-7)中的常数项同时定义I_j＝{i|q(x_i)＝j}作为回归树叶节点j的样本数据集，并将正则化项对应的公式(2-5)带入到所述公式(2-7)中，将目标函数重新改写成公式(2-8)的形式，即

最优叶节点j的取值w_j ^*对应的计算公式为下述公式(2-9)

当前结构最小目标函数对应的公式为下述公式(2-10)

在一些具体的实施例中，所述确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能指标参数包括：

通过枚举所有回归树的分割节点来遍历所有可能的回归树获取最佳回归树的结构，所述分割节点所构成的样本集合I中的一部分样本构成子集合I_L，另一部分样本构成子集合I_R，即I＝I_L∪I_R，其中节点的分割标准通过下述增益函数公式(2-11)获得，

同时确定每一步的生成回归树的结构和取值后，通过给定所有参数的范围不断地对上述过程进行模型训练，直到得出最优模型即搜索出所述模型对应的最佳性能指标参数，所述参数至少包括迭代的步长、分类树的最大深度、最小叶节点的权重值以及正则化参数中一种或者多种组合。

在一些具体的实施例中，所述特征重要性排序单元中基于所述模型进行特征重要性排序以选择出前k个SNP位点包括：对所述最佳性能指标参数对应的特征重要性排序模型进行特征重要性排序即通过下述公式(2-12)计算每个特征的最大增益，并获取所述特征出现的频次平均值后，按照每个SNP位点特征平均信息增益的大小确定特征的重要程度并进行特征重要性排序得到需要的前k个SNP位点，其中

在一些具体的实施例中，所述评分单元中基于多基因风险评分方法，依次对每一样本数据进行评分包括：通过PRS计算公式对每一样本数据进行评分，其中PRS计算公式为公式(2-13)：

在一些具体的实施例中，所述权重系数的确定包括：

基于相同的发明构思，本发明还提出了一种计算机可读存储介质，包括计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行所述的方法。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法，其特征在于，包括如下步骤：

S4、基于多基因风险评分方法，依次对每一样本数据进行评分以获取对应的评分结果；

所述S2中基于极端梯度提升方法，创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数包括：

S21、设定样本数据的训练数据中每一行样本表示为x_i，i＝1,2,···,n₁，对应的每一行样本标签表示为y_i，i＝1,2,···,n₁，同时每一行样本的预测标签表示为 n₁为训练数据的对应样本数量，则建立训练数据对应的特征重要性排序模型，模型公式如下述公式(1-1)所示：

其中，表示损失函数，Ω(f_t)表示f_t对应的正则化项，

其中，J和w_j分别表示当前建立回归树的叶节点个数和取值，g和λ分别表示用于调节回归树的结构和取值的超参数；

最优叶节点j的取值w_j ^*对应的计算公式为下述公式(1-9)

当前结构最小目标函数对应的公式为下述公式(1-10)

2.根据权利要求1所述的方法，其特征在于，所述S1中的基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理包括：假设与目标疾病相关的原始SNP位点为m个，对SNP位点的序列进行离散化数值处理得到离散特征；同时将样本数据分为训练数据与测试数据，其中训练数据的对应样本数量为n₁个，测试数据的对应样本数量为n₂个，则给出每一样本数据对应的目标疾病程度标签和标识健康或患病的身体状态标签，以得到训练数据矩阵X(n₁*m)和训练标签向量Y(n₁*1)，测试数据矩阵W(n₂*m)和测试标签向量Z(n₂*1)，其中，所述目标疾病程度标签用0到1的连续值表示，身体状态标签用0和1两个离散值表示。

3.根据权利要求1所述的方法，其特征在于，所述S25中确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能指标参数包括：

4.根据权利要求1所述的方法，其特征在于，所述S3中基于所述模型进行特征重要性排序以选择出前k个SNP位点包括：对所述最佳性能指标参数对应的特征重要性排序模型进行特征重要性排序即通过下述公式(1-12)计算每个特征的最大增益，并获取所述特征出现的频次平均值后，按照每个SNP位点特征平均信息增益的大小确定特征的重要程度并进行特征重要性排序得到需要的前k个SNP位点，其中

其中c_f为第f个特征在所有分类树出现的次数，Gain_i为该特征第i次作为分割节点的信息增益，S_f为第f个特征的平均信息增益，m是假设与目标疾病相关的原始SNP位点个数。

5.根据权利要求1所述的方法，其特征在于，所述S4中基于多基因风险评分方法，依次对每一样本数据进行评分以获取对应的评分结果包括：通过PRS计算公式对每一样本数据进行评分，其中PRS计算公式为公式(1-13)：

6.根据权利要求5所述的方法，其特征在于，所述权重系数的确定包括：

7.一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的系统，其特征在于，包括：

以及评分单元，其能够基于多基因风险评分方法，依次对每一样本数据进行评分；所述模型创建单元包括特征重要性排序模型建立模块、第一数据处理模块、第二数据处理模块、第三数据处理模块以及参数输出模块，

其中所述特征重要性排序模型建立模块能够建立训练数据对应的特征重要性排序模型，其具体过程包括设定样本数据的训练数据中每一行样本表示为x_i，i＝1,2,···,n₁，对应的每一行样本标签表示为y_i，i＝1,2,···,n₁，同时每一行样本的预测标签表示为n₁为训练数据的对应样本数量，则建立训练数据对应的特征重要性排序模型，模型公式如下述公式(2-1)所示：

其中，表示损失函数，Ω(f_t)表示f_t对应的正则化项，

其中，J和w_j分别表示当前建立回归树的叶节点个数和取值，γ和λ分别表示用于调节回归树的结构和取值的超参数；

最优叶节点j的取值w_j ^*对应的计算公式为下述公式(2-9)

当前结构最小目标函数对应的公式为下述公式(2-10)

8.根据权利要求7所述的系统，其特征在于，所述特征重要性排序单元中基于所述模型进行特征重要性排序以选择出前k个SNP位点包括：对所述最佳性能指标参数对应的特征重要性排序模型进行特征重要性排序即通过下述公式(2-12)计算每个特征的最大增益，并获取所述特征出现的频次平均值后，按照每个SNP位点特征平均信息增益的大小确定特征的重要程度并进行特征重要性排序得到需要的前k个SNP位点，其中

基于多基因风险评分方法，依次对每一样本数据进行评分以获取对应的评分结果包括：通过PRS计算公式对每一样本数据进行评分，其中PRS计算公式为公式(2-13)：