CN111429970A - 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统 - Google Patents

基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统 Download PDF

Info

Publication number
CN111429970A
CN111429970A CN201911343021.2A CN201911343021A CN111429970A CN 111429970 A CN111429970 A CN 111429970A CN 201911343021 A CN201911343021 A CN 201911343021A CN 111429970 A CN111429970 A CN 111429970A
Authority
CN
China
Prior art keywords
model
formula
feature
value
objective function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911343021.2A
Other languages
English (en)
Other versions
CN111429970B (zh
Inventor
马宝山
潘建桥
董佳昕
郑璐瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN201911343021.2A priority Critical patent/CN111429970B/zh
Publication of CN111429970A publication Critical patent/CN111429970A/zh
Application granted granted Critical
Publication of CN111429970B publication Critical patent/CN111429970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统,所述方法包括:基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理;基于极端梯度提升方法,创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数;基于所述模型进行特征重要性排序以选择出前k个SNP位点;基于多基因风险评分方法,依次对每一样本数据进行评分。本发明为用户提供客观的理论数据处理方法,以在未来的个性化医疗和精准医学进行辅助性应用。

Description

基于极端梯度提升方法进行特征选择来获取多基因风险评分 的方法及系统
技术领域
本发明涉及基因检测分析技术领域,尤其涉及一种基于极端梯度提升方法 进行特征选择来获取多基因风险评分的方法及系统。
背景技术
多基因风险评分(polygenic risk scores,PRS)方法是一种可以从个体水平 进行遗传风险评估的方法,它是在传统的全基因组关联分析(Genome-wide associationstudies,GWAS)的基础上,对通过特定阀值的单核苷酸多态性(single nucleotidepolymorphisms,SNP)进行基因型效应大小加权计算,最终得到个体 水平的风险评分。随着GWAS样本量的增加PRS分析将变得更加有效,它们将 在未来的个性化医疗和精准医学中发挥关键作用。
SNP是在人类基因组中是一种很常见的基因突变,平均每500到1000个 碱基对中就有1个,估计其总数可达300万个甚至更多,这种变化可以使基因 组水平上的DNA单个碱基位点发生改变,从而导致在DNA水平上的多态性, 最终在生物蛋白结构或表达水平造成直接影响。SNP的一个至关重要的作用就 是能表达出基因和疾病之间的关系,对疾病中存在的有关基因进行搜索。对于 部分单基因的遗传性疾病,采用家系研究方法对疾病的病因进行搜索的应用, 在目前临床上已经取得了一定的成果。但是,在多基因疾病中,因为基因数目 和影响疾病发生发展存在的差异,且环境因素也起到了重要作用,在病因学研 究方面多基因疾病增加了很多的困难。因此,如何确定对于特定疾病相关的SNP 位点成为PRS分析的关键问题所在。
需要说明的是与疾病相关的SNP位点个数相当庞大,可能达到百万的数量 级,如果将所有的SNP位点作为机器学习的特征,以现有的计算机处理能力难 以进行快速有效的训练,因此对大量的SNP位点进行筛选从而得到无冗余信息 的特征是PRS计算分析的关键。传统GWAS对所有的SNP位点进行P值筛选, 最终得到与目标疾病的相关SNP位点。但是某些与疾病相关联的P值较低的SNP 位点也可能携带一些重要的信息,简单通过P值筛选SNP位点可能会损失与疾 病相关的重要信息。
发明内容
基于此,为解决现有技术存在的不足,特提出了一种基于极端梯度提升方 法进行特征选择的多基因风险评分方法。
一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法, 其特征在于,包括如下步骤:
S1、基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处 理;
S2、基于极端梯度提升方法,创建特征重要性排序模型并搜索出所述模型 对应的最佳性能指标参数;
S3、基于所述模型进行特征重要性排序以选择出前k个SNP位点;
S4、基于多基因风险评分方法,依次对每一样本数据进行评分。
可选的,在其中一个实施例中,所述S1中的基于给定的SNP位点个数并对 SNP位点的碱基序列进行离散化数值处理包括:假设与目标疾病相关的原始 SNP位点为m个,对SNP位点的序列进行离散化数值处理得到离散特征;同时 将样本数据分为训练数据与测试数据,其中训练数据的对应样本数量为n1个,测 试数据的对应样本数量为n2个,则给出每一样本数据对应的目标疾病程度标签 和标识健康或患病的身体状态标签,以得到训练数据矩阵X(n1*m)和训练标签向 量Y(n1*1),测试数据矩阵W(n2*m)和测试标签向量Z(n2*1),其中,所述目标疾 病程度标签用0到1的连续值表示,身体状态标签用0和1两个离散值表示。
可选的,在其中一个实施例中,所述S2中基于极端梯度提升方法,创建特 征重要性排序模型并搜索出所述模型对应的最佳性能指标参数包括:
S21、设定样本数据的训练数据中每一行样本表示为xi(i=1,2···n1),对应的每 一行样本标签表示为yi(i=1,2···n1),同时每一行样本的预测标签表示为
Figure BDA0002332592700000021
则建立训练数据对应的特征重要性排序模型,模型公式如下述公 式(1-1)所示:
Figure BDA0002332592700000022
其中,
Figure BDA0002332592700000023
表示每一步生成回归树的模型,q(xi)表示样本i落在叶节 点上的索引,
Figure BDA0002332592700000024
表示样本i落在叶节点上的取值,F(xi)表示生成T个弱分类器 总预测模型;
S22、给定目标函数,以获取特征重要性排序模型中每棵回归树的结构和取 值,所述目标函数对应的函数公式如下述公式(1-2)所示
Figure BDA0002332592700000025
其中,
Figure BDA0002332592700000026
表示损失函数,Ω(ft)表示ft对应的正则化项,
针对不同类型的标签,所述损失函数对应的损失函数模型分别为
若连续值对应的标签,则所述损失函数模型为平方损失函数,对应的公式 为下述公式(1-3)
Figure BDA0002332592700000027
若离散值对应的标签,则所述损失函数模型为逻辑损失函数,对应的公式 为下述公式(1-4)
Figure BDA0002332592700000028
上述公式(1-3)与(1-4)对应的正则化项,其对应的公式为下述公式(1-5)
Figure BDA0002332592700000029
其中,J和wj分别表示当前建立回归树的叶节点个数和取值,γ和均λ表示 用于调节回归树的结构和取值的超参数;
S23、确定所述目标函数的最小化形式,即利用前向分步的方式展开目标函 数后,使用泰勒展开式进行二阶近似展开以获取所述目标函数的最小化形式;
其中,利用前向分步的方式展开所述目标函数,所获得的公式如下式(1-6)
Figure RE-GDA0002506884460000031
用泰勒展开式进行二阶近似展开,得到所述目标函数的二阶近似展开形式 如下式(1-7)
Figure BDA0002332592700000032
其中,ft(xi)表示第t棵回归树的预测值,
Figure BDA0002332592700000033
表示前t-1棵回归树的预测值;
移除公式(1-7)中的常数项
Figure BDA0002332592700000034
同时定义Ij={i|q(xi)=j}作为回归树 叶节点j的样本数据集,并将正则化项对应的公式(1-5)带入到所述公式(1-7) 中,将目标函数重新改写成公式(1-8)的形式,即
Figure BDA0002332592700000035
S24、对所述目标函数对应的公式(1-8)的形式进行最小化计算得到最优叶 节点j的取值wj *并确定出当前结构最小目标函数;
最优叶节点j的取值wj *对应的计算公式为下述公式(1-9)
Figure BDA0002332592700000036
当前结构最小目标函数对应的公式为下述公式(1-10)
Figure BDA0002332592700000037
S25、确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能 指标参数。
可选的,在其中一个实施例中,所述S25中确定模型对应的最佳回归树的 结构并搜索出所述模型对应的最佳性能指标参数包括:
S251、通过枚举所有回归树的分割节点来遍历所有可能的回归树获取最佳 回归树的结构,所述分割节点所构成的样本集合I中的一部分样本构成子集合IL, 另一部分样本构成子集合IR,即I=IL∪IR,其中节点的分割标准通过下述增益函 数公式(1-11)获得,即
Figure BDA0002332592700000041
S252、确定每一步的生成回归树的结构和取值后,通过给定所有参数的范 围进行模型训练,以得出最优模型即搜索出所述模型对应的最佳性能指标参数, 所述参数至少包括迭代的步长、分类树的最大深度、最小叶节点的权重值以及 正则化参数中一种或者多种组合。
可选的,在其中一个实施例中,所述S3中基于所述模型进行特征重要性排 序以选择出前k个SNP位点包括:对所述最佳性能指标参数对应的特征重要性 排序模型进行特征重要性排序即通过下述公式(1-12)计算每个特征的最大增益, 并获取所述特征出现的频次平均值后,按照每个SNP位点特征平均信息增益的 大小确定特征的重要程度并进行特征重要性排序得到需要的前k个SNP位点, 其中
Figure BDA0002332592700000042
其中cf为第f个特征在所有分类树出现的次数,Gaini为该特征第i次作为 分割节点的信息增益,Sf为第f个特征的平均信息增益。
可选的,在其中一个实施例中,所述S4中基于多基因风险评分方法,依次 对每一样本数据进行评分以获取对应的评分结果包括:通过PRS计算公式对每 一样本数据进行评分,其中PRS计算公式为公式(1-13):
Figure BDA0002332592700000043
其中,
Figure BDA0002332592700000044
表示样本xi在第f个SNP位点的表达值;βf表示第f个特征经过特征 选择之后前k个SNP位点的权重系数。
可选的,在其中一个实施例中,所述权重系数的确定包括:
对于所有经过特征选择之后的样本进行LASSO回归以得到模型的拟合系数, 即为SNP位点的权重系数。
此外,为解决传统技术所存在的不足,还提出了一种基于极端梯度提升方 法进行特征选择来获取多基因风险评分的系统,其特征在于,包括:
离散化处理单元,其能够基于给定的SNP位点个数并对SNP位点的碱基序 列进行离散化数值处理;所述离散化处理单元中的基于给定的SNP位点个数并 对SNP位点的碱基序列进行离散化数值处理的具体处理过程包括:假设与目标 疾病相关的原始SNP位点为m个,对SNP位点的序列进行离散化数值处理得到 离散特征;同时将样本数据分为训练数据与测试数据,其中训练数据的对应样 本数量为n1个,测试数据的对应样本数量为n2个,则给出每一样本数据对应的 目标疾病程度标签和标识健康或患病的身体状态标签,以得到训练数据矩阵X (n1*m)和训练标签向量Y(n1*1),测试数据矩阵W(n2*m)和测试标签向量Z(n2*1), 其中,所述目标疾病程度标签用0到1的连续值表示,身体状态标签用0和1 两个离散值表示;
模型创建单元,其能够基于极端梯度提升方法,创建特征重要性排序模型 并搜索出所述模型对应的最佳性能指标参数;
特征重要性排序单元,其能够基于所述模型进行特征重要性排序以选择出 前k个SNP位点;
以及评分单元,其能够基于多基因风险评分方法,依次对每一样本数据进 行评分。
可选的,在其中一个实施例中,所述模型创建单元包括特征重要性排序模 型建立模块、第一数据处理模块、第二数据处理模块、第三数据处理模块以及 参数输出模块,
其中所述特征重要性排序模型建立模块能够建立训练数据对应的特征重要 性排序模型,其具体过程包括设定样本数据的训练数据中每一行样本表示为 xi(i=1,2···n1),对应的每一行样本标签表示为yi(i=1,2···n1),同时每一行样本的预 测标签表示为
Figure BDA0002332592700000051
则建立训练数据对应的特征重要性排序模型,模型 公式如下述公式(2-1)所示:
Figure BDA0002332592700000052
其中,
Figure BDA0002332592700000053
表示每一步生成回归树的模型,q(xi)表示样本i落在叶节 点上的索引,
Figure BDA0002332592700000054
表示样本i落在叶节点上的取值,F(xi)表示生成T个弱分类器 总预测模型;
第一数据处理模块能够给定目标函数,以获取特征重要性排序模型中每棵 回归树的结构和取值,所述目标函数对应的函数公式如下述公式(2-2)所示
Figure BDA0002332592700000055
其中,
Figure BDA0002332592700000056
表示损失函数,Ω(ft)表示ft对应的正则化项,
针对不同类型的标签,所述损失函数对应的损失函数模型分别为
若连续值对应的标签,则所述损失函数模型为平方损失函数,对应的公式 为下述公式(2-3)
Figure BDA0002332592700000057
若离散值对应的标签,则所述损失函数模型为逻辑损失函数,对应的公式 为下述公式(2-4)
Figure BDA0002332592700000058
上述公式(3)与(4)对应的正则化项,其对应的公式为下述公式(2-5)
Figure BDA0002332592700000059
其中,J和wj分别表示当前建立回归树的叶节点个数和取值,γ和均λ表示 用于调节回归树的结构和取值的超参数;
第二数据处理模块能够确定所述目标函数的最小化形式,即利用前向分步 的方式展开目标函数后,使用泰勒展开式进行二阶近似展开以获取所述目标函 数的最小化形式;
其中,利用前向分步的方式展开所述目标函数,所获得的公式如下式(2-6)
Figure RE-GDA0002506884460000061
用泰勒展开式进行二阶近似展开,得到所述目标函数的二阶近似展开形式 如下式(2-7)
Figure BDA0002332592700000062
其中,ft(xi)表示第t棵回归树的预测值,
Figure BDA0002332592700000063
表示前t-1棵回归树的预测值,
移除公式(2-7)中的常数项
Figure BDA0002332592700000064
同时定义Ij={i|q(xi)=j}作为回归树 叶节点j的样本数据集,并将正则化项对应的公式(2-5)带入到所述公式(2-7) 中,将目标函数重新改写成公式(8)的形式,即
Figure BDA0002332592700000065
第三数据处理模块能够对所述目标函数对应的公式(2-8)的形式进行最小 化计算得到最优叶节点j的取值wj *并确定出当前结构最小目标函数;
最优叶节点j的取值wj *对应的计算公式为下述公式(2-9)
Figure BDA0002332592700000066
当前结构最小目标函数对应的公式为下述公式(2-10)
Figure BDA0002332592700000067
参数输出模块能够确定模型对应的最佳回归树的结构并搜索出所述模型对 应的最佳性能指标参数。
可选的,在其中一个实施例中,所述特征重要性排序单元中基于所述模型 进行特征重要性排序以选择出前k个SNP位点包括:对所述最佳性能指标参数 对应的特征重要性排序模型进行特征重要性排序即通过下述公式(2-12)计算每 个特征的最大增益,并获取所述特征出现的频次平均值后,按照每个SNP位点 特征平均信息增益的大小确定特征的重要程度并进行特征重要性排序得到需要 的前k个SNP位点,其中
Figure BDA0002332592700000071
其中cf为第f个特征在所有分类树出现的次数,Gaini为该特征第i次作为分 割节点的信息增益,Sf为第f个特征的平均信息增益;基于多基因风险评分方 法,依次对每一样本数据进行评分以获取对应的评分结果包括:通过PRS计算 公式对每一样本数据进行评分,其中PRS计算公式为公式(2-13):
Figure BDA0002332592700000072
其中,
Figure BDA0002332592700000073
表示样本xi在第f个SNP位点的表达值;βf表示第f个特征经 过特征选择之后前k个SNP位点的权重系数;所述权重系数的确定包括:对于 所有经过特征选择之后的样本进行LASSO回归以得到模型的拟合系数,即为 SNP位点的权重系数。
实施本发明实施例,将具有如下有益效果:
采用了上述技术之后,本发明通过所建立的与SNP位点特征选择相匹配的 模型,实现了从大量的SNP位点中通过非线性方法选择出与目标疾病关联程度 最大的位点,其能够更精准的确定影响目标疾病的SNP位点,可以节约大量的 计算开销;为用户提供客观的理论数据,以在未来的个性化医疗和精准医学进 行辅助性应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中方法对应的核心步骤流程图;
图2为一个实施例中方法对应的具体实施步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术 领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术 语只是为了描述具体的实施例的目的,不是旨在限制本发明。可以理解,本发 明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元 件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例 来说,在不脱离本申请的范围的情况下,可以将第一元件称为第二元件,且类 似地,可将第二元件为第一元件。第一元件和第二元件两者都是元件,但其不 是同一元件。
为了解决在面对多基因风险评估所存在的不足,因此本发明开发一种通过 极端梯度提升(eXtreme Gradient Boosting,XGBoost)的方法获取对SNP位点 进行特征重要性排序,从而筛选出前k个SNP位点得到PRS的预测结果(k为 所需SNP位点的经验值)的评分方法,进而为用户提供客观的理论数据,以在 未来的个性化医疗和精准医学进行辅助性应用。所述方法基本可以分为下述几 大步骤:1.在样本数据集合中对SNP位点进行预处理;2.建立初始的XGBoost 模型并搜索该模型对应的最佳参数以确定出最佳XGBoost模型;3.基于XGBoost 特征选择出前k个SNP位点;4.对样本进行PRS评分。具体的如图1-2所示, 该方法包括S1、基于给定的SNP位点个数并对SNP位点的碱基序列进行离散 化数值处理;S2、基于极端梯度提升方法,创建特征重要性排序模型并搜索出 所述模型对应的最佳性能指标参数;S3、基于所述模型进行特征重要性排序以 选择出前k个SNP位点;S4、基于多基因风险评分方法,依次对每一样本数据 进行评分以获取评分结果。
其中,在S1基于给定的SNP位点个数并对SNP位点的碱基序列进行离散 化数值处理中:由于基因是由染色单体上一段固定长度的碱基来表示,而每个 SNP是由单个碱基发生该改变所引起,例如胞嘧啶C转化为胸腺嘧啶T,而一 对等位基因可以由同源的染色单体上相同位置的基因来表示,则任意一个样本 的SNP位点都可以表示为两个碱基序列,例如CT,则变异之后的位点序列有三 种情况CC、CT、TT。基于上述理论,则假设与目标疾病相关的原始SNP位点 为m个,对SNP位点的序列进行离散化数值处理以得到对应的离散特征,分别 用0、1、2表示。假设训练数据的样本为n1个,测试数据的样本为n2个,对于 样本的标签可以用0到1的连续值(代表目标疾病的程度)或用0和1两个离 散值(代表健康或患病)表示,此时得到训练数据矩阵X(n1*m)和训练标签向 量Y(n1*1),测试数据矩阵W(n2*m)和测试标签向量Z(n2*1)。
在一些具体的实施例中,所述S2中基于极端梯度提升方法,创建特征重要 性排序模型并搜索出所述模型对应的最佳性能指标参数包括:
S21、设定样本数据的训练数据中每一行样本表示为xi(i=1,2···n1),对应的每 一行样本标签表示为yi(i=1,2···n1),同时每一行样本的预测标签表示为
Figure BDA0002332592700000081
则建立训练数据对应的特征重要性排序模型即XGBoost模型,模 型公式如下述公式(1-1)所示:
Figure BDA0002332592700000082
其中,
Figure BDA0002332592700000083
表示每一步生成回归树的模型,q(xi)表示样本i落在叶节点上的索引,
Figure BDA0002332592700000084
表示样本i落在叶节点上的取值,F(xi)表示生成T个弱分类器总预 测模型;本文中的XGBoost是梯度提升树(Gradient Boosting Decision Tree, GBDT)的强化模型,而GBDT是一种以回归树为基本分类器的回归方法,被 认为是统计学习中性能最好的方法之一,则XGBoost本质上是一种以集成学习 中的提升为主体思想的统计学习方法,每一步产生一个弱分类器的模型,并累 加到总模型中去;
S22、给定目标函数,以获取特征重要性排序模型中每棵回归树的结构和取 值,所述目标函数对应的函数公式如下述公式(1-2)所示
Figure BDA0002332592700000091
其中,
Figure BDA0002332592700000092
表示损失函数,Ω(ft)表示ft对应的正则化项;
针对不同类型的标签可以选择不同的损失函数模型即针对不同类型的标签, 所述损失函数对应的损失函数模型分别为
若连续值对应的标签,则所述损失函数模型为平方损失函数,对应的公式 为下述公式(1-3)
Figure BDA0002332592700000093
若离散值对应的标签,则所述损失函数模型为逻辑损失函数,对应的公式 为下述公式(1-4)
Figure BDA0002332592700000094
上述公式(1-3)与(1-4)对应的正则化项,对应的公式为下述公式(1-5), 正则项(1-5)可以防止预测结果发生过拟合现象:
Figure BDA0002332592700000095
其中,J和wj分别表示当前建立回归树的叶节点个数和取值,γ和均λ表示 设置的用于调节回归树的结构和取值的超参数;
S23、确定所述目标函数的最小化形式,即利用前向分步的方式展开目标函 数后,使用泰勒展开式进行二阶近似展开以获取所述目标函数的最小化形式; 本步骤的作用是:一般来讲,很难直接对公式(1-1)的回归树集成模型进行目 标函数最小化,因此特别选用前向分步的方式展开成目标函数(1-6)之后用泰 勒展开式进行二阶近似展开;
其中,利用前向分步的方式展开所述目标函数,所获得的公式如下式(1-6)
Figure RE-GDA0002506884460000096
用泰勒展开式进行二阶近似展开,得到所述目标函数的二阶近似展开形式 如下式(1-7)
Figure BDA0002332592700000097
其中,ft(xi)表示第t棵回归树的预测值,
Figure BDA0002332592700000098
表示前t-1棵回归树的预测值,
移除公式(1-7)中的常数项
Figure BDA0002332592700000099
同时定义Ij={i|q(xi)=j}作为回归树 叶节点j的样本数据集,并将正则化项对应的公式(1-5)带入到所述公式(1-7) 中,将目标函数重新改写成公式(1-8)的形式,即
Figure BDA0002332592700000101
S24、对所述目标函数对应的公式(1-8)的形式进行最小化计算得到最优叶 节点j的取值wj *并确定出当前结构最小目标函数;
最优叶节点j的取值wj *对应的计算公式为下述公式(1-9)
Figure BDA0002332592700000102
当前结构最小目标函数对应的公式为下述公式(1-10)
Figure BDA0002332592700000103
至此,可以通过公式(1-9)计算出每一棵回归树叶节点的最优取值,同时 还可以计算出当前回归树结构的最小目标函数值,这个值能代表当前所建立回 归树的纯度指标。对于最佳回归树的结构可以通过枚举所有回归树的分割节点 来遍历所有可能的回归树;
S25、确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能 指标参数。
在一些具体的实施例中,所述S25中确定模型对应的最佳回归树的结构并 搜索出所述模型对应的最佳性能指标参数包括:
S251、通过枚举所有回归树的分割节点来遍历所有可能的回归树获取最佳 回归树的结构,所述分割节点所构成的样本集合I中的一部分样本构成子集合IL或者称为左半部分集合,另一部分样本构成子集合IR或者称为右半部分集合, 即I=IL∪IR,其中节点的分割标准通过下述增益函数公式(1-11)获得,
Figure BDA0002332592700000104
通过上述计算就可以确定每一步的生成回归树的结构和取值,从而确定整 个模型结构,但是上述步骤中影响XGBoost模型的参数有很多,例如迭代的步 长、分类树的最大深度、最小叶节点的权重值以及正则化参数等,可以通过给 定所有参数的范围不断地对上述过程进行模型训练,直到得出最优模型因此引 入步骤S252;
S252、确定每一步的生成回归树的结构和取值后,通过给定所有参数的范 围不断地对上述过程进行模型训练,直到得出最优模型即搜索出所述模型对应 的最佳性能指标参数,所述参数至少包括迭代的步长、分类树的最大深度、最 小叶节点的权重值以及正则化参数中一种或者多种组合。具体的包括:给出所 选参数的范围,根据参数的排列组合计算出所要循环的次数l,首先从参数的首 位组合开始训练XGBoost模型,并记当前的循环次数为l`,在每次循环中对测 试数据矩阵W和测试数据标签Z进行模型预测并评价,如果目标疾病的标签为连 续值,则使用决定系数(R2)作为性能评价指标,R2是一个取值在0到1之间的数,该R2的值越接近1,表明模型效果越好;如果目标疾病的标签为离散值, 则使用受试者工作特性(Receiver Operating Characteristic,ROC)曲线下的面积 (Area Under ROCCurve,AUC)作为性能评价指标,AUC是一个取值在0到1 之间的数,该AUC的值越接近1,表明模型效果越好。同时保留当前所选参数 和性能指标p,并判断是否满足循环次数,如果未满足则更新所选参数继续上述 步骤;若满足则选择所有循环的结果中性能指标最好的参数作为XGBoost的模 型参数。
在一些具体的实施例中,XGBoost的特征排序方法可以通过计算每个特征 的最大增益,并对其出现的频次做算术平均,最后按照每个SNP位点特征平均 信息增益的大小确定特征的重要程度,即所述S3中基于所述模型进行特征重要 性排序以选择出前k个SNP位点包括:对所述最佳性能指标参数对应的特征重 要性排序模型进行特征重要性排序即通过下述公式1-12计算每个特征的最大增 益,并获取所述特征出现的频次平均值后,按照每个SNP位点特征平均信息增 益的大小确定特征的重要程度并进行特征重要性排序得到需要的前k个SNP位 点,其中
Figure BDA0002332592700000111
其中cf为第f个特征在所有分类树出现的次数,Gaini为该特征第i次作为 分割节点的信息增益,Sf为第f个特征的平均信息增益。
在一些具体的实施例中,所述S4中基于多基因风险评分方法,依次对每一 样本数据进行评分,PRS本质上是一个对SNP位点进行加权计算的过程,其包 括:通过PRS计算公式对每一样本数据进行评分,其中PRS计算公式为公式 (1-13):
Figure BDA0002332592700000112
其中,
Figure BDA0002332592700000113
表示样本xi在第f个SNP位点的表达值;βf表示第f个特征经过特征 选择之后前k个SNP位点的权重系数。
在一些具体的实施例中,所述权重系数的确定包括:
对于所有经过特征选择之后的样本进行LASSO回归以得到模型的拟合系数, 即为SNP位点的权重系数。
此外,为解决传统技术所存在的不足,还提出了一种基于极端梯度提升方 法进行特征选择获取多基因风险评分的系统,其包括:
离散化处理单元,其能够基于给定的SNP位点个数并对SNP位点的碱基序 列进行离散化数值处理;
模型创建单元,其能够基于极端梯度提升方法,创建特征重要性排序模型 并搜索出所述模型对应的最佳性能指标参数;
特征重要性排序单元,其能够基于所述模型进行特征重要性排序以选择出 前k个SNP位点;
以及评分单元,其能够基于多基因风险评分方法,依次对每一样本数据进 行评分获取评分结果。
可选的,在其中一个实施例中,所述离散化处理单元中的基于给定的SNP 位点个数并对SNP位点的碱基序列进行离散化数值处理的具体处理过程包括: 假设与目标疾病相关的原始SNP位点为m个,对SNP位点的序列进行离散化数 值处理以获取离散特征;同时将样本数据分为训练数据与测试数据,其中训练 数据的对应样本数量为n1个,测试数据的对应样本数量为n2个,则给出每一样 本数据对应的目标疾病程度标签和标识健康或患病的身体状态标签,以得到训 练数据矩阵X(n1*m)和训练标签向量Y(n1*1),测试数据矩阵W(n2*m)和测试标签 向量Z(n2*1),其中,所述目标疾病程度标签用0到1的连续值表示,身体状态标签用0和1两个离散值表示。
在一些具体的实施例中,所述模型创建单元包括特征重要性排序模型建立 模块、第一数据处理模块、第二数据处理模块、第三数据处理模块以及参数输 出模块,
其中所述特征重要性排序模型建立模块能够建立训练数据对应的特征重要 性排序模型,其具体过程包括设定样本数据的训练数据中每一行样本表示为 xi(i=1,2···n1),对应的每一行样本标签表示为yi(i=1,2···n1),同时每一行样本的预 测标签表示为
Figure BDA0002332592700000121
则建立训练数据对应的特征重要性排序模型,模型 公式如下述公式(2-1)所示:
Figure BDA0002332592700000122
其中,
Figure BDA0002332592700000123
表示每一步生成回归树的模型,q(xi)表示样本i落在叶节 点上的索引,
Figure BDA0002332592700000124
表示样本i落在叶节点上的取值,F(xi)表示生成T个弱分类器 总预测模型;
第一数据处理模块能够给定目标函数,以获取特征重要性排序模型中每棵 回归树的结构和取值,所述目标函数对应的函数公式如下述公式(2-2)所示
Figure BDA0002332592700000125
其中,
Figure BDA0002332592700000126
表示损失函数,Ω(ft)表示ft对应的正则化项,
针对不同类型的标签,所述损失函数对应的损失函数模型分别为
若连续值对应的标签,则所述损失函数模型为平方损失函数,对应的公式 为下述公式(2-3)
Figure BDA0002332592700000131
若离散值对应的标签,则所述损失函数模型为逻辑损失函数,对应的公式 为下述公式(2-4)
Figure BDA0002332592700000132
上述公式3与4对应的正则化项,对应的公式为下述公式(2-5)
Figure BDA0002332592700000133
其中,J和wj分别表示当前建立回归树的叶节点个数和取值,γ和均λ表示 用于调节回归树的结构和取值的超参数;
第二数据处理模块能够确定所述目标函数的最小化形式,即利用前向分步 的方式展开目标函数后,使用泰勒展开式进行二阶近似展开以获取所述目标函 数的最小化形式;
其中,利用前向分步的方式展开所述目标函数,所获得的公式如下式(2-6)
Figure RE-GDA0002506884460000134
用泰勒展开式进行二阶近似展开,得到所述目标函数的二阶近似展开形式 如下式(2-7)
Figure BDA0002332592700000135
其中,ft(xi)表示第t棵回归树的预测值,
Figure BDA0002332592700000136
表示前t-1棵回归树的预测值,
移除公式(2-7)中的常数项
Figure BDA0002332592700000137
同时定义Ij={i|q(xi)=j}作为回归树 叶节点j的样本数据集,并将正则化项对应的公式(2-5)带入到所述公式(2-7) 中,将目标函数重新改写成公式(2-8)的形式,即
Figure BDA0002332592700000138
第三数据处理模块能够对所述目标函数对应的公式(2-8)的形式进行最小 化计算得到最优叶节点j的取值wj *并确定出当前结构最小目标函数;
最优叶节点j的取值wj *对应的计算公式为下述公式(2-9)
Figure BDA0002332592700000139
当前结构最小目标函数对应的公式为下述公式(2-10)
Figure BDA0002332592700000141
参数输出模块能够确定模型对应的最佳回归树的结构并搜索出所述模型对 应的最佳性能指标参数。
在一些具体的实施例中,所述确定模型对应的最佳回归树的结构并搜索出 所述模型对应的最佳性能指标参数包括:
通过枚举所有回归树的分割节点来遍历所有可能的回归树获取最佳回归树 的结构,所述分割节点所构成的样本集合I中的一部分样本构成子集合IL,另一 部分样本构成子集合IR,即I=IL∪IR,其中节点的分割标准通过下述增益函数公 式(2-11)获得,
Figure BDA0002332592700000142
同时确定每一步的生成回归树的结构和取值后,通过给定所有参数的范围 不断地对上述过程进行模型训练,直到得出最优模型即搜索出所述模型对应的 最佳性能指标参数,所述参数至少包括迭代的步长、分类树的最大深度、最小 叶节点的权重值以及正则化参数中一种或者多种组合。
在一些具体的实施例中,所述特征重要性排序单元中基于所述模型进行特 征重要性排序以选择出前k个SNP位点包括:对所述最佳性能指标参数对应的 特征重要性排序模型进行特征重要性排序即通过下述公式(2-12)计算每个特征 的最大增益,并获取所述特征出现的频次平均值后,按照每个SNP位点特征平 均信息增益的大小确定特征的重要程度并进行特征重要性排序得到需要的前k 个SNP位点,其中
Figure BDA0002332592700000143
其中cf为第f个特征在所有分类树出现的次数,Gaini为该特征第i次作为 分割节点的信息增益,Sf为第f个特征的平均信息增益。
在一些具体的实施例中,所述评分单元中基于多基因风险评分方法,依次 对每一样本数据进行评分包括:通过PRS计算公式对每一样本数据进行评分, 其中PRS计算公式为公式(2-13):
Figure BDA0002332592700000144
其中,
Figure BDA0002332592700000145
表示样本xi在第f个SNP位点的表达值;βf表示第f个特征经过特征 选择之后前k个SNP位点的权重系数。
在一些具体的实施例中,所述权重系数的确定包括:
对于所有经过特征选择之后的样本进行LASSO回归以得到模型的拟合系数, 即为SNP位点的权重系数。
基于相同的发明构思,本发明还提出了一种计算机可读存储介质,包括计 算机指令,当所述计算机指令在计算机上运行时,使得计算机执行所述的方法。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和 改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附 权利要求为准。

Claims (10)

1.一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法,其特征在于,包括如下步骤:
S1、基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理;
S2、基于极端梯度提升方法,创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数;
S3、基于所述模型进行特征重要性排序以选择出前k个SNP位点;
S4、基于多基因风险评分方法,依次对每一样本数据进行评分以获取对应的评分结果。
2.根据权利要求1所述的方法,其特征在于,所述S1中的基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理包括:假设与目标疾病相关的原始SNP位点为m个,对SNP位点的序列进行离散化数值处理得到离散特征;同时将样本数据分为训练数据与测试数据,其中训练数据的对应样本数量为n1个,测试数据的对应样本数量为n2个,则给出每一样本数据对应的目标疾病程度标签和标识健康或患病的身体状态标签,以得到训练数据矩阵X(n1*m)和训练标签向量Y(n1*1),测试数据矩阵W(n2*m)和测试标签向量Z(n2*1),其中,所述目标疾病程度标签用0到1的连续值表示,身体状态标签用0和1两个离散值表示。
3.根据权利要求2所述的方法,其特征在于,所述S2中基于极端梯度提升方法,创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数包括:
S21、设定样本数据的训练数据中每一行样本表示为xi(i=1,2···n1),对应的每一行样本标签表示为yi(i=1,2···n1),同时每一行样本的预测标签表示为
Figure RE-FDA0002506884450000011
则建立训练数据对应的特征重要性排序模型,模型公式如下述公式(1-1)所示:
Figure RE-FDA0002506884450000012
其中,
Figure RE-FDA0002506884450000013
表示每一步生成回归树的模型,q(xi)表示样本i落在叶节点上的索引,
Figure RE-FDA0002506884450000014
表示样本i落在叶节点上的取值,F(xi)表示生成T个弱分类器总预测模型;
S22、给定目标函数,以获取特征重要性排序模型中每棵回归树的结构和取值,所述目标函数对应的函数公式如下述公式(1-2)所示
Figure RE-FDA0002506884450000015
其中,
Figure RE-FDA0002506884450000016
表示损失函数,Ω(ft)表示ft对应的正则化项,
针对不同类型的标签,所述损失函数对应的损失函数模型分别为
若连续值对应的标签,则所述损失函数模型为平方损失函数,对应的公式为下述公式(1-3)
Figure RE-FDA0002506884450000021
若离散值对应的标签,则所述损失函数模型为逻辑损失函数,对应的公式为下述公式(1-4)
Figure RE-FDA0002506884450000022
上述公式(1-3)与(1-4)对应的正则化项,其对应的公式为下述公式(1-5)
Figure RE-FDA0002506884450000023
其中,J和wj分别表示当前建立回归树的叶节点个数和取值,γ和均λ表示用于调节回归树的结构和取值的超参数;
S23、确定所述目标函数的最小化形式,即利用前向分步的方式展开目标函数后,使用泰勒展开式进行二阶近似展开以获取所述目标函数的最小化形式;
其中,利用前向分步的方式展开所述目标函数,所获得的公式如下式(1-6)
Figure RE-FDA0002506884450000024
用泰勒展开式进行二阶近似展开,得到所述目标函数的二阶近似展开形式如下式(1-7)
Figure RE-FDA0002506884450000025
其中,ft(xi)表示第t棵回归树的预测值,
Figure RE-FDA0002506884450000026
表示前t-1棵回归树的预测值;
移除公式(1-7)中的常数项
Figure RE-FDA0002506884450000027
同时定义Ij={i|q(xi)=j}作为回归树叶节点j的样本数据集,并将正则化项对应的公式(1-5)带入到所述公式(1-7)中,将目标函数重新改写成公式(1-8)的形式,即
Figure RE-FDA0002506884450000028
S24、对所述目标函数对应的公式(1-8)的形式进行最小化计算得到最优叶节点j的取值wj *并确定出当前结构最小目标函数;
最优叶节点j的取值wj *对应的计算公式为下述公式(1-9)
Figure RE-FDA0002506884450000029
当前结构最小目标函数对应的公式为下述公式(1-10)
Figure RE-FDA0002506884450000031
S25、确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能指标参数。
4.根据权利要求3所述的方法,其特征在于,所述S25中确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能指标参数包括:
S251、通过枚举所有回归树的分割节点来遍历所有可能的回归树获取最佳回归树的结构,所述分割节点所构成的样本集合I中的一部分样本构成子集合IL,另一部分样本构成子集合IR,即I=IL∪IR,其中节点的分割标准通过下述增益函数公式(1-11)获得,即
Figure RE-FDA0002506884450000032
S252、确定每一步的生成回归树的结构和取值后,通过给定所有参数的范围进行模型训练,以得出最优模型即搜索出所述模型对应的最佳性能指标参数,所述参数至少包括迭代的步长、分类树的最大深度、最小叶节点的权重值以及正则化参数中一种或者多种组合。
5.根据权利要求1所述的方法,其特征在于,所述S3中基于所述模型进行特征重要性排序以选择出前k个SNP位点包括:对所述最佳性能指标参数对应的特征重要性排序模型进行特征重要性排序即通过下述公式(1-12)计算每个特征的最大增益,并获取所述特征出现的频次平均值后,按照每个SNP位点特征平均信息增益的大小确定特征的重要程度并进行特征重要性排序得到需要的前k个SNP位点,其中
Figure RE-FDA0002506884450000033
其中cf为第f个特征在所有分类树出现的次数,Gaini为该特征第i次作为分割节点的信息增益,Sf为第f个特征的平均信息增益。
6.根据权利要求1所述的方法,其特征在于,所述S4中基于多基因风险评分方法,依次对每一样本数据进行评分以获取对应的评分结果包括:通过PRS计算公式对每一样本数据进行评分,其中PRS计算公式为公式(1-13):
Figure RE-FDA0002506884450000034
其中,
Figure RE-FDA0002506884450000035
表示样本xi在第f个SNP位点的表达值;βf表示第f个特征经过特征选择之后前k个SNP位点的权重系数。
7.根据权利要求1所述的方法,其特征在于,所述权重系数的确定包括:
对于所有经过特征选择之后的样本进行LASSO回归以得到模型的拟合系数,即为SNP位点的权重系数。
8.一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的系统,其特征在于,包括:
离散化处理单元,其能够基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理;所述离散化处理单元中的基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理的具体处理过程包括:假设与目标疾病相关的原始SNP位点为m个,对SNP位点的序列进行离散化数值处理得到离散特征;同时将样本数据分为训练数据与测试数据,其中训练数据的对应样本数量为n1个,测试数据的对应样本数量为n2个,则给出每一样本数据对应的目标疾病程度标签和标识健康或患病的身体状态标签,以得到训练数据矩阵X(n1*m)和训练标签向量Y(n1*1),测试数据矩阵W(n2*m)和测试标签向量Z(n2*1),其中,所述目标疾病程度标签用0到1的连续值表示,身体状态标签用0和1两个离散值表示;
模型创建单元,其能够基于极端梯度提升方法,创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数;
特征重要性排序单元,其能够基于所述模型进行特征重要性排序以选择出前k个SNP位点;
以及评分单元,其能够基于多基因风险评分方法,依次对每一样本数据进行评分。
9.根据权利要求8所述的系统,其特征在于,所述模型创建单元包括特征重要性排序模型建立模块、第一数据处理模块、第二数据处理模块、第三数据处理模块以及参数输出模块,
其中所述特征重要性排序模型建立模块能够建立训练数据对应的特征重要性排序模型,其具体过程包括设定样本数据的训练数据中每一行样本表示为xi(i=1,2···n1),对应的每一行样本标签表示为yi(i=1,2···n1),同时每一行样本的预测标签表示为
Figure RE-FDA0002506884450000041
则建立训练数据对应的特征重要性排序模型,模型公式如下述公式(2-1)所示:
Figure RE-FDA0002506884450000042
其中,
Figure RE-FDA0002506884450000043
表示每一步生成回归树的模型,q(xi)表示样本i落在叶节点上的索引,
Figure RE-FDA0002506884450000044
表示样本i落在叶节点上的取值,F(xi)表示生成T个弱分类器总预测模型;
第一数据处理模块能够给定目标函数,以获取特征重要性排序模型中每棵回归树的结构和取值,所述目标函数对应的函数公式如下述公式(2-2)所示
Figure RE-FDA0002506884450000045
其中,
Figure RE-FDA0002506884450000046
表示损失函数,Ω(ft)表示ft对应的正则化项,
针对不同类型的标签,所述损失函数对应的损失函数模型分别为
若连续值对应的标签,则所述损失函数模型为平方损失函数,对应的公式为下述公式(2-3)
Figure RE-FDA0002506884450000051
若离散值对应的标签,则所述损失函数模型为逻辑损失函数,对应的公式为下述公式(2-4)
Figure RE-FDA0002506884450000052
上述公式(3)与(4)对应的正则化项,其对应的公式为下述公式(2-5)
Figure RE-FDA0002506884450000053
其中,J和wj分别表示当前建立回归树的叶节点个数和取值,γ和均λ表示用于调节回归树的结构和取值的超参数;
第二数据处理模块能够确定所述目标函数的最小化形式,即利用前向分步的方式展开目标函数后,使用泰勒展开式进行二阶近似展开以获取所述目标函数的最小化形式;
其中,利用前向分步的方式展开所述目标函数,所获得的公式如下式(2-6)
Figure RE-FDA0002506884450000054
用泰勒展开式进行二阶近似展开,得到所述目标函数的二阶近似展开形式如下式(2-7)
Figure RE-FDA0002506884450000055
其中,ft(xi)表示第t棵回归树的预测值,
Figure RE-FDA0002506884450000056
表示前t-1棵回归树的预测值,
移除公式(2-7)中的常数项
Figure RE-FDA0002506884450000057
同时定义Ij={i|q(xi)=j}作为回归树叶节点j的样本数据集,并将正则化项对应的公式(2-5)带入到所述公式(2-7)中,将目标函数重新改写成公式(8)的形式,即
Figure RE-FDA0002506884450000058
第三数据处理模块能够对所述目标函数对应的公式(2-8)的形式进行最小化计算得到最优叶节点j的取值wj *并确定出当前结构最小目标函数;
最优叶节点j的取值wj *对应的计算公式为下述公式(2-9)
Figure RE-FDA0002506884450000059
当前结构最小目标函数对应的公式为下述公式(2-10)
Figure RE-FDA0002506884450000061
参数输出模块能够确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能指标参数。
10.根据权利要求9所述的系统,其特征在于,所述特征重要性排序单元中基于所述模型进行特征重要性排序以选择出前k个SNP位点包括:对所述最佳性能指标参数对应的特征重要性排序模型进行特征重要性排序即通过下述公式(2-12)计算每个特征的最大增益,并获取所述特征出现的频次平均值后,按照每个SNP位点特征平均信息增益的大小确定特征的重要程度并进行特征重要性排序得到需要的前k个SNP位点,其中
Figure RE-FDA0002506884450000062
其中cf为第f个特征在所有分类树出现的次数,Gaini为该特征第i次作为分割节点的信息增益,Sf为第f个特征的平均信息增益;基于多基因风险评分方法,依次对每一样本数据进行评分以获取对应的评分结果包括:通过PRS计算公式对每一样本数据进行评分,其中PRS计算公式为公式(2-13):
Figure RE-FDA0002506884450000063
其中,
Figure RE-FDA0002506884450000064
表示样本xi在第f个SNP位点的表达值;βf表示第f个特征经过特征选择之后前k个SNP位点的权重系数;所述权重系数的确定包括:对于所有经过特征选择之后的样本进行LASSO回归以得到模型的拟合系数,即为SNP位点的权重系数。
CN201911343021.2A 2019-12-24 2019-12-24 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统 Active CN111429970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911343021.2A CN111429970B (zh) 2019-12-24 2019-12-24 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911343021.2A CN111429970B (zh) 2019-12-24 2019-12-24 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统

Publications (2)

Publication Number Publication Date
CN111429970A true CN111429970A (zh) 2020-07-17
CN111429970B CN111429970B (zh) 2024-03-22

Family

ID=71546907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911343021.2A Active CN111429970B (zh) 2019-12-24 2019-12-24 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统

Country Status (1)

Country Link
CN (1) CN111429970B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233722A (zh) * 2020-10-19 2021-01-15 北京诺禾致源科技股份有限公司 品种鉴定的方法、其预测模型的构建方法和装置
CN113269351A (zh) * 2021-04-28 2021-08-17 贵州电网有限责任公司 一种面向电网设备故障概率预测的特征选择方法
CN113886372A (zh) * 2021-09-08 2022-01-04 天元大数据信用管理有限公司 一种基于改进层次分析法的用户画像构建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098053A1 (en) * 2014-06-09 2017-04-06 Georgetown University Telegenetics
CN109326316A (zh) * 2018-09-18 2019-02-12 哈尔滨工业大学(深圳) 一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法和应用
CN109408774A (zh) * 2018-11-07 2019-03-01 上海海事大学 基于随机森林和梯度提升树的预测污水出水指标的方法
CN109829236A (zh) * 2019-01-31 2019-05-31 浙江工业大学 一种基于XGBoost特征提取的压缩机故障诊断方法
CN109858970A (zh) * 2019-02-02 2019-06-07 中国银行股份有限公司 一种用户行为预测方法、装置及存储介质
CN110119540A (zh) * 2019-04-19 2019-08-13 电子科技大学 一种用于生存风险分析的多输出梯度提升树建模方法
CN110245802A (zh) * 2019-06-20 2019-09-17 杭州安脉盛智能技术有限公司 基于改进梯度提升决策树的卷烟空头率预测方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098053A1 (en) * 2014-06-09 2017-04-06 Georgetown University Telegenetics
CN109326316A (zh) * 2018-09-18 2019-02-12 哈尔滨工业大学(深圳) 一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法和应用
CN109408774A (zh) * 2018-11-07 2019-03-01 上海海事大学 基于随机森林和梯度提升树的预测污水出水指标的方法
CN109829236A (zh) * 2019-01-31 2019-05-31 浙江工业大学 一种基于XGBoost特征提取的压缩机故障诊断方法
CN109858970A (zh) * 2019-02-02 2019-06-07 中国银行股份有限公司 一种用户行为预测方法、装置及存储介质
CN110119540A (zh) * 2019-04-19 2019-08-13 电子科技大学 一种用于生存风险分析的多输出梯度提升树建模方法
CN110245802A (zh) * 2019-06-20 2019-09-17 杭州安脉盛智能技术有限公司 基于改进梯度提升决策树的卷烟空头率预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱国忠 等: "适于陆地棉品种身份鉴定的SNP核心位点筛选与评价", 作物学报, vol. 44, no. 11, pages 1631 - 1639 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233722A (zh) * 2020-10-19 2021-01-15 北京诺禾致源科技股份有限公司 品种鉴定的方法、其预测模型的构建方法和装置
CN112233722B (zh) * 2020-10-19 2024-01-30 北京诺禾致源科技股份有限公司 品种鉴定的方法、其预测模型的构建方法和装置
CN113269351A (zh) * 2021-04-28 2021-08-17 贵州电网有限责任公司 一种面向电网设备故障概率预测的特征选择方法
CN113886372A (zh) * 2021-09-08 2022-01-04 天元大数据信用管理有限公司 一种基于改进层次分析法的用户画像构建方法

Also Published As

Publication number Publication date
CN111429970B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
Hernandez et al. Ultrarare variants drive substantial cis heritability of human gene expression
Wong et al. Decoding disease: from genomes to networks to phenotypes
CN111429970B (zh) 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统
Binder et al. Big data in medical science—a biostatistical view: Part 21 of a series on evaluation of scientific publications
CN111653359A (zh) 一种出血性疾病的智能预测模型构建方法和预测系统
CN113555062B (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
Ma et al. An integrative framework for protein interaction network and methylation data to discover epigenetic modules
Kaur et al. Prediction of enhancers in DNA sequence data using a hybrid CNN-DLSTM model
CN113593630A (zh) 一种家庭冠心病患病风险评估及其风险因素鉴定系统
Jiang et al. LightCpG: a multi-view CpG sites detection on single-cell whole genome sequence data
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
Li et al. FUNMarker: Fusion network-based method to identify prognostic and heterogeneous breast cancer biomarkers
Whitehouse et al. Timesweeper: accurately identifying selective sweeps using population genomic time series
Mukhopadhyay et al. A comparative study of genetic sequence classification algorithms
Maskey et al. LePrimAlign: local entropy-based alignment of PPI networks to predict conserved modules
CN111739582B (zh) 一种基于协同作用网络的生物组学数据分析方法
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
CN114566219A (zh) 一种融合基因调控特征的抗肿瘤药物药效预测方法
Sun et al. Prediction of potential associations between miRNAs and diseases based on matrix decomposition
CN109033754B (zh) 基于二分网络的疾病关联LncRNA的预测方法及装置
Wibowo et al. XGB5hmC: Identifier based on XGB model for RNA 5-hydroxymethylcytosine detection
Sett et al. A fuzzy clustering algorithm influenced by validity indices (FCVI) for recognizing the differentially expressed cancer mediating genes
Cakiroglu et al. ChromWave: Deciphering the DNA-encoded competition between transcription factors and nucleosomes with deep neural networks
TWI650664B (zh) 建立蛋白質功能缺失評估模型的方法以及利用上述模型的風險評估方法與系統
Bian et al. Hidden Markov models in bioinformatics: SNV inference from next generation sequence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant