CN111161799B

CN111161799B - 一种基于多组学数据获取多基因风险评分的方法及系统

Info

Publication number: CN111161799B
Application number: CN201911353185.3A
Authority: CN
Inventors: 马宝山; 闫格; 方明坤; 聂伊辰
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-12-15
Anticipated expiration: 2039-12-24
Also published as: CN111161799A

Abstract

本发明实施例公开了一种基于多组学数据获取多基因风险评分的方法及系统，其包括输入多组学原始数据并对所述多组学原始数据进行预处理；将预处理后数据划分为训练集与验证集后，基于所述训练集创建线性回归模型，基于所述验证集对所述线性回归模型进行验证，在验证合格后选定出作为多基因风险评分的评分模型；对输入的待测数据进行评分。本发明解决了现有技术中数据来源缺乏多样性，那么就会对多基因风险评分的有效性存在一定的限制的弊端。

Description

一种基于多组学数据获取多基因风险评分的方法及系统

技术领域

本发明涉及基因检测分析技术领域，尤其涉及一种基于多组学数据获取多基因风险评分的方法及系统。

背景技术

诸多复杂疾病都是由多基因、基因与基因相互作用、基因与环境相互作用共同引起的。这些基因与基因、基因与环境的相互作用构成了复杂的多层次生物网络，而疾病的发生与发展与这复杂网络的变异息息相关。

多基因风险评分是一种用来评估个体患某种疾病风险的方法，通过输入统计数据的基因型效应值来进行计算，是一种可以在某个水平进行遗传倾向估计得方法。多基因风险评分(PRS)可以预测一个人患上冠状动脉疾病、乳腺癌或糖尿病等诸多复杂疾病的风险。许多疾病是由一系列常见变异和低频变异所介导的。尽管每个变异的影响跟小，但综合起来可以预测一个人的风险。多基因风险评分的目标就是将患者分到不同的风险类别，为精准医疗打下基础。

标准的多基因风险评分方法是计算对应于每个个体中相关表型的风险等位基因总和，并通过全基因组关联分析方法对表型的单核苷酸多样性效应大小进行加权处理。该PRS方法是仅使用单核苷酸多态性(SNP)数据作为输入数据进行多基因风险评分；在上述方法中，最主要的问题是数据来源缺乏多样性，那么就会对多基因风险评分的有效性存在一定的限制。

发明内容

基于此，为解决现有技术所存在的不足，特提出了一种基于多组学数据获取多基因风险评分的方法。

为了实现上述目的，本发明对应的技术方案是：

一种基于多组学数据获取多基因风险评分的方法，包括，其特征在于：

S1、输入多组学原始数据并对所述多组学原始数据进行预处理，所述多组学原始数据至少包括DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据中的一种或者多种组合；

S2、将预处理后数据划分为训练集与验证集后，基于所述训练集创建线性回归模型；

S3、基于所述验证集对所述线性回归模型进行验证，在验证合格后选定出作为多基因风险评分的评分模型；

S4、对输入的待测数据进行评分并获取评分结果。

可选的，在其中一个实施例中，所述S1中对所述多组学原始数据进行预处理即采用统计学方法或设定P值阈值的方法对所述多组学原始数据进行数据收缩。

可选的，在其中一个实施例中，将预处理后的多组学原始数据随机均分为k份，令i＝1，取第i组数据作为验证集，其余(k-1)组数据作为训练集，对应的线性回归模型公式为：

其中，Y表示疾病，可以为连续值表达量或离散值表达量，k表示数据收缩处理后的位点个数，x_j表示第j个的多组学原始数据表达值，α_j为对应位点的回归系数。

可选的，在其中一个实施例中，使用均方误差度量所述线性回归模型的性能，以确定最优回归系数值，即基于均方误差最小化进行模型求解，则均方误差最小化对应的回归系数α^*公式为：

设定E_α为均方误差，则令基于E_α对回归系数α求导，得到：

其中，m表示患者个数，y_i表示第i个患者是否得病，x_i表示第i个患者的多组学原始数据表达值；令上式为零即可得到所需的回归系数α的最优解。

基于相同的发明构思，本发明还提出了一种基于多组学数据获取多基因风险评分的系统，其特征在于，其包括：数据预处理单元、第一数据获取单元、第二数据获取单元和数据输出单元；

其中，数据预处理单元，其能够对所输入的多组学原始数据进行预处理，所述多组学原始数据包括但不限于DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据中的一种或者多种组合；

第一数据获取单元，其能够将预处理后数据划分为训练集与验证集后，基于所述训练集创建线性回归模型；

第二数据获取单元，其能够基于所述验证集对所述线性回归模型进行验证，在验证合格后选定出作为多基因风险评分的评分模型即选出效果最优的模型；

以及数据输出单元，其能够对输入的待测数据进行评分并输出评分结果。

可选的，在其中一个实施例中，对所述多组学原始数据进行预处理即采用统计学方法或设定P值阈值的方法对所述多组学原始数据进行数据收缩。

可选的，在其中一个实施例中，第一数据获取单元将预处理后的多组学原始数据随机均分为k份，令i＝1，取第i组数据作为验证集，其余(k-1)组数据作为训练集，对应的线性回归模型公式为：

其中，Y表示疾病，可以为连续值表达量或离散值表达量，k表示数据收缩处理后的位点个数，x_j表示第j个多组学原始数据表达值，α_j为对应位点的回归系数。

可选的，在其中一个实施例中，第一数据获取单元使用均方误差度量所述线性回归模型的性能，以确定最优回归系数值，即基于均方误差最小化进行模型求解，则均方误差最小化对应的回归系数α^*公式为：

设定E_α为均方误差，则令基于E_α对回归系数α求导，得到：

实施本发明实施例，将具有如下有益效果：

采用了上述技术之后，首先给出一种基于验证合格后线性回归模型作为多基因风险评分的评分模型，并对输入的待测数据进行评分并获取评分结果的方法；其次本发明可以灵活运用现有的多基因风险评分方法，不再局限于仅使用一种基因数据类型进行测评，如DNA序列信息或是转录组数据等都可以成为基因风险评分的有效信息；输入数据类型的多样性同时保证了评分结果的准确性；而使用多种不同的数据类型进行风险研究，也可以为精准医学和个体化测评提供有效地帮助。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中所述方法对应的核心步骤流程图；

图2为一个实施例中所述方法对应的具体步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。可以理解，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一元件称为第二元件，且类似地，可将第二元件为第一元件。第一元件和第二元件两者都是元件，但其不是同一元件。

在本实施例中，特提出了一种基于多组学数据获取多基因风险评分的方法，该方法首先提出了一种基于多组学数据输入的多基因风险评分模型，基于所述模型对待测数据进行评分测定以为用户提供准确的数据分析方法，如图1-2所示，该方法其特征在于，包括如下步骤：

S1、输入多组学原始数据并对所述多组学原始数据进行预处理，所述多组学原始数据至少包括DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据；在一些具体的实施例中，所述多组学原始数据，如DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据等数据，所述数据多来源于公开数据库如TCGA数据库、Oncomine数据库、GEO数据库等，所需数据可直接从库中下载得到；也可以自己通过使用测序仪器等测量手段直接获取数据；输入数据复杂多样，有效的提高了多基因风险评分预测的准确性，在下述例子中仅使用所述多组学原始数据中的DNA甲基化数据进行说明，设当输入数据为DNA甲基化数据，则对应的多基因风险分数为DNA甲基化的表达值x_i与对应位点的回归系数α_i的乘积的累加和；假设有一个n×m的DNA甲基化矩阵，矩阵的行代表有个n个样本数据，矩阵的列代表有m个CPG位点；则x_ij表示第i个样本的第j个CPG位点对应的DNA甲基化表达值。在一些具体的实施例中，输入的数据，如甲基化数据集数目庞大且具有不确定性，同时并非所有的甲基化数据都与研究中的性状相关，因此使用所有未调整的甲基化数据的效果估计值可能会产生效果不佳的评分模型，且有较大误差，因此要对数据进行收缩，即所述预处理主要是指对所述数据进行收缩处理，收缩处理方法中一般采用一定的统计技术收缩如甲基化数据等原始数据的效果估计值或对P值进行限制作为评分模型纳入分数的标准，其中，由于所述的统计技术中，最合适的收缩取决于零效应和真实效应大小分布的组合，通常在进行一系列的参数优化后获得，则所述统计技术主要有带惩罚项的逻辑回归方法和贝叶斯估计法。更进一步的，应用到本例的所述逻辑回归方法是在基础的线性回归上引入惩罚方法，通过构造一个惩罚函数得到一个较为精炼的模型，通过压缩一些回归系数，即强制系数绝对值之和小于某个固定值，并设定一些回归系数为零的方式达到变量选择的效果，并使用那些系数不为零的效应值来计算PRS；则对应的基础线性回归模型为：

对应的等价形式为：

其中t与λ一一对应，其为调节系数，Y为疾病，X为甲基化效应值(本例中使用多组学原始数据中其中个数据类型进行说明)，为引入的惩罚函数；令/>则t＜t₀时，一部分系数就会被压缩至0，从而降低数据X的维度，达到减小模型复杂度的目的；例如，若/>粗略来讲，模型中非零系数的个数就会由d大约减至/>更进一步的，应用到本例的所述对P值进行限制作为评分模型纳入分数的标准即P值选择阈值方法，所述P值选择阈值方法中，仅使用P值低于特定阈值的甲基化数据来有效排除零效应估计。P值阈值方法的标准方法为聚集和阈值的处理法，它选择了一个相关统计量“P值”来度量特征的重要性，P值越小说明结果越显著，一般认为P＜0.05为具有统计学差异。通常取P值低于特定阈值(例如，P＜1×10^-5)的DNA甲基化效应值来进行PRS计算中。而由于最优P值阈值是先验未知的，对P值进行前向选择的方法尽管可以很好地预测目标基因，但庞大的效应数据使得这种方法难以实施。因此要在一定范围的阈值上计算PRS，并针对每个阈值进行测试。由于基因间结合了很强的关联结构，难以定义不相关的基因效应，而聚集可以优先选择与疾病最相关的那些基因效应，并同时保留同一基因区域的多个独立影响(而不是只保留区域中最有关联的基因效应)，而且聚集还可以使保留的效应值在很大程度上彼此独立，令其效果值可以相加，因此在进行阈值选择前需要先对基因进行数据收缩。

S2、将预处理后数据划分为训练集与验证集后，基于所述训练集创建线性回归模型；在一些具体的实施例中，将预处理后的甲基化数据随机均分为k份，令i＝1，取第i组数据作为验证集，其余(k-1)组甲基化数据作为训练集，对应的线性回归模型公式为：

其中，Y表示疾病，可以为连续值表达量或离散值即二值表达量，k表示数据收缩处理后的位点个数，x_j表示第j个CPG位点下的DNA甲基化表达值，α_j为对应位点的回归系数。在更具体的实施例中，使用均方误差度量所述线性回归模型的性能，以确定最优回归系数值，其中性能度量是对学习器的泛化能力进行评估，其需要有衡量模型泛化能力的评价标准，性能度量可以很好地反映模型性能的“好坏”；如基于均方误差最小化来进行模型求解，则均方误差最小化对应的回归系数α^*公式为：

设定E_α为均方误差，则令基于E_α对回归系数α求导，得到：

令上述公式为零即可得到所需的回归系数α的最优解。

在更具体的实施例中，为防止模型产生过拟合，采用交叉验证的方式，将数据集随机划分为K个子集循环建模并取最优，以确保生成容错性更高的模型。

S3、基于所述验证集对所述线性回归模型进行验证，在验证合格后选定出作为多基因风险评分的评分模型即选出效果最优的模型；在一些具体的实施例中，例如回归任务常用的度量性能均方误差MSE，是预测数据与原始数据对应点误差的平方和均值，其值越小模型性能越好；决定系数R²也称为拟合优度，其值越接近1表示模型性能越好；曲线下面积AUC表示ROC曲线下的面积，ROC曲线是根据一系列不同的二分类方式绘制的曲线，可以反映模型性能的优劣，而AUC值一般介于0.5到1之间，作为数值可以直观的评价分类器的好坏，AUC值越大的分类器正确率越高。

S4、对输入的待测数据进行评分获取评分结果。

在一些具体的实施例中，还提出了输入数据为两种或多种组学数据的案例，这与单一数据的处理方法大致相同，仅仅在数据的收缩技术上将有所差别。即假设输入数据为DNA甲基化数据和RNA-seq数据，先将两组数据分别进行收缩处理，如上述LASSO回归方法或P值阈值法分别选出两组数据的收缩结果，然后进行数据合并以获取对应的数组，由于DNA甲基化与RNA-seq数据的数值量级有所差别，则需要分别将这两组数据进行归一化处理以用于建立模型，通常使用log2(X+1)的方法实现，其中X表示基因的表达量。随后基于所述方法使用整合后的数据建立模型，对训练集建立模型表达式并采用交叉验证的方式防止过拟合，将数据集随机划分为K个子集循环建模并取最优，以确保生成容错率更高的模型。对于一个新样本，预测分数值Y^*可以通过所开发的模型应用给出的多组学数据x^*进行求解，例如/>

基于相同的发明构思，本发明还提出了一种基于多组学数据获取多基因风险评分的系统，其包括：数据预处理单元、第一数据获取单元、第二数据获取单元和数据输出单元；

其中，数据预处理单元，其能够对所输入的多组学原始数据进行预处理，所述多组学原始数据至少包括DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据；在一些具体的实施例中，所述多组学原始数据，如DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据等数据，所述数据多来源于公开数据库如TCGA数据库、Oncomine数据库、GEO数据库等，所需数据可直接从库中下载得到；也可以自己通过使用测序仪器等测量手段直接获取数据；输入数据复杂多样，有效的提高了多基因风险评分预测的准确性，在下述例子中仅使用所述多组学原始数据中的DNA甲基化数据进行说明，设当输入数据为DNA甲基化数据，则对应的多基因风险分数为DNA甲基化的表达值x_i与对应位点的回归系数α_i的乘积的累加和；假设有一个n×m的DNA甲基化矩阵，矩阵的行代表有个n个样本数据，矩阵的列代表有m个CPG位点；则x_ij表示第i个样本的第j个CPG位点对应的DNA甲基化表达值。在一些具体的实施例中，输入的数据，如甲基化数据集数目庞大且具有不确定性，同时并非所有的甲基化数据都与研究中的性状相关，因此使用所有未调整的甲基化数据的效果估计值可能会产生效果不佳的评分模型，且有较大误差，因此要对数据进行收缩，即所述预处理主要是指对所述数据进行收缩处理，收缩处理方法中一般采用一定的统计技术收缩如甲基化数据等原始数据的效果估计值或对P值进行限制作为评分模型纳入分数的标准，其中，由于所述的统计技术中，最合适的收缩取决于零效应和真实效应大小分布的组合，通常在进行一系列的参数优化后获得，则所述统计技术主要有带惩罚项的逻辑回归方法和贝叶斯估计法。更进一步的，应用到本例的所述逻辑回归方法是在基础的线性回归上引入惩罚方法，通过构造一个惩罚函数得到一个较为精炼的模型，通过压缩一些回归系数，即强制系数绝对值之和小于某个固定值，并设定一些回归系数为零的方式达到变量选择的效果，并使用那些系数不为零的效应值来计算PRS；则对应的基础线性回归模型为：

对应的等价形式为：

其中t与λ一一对应，其为调节系数，Y为疾病，X为甲基化效应值，为引入的惩罚函数；令/>则t＜t₀时，一部分系数就会被压缩至0，从而降低数据X的维度，达到减小模型复杂度的目的；例如，若/>粗略来讲，模型中非零系数的个数就会由d大约减至/>更进一步的，应用到本例的所述对P值进行限制作为评分模型纳入分数的标准即P值选择阈值方法，所述P值选择阈值方法中，仅使用P值低于特定阈值的甲基化数据来有效排除零效应估计。P值阈值方法的标准方法为聚集和阈值的处理法，它选择了一个相关统计量“P值”来度量特征的重要性，P值越小说明结果越显著，一般认为P<0.05为具有统计学差异。通常取P值低于特定阈值(例如，P＜1×10^-5)的DNA甲基化效应值来进行PRS计算中。而由于最优P值阈值是先验未知的，对P值进行前向选择的方法尽管可以很好地预测目标基因，但庞大的效应数据使得这种方法难以实施。因此要在一定范围的阈值上计算PRS，并针对每个阈值进行测试。由于基因间结合了很强的关联结构，难以定义不相关的基因效应，而聚集可以优先选择与疾病最相关的那些基因效应，并同时保留同一基因区域的多个独立影响(而不是只保留区域中最有关联的基因效应)，而且聚集还可以使保留的效应值在很大程度上彼此独立，令其效果值可以相加，因此在进行阈值选择前需要先对基因进行收缩。

第一数据获取单元，其能够将预处理后数据划分为训练集与验证集后，基于所述训练集创建线性回归模型；在一些具体的实施例中，将预处理后的甲基化数据随机均分为k份，令i＝1，取第i组数据作为验证集，其余(k-1)组甲基化数据作为训练集，对应的线性回归模型公式为：

其中，Y表示疾病，可以为连续值表达量或二值表达量，k表示数据收缩处理后的位点个数，x_j表示第j个CPG位点下的DNA甲基化表达值，α_j为对应位点的回归系数。在更具体的实施例中，使用均方误差度量所述线性回归模型的性能，以确定最优回归系数值，其中性能度量是对学习器的泛化能力进行评估，其需要有衡量模型泛化能力的评价标准，性能度量可以很好地反映模型性能的“好坏”；如基于均方误差最小化来进行模型求解，则均方误差最小化对应的回归系数α^*公式为：

设定E_α为均方误差，则令基于E_α对回归系数α求导，得到：

令上述公式为零即可得到所需的回归系数α的最优解。

第二数据获取单元，其能够基于所述验证集对所述线性回归模型进行验证，在验证合格后选定出作为多基因风险评分的评分模型即选出效果最优的模型；在一些具体的实施例中，例如回归任务常用的度量性能均方误差MSE，是预测数据与原始数据对应点误差的平方和均值，其值越小模型性能越好；决定系数R²也称为拟合优度，其值越接近1表示模型性能越好；曲线下面积AUC表示ROC曲线下的面积，ROC曲线是根据一系列不同的二分类方式绘制的曲线，可以反映模型性能的优劣，而AUC值一般介于0.5到1之间，作为数值可以直观的评价分类器的好坏，AUC值越大的分类器正确率越高。

实施本发明实施例，将具有如下有益效果：

本发明使用多组学数据进行多基因风险评分的方法开发完成，这种方法支持使用多种组学数据集来作为基因风险评分的有效信息，比如mRNA数据或DNA甲基化数据等。这将代替仅使用单一的SNP数据的多基因风险评分方法来保证评分结果的准确性；而使用多种不同的数据类型进行风险研究，也可以为精准医学和个体化测评提供有效地帮助。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多组学数据获取多基因风险评分的方法，包括，其特征在于：

S1、输入多组学原始数据并对所述多组学原始数据进行预处理，所述多组学原始数据包括但不限于DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据中的一种或者多种组合；

S4、对输入的待测数据进行评分以获取对应的评分结果；所述S1中对所述多组学原始数据进行预处理即采用统计学方法或设定P值阈值的方法对所述多组学原始数据进行数据收缩；将预处理后的多组学原始数据随机均分为k份，令i＝1，取第i组数据作为验证集，其余(k-1)组数据作为训练集，对应的线性回归模型公式为：

其中，Y表示疾病，可以为连续值表达量或离散值表达量，k表示数据收缩处理后的位点个数，x_j表示第j个的多组学原始数据表达值，α_j为对应位点的回归系数；使用均方误差度量所述线性回归模型的性能，以确定最优回归系数值，即基于均方误差最小化进行模型求解，则均方误差最小化对应的回归系数α^*公式为：

设定E_α为均方误差，则令基于E_α对回归系数α求导，得到：

2.一种基于多组学数据获取多基因风险评分的系统，其特征在于，其包括：数据预处理单元、第一数据获取单元、第二数据获取单元和数据输出单元；

以及数据输出单元，其能够对输入的待测数据进行评分并输出评分结果；对所述多组学原始数据进行预处理即采用统计学方法或设定P值阈值的方法对所述多组学原始数据进行数据收缩；第一数据获取单元将预处理后的多组学原始数据随机均分为k份，令i＝1，取第i组数据作为验证集，其余(k-1)组数据作为训练集，对应的线性回归模型公式为：

其中，Y表示疾病，可以为连续值表达量或离散值表达量，k表示数据收缩处理后的位点个数，x_j表示第j个多组学原始数据表达值，α_j为对应位点的回归系数；第一数据获取单元使用均方误差度量所述线性回归模型的性能，以确定最优回归系数值，即基于均方误差最小化进行模型求解，则均方误差最小化对应的回归系数α^*公式为：

设定E_α为均方误差，则令基于E_α对回归系数α求导，得到：