CN109686399B

CN109686399B - 一种基因数据集整合分析方法

Info

Publication number: CN109686399B
Application number: CN201811522403.7A
Authority: CN
Inventors: 黄海辉; 戴经国; 梁勇; 陈燕琴
Original assignee: Shaoguan University
Current assignee: Shaoguan University
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2023-07-21
Anticipated expiration: 2038-12-13
Also published as: CN109686399A

Abstract

本发明公开了一种基因数据集整合分析方法，至少包括以下步骤：根据超参数组和待处理基因数据集建立SSN‑IF方法模型；预设SSN‑IF方法模型中的权重向量，将权重向量值作为第一初始值建立SCAD‑Net惩罚体的线性模型；根据线性模型计算SCAD‑Net惩罚体的迭代更新算子，以计算SSN‑IF方法模型的基因回归系数和待处理基因数据集的预测模型；根据预测模型更新SSN‑IF方法模型的权重向量；将更新后的权重向量作为第一初始值；重复上述的计算步骤，以得到最终的基因回归系数和待处理基因数据集的预测模型。本发明提供一种基因数据集整合分析方法，能够有效地提高对基因数据集整合分析的准确性，从而能够准确地选择出与表现型相关的基因，进而有利于对疾病的研究。

Description

一种基因数据集整合分析方法

技术领域

本发明涉及生物医学数据分析技术领域，尤其涉及一种基因数据集整合分析方法。

背景技术

如何从基因组学数据中精确选择出与表现型(phenotype)相关的基因标记物是生物信息学的热点问题之一。一个典型的基因组学数据具有维数过高、样本量很小以及高噪音等特点，针对这样的高维小样本及高噪音数据，正则化方法可以剔除数据集中冗余和噪声特征，得到一个精简且判别能力更强的特征子集，从而避免数据挖掘和机器学习过程中的“过拟合”和“维数灾难”问题，提高模型的泛化能力、可解释性和稳定性，减少数据的采集量和存储量，节省模型训练和预测时间。

目前，现有技术中基于正则化方法的标记物选择研究十分之多，但是真正被加以利用标记物却十分之少。研究中的样本数量小是造成这种状况的重要原因，因为基于小样本所得出的结论往往复现性较差且不可靠。合并各研究的数据集进行统合分析(meta-analysis)是解决这一问题的重要方案，而由于批次效应的存在，使得各研究的数据集并不能直接简单合并使用。大量旨在消除批次效应，以整合数据的方法被提出来。然而鉴于批次效应的复杂来源，其并不能被完全消除甚至会加入新的系统性误差，且基因数据集的高噪音高维小样本等性质，使得合并数据集中交织着不同程度噪音及批次效应的样本，直接使用这些通过数据合并方法得到的数据经常会出现统计效度问题。

发明内容

本发明实施例提供一种基因数据集整合分析方法，能够有效地提高基因整合分析的准确性，从而能够有效地选择出与表现型相关的基因，进而有利于对疾病的研究。

为解决上述问题，本发明实施例提供了一种基因数据集整合分析方法，至少包括以下步骤：

S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型；其中所述SSN-IF方法模型包括自步学习正则化函数和SCAD-Net惩罚体；

S2、预设SSN-IF方法模型中的权重向量，将所述权重向量值作为第一初始值；

S3、根据所述第一初始值，建立所述SCAD-Net惩罚体的线性模型；

S4、根据所述线性模型计算所述SCAD-Net惩罚体的迭代更新算子；

S5、根据所述迭代更新算子，计算所述SSN-IF方法模型的基因回归系数和所述待处理基因数据集的预测模型；

S6、根据所述预测模型更新所述SSN-IF方法模型的权重向量，将所述更新后的权重向量作为第一初始值；

S7、重复步骤S3-S6，直至计算得到的所述基因回归系数收敛，得到最终的基因回归系数和最终的所述待处理基因数据集的预测模型；

S8、根据所述最终的基因回归系数和所述待处理基因数据集的预测模型，得到所述待处理基因数据集中与表现型相关的基因。

进一步地，所述在步骤S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型之前，还包括步骤：

获取基因数据及基因调控网络，根据所述基因调控网将所述基因数据进行生物网络处理，得到待处理基因数据集。

进一步地，所述步骤S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型，具体为：

根据交叉验证方法进行选择所述超参数组，所述SSN-IF方法模型的表达式为：

其中，v‖y-Xβ‖²为线性权重损失函数，‖·‖²为L₂范数；f(v；τ)＝-τv是自步学习正则化函数，v为权重向量项，τ为年长参数；为SCAD-Net惩罚体，λ₁和λ₂分别为调整模型稀疏度和模型平滑度的超参数。

进一步地，所述步骤S2、预设SSN-IF方法模型中的权重向量，具体为：将所述权重向量V^o＝(v₁,...,v_n)设置为全1向量。

进一步地，所述步骤S3、根据所述第一初始值，建立所述SCAD-Net惩罚体的线性模型，具体为：

所述SCAD-Net惩罚体的线性模型的表达式为：

进一步地，所述步骤S4、根据所述线性模型计算所述SCAD-Net惩罚体的迭代更新算子，具体为：

将所述SCAD-Net惩罚体的线性模型变换为：

根据所述SCAD-Net惩罚体的线性模型的表达式，得到如下表达式：

其中是/>的第j分量，/>

而

其中，

综合式(3)和式(4)可得关于关于j基因回归系数的迭代更新算子：

其中，为普通最小二乘估计的解的第j分量，sign(·)为符号函数，表示当/>时取/>否则取0。

进一步地，所述步骤S5、根据所述迭代更新算子，计算所述SSN-IF方法模型的基因回归系数和所述待处理基因数据集的预测模型，具体为：

根据所述迭代更新算子，通过坐标梯度下降法计算所述SSN-IF方法模型的基因回归系数和所述待处理基因数据集的预测模型。

进一步地，所述步骤S6、根据所述预测模型更新所述SSN-IF方法模型的权重向量，具体为：

根据所述预测模型得到所述SSN-IF方法模型的权重向量的更新方程，所述更新方程表达式为：

更新所述SSN-IF方法模型的年长参数，根据更新后的所述年长参数和所述更新方程，更新所述SSN-IF方法模型的权重向量。

进一步地，所述更新所述SSN-IF方法模型的年长参数，具体为：

将预设的年长参数τ与预设的年长参数的增长率之积作为更新后的年长参数，并将所述更新后的年长参数作为下一年长参数初始值τ。

进一步地，步骤S8中所述基因回归系数收敛，具体为所述基因回归系数满足

本发明实施例提供一种基因数据集整合分析方法，能够解决现有技术在整合分析过程中不能被完全消除甚至会加入新的系统性误差、合并数据集中交织着不同程度噪音及批次效应的样本的技术问题，能够有效地提高基因整合分析的准确性，从而能够有效地选择出与表现型相关的基因，进而有利于对疾病的研究。

附图说明

图1是本发明提供的一种基因数据集整合分析方法的流程示意图；

图2是本发明提供的一种基因数据集整合分析方法与其他方法对乳腺癌进行整合分析的结果比对图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，在本发明实施例中，本发明实施例提供的一种基因数据集整合分析方法一种基因数据集整合分析方法，至少包括以下步骤：

S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型；其中SSN-IF方法模型包括自步学习正则化函数和SCAD-Net惩罚体；

S2、预设SSN-IF方法模型中的权重向量，将权重向量值作为第一初始值；

S3、根据第一初始值，建立SCAD-Net惩罚体的线性模型；

S4、根据线性模型计算SCAD-Net惩罚体的迭代更新算子；

S5、根据迭代更新算子，计算SSN-IF方法模型的基因回归系数和待处理基因数据集的预测模型；

S6、根据预测模型更新SSN-IF方法模型的权重向量，并将更新后的权重向量作为第一初始值

S7、重复步骤S3-S6，直至计算得到的基因回归系数收敛，得到最终的基因回归系数和最终的待处理基因数据集的预测模型；

S8、根据最终的基因回归系数和待处理基因数据集的预测模型，得到待处理基因数据集中与表现型相关的基因。

在本发明实施例中，根据本方法对基因数据集进行整合分析，可以通过逐渐增大SSN-IF方法模型中年长参数的值，改变样本学习的顺序，先从低噪音、低批次效应的样本进行学习，再逐步加入高噪音、高批次效应的样本进行学习，达到更好的学习效果；同时通过SCAD-Net惩罚体改善参数估计的一致性和基因选择一致性，并且可以将基因交互或蛋白质交互网络等生物调控交互网络通过拉普拉斯矩阵嵌入到模型中，使得模型更贴近生物学本质，能够有效地降低系统性误差，以及有效地提高基因选择的准确性，从而有利于对疾病的研究。

作为本发明实施例的一种更具体实施方式，在步骤S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型之前，还包括步骤：

获取基因数据及基因调控网络，根据基因调控网将基因数据进行生物网络处理，得到待处理基因数据集。

作为本发明实施例的一种具体实施方式，步骤S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型，具体为：

根据交叉验证方法进行选择超参数组，SSN-IF方法模型的表达式为：

在本发明实施例中，当年长参数数值小的时候，会引导噪音低、批次效应低的样本进入训练过程，而随着这个值的增大，会逐渐引导噪音高、批次效应高的样本进入训练过程，假如样本误差过大，则将此样本排除在训练过程之外，以求达到更好的学习效果，能够提高基因数据集整合分析的效果。

作为本发明实施例的一种具体实施方式，步骤S2、预设SSN-IF方法模型中的权重向量，具体为：将权重向量V^o＝(v₁,...,_n)设置为全1向量。

作为本发明实施例的一种具体实施方式，步骤S3、根据第一初始值，建立SCAD-Net惩罚体的线性模型，具体为：

SCAD-Net惩罚体的线性模型的表达式为：

作为本发明实施例的一种具体实施方式，步骤S4、根据线性模型计算SCAD-Net惩罚体的迭代更新算子，具体为：

将SCAD-Net惩罚体的线性模型变换为：

根据SCAD-Net惩罚体的线性模型的表达式，得到如下表达式：

其中是/>的第j分量，/>

而

其中，

在本发明实施例中，由式子(6)可以看出，任何的值落在[－λ₁，λ₁]区间内的回归系数向量分量j均被置零，因此实现了回归系数向量的稀疏化，而回归系数向量的稀疏化使得与回归系数向量分量为零所对应的变量不参与模型的拟合，实现了变量选择效果。

作为本发明实施例的一种具体实施方式，步骤S5、根据迭代更新算子，计算SSN-IF方法模型的基因回归系数和待处理基因数据集的预测模型，具体为：

根据迭代更新算子，通过坐标梯度下降法计算SSN-IF方法模型的基因回归系数和待处理基因数据集的预测模型。

在本发明实施例中，坐标梯度下降算法每次只更新一个基因回归系数，同时固定其他回归系数不变.整个坐标梯度下降算法关于全部基因回归系数(1,2,...,p)循环迭代上述更新过程直到收敛。

作为本发明实施例的一种具体实施方式，步骤S6、根据预测模型更新SSN-IF方法模型的权重向量，具体为：

根据预测模型得到SSN-IF方法模型的权重向量的更新方程，更新方程表达式为：

更新SSN-IF方法模型的年长参数，根据更新后的年长参数和更新方程，更新SSN-IF方法模型的权重向量。

在本发明实施例中，在本发明实施例中，v_i的更新方程的物理意义为当模型对第i个样本进行预测损失误差大于当前的年长参数τ的时候，这个样本的权重将被赋值为0，即v_i＝0，样本权重为0的样本将不参与下一次的模型训练,反之v_i＝1；当权重向量被重新确定后，通过增大年长参数τ的值使更多的样本可以进入到训练过程。通过更新年长参数重复上述步骤，直到基因回归系数收敛。

作为本发明实施例的一种具体实施方式，更新SSN-IF方法模型的年长参数，具体为：

将预设的年长参数τ与预设的年长参数的增长率之积作为更新后的年长参数，并将更新后的年长参数作为下一年长参数初始值τ。

作为本发明实施例的一种具体实施方式，步骤S8中基因回归系数收敛，具体为基因回归系数满足

在本发明实施例中，通过逐渐增大年长参数的值，改变样本学习的顺序，先从低噪音、低批次效应的样本进行学习，再逐步加入高噪音、高批次效应的样本进行学习，达到更好的学习效果；同时通过SCAD-Net惩罚体改善参数估计的一致性和基因选择一致性，并且可以将基因交互或蛋白质交互网络等生物调控交互网络通过拉普拉斯矩阵嵌入到模型中，使得模型更贴近生物学本质，能够有效地提高了基因选择的准确性，从而有利于对疾病的研究。

实施本发明实施例，具有如下有益效果：

本发明实施例提供了一种基因数据集整合分析方法，通过逐渐增大年长参数的值，改变样本学习的顺序，先从低噪音、低批次效应的样本进行学习，再逐步加入高噪音、高批次效应的样本进行学习，达到更好的学习效果；同时通过SCAD-Net惩罚体改善参数估计的一致性和基因选择一致性，并且可以将基因交互或蛋白质交互网络等生物调控交互网络通过拉普拉斯矩阵嵌入到模型中，使得模型更贴近生物学本质，能够有效地降低系统性误差，以及有效地提高基因选择的准确性，从而有利于对疾病的研究。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基因数据集整合分析方法，其特征在于，至少包括以下步骤：

S1、获取基因数据及基因调控网络，根据所述基因调控网络将所述基因数据进行生物网络处理，得到待处理基因数据集；根据超参数组和待处理基因数据集建立SSN-IF方法模型；其中所述SSN-IF方法模型包括自步学习正则化函数和SCAD-Net惩罚体；

S5、根据所述迭代更新算子，通过坐标梯度下降法计算所述SSN-IF方法模型的基因回归系数和所述待处理基因数据集的预测模型；

S6、根据所述预测模型更新所述SSN-IF方法模型的权重向量，并将所述更新后的权重向量作为第一初始值；

S8、根据所述最终的基因回归系数和所述待处理基因数据集的预测模型，得到所述待处理基因数据集中与表现型相关的基因；

其中，所述步骤S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型，具体为：

其中，为线性权重损失函数，/>为/>范数； />是自步学习正则化函数，/>权重向量项/>为年长参数；/>为SCAD-Net惩罚体，/>和 /> 分别为调整模型稀疏度和模型平滑度的超参数；

所述步骤S6、根据所述预测模型更新所述SSN-IF方法模型的权重向量，具体为：

根据所述预测模型计算得到所述SSN-IF方法模型的权重向量的更新方程，所述更新方程表达式为：

更新所述SSN-IF方法模型的年长参数，根据更新后的所述年长参数和所述更新方程，更新所述SSN-IF方法模型的权重向量；

所述更新所述SSN-IF方法模型的年长参数，具体为：

将预设的年长参数与预设的年长参数的增长率/>之积作为更新后的年长参数，并将所述更新后的年长参数作为下一年长参数初始值/>。

2.如权利要求1所述的基因数据集整合分析方法，其特征在于，所述步骤S2、预设SSN-IF方法模型中的权重向量，具体为：将所述权重向量设置为全1向量。

3.如权利要求1所述的基因数据集整合分析方法，其特征在于，所述步骤S3、根据所述第一初始值，建立所述SCAD-Net惩罚体的线性模型，具体为：

所述SCAD-Net惩罚体的线性模型的表达式为：

(2)。

4.如权利要求1所述的基因数据集整合分析方法，其特征在于，所述步骤S4、根据所述线性模型计算所述SCAD-Net惩罚体的迭代更新算子，具体为：

将所述SCAD-Net惩罚体的线性模型变换为：

,(3)

,(4)

其中是/>的第j分量，/>；

而

(5)

其中

(6)

其中，为普通最小二乘估计的解的第j分量， sign(/>)为符号函数，表示当 />＞0时取 />，否则取0。

5.如权利要求1所述的基因数据集整合分析方法，其特征在于，步骤S8中所述基因回归系数收敛，具体为所述基因回归系数满足。