CN109686399B - 一种基因数据集整合分析方法 - Google Patents

一种基因数据集整合分析方法 Download PDF

Info

Publication number
CN109686399B
CN109686399B CN201811522403.7A CN201811522403A CN109686399B CN 109686399 B CN109686399 B CN 109686399B CN 201811522403 A CN201811522403 A CN 201811522403A CN 109686399 B CN109686399 B CN 109686399B
Authority
CN
China
Prior art keywords
model
gene
ssn
data set
scad
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811522403.7A
Other languages
English (en)
Other versions
CN109686399A (zh
Inventor
黄海辉
戴经国
梁勇
陈燕琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaoguan University
Original Assignee
Shaoguan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaoguan University filed Critical Shaoguan University
Priority to CN201811522403.7A priority Critical patent/CN109686399B/zh
Publication of CN109686399A publication Critical patent/CN109686399A/zh
Application granted granted Critical
Publication of CN109686399B publication Critical patent/CN109686399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基因数据集整合分析方法,至少包括以下步骤:根据超参数组和待处理基因数据集建立SSN‑IF方法模型;预设SSN‑IF方法模型中的权重向量,将权重向量值作为第一初始值建立SCAD‑Net惩罚体的线性模型;根据线性模型计算SCAD‑Net惩罚体的迭代更新算子,以计算SSN‑IF方法模型的基因回归系数和待处理基因数据集的预测模型;根据预测模型更新SSN‑IF方法模型的权重向量;将更新后的权重向量作为第一初始值;重复上述的计算步骤,以得到最终的基因回归系数和待处理基因数据集的预测模型。本发明提供一种基因数据集整合分析方法,能够有效地提高对基因数据集整合分析的准确性,从而能够准确地选择出与表现型相关的基因,进而有利于对疾病的研究。

Description

一种基因数据集整合分析方法
技术领域
本发明涉及生物医学数据分析技术领域,尤其涉及一种基因数据集整合分析方法。
背景技术
如何从基因组学数据中精确选择出与表现型(phenotype)相关的基因标记物是生物信息学的热点问题之一。一个典型的基因组学数据具有维数过高、样本量很小以及高噪音等特点,针对这样的高维小样本及高噪音数据,正则化方法可以剔除数据集中冗余和噪声特征,得到一个精简且判别能力更强的特征子集,从而避免数据挖掘和机器学习过程中的“过拟合”和“维数灾难”问题,提高模型的泛化能力、可解释性和稳定性,减少数据的采集量和存储量,节省模型训练和预测时间。
目前,现有技术中基于正则化方法的标记物选择研究十分之多,但是真正被加以利用标记物却十分之少。研究中的样本数量小是造成这种状况的重要原因,因为基于小样本所得出的结论往往复现性较差且不可靠。合并各研究的数据集进行统合分析(meta-analysis)是解决这一问题的重要方案,而由于批次效应的存在,使得各研究的数据集并不能直接简单合并使用。大量旨在消除批次效应,以整合数据的方法被提出来。然而鉴于批次效应的复杂来源,其并不能被完全消除甚至会加入新的系统性误差,且基因数据集的高噪音高维小样本等性质,使得合并数据集中交织着不同程度噪音及批次效应的样本,直接使用这些通过数据合并方法得到的数据经常会出现统计效度问题。
发明内容
本发明实施例提供一种基因数据集整合分析方法,能够有效地提高基因整合分析的准确性,从而能够有效地选择出与表现型相关的基因,进而有利于对疾病的研究。
为解决上述问题,本发明实施例提供了一种基因数据集整合分析方法,至少包括以下步骤:
S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型;其中所述SSN-IF方法模型包括自步学习正则化函数和SCAD-Net惩罚体;
S2、预设SSN-IF方法模型中的权重向量,将所述权重向量值作为第一初始值;
S3、根据所述第一初始值,建立所述SCAD-Net惩罚体的线性模型;
S4、根据所述线性模型计算所述SCAD-Net惩罚体的迭代更新算子;
S5、根据所述迭代更新算子,计算所述SSN-IF方法模型的基因回归系数和所述待处理基因数据集的预测模型;
S6、根据所述预测模型更新所述SSN-IF方法模型的权重向量,将所述更新后的权重向量作为第一初始值;
S7、重复步骤S3-S6,直至计算得到的所述基因回归系数收敛,得到最终的基因回归系数和最终的所述待处理基因数据集的预测模型;
S8、根据所述最终的基因回归系数和所述待处理基因数据集的预测模型,得到所述待处理基因数据集中与表现型相关的基因。
进一步地,所述在步骤S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型之前,还包括步骤:
获取基因数据及基因调控网络,根据所述基因调控网将所述基因数据进行生物网络处理,得到待处理基因数据集。
进一步地,所述步骤S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型,具体为:
根据交叉验证方法进行选择所述超参数组,所述SSN-IF方法模型的表达式为:
其中,v‖y-Xβ‖2为线性权重损失函数,‖·‖2为L2范数;f(v;τ)=-τv是自步学习正则化函数,v为权重向量项,τ为年长参数;为SCAD-Net惩罚体,λ1和λ2分别为调整模型稀疏度和模型平滑度的超参数。
进一步地,所述步骤S2、预设SSN-IF方法模型中的权重向量,具体为:将所述权重向量Vo=(v1,...,vn)设置为全1向量。
进一步地,所述步骤S3、根据所述第一初始值,建立所述SCAD-Net惩罚体的线性模型,具体为:
所述SCAD-Net惩罚体的线性模型的表达式为:
进一步地,所述步骤S4、根据所述线性模型计算所述SCAD-Net惩罚体的迭代更新算子,具体为:
将所述SCAD-Net惩罚体的线性模型变换为:
根据所述SCAD-Net惩罚体的线性模型的表达式,得到如下表达式:
其中是/>的第j分量,/>
其中,
综合式(3)和式(4)可得关于关于j基因回归系数的迭代更新算子:
其中,为普通最小二乘估计的解的第j分量,sign(·)为符号函数,表示当/>时取/>否则取0。
进一步地,所述步骤S5、根据所述迭代更新算子,计算所述SSN-IF方法模型的基因回归系数和所述待处理基因数据集的预测模型,具体为:
根据所述迭代更新算子,通过坐标梯度下降法计算所述SSN-IF方法模型的基因回归系数和所述待处理基因数据集的预测模型。
进一步地,所述步骤S6、根据所述预测模型更新所述SSN-IF方法模型的权重向量,具体为:
根据所述预测模型得到所述SSN-IF方法模型的权重向量的更新方程,所述更新方程表达式为:
更新所述SSN-IF方法模型的年长参数,根据更新后的所述年长参数和所述更新方程,更新所述SSN-IF方法模型的权重向量。
进一步地,所述更新所述SSN-IF方法模型的年长参数,具体为:
将预设的年长参数τ与预设的年长参数的增长率之积作为更新后的年长参数,并将所述更新后的年长参数作为下一年长参数初始值τ。
进一步地,步骤S8中所述基因回归系数收敛,具体为所述基因回归系数满足
本发明实施例提供一种基因数据集整合分析方法,能够解决现有技术在整合分析过程中不能被完全消除甚至会加入新的系统性误差、合并数据集中交织着不同程度噪音及批次效应的样本的技术问题,能够有效地提高基因整合分析的准确性,从而能够有效地选择出与表现型相关的基因,进而有利于对疾病的研究。
附图说明
图1是本发明提供的一种基因数据集整合分析方法的流程示意图;
图2是本发明提供的一种基因数据集整合分析方法与其他方法对乳腺癌进行整合分析的结果比对图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,在本发明实施例中,本发明实施例提供的一种基因数据集整合分析方法一种基因数据集整合分析方法,至少包括以下步骤:
S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型;其中SSN-IF方法模型包括自步学习正则化函数和SCAD-Net惩罚体;
S2、预设SSN-IF方法模型中的权重向量,将权重向量值作为第一初始值;
S3、根据第一初始值,建立SCAD-Net惩罚体的线性模型;
S4、根据线性模型计算SCAD-Net惩罚体的迭代更新算子;
S5、根据迭代更新算子,计算SSN-IF方法模型的基因回归系数和待处理基因数据集的预测模型;
S6、根据预测模型更新SSN-IF方法模型的权重向量,并将更新后的权重向量作为第一初始值
S7、重复步骤S3-S6,直至计算得到的基因回归系数收敛,得到最终的基因回归系数和最终的待处理基因数据集的预测模型;
S8、根据最终的基因回归系数和待处理基因数据集的预测模型,得到待处理基因数据集中与表现型相关的基因。
在本发明实施例中,根据本方法对基因数据集进行整合分析,可以通过逐渐增大SSN-IF方法模型中年长参数的值,改变样本学习的顺序,先从低噪音、低批次效应的样本进行学习,再逐步加入高噪音、高批次效应的样本进行学习,达到更好的学习效果;同时通过SCAD-Net惩罚体改善参数估计的一致性和基因选择一致性,并且可以将基因交互或蛋白质交互网络等生物调控交互网络通过拉普拉斯矩阵嵌入到模型中,使得模型更贴近生物学本质,能够有效地降低系统性误差,以及有效地提高基因选择的准确性,从而有利于对疾病的研究。
作为本发明实施例的一种更具体实施方式,在步骤S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型之前,还包括步骤:
获取基因数据及基因调控网络,根据基因调控网将基因数据进行生物网络处理,得到待处理基因数据集。
作为本发明实施例的一种具体实施方式,步骤S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型,具体为:
根据交叉验证方法进行选择超参数组,SSN-IF方法模型的表达式为:
其中,v‖y-Xβ‖2为线性权重损失函数,‖·‖2为L2范数;f(v;τ)=-τv是自步学习正则化函数,v为权重向量项,τ为年长参数;为SCAD-Net惩罚体,λ1和λ2分别为调整模型稀疏度和模型平滑度的超参数。
在本发明实施例中,当年长参数数值小的时候,会引导噪音低、批次效应低的样本进入训练过程,而随着这个值的增大,会逐渐引导噪音高、批次效应高的样本进入训练过程,假如样本误差过大,则将此样本排除在训练过程之外,以求达到更好的学习效果,能够提高基因数据集整合分析的效果。
作为本发明实施例的一种具体实施方式,步骤S2、预设SSN-IF方法模型中的权重向量,具体为:将权重向量Vo=(v1,...,n)设置为全1向量。
作为本发明实施例的一种具体实施方式,步骤S3、根据第一初始值,建立SCAD-Net惩罚体的线性模型,具体为:
SCAD-Net惩罚体的线性模型的表达式为:
作为本发明实施例的一种具体实施方式,步骤S4、根据线性模型计算SCAD-Net惩罚体的迭代更新算子,具体为:
将SCAD-Net惩罚体的线性模型变换为:
根据SCAD-Net惩罚体的线性模型的表达式,得到如下表达式:
其中是/>的第j分量,/>
其中,
综合式(3)和式(4)可得关于关于j基因回归系数的迭代更新算子:
其中,为普通最小二乘估计的解的第j分量,sign(·)为符号函数,表示当/>时取/>否则取0。
在本发明实施例中,由式子(6)可以看出,任何的值落在[-λ1,λ1]区间内的回归系数向量分量j均被置零,因此实现了回归系数向量的稀疏化,而回归系数向量的稀疏化使得与回归系数向量分量为零所对应的变量不参与模型的拟合,实现了变量选择效果。
作为本发明实施例的一种具体实施方式,步骤S5、根据迭代更新算子,计算SSN-IF方法模型的基因回归系数和待处理基因数据集的预测模型,具体为:
根据迭代更新算子,通过坐标梯度下降法计算SSN-IF方法模型的基因回归系数和待处理基因数据集的预测模型。
在本发明实施例中,坐标梯度下降算法每次只更新一个基因回归系数,同时固定其他回归系数不变.整个坐标梯度下降算法关于全部基因回归系数(1,2,...,p)循环迭代上述更新过程直到收敛。
作为本发明实施例的一种具体实施方式,步骤S6、根据预测模型更新SSN-IF方法模型的权重向量,具体为:
根据预测模型得到SSN-IF方法模型的权重向量的更新方程,更新方程表达式为:
更新SSN-IF方法模型的年长参数,根据更新后的年长参数和更新方程,更新SSN-IF方法模型的权重向量。
在本发明实施例中,在本发明实施例中,vi的更新方程的物理意义为当模型对第i个样本进行预测损失误差大于当前的年长参数τ的时候,这个样本的权重将被赋值为0,即vi=0,样本权重为0的样本将不参与下一次的模型训练,反之vi=1;当权重向量被重新确定后,通过增大年长参数τ的值使更多的样本可以进入到训练过程。通过更新年长参数重复上述步骤,直到基因回归系数收敛。
作为本发明实施例的一种具体实施方式,更新SSN-IF方法模型的年长参数,具体为:
将预设的年长参数τ与预设的年长参数的增长率之积作为更新后的年长参数,并将更新后的年长参数作为下一年长参数初始值τ。
作为本发明实施例的一种具体实施方式,步骤S8中基因回归系数收敛,具体为基因回归系数满足
在本发明实施例中,通过逐渐增大年长参数的值,改变样本学习的顺序,先从低噪音、低批次效应的样本进行学习,再逐步加入高噪音、高批次效应的样本进行学习,达到更好的学习效果;同时通过SCAD-Net惩罚体改善参数估计的一致性和基因选择一致性,并且可以将基因交互或蛋白质交互网络等生物调控交互网络通过拉普拉斯矩阵嵌入到模型中,使得模型更贴近生物学本质,能够有效地提高了基因选择的准确性,从而有利于对疾病的研究。
实施本发明实施例,具有如下有益效果:
本发明实施例提供了一种基因数据集整合分析方法,通过逐渐增大年长参数的值,改变样本学习的顺序,先从低噪音、低批次效应的样本进行学习,再逐步加入高噪音、高批次效应的样本进行学习,达到更好的学习效果;同时通过SCAD-Net惩罚体改善参数估计的一致性和基因选择一致性,并且可以将基因交互或蛋白质交互网络等生物调控交互网络通过拉普拉斯矩阵嵌入到模型中,使得模型更贴近生物学本质,能够有效地降低系统性误差,以及有效地提高基因选择的准确性,从而有利于对疾病的研究。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (5)

1.一种基因数据集整合分析方法,其特征在于,至少包括以下步骤:
S1、获取基因数据及基因调控网络,根据所述基因调控网络将所述基因数据进行生物网络处理,得到待处理基因数据集;根据超参数组和待处理基因数据集建立SSN-IF方法模型;其中所述SSN-IF方法模型包括自步学习正则化函数和SCAD-Net惩罚体;
S2、预设SSN-IF方法模型中的权重向量,将所述权重向量值作为第一初始值;
S3、根据所述第一初始值,建立所述SCAD-Net惩罚体的线性模型;
S4、根据所述线性模型计算所述SCAD-Net惩罚体的迭代更新算子;
S5、根据所述迭代更新算子,通过坐标梯度下降法计算所述SSN-IF方法模型的基因回归系数和所述待处理基因数据集的预测模型;
S6、根据所述预测模型更新所述SSN-IF方法模型的权重向量,并将所述更新后的权重向量作为第一初始值;
S7、重复步骤S3-S6,直至计算得到的所述基因回归系数收敛,得到最终的基因回归系数和最终的所述待处理基因数据集的预测模型;
S8、根据所述最终的基因回归系数和所述待处理基因数据集的预测模型,得到所述待处理基因数据集中与表现型相关的基因;
其中,所述步骤S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型,具体为:
根据交叉验证方法进行选择所述超参数组,所述SSN-IF方法模型的表达式为:
其中,为线性权重损失函数,/>为/>范数; />是自步学习正则化函数,/>权重向量项/>为年长参数;/>为SCAD-Net惩罚体,/>和 /> 分别为调整模型稀疏度和模型平滑度的超参数;
所述步骤S6、根据所述预测模型更新所述SSN-IF方法模型的权重向量,具体为:
根据所述预测模型计算得到所述SSN-IF方法模型的权重向量的更新方程,所述更新方程表达式为:
更新所述SSN-IF方法模型的年长参数,根据更新后的所述年长参数和所述更新方程,更新所述SSN-IF方法模型的权重向量;
所述更新所述SSN-IF方法模型的年长参数,具体为:
将预设的年长参数与预设的年长参数的增长率/>之积作为更新后的年长参数,并将所述更新后的年长参数作为下一年长参数初始值/>
2.如权利要求1所述的基因数据集整合分析方法,其特征在于,所述步骤S2、预设SSN-IF方法模型中的权重向量,具体为:将所述权重向量设置为全1向量。
3.如权利要求1所述的基因数据集整合分析方法,其特征在于,所述步骤S3、根据所述第一初始值,建立所述SCAD-Net惩罚体的线性模型,具体为:
所述SCAD-Net惩罚体的线性模型的表达式为:
(2)。
4.如权利要求1所述的基因数据集整合分析方法,其特征在于,所述步骤S4、根据所述线性模型计算所述SCAD-Net惩罚体的迭代更新算子,具体为:
将所述SCAD-Net惩罚体的线性模型变换为:
,(3)
根据所述SCAD-Net惩罚体的线性模型的表达式,得到如下表达式:
,(4)
其中 是/>的第j分量,/>
(5)
其中
综合式(3)和式(4)可得关于关于j基因回归系数的迭代更新算子:
(6)
其中,为普通最小二乘估计的解的第j分量, sign(/>)为符号函数,表示当 />>0时取 />,否则取0。
5.如权利要求1所述的基因数据集整合分析方法,其特征在于,步骤S8中所述基因回归系数收敛,具体为所述基因回归系数满足
CN201811522403.7A 2018-12-13 2018-12-13 一种基因数据集整合分析方法 Active CN109686399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811522403.7A CN109686399B (zh) 2018-12-13 2018-12-13 一种基因数据集整合分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811522403.7A CN109686399B (zh) 2018-12-13 2018-12-13 一种基因数据集整合分析方法

Publications (2)

Publication Number Publication Date
CN109686399A CN109686399A (zh) 2019-04-26
CN109686399B true CN109686399B (zh) 2023-07-21

Family

ID=66187660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811522403.7A Active CN109686399B (zh) 2018-12-13 2018-12-13 一种基因数据集整合分析方法

Country Status (1)

Country Link
CN (1) CN109686399B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694755B (zh) * 2022-03-28 2023-01-24 中山大学 基因组组装方法、装置、设备及存储介质
CN117727372B (zh) * 2023-12-25 2024-05-17 韶关学院 一种基于正则化模型的数据整合方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446927A (zh) * 2016-07-07 2017-02-22 浙江大学 一种自步增强图像分类方法及系统
CN107025384A (zh) * 2015-10-15 2017-08-08 赵乐平 一种复杂数据预测模型的构建方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145937A (zh) * 2017-04-28 2017-09-08 河南科技大学 基于弹性scad罚函数的回声状态网络时间序列预测方法
CN108875838B (zh) * 2018-06-28 2021-09-03 中国人民解放军国防科技大学 一种分布式求解非凸正则化支持向量机的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025384A (zh) * 2015-10-15 2017-08-08 赵乐平 一种复杂数据预测模型的构建方法
CN106446927A (zh) * 2016-07-07 2017-02-22 浙江大学 一种自步增强图像分类方法及系统

Also Published As

Publication number Publication date
CN109686399A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
Blum et al. A comparative review of dimension reduction methods in approximate Bayesian computation
Fu et al. Quantile regression for longitudinal data with a working correlation model
CN107287293B (zh) 一种环境中微生物群落结构的绝对丰度测定方法
Yao et al. Safeguarded dynamic label regression for noisy supervision
CN111933212B (zh) 一种基于机器学习的临床组学数据处理方法及装置
CN109686399B (zh) 一种基因数据集整合分析方法
Cai et al. Inference for high-dimensional differential correlation matrices
Lee et al. An improved and explicit surrogate variable analysis procedure by coefficient adjustment
CN115136242A (zh) 来自大量组织转录组的准确稳健的信息反卷积
Biswas et al. Learning microbial interaction networks from metagenomic count data
WO2019126824A1 (en) Metagenomics for microbiomes
Zaman et al. Codon based back propagation neural network approach to classify hypertension gene sequences
Jiang et al. Flexible non-negative matrix factorization to unravel disease-related genes
CN110688484B (zh) 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN109671468B (zh) 一种特征基因选择及癌症分类方法
CN116959585B (zh) 基于深度学习的全基因组预测方法
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
CN115910382A (zh) 基于惩罚正则项的受限玻尔兹曼机的预测药物副作用方法
Hung A Robust Removing Unwanted Variation–Testing Procedure via-Divergence
CN108491685B (zh) 一种基于细胞力学矩阵模型的基因工程方法
CN110866643A (zh) 基于最大二次互信息准则回归的发酵过程质量变量预测
Zhai et al. Two‐sample test with g‐modeling and its applications
CN111178174A (zh) 基于深度卷积神经网络的尿液有形成分图像识别方法
Lu et al. Multilevel modeling with structured penalties for classification from imaging genetics data
Johnston et al. A Bayesian hierarchical gene model on latent genotypes for genome-wide association studies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant