CN109671468B - 一种特征基因选择及癌症分类方法 - Google Patents

一种特征基因选择及癌症分类方法 Download PDF

Info

Publication number
CN109671468B
CN109671468B CN201811522827.3A CN201811522827A CN109671468B CN 109671468 B CN109671468 B CN 109671468B CN 201811522827 A CN201811522827 A CN 201811522827A CN 109671468 B CN109671468 B CN 109671468B
Authority
CN
China
Prior art keywords
gene
model
scad
net
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811522827.3A
Other languages
English (en)
Other versions
CN109671468A (zh
Inventor
黄海辉
戴经国
梁勇
陈燕琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaoguan University
Original Assignee
Shaoguan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaoguan University filed Critical Shaoguan University
Priority to CN201811522827.3A priority Critical patent/CN109671468B/zh
Publication of CN109671468A publication Critical patent/CN109671468A/zh
Application granted granted Critical
Publication of CN109671468B publication Critical patent/CN109671468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种特征基因选择及癌症分类方法,至少包括以下步骤:根据超参数组和待处理基因数据集建立logistic回归模型;根据极大似然估算以及对算运算,将logistic回归模型表达为损失函数;建立SCAD‑Net的求解模型;结合损失函数和SCAD‑Net的求解模型,得到SNL模型;计算SCAD‑Net的迭代更新算子;根据迭代更新算子,通过坐标梯度下降法计算SNL模型的基因回归系数;根据基因回归系数,进行特征基因的选择和癌症的分类。本发明提供了一种特征基因选择及癌症分类方法,能够有效地提高了特征基因选择和癌症分类的准确性,从而有利于对疾病的研究。

Description

一种特征基因选择及癌症分类方法
技术领域
本发明涉及生物医学数据分析技术领域,尤其涉及一种特征基因选择及癌症分类方法。
背景技术
对癌症进行准确分类并识别出其疾病相关的生物标志物对肿瘤的临床治疗具有重要意义。目前,微阵列基因芯片技术是重要的基因组数据收集技术,通过此技术得到的基因表达谱数据已经被大量地应用于肿瘤的亚型分类及生物标志物的识别上。
然而由于基因表达谱高维小样本的特性,即收集到的样本个数远远小于其基因的个数(又称为小n,大p问题),在基因表达谱上建立的肿瘤预测模型和筛选出的基因非常容易遭遇过拟合问题及假阳性问题。
现有技术中,正则化方法是解决小n,大p问题的重要特征选择方法,它能够将模型的训练和特征基因选择同步进行。而典型方法包括基于L1范数的Lasso,基于L2范数的岭回归。典型方法中的L1范数和L2范数惩罚函数不能同时满足无偏性、稀疏性和连续性等要求,而且传统的SCAD方法并没有将基因与基因的交互网络纳入考虑范围,只是单纯从基因的角度去考虑与疾病的关系而没有考虑外部网络对其的协同影响,因而降低了使用SCAD方法进行基因选择和癌症分类的有效性。
发明内容
本发明实施例提供一种特征基因选择及癌症分类方法,能够解决传统的SCAD方法没有将基因与基因的交互网络纳入考虑范围的技术问题,从而有效地提高了特征基因选择和癌症分类的准确性,进而有利于对疾病的研究。
本发明实施例提供了一种特征基因选择及癌症分类方法,至少包括以下步骤:
根据超参数组和待处理基因数据集建立logistic回归模型;
根据极大似然估算以及对算运算,将所述logistic回归模型表达为损失函数;
建立SCAD-Net的求解模型;
结合所述损失函数和所述SCAD-Net的求解模型,得到SNL模型;
计算所述SCAD-Net的迭代更新算子;
根据所述迭代更新算子,通过坐标梯度下降法计算所述SNL模型的基因回归系数;
根据所述基因回归系数,进行特征基因的选择和癌症的分类。
进一步地,所述根据超参数和待处理基因数据集建立logistic回归模型之前,还包括步骤:
获取基因数据及基因调控网络,根据所述基因调控网并将所述基因数据进行生物网络处理,得到待处理基因数据集。
进一步地,所述根据超参数组和所述基因数据集建立logistic回归模型,具体为:
根据交叉验证方法选择超参数组,所述logistic回归模型表达式为:
其中,β=(β1,…,βp)为基因回归系数。
进一步地,所述根据极大似然估算以及对算运算,将所述logistic回归模型表达为损失函数,具体为:
其中,其中,l(·)称为损失函数,用于度量模型拟合值与观测值的误差。
进一步地,所述建立SCAD-Net的求解模型,其中所述SCAD-Net的求解模型的表达式为:
其中,
设基因i和基因k在生物调控网络中有连接,则wik=1或为0到1的实数,相反若无连接则wik=0;di和dk为基因i和基因k在生物调控网络中的度(入度+出度);λ1和λ2分别为调整模型稀疏度和模型平滑度的超参数。α为大于2.7的常数。
进一步地,所述结合所述损失函数和所述SCAD-Net的求解模型,得到SNL模型,具体为:
所述SNL模型的表达式为:
其中,l(β)为所述logistic回归损失函数,为SCAD-Net惩罚体。
进一步地,所述计算所述SCAD-Net的迭代更新算子,具体为:
建立线性稀疏SCAD-Net模型,表达式为:
通过对(4)进行求βj的一阶偏导数并使其为0,我们可得:
其中,是/>的第j分量,/>为普通最小二乘估计的解。而
其中,
综合(6)和(7)可得关于的迭代更新算子:
其中,sign(·)为符号函数,表示当/>时取否则取0。
进一步地,所述根据所述迭代更新算子,通过坐标梯度下降法计算所述SNL模型的基因回归系数,具体为:
通过泰勒公式对SNL模型进行线性化处理,得到线性化的目标函数;根据坐标梯度下降法求解所述线性化的目标函数,得到所述SNL模型的基因回归系数。
进一步地,所述根据所述基因回归系数,进行基因的选择和癌症的分类,具体为:
根据所述基因回归系数,建立所述待处理基因数据集的预测模型,根据所述预测模型,进行特征基因的选择和癌症的分类。
本发明实施例提供一种特征基因选择及癌症分类方法,能够解决传统的SCAD方法并没有将基因与基因的交互网络纳入考虑范围的技术问题,有效地提高了特征基因选择和癌症分类的准确性,从而有利于对疾病的研究。
附图说明
图1是本发明实施例提供的一种特征基因选择及癌症分类方法的流程示意图;
图2是本发明实施例提供的一种特征基因选择及癌症分类方法与其他主流方法在训练集的分类准确度、测试集的分类准确度上的结果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明的第一实施例提供了一种特征基因选择及癌症分类方法,至少包括以下步骤:
根据超参数组和待处理基因数据集建立logistic回归模型;
根据极大似然估算以及对算运算,将所述logistic回归模型表达为损失函数;
建立SCAD-Net的求解模型;
结合所述损失函数和所述SCAD-Net的求解模型,得到SNL模型;
计算所述SCAD-Net的迭代更新算子;
根据所述迭代更新算子,通过坐标梯度下降法计算所述SNL模型的基因回归系数;
根据所述基因回归系数,进行特征基因的选择和癌症的分类。
在本发明实施例中,本发明实施例提供了一种特征基因选择及癌症分类方法,通过实现回归系数向量的稀疏化,使得与回归系数向量分量为零所对应的变量不参与模型的拟合,能够有效提高对基因的选择和癌症的分类的准确性;通过SCAD惩罚体与网络正则化相结合(SCAD-Net),协同考虑基因表达谱的内部变异与其外部的交互网络,能够有效地提升肿瘤预测模型的精度和帮助选择出更有生物学意义的基因,有利于对疾病的研究。
作为本发明实施例的一种具体实施方式,所述根据超参数组和所述待处理基因数据集建立logistic回归模型之前,还包括步骤:
获取基因数据及基因调控网络,根据所述基因调控网将所述基因数据进行生物网络处理,得到待处理基因数据集。
作为本发明实施例的一种具体实施方式,所述根据超参数组和所述待处理基因数据集建立logistic回归模型,具体为:
根据交叉验证方法选择超参数组,所述logistic回归模型表达式为:
其中,β=(β1,…,βp)为基因回归系数。
在本发明实施例中,设有一个n例样本,每个样本测量了p个基因的基因数据集D={(X1,y1),(X2,y2),…,(Xn,yn)},其中Xi=xi1,xi2,…,xip)为第i个样本的p个基因数据的测量值,yi是相应的因变量值为二元0和1.定义分类器f(x)=ex/(1+ex),logistic回归模型由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯谛分布。
作为本发明实施例的一种具体实施方式,所述根据极大似然估算以及对算运算,将所述logistic回归模型表达为损失函数,具体为:
其中,其中,l(·)称为损失函数。
在本发明实施例中,损失函数用于度量模型拟合值与观测值的误差。
作为本发明实施例的一种具体实施方式,所述建立SCAD-Net的求解模型,其中所述SCAD-Net的求解模型的表达式为:
其中,
设基因i和基因k在生物调控网络中有连接,则wik=1或为0到1的实数,相反若无连接则wik=0;di和dk为基因i和基因k在生物调控网络中的度(入度+出度);λ1和λ2分别为调整模型稀疏度和模型平滑度的超参数。α为大于2.7的常数。
在本发明实施例中,通过交叉验证法进行超参数的选择。
作为本发明实施例的一种具体实施方式,所述结合所述损失函数和所述SCAD-Net的求解模型,得到SNL模型,具体为:
所述SNL模型的表达式为:
其中,l(β)为所述logistic回归损失函数,为SCAD-Net惩罚体。
在本发明实施例中,logistic回归损失函数将导向一个肿瘤预测模型,SCAD-Net惩罚体将帮助建立一个稀疏且无偏的模型,且选择出与该肿瘤相关的基因,同时其内部的基于网络的(network-based)惩罚体,可以将外部的基因与基因交互网络嵌入到模型中与基因表达谱数据做统一考虑,使得最终选择出的基因更加具有生物学本质。
作为本发明实施例的一种具体实施方式,所述计算所述SCAD-Net的迭代更新算子,具体为:
建立线性稀疏SCAD-Net模型,表达式为:
通过对(4)进行求βj的一阶偏导数并使其为0,我们可得:
其中,是/>的第j分量,/>为普通最小二乘估计的解。而
其中,
综合(6)和(7)可得关于的迭代更新算子:
其中,sign(·)为符号函数,表示当/>时取否则取0。
在本发明实施例中,由式子(8)可以看出,任何的值落在[-λ1,λ1]区间内的回归系数向量分量j均被置零,因此实现了回归系数向量的稀疏化,而回归系数向量的稀疏化使得与回归系数向量分量为零所对应的变量不参与模型的拟合,实现了变量选择效果。
作为本发明实施例的一种具体实施方式,所述根据所述迭代更新算子,通过坐标梯度下降法计算所述SNL模型的基因回归系数,具体为:
通过泰勒公式对SNL模型进行线性化处理,得到线性化的目标函数;根据坐标梯度下降法求解所述线性化的目标函数,得到所述SNL模型的基因回归系数。
在本发明实施例中,坐标梯度下降算法每次更新一个基因回归系数,同时固定其他回归系数不变。整个坐标梯度下降算法关于全部基因回归系数(1,2,…,p)循环迭代更新过程直到收敛。
作为本发明实施例的一种具体实施方式,所述根据所述基因回归系数,进行基因的选择和癌症的分类,具体为:
根据所述基因回归系数,建立基因的预测模型,根据所述基因的预测模型,进行特征基因的选择和癌症的分类。
在本发明实施例中,通过将SCAD惩罚体与网络正则化相结合(SCAD-Net),协同考虑基因表达谱的内部变异与其外部的交互网络,能够有效地提升肿瘤预测模型的精度和帮助选择出更有生物学意义的基因。
在本实施例中,通过具体的实施例来验证本发明公开的一种特征基因及癌症分类方法。采集前列腺癌、细胞淋巴癌和肺癌的基因数据,并下载基因调控网络,在基因数据中筛选出共有的基因,同时基于基因调控网络的连接关系为这些基因建立相应的链接矩阵以得到这3个疾病的基因数据集及其调控网络数据。将所有数据随机分成70%作为训练集,30%作为验证集,并通过交叉验证法选择超参数组。根据超参数和本发明提供的特征基因选择及癌症分类方法分别对前列腺癌、细胞淋巴癌和肺癌基因数据进行训练,当算法结束的时候所有的基因回归系数都已经确定,即基于基因数据的病人与健康人的预测模型已经确定。随后对各自的测试数据进行拟合。请参阅图2,为本方法与其他主流方法在对基因数据集中训练集的分类准确度和测试集的分类准确度的表现。分类准确率(accuracy)就是被分对的样本数除以所有的样本数,通常来说,准确率越高,分类器越好。实验结果可以看出,相对于现有方法,本发明方法无论在训练过程或者是在测试集上具有更高的肿瘤分类识别率。此外,通过对比上述4个方法在各基因数据集选择出的基因,发现本方法选出的基因在生物医学文献报告上更多、信号通信富集度更明显。所以,
本发明方法是正确且有效的。
实施本发明实施例,具有如下有益效果:
本发明实施例提供了一种特征基因选择及癌症分类方法,通过实现回归系数向量的稀疏化,使得与回归系数向量分量为零所对应的变量不参与模型的拟合,能够有效提高对基因的选择和癌症的分类的准确性;通过SCAD惩罚体与网络正则化相结合(SCAD-Net),协同考虑基因表达谱的内部变异与其外部的交互网络,能够有效地提升肿瘤预测模型的精度和帮助选择出更有生物学意义的基因,有利于对疾病的研究。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (6)

1.一种特征基因选择及癌症分类方法,其特征在于,至少包括以下步骤:
根据超参数组和待处理基因数据集建立logistic回归模型,具体为:
根据交叉验证方法进行选择所述超参数组,所述logistic回归模型表达式为:
其中,β=(β1,…,βp)为基因回归系数;
根据极大似然估算以及对算运算,将所述logistic回归模型表达为损失函数;
建立SCAD-Net的求解模型;
结合所述损失函数和所述SCAD-Net的求解模型,得到SNL模型,具体为:
所述SNL模型的表达式为:
其中,l(β)为所述logistic回归损失函数,为SCAD-Net惩罚体;
计算所述SCAD-Net的迭代更新算子,具体为:
建立线性稀疏SCAD-Net模型,表达式为:
通过对(4)进行求βj的一阶偏导数并使其为0,我们可得:
其中,是/>的第j分量,/>为普通最小二乘估计的解;而
其中,
综合(6)和(7)可得关于Pλ1,λ2,SCAD-Net(β)的迭代更新算子:
其中,sign(·)为符号函数,表示当/>时取否则取0;
根据所述迭代更新算子,通过坐标梯度下降法计算所述SNL模型的基因回归系数;
根据所述基因回归系数,进行特征基因的选择和癌症的分类。
2.如权利要求1所述的特征基因选择及癌症分类方法,其特征在于,所述根据超参数组和基因数据集建立logistic回归模型之前,还包括步骤:
获取基因数据及基因调控网络,根据所述基因调控网将所述基因数据进行生物网络处理,得到待处理基因数据集。
3.如权利要求1所述的特征基因选择及癌症分类方法,其特征在于,所述根据极大似然估算以及对算运算,将所述logistic回归模型表达为损失函数,具体为:
其中,l(·)称为损失函数,用于度量模型拟合值与观测值的误差。
4.如权利要求1所述的特征基因选择及癌症分类方法,其特征在于,所述建立SCAD-Net的求解模型,其中所述SCAD-Net的求解模型的表达式为:
其中,
设基因i和基因k在生物调控网络中有连接,则wik=1或为0到1的实数,相反若无连接则wik=0;di和dk为基因i和基因k在生物调控网络中的度;λ1和λ2分别为调整模型稀疏度和模型平滑度的超参数;α为大于2.7的常数。
5.如权利要求1所述的特征基因选择及癌症分类方法,其特征在于,所述根据所述迭代更新算子,通过坐标梯度下降法计算所述SNL模型的基因回归系数,具体为:
通过泰勒公式对SNL模型进行线性化处理,得到线性化的目标函数;根据坐标梯度下降法求解所述线性化的目标函数,得到所述SNL模型的基因回归系数。
6.如权利要求1所述的特征基因选择及癌症分类方法,其特征在于,所述根据所述基因回归系数,进行基因的选择和癌症的分类,具体为:
根据所述基因回归系数,建立所述待处理基因数据集的预测模型,根据所述预测模型,进行特征基因的选择和癌症的分类。
CN201811522827.3A 2018-12-13 2018-12-13 一种特征基因选择及癌症分类方法 Active CN109671468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811522827.3A CN109671468B (zh) 2018-12-13 2018-12-13 一种特征基因选择及癌症分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811522827.3A CN109671468B (zh) 2018-12-13 2018-12-13 一种特征基因选择及癌症分类方法

Publications (2)

Publication Number Publication Date
CN109671468A CN109671468A (zh) 2019-04-23
CN109671468B true CN109671468B (zh) 2023-08-15

Family

ID=66145044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811522827.3A Active CN109671468B (zh) 2018-12-13 2018-12-13 一种特征基因选择及癌症分类方法

Country Status (1)

Country Link
CN (1) CN109671468B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780445B (zh) * 2021-09-16 2023-08-22 平安科技(深圳)有限公司 癌症亚型分类预测模型的生成方法及装置、存储介质
CN116129992A (zh) * 2023-04-17 2023-05-16 之江实验室 基于图神经网络的基因调控网络构建方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473484A (zh) * 2013-09-30 2013-12-25 南京大学 一种基于组和图稀疏化的基因序列分类方法
CN104462817A (zh) * 2014-12-09 2015-03-25 西北师范大学 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法
CN107526946A (zh) * 2016-12-23 2017-12-29 南京理工大学 融合自学习和低秩表示的基因表达数据癌症分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003041562A2 (en) * 2001-11-14 2003-05-22 Whitehead Institute For Biomedical Research Molecular cancer diagnosis using tumor gene expression signature
CA2678919A1 (en) * 2007-03-27 2008-10-02 Ranit Aharonov Gene expression signature for classification of cancers
AU2015101194A4 (en) * 2015-07-26 2015-10-08 Macau University Of Science And Technology Semi-Supervised Learning Framework based on Cox and AFT Models with L1/2 Regularization for Patient’s Survival Prediction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473484A (zh) * 2013-09-30 2013-12-25 南京大学 一种基于组和图稀疏化的基因序列分类方法
CN104462817A (zh) * 2014-12-09 2015-03-25 西北师范大学 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法
CN107526946A (zh) * 2016-12-23 2017-12-29 南京理工大学 融合自学习和低秩表示的基因表达数据癌症分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Logistic回归惩罚函数的疾病诊断;庄虹莉等;《中国卫生统计》;20170225(第01期);第139-143页 *

Also Published As

Publication number Publication date
CN109671468A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN109528197B (zh) 基于脑功能图谱进行精神疾病的个体化预测方法和系统
CN110909926A (zh) 基于tcn-lstm的太阳能光伏发电预测方法
Raman et al. The Bayesian group-lasso for analyzing contingency tables
CN112784913B (zh) 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
Murugan et al. Classification and prediction of breast cancer using linear regression, decision tree and random forest
CN109671468B (zh) 一种特征基因选择及癌症分类方法
CN112232407A (zh) 病理图像样本的神经网络模型训练方法、装置
CN107609588A (zh) 一种基于语音信号的帕金森患者updrs得分预测方法
CN116741397B (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
US20230162818A1 (en) Methods of determining correspondences between biological properties of cells
CN111090764A (zh) 基于多任务学习和图卷积神经网络的影像分类方法及装置
CN111128301A (zh) 一种基于模糊聚类的重叠蛋白质复合物识别方法
CN110191964B (zh) 确定生物样本中预定来源的游离核酸比例的方法及装置
Yan et al. Radiomics analysis using stability selection supervised component analysis for right-censored survival data
CN114496112B (zh) 一种基于多目标优化的抗乳腺癌药物成分智能量化方法
CN116259109A (zh) 基于生成式自监督学习和对比学习的人体行为识别方法
Ji et al. Convolutional neural network with graphical lasso to extract sparse topological features for brain disease classification
Ram et al. Lung cancer lesion detection in histopathology images using graph‐based sparse PCA network
CN116959585B (zh) 基于深度学习的全基因组预测方法
CN109686399B (zh) 一种基因数据集整合分析方法
CN116189785A (zh) 基于空间转录组学数据特征提取的空间域识别方法
CN114999661A (zh) 皮肤癌识别模型的构建方法、皮肤癌识别装置、电子设备
Zhao et al. Rfe based feature selection improves performance of classifying multiple-causes deaths in colorectal cancer
Kiranmayee et al. Explorative data analytics of brain tumour data using R
Lillelund et al. Uncertainty Estimation in Deep Bayesian Survival Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant