CN116469561A - 一种基于深度学习的乳腺癌生存预测方法 - Google Patents

一种基于深度学习的乳腺癌生存预测方法 Download PDF

Info

Publication number
CN116469561A
CN116469561A CN202310448572.5A CN202310448572A CN116469561A CN 116469561 A CN116469561 A CN 116469561A CN 202310448572 A CN202310448572 A CN 202310448572A CN 116469561 A CN116469561 A CN 116469561A
Authority
CN
China
Prior art keywords
data
modal
layer
features
breast cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310448572.5A
Other languages
English (en)
Inventor
徐洪珍
袁晗
刘爱华
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Institute of Technology
Original Assignee
East China Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Institute of Technology filed Critical East China Institute of Technology
Priority to CN202310448572.5A priority Critical patent/CN116469561A/zh
Publication of CN116469561A publication Critical patent/CN116469561A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Primary Health Care (AREA)
  • Biotechnology (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于深度学习的乳腺癌生存预测方法,其特征在于,包括以下步骤:从原始数据集中获取乳腺癌多模态生存数据,并对数据进行预处理;使用SMOTE‑NC方法对预处理后的不平衡数据进行过采样处理;通过两层一维卷积神经网络和双向长短期记忆网络提取过采样处理后多模态数据的抽象模态特征;动态调整各个模态数据的权重系数,将提取的多模态数据抽象模态特征进行动态融合,得到多模态数据的融合特征;将融合特征输入到具有Maxout激活函数的多层感知机,得到最终的预测结果。本发明乳腺癌生存预测方法相比其他方法得到了更好的表现,提高了准确率。

Description

一种基于深度学习的乳腺癌生存预测方法
技术领域
本发明涉及乳腺癌生存预测的技术领域,尤其涉及一种基于深度学习的乳腺癌生存预测方法。
背景技术
乳腺癌由乳腺内细胞不受控制的生长引起,这种生长导致细胞片或肿块的形成,具有侵袭性和转移性,是全球癌症相关死亡的主要原因之一。准确的生存预测是乳腺癌患者预后的一个重要目标,因为它可以帮助医生做出对患者更加有益的决定,并进一步指导适当的治疗。
乳腺癌有一定的遗传相关性,这促使研究人员在乳腺癌生存预测研究中除了考虑临床信息外,还应考虑基因表达(Gene Expression)、拷贝数变异(Copy NumberAlteration,CNA)等基因信息。这些多模态数据间存在多种不同的信息交互,如果能合理地处理多模态数据,就能得到丰富的特征信息。集成这些多模态数据有助于提高模型的预测能力。
传统的乳腺癌生存预测往往采用统计学方法。然而,多模态数据往往存在高维性和冗余性,且特征之间可能存在潜在的关系,但统计学方法的风险函数是线性的,过于简单。所以,这类方法往往很难有效并准确地预测乳腺癌患者的生存。
深度学习已应用于医疗保健的许多领域。与其他方法相比,深度学习(DL)对需要专业知识的特征工程要求更少。此外,医疗保健数据具有不同的格式,例如基因组数据、临床数据、文本和图像数据,使用不同的神经网络体系结构可以解决不同类型的数据。许多癌症研究中对模型性能的评估表明,DL应用于癌症预后优于其他传统方法。近来,有许多研究人员使用DL模型进行乳腺癌生存预测,并获得了不错的性能。但在基于多模态数据进行乳腺癌生存预测方面还面临挑战。首先,乳腺癌长期存活样本数量明显超过短期存活样本,存在类别极度不平衡问题,这样会导致多数类的高精度,而少数类的低精度。第二,使用多模态数据常存在无法充分利用多模态数据间互补性的问题,并且在使用多模态数据时,常常手动选择各个模态权重系数或者默认所有模态对最终预测的贡献都相同。
发明内容
为解决上述问题,本发明的目的在于提供一种基于深度学习的乳腺癌生存预测方法,用于整合基因表达数据、拷贝数变异数据和临床数据来预测乳腺癌患者的5年生存率。该方法采用SMOTE-NC方法进行过采样以提高不平衡乳腺癌数据集的分类效率;利用两层一维卷积神经网络从临床数据中提取抽象模态特征,采用BiLSTM从拷贝数变异数据和基因表达数据中提取抽象模态特征;并通过调整各个模态的权重系数动态确定每个输入模态对单元激活的影响程度,从而更有效地融合多模态数据,更充分地利用多模态数据间的互补性。
为实现上述目的,本发明的技术方案是这样实现的:一种基于深度学习的乳腺癌生存预测方法,其步骤如下:
S1、从原始数据集中获取乳腺癌多模态生存数据,包括临床数据、拷贝数变异数据和基因表达数据,对上述多模态数据进行填补缺失值、归一化、离散化以及降维等预处理;
S2、建立过采样层,采用SMOTE-NC方法对上述预处理后的数据进行过采样处理,以解决数据的不平衡问题;
S3、建立特征提取层,利用两层一维卷积神经网络1D-CNN和双向长短期记忆网络BiLSTM分别提取过采样处理后多模态数据的抽象模态特征;
S4、建立数据融合层,动态调整各个模态数据的权重系数,将提取的多模态数据抽象模态特征进行动态融合,得到多模态数据的融合特征;
S5、分类预测,将多模态数据的融合特征输入到多层感知机MLP分类器,利用Maxout作为激活函数,得到最终的预测结果。
进一步,所述步骤S1包括:
S11、从原始数据集中获取乳腺癌多模态生存数据,包括临床数据、拷贝数变异数据和基因表达数据;
S12、使用k-最近邻算法填补步骤S11所得数据的缺失值;
S13、对步骤S12处理后的数据进行归一化和离散化处理;将基因表达数据处理为表达不足(–1)、正常表达(0)和过度表达(1)三类;对于拷贝数变异数据,直接使用具有五个离散值的原始数据:纯合缺失(–2),半合子缺失(–1),中性/无变化(0),增益(1),高电平放大(2);对于非数值临床数据,通过独热编码进行数字化;
S14、采用fast-mRMR方法对步骤S13处理后的拷贝数变异数据和基因表达数据进行降维。
进一步,所述步骤S2包括:
S21、计算标准差中值:计算经步骤S1预处理后的多模态数据的短期存活样本所有连续特征的标准差中值;
S22、计算欧几里德距离,得到k近邻:随机选定一个短期存活样本,计算该选定样本与k个最近邻的特征向量之间的欧几里德距离;若该样本与其潜在最近邻之间的离散特征不同,则在欧几里德距离计算中加入步骤S21计算的标准差中值;如F1和F2为两个样本,F1=3 4 9 A B C,F2=2 2 5 A D E,每个样本有六个特征,其中前三个为连续特征,后三个为离散特征;则F1与F2之间的欧几里德距离计算公式为:
Eucl=sqrt[(3-2)2+(4-2)2+(9-5)2+Med2+Med2]
这里,Eucl表示所计算的欧几里德距离,sqrt表示计算平方根,Med为步骤S21所计算的短期存活样本连续特征的标准差中值,由于有两个离散特征不同,因此在欧几里德距离计算中加入两个Med2
S23、构建合成样本:合成的样本由合成的连续特征和离散特征组成。对短期存活样本F3,从它的k近邻中随机选择一个样本F4,则合成的连续特征为:
F5=F3+rand(0,1)×|F3-F4|
这里,F5代表合成样本的连续特征,rand(0,1)表示生成[0,1)区间的随机数,|F3-F4|表示样本F3与F4连续特征差值的绝对值;
合成的离散特征则由k近邻中出现最多的值给出;将合成的连续特征及离散特征进行组合,即可构建出新的合成样本;得到所有合成样本后,将其加入到经步骤S1预处理后的数据中,从而得到过采样后的数据集。
进一步,所述步骤S3包括:
S31、利用两层一维卷积神经网络从经步骤S2过采样处理后的临床数据中提取抽象模态特征;
将经步骤S2过采样处理后的临床数据作为1D-CNN的输入进行训练;第一层1D-CNN定义内核大小为8的过滤器,通过卷积来获得临床数据的特征图,在卷积过程中,过滤器根据过滤器尺寸和步长左右卷积,公式表示如下:
yi=σ(wixi+bi)
其中,yi表示临床数据卷积后得到的特征图,σ是激活函数,wi是可学习权重,xi是临床数据的局部输入,bi是偏置值;
卷积后使用ReLU用作激活函数,将负输入映射为0,正输入映射为输出,公式表示如下:
ReLU(yi)=max(yi,0)
其中,ReLU为激活函数,max(,)表示取两个数值中的最大值;
在激活过程后,定义尺寸为2、步长为2的最大池化层,在不损坏识别结果的情况下减少训练参数、简化非线性数据的输出;
第二层1D-CNN接收来自第一层1D-CNN的结果,通过内核大小为3步长为1的过滤器,使用ReLU激活函数,再通过最大池化层、Flatten层、Dropout层,最终得到临床数据的抽象模态特征其中/>表示实数集,N为患者人数;Flatten层用来将输入“压平”,即把多维的输入一维化,以便从卷积层到全连接层的过渡;Dropout层可有效防止过拟合,提升模型泛化能力。
S32、采用双向长短期记忆网络BiLSTM处理经步骤S2过采样处理后的拷贝数变异数据和基因表达数据,以捕捉输入数据之间的相互作用和输入数据的长期依赖信息,学习基因序列的全局特征;并从拷贝数变异数据和基因表达数据中提取抽象模态特征,以便后面进行多模态的融合;
将拷贝数变异数据和基因表达数据进行维度上的拼接,对数据重新构造后送入BiLSTM,再通过全连接层、Dropout层,最终输出拷贝数变异数据和基因表达数据的抽象模态特征其中/>表示实数集,N为患者人数。
进一步,所述步骤S4包括:
S41、对步骤S31和步骤S32得到的抽象模态特征进行编码:
hv=ReLU(Wvxv T)
ht=ReLU(Wtxt T)
其中,hv、ht为编码后的特征向量,ReLU是激活函数,Wv和Wt是可学习权重,为步骤S31得到的临床数据抽象模态特征,/>为步骤S32得到的拷贝数变异数据和基因表达数据的抽象模态特征,xv T和xt T分别表示对xv和xt进行转置;
S42、计算内部权重系数,以控制每个特征对单元整体输出的贡献,公式如下:
z=σ(Wz[hv,ht]T)
其中,z为计算得到的内部权重系数,σ表示Sigmoid激活函数,Wz是可学习权重,[,]表示进行维度上的拼接;
S43、对编码后的特征向量进行动态融合,得到融合特征,融合特征由z激活加权的xv和xt的凸组合给出,公式如下:
h=zxv+(1-z)xt
该公式决定每个模态如何影响单元的输出,h为最终输出的融合特征。这也意味着,由于z对xv和xt的依赖性,每个不同的输入在这种凸组合中将具有不同的权重。由于所有操作都是可微操作,该模型可以很容易地与其他神经网络结构耦合,并使用随机梯度下降进行训练。
进一步,所述步骤S5包括:
为了最终预测乳腺癌患者的5年生存率,使用具有Maxout激活函数的MLP(多层感知机)作为分类器。
我们将步骤S4得到的融合特征h作为MaxoutMLP的输入,其隐含层节点的输出表达式则为:
其中,zij为第i个隐藏单元的第j次线性变换的输出,是步骤S4得到的融合特征,hT表示对h进行转置;/>是可学习权重,W...ij表示所有输入层节点的第i个隐含层节点的第j个“隐隐含层”节点的可学习权重,其中d表示输入层节点的个数,l表示隐含层节点的个数,k表示每个隐含层节点又对应k个“隐隐含层”节点,这k个“隐隐含层”节点都是线性输出的;bij表示第i个隐藏单元的第j次线性变换的偏置值;gi(h)为第i个隐含层节点的输出,Maxout的每个节点就是取这k个“隐隐含层”节点输出值中最大的那个值;
最终,我们将多模态数据的融合特征输入到多层感知机MLP分类器,利用Maxout作为激活函数,得到了最后的预测结果。
本发明用于整合基因表达、CNA和临床数据来预测乳腺癌患者的5年生存率。本发明进一步证明了深度多模态融合网络的可行性和多模态数据在乳腺癌预后预测中的可用性。
本发明的主要创新性如下:1、该方法采用SMOTE-NC方法进行过采样,通过创建新的合成实例来增加短期存活样本数量,有效提高了不平衡乳腺癌数据集的分类效率;2、该方法为了识别临床数据中的简单模式,并在更高层中形成更复杂的模式,利用两层一维卷积神经网络从临床数据中提取抽象模态特征,以便进行多模态融合;3、该方法采用BiLSTM处理拷贝数变异数据和基因表达数据,以捕捉输入数据之间的相互作用和输入数据的长期依赖信息,学习基因序列的全局特征;并从拷贝数变异数据和基因表达数据中提取抽象模态特征,以便进行多模态融合;4、该方法通过动态调整各个模态数据的权重系数,将提取的多模态数据抽象模态特征进行动态融合,能够更有效地融合多模态数据,更充分地利用多模态数据间的互补性。
附图说明
图1为本发明的流程示意图。
图2为本发明深度多模态融合网络的结构示意图。
图3为本发明特征提取模块两层1D-CNN的结构示意图。
图4为本发明特征提取模块BiLSTM的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
实施例1,一种基于深度学习的乳腺癌生存预测方法,包括以下步骤:
S1、从原始数据集中获取乳腺癌多模态生存数据,包括临床数据、拷贝数变异数据和基因表达数据,对上述多模态数据进行填补缺失值、归一化、离散化以及降维等预处理;
具体包括:
S11、从原始数据集中获取乳腺癌多模态生存数据,包括临床数据、拷贝数变异数据和基因表达数据;
乳腺癌多模态数据来自METABRIC数据集,该数据集来自国际乳腺癌协会的分子分类数据库;拥有1980个真实的乳腺癌患者代谢追踪数据,患者的中位年龄为61岁,平均生存期为125.1个月;使用5年生存阈值将患者分为两个生存等级,生存时间超过5年的为长期存活患者,不超过5年的为短期存活患者,将长期存活患者标为0,短期存活患者标为1,分别有1489和491名患者;每个乳腺癌患者的信息来自三种模态的数据:临床数据、拷贝数变异数据、基因表达数据;临床特征包括患者年龄、肿瘤大小、肿瘤分期和分级、受体状态等;在癌症发生时,基因组的拷贝数会有所改变,每个拷贝数变异数据表示特定基因在特定样本中的拷贝数;基因表达是将来自基因的遗传信息合成功能性基因产物的过程,不同类型的癌症在人类中引起不同的基因表达模式,每个基因表达数据表示特定基因在特定样本中的表达水平;多模态数据具体表示如下:
其中,Xclin表示临床数据,Xc表示拷贝数变异数据,Xg表示基因表达数据,N是患者人数,d=(m+n+c)表示三模态数据的维度之和,m、n和c分别代表临床数据、CNA数据和基因表达数据的维度。
由于原始数据中各特征的量纲差异较大,且存在缺失值以及冗余特征,这会影响预测模型的质量;因此,下面需要对乳腺癌多模态数据进行预处理,包括填补缺失值、归一化、离散化以及降维等;
S12、使用k-最近邻算法填补步骤S11所得数据的缺失值;
S13、对步骤S12处理后的数据进行归一化和离散化处理;将基因表达数据处理为表达不足(–1)、正常表达(0)和过度表达(1)三类;对于拷贝数变异数据,直接使用具有五个离散值的原始数据:纯合缺失(–2),半合子缺失(–1),中性/无变化(0),增益(1),高电平放大(2);对于非数值临床数据,通过独热编码进行数字化;
S14、采用fast-mRMR方法对步骤S13处理后的拷贝数变异数据和基因表达数据进行降维;该方法根据特征与目标的相关性对特征进行排序,同时对特征的冗余性进行惩罚;主要目标是使用互信息找到一组特征和类之间的最大依赖关系;
特征集X与类class(0或1)的相关性D由各个特征和类之间的所有互信息(由I表示)的平均值定义:
其中,|X|=d为多模态数据的维度,x,c为两个随机变量,p(x,c)为它们的联合概率密度函数,p(x)和p(c)为边际概率密度函数,互信息I(Xi;class)即为联合分布p(x,c)和p(x)p(c)之间的相对熵;
集合X中所有特征的冗余R是特征与特征之间的所有互信息值的平均值:
其中,x,y为两个随机变量,p(x,y)为它们的联合概率密度函数,p(x)和p(y)为边际概率密度函数,互信息I(Xi;Xj)即为联合分布p(x,y)和p(x)p(y)之间的相对熵;
fast-mRMR方法是对相关性和冗余性的折中,根据特征与目标的相关性对特征进行排序,同时对特征的冗余性进行惩罚,从而找到和类之间有最大依赖关系的一组特征:
其中,S为X的子集,为目标特征集合,包含|S|个平均互信息最大的特征;I(Xi;class)和I(Xj;Xi)的计算同上。
S2、建立过采样层,采用SMOTE-NC方法对上述预处理后的数据进行过采样处理,以解决数据的不平衡问题;
在乳腺癌样本中,因为绝大多数样本都为长期存活患者,模型会倾向于把大多数样本判定为长期存活,这样能达到很高的准确率,但是达不到很高的召回率;因此选择数据集的一部分数据进行过采样,剩下的一部分数据作为测试集;数据集的划分为:首先取数据集的20%作为测试集,取80%的数据采用SMOTE-NC方法进行过采样,最后将过采样后的数据按照9:1的比例划分为训练集和验证集;其中,使用训练集进行模型训练,在训练过程中使用验证集用于检验模型的训练情况,从而确定合适的超参数,训练结束后以测试集在模型上的测试结果作为性能指标;
对数据进行过采样处理的具体步骤包括:
S21、计算标准差中值:计算经步骤S1预处理后的多模态数据的短期存活样本所有连续特征的标准差中值。若样本与其潜在近邻之间的离散特征不同,则在欧几里德距离计算中将使用该中值对离散特征的差异进行惩罚;
S22、计算欧几里德距离,得到k近邻:随机选定一个短期存活样本,计算该选定样本与k个最近邻的特征向量之间的欧几里德距离;若该样本与其潜在最近邻之间的离散特征不同,则在欧几里德距离计算中加入步骤S21计算的标准差中值;如F1和F2为两个样本,F1=3 4 9 A B C,F2=2 2 5 A D E,每个样本有六个特征,其中前三个为连续特征,后三个为离散特征;则F1与F2之间的欧几里德距离计算公式为:
Eucl=sqrt[(3-2)2+(4-2)2+(9-5)2+Med2+Med2]
这里,Eucl表示所计算的欧几里德距离,sqrt表示计算平方根,Med为步骤S21所计算的短期存活样本连续特征的标准差中值,由于有两个离散特征不同,因此在欧几里德距离计算中加入两个Med2
S23、构建合成样本:合成的样本由合成的连续特征和离散特征组成。对短期存活样本F3,从它的k近邻中随机选择一个样本F4,则合成的连续特征为:
F5=F3+rand(0,1)×|F3-F4|
这里,F5代表合成样本的连续特征,rand(0,1)表示生成[0,1)区间的随机数,|F3-F4|表示样本F3与F4连续特征差值的绝对值;
合成的离散特征则由k近邻中出现最多的值给出;将合成的连续特征及离散特征进行组合,即可构建出新的合成样本;得到所有合成样本后,将其加入到经步骤S1预处理后的数据中,从而得到过采样后的数据集。
S3、建立特征提取层,利用两层一维卷积神经网络1D-CNN和双向长短期记忆网络BiLSTM分别提取过采样处理后多模态数据的抽象模态特征;
具体包括:
S31、为了识别临床数据中的简单模式并在更高层中形成更复杂的模式,利用两层一维卷积神经网络从经步骤S2过采样处理后的临床数据中提取抽象模态特征;
将经步骤S2过采样处理后的临床数据作为1D-CNN的输入进行训练;第一层1D-CNN定义内核大小为8的过滤器,通过卷积来获得临床数据的特征图,在卷积过程中,过滤器根据过滤器尺寸和步长左右卷积,公式表示如下:
yi=σ(wixi+bi)
其中,yi表示临床数据卷积后得到的特征图,σ是激活函数,wi是可学习权重,xi是临床数据的局部输入,bi是偏置值;
卷积后使用ReLU用作激活函数,将负输入映射为0,正输入映射为输出,公式表示如下:
ReLU(yi)=max(yi,0)
其中,ReLU为激活函数,max(,)表示取两个数值中的最大值;
在激活过程后,定义尺寸为2、步长为2的最大池化层,在不损坏识别结果的情况下减少训练参数、简化非线性数据的输出;
第二层1D-CNN接收来自第一层1D-CNN的结果,通过内核大小为3步长为1的过滤器,使用ReLU激活函数,再通过最大池化层、Flatten层、Dropout层,最终得到临床数据的抽象模态特征其中/>表示实数集,N为患者人数;Flatten层用来将输入“压平”,即把多维的输入一维化,以便从卷积层到全连接层的过渡;Dropout层可有效防止过拟合,提升模型泛化能力。
S32、采用双向长短期记忆网络BiLSTM处理经步骤S2过采样处理后的拷贝数变异数据和基因表达数据,以捕捉输入数据之间的相互作用和输入数据的长期依赖信息,学习基因序列的全局特征;并从拷贝数变异数据和基因表达数据中提取抽象模态特征,以便后面进行多模态的融合;
将拷贝数变异数据和基因表达数据进行维度上的拼接,对数据重新构造后送入BiLSTM,再通过全连接层、Dropout层,最终输出拷贝数变异数据和基因表达数据的抽象模态特征其中/>表示实数集,N为患者人数。
S4、建立数据融合层,动态调整各个模态数据的权重系数,将提取的多模态数据抽象模态特征进行动态融合,得到多模态数据的融合特征;
具体包括:
S41、对步骤S31和步骤S32得到的抽象模态特征进行编码:
hv=ReLU(Wvxv T)
ht=ReLU(Wtxt T)
其中,hv、ht为编码后的特征向量,ReLU是激活函数,Wv和Wt是可学习权重,为步骤S31得到的临床数据抽象模态特征,/>为步骤S32得到的拷贝数变异数据和基因表达数据的抽象模态特征,xv T和xt T分别表示对xv和xt进行转置;
S42、计算内部权重系数,以控制每个特征对单元整体输出的贡献,公式如下:
z=σ(Wz[hv,ht]T)
其中,z为计算得到的内部权重系数,σ表示Sigmoid激活函数,Wz是可学习权重,[,]表示进行维度上的拼接;
S43、对编码后的特征向量进行动态融合,得到融合特征,融合特征由z激活加权的xv和xt的凸组合给出,公式如下:
h=zxv+(1-z)xt
该公式决定每个模态如何影响单元的输出,h为最终输出的融合特征。这也意味着,由于z对xv和xt的依赖性,每个不同的输入在这种凸组合中将具有不同的权重。由于所有操作都是可微操作,该模型可以很容易地与其他神经网络结构耦合,并使用随机梯度下降进行训练。
S5、分类预测,将多模态数据的融合特征输入到多层感知机MLP分类器,利用Maxout作为激活函数,得到最终的预测结果。
为了最终预测乳腺癌患者的5年生存率,使用具有Maxout激活函数的MLP(多层感知机)作为分类器。
最典型的多层感知机(MLP)包括输入层、隐含层、输出层三层,不同层之间是全连接的。Maxout激活函数是一个可学习的分段函数。Maxout的拟合能力非常强,可以拟合任意的凸函数。它拥有ReLU线性不饱和的优点,同时没有ReLU的一些缺点,如神经元的死亡。它的特殊之处在于增加了多个神经元,然后输出激活值最大的值。对于一个标准的MLP网络来说,如果隐藏层的神经元足够多,那么理论上是可以逼近任意函数的。因此,我们在MLP网络中加入一层Maxout激活函数层,使神经网络能够更好地逼近任何非线性函数,更好地创建输入与输出间的复杂映射关系。
我们将步骤S4得到的融合特征h作为MaxoutMLP的输入,其隐含层节点的输出表达式则为:
其中,zij为第i个隐藏单元的第j次线性变换的输出,是步骤S4得到的融合特征,hT表示对h进行转置;/>是可学习权重,W...ij表示所有输入层节点的第i个隐含层节点的第j个“隐隐含层”节点的可学习权重,其中d表示输入层节点的个数,l表示隐含层节点的个数,k表示每个隐含层节点又对应k个“隐隐含层”节点,这k个“隐隐含层”节点都是线性输出的;bij表示第i个隐藏单元的第j次线性变换的偏置值;gi(h)为第i个隐含层节点的输出,Maxout的每个节点就是取这k个“隐隐含层”节点输出值中最大的那个值;
最终,我们将多模态数据的融合特征输入到多层感知机MLP分类器,利用Maxout作为激活函数,得到了最后的预测结果。
综上所述,本发明实施例提出的一种基于深度学习的乳腺癌生存预测方法。该方法采用SMOTE-NC方法进行过采样以提高不平衡乳腺癌数据集的分类效率;利用两层一维卷积神经网络从临床数据中提取抽象模态特征,采用BiLSTM从拷贝数变异数据和基因表达数据中提取抽象模态特征;并通过调整各个模态的权重系数动态确定每个输入模态对单元激活的影响程度,从而更有效地融合多模态数据,更充分地利用多模态数据间的互补性。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (6)

1.一种基于深度学习的乳腺癌生存预测方法,其特征在于,该方法包括以下步骤:
S1、从原始数据集中获取乳腺癌多模态生存数据,包括临床数据、拷贝数变异数据和基因表达数据,对上述多模态数据进行填补缺失值、归一化、离散化以及降维等预处理;
S2、建立过采样层,采用SMOTE-NC方法对上述预处理后的数据进行过采样处理,以解决数据的不平衡问题;
S3、建立特征提取层,利用两层一维卷积神经网络1D-CNN和双向长短期记忆网络BiLSTM分别提取过采样处理后多模态数据的抽象模态特征;
S4、建立数据融合层,动态调整各个模态数据的权重系数,将提取的多模态数据抽象模态特征进行动态融合,得到多模态数据的融合特征;
S5、分类预测,将多模态数据的融合特征输入到多层感知机MLP分类器,利用Maxout作为激活函数,得到最终的预测结果。
2.如权利要求1所述的方法,其特征在于,所述步骤S1包括:
S11、从原始数据集中获取乳腺癌多模态生存数据,包括临床数据、拷贝数变异数据和基因表达数据;
S12、使用k-最近邻算法填补步骤S11所得数据的缺失值;
S13、对步骤S12处理后的数据进行归一化和离散化处理;将基因表达数据处理为表达不足(–1)、正常表达(0)和过度表达(1)三类;对于拷贝数变异数据,直接使用具有五个离散值的原始数据:纯合缺失(–2),半合子缺失(–1),中性/无变化(0),增益(1),高电平放大(2);对于非数值临床数据,通过独热编码进行数字化;
S14、采用fast-mRMR方法对步骤S13处理后的拷贝数变异数据和基因表达数据进行降维。
3.如权利要求1所述的方法,其特征在于,所述步骤S2包括:
S21、计算标准差中值:计算经步骤S1预处理后的多模态数据的短期存活样本所有连续特征的标准差中值;
S22、计算欧几里德距离,得到k近邻:随机选定一个短期存活样本,计算该选定样本与k个最近邻的特征向量之间的欧几里德距离;若该样本与其潜在最近邻之间的离散特征不同,则在欧几里德距离计算中加入步骤S21计算的标准差中值;如F1和F2为两个样本,F1=34 9 A B C,F2=2 2 5 A D E,每个样本有六个特征,其中前三个为连续特征,后三个为离散特征;则F1与F2之间的欧几里德距离计算公式为:
Eucl=sqrt[(3-2)2+(4-2)2+(9-5)2+Med2+Med2]
这里,Eucl表示所计算的欧几里德距离,sqrt表示计算平方根,Med为步骤S21所计算的短期存活样本连续特征的标准差中值,由于有两个离散特征不同,因此在欧几里德距离计算中加入两个Med2
S23、构建合成样本:合成的样本由合成的连续特征和离散特征组成。对短期存活样本F3,从它的k近邻中随机选择一个样本F4,则合成的连续特征为:
F5=F3+rand(0,1)×|F3-F4|
这里,F5代表合成样本的连续特征,rand(0,1)表示生成[0,1)区间的随机数,|F3-F4|表示样本F3与F4连续特征差值的绝对值;
合成的离散特征则由k近邻中出现最多的值给出;将合成的连续特征及离散特征进行组合,即可构建出新的合成样本;得到所有合成样本后,将其加入到经步骤S1预处理后的数据中,从而得到过采样后的数据集。
4.如权利要求1所述的方法,其特征在于,所述步骤S3包括:
S31、利用两层一维卷积神经网络从经步骤S2过采样处理后的临床数据中提取抽象模态特征;
将经步骤S2过采样处理后的临床数据作为1D-CNN的输入进行训练;第一层1D-CNN定义内核大小为8的过滤器,通过卷积来获得临床数据的特征图,在卷积过程中,过滤器根据过滤器尺寸和步长左右卷积,公式表示如下:
yi=σ(wixi+bi)
其中,yi表示临床数据卷积后得到的特征图,σ是激活函数,wi是可学习权重,xi是临床数据的局部输入,bi是偏置值;
卷积后使用ReLU用作激活函数,将负输入映射为0,正输入映射为输出,公式表示如下:
ReLU(yi)=max(yi,0)
其中,ReLU为激活函数,max(,)表示取两个数值中的最大值;
在激活过程后,定义尺寸为2、步长为2的最大池化层,在不损坏识别结果的情况下减少训练参数、简化非线性数据的输出;
第二层1D-CNN接收来自第一层1D-CNN的结果,通过内核大小为3步长为1的过滤器,使用ReLU激活函数,再通过最大池化层、Flatten层、Dropout层,最终得到临床数据的抽象模态特征其中/>表示实数集,N为患者人数;Flatten层用来将输入“压平”,即把多维的输入一维化,以便从卷积层到全连接层的过渡;Dropout层可有效防止过拟合,提升模型泛化能力。
S32、采用双向长短期记忆网络BiLSTM处理经步骤S2过采样处理后的拷贝数变异数据和基因表达数据,以捕捉输入数据之间的相互作用和输入数据的长期依赖信息,学习基因序列的全局特征;并从拷贝数变异数据和基因表达数据中提取抽象模态特征,以便后面进行多模态的融合;
将拷贝数变异数据和基因表达数据进行维度上的拼接,对数据重新构造后送入BiLSTM,再通过全连接层、Dropout层,最终输出拷贝数变异数据和基因表达数据的抽象模态特征其中/>表示实数集,N为患者人数。
5.如权利要求1所述的方法,其特征在于,所述步骤S4包括:
S41、对步骤S31和步骤S32得到的抽象模态特征进行编码:
hv=ReLU(Wvxv T)
ht=ReLU(Wtxt T)
其中,hv、ht为编码后的特征向量,ReLU是激活函数,Wv和Wt是可学习权重,为步骤S31得到的临床数据抽象模态特征,/>为步骤S32得到的拷贝数变异数据和基因表达数据的抽象模态特征,xv T和xt T分别表示对xv和xt进行转置;
S42、计算内部权重系数,以控制每个特征对单元整体输出的贡献,公式如下:
z=σ(Wz[hv,ht]T)
其中,z为计算得到的内部权重系数,σ表示Sigmoid激活函数,Wz是可学习权重,[,]表示进行维度上的拼接;
S43、对编码后的特征向量进行动态融合,得到融合特征,融合特征由z激活加权的xv和xt的凸组合给出,公式如下:
h=zxv+(1-z)xt
该公式决定每个模态如何影响单元的输出,h为最终输出的融合特征。这也意味着,由于z对xv和xt的依赖性,每个不同的输入在这种凸组合中将具有不同的权重。由于所有操作都是可微操作,该模型可以很容易地与其他神经网络结构耦合,并使用随机梯度下降进行训练。
6.如权利要求1所述的方法,其特征在于,所述步骤S5中:
为了最终预测乳腺癌患者的5年生存率,使用具有Maxout激活函数的MLP(多层感知机)作为分类器。
我们将步骤S4得到的融合特征h作为MaxoutMLP的输入,其隐含层节点的输出表达式则为:
其中,zij为第i个隐藏单元的第j次线性变换的输出,是步骤S4得到的融合特征,hT表示对h进行转置;/>是可学习权重,W...ij表示所有输入层节点的第i个隐含层节点的第j个“隐隐含层”节点的可学习权重,其中d表示输入层节点的个数,l表示隐含层节点的个数,k表示每个隐含层节点又对应k个“隐隐含层”节点,这k个“隐隐含层”节点都是线性输出的;bij表示第i个隐藏单元的第j次线性变换的偏置值;gi(h)为第i个隐含层节点的输出,Maxout的每个节点就是取这k个“隐隐含层”节点输出值中最大的那个值;
最终,我们将多模态数据的融合特征输入到多层感知机MLP分类器,利用Maxout作为激活函数,得到了最后的预测结果。
CN202310448572.5A 2023-04-24 2023-04-24 一种基于深度学习的乳腺癌生存预测方法 Pending CN116469561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310448572.5A CN116469561A (zh) 2023-04-24 2023-04-24 一种基于深度学习的乳腺癌生存预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310448572.5A CN116469561A (zh) 2023-04-24 2023-04-24 一种基于深度学习的乳腺癌生存预测方法

Publications (1)

Publication Number Publication Date
CN116469561A true CN116469561A (zh) 2023-07-21

Family

ID=87178667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310448572.5A Pending CN116469561A (zh) 2023-04-24 2023-04-24 一种基于深度学习的乳腺癌生存预测方法

Country Status (1)

Country Link
CN (1) CN116469561A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881725A (zh) * 2023-09-07 2023-10-13 之江实验室 一种癌症预后预测模型训练装置、介质及电子设备
CN117238420A (zh) * 2023-11-14 2023-12-15 太原理工大学 一种极薄带力学性能预测方法及装置
CN117976185A (zh) * 2023-12-05 2024-05-03 深圳市人民医院 一种联合深度学习的乳腺癌风险评估方法与系统
CN118016297A (zh) * 2024-02-06 2024-05-10 海南大学 癌症生存预测方法、模型预训练方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881725A (zh) * 2023-09-07 2023-10-13 之江实验室 一种癌症预后预测模型训练装置、介质及电子设备
CN116881725B (zh) * 2023-09-07 2024-01-09 之江实验室 一种癌症预后预测模型训练装置、介质及电子设备
CN117238420A (zh) * 2023-11-14 2023-12-15 太原理工大学 一种极薄带力学性能预测方法及装置
CN117976185A (zh) * 2023-12-05 2024-05-03 深圳市人民医院 一种联合深度学习的乳腺癌风险评估方法与系统
CN118016297A (zh) * 2024-02-06 2024-05-10 海南大学 癌症生存预测方法、模型预训练方法及装置

Similar Documents

Publication Publication Date Title
CN116469561A (zh) 一种基于深度学习的乳腺癌生存预测方法
CN111127385B (zh) 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
CN105138973B (zh) 人脸认证的方法和装置
SR et al. Lung cancer detection using probabilistic neural network with modified crow-search algorithm
CN116635866A (zh) 用于挖掘少数类数据样本以训练神经网络的方法和系统
CN107220506A (zh) 基于深度卷积神经网络的乳腺癌风险评估分析系统
CN104866810A (zh) 一种深度卷积神经网络的人脸识别方法
CN112434628B (zh) 基于主动学习和协同表示的小样本图像分类方法
CN113157957A (zh) 一种基于图卷积神经网络的属性图文献聚类方法
CN112348090A (zh) 一种基于近邻自编码器的近邻异常检测系统
Dara et al. Feature extraction in medical images by using deep learning approach
CN115761735A (zh) 一种基于自适应伪标签纠正的半监督语义分割方法
CN110674774A (zh) 一种改进的深度学习人脸面部表情识别方法及系统
CN116628605A (zh) 一种基于ResNet和DSCAttention机制的窃电分类的方法及装置
CN117591953A (zh) 基于多组学数据的癌症分类方法、系统及电子设备
CN108520201A (zh) 一种基于加权混合范数回归的鲁棒人脸识别方法
Maurya et al. Computer-aided diagnosis of auto-immune disease using capsule neural network
CN112541530B (zh) 针对聚类模型的数据预处理方法及装置
Azam et al. Classification of COVID-19 symptoms using multilayer perceptron
Jayasudha et al. Hybrid optimization enabled deep learning-based ensemble classification for heart disease detection
CN113255814A (zh) 一种面向边缘计算的基于特征选择的图像分类方法
Mehmood et al. Classifier ensemble optimization for gender classification using genetic algorithm
CN117457081A (zh) 一种基于超图的空间转录组数据处理方法及系统
CN115691817A (zh) 一种基于融合神经网络的LncRNA-疾病关联预测方法
CN115239967A (zh) 一种基于Trans-CSN生成对抗网络的图像生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination