CN116469561A

CN116469561A - 一种基于深度学习的乳腺癌生存预测方法

Info

Publication number: CN116469561A
Application number: CN202310448572.5A
Authority: CN
Inventors: 徐洪珍; 袁晗; 刘爱华; 王强
Original assignee: East China Institute of Technology
Current assignee: East China Institute of Technology
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-21

Abstract

本发明涉及一种基于深度学习的乳腺癌生存预测方法，其特征在于，包括以下步骤：从原始数据集中获取乳腺癌多模态生存数据，并对数据进行预处理；使用SMOTE‑NC方法对预处理后的不平衡数据进行过采样处理；通过两层一维卷积神经网络和双向长短期记忆网络提取过采样处理后多模态数据的抽象模态特征；动态调整各个模态数据的权重系数，将提取的多模态数据抽象模态特征进行动态融合，得到多模态数据的融合特征；将融合特征输入到具有Maxout激活函数的多层感知机，得到最终的预测结果。本发明乳腺癌生存预测方法相比其他方法得到了更好的表现，提高了准确率。

Description

一种基于深度学习的乳腺癌生存预测方法

技术领域

本发明涉及乳腺癌生存预测的技术领域，尤其涉及一种基于深度学习的乳腺癌生存预测方法。

背景技术

乳腺癌由乳腺内细胞不受控制的生长引起，这种生长导致细胞片或肿块的形成，具有侵袭性和转移性，是全球癌症相关死亡的主要原因之一。准确的生存预测是乳腺癌患者预后的一个重要目标，因为它可以帮助医生做出对患者更加有益的决定，并进一步指导适当的治疗。

乳腺癌有一定的遗传相关性，这促使研究人员在乳腺癌生存预测研究中除了考虑临床信息外，还应考虑基因表达(Gene Expression)、拷贝数变异(Copy NumberAlteration，CNA)等基因信息。这些多模态数据间存在多种不同的信息交互，如果能合理地处理多模态数据，就能得到丰富的特征信息。集成这些多模态数据有助于提高模型的预测能力。

传统的乳腺癌生存预测往往采用统计学方法。然而，多模态数据往往存在高维性和冗余性，且特征之间可能存在潜在的关系，但统计学方法的风险函数是线性的，过于简单。所以，这类方法往往很难有效并准确地预测乳腺癌患者的生存。

深度学习已应用于医疗保健的许多领域。与其他方法相比，深度学习(DL)对需要专业知识的特征工程要求更少。此外，医疗保健数据具有不同的格式，例如基因组数据、临床数据、文本和图像数据，使用不同的神经网络体系结构可以解决不同类型的数据。许多癌症研究中对模型性能的评估表明，DL应用于癌症预后优于其他传统方法。近来，有许多研究人员使用DL模型进行乳腺癌生存预测，并获得了不错的性能。但在基于多模态数据进行乳腺癌生存预测方面还面临挑战。首先，乳腺癌长期存活样本数量明显超过短期存活样本，存在类别极度不平衡问题，这样会导致多数类的高精度，而少数类的低精度。第二，使用多模态数据常存在无法充分利用多模态数据间互补性的问题，并且在使用多模态数据时，常常手动选择各个模态权重系数或者默认所有模态对最终预测的贡献都相同。

发明内容

为解决上述问题，本发明的目的在于提供一种基于深度学习的乳腺癌生存预测方法，用于整合基因表达数据、拷贝数变异数据和临床数据来预测乳腺癌患者的5年生存率。该方法采用SMOTE-NC方法进行过采样以提高不平衡乳腺癌数据集的分类效率；利用两层一维卷积神经网络从临床数据中提取抽象模态特征，采用BiLSTM从拷贝数变异数据和基因表达数据中提取抽象模态特征；并通过调整各个模态的权重系数动态确定每个输入模态对单元激活的影响程度，从而更有效地融合多模态数据，更充分地利用多模态数据间的互补性。

为实现上述目的，本发明的技术方案是这样实现的：一种基于深度学习的乳腺癌生存预测方法，其步骤如下：

S1、从原始数据集中获取乳腺癌多模态生存数据，包括临床数据、拷贝数变异数据和基因表达数据，对上述多模态数据进行填补缺失值、归一化、离散化以及降维等预处理；

S2、建立过采样层，采用SMOTE-NC方法对上述预处理后的数据进行过采样处理，以解决数据的不平衡问题；

S3、建立特征提取层，利用两层一维卷积神经网络1D-CNN和双向长短期记忆网络BiLSTM分别提取过采样处理后多模态数据的抽象模态特征；

S4、建立数据融合层，动态调整各个模态数据的权重系数，将提取的多模态数据抽象模态特征进行动态融合，得到多模态数据的融合特征；

S5、分类预测，将多模态数据的融合特征输入到多层感知机MLP分类器，利用Maxout作为激活函数，得到最终的预测结果。

进一步，所述步骤S1包括：

S11、从原始数据集中获取乳腺癌多模态生存数据，包括临床数据、拷贝数变异数据和基因表达数据；

S12、使用k-最近邻算法填补步骤S11所得数据的缺失值；

S13、对步骤S12处理后的数据进行归一化和离散化处理；将基因表达数据处理为表达不足(–1)、正常表达(0)和过度表达(1)三类；对于拷贝数变异数据，直接使用具有五个离散值的原始数据：纯合缺失(–2)，半合子缺失(–1)，中性/无变化(0)，增益(1)，高电平放大(2)；对于非数值临床数据，通过独热编码进行数字化；

S14、采用fast-mRMR方法对步骤S13处理后的拷贝数变异数据和基因表达数据进行降维。

进一步，所述步骤S2包括：

S21、计算标准差中值：计算经步骤S1预处理后的多模态数据的短期存活样本所有连续特征的标准差中值；

S22、计算欧几里德距离，得到k近邻：随机选定一个短期存活样本，计算该选定样本与k个最近邻的特征向量之间的欧几里德距离；若该样本与其潜在最近邻之间的离散特征不同，则在欧几里德距离计算中加入步骤S21计算的标准差中值；如F₁和F₂为两个样本，F₁＝3 4 9 A B C，F₂＝2 2 5 A D E，每个样本有六个特征，其中前三个为连续特征，后三个为离散特征；则F₁与F₂之间的欧几里德距离计算公式为：

Eucl＝sqrt[(3-2)²+(4-2)²+(9-5)²+Med²+Med²]

这里，Eucl表示所计算的欧几里德距离，sqrt表示计算平方根，Med为步骤S21所计算的短期存活样本连续特征的标准差中值，由于有两个离散特征不同，因此在欧几里德距离计算中加入两个Med²；

S23、构建合成样本：合成的样本由合成的连续特征和离散特征组成。对短期存活样本F₃，从它的k近邻中随机选择一个样本F₄，则合成的连续特征为：

F₅＝F₃+rand(0,1)×|F₃-F₄|

这里，F₅代表合成样本的连续特征，rand(0,1)表示生成[0,1)区间的随机数，|F₃-F₄|表示样本F₃与F₄连续特征差值的绝对值；

合成的离散特征则由k近邻中出现最多的值给出；将合成的连续特征及离散特征进行组合，即可构建出新的合成样本；得到所有合成样本后，将其加入到经步骤S1预处理后的数据中，从而得到过采样后的数据集。

进一步，所述步骤S3包括：

S31、利用两层一维卷积神经网络从经步骤S2过采样处理后的临床数据中提取抽象模态特征；

将经步骤S2过采样处理后的临床数据作为1D-CNN的输入进行训练；第一层1D-CNN定义内核大小为8的过滤器，通过卷积来获得临床数据的特征图，在卷积过程中，过滤器根据过滤器尺寸和步长左右卷积，公式表示如下：

y_i＝σ(w_ix_i+b_i)

其中，y_i表示临床数据卷积后得到的特征图，σ是激活函数，w_i是可学习权重，x_i是临床数据的局部输入，b_i是偏置值；

卷积后使用ReLU用作激活函数，将负输入映射为0，正输入映射为输出，公式表示如下：

ReLU(y_i)＝max(y_i,0)

其中，ReLU为激活函数，max(,)表示取两个数值中的最大值；

在激活过程后，定义尺寸为2、步长为2的最大池化层，在不损坏识别结果的情况下减少训练参数、简化非线性数据的输出；

第二层1D-CNN接收来自第一层1D-CNN的结果，通过内核大小为3步长为1的过滤器，使用ReLU激活函数，再通过最大池化层、Flatten层、Dropout层，最终得到临床数据的抽象模态特征其中/>表示实数集，N为患者人数；Flatten层用来将输入“压平”，即把多维的输入一维化，以便从卷积层到全连接层的过渡；Dropout层可有效防止过拟合，提升模型泛化能力。

S32、采用双向长短期记忆网络BiLSTM处理经步骤S2过采样处理后的拷贝数变异数据和基因表达数据，以捕捉输入数据之间的相互作用和输入数据的长期依赖信息，学习基因序列的全局特征；并从拷贝数变异数据和基因表达数据中提取抽象模态特征，以便后面进行多模态的融合；

将拷贝数变异数据和基因表达数据进行维度上的拼接，对数据重新构造后送入BiLSTM，再通过全连接层、Dropout层，最终输出拷贝数变异数据和基因表达数据的抽象模态特征其中/>表示实数集，N为患者人数。

进一步，所述步骤S4包括：

S41、对步骤S31和步骤S32得到的抽象模态特征进行编码：

h_v＝ReLU(W_vx_v ^T)

h_t＝ReLU(W_tx_t ^T)

其中，h_v、h_t为编码后的特征向量，ReLU是激活函数，W_v和W_t是可学习权重，为步骤S31得到的临床数据抽象模态特征，/>为步骤S32得到的拷贝数变异数据和基因表达数据的抽象模态特征，x_v ^T和x_t ^T分别表示对x_v和x_t进行转置；

S42、计算内部权重系数，以控制每个特征对单元整体输出的贡献，公式如下：

z＝σ(W_z[h_v,h_t]^T)

其中，z为计算得到的内部权重系数，σ表示Sigmoid激活函数，W_z是可学习权重，[,]表示进行维度上的拼接；

S43、对编码后的特征向量进行动态融合，得到融合特征，融合特征由z激活加权的x_v和x_t的凸组合给出，公式如下：

h＝zx_v+(1-z)x_t

该公式决定每个模态如何影响单元的输出，h为最终输出的融合特征。这也意味着，由于z对x_v和x_t的依赖性，每个不同的输入在这种凸组合中将具有不同的权重。由于所有操作都是可微操作，该模型可以很容易地与其他神经网络结构耦合，并使用随机梯度下降进行训练。

进一步，所述步骤S5包括：

为了最终预测乳腺癌患者的5年生存率，使用具有Maxout激活函数的MLP(多层感知机)作为分类器。

我们将步骤S4得到的融合特征h作为MaxoutMLP的输入，其隐含层节点的输出表达式则为：

其中，z_ij为第i个隐藏单元的第j次线性变换的输出，是步骤S4得到的融合特征，h^T表示对h进行转置；/>是可学习权重，W_...ij表示所有输入层节点的第i个隐含层节点的第j个“隐隐含层”节点的可学习权重，其中d表示输入层节点的个数，l表示隐含层节点的个数，k表示每个隐含层节点又对应k个“隐隐含层”节点，这k个“隐隐含层”节点都是线性输出的；b_ij表示第i个隐藏单元的第j次线性变换的偏置值；g_i(h)为第i个隐含层节点的输出，Maxout的每个节点就是取这k个“隐隐含层”节点输出值中最大的那个值；

最终，我们将多模态数据的融合特征输入到多层感知机MLP分类器，利用Maxout作为激活函数，得到了最后的预测结果。

本发明用于整合基因表达、CNA和临床数据来预测乳腺癌患者的5年生存率。本发明进一步证明了深度多模态融合网络的可行性和多模态数据在乳腺癌预后预测中的可用性。

本发明的主要创新性如下：1、该方法采用SMOTE-NC方法进行过采样，通过创建新的合成实例来增加短期存活样本数量，有效提高了不平衡乳腺癌数据集的分类效率；2、该方法为了识别临床数据中的简单模式，并在更高层中形成更复杂的模式，利用两层一维卷积神经网络从临床数据中提取抽象模态特征，以便进行多模态融合；3、该方法采用BiLSTM处理拷贝数变异数据和基因表达数据，以捕捉输入数据之间的相互作用和输入数据的长期依赖信息，学习基因序列的全局特征；并从拷贝数变异数据和基因表达数据中提取抽象模态特征，以便进行多模态融合；4、该方法通过动态调整各个模态数据的权重系数，将提取的多模态数据抽象模态特征进行动态融合，能够更有效地融合多模态数据，更充分地利用多模态数据间的互补性。

附图说明

图1为本发明的流程示意图。

图2为本发明深度多模态融合网络的结构示意图。

图3为本发明特征提取模块两层1D-CNN的结构示意图。

图4为本发明特征提取模块BiLSTM的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

实施例1，一种基于深度学习的乳腺癌生存预测方法，包括以下步骤：

具体包括：

乳腺癌多模态数据来自METABRIC数据集，该数据集来自国际乳腺癌协会的分子分类数据库；拥有1980个真实的乳腺癌患者代谢追踪数据，患者的中位年龄为61岁，平均生存期为125.1个月；使用5年生存阈值将患者分为两个生存等级，生存时间超过5年的为长期存活患者，不超过5年的为短期存活患者，将长期存活患者标为0，短期存活患者标为1，分别有1489和491名患者；每个乳腺癌患者的信息来自三种模态的数据：临床数据、拷贝数变异数据、基因表达数据；临床特征包括患者年龄、肿瘤大小、肿瘤分期和分级、受体状态等；在癌症发生时，基因组的拷贝数会有所改变，每个拷贝数变异数据表示特定基因在特定样本中的拷贝数；基因表达是将来自基因的遗传信息合成功能性基因产物的过程，不同类型的癌症在人类中引起不同的基因表达模式，每个基因表达数据表示特定基因在特定样本中的表达水平；多模态数据具体表示如下：

其中，X_clin表示临床数据，X_c表示拷贝数变异数据，X_g表示基因表达数据，N是患者人数，d＝(m+n+c)表示三模态数据的维度之和，m、n和c分别代表临床数据、CNA数据和基因表达数据的维度。

由于原始数据中各特征的量纲差异较大，且存在缺失值以及冗余特征，这会影响预测模型的质量；因此，下面需要对乳腺癌多模态数据进行预处理，包括填补缺失值、归一化、离散化以及降维等；

S12、使用k-最近邻算法填补步骤S11所得数据的缺失值；

S14、采用fast-mRMR方法对步骤S13处理后的拷贝数变异数据和基因表达数据进行降维；该方法根据特征与目标的相关性对特征进行排序，同时对特征的冗余性进行惩罚；主要目标是使用互信息找到一组特征和类之间的最大依赖关系；

特征集X与类class(0或1)的相关性D由各个特征和类之间的所有互信息(由I表示)的平均值定义：

其中，|X|＝d为多模态数据的维度，x,c为两个随机变量，p(x,c)为它们的联合概率密度函数，p(x)和p(c)为边际概率密度函数，互信息I(X_i；class)即为联合分布p(x,c)和p(x)p(c)之间的相对熵；

集合X中所有特征的冗余R是特征与特征之间的所有互信息值的平均值：

其中，x,y为两个随机变量，p(x,y)为它们的联合概率密度函数，p(x)和p(y)为边际概率密度函数，互信息I(X_i；X_j)即为联合分布p(x,y)和p(x)p(y)之间的相对熵；

fast-mRMR方法是对相关性和冗余性的折中，根据特征与目标的相关性对特征进行排序，同时对特征的冗余性进行惩罚，从而找到和类之间有最大依赖关系的一组特征：

其中，S为X的子集，为目标特征集合，包含|S|个平均互信息最大的特征；I(X_i；class)和I(X_j；X_i)的计算同上。

在乳腺癌样本中，因为绝大多数样本都为长期存活患者，模型会倾向于把大多数样本判定为长期存活，这样能达到很高的准确率，但是达不到很高的召回率；因此选择数据集的一部分数据进行过采样，剩下的一部分数据作为测试集；数据集的划分为：首先取数据集的20％作为测试集，取80％的数据采用SMOTE-NC方法进行过采样，最后将过采样后的数据按照9:1的比例划分为训练集和验证集；其中，使用训练集进行模型训练，在训练过程中使用验证集用于检验模型的训练情况，从而确定合适的超参数，训练结束后以测试集在模型上的测试结果作为性能指标；

对数据进行过采样处理的具体步骤包括：

S21、计算标准差中值：计算经步骤S1预处理后的多模态数据的短期存活样本所有连续特征的标准差中值。若样本与其潜在近邻之间的离散特征不同，则在欧几里德距离计算中将使用该中值对离散特征的差异进行惩罚；

Eucl＝sqrt[(3-2)²+(4-2)²+(9-5)²+Med²+Med²]

F₅＝F₃+rand(0,1)×|F₃-F₄|

具体包括：

S31、为了识别临床数据中的简单模式并在更高层中形成更复杂的模式，利用两层一维卷积神经网络从经步骤S2过采样处理后的临床数据中提取抽象模态特征；

y_i＝σ(w_ix_i+b_i)

ReLU(y_i)＝max(y_i,0)

其中，ReLU为激活函数，max(,)表示取两个数值中的最大值；

具体包括：

S41、对步骤S31和步骤S32得到的抽象模态特征进行编码：

h_v＝ReLU(W_vx_v ^T)

h_t＝ReLU(W_tx_t ^T)

z＝σ(W_z[h_v,h_t]^T)

h＝zx_v+(1-z)x_t

最典型的多层感知机(MLP)包括输入层、隐含层、输出层三层，不同层之间是全连接的。Maxout激活函数是一个可学习的分段函数。Maxout的拟合能力非常强，可以拟合任意的凸函数。它拥有ReLU线性不饱和的优点，同时没有ReLU的一些缺点，如神经元的死亡。它的特殊之处在于增加了多个神经元，然后输出激活值最大的值。对于一个标准的MLP网络来说，如果隐藏层的神经元足够多，那么理论上是可以逼近任意函数的。因此，我们在MLP网络中加入一层Maxout激活函数层，使神经网络能够更好地逼近任何非线性函数，更好地创建输入与输出间的复杂映射关系。

综上所述，本发明实施例提出的一种基于深度学习的乳腺癌生存预测方法。该方法采用SMOTE-NC方法进行过采样以提高不平衡乳腺癌数据集的分类效率；利用两层一维卷积神经网络从临床数据中提取抽象模态特征，采用BiLSTM从拷贝数变异数据和基因表达数据中提取抽象模态特征；并通过调整各个模态的权重系数动态确定每个输入模态对单元激活的影响程度，从而更有效地融合多模态数据，更充分地利用多模态数据间的互补性。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于深度学习的乳腺癌生存预测方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤S1包括：

S12、使用k-最近邻算法填补步骤S11所得数据的缺失值；

3.如权利要求1所述的方法，其特征在于，所述步骤S2包括：

S22、计算欧几里德距离，得到k近邻：随机选定一个短期存活样本，计算该选定样本与k个最近邻的特征向量之间的欧几里德距离；若该样本与其潜在最近邻之间的离散特征不同，则在欧几里德距离计算中加入步骤S21计算的标准差中值；如F₁和F₂为两个样本，F₁＝34 9 A B C，F₂＝2 2 5 A D E，每个样本有六个特征，其中前三个为连续特征，后三个为离散特征；则F₁与F₂之间的欧几里德距离计算公式为：

Eucl＝sqrt[(3-2)²+(4-2)²+(9-5)²+Med²+Med²]

F₅＝F₃+rand(0,1)×|F₃-F₄|

4.如权利要求1所述的方法，其特征在于，所述步骤S3包括：

y_i＝σ(w_ix_i+b_i)

ReLU(y_i)＝max(y_i,0)

其中，ReLU为激活函数，max(,)表示取两个数值中的最大值；

5.如权利要求1所述的方法，其特征在于，所述步骤S4包括：

S41、对步骤S31和步骤S32得到的抽象模态特征进行编码：

h_v＝ReLU(W_vx_v ^T)

h_t＝ReLU(W_tx_t ^T)

z＝σ(W_z[h_v,h_t]^T)

h＝zx_v+(1-z)x_t

6.如权利要求1所述的方法，其特征在于，所述步骤S5中：