CN115631849B

CN115631849B - 基于深度神经网络的乳腺癌预后指示系统、存储介质及设备

Info

Publication number: CN115631849B
Application number: CN202211291501.0A
Authority: CN
Inventors: 许伊宁; 赵天意; 刘博�; 王亚东
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-04-28
Anticipated expiration: 2042-10-19
Also published as: CN115631849A

Abstract

基于深度神经网络的乳腺癌预后指示系统、存储介质及设备，属于癌症预后指示技术领域。本发明为了解决现有的乳腺癌预后预测准确率有待于提高的问题。本发明根据用户输入实例对应的组学特征在TCGA数据库中获取相同的全部乳腺癌实例的组学特征，然后针对每个组学数据分别计算特征的肯德尔相关系数矩阵，根据相关系数矩阵确定全局基因相似系数矩阵及最相近基因相似系数矩阵，并通过迭代计算多组学特征相似性融合矩阵进而获得多组学特征的全局相似性，之后根据非负矩阵分解的方式对其进行分解，根据分解结果对用户取户输入的组学特征进行加权，然后利用机器学习模型进行乳腺癌预后预测。本发明用于乳腺癌的预后指示。

Description

基于深度神经网络的乳腺癌预后指示系统、存储介质及设备

技术领域

本发明属于癌症预后指示技术领域，具体涉及一种乳腺癌预后指示系统、存储介质及设备。

背景技术

乳腺癌是女性中最常见的恶性肿瘤，发病率居女性恶性肿瘤第一位，乳腺癌患者不仅要经历疾病的折磨，还要忍受治疗带来的副作用。现在关于癌症的治疗中，存在“过度治疗”的现象，以乳腺癌中常见腋窝淋巴结清扫术为例，在9.7年的中位随访时间后，无腋窝淋巴结清扫术组的10年无疾病生存率是76.8％，腋窝淋巴结清扫术组的10年无疾病生存率是74.9％(low rank p＝0.24；p＝0.0024)；无腋窝淋巴结清扫术组的10年累积发病率是17.6％，腋窝淋巴结清扫术组的10年累积发病率是17.3％(low rank p＝0.92)；无腋窝淋巴结清扫术组的10年总生存率是90.8％，腋窝淋巴结清扫术组的10年总生存率是88.2％(low rank p＝0.20)；无腋窝淋巴结清扫术组出现淋巴水肿的概率是4％，腋窝淋巴结清扫术组出现淋巴水肿的概率是13％(p<0.0001)。

另外根据《新英格兰医学杂志》的关于早期乳腺癌治疗的随机、大样本、长达20年的随访报告，有关于乳腺癌保乳手术和根治术后的长期治疗效果评估，经过长达20年的随访后，得出下列结果：乳腺癌保乳手术后的生存率为58.3％，根治术后的生存率为58.8％；乳腺癌保乳手术后的局部累计复发率为8.8％，根治术后的局部累计复发率为2.3％；乳腺癌保乳手术后的死亡率为41.7％，根治术后的死亡率为41.2％；乳腺癌所致死亡率分别为保乳术26.1％和根治术24.3％。

因此在乳腺癌的治疗中避免过度治疗，可以减轻患者痛苦，提高患者生存质量。但是一个矛盾点是，需要在进行治疗前准确判断出患者需要接收的治疗程度，误判会导致治疗过度或治疗不充分，前者导致患者痛苦增加，后者导致患者术后乳腺癌复发、恶化、转移概率提高。对于这一问题，传统cox生存分析的作用有限，本申请开发了基于图神经网络，使用基因组和转录组数据的乳腺癌预后预测方法，用于在临床上对未经治疗的乳腺癌患者做出预后指示，为治疗手段提供参考。

发明内容

本发明为了解决现有的乳腺癌预后预测准确率有待于提高的问题。

基于深度神经网络的乳腺癌预后指示系统，包括系统实例特征获取单元、相关系数计算单元、最相近基因相似系数矩阵生成单元、相似性多组学特征融合单元、用户输入加权单元和乳腺癌转移预测单元；其中，

系统实例特征获取单元：根据用户输入实例对应的组学特征在TCGA数据库中获取相同的全部乳腺癌实例的组学特征F_TCGA；

相关系数计算单元：针对组学特征F_raw和组学特征F_TCGA中的每个组学数据，分别计算特征的肯德尔相关系数矩阵T；

全局基因相似系数矩阵生成单元：通过公式(1)生成标准化特征相似系数矩阵P；矩阵P对角线元素代表基因与自身的相关系数；

其中，P^(v)表示组学v对应的全局基因相似系数矩阵；N_Omic是根据用户输入组学特征确定的组学个数；T(i,j)是肯德尔相关系数矩阵的第i行j列元素，代表基因i和基因j的相关系数；

最相近基因相似系数矩阵生成单元：选取大小为k的核，代表对于每个基因关注前k个与它最相似的基因，其余的赋值为0；通过公式(2)计算核矩阵：

其中，S^(v)表示组学v对应的最相近基因相似系数矩阵；

这个操作表示对于每个基因选取k个与它最相似的基因作为重点关注基因列表，其余基因相似性系数赋为0，不予考虑；

相似性多组学特征融合单元：通过公式(3)迭代计算多组学特征相似性融合矩阵：

其中，

为组学v数据在t次迭代后的特征相似性融合矩阵，

t＝0代表未经迭代的初始矩阵；

通过公式(4)计算多组学特征的全局相似性：

如果输入的是单一组学特征，那么

就是对应的

用户输入加权单元：首先根据非负矩阵分解的方式对

进行分解，得到非负矩阵分解中z个基对应的矩阵W；然后根据矩阵W对用户取户输入的组学特征F_raw进行加权，记为F；

乳腺癌转移预测单元：将F输入给乳腺癌转移预测模型预测乳腺癌是否转移，所述的乳腺癌转移预测模型为机器学习模型，模型输出乳腺癌预后预测结果。

进一步地，所述基于深度神经网络的乳腺癌预后指示系统还包括用户输入特征获取单元；

用户输入特征获取单元：用于获取户输入的实例对应的组学特征F_raw。

进一步地，所述用户输入加权单元中根据非负矩阵分解的方式对

进行分解，得到非负矩阵分解中z个基对应的矩阵W的过程包括以下步骤：

非负矩阵分解是把一个高维度矩阵分解成两个低维度矩阵的积：

W矩阵有z个基，H矩阵每一列为V矩阵投影到W上得到的向量，矩阵分解方法把x个基因的y维特征减少为z维，此时用W_(x×z)和H_(z×y)表示原矩阵；

上述问题的解由如下最小化问题求解获得：

minimize||V-WH||²，s.t.W≥0，H≥0

引入特征相似性约束算子δ，问题的解转化为：

minimize||V-δ(WH)||²，s.t.W≥0，H≥0

其中δ＝(D^-1/2·D^-1/2)，D为矩阵分解中的分解矩阵；

目标函数转化为：

minimize||V-D^-1/2WHD^-1/2||²，s.t.W≥0，H≥0

这里

定义标签约束

C为已知转移相关基因标签信息，I是单位矩阵，标签约束表示C中基因类别已知，I中基因每个基因单独一类；引入矩阵Z将上述约束嵌入目标函数，使得同类基因映射到同一点，目标函数转化为：

minimize||V-D^-1/2W(AZ)D^-1/2||²，s.t.W≥0，Z＝A^-1H≥0

对上式求解得到W和H。

进一步地，用户输入的组学特征F_raw为基因表达量CE、DNA甲基化特征METH、基因特征突变率MR中的一种或多种。

进一步地，相似性多组学特征融合单元中的迭代次数为3。

进一步地，所述的乳腺癌转移预测模型包括：输入层、第一Hidden层、第一激活层、第二Hidden层、第二激活层、第三Hidden层、第三激活层、第一Drop层、第四Hidden层、第四激活层、第一Flatten层、第一Dense层、第一BatchNormalization层、第二Drop层、第二Dense层和输出层；

其中Hidden是隐层，对数据进行感知操作，Output＝h(Input)＝ω·input+b，ω和b权重和偏置；Input、Output表示输入和输出；

ReLU是激活函数，ReLU(Input)＝max{0，Input}；

“Flatten”层把二维数据重新排列变成一维数据；

“Dense”层进行全连接操作，全连接就是对所有获取的数据分配一个权值；

“BatchNormalization”进行批量标准化操作；

“Drop”操作随机丢弃一些神经元。

进一步地，第一Drop层随机drop0.5的数据。

一种计算机存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现所述的基于深度神经网络的乳腺癌预后指示系统。

一种基于深度神经网络的乳腺癌预后指示设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现所述的基于深度神经网络的乳腺癌预后指示系统。

有益效果：

本发明针对每个具体的实例，通过全部TCGA乳腺癌实例中的分布情况，计算基于与其它所有基因的肯德尔相关系数，可以有效提升预测的准确性，同时本发明还根据最相近基因相似系数矩阵和全局基因相似系数迭代计算多组学特征相似性融合矩阵，可以在使相似性矩阵更快收敛的基础上进一步提升预测的准确性。当本发明采用多组学特征时还可以进一步提升预测效果。

附图说明

图1为本发明流程示意图。

图2为神经网络结构示意图。

具体实施方式

解决背景技术中存在问题的一个解决思路是提升预后差、有转移风险的乳腺癌的预后预测准确率，为了提高乳腺癌转移预测准确率，一个重要的步骤是识别乳腺癌转移相关基因，对此做出如下本发明的设计。下面结合具体实施方式对本发明做出具体说明。

具体实施方式一：结合图1和图2说明本实施方式，

本实施方式为一种基于深度神经网络的乳腺癌预后指示系统，包括：

用户输入特征获取单元：用于获取户输入的实例对应的组学特征F_raw，用户输入的组学特征F_raw为基因表达量CE、DNA甲基化特征METH、基因特征突变率MR中的一种或多种；即可以是三种组学特征的一种、两种或者三种。需要说明的是用户输入的一个实例的组学特征，这个输入需要结合大量其它乳腺癌实例进行后续分析，其它实例的多组学特征由本发明的系统(主要是系统实例特征加载单元)收集并预处理，用户只需要提供待分析的原始数据。

系统实例特征获取单元：根据用户输入实例对应的组学特征在TCGA数据库中获取相同的全部乳腺癌实例的组学特征F_TCGA；基于用户输入实例对应的组学特征，获取全部实例的组学特征F_TCGA也为中的三种组学特征的一种或多种；

TCGA数据库中存储有全部乳腺癌实例对应的基因表达量CE、DNA甲基化特征METH、基因特征突变率MR组学特征，当然如果用户输入的不限于这三种特征，对应数据库中也存储不限于基因表达量CE、DNA甲基化特征METH、基因特征突变率MR的组学特征；

相关系数计算单元：针对组学特征F_raw和组学特征F_TCGA中的每个组学数据，分别计算特征的肯德尔相关系数矩阵(kendall correlation)，需要说明的是计算肯德尔相关系数矩阵时是将用户输入的实例和系统中存在的实例对应的组学特征放在一起计算。

将基因表达量CE、DNA甲基化特征METH、基因特征突变率MR对应的肯德尔相关系数矩阵分别为记为T_ge、T_me、T_mr；当组学仅有一个时，即单一组学，计算单一组学的肯德尔相关系数矩阵即可，即T_ge、T_me、T_mr中的一个。

肯德尔相关系数是常用的测量两个变量统计学关系的统计值，对于每一个基因的数值表示，通过它在全部TCGA乳腺癌实例中的分布情况，计算它与其它所有基因的肯德尔相关系数，肯德尔相关系数的定义和计算公式如下：

在统计学中，肯德尔相关系数是以Maurice Kendall命名的，并经常用希腊字母τ(tau)表示其值。肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。一个肯德尔检验是一个无参数假设检验，它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-1到1之间，当τ为1时，表示两个随机变量拥有一致的等级相关性；当τ为-1时，表示两个随机变量拥有完全相反的等级相关性；当τ为0时，表示两个随机变量是相互独立的。

假设两个随机变量分别为X、Y(也可以看做两个集合)，它们的元素个数均为N，两个随即变量取的第i(1＜＝i＜＝N)个值分别用X_i、Y_i表示。X与Y中的对应元素组成一个元素对集合XY，其包含的元素为(X_i，Y_i)(1＜＝i＜＝N)。当集合XY中任意两个元素(X_i，Y_i)与(X_j，Y_j)的排行相同时(也就是说当出现情况1或2时；情况1：X_i＞X_j且Y_i＞Y_j，情况2：X_i＜X_j且Y_i＜Y_j)，这两个元素就被认为是一致的。当出现情况3或4时(情况3：X_i＞X_j且Y_i＜Y_j，情况4：X_i＜X_j且Y_i＞Y_j)，这两个元素被认为是不一致的。当出现情况5或6时(情况5：X_i＝X_j，情况6：Y_i＝Y_j)，这两个元素既不是一致的也不是不一致的。

其中，C表示XY中拥有一致性的元素对数(两个元素为一对)；D表示XY中拥有不一致性的元素对数。

N1、N2分别是针对集合X、Y计算的，现在以计算N1为例，给出N1的由来(N2的计算可以类推)；

将X中的相同元素分别组合成小集合，s表示集合X中拥有的小集合数(例如X包含元素：1 2 3 4 3 3 2，那么这里得到的s则为2，因为只有2、3有相同元素)，Ui表示第i个小集合所包含的元素数。N2在集合Y的基础上计算而得。

其中，P^(v)表示组学v(三种组学之一)对应的全局基因相似系数矩阵；N_Omic是根据用户输入组学特征确定的组学个数，本实施方式中为3个；T(i，j)是肯德尔相关系数矩阵T_ge、T_me或T_mr的第i行j列元素，代表基因i和基因j的相关系数；

这种方法可以保证每次迭代中每个特征都与自己最相似，同时保证特征矩阵满秩，从而使相似性矩阵更快收敛。

最相近基因相似系数矩阵生成单元：选取大小为k的核，代表对于每个基因关注前k个与它最相似的基因，其余的赋值为0。通过公式(2)计算核矩阵：

其中，S^(v)表示组学v对应的最相近基因相似系数矩阵；

相似性多组学特征融合单元：根据设置的迭代次数，通过公式(3)迭代计算多组学特征相似性融合矩阵：

其中，

为组学v数据在t次迭代后(即t+1次迭代)的特征相似性融合矩阵；

t＝0代表未经迭代的初始矩阵，就是前面计算出来的肯德尔相关系数矩阵T_ge、T_me或T_mr。

可以自定义迭代次数，本系统中使用总迭代次数为3。

多次迭代是为了最终达到收敛，收敛的特征融合矩阵的值不再变化。每次迭代都更接近收敛，然而迭代次数过多会导致数据过于平滑，所以本发明选择迭代3次。

通过公式(4)计算多组学特征的全局相似性：

如果输入的是单一组学特征，那么

就是对应的

用户输入加权单元：首先根据非负矩阵分解的方式对

非负矩阵分解的核心思想是把一个高维度矩阵分解成两个低维度矩阵的积，z远小于x、y：

W矩阵有z个基，H矩阵每一列为V矩阵投影到W上得到的向量，矩阵分解方法把x个基因的y维特征减少为z维，这时使用W_(x×z)和H_(z×y)就可以表示原矩阵了。

上述问题的解由如下最小化问题求解获得：

minimize||V-WH||²，s.t.W≥0，H≥0

引入特征相似性约束算子δ，问题的解转化为：

minimize||V-δ(WH)||²，s.t.W≥0，H≥0

其中δ＝(D^-1/2·D^-1/2)，D为矩阵分解中的分解矩阵，目标函数转化为：

minimize||V-D^-1/2WHD^-1/2||²，s.t.W≥0，H≥0

这里

约束非负矩阵分解算法，将转移相关基因标签信息作为附加的硬约束，使得具有相同类标签信息的数据在新的低维空间中仍然保持一致，从而预测未知基因的乳腺癌转移相关性。

定义标签约束

C为已知转移相关基因标签信息，来源于COSMIC中CGC数据库，I是单位矩阵，标签约束表示C中基因类别已知，I中基因每个基因单独一类。引入矩阵Z将上述约束嵌入目标函数，使得同类基因映射到同一点，目标函数转化为：

minimize||V-D^-1/2W(AZ)D^-1/2||²，s.t.W≥0，Z＝A^-1H≥0

对上式求解得到W和H；

通过公式(5)给用户输入的原始数据加权：

F＝F_raw×W (5)

乳腺癌转移预测单元：将F输入给乳腺癌转移预测模型预测乳腺癌是否转移，所述的乳腺癌转移预测模型为机器学习模型。

本实施方式中的乳腺癌转移预测模型如图2所示，包括：输入层、第一Hidden层、第一激活层、第二Hidden层、第二激活层、第三Hidden层、第三激活层、第一Drop层、第四Hidden层、第四激活层、第一Flatten层、第一Dense层、第一BatchNormalization层、第二Drop层、第二Dense层和输出层。

其中Hidden是隐层，对数据进行感知操作，可以理解为Output＝h(Input)＝ω·input+b，ω和b都是要训练的参数，系统参数已经训练完毕，用户直接使用即可；

ReLU是激活函数，ReLU(Input)＝max{0，Input}。

“Flatten”层把二维数据(矩阵、图片等点阵)重新排列变成一维数据(数列)。

“Dense”层进行全连接操作，全连接就是对所有获取的数据分配一个权值，数字仍然是批尺寸。

“BatchNormalization”进行批量标准化操作。

“Drop”操作随机丢弃一些神经元，适当drop可以防止过拟合。

图2中箭头代表数据在层间的传递，第3个ReLU层后，随机drop0.5的数据。

模型输出乳腺癌预后预测结果。

具体实施方式二：

本实施方式为一种计算机存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现所述的基于深度神经网络的乳腺癌预后指示系统。

应当理解，包括本发明描述的任何方法对应的可以被提供为计算机程序产品、软件或计算机化方法，其可以包括其上存储有指令的非暂时性机器可读介质，所述指令可以用于编程计算机系统，或其他电子装置。存储介质可以包括但不限于磁存储介质，光存储介质；磁光存储介质包括：只读存储器ROM、随机存取存储器RAM、可擦除可编程存储器(例如，EPROM和EEPROM)以及闪存层；或者适合于存储电子指令的其他类型的介质。

具体实施方式三：

本实施方式为基于深度神经网络的乳腺癌预后指示设备，所述设备包括处理器和存储器，应当理解，包括本发明描述的任何包括处理器和存储器的设备，设备还可以包括其他通过信号或指令进行显示、交互、处理、控制等以及其他功能的单元、模块；

所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现所述的基于深度神经网络的乳腺癌预后指示系统。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.基于深度神经网络的乳腺癌预后指示系统，其特征在于，包括系统实例特征获取单元、相关系数计算单元、最相近基因相似系数矩阵生成单元、相似性多组学特征融合单元、用户输入加权单元和乳腺癌转移预测单元；其中，

其中，P^(v)表示组学v对应的全局基因相似系数矩阵；N_Omic是根据用户输入组学特征确定的组学个数；T(i,j)是肯德尔相关系数矩阵的第i行j列元素，代表基因i和基因j的相关系数；用户输入的组学特征F_raw为基因表达量CE、DNA甲基化特征METH、基因特征突变率MR中的一种或多种；

其中，S^(v)表示组学v对应的最相近基因相似系数矩阵；

其中，

为组学v数据在t次迭代后的特征相似性融合矩阵，

t＝0代表未经迭代的初始矩阵；

通过公式(4)计算多组学特征的全局相似性：

如果输入的是单一组学特征，那么

就是对应的

用户输入加权单元：首先根据非负矩阵分解的方式对

进行分解，得到非负矩阵分解中z个基对应的矩阵W；然后根据矩阵W对用户输入的组学特征F_raw进行加权，记为F；包括以下步骤：

上述问题的解由如下最小化问题求解获得：

minimize||V-WH||²，s.t.W≥0，H≥0

引入特征相似性约束算子δ，问题的解转化为：

minimize||V-δ(WH)||²，s.t.W≥0，H≥0

其中δ＝(D^-1/2·D^-1/2)，D为矩阵分解中的分解矩阵；

目标函数转化为：

minimize||V-D^-1/2WHD^-1/2||²，s.t.W≥0，H≥0

这里

定义标签约束

C为已知转移相关基因标签信息，I是单位矩阵，标签约束表示C中基因类别已知，I中基因每个基因单独一类；引入矩阵Z将标签约束嵌入目标函数，使得同类基因映射到同一点，目标函数转化为：

minimize||V-D^-1/2W(AZ)D^-1/2||²，s.t.W≥0，Z＝A^-1H≥0

对上式求解得到W和H；

乳腺癌转移预测单元：将F输入给乳腺癌转移预测模型预测乳腺癌是否转移，所述的乳腺癌转移预测模型为机器学习模型，模型输出乳腺癌预后预测结果；

所述的乳腺癌转移预测模型包括：输入层、第一Hidden层、第一激活层、第二Hidden层、第二激活层、第三Hidden层、第三激活层、第一Drop层、第四Hidden层、第四激活层、第一Flatten层、第一Dense层、第一BatchNormalization层、第二Drop层、第二Dense层和输出层；

ReLU是激活函数，ReLI(Input)＝max{0，Input}；

“Flatten”层把二维数据重新排列变成一维数据；

“BatchNormalization”进行批量标准化操作；

“Drop”操作随机丢弃一些神经元。

2.根据权利要求1所述的基于深度神经网络的乳腺癌预后指示系统，其特征在于，所述基于深度神经网络的乳腺癌预后指示系统还包括用户输入特征获取单元；

用户输入特征获取单元：用于获取用户输入的实例对应的组学特征F_raw。

3.根据权利要求2所述的基于深度神经网络的乳腺癌预后指示系统，其特征在于，相似性多组学特征融合单元中的迭代次数为3。

4.根据权利要求3所述的基于深度神经网络的乳腺癌预后指示系统，其特征在于，第一Drop层随机drop0.5的数据。

5.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至4之一所述的基于深度神经网络的乳腺癌预后指示系统。

6.一种基于深度神经网络的乳腺癌预后指示设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至4之一所述的基于深度神经网络的乳腺癌预后指示系统。