CN115641317A

CN115641317A - 面向病理图像的动态知识回溯多示例学习及图像分类方法

Info

Publication number: CN115641317A
Application number: CN202211335548.2A
Authority: CN
Inventors: 王宽全; 孙鹏重; 骆功宁; 王玮
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-01-24
Anticipated expiration: 2042-10-28
Also published as: CN115641317B

Abstract

面向病理图像的动态知识回溯多示例学习及图像分类方法，属于医学图像处理技术和深度学习技术领域。本发明为了解决目前全切片组织病理图像分析中使用单个模型持续学习多个任务时会产生灾难性遗忘的问题。本发明的多示例学习方法，首先针对一个任务获取全切片组织病理图像数据，然后训练基础分类模型，其中特征映射层、特征权重计算层的参数用于后续任务共享；然后在原有模型的基础上新增新任务T_t对应的任务分类层，从记忆存储模块读取各个旧任务核心子图像特征集中的特征产生各个旧任务伪切片级特征，继续训练分类模型；每次得到训练好的模型后进行测试对所有核心子图像进行聚类并剔除异常特征，并存储至记忆存储模块用于后续任务记忆回放。

Description

面向病理图像的动态知识回溯多示例学习及图像分类方法

技术领域

本发明属于医学图像处理技术和深度学习技术领域，具体涉及一种面向病理图像的动态知识回溯多示例学习方法和一种任务增量全切片组织病理图像分类方法。

背景技术

病理检查一直被誉为疾病诊断的“金标准”，但传统的病理诊断面临着主观性、易出错、重复性低、缺少经验丰富的病理学家和肿瘤学家等问题。对于医疗资源较为匮乏的地区和医院，通常无法进行病理诊断。因此，急需构建一种存储高效、便于部署、可持续的多任务病理图像诊断方法。

基于深度学习的计算病理学方法在各种病理学任务中表现出前所未有的性能，例如从组织形态学图像中进行肿瘤分型、淋巴结转移检测以及从基因突变预测，但它们通常是采用静态模型获得的。当单个模型连续学习多个任务时，学习新的任务将使得旧任务性能下降，即灾难性遗忘问题。当前，基于知识回放的可持续学习方法需要存储部分原始数据，面临着高存储占用、旧数据过拟合等问题，不适用于数十亿像素的全切片组织病理图像分析任务。因此，构建一种面向全切片组织病理图像分析的低存储占用、旧数据动态变化的可持续方法是十分必要的。

发明内容

本发明旨在解决目前全切片组织病理图像分析中使用单个模型持续学习多个任务时会产生灾难性遗忘的问题。进而提出了一种面向病理图像的动态知识回溯多示例学习方法和一种任务增量全切片组织病理图像分类方法。

面向病理图像的动态知识回溯多示例学习方法，包括以下步骤：

步骤1、获取第一个任务T₁的全切片组织病理图像数据，根据任务类型对数据进行切片级标注，获得标注数据；

步骤2、对任务T₁中的切片x_i进行背景过滤得到子图像包集B₁＝{(b_i,y_i)}，其中b_i为子图像包，y_i为切片级标注；

步骤3、采用预训练的特征提取网络模型获得子图像包B₁中的子图像的特征图，并进行拼接，得到对应子图像包特征H₁＝{(h_i,y_i)}，其中h_i表示拼接特征图；

步骤4、建立基础分类模型，所述基础分类模型包括特征映射层、特征权重计算层、核心子图像选择模块、任务独立分类模块；

特征映射层：包括全连接层和ReLU激活函数；h_i输入该全连接层和ReLU激活函数后得到特征f_proj；

特征权重计算层：采用注意力机制将f_peoj映射为f_wwight；然后将f_weight与f_proj相乘得到切片级特征f_global；

核心子图像特征选择模块：对注意力分数f_weight进行排序，并据此获得每张切片中注意力分数最大的前k个子图像特征，称为核心子图像特征O₁；

任务独立分类模块：初始包括一个任务分类层；所述任务分类层包括一个全连接层和Softmax激活函数层；Softmax激活函数层输出最终的分类结果

其中c_t为该分类任务类别数目；

步骤5、进行模型训练并进行记忆存储，包括以下步骤：

步骤5.1、使用基于任务T₁已提取特征H₁训练基础分类模型，获得训练好的基础分类模型；

损失函数如下：

其中，θ_s表示特征映射层和特征权重计算层的参数，该参数为共享参数；

表示任务T₁的独立分类层；

表示网络模型预测的结果，y表示真实标签；l为交叉熵损失函数；

步骤5.2、使用已训练好模型对所有训练数据进行预测，使用核心子图像特征选择模块获得每张切片的k个核心子图像特征，对所有核心子图像特征进行聚类并剔除异常特征，并存储至记忆存储模块用于后续任务记忆回放；

步骤6、对于新的任务T_t，获取新任务数据，进行数据预处理，包括以下步骤：

步骤6.1、获取新任务T_t的切片数据，根据新任务类型对数据进行切片级标注得到标注数据D_t；

步骤6.2、根据新任务中的数据D_t中的切片x_i过滤背景区域并得到多个子图像构成子图像包B_t；

步骤6.3、采用预训练的特征提取网络模型对子图像包中的子图像计算特征H_t；

步骤7、联合新旧任务数据进行模型训练并进行新任务记忆存储，包括以下步骤：

步骤7.1、从记忆存储模块读取各个旧任务核心子图像特征集P_j中的特征，进行随机增强和拼接产生各个旧任务伪切片级特征H′_j；

步骤7.2、在原有模型的基础上新增新任务T_t对应的任务分类层；

步骤7.3、使用步骤6.3提取特征的H_t和步骤7.1组合产生的旧任务伪切片级特征H′_i训练分类模型，获得训练好的基础分类模型；

损失函数指如下：

其中，θ_s为共享参数；

为任务T_t的独立分类层参数；

为任务T_i的独立分类层参数，i＜t；h′和y′为伪切片特征；λ为旧任务损失函数权重；l为交叉熵损失函数；

步骤7.4、使用已训练好模型对所有训练数据进行预测，使用核心子图像特征选择模块获得每张切片的k个核心子图像特征，对所有核心子图像进行聚类并剔除异常特征，并存储至记忆存储模块用于后续任务记忆回放。

进一步地，步骤5.2所述对所有个子图像特征进行聚类并剔除异常特征并存储用于后续任务记忆回放指的过程包括以下步骤：

将获得的核心子图像特征使用K-means等聚类算法划分为c_t个簇，然后计算各个簇中的特征点与中心特征点的距离，如果该距离大于阈值μ_t，则认定该特征点为类别错误的异常特征，将其进行剔除；然后将剩余特征按照(o,y,t)的形式进行存储，o为核心子图像特征，y为其类别，t为其任务编号。

进一步地，步骤7.1所述使用存储的各个旧任务核心子图像特征集中的特征随机增强和拼接产生各个旧任务伪切片级特征包括以下步骤：

当且仅当包中含有一个阳性实例则包为阳性，否则为阴性；假定类别0为阴性，即正常；其他类别为不同阶段阳性切片，其中阴性切片全为阴性子图像构成，阳性切片由阴性子图像和该阶段阳性子图像构成；

使用存储的各个旧任务核心子图像特征随机组合产生各个旧任务伪切片级特征，即由任意数量大于2的类别0核心子图像特征相互拼接构成类别0的伪切片特征，由至少为1该类别核心子图像特征以及任意数量类别0对应的核心子图像特征相互拼接构成其他类别的伪切片特征。

进一步地，步骤7.1中得到旧任务伪切片级特征时需要对核心子图像特征进行数据扩增：

v_new＝αν₁+(1-α)ν₂

其中，ν₁，ν₂均为同类别任意核心子图像特征，α为权重，ν_new为新产生的该类别核心子图像特征。

进一步地，步骤3所述采用预训练的特征提取网络模型获得子图像包B₁中的子图像的特征图的过程包括以下步骤：

将所裁剪的子图像包b_i中的子图像以批次形式依次输入ImageNet预训练的ResNet50模型中，提取其全局平均池化后的特征作为子图像的特征，在每个特征的0轴拼接这些特征，获得子图像包对应的特征图集h_i。

进一步地，其特征在于，步骤2的具体过程包括以下步骤：

将读取的RGB颜色空间切片转换到HSV颜色空间，然后提取出饱和度通道，首先对其采用中值滤波进行降噪，再使用Otsu方法得到的最优阈值并进行二值化得到前景组织区域坐标，将该坐标映射到原图像得到前景组织区域；

对每张切片得到的组织区域采用滑动窗口的方式得到子图像包集B₁＝{(b_i,y_i)}，其中子图像包

m_i为第i个切片中子图像个数，3表示三通道。

或者，

步骤2的具体过程包括以下步骤：

采用Rasterio包读取切片，获得切片尺寸信息，根据尺寸信息对切片进行栅格化处理，获取对应坐标；依据对应坐标依次在切片中读取坐标对应的子图像，然后将读取的子图像逐个下采样为较小尺寸的下采样子图像，并进行拼接得到下采样切片；

采用Otsu方法获得拼接后的下采样切片HSV颜色空间饱和度通道的全局最优阈值；

根据栅格化后得到的子图像坐标，获得各个子图像并获得子图像HSV颜色中间中的饱和度通道，根据全局最优阈值在每个子图像饱和度通道进行背景区域过滤，排除空白子图像，由剩余子图像构成子图像包集B₁，简记为子图像包集B₁＝{(b_i,y_i)}，其中子图像包

m_i为第i个切片中子图像个数。

一种计算机存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现面向病理图像的动态知识回溯多示例学习方法。

一种任务增量全切片组织病理图像分类方法，首先获取基于面向病理图像的动态知识回溯多示例学习方法建立的模型，然后在给定任务标签T的情况下，根据任务标签选择对应任务分类层对全切片组织病理图像进行分类。

有益效果：

本发明构建了一种面向全切片数字病理图像分析的动态知识回溯多示例学习方法及设备，只使用单个模型可以持续学习多种全切片组织病理图像分类任务，即本发明提出的是一种持续多示例学习方法，使持续学习与多示例学习方法有机融合，具有低存储、易部署、高精度、可扩展等特点，有效避免了对旧任务数据的过拟合，高效解决了灾难性遗忘问题，可以部署到计算资源和医疗匮乏的地区用于初步诊断。

本发明还基于面向全切片数字病理图像分析的动态知识回溯多示例学习方法提供了一种图像分类模型，从而实现一种任务增量全切片组织病理图像分类方法，这种方法不仅可以有效避免对旧任务数据的过拟合，高效解决灾难性遗忘问题的特点，而且可以保证持续学习，持续更新，从而有效应对各种不断新增的切片组织病理图像分类，能够还能够保证具有非常高的分类精度。

附图说明

图1为多种任务持续训练流程图。

图2(a)为模块逻辑关系示意图；图2(b)为模型处理过程示意图。

图3为核心子图像存储与使用示意图。

图4为背景区域过滤前后示例，展示图像为缩小16倍后的结果。

图5为6个来自不同任务全切片组织病理图像。

具体实施方式

下面的实施例以多种全切片组织病理图像分析任务为具体例子进行阐述，病理图像分类任务主要包括淋巴结转移检测、肺腺癌亚型分型、子宫内膜样癌亚型分型、基因突变检测和前列腺癌等级评估等任务。

具体实施方式一：如图1流程图所示，

本实施方式为面向病理图像的动态知识回溯多示例学习方法，具体是一种面向病理图像的动态知识回溯的可持续多示例学习方法，

本实施方式所述的面向病理图像的动态知识回溯多示例学习方法包括以下步骤：

步骤1、获取第一个任务T₁的全切片组织病理图像数据，根据任务类型对数据进行切片级标注，获得标注数据D₁＝{(x_i,y_i)；i＝1,...,n₁}，其中，x_i为全切片组织病理图像，简记为切片；y_i为对应切片级标注，取值范围为0到c₁的整数(不取c₁)，c₁为该任务分类类别；n₁为数据集大小；

步骤2、对任务T₁中的切片x_i进行背景过滤得到子图像包集B₁＝{(b_i,y_i)；i＝1,...,n₁}，其中子图像包

m_i为第i个切片中子图像个数；

在一些实施例中，步骤2的具体过程包括以下步骤：

对每张切片得到的组织区域采用滑动窗口的方式得到子图像包集B₁＝{(b_i,y_i)；i＝1,...,n₁}，其中子图像包

m_i为第i个切片中子图像个数，3表示三通道。

所述采用滑动窗口的方式得到子图像包的过程如下：

以256像素的固定步长，在前景组织区域从左到右、从上到下，裁剪出宽高为256像素的子图，得到子图像包B₁。

在一些实施例中，采用改进的优选方案作为步骤2替换上述步骤2的过程，具体包括以下步骤：

根据栅格化后得到的子图像坐标，获得各个子图像并获得子图像HSV颜色中间中的饱和度通道，根据全局最优阈值在每个子图像饱和度通道进行背景区域过滤，排除空白子图像，由剩余子图像构成子图像包集B₁，简记为子图像包集B₁＝{(b_i,y_i)；i＝1,...,n₁}，其中子图像包

m_i为第i个切片中子图像个数；

所述栅格化处理是指以一定窗口和步长将切片划分为较小的子图像；

所述空白子图像是指该子图像在饱和度通道的平均值低于指定阈值S_theshold的图像。

步骤3、采用预训练的特征提取网络模型获得子图像包B₁中的子图像的特征图，并进行拼接，得到对应子图像包特征H₁＝{(h_i,y_i)；i＝1,...,n₁}，其中

表示拼接特征图；

在一些实施例中，步骤3所述采用预训练的特征提取网络模型获得子图像包B₁中的子图像的特征图的过程包括以下步骤：

步骤4、建立基础分类模型，如图2(a)和图2(b)所示，所述基础分类模型包括特征映射层、特征权重计算层、核心子图像选择模块、任务独立分类模块；

特征映射层：包括全连接层和ReLU激活函数；h_i输入该全连接层和ReLU激活函数后得到特征

特征权重计算层：采用注意力机制将f_proj映射为

然后将f_weight与f_proj相乘得到切片级特征

注意力机制采用普通注意力机制、门控注意力机制或自注意力机制：

(1)普通注意力机制：由全连接层和Tanh、Softmax激活函数组成，具体操作为

其中，

和

为全连接层参数，d_a为预先设定特征维度，Tanh和Softmax为激活函数。

(2)门控注意力机制：仅使用Tanh激活函数可能无法表征子图像之间的复杂关系，可采用门控注意力机制，该注意力机制在普通注意力机制的基础上增加了Sigmoid激活函数分支，两个分支的注意力进行相乘。由全连接层和Tanh、Sigmoid、Softmax激活函数组成，具体操作为

其中，

为全连接层参数，d_a为预先设定特征维度，Tanh、Sigmoid、Softmax为激活函数。

(3)为了进一步提升子图像关系建模，可采用自注意力机制(Self-attention),具体操作为

其中，

分别为各个全连接层参数，d_a为预先设定特征维度。需要说明的是，在自注意力机制的设置中会在步骤3获得的拼接特征图

头部增加可学习的分类特征向量，因此输入特征变为

计算所得的

从中取出每个特征子图像权重为f_weight＝A[0,1:]。

核心子图像特征选择模块：对注意力分数f_weight进行排序，并据此获得每张切片中注意力分数最大的前k个子图像特征，称为核心子图像特征O₁＝{(o_i,y_i)；i＝1,...,k}，其中

为切片对应的子图像特征；

其中c_t为该分类任务类别数目；

步骤5、进行模型训练并进行记忆存储，包括以下步骤：

步骤5.1、使用基于任务T₁已提取特征H₁训练基础分类模型，采用EarlyStopping训练策略，当训练损失函数在指定Epoch内不再减小或验证集指标不再增加时停止训练，获得训练好的基础分类模型；

损失函数如下：

表示任务T₁的独立分类层；

表示网络模型预测的结果，y表示真实标签；l为交叉熵损失函数。

步骤5.2、使用已训练好模型对所有训练数据进行预测，使用核心子图像特征选择模块获得每张切片的k个核心子图像特征，对所有k×n₁个核心子图像特征进行聚类并剔除异常特征，并存储至记忆存储模块用于后续任务记忆回放。

在一些实施例中，步骤5.2(步骤7.4与其过程相同，因此采用任务编号t进行说明)所述对所有个子图像特征进行聚类并剔除异常特征并存储用于后续任务记忆回放指的过程包括以下步骤：

将获得的核心子图像特征使用K-means等聚类算法划分为c_t个簇，然后计算各个簇中的特征点与中心特征点的距离，如果该距离大于阈值μ_t，则认定该特征点为类别错误的异常特征，将其进行剔除；然后将剩余特征按照(o,y,t)的形式进行存储，获得该任务的核心子图像特征集P_t＝{(o_ti,y_ti,t)；i＝1,...,n′_t}，其中，o为核心子图像特征，y为其类别，t为其任务编号，n′_t≤k×n_t为聚类并剔除该任务保留的子图像特征数量，i表示第i个子图像特征。

步骤6.1、获取新任务T_t的切片数据，根据新任务类型对数据进行切片级标注得到标注数据D_t＝{(x_i,y_i)；i＝1,...,n_t}，n_t为该任务数据集大小；

步骤6.2、根据新任务中的数据D_t中的切片x_i过滤背景区域并得到多个子图像构成子图像包B_t＝{(b_i,y_i)；i＝1,...,n_t}；

步骤6.3、采用预训练的特征提取网络模型对子图像包中的子图像计算特征H_t＝{(h_i,y_i)；i＝1,...,n_t}；

步骤7.1、从记忆存储模块读取各个旧任务核心子图像特征集P_j中的特征，进行随机增强和拼接产生各个旧任务伪切片级特征H′_j＝{(h′_i,y′_i)；i＝1,...,n′_j},j＝1,2,...,t-1,其中n′_j为产生的伪切片数量。

在一些实施例中，步骤7.1所述使用存储的各个旧任务核心子图像特征集中的特征随机增强和拼接产生各个旧任务伪切片级特征包括以下步骤：

按照多示例学习定义，当且仅当包中含有一个阳性实例则包为阳性，否则为阴性。因此，假定类别0为阴性(正常)，其他类别为不同阶段阳性切片(如癌前、癌)，其中阴性切片全为阴性子图像构成，阳性切片由阴性子图像和该阶段阳性子图像构成。

因此，使用存储的各个旧任务核心子图像特征随机组合产生各个旧任务伪切片级特征指的是：由任意数量大于2的类别0核心子图像特征相互拼接构成类别0的伪切片特征，由至少为1该类别核心子图像特征以及任意数量类别0对应的核心子图像特征相互拼接构成其他类别的伪切片特征。

同时，为进一步保证核心子图像特征的多样性，我们对核心子图像特征进行数据扩增，

v_new＝αv₁+(1-α)ν₂

其中，

均为同类别任意核心子图像特征，α(0＜α＜1)为两者加权时权重，

为新产生的该类别核心子图像特征。

步骤7.3、使用步骤6.3提取特征的H_t和步骤7.1组合产生的旧任务伪切片级特征H′_i训练分类模型，采用EarlyStopping训练策略，当训练损失函数在指定Epoch内不再减小或验证集指标不再增加停止训练，获得训练好的基础分类模型；

损失函数指如下：

其中，θ_s为共享参数；

为任务T_t的独立分类层参数；

为任务T_i的独立分类层参数，i＜t；h′和y′为伪切片特征；λ为旧任务损失函数权重；l为交叉熵损失函数。

步骤7.4、使用已训练好模型对所有训练数据进行预测，使用核心子图像特征选择模块获得每张切片的k个核心子图像特征，对所有k×n_t个核心子图像进行聚类并剔除异常特征，并存储至记忆存储模块用于后续任务记忆回放。

具体实施方式二：

本实施方式为一种计算机存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现所述的面向病理图像的动态知识回溯多示例学习方法。

应当理解，包括本发明描述的任何方法对应的可以被提供为计算机程序产品、软件或计算机化方法，其可以包括其上存储有指令的非暂时性机器可读介质，所述指令可以用于编程计算机系统，或其他电子装置。存储介质可以包括但不限于磁存储介质，光存储介质；磁光存储介质包括：只读存储器ROM、随机存取存储器RAM、可擦除可编程存储器(例如，EPROM和EEPROM)以及闪存层；或者适合于存储电子指令的其他类型的介质。

具体实施方式三：

本实施方式为一种任务增量全切片组织病理图像分类方法，其首先获取基于具体实施方式一所述的面向病理图像的动态知识回溯多示例学习方法建立的模型，然后在给定任务标签T的情况下，根据任务标签选择对应任务分类层对全切片组织病理图像进行分类，此过程无需进行记忆回溯。

实施例1：

本实施例的过程如下

步骤1、获取第一个任务的全切片组织病理图像数据及其切片级别标注；

步骤2、将步骤1中得到的第一个任务中的所有切片进行过滤背景区域得到组织区域并栅格化为子图像包集。

具体地，采用Rasterio包读取切片，获得切片尺寸信息，根据尺寸信息对切片进行栅格化处理，获取对应坐标；依据对应坐标依次在切片中读取坐标对应的子图像，然后将读取的子图像逐个下采样为较小尺寸的下采样子图像，并进行拼接得到下采样切片；

根据栅格化后得到的子图像坐标，获得各个子图像并获得子图像HSV颜色中间中的饱和度通道，根据全局最优阈值在每个子图像饱和度通道进行背景区域过滤，排除空白子图像，由剩余子图像构成子图像包集。

步骤3、将步骤2中的子图像包集中所有子图像包中的子图像以批次形式依次输入ImageNet预训练的ResNet50模型中，提取其全局平均池化后的特征作为子图像的特征，在每个特征的0轴拼接这些特征，得到每张切片对应子图像包特征，所有切片的子图像包特征构成子图像包特征集；

步骤4、建立基础分类模型；

步骤5、使用步骤3得到的任务1子图像特征集进行模型训练并进行记忆存储，该步骤包括以下步骤：

步骤5.1、使用步骤3得到的子图像包特征集训练基础分类模型，采用EarlyStopping训练策略，当训练损失函数在指定Epoch内不再减小或验证集指标不再增加停止训练，获得训练好的基础分类模型；

步骤5.2、使用已训练好模型对所有训练数据进行预测，使用核心子图像特征选择模块获得每张切片的核心子图像，对所有核心子图像进行聚类并剔除异常特征，并存储至记忆存储模块用于后续任务记忆回放，如3所示。由于单张组织病理切片可能高达10亿像素，可产生上万张子图像，对存储要求较高。此操作只存储每张切片的数个核心子图像特征，可以避免常见存储原图的操作，存储要求从数十GB降低到了几MB。

步骤6、对于新的任务，获取新任务数据，进行数据预处理，该步骤包括以下步骤：

步骤6.1、获取新任务的切片数据，根据新任务类型对数据进行切片级标注得到标注数据；

步骤6.2、将步骤6.1中得到的第一个任务中的所有切片进行过滤背景区域得到组织区域并栅格化为子图像包集。具体地，采用Rasterio包读取切片，获得切片尺寸信息，根据尺寸信息对切片进行栅格化处理，获取对应坐标；依据对应坐标依次在切片中读取坐标对应的子图像，然后将读取的子图像逐个下采样为较小尺寸的下采样子图像，并进行拼接得到下采样切片；采用Otsu方法获得拼接后的下采样切片HSV颜色空间饱和度通道的全局最优阈值；根据栅格化后得到的子图像坐标，获得各个子图像并获得HSV颜色中间中的饱和度通道，根据全局最优阈值在每个子图像饱和度通道进行背景区域过滤，排除空白子图像，由剩余子图像构成子图像包集，如图4和图5所示所示，图4为去除背景后子图像包集重组成的切片。Rasterio包可以以低负载的模型获取切片信息，不需要将整个切片读入内存，有利于应用于资源匮乏场景。图5为去除背景的6个来自不同任务全切片组织病理图像。

步骤6.3、将步骤2中的子图像包集中所有子图像包中的子图像以批次形式依次输入ImageNet预训练的ResNet50模型中，提取其全局平均池化后的特征作为子图像的特征，在每个特征的0轴拼接这些特征，得到每张切片对应子图像包特征，所有切片的子图像包特征构成子图像包特征集；

步骤7、联合新旧任务数据进行模型训练并进行新任务记忆存储，该步骤包括以下步骤：

步骤7.1、如图3所示，从记忆存储模块读取各个旧任务核心子图像特征集中的特征进行接产生各个旧任务伪切片级特征。此操作保证了记忆回溯时旧任务数据的多样性，可有效避免常规做法对旧数据的过拟合。

步骤7.2、在原有模型的基础上新增新任务对应的任务分类层；

步骤7.3、使用步骤6.3提取特征和步骤7.1组合产生的旧任务伪切片级特征训练分类模型，采用EarlyStopping训练策略，当训练损失函数在指定Epoch内不再减小或验证集指标不再增加停止训练，获得训练好的基础分类模型；

步骤7.4、使用已训练好模型对所有训练数据进行预测，使用核心子图像特征选择模块获得每张切片核心子图像特征，对所有核心子图像进行聚类并剔除异常特征，并存储至记忆存储模块用于后续任务记忆回放，如图3所示。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.面向病理图像的动态知识回溯多示例学习方法，其特征在于，包括以下步骤：

步骤2、对任务T₁中的切片x_i进行背景过滤得到子图像包集B₁＝{(b_i，y_i)}，其中b_i为子图像包，y_i为切片级标注；

步骤3、采用预训练的特征提取网络模型获得子图像包B₁中的子图像的特征图，并进行拼接，得到对应子图像包特征H₁＝{(h_i，y_i)}，其中h_i表示拼接特征图；

特征权重计算层：采用注意力机制将f_proj映射为f_weight；然后将f_weight与f_proj相乘得到切片级特征f_global；

其中c_t为该分类任务类别数目；

步骤5、进行模型训练并进行记忆存储，包括以下步骤：

损失函数如下：

表示任务T₁的独立分类层；

损失函数指如下：

其中，θ_s为共享参数；

为任务T_t的独立分类层参数；

2.根据权利要求1所述的面向病理图像的动态知识回溯多示例学习方法，其特征在于，步骤5.2所述对所有个子图像特征进行聚类并剔除异常特征并存储用于后续任务记忆回放指的过程包括以下步骤：

将获得的核心子图像特征使用K-means等聚类算法划分为c_t个簇，然后计算各个簇中的特征点与中心特征点的距离，如果该距离大于阈值μ_t，则认定该特征点为类别错误的异常特征，将其进行剔除；然后将剩余特征按照(o，y，t)的形式进行存储，o为核心子图像特征，y为其类别，t为其任务编号。

3.根据权利要求2所述的面向病理图像的动态知识回溯多示例学习方法，其特征在于，步骤7.1所述使用存储的各个旧任务核心子图像特征集中的特征随机增强和拼接产生各个旧任务伪切片级特征包括以下步骤：

4.根据权利要求3所述的面向病理图像的动态知识回溯多示例学习方法，其特征在于，步骤7.1中得到旧任务伪切片级特征时需要对核心子图像特征进行数据扩增：

v_new＝αv₁+(1-α)v₂

其中，v₁，v₂均为同类别任意核心子图像特征，α为权重，v_new为新产生的该类别核心子图像特征。

5.根据权利要求4所述的面向病理图像的动态知识回溯多示例学习方法，其特征在于，步骤3所述采用预训练的特征提取网络模型获得子图像包B₁中的子图像的特征图的过程包括以下步骤：

6.根据权利要求1至5任意一项所述的面向病理图像的动态知识回溯多示例学习方法，其特征在于，步骤2的具体过程包括以下步骤：

对每张切片得到的组织区域采用滑动窗口的方式得到子图像包集B₁＝{(b_i，y_i)}，其中子图像包

m_i为第i个切片中子图像个数，3表示三通道。

7.根据权利要求6所述的面向病理图像的动态知识回溯多示例学习方法，其特征在于，所述采用滑动窗口的方式得到子图像包的过程如下：

8.根据权利要求1至5任意一项所述的面向病理图像的动态知识回溯多示例学习方法，其特征在于，步骤2的具体过程包括以下步骤：

根据栅格化后得到的子图像坐标，获得各个子图像并获得子图像HSV颜色中间中的饱和度通道，根据全局最优阈值在每个子图像饱和度通道进行背景区域过滤，排除空白子图像，由剩余子图像构成子图像包集B₁，简记为子图像包集B₁＝{(b_i，y_i)}，其中子图像包

m_i为第i个切片中子图像个数。

9.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的面向病理图像的动态知识回溯多示例学习方法。

10.一种任务增量全切片组织病理图像分类方法，其特征在于，首先获取基于权利要求1至8之一所述的面向病理图像的动态知识回溯多示例学习方法建立的模型，然后在给定任务标签T的情况下，根据任务标签选择对应任务分类层对全切片组织病理图像进行分类。