CN115641317A - 面向病理图像的动态知识回溯多示例学习及图像分类方法 - Google Patents

面向病理图像的动态知识回溯多示例学习及图像分类方法 Download PDF

Info

Publication number
CN115641317A
CN115641317A CN202211335548.2A CN202211335548A CN115641317A CN 115641317 A CN115641317 A CN 115641317A CN 202211335548 A CN202211335548 A CN 202211335548A CN 115641317 A CN115641317 A CN 115641317A
Authority
CN
China
Prior art keywords
image
task
sub
slice
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211335548.2A
Other languages
English (en)
Other versions
CN115641317B (zh
Inventor
王宽全
孙鹏重
骆功宁
王玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202211335548.2A priority Critical patent/CN115641317B/zh
Publication of CN115641317A publication Critical patent/CN115641317A/zh
Application granted granted Critical
Publication of CN115641317B publication Critical patent/CN115641317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

面向病理图像的动态知识回溯多示例学习及图像分类方法,属于医学图像处理技术和深度学习技术领域。本发明为了解决目前全切片组织病理图像分析中使用单个模型持续学习多个任务时会产生灾难性遗忘的问题。本发明的多示例学习方法,首先针对一个任务获取全切片组织病理图像数据,然后训练基础分类模型,其中特征映射层、特征权重计算层的参数用于后续任务共享;然后在原有模型的基础上新增新任务Tt对应的任务分类层,从记忆存储模块读取各个旧任务核心子图像特征集中的特征产生各个旧任务伪切片级特征,继续训练分类模型;每次得到训练好的模型后进行测试对所有核心子图像进行聚类并剔除异常特征,并存储至记忆存储模块用于后续任务记忆回放。

Description

面向病理图像的动态知识回溯多示例学习及图像分类方法
技术领域
本发明属于医学图像处理技术和深度学习技术领域,具体涉及一种面向病理图像的动态知识回溯多示例学习方法和一种任务增量全切片组织病理图像分类方法。
背景技术
病理检查一直被誉为疾病诊断的“金标准”,但传统的病理诊断面临着主观性、易出错、重复性低、缺少经验丰富的病理学家和肿瘤学家等问题。对于医疗资源较为匮乏的地区和医院,通常无法进行病理诊断。因此,急需构建一种存储高效、便于部署、可持续的多任务病理图像诊断方法。
基于深度学习的计算病理学方法在各种病理学任务中表现出前所未有的性能,例如从组织形态学图像中进行肿瘤分型、淋巴结转移检测以及从基因突变预测,但它们通常是采用静态模型获得的。当单个模型连续学习多个任务时,学习新的任务将使得旧任务性能下降,即灾难性遗忘问题。当前,基于知识回放的可持续学习方法需要存储部分原始数据,面临着高存储占用、旧数据过拟合等问题,不适用于数十亿像素的全切片组织病理图像分析任务。因此,构建一种面向全切片组织病理图像分析的低存储占用、旧数据动态变化的可持续方法是十分必要的。
发明内容
本发明旨在解决目前全切片组织病理图像分析中使用单个模型持续学习多个任务时会产生灾难性遗忘的问题。进而提出了一种面向病理图像的动态知识回溯多示例学习方法和一种任务增量全切片组织病理图像分类方法。
面向病理图像的动态知识回溯多示例学习方法,包括以下步骤:
步骤1、获取第一个任务T1的全切片组织病理图像数据,根据任务类型对数据进行切片级标注,获得标注数据;
步骤2、对任务T1中的切片xi进行背景过滤得到子图像包集B1={(bi,yi)},其中bi为子图像包,yi为切片级标注;
步骤3、采用预训练的特征提取网络模型获得子图像包B1中的子图像的特征图,并进行拼接,得到对应子图像包特征H1={(hi,yi)},其中hi表示拼接特征图;
步骤4、建立基础分类模型,所述基础分类模型包括特征映射层、特征权重计算层、核心子图像选择模块、任务独立分类模块;
特征映射层:包括全连接层和ReLU激活函数;hi输入该全连接层和ReLU激活函数后得到特征fproj
特征权重计算层:采用注意力机制将fpeoj映射为fwwight;然后将fweight与fproj相乘得到切片级特征fglobal
核心子图像特征选择模块:对注意力分数fweight进行排序,并据此获得每张切片中注意力分数最大的前k个子图像特征,称为核心子图像特征O1
任务独立分类模块:初始包括一个任务分类层;所述任务分类层包括一个全连接层和Softmax激活函数层;Softmax激活函数层输出最终的分类结果
Figure BDA0003914536230000021
其中ct为该分类任务类别数目;
步骤5、进行模型训练并进行记忆存储,包括以下步骤:
步骤5.1、使用基于任务T1已提取特征H1训练基础分类模型,获得训练好的基础分类模型;
损失函数如下:
Figure BDA0003914536230000022
其中,θs表示特征映射层和特征权重计算层的参数,该参数为共享参数;
Figure BDA0003914536230000023
表示任务T1的独立分类层;
Figure BDA0003914536230000024
表示网络模型预测的结果,y表示真实标签;l为交叉熵损失函数;
步骤5.2、使用已训练好模型对所有训练数据进行预测,使用核心子图像特征选择模块获得每张切片的k个核心子图像特征,对所有核心子图像特征进行聚类并剔除异常特征,并存储至记忆存储模块用于后续任务记忆回放;
步骤6、对于新的任务Tt,获取新任务数据,进行数据预处理,包括以下步骤:
步骤6.1、获取新任务Tt的切片数据,根据新任务类型对数据进行切片级标注得到标注数据Dt
步骤6.2、根据新任务中的数据Dt中的切片xi过滤背景区域并得到多个子图像构成子图像包Bt
步骤6.3、采用预训练的特征提取网络模型对子图像包中的子图像计算特征Ht
步骤7、联合新旧任务数据进行模型训练并进行新任务记忆存储,包括以下步骤:
步骤7.1、从记忆存储模块读取各个旧任务核心子图像特征集Pj中的特征,进行随机增强和拼接产生各个旧任务伪切片级特征H′j
步骤7.2、在原有模型的基础上新增新任务Tt对应的任务分类层;
步骤7.3、使用步骤6.3提取特征的Ht和步骤7.1组合产生的旧任务伪切片级特征H′i训练分类模型,获得训练好的基础分类模型;
损失函数指如下:
Figure BDA0003914536230000031
其中,θs为共享参数;
Figure BDA0003914536230000032
为任务Tt的独立分类层参数;
Figure BDA0003914536230000033
为任务Ti的独立分类层参数,i<t;h′和y′为伪切片特征;λ为旧任务损失函数权重;l为交叉熵损失函数;
步骤7.4、使用已训练好模型对所有训练数据进行预测,使用核心子图像特征选择模块获得每张切片的k个核心子图像特征,对所有核心子图像进行聚类并剔除异常特征,并存储至记忆存储模块用于后续任务记忆回放。
进一步地,步骤5.2所述对所有个子图像特征进行聚类并剔除异常特征并存储用于后续任务记忆回放指的过程包括以下步骤:
将获得的核心子图像特征使用K-means等聚类算法划分为ct个簇,然后计算各个簇中的特征点与中心特征点的距离,如果该距离大于阈值μt,则认定该特征点为类别错误的异常特征,将其进行剔除;然后将剩余特征按照(o,y,t)的形式进行存储,o为核心子图像特征,y为其类别,t为其任务编号。
进一步地,步骤7.1所述使用存储的各个旧任务核心子图像特征集中的特征随机增强和拼接产生各个旧任务伪切片级特征包括以下步骤:
当且仅当包中含有一个阳性实例则包为阳性,否则为阴性;假定类别0为阴性,即正常;其他类别为不同阶段阳性切片,其中阴性切片全为阴性子图像构成,阳性切片由阴性子图像和该阶段阳性子图像构成;
使用存储的各个旧任务核心子图像特征随机组合产生各个旧任务伪切片级特征,即由任意数量大于2的类别0核心子图像特征相互拼接构成类别0的伪切片特征,由至少为1该类别核心子图像特征以及任意数量类别0对应的核心子图像特征相互拼接构成其他类别的伪切片特征。
进一步地,步骤7.1中得到旧任务伪切片级特征时需要对核心子图像特征进行数据扩增:
vnew=αν1+(1-α)ν2
其中,ν1,ν2均为同类别任意核心子图像特征,α为权重,νnew为新产生的该类别核心子图像特征。
进一步地,步骤3所述采用预训练的特征提取网络模型获得子图像包B1中的子图像的特征图的过程包括以下步骤:
将所裁剪的子图像包bi中的子图像以批次形式依次输入ImageNet预训练的ResNet50模型中,提取其全局平均池化后的特征作为子图像的特征,在每个特征的0轴拼接这些特征,获得子图像包对应的特征图集hi
进一步地,其特征在于,步骤2的具体过程包括以下步骤:
将读取的RGB颜色空间切片转换到HSV颜色空间,然后提取出饱和度通道,首先对其采用中值滤波进行降噪,再使用Otsu方法得到的最优阈值并进行二值化得到前景组织区域坐标,将该坐标映射到原图像得到前景组织区域;
对每张切片得到的组织区域采用滑动窗口的方式得到子图像包集B1={(bi,yi)},其中子图像包
Figure BDA0003914536230000041
mi为第i个切片中子图像个数,3表示三通道。
或者,
步骤2的具体过程包括以下步骤:
采用Rasterio包读取切片,获得切片尺寸信息,根据尺寸信息对切片进行栅格化处理,获取对应坐标;依据对应坐标依次在切片中读取坐标对应的子图像,然后将读取的子图像逐个下采样为较小尺寸的下采样子图像,并进行拼接得到下采样切片;
采用Otsu方法获得拼接后的下采样切片HSV颜色空间饱和度通道的全局最优阈值;
根据栅格化后得到的子图像坐标,获得各个子图像并获得子图像HSV颜色中间中的饱和度通道,根据全局最优阈值在每个子图像饱和度通道进行背景区域过滤,排除空白子图像,由剩余子图像构成子图像包集B1,简记为子图像包集B1={(bi,yi)},其中子图像包
Figure BDA0003914536230000042
mi为第i个切片中子图像个数。
一种计算机存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现面向病理图像的动态知识回溯多示例学习方法。
一种任务增量全切片组织病理图像分类方法,首先获取基于面向病理图像的动态知识回溯多示例学习方法建立的模型,然后在给定任务标签T的情况下,根据任务标签选择对应任务分类层对全切片组织病理图像进行分类。
有益效果:
本发明构建了一种面向全切片数字病理图像分析的动态知识回溯多示例学习方法及设备,只使用单个模型可以持续学习多种全切片组织病理图像分类任务,即本发明提出的是一种持续多示例学习方法,使持续学习与多示例学习方法有机融合,具有低存储、易部署、高精度、可扩展等特点,有效避免了对旧任务数据的过拟合,高效解决了灾难性遗忘问题,可以部署到计算资源和医疗匮乏的地区用于初步诊断。
本发明还基于面向全切片数字病理图像分析的动态知识回溯多示例学习方法提供了一种图像分类模型,从而实现一种任务增量全切片组织病理图像分类方法,这种方法不仅可以有效避免对旧任务数据的过拟合,高效解决灾难性遗忘问题的特点,而且可以保证持续学习,持续更新,从而有效应对各种不断新增的切片组织病理图像分类,能够还能够保证具有非常高的分类精度。
附图说明
图1为多种任务持续训练流程图。
图2(a)为模块逻辑关系示意图;图2(b)为模型处理过程示意图。
图3为核心子图像存储与使用示意图。
图4为背景区域过滤前后示例,展示图像为缩小16倍后的结果。
图5为6个来自不同任务全切片组织病理图像。
具体实施方式
下面的实施例以多种全切片组织病理图像分析任务为具体例子进行阐述,病理图像分类任务主要包括淋巴结转移检测、肺腺癌亚型分型、子宫内膜样癌亚型分型、基因突变检测和前列腺癌等级评估等任务。
具体实施方式一:如图1流程图所示,
本实施方式为面向病理图像的动态知识回溯多示例学习方法,具体是一种面向病理图像的动态知识回溯的可持续多示例学习方法,
本实施方式所述的面向病理图像的动态知识回溯多示例学习方法包括以下步骤:
步骤1、获取第一个任务T1的全切片组织病理图像数据,根据任务类型对数据进行切片级标注,获得标注数据D1={(xi,yi);i=1,...,n1},其中,xi为全切片组织病理图像,简记为切片;yi为对应切片级标注,取值范围为0到c1的整数(不取c1),c1为该任务分类类别;n1为数据集大小;
步骤2、对任务T1中的切片xi进行背景过滤得到子图像包集B1={(bi,yi);i=1,...,n1},其中子图像包
Figure BDA0003914536230000051
mi为第i个切片中子图像个数;
在一些实施例中,步骤2的具体过程包括以下步骤:
将读取的RGB颜色空间切片转换到HSV颜色空间,然后提取出饱和度通道,首先对其采用中值滤波进行降噪,再使用Otsu方法得到的最优阈值并进行二值化得到前景组织区域坐标,将该坐标映射到原图像得到前景组织区域;
对每张切片得到的组织区域采用滑动窗口的方式得到子图像包集B1={(bi,yi);i=1,...,n1},其中子图像包
Figure BDA0003914536230000061
mi为第i个切片中子图像个数,3表示三通道。
所述采用滑动窗口的方式得到子图像包的过程如下:
以256像素的固定步长,在前景组织区域从左到右、从上到下,裁剪出宽高为256像素的子图,得到子图像包B1
在一些实施例中,采用改进的优选方案作为步骤2替换上述步骤2的过程,具体包括以下步骤:
采用Rasterio包读取切片,获得切片尺寸信息,根据尺寸信息对切片进行栅格化处理,获取对应坐标;依据对应坐标依次在切片中读取坐标对应的子图像,然后将读取的子图像逐个下采样为较小尺寸的下采样子图像,并进行拼接得到下采样切片;
采用Otsu方法获得拼接后的下采样切片HSV颜色空间饱和度通道的全局最优阈值;
根据栅格化后得到的子图像坐标,获得各个子图像并获得子图像HSV颜色中间中的饱和度通道,根据全局最优阈值在每个子图像饱和度通道进行背景区域过滤,排除空白子图像,由剩余子图像构成子图像包集B1,简记为子图像包集B1={(bi,yi);i=1,...,n1},其中子图像包
Figure BDA0003914536230000062
mi为第i个切片中子图像个数;
所述栅格化处理是指以一定窗口和步长将切片划分为较小的子图像;
所述空白子图像是指该子图像在饱和度通道的平均值低于指定阈值Stheshold的图像。
步骤3、采用预训练的特征提取网络模型获得子图像包B1中的子图像的特征图,并进行拼接,得到对应子图像包特征H1={(hi,yi);i=1,...,n1},其中
Figure BDA0003914536230000063
表示拼接特征图;
在一些实施例中,步骤3所述采用预训练的特征提取网络模型获得子图像包B1中的子图像的特征图的过程包括以下步骤:
将所裁剪的子图像包bi中的子图像以批次形式依次输入ImageNet预训练的ResNet50模型中,提取其全局平均池化后的特征作为子图像的特征,在每个特征的0轴拼接这些特征,获得子图像包对应的特征图集hi
步骤4、建立基础分类模型,如图2(a)和图2(b)所示,所述基础分类模型包括特征映射层、特征权重计算层、核心子图像选择模块、任务独立分类模块;
特征映射层:包括全连接层和ReLU激活函数;hi输入该全连接层和ReLU激活函数后得到特征
Figure BDA0003914536230000064
特征权重计算层:采用注意力机制将fproj映射为
Figure BDA0003914536230000065
然后将fweight与fproj相乘得到切片级特征
Figure BDA0003914536230000071
注意力机制采用普通注意力机制、门控注意力机制或自注意力机制:
(1)普通注意力机制:由全连接层和Tanh、Softmax激活函数组成,具体操作为
Figure BDA0003914536230000072
其中,
Figure BDA0003914536230000073
Figure BDA0003914536230000074
为全连接层参数,da为预先设定特征维度,Tanh和Softmax为激活函数。
(2)门控注意力机制:仅使用Tanh激活函数可能无法表征子图像之间的复杂关系,可采用门控注意力机制,该注意力机制在普通注意力机制的基础上增加了Sigmoid激活函数分支,两个分支的注意力进行相乘。由全连接层和Tanh、Sigmoid、Softmax激活函数组成,具体操作为
Figure BDA0003914536230000075
其中,
Figure BDA0003914536230000076
为全连接层参数,da为预先设定特征维度,Tanh、Sigmoid、Softmax为激活函数。
(3)为了进一步提升子图像关系建模,可采用自注意力机制(Self-attention),具体操作为
Figure BDA0003914536230000077
其中,
Figure BDA0003914536230000078
Figure BDA0003914536230000079
分别为各个全连接层参数,da为预先设定特征维度。需要说明的是,在自注意力机制的设置中会在步骤3获得的拼接特征图
Figure BDA00039145362300000710
头部增加可学习的分类特征向量,因此输入特征变为
Figure BDA00039145362300000711
计算所得的
Figure BDA00039145362300000712
从中取出每个特征子图像权重为fweight=A[0,1:]。
核心子图像特征选择模块:对注意力分数fweight进行排序,并据此获得每张切片中注意力分数最大的前k个子图像特征,称为核心子图像特征O1={(oi,yi);i=1,...,k},其中
Figure BDA00039145362300000713
为切片对应的子图像特征;
任务独立分类模块:初始包括一个任务分类层;所述任务分类层包括一个全连接层和Softmax激活函数层;Softmax激活函数层输出最终的分类结果
Figure BDA00039145362300000714
其中ct为该分类任务类别数目;
步骤5、进行模型训练并进行记忆存储,包括以下步骤:
步骤5.1、使用基于任务T1已提取特征H1训练基础分类模型,采用EarlyStopping训练策略,当训练损失函数在指定Epoch内不再减小或验证集指标不再增加时停止训练,获得训练好的基础分类模型;
损失函数如下:
Figure BDA0003914536230000081
其中,θs表示特征映射层和特征权重计算层的参数,该参数为共享参数;
Figure BDA0003914536230000082
表示任务T1的独立分类层;
Figure BDA0003914536230000083
表示网络模型预测的结果,y表示真实标签;l为交叉熵损失函数。
步骤5.2、使用已训练好模型对所有训练数据进行预测,使用核心子图像特征选择模块获得每张切片的k个核心子图像特征,对所有k×n1个核心子图像特征进行聚类并剔除异常特征,并存储至记忆存储模块用于后续任务记忆回放。
在一些实施例中,步骤5.2(步骤7.4与其过程相同,因此采用任务编号t进行说明)所述对所有个子图像特征进行聚类并剔除异常特征并存储用于后续任务记忆回放指的过程包括以下步骤:
将获得的核心子图像特征使用K-means等聚类算法划分为ct个簇,然后计算各个簇中的特征点与中心特征点的距离,如果该距离大于阈值μt,则认定该特征点为类别错误的异常特征,将其进行剔除;然后将剩余特征按照(o,y,t)的形式进行存储,获得该任务的核心子图像特征集Pt={(oti,yti,t);i=1,...,n′t},其中,o为核心子图像特征,y为其类别,t为其任务编号,n′t≤k×nt为聚类并剔除该任务保留的子图像特征数量,i表示第i个子图像特征。
步骤6、对于新的任务Tt,获取新任务数据,进行数据预处理,包括以下步骤:
步骤6.1、获取新任务Tt的切片数据,根据新任务类型对数据进行切片级标注得到标注数据Dt={(xi,yi);i=1,...,nt},nt为该任务数据集大小;
步骤6.2、根据新任务中的数据Dt中的切片xi过滤背景区域并得到多个子图像构成子图像包Bt={(bi,yi);i=1,...,nt};
步骤6.3、采用预训练的特征提取网络模型对子图像包中的子图像计算特征Ht={(hi,yi);i=1,...,nt};
步骤7、联合新旧任务数据进行模型训练并进行新任务记忆存储,包括以下步骤:
步骤7.1、从记忆存储模块读取各个旧任务核心子图像特征集Pj中的特征,进行随机增强和拼接产生各个旧任务伪切片级特征H′j={(h′i,y′i);i=1,...,n′j},j=1,2,...,t-1,其中n′j为产生的伪切片数量。
在一些实施例中,步骤7.1所述使用存储的各个旧任务核心子图像特征集中的特征随机增强和拼接产生各个旧任务伪切片级特征包括以下步骤:
按照多示例学习定义,当且仅当包中含有一个阳性实例则包为阳性,否则为阴性。因此,假定类别0为阴性(正常),其他类别为不同阶段阳性切片(如癌前、癌),其中阴性切片全为阴性子图像构成,阳性切片由阴性子图像和该阶段阳性子图像构成。
因此,使用存储的各个旧任务核心子图像特征随机组合产生各个旧任务伪切片级特征指的是:由任意数量大于2的类别0核心子图像特征相互拼接构成类别0的伪切片特征,由至少为1该类别核心子图像特征以及任意数量类别0对应的核心子图像特征相互拼接构成其他类别的伪切片特征。
同时,为进一步保证核心子图像特征的多样性,我们对核心子图像特征进行数据扩增,
vnew=αv1+(1-α)ν2
其中,
Figure BDA0003914536230000091
均为同类别任意核心子图像特征,α(0<α<1)为两者加权时权重,
Figure BDA0003914536230000092
为新产生的该类别核心子图像特征。
步骤7.2、在原有模型的基础上新增新任务Tt对应的任务分类层;
步骤7.3、使用步骤6.3提取特征的Ht和步骤7.1组合产生的旧任务伪切片级特征H′i训练分类模型,采用EarlyStopping训练策略,当训练损失函数在指定Epoch内不再减小或验证集指标不再增加停止训练,获得训练好的基础分类模型;
损失函数指如下:
Figure BDA0003914536230000093
其中,θs为共享参数;
Figure BDA0003914536230000094
为任务Tt的独立分类层参数;
Figure BDA0003914536230000095
为任务Ti的独立分类层参数,i<t;h′和y′为伪切片特征;λ为旧任务损失函数权重;l为交叉熵损失函数。
步骤7.4、使用已训练好模型对所有训练数据进行预测,使用核心子图像特征选择模块获得每张切片的k个核心子图像特征,对所有k×nt个核心子图像进行聚类并剔除异常特征,并存储至记忆存储模块用于后续任务记忆回放。
具体实施方式二:
本实施方式为一种计算机存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的面向病理图像的动态知识回溯多示例学习方法。
应当理解,包括本发明描述的任何方法对应的可以被提供为计算机程序产品、软件或计算机化方法,其可以包括其上存储有指令的非暂时性机器可读介质,所述指令可以用于编程计算机系统,或其他电子装置。存储介质可以包括但不限于磁存储介质,光存储介质;磁光存储介质包括:只读存储器ROM、随机存取存储器RAM、可擦除可编程存储器(例如,EPROM和EEPROM)以及闪存层;或者适合于存储电子指令的其他类型的介质。
具体实施方式三:
本实施方式为一种任务增量全切片组织病理图像分类方法,其首先获取基于具体实施方式一所述的面向病理图像的动态知识回溯多示例学习方法建立的模型,然后在给定任务标签T的情况下,根据任务标签选择对应任务分类层对全切片组织病理图像进行分类,此过程无需进行记忆回溯。
实施例1:
本实施例的过程如下
步骤1、获取第一个任务的全切片组织病理图像数据及其切片级别标注;
步骤2、将步骤1中得到的第一个任务中的所有切片进行过滤背景区域得到组织区域并栅格化为子图像包集。
具体地,采用Rasterio包读取切片,获得切片尺寸信息,根据尺寸信息对切片进行栅格化处理,获取对应坐标;依据对应坐标依次在切片中读取坐标对应的子图像,然后将读取的子图像逐个下采样为较小尺寸的下采样子图像,并进行拼接得到下采样切片;
采用Otsu方法获得拼接后的下采样切片HSV颜色空间饱和度通道的全局最优阈值;
根据栅格化后得到的子图像坐标,获得各个子图像并获得子图像HSV颜色中间中的饱和度通道,根据全局最优阈值在每个子图像饱和度通道进行背景区域过滤,排除空白子图像,由剩余子图像构成子图像包集。
步骤3、将步骤2中的子图像包集中所有子图像包中的子图像以批次形式依次输入ImageNet预训练的ResNet50模型中,提取其全局平均池化后的特征作为子图像的特征,在每个特征的0轴拼接这些特征,得到每张切片对应子图像包特征,所有切片的子图像包特征构成子图像包特征集;
步骤4、建立基础分类模型;
步骤5、使用步骤3得到的任务1子图像特征集进行模型训练并进行记忆存储,该步骤包括以下步骤:
步骤5.1、使用步骤3得到的子图像包特征集训练基础分类模型,采用EarlyStopping训练策略,当训练损失函数在指定Epoch内不再减小或验证集指标不再增加停止训练,获得训练好的基础分类模型;
步骤5.2、使用已训练好模型对所有训练数据进行预测,使用核心子图像特征选择模块获得每张切片的核心子图像,对所有核心子图像进行聚类并剔除异常特征,并存储至记忆存储模块用于后续任务记忆回放,如3所示。由于单张组织病理切片可能高达10亿像素,可产生上万张子图像,对存储要求较高。此操作只存储每张切片的数个核心子图像特征,可以避免常见存储原图的操作,存储要求从数十GB降低到了几MB。
步骤6、对于新的任务,获取新任务数据,进行数据预处理,该步骤包括以下步骤:
步骤6.1、获取新任务的切片数据,根据新任务类型对数据进行切片级标注得到标注数据;
步骤6.2、将步骤6.1中得到的第一个任务中的所有切片进行过滤背景区域得到组织区域并栅格化为子图像包集。具体地,采用Rasterio包读取切片,获得切片尺寸信息,根据尺寸信息对切片进行栅格化处理,获取对应坐标;依据对应坐标依次在切片中读取坐标对应的子图像,然后将读取的子图像逐个下采样为较小尺寸的下采样子图像,并进行拼接得到下采样切片;采用Otsu方法获得拼接后的下采样切片HSV颜色空间饱和度通道的全局最优阈值;根据栅格化后得到的子图像坐标,获得各个子图像并获得HSV颜色中间中的饱和度通道,根据全局最优阈值在每个子图像饱和度通道进行背景区域过滤,排除空白子图像,由剩余子图像构成子图像包集,如图4和图5所示所示,图4为去除背景后子图像包集重组成的切片。Rasterio包可以以低负载的模型获取切片信息,不需要将整个切片读入内存,有利于应用于资源匮乏场景。图5为去除背景的6个来自不同任务全切片组织病理图像。
步骤6.3、将步骤2中的子图像包集中所有子图像包中的子图像以批次形式依次输入ImageNet预训练的ResNet50模型中,提取其全局平均池化后的特征作为子图像的特征,在每个特征的0轴拼接这些特征,得到每张切片对应子图像包特征,所有切片的子图像包特征构成子图像包特征集;
步骤7、联合新旧任务数据进行模型训练并进行新任务记忆存储,该步骤包括以下步骤:
步骤7.1、如图3所示,从记忆存储模块读取各个旧任务核心子图像特征集中的特征进行接产生各个旧任务伪切片级特征。此操作保证了记忆回溯时旧任务数据的多样性,可有效避免常规做法对旧数据的过拟合。
步骤7.2、在原有模型的基础上新增新任务对应的任务分类层;
步骤7.3、使用步骤6.3提取特征和步骤7.1组合产生的旧任务伪切片级特征训练分类模型,采用EarlyStopping训练策略,当训练损失函数在指定Epoch内不再减小或验证集指标不再增加停止训练,获得训练好的基础分类模型;
步骤7.4、使用已训练好模型对所有训练数据进行预测,使用核心子图像特征选择模块获得每张切片核心子图像特征,对所有核心子图像进行聚类并剔除异常特征,并存储至记忆存储模块用于后续任务记忆回放,如图3所示。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (10)

1.面向病理图像的动态知识回溯多示例学习方法,其特征在于,包括以下步骤:
步骤1、获取第一个任务T1的全切片组织病理图像数据,根据任务类型对数据进行切片级标注,获得标注数据;
步骤2、对任务T1中的切片xi进行背景过滤得到子图像包集B1={(bi,yi)},其中bi为子图像包,yi为切片级标注;
步骤3、采用预训练的特征提取网络模型获得子图像包B1中的子图像的特征图,并进行拼接,得到对应子图像包特征H1={(hi,yi)},其中hi表示拼接特征图;
步骤4、建立基础分类模型,所述基础分类模型包括特征映射层、特征权重计算层、核心子图像选择模块、任务独立分类模块;
特征映射层:包括全连接层和ReLU激活函数;hi输入该全连接层和ReLU激活函数后得到特征fproj
特征权重计算层:采用注意力机制将fproj映射为fweight;然后将fweight与fproj相乘得到切片级特征fglobal
核心子图像特征选择模块:对注意力分数fweight进行排序,并据此获得每张切片中注意力分数最大的前k个子图像特征,称为核心子图像特征O1
任务独立分类模块:初始包括一个任务分类层;所述任务分类层包括一个全连接层和Softmax激活函数层;Softmax激活函数层输出最终的分类结果
Figure FDA0003914536220000011
其中ct为该分类任务类别数目;
步骤5、进行模型训练并进行记忆存储,包括以下步骤:
步骤5.1、使用基于任务T1已提取特征H1训练基础分类模型,获得训练好的基础分类模型;
损失函数如下:
Figure FDA0003914536220000012
其中,θs表示特征映射层和特征权重计算层的参数,该参数为共享参数;
Figure FDA0003914536220000013
表示任务T1的独立分类层;
Figure FDA0003914536220000014
表示网络模型预测的结果,y表示真实标签;l为交叉熵损失函数;
步骤5.2、使用已训练好模型对所有训练数据进行预测,使用核心子图像特征选择模块获得每张切片的k个核心子图像特征,对所有核心子图像特征进行聚类并剔除异常特征,并存储至记忆存储模块用于后续任务记忆回放;
步骤6、对于新的任务Tt,获取新任务数据,进行数据预处理,包括以下步骤:
步骤6.1、获取新任务Tt的切片数据,根据新任务类型对数据进行切片级标注得到标注数据Dt
步骤6.2、根据新任务中的数据Dt中的切片xi过滤背景区域并得到多个子图像构成子图像包Bt
步骤6.3、采用预训练的特征提取网络模型对子图像包中的子图像计算特征Ht
步骤7、联合新旧任务数据进行模型训练并进行新任务记忆存储,包括以下步骤:
步骤7.1、从记忆存储模块读取各个旧任务核心子图像特征集Pj中的特征,进行随机增强和拼接产生各个旧任务伪切片级特征H′j
步骤7.2、在原有模型的基础上新增新任务Tt对应的任务分类层;
步骤7.3、使用步骤6.3提取特征的Ht和步骤7.1组合产生的旧任务伪切片级特征H′i训练分类模型,获得训练好的基础分类模型;
损失函数指如下:
Figure FDA0003914536220000021
其中,θs为共享参数;
Figure FDA0003914536220000022
为任务Tt的独立分类层参数;
Figure FDA0003914536220000023
为任务Ti的独立分类层参数,i<t;h′和y′为伪切片特征;λ为旧任务损失函数权重;l为交叉熵损失函数;
步骤7.4、使用已训练好模型对所有训练数据进行预测,使用核心子图像特征选择模块获得每张切片的k个核心子图像特征,对所有核心子图像进行聚类并剔除异常特征,并存储至记忆存储模块用于后续任务记忆回放。
2.根据权利要求1所述的面向病理图像的动态知识回溯多示例学习方法,其特征在于,步骤5.2所述对所有个子图像特征进行聚类并剔除异常特征并存储用于后续任务记忆回放指的过程包括以下步骤:
将获得的核心子图像特征使用K-means等聚类算法划分为ct个簇,然后计算各个簇中的特征点与中心特征点的距离,如果该距离大于阈值μt,则认定该特征点为类别错误的异常特征,将其进行剔除;然后将剩余特征按照(o,y,t)的形式进行存储,o为核心子图像特征,y为其类别,t为其任务编号。
3.根据权利要求2所述的面向病理图像的动态知识回溯多示例学习方法,其特征在于,步骤7.1所述使用存储的各个旧任务核心子图像特征集中的特征随机增强和拼接产生各个旧任务伪切片级特征包括以下步骤:
当且仅当包中含有一个阳性实例则包为阳性,否则为阴性;假定类别0为阴性,即正常;其他类别为不同阶段阳性切片,其中阴性切片全为阴性子图像构成,阳性切片由阴性子图像和该阶段阳性子图像构成;
使用存储的各个旧任务核心子图像特征随机组合产生各个旧任务伪切片级特征,即由任意数量大于2的类别0核心子图像特征相互拼接构成类别0的伪切片特征,由至少为1该类别核心子图像特征以及任意数量类别0对应的核心子图像特征相互拼接构成其他类别的伪切片特征。
4.根据权利要求3所述的面向病理图像的动态知识回溯多示例学习方法,其特征在于,步骤7.1中得到旧任务伪切片级特征时需要对核心子图像特征进行数据扩增:
vnew=αv1+(1-α)v2
其中,v1,v2均为同类别任意核心子图像特征,α为权重,vnew为新产生的该类别核心子图像特征。
5.根据权利要求4所述的面向病理图像的动态知识回溯多示例学习方法,其特征在于,步骤3所述采用预训练的特征提取网络模型获得子图像包B1中的子图像的特征图的过程包括以下步骤:
将所裁剪的子图像包bi中的子图像以批次形式依次输入ImageNet预训练的ResNet50模型中,提取其全局平均池化后的特征作为子图像的特征,在每个特征的0轴拼接这些特征,获得子图像包对应的特征图集hi
6.根据权利要求1至5任意一项所述的面向病理图像的动态知识回溯多示例学习方法,其特征在于,步骤2的具体过程包括以下步骤:
将读取的RGB颜色空间切片转换到HSV颜色空间,然后提取出饱和度通道,首先对其采用中值滤波进行降噪,再使用Otsu方法得到的最优阈值并进行二值化得到前景组织区域坐标,将该坐标映射到原图像得到前景组织区域;
对每张切片得到的组织区域采用滑动窗口的方式得到子图像包集B1={(bi,yi)},其中子图像包
Figure FDA0003914536220000031
mi为第i个切片中子图像个数,3表示三通道。
7.根据权利要求6所述的面向病理图像的动态知识回溯多示例学习方法,其特征在于,所述采用滑动窗口的方式得到子图像包的过程如下:
以256像素的固定步长,在前景组织区域从左到右、从上到下,裁剪出宽高为256像素的子图,得到子图像包B1
8.根据权利要求1至5任意一项所述的面向病理图像的动态知识回溯多示例学习方法,其特征在于,步骤2的具体过程包括以下步骤:
采用Rasterio包读取切片,获得切片尺寸信息,根据尺寸信息对切片进行栅格化处理,获取对应坐标;依据对应坐标依次在切片中读取坐标对应的子图像,然后将读取的子图像逐个下采样为较小尺寸的下采样子图像,并进行拼接得到下采样切片;
采用Otsu方法获得拼接后的下采样切片HSV颜色空间饱和度通道的全局最优阈值;
根据栅格化后得到的子图像坐标,获得各个子图像并获得子图像HSV颜色中间中的饱和度通道,根据全局最优阈值在每个子图像饱和度通道进行背景区域过滤,排除空白子图像,由剩余子图像构成子图像包集B1,简记为子图像包集B1={(bi,yi)},其中子图像包
Figure FDA0003914536220000041
mi为第i个切片中子图像个数。
9.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的面向病理图像的动态知识回溯多示例学习方法。
10.一种任务增量全切片组织病理图像分类方法,其特征在于,首先获取基于权利要求1至8之一所述的面向病理图像的动态知识回溯多示例学习方法建立的模型,然后在给定任务标签T的情况下,根据任务标签选择对应任务分类层对全切片组织病理图像进行分类。
CN202211335548.2A 2022-10-28 2022-10-28 面向病理图像的动态知识回溯多示例学习及图像分类方法 Active CN115641317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211335548.2A CN115641317B (zh) 2022-10-28 2022-10-28 面向病理图像的动态知识回溯多示例学习及图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211335548.2A CN115641317B (zh) 2022-10-28 2022-10-28 面向病理图像的动态知识回溯多示例学习及图像分类方法

Publications (2)

Publication Number Publication Date
CN115641317A true CN115641317A (zh) 2023-01-24
CN115641317B CN115641317B (zh) 2024-06-25

Family

ID=84946119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211335548.2A Active CN115641317B (zh) 2022-10-28 2022-10-28 面向病理图像的动态知识回溯多示例学习及图像分类方法

Country Status (1)

Country Link
CN (1) CN115641317B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115117A (zh) * 2023-08-31 2023-11-24 南京诺源医疗器械有限公司 基于小样本下的病理图像识别方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074305A1 (en) * 2018-09-05 2020-03-05 Royal Bank Of Canada System and method for improving deep neural network performance
KR20200092900A (ko) * 2019-01-25 2020-08-04 주식회사 딥바이오 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템
CN112488234A (zh) * 2020-12-10 2021-03-12 武汉大学 一种基于注意力池化的端到端组织病理图像分类方法
CN112926322A (zh) * 2021-04-28 2021-06-08 河南大学 融合自注意力机制和深度学习的文本分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074305A1 (en) * 2018-09-05 2020-03-05 Royal Bank Of Canada System and method for improving deep neural network performance
KR20200092900A (ko) * 2019-01-25 2020-08-04 주식회사 딥바이오 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템
CN112488234A (zh) * 2020-12-10 2021-03-12 武汉大学 一种基于注意力池化的端到端组织病理图像分类方法
CN112926322A (zh) * 2021-04-28 2021-06-08 河南大学 融合自注意力机制和深度学习的文本分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MING Y. LU, 等: "Data-efficient and weakly supervised computational pathology on whole-slide images", NATURE BIOMEDICAL ENGINEERING, 1 March 2021 (2021-03-01) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115117A (zh) * 2023-08-31 2023-11-24 南京诺源医疗器械有限公司 基于小样本下的病理图像识别方法、电子设备及存储介质
CN117115117B (zh) * 2023-08-31 2024-02-09 南京诺源医疗器械有限公司 基于小样本下的病理图像识别方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN115641317B (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
CN109934293B (zh) 图像识别方法、装置、介质及混淆感知卷积神经网络
US10846566B2 (en) Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
CN112116599B (zh) 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统
CN109712165B (zh) 一种基于卷积神经网络的同类前景图像集分割方法
US20210326638A1 (en) Video panoptic segmentation
US20230281763A1 (en) Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
CN111462086A (zh) 图像分割方法及装置、神经网络模型的训练方法及装置
CN114445670B (zh) 图像处理模型的训练方法、装置、设备及存储介质
CN112950561B (zh) 光纤端面缺陷检测方法、设备及存储介质
CN113627389A (zh) 一种目标检测的优化方法及设备
CN114022718B (zh) 消化系统病理图像识别方法、系统及计算机存储介质
CN112639997A (zh) 一种利用神经网络进行分割的疾病诊断系统和方法
CN108596240B (zh) 一种基于判别特征网络的图像语义分割方法
CN113221731B (zh) 一种多尺度遥感图像目标检测方法及系统
US20220270341A1 (en) Method and device of inputting annotation of object boundary information
Rios et al. Feature visualization for 3D point cloud autoencoders
US20230044794A1 (en) Neural network training device, system and method
CN113096080A (zh) 图像分析方法及系统
CN114445356A (zh) 基于多分辨率的全视野病理切片图像肿瘤快速定位方法
CN115641317A (zh) 面向病理图像的动态知识回溯多示例学习及图像分类方法
CN113223011B (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN109461162B (zh) 图像中目标分割的方法
CN116486071A (zh) 图像分块特征提取方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant