CN114999637A

CN114999637A - 多角度编码与嵌入式互学习的病理图像诊断方法与系统

Info

Publication number: CN114999637A
Application number: CN202210842318.9A
Authority: CN
Inventors: 李广丽; 吴光庭; 许广鑫; 李传秀; 叶艺源; 张红斌
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-09-02
Anticipated expiration: 2042-07-18
Also published as: CN114999637B

Abstract

本发明提出一种多角度编码与嵌入式互学习的病理图像诊断方法与系统，该方法包括：采集病理组织图像数据集，对病理组织图像数据集进行预处理；构建多角度编码Transformer模型；构建嵌入式学习框架，基于嵌入式学习框架对第一Transformer网络与第二Transformer网络执行嵌入式互学习，以分别得到输出的全局特征与局部特征；构建自动融合模块，对全局特征与局部特征进行自动交互融合以得到融合后的特征；将融合后的特征输入至Softmax分类器，以完成病理组织图像的分类诊断。本发明可改善图像特征的表征能力，提升病理图像的分类准确率，更好地辅助医生的临床诊断工作。

Description

多角度编码与嵌入式互学习的病理图像诊断方法与系统

技术领域

本发明涉及计算机图像处理技术领域，特别涉及一种多角度编码与嵌入式互学习的病理图像诊断方法与系统。

背景技术

病理图像诊断的一般流程为：将活检载玻片上的组织转换成千兆像素的组织病理图像(WSI)，充分保留原始的组织结构；然后设计计算机辅助诊断（CAD）模型，完成病理图像诊断。考虑到组织病理学图像巨大的尺寸以及像素级的标注通常难以获得，当只有图像级别语义标签时，多示例方法是一种有效的解决方法。基于多示例病理图像的计算机辅助诊断属于一种弱监督学习问题。目前，传统的多示例病理图像诊断方法主要存在如下问题：1、传统方法多通过卷积神经网络（CNN）提取图像局部特征，远程依赖和全局特征建模能力较弱，导致病理图像诊断精度不高；2、传统方法多通过增加单个模型的网络深度和宽度来提升诊断精度，这使得诊断模型的网络结构越来越复杂，模型易过拟合且难于训练，更不利于实际部署，严重制约诊断模型的实用价值；3、传统Transformer模型的位置编码是固定的，无法动态感知不同包示例序列之间的相互关系，特征信息无法全面提取，且传统Transformer未聚焦局部特征建模，全局特征和局部特征的互补性未有效使用，这些因素均导致模型诊断精度下降。

基于此，有必要提出一种新的病理图像诊断方法，以解决上述技术问题。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种多角度编码与嵌入式互学习的病理图像诊断方法与系统，以解决上述技术问题。

本发明实施例提出一种多角度编码与嵌入式互学习的病理图像诊断方法，其中，所述方法包括如下步骤：

步骤一、采集病理组织图像数据集，对所述病理组织图像数据集进行预处理；

步骤二、构建多角度编码Transformer模型，将经过预处理后的病理组织图像数据集输入至多角度编码Transformer模型中进行处理以进行病理图像分类，其中所述多角度编码Transformer模型由包含动态位置编码的第一Transformer网络与包含软注意力卷积运算编码的第二Transformer网络构成，所述第一Transformer网络用于捕获远程依赖以及全局特征建模，所述第二Transformer网络用于聚焦病理细节提取以及局部特征建模；

步骤三、构建嵌入式学习框架，基于所述嵌入式学习框架对所述第一Transformer网络与所述第二Transformer网络执行嵌入式互学习，以分别得到第一Transformer网络输出的全局特征以及第二Transformer网络输出的局部特征；

步骤四、构建自动融合模块，对第一Transformer网络输出的全局特征与第二Transformer网络输出的局部特征进行自动交互融合以得到融合后的特征；

步骤五、将所述融合后的特征输入至Softmax分类器，以完成病理组织图像的分类诊断。

本发明提出一种多角度编码与嵌入式互学习的病理图像诊断方法，通过分割病理组织图像为多个包示例，在一定程度上解决病理图像“尺寸过大，无法训练”的问题；此外，构建多角度编码Transformer模型，多角度编码Transformer模型包括：动态位置编码的第一Transformer网络和包含软注意力卷积运算编码的第二Transformer网络，第一Transformer网络与第二Transformer网络既能捕获图像中远程依赖以增强全局特征建模能力，也可对特征执行软注意力加权以聚焦图像中局部细节信息；最后，设计嵌入式互学习框架，建立第一Transformer网络与第二Transformer网络之间的关联，通过互学习充分挖掘不同网络之间隐含的病理知识，并采用特征融合进一步利用全局特征、局部特征之间的互补性，进而改善图像特征的表征能力，以提升病理图像的分类准确率，从而更好地辅助医生的临床诊断工作。

所述一种多角度编码与嵌入式互学习的病理图像诊断方法，其中，在所述步骤一中，对所述病理组织图像数据集进行预处理的方法包括如下步骤：

对所述病理组织图像数据集进行数字增强与归一化操作；

将经过数字增强与归一化操作后的病理组织图像自动分割成多个不同的块区域，并将所述块区域记作为包示例；

对应的公式表达为：

其中，

表示第

个病理组织图像，

表示病理组织图像分割后的包示例，

表示病理组织图像的序号，

表示包示例的个数。

所述一种多角度编码与嵌入式互学习的病理图像诊断方法，其中，在所述步骤二中，所述包含动态位置编码的第一Transformer网络由第一Transformer层、第二Transformer层以及一个动态位置编码模块构成；

所述第一Transformer层与第二Transformer层用于通过多头注意力机制聚焦包示例之间的交互，以聚合不同包示例的病理组织图像中的形态信息；所述动态位置编码模块由三个不同的卷积核组成，用于通过不同大小的卷积核对病理组织图像的空间信息进行编码，以获取得到全局特征。

所述通过不同大小的卷积核对病理组织图像的空间信息进行编码，以获取得到全局特征的方法包括如下步骤：

将所述病理组织图像中分割得到的包示例经过线性投影后生成块标记和类标记，其中所述块标记中带有包示例的病理信息，对应的表达式为：

其中，

表示线性投影后的包示例对应的病理组织图像的信息，

表示第

个病理组织图像中第

个块标记，

，

表示实数，

表示块标记维度；

将每个所述块标记转换为对应的二维图像，通过不同大小的卷积核对二维图像的空间信息进行动态编码；

通过动态位置编码动态感知不同的包示例之间的相互关系，从而将不同的二维图像的信息融合在一起，以建立不同包示例之间的相关性分数，对应的相关性分数表示为：

其中，

表示相关性分数，

表示包示例，

表示包示例的相关性向量，

表示包示例的相关性向量的空间转置，

表示包示例的维度，

表示知识蒸馏的温度，

表示包示例线性投影之后的其中一个分向量；

根据各所述相关性分数，从全局视角刻画病理组织图像，将所述类标记与所述块标记进行连接，以构造得到全局特征。

所述一种多角度编码与嵌入式互学习的病理图像诊断方法，其中，在所述步骤二中，软注意力卷积运算编码的执行方法包括如下步骤：

将所述病理组织图像中分割得到的包示例经过线性投影后生成块标记和类标记，其中所述块标记中带有包示例的病理信息；

将每个所述块标记转换为对应的二维图像，使用3D卷积核对二维图像的病理特征信息进行编码，以得到特征向量

；

将所述特征向量

输入至软注意力引导的多示例池化层中，以获取得到经软注意力加权后的特征图在不同维度上的多样化特征；

基于所述多样化特征，继续捕捉所述病理组织图像中的关键视觉内容，以得到经软注意力加权的图像细节信息，根据所述经软注意力加权的图像细节信息构造得到局部特征。

所述一种多角度编码与嵌入式互学习的病理图像诊断方法，其中，将所述特征向量输入至软注意力引导的多示例池化层中，以获取得到经软注意力加权后的特征图在不同维度上的多样化特征的步骤中，对应有如下公式：

其中，

表示注意力分数，

表示加权系数，

表示3D权重的参数，

，

表示卷积核的高，

表示卷积核的宽，

表示卷积核的维度，

表示池化层的固定参数，

，

表示3D权重的参数最大值。

所述一种多角度编码与嵌入式互学习的病理图像诊断方法，其中，在所述步骤三中，执行嵌入式学习的方法包括如下步骤：

将包示例输入至所述第一Transformer网络与所述第二Transformer网络中进行互学习，利用第一Transformer网络与第二Transformer网络之间的互补性以挖掘得到隐含的病理知识；其中，所述隐含的病理知识用于准确描述病理组织图像，以提升病理组织图像分类的精度；

将挖掘得到的所述隐含的病理知识，转移到自动融合模块中执行特征融合操作，并将融合后的特征反馈至第一Transformer网络与第二Transformer网络中；

在反馈了融合后的特征的第一Transformer网络、反馈了融合后的特征的第二Transformer网络以及所述自动融合模块之间建立在线嵌入式学习关系。

所述一种多角度编码与嵌入式互学习的病理图像诊断方法，其中，在所述步骤三中，第一Transformer网络的交叉熵损失函数表示为：

其中，

表示第一Transformer网络的交叉熵损失函数，

表示图像标签，

表示对应的类别，

表示第k个块标记，

表示第一Transformer网络的概率输出，

表示知识蒸馏的温度，

表示块标记的最大数量，

表示类别的最大数量，

表示分类指标；

第二Transformer网络的交叉熵损失函数表示为：

其中，

表示第二Transformer网络的交叉熵损失函数，

表示第二Transformer网络的概率输出；

所述第一Transformer网络与第二Transformer网络之间的第一KL散度值表示为：

所述第一Transformer网络与第二Transformer网络之间的第二KL散度值表示为：

其中，

表示第一KL散度值，

表示第二KL散度值，

表示散度值的计算；

其中，

表示第一Transformer网络的logit输出，

表示第二Transformer网络的logit输出。

所述一种多角度编码与嵌入式互学习的病理图像诊断方法，其中，在所述步骤四中，对第一Transformer网络输出的全局特征与第二Transformer网络输出的局部特征进行自动交互融合以得到融合后的特征的方法中，对应有如下公式：

其中，

表示特征图融合后的总通道数，

表示第一Transformer网络的通道数，

表示第二Transformer网络的通道数。

本发明还提出一种多角度编码与嵌入式互学习的病理图像诊断系统，其中，所述系统包括：

预处理模块，用于采集病理组织图像数据集，对所述病理组织图像数据集进行预处理；

多角度编码Transformer模块，用于构建多角度编码Transformer模型，将经过预处理后的病理组织图像数据集输入至多角度编码Transformer模型中进行处理以进行病理图像分类，其中所述多角度编码Transformer模型由包含动态位置编码的第一Transformer网络与包含软注意力卷积运算编码的第二Transformer网络构成，所述第一Transformer网络用于捕获远程依赖以及全局特征建模，所述第二Transformer网络用于聚焦病理细节提取以及局部特征建模；

嵌入式互学习模块，用于构建嵌入式学习框架，基于所述嵌入式学习框架对所述第一Transformer网络与所述第二Transformer网络执行嵌入式互学习，以分别得到第一Transformer网络输出的全局特征以及第二Transformer网络输出的局部特征；

自动融合模块，用于对第一Transformer网络输出的全局特征与第二Transformer网络输出的局部特征进行自动交互融合以得到融合后的特征；

病理图像诊断模块，用于将所述融合后的特征输入至Softmax分类器，以完成病理组织图像的分类诊断。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的多角度编码与嵌入式互学习的病理图像诊断方法的流程图；

图2为本发明提出的多角度编码与嵌入式互学习的病理图像诊断方法的网络结构示意图；

图3为本发明提出的嵌入式互学习的流程示意图；

图4 为本发明提出的多角度编码与嵌入式互学习的病理图像诊断系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1至图3，本发明提出一种多角度编码与嵌入式互学习的病理图像诊断方法，其中，所述方法包括如下步骤：

S101、采集病理组织图像数据集，对病理组织图像数据集进行预处理。

在步骤S101中，对病理组织图像数据集进行预处理的方法包括如下步骤：

S1011、对所述病理组织图像数据集进行数字增强与归一化操作；

S1012、将经过数字增强与归一化操作后的病理组织图像自动分割成多个不同的块区域，并将所述块区域记作为包示例。

其中，对应的公式表达为：

其中，

表示第

个病理组织图像，

表示大尺寸病理组织图像分割后的包示例，

表示病理组织图像的序号，

表示包示例的个数。

S102、构建多角度编码Transformer模型，将经过预处理后的病理组织图像数据集输入至多角度编码Transformer模型中进行处理以进行病理图像分类。

在具体实施例中，多角度编码Transformer模型由包含动态位置编码的第一Transformer网络与包含软注意力卷积运算编码的第二Transformer网络构成。其中，第一Transformer网络用于捕获远程依赖以及全局特征建模，第二Transformer网络用于聚焦病理细节提取以及局部特征建模。

其中，上述包含动态位置编码的第一Transformer网络由第一Transformer层、第二Transformer层以及一个动态位置编码模块构成。具体的，第一Transformer层与第二Transformer层用于通过多头注意力机制聚焦包示例之间的交互，以聚合不同包示例的病理组织图像中的形态信息；动态位置编码模块由三个不同的卷积核（3X3、5X5与7X7）组成，用于通过不同大小的卷积核对病理组织图像的空间信息进行编码，以获取得到全局特征。

一方面，在具体实施例中，通过不同大小的卷积核对病理组织图像的空间信息进行编码，以获取得到全局特征的方法（即动态位置编码模块的执行方法）包括如下步骤：

S1021a、将病理组织图像中分割得到的包示例经过线性投影后生成块标记和类标记，其中块标记中带有包示例的病理信息，对应的表达式为：

其中，

表示线性投影后的包示例对应的病理组织图像的信息，

表示第

个病理组织图像中第

个块标记，

，

表示实数，

表示块标记维度。

S1021b、将每个所述块标记转换为对应的二维图像，通过不同大小的卷积核对二维图像的空间信息进行动态编码。

在本步骤中，通过不同大小的卷积核对二维图像的空间信息进行动态编码，即卷积核根据不同的二维图像进行自适应选择。

S1021c、通过动态位置编码动态感知不同的包示例之间的相互关系，从而将不同的二维图像的信息融合在一起，以建立不同包示例之间的相关性分数，对应的相关性分数表示为：

其中，

表示相关性分数，

表示包示例，

表示包示例的相关性向量，

表示包示例的相关性向量的空间转置，

表示包示例的维度，用于防止输入的值过大，

表示知识蒸馏的温度，

表示包示例线性投影之后的其中一个分向量。

可以理解的，通过该计算可降低计算复杂度，满足多个令牌作为输入的情况，从全局视角准确刻画病理特征。

S1021d、根据各所述相关性分数，从全局视角刻画病理组织图像，将所述类标记与所述块标记进行连接，以构造得到全局特征。

另一方面，软注意力卷积运算编码的执行方法包括如下步骤：

S1022a、将所述病理组织图像中分割得到的包示例经过线性投影后生成块标记和类标记，其中所述块标记中带有包示例的病理信息。

S1022b、将每个所述块标记转换为对应的二维图像，使用3D卷积核对二维图像的病理特征信息进行编码，以得到特征向量

。

S1022c、将所述特征向量

输入至软注意力引导的多示例池化层中，以获取得到经软注意力加权后的特征图在不同维度上的多样化特征。

S1022d、基于所述多样化特征，继续捕捉所述病理组织图像中的关键视觉内容，以得到经软注意力加权的图像细节信息，根据所述经软注意力加权的图像细节信息构造得到局部特征。

具体的，将特征向量输入至软注意力引导的多示例池化层中，以获取得到经软注意力加权后的特征图在不同维度上的多样化特征的步骤中，对应有如下公式：

其中，

表示注意力分数，

表示加权系数，

表示3D权重的参数，

，

表示卷积核的高，

表示卷积核的宽，

表示卷积核的维度，

表示池化层的固定参数，

，

表示3D权重的参数最大值。

S103、构建嵌入式学习框架，基于嵌入式学习框架对第一Transformer网络与第二Transformer网络执行嵌入式互学习，以分别得到第一Transformer网络输出的全局特征以及第二Transformer网络输出的局部特征。

在具体实施例中，嵌入式互学习是指对第一Transformer网络与第二Transformer网络进行在线知识蒸馏。

具体的，执行嵌入式学习的方法包括如下步骤：

S1031、将包示例输入至第一Transformer网络与第二Transformer网络中进行互学习，利用第一Transformer网络与第二Transformer网络之间的互补性以挖掘得到隐含的病理知识。

其中，所述隐含的病理知识用于准确描述病理组织图像，以提升病理组织图像分类的精度。

S1032、将挖掘得到的隐含的病理知识，转移到自动融合模块中执行特征融合操作，并将融合后的特征反馈至第一Transformer网络与第二Transformer网络中；

S1033、在反馈了融合后的特征的第一Transformer网络、反馈了融合后的特征的第二Transformer网络以及自动融合模块之间建立在线嵌入式学习关系。

其中，通过执行嵌入式互学习，既可提高自动融合后的分类性能，也可促进第一Transformer网络和第二Transformer网络各自分类性能的提升。

在嵌入式互学习中，首先计算第一Transformer网络和第二Transformer网络的交叉熵损失。

其中，第一Transformer网络的交叉熵损失函数表示为：

其中，

表示第一Transformer网络的交叉熵损失函数，

表示图像标签，

表示对应的类别，

表示第k个块标记，

表示第一Transformer网络的概率输出，

表示知识蒸馏的温度，

表示块标记的最大数量，

表示类别的最大数量，

表示分类指标；

第二Transformer网络的交叉熵损失函数表示为：

其中，

表示第二Transformer网络的交叉熵损失函数，

表示第二Transformer网络的概率输出。

然后，计算第一Transformer网络与第二Transformer网络之间的第一KL散度值，具体表示为：

第一Transformer网络与第二Transformer网络之间的第二KL散度值表示为：

其中，

表示第一KL散度值，

表示第二KL散度值，

表示散度值的计算。

其中，

表示第一Transformer网络的logit输出，

表示第二Transformer网络的logit输出。

由于第一Transformer网络与第二Transformer网络输出的概率分布之间存在差异性，使用带温度T的 Softmax激活函数促进第一Transformer网络与第二Transformer网络之间的输出概率做互学习，挖掘两个网络间隐含的病理知识，以解决相同的病理图像分类任务，通过多轮迭代最终改善分类精度。

S104、构建自动融合模块，对第一Transformer网络输出的全局特征与第二Transformer网络输出的局部特征进行自动交互融合以得到融合后的特征。

在具体实施例中，自动融合模块先提取第一Transformer网络和第二Transformer网络的最后一层前馈网络的特征图，对这两个特征图执行自适应平均池化以匹配它们的大小。

具体过程：将第一Transformer网络和第二Transformer网络最后一个池化层输出的特征图的长度和宽度设置为 1，通过串联操作融合两个特征图，并实现 1×1 逐点卷积，将第一Transformer网络和第二Transformer网络输出的全局特征和局部特征进行自动融合。串联特征图的大小为

，这三个值分别表示通道的长度、宽度和数量。

其中，对第一Transformer网络输出的全局特征与第二Transformer网络输出的局部特征进行自动交互融合以得到融合后的特征的方法中，对应有如下公式：

其中，

表示特征图融合后的总通道数，

表示第一Transformer网络的通道数，

表示第二Transformer网络的通道数。

自动融合模块充分利用了来自不同网络的丰富的互补语义信息，包括病理图像的形状、颜色以及纹理等，融合后的特征能更好地刻画病理图像，为提升诊断精度奠定重要基础。

S105、将融合后的特征输入至Softmax分类器，以完成病理组织图像的分类诊断。

请参阅图4，本发明还提出一种多角度编码与嵌入式互学习的病理图像诊断系统，其中，所述系统包括：

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。