CN115294400B

CN115294400B - 图像分类模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN115294400B
Application number: CN202211013114.0A
Authority: CN
Inventors: 贾潇; 王子腾; 丁佳; 吕晨翀
Original assignee: Beijing Yizhun Medical AI Co Ltd
Current assignee: Zhejiang Yizhun Intelligent Technology Co ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2023-03-31
Anticipated expiration: 2042-08-23
Also published as: CN115294400A

Abstract

本公开提供了一种图像分类模型的训练方法、装置、电子设备及存储介质，包括：确认第一样本图像和第一掩码图像；基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器；将第二样本图像输入至第二编码器和全连接层分类器中，确认全连接层分类器的输出为第二样本图像的肺部预测分类结果；基于第二样本图像的肺部标注分类结果和第二样本图像的肺部预测分类结果调整全连接层分类器的参数，或者调整第二编码器和全连接层分类器的参数。

Description

图像分类模型的训练方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种图像分类模型的训练方法、装置、电子设备及存储介质。

背景技术

掩码自动编码器(MaskedAuto-Encoder，MAE)利用图像信息冗余性的特点，观察部分图像重建原始图像作为代理任务；MAE的编码器具备通过聚合上下文信息来推断被掩盖的图像区域内容的能力。这种上下文聚合能力在医学图像领域也是至关重要的，例如在胸部X射线(Chest X Ray，CXR)图像中，解剖结构(肋骨，肺野)在功能上和机械上都与其他结构和区域存在密不可分的联系；但直接将MAE应用于胸部X射线图像领域，由于掩码会将病灶区域遮蔽，对病灶区域进行重建时会造成模型训练过程的抖动，生成过程会产生歧义。

发明内容

本公开提供了一种图像分类模型的训练方法、装置、电子设备及存储介质，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供一种图像分类模型的训练方法，包括：

确认第一样本图像和所述第一样本图像对应的第一掩码图像；其中，所述第一掩码图像基于第一样本图像获得，所述第一掩码图像中肺野区域包括掩码；

基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器；

将第二样本图像输入至所述第二编码器和所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像的肺部预测分类结果；

基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述全连接层分类器，或者调整所述第二编码器和所述全连接层分类器的参数。

上述方案中，所述确认第一样本图像和所述第一样本图像对应的第一掩码图像，包括：

对所述第一样本图像进行分割，基于分割结果确定所述第一样本图像中肺野区域和非肺野区域；

基于掩码和/或第一补丁库中的子图像替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像。

上述方案中，所述基于掩码和/或第一补丁库中的子图像替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像，包括：

基于所述掩码替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像；所述第一掩码图像中肺野区域全部为掩码；

或者，基于所述掩码和所述第一补丁库中的子图像，替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像；所述第一掩码图像中肺野区域部分为掩码，部分为第一补丁库中的子图像。

上述方案中，所述基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器，包括：

将所述第一掩码图像输入至所述第一编码器中，确认所述第一编码器的输出为所述第一掩码图像对应的至少一张特征图像；

将所述至少一张特征图像输入至所述图像分类模型包括的解码器中，确认所述解码器的输出为所述第一掩码图像对应的第一重构图像；

基于所述第一重构图像和所述第一样本图像调整所述第一编码器的参数，确认调整参数后的第一编码器为第二编码器。

上述方案中，所述将第二样本图像输入至所述第二编码器和所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像的肺部预测分类结果，包括：

将所述第二样本图像输入至所述第二编码器中，确认所述第二编码器的输出为所述第二样本图像对应的特征；

将所述第二样本图像对应的特征输入至所述全连接层分类器中，确认所述全连接层分类器的输出，为所述第二样本图像的肺部预测分类结果；

其中，所述全连接层分类器包括全局平均池化层(Global Average Pooling，GAP)和第三全连接层(Multilayer Perceptron，MLP)。

上述方案中，所述基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述全连接层分类器，或者调整所述第二编码器和所述全连接层分类器的参数，包括：

基于所述肺部标注分类结果包括的各子分类结果的标识值，以及所述肺部预测分类结果中各子分类结果的概率值确定第二子损失值；

基于所述第二子损失值调整所述全连接层分类器的参数，或者调整所述第二编码器和所述全连接层分类器的参数。

根据本公开的第二方面，提供一种图像分类方法，基于上述第一方面训练得到的图像分类模型，所述方法包括：

将待分类肺部图像输入至所述图像分类模型包括的第二编码器中，确认所述第二编码器的输出为所述待分类肺部模型的特征；

将所述待分类肺部模型的特征输入至所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述待分类肺部图像的分类结果。

根据本公开的第三方面，提供一种图像分类模型的训练装置，包括：

分割单元，用于确认第一样本图像和所述第一样本图像对应的第一掩码图像；其中，所述第一掩码图像基于第一样本图像获得，所述第一掩码图像中肺野区域包括掩码；

第一调整单元，用于基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器；

分类单元，用于将第二样本图像输入至所述第二编码器和所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像的肺部预测分类结果；

第二调整单元，用于基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述全连接层分类器，或者调整所述第二编码器和所述全连接层分类器的参数。

根据本公开的第四方面，提供一种图像分类装置，包括：

输入单元，用于将待分类肺部图像输入至所述图像分类模型包括的第二编码器中，确认所述第二编码器的输出为所述待分类肺部模型的特征；

预测单元，用于将所述待分类肺部模型的特征输入至所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述待分类肺部图像的分类结果。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开的图像分类模型的训练方法，通过确认第一样本图像和所述第一样本图像对应的第一掩码图像；其中，所述第一掩码图像基于第一样本图像获得，所述第一掩码图像中肺野区域包括掩码；基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器；将第二样本图像输入至所述第二编码器和所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像的肺部预测分类结果；基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述全连接层分类器，或者调整所述第二编码器和所述全连接层分类器的参数；在训练过程中建立肺内肺外解剖结构之间的联系，以重建健康肺内组织为代理任务使其编码器能更好地了解胸片结构组织、上下文之间的关系，并在下游肺部分类任务中取得更好的性能。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了相关技术中MAE的结构示意图；

图2示出了本公开实施例提供的图像分类模型的训练方法的一种可选流程示意图；

图3示出了本公开实施例提供的图像分类模型的训练方法的另一种可选流程示意图；

图4示出了本公开实施例提供的肺野分割的示意图；

图5示出了本公开实施例提供的图像的划分示意；

图6示出了本公开实施例提供的确认第一掩码图像的可选示意图；

图7示出了本公开实施例提供的图像分类模型的一种可选示意图；

图8示出了本公开实施例提供的图像分类模型的另一种可选示意图；

图9示出了本公开实施例提供的图像分类方法的可选流程示意图；

图10示出了本公开实施例提供的图像分类模型的训练装置的可选结构示意图；

图11示出了本公开实施例提供的图像分类装置的可选结构示意图；

图12示出了本公开实施例一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

变换器(Transformer)由于自注意力机制能够建立长距离对象间的关系被广泛应用于自然语言处理领域。在计算机视觉领域，视觉变换器(VisionTransformer，ViT)通过将输入图像分为多个块(Patch)，如16*16，再将每个patch投影为固定长度的向量送入Transformer。在拥有足够多的数据进行预训练的时候，ViT的表现就会超过卷积神经网络，突破其缺少归纳偏置的限制，可以在下游任务中获得较好的迁移效果。

图1示出了相关技术中MAE的结构示意图。

掩码自动编码器被证明在预训练自然图像分析的ViT方面是有效的。如图1所示，MAE利用图像信息冗余性的特点，观察部分图像重建原始图像作为代理任务，MAE的编码器具备通过聚合上下文信息来推断被掩盖的图像区域内容的能力。这种上下文聚合能力在医学图像领域也是至关重要的，例如在胸部X射线图像中，解剖结构(肋骨，肺野)在功能上和机械上都与其他结构和区域存在密不可分的联系。

MAE应用在胸部X射线图像分析任务中，通过随机掩盖掉75％图像块的掩码策略对输入图像进行重建，训练完成的MAE的编码器在下游的胸部X射线多标签疾病诊断任务中取得了较高的性能。

但是，直接将MAE迁移到胸部X射线图像领域，没有结合胸部X射线图像的领域知识，如肺野内区域可能会存在病灶，若掩码时将病灶区域遮蔽在对病灶区域进行重建会造成模型训练过程的抖动，生成过程产生歧义等问题。

针对相关技术中存在的缺陷，本公开提供一种图像分类模型的训练方法，通过在健康胸片数据集上进行预训练的方式，避免病灶出现导致的重建抖动问题。本公开实施例提供的cxrMAE(基于肺野区域掩码方式的胸部X射线疾病诊断模型的预训练方法，即图像分类模型的训练方法)可以通过建立肺内肺外解剖结构间的联系，以重建健康肺内组织为代理任务使编码器能更好地了解胸片结构组织和上下文之间的关系，并在下游胸部疾病多标签分类任务中取得更好的性能。

图2示出了本公开实施例提供的图像分类模型的训练方法的一种可选流程示意图，将根据各个步骤进行说明。

步骤S101，确认第一样本图像和所述第一样本图像对应的第一掩码图像。

在一些实施例中，图像分类模型的训练装置(以下简称第一装置)确认第一样本图像和第一样本图像对应的第一掩码图像；所述第一样本图像可以是健康的(无病变)的胸部X射线图像；所述第一掩码图像基于第一样本图像获得，所述第一掩码图像中肺野区域包括掩码。

具体实施时，所述第一装置可以对所述第一样本图像进行分割，基于分割结果确定所述第一样本图像中肺野区域和非肺野区域；可选的，所述第一装置可以将所述第一样本图像输入至训练好的肺野分割模型(UNet)中，得到第一掩码图像。然后，基于掩码替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像；或者，基于掩码和第一补丁库中的子图像替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像。其中，所述第一补丁库包括至少一张健康的胸部X射线图像，以及基于所述至少一张健康的胸部X射线图像分割得到的多张子图像。

具体的，若所述第一装置基于掩码替换所述第一样本图像的肺野区域，则所述第一样本图像的肺野区域全部替换为掩码，非肺野区域不进行任何处理，确认肺野区域为掩码的图像为第一掩码图像。

或者，若所述第一装置基于掩码和第一补丁库中的子图像替换所述第一样本图像的肺野区域，则确认非肺野区域和肺野区域后，基于掩码填充肺野区域；此时肺野区域不包含任何信息；所述第一装置可以通过第一补丁库中的子图像随机替换所述第一样本图像中的肺野区域的掩码，需要说明的是，替换时子图像的结构或位置需要与肺野区域被替换的掩码的结构和位置相对应；具体的，掩码的结构和位置可以是掩码对应的原肺野区域的结构和位置。

在一些可选实施例中，所述第一装置对所述掩码填充肺野区域后的图像进行划分，确认至少一个子图像(patch)，确认所述至少一个子图像中不包含任何信息(即像素和为0)的子图像，组成第一子图像集合；对第一子图像集合中的全部子图像进行编号并打乱顺序，取出打乱顺序后的前第一阈值个子图像，从第一补丁库中获取与所述前第一阈值个子图像位置或编号相同的子图像，用第一补丁库中的子图像替换前第一阈值个子图像，替换后的图像为所述第一掩码图像。其中，所述第一阈值可以根据实际需求或实验结果设置。

基于掩码和第一补丁库中的子图像生成第一掩码图像，相较于直接用掩码替换肺野区域生成第一掩码图像，在不引入额外标注的前提下，为预训练任务提供了额外的辅助信息，可以加快第一编码器的收敛速度，帮助cxrMAE模型(第一编码器)更好得填充原始胸片中的肺野区域。利用第一补丁库中的子图像替换部分掩码图像的方式建立了不同健康胸片之间的关联，更好得学习健康胸片所共有的结构组织信息，以此作为一个泛化性能更好的健康胸片肺野组织结构的先验知识模型，应用于下游图像分类任务中。对同一张健康胸片，通过替换不同的掩码图像可以得到多种可能的潜空间特征向量与填充结果。

进一步，所述第一装置可以获取训练集中全部样本图像对应的掩码图像，由于每一张样本图像的肺野区域的大小不一致，因此选择掩码图像作为图像分类模型的输入；相应的，训练集中的样本图像均为健康的胸部X射线图像。

步骤S102，基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器。

在一些实施例中，所述第一装置将所述第一掩码图像输入至所述第一编码器中，确认所述第一编码器的输出为所述第一掩码图像对应的至少一张特征图像；将所述至少一张特征图像输入至所述解码器中，确认所述解码器的输出为所述第一掩码图像对应的第一重构图像；基于所述第一重构图像和所述第一样本图像调整所述第一编码器的参数，确认调整参数后的第一编码器为第二编码器。

在一些实施例中，所述图像分类模型还可以包括第一全连接层和第二全连接层，所述第一全连接层位于所述第一编码器之前，用于对第一掩码图像分割后的分割图像进行维度转换，所述第二全连接层位于解码器之后，用于对解码器输出的重构子图像进行维度转换。

具体实施时，所述第一装置将所述第一掩码图像分割为至少一个分割图像，此时所述分割图像的维度为m*n，然后将所述至少一个分割图像输入至图像分类模型包括的第一全连接层进行维度转换；其中，每一张分割图像均不交叠，每一张分割图像的大小均相同，全部分割图像的面积之和等于所述第一掩码图像的面积。进一步，所述第一装置将维度转换后的所述第一掩码图像对应的至少一张分割图像输入至所述第一编码器中，确定所述第一编码器的输出为所述获得所述第一掩码图像对应的至少一张特征图像；可选的，所述特征图像的数量可以与所述分割图像的数量相同，也可以与所述分割图像的数量不同；所述分割图像与至少一张特征图像相对应，所述至少一张特征图像的维度与维度转换后的至少一个分割图像的维度相同。然后，所述第一装置将所述第一掩码图像对应的至少一张特征图像输入至所述解码器中，确定所述解码器的输出为至少一张重构子图像；其中，重构子图像的数量与所述分割图像的数量相同，重构子图像的大小与所述分割图像的大小相同；所述装置将所述至少一张重构子图像输入至第二全连接层中，确认所述第二全连接层的输出为第一重构图像。

每一张重构子图像均有唯一一张与其对应的分割图像，它们在第一重构图像或第一掩码图像中的位置相对应，例如第一重构图像中第a行第b列的重构子图像与第一掩码图像中第a行第b列的分割图像相对应，其大小、尺寸完全相同，特征相似或相同。

在一些实施例中，所述第一装置确认位置相同的重构子图像和分割图像之间的欧式距离的平方之和，为所述第一子损失值；所述第一重构图像对应的至少一张重构子图像的数量与所述第一样本图像对应的至少一张分割图像的数量相同。

具体的，所述位置相同可以包括第一重构图像中第a行第b列的重构子图像与第一掩码图像中第a行第b列的分割图像的位置相同，可以将第一重构图像和第一掩码图像中位置相同的重构子图像和分割图像设置为图像对，计算每一对图像对之间欧式距离(L2距离)的平方，再对全部图像对之间的欧氏距离的平方进行求和，确认求和结果为所述第一子损失值。

在一些可选实施例中，基于所述第一子损失值调整所述第一编码器和/或解码器的参数之后，所述第一装置还可以重复执行步骤S101至步骤S102，即重复训练所述第一编码器和/或解码器，直至子损失值满足第一条件，确认所述第一编码器训练完成，确认训练完成的第一编码器为第二编码器。其中，所述第一条件可以是所述子损失值小于预设阈值，或所述子损失值收敛，或者其他基于实际需求或实验结果设置的条件，本公开不做具体限制。

步骤S103，将第二样本图像输入至所述第二编码器和所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像的肺部预测分类结果。

在一些实施例中，所述全连接层分类器包括全局平均池化层和第三全连接层；所述第一装置将所述第二样本图像输入至所述第二编码器中，确认所述第二编码器的输出为所述第二样本图像对应的特征；将所述第二样本图像对应的特征输入至所述全连接层分类器中，确认所述全连接层分类器的输出，为所述第二样本图像的肺部预测分类结果。

步骤S104，基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述全连接层分类器的参数，或者调整所述第二编码器和所述全连接层分类器的参数。

在一些实施例中，所述第一装置基于所述肺部标注分类结果包括的各子分类结果的标识值，以及所述肺部预测分类结果中各子分类结果的概率值确定第二子损失值；基于所述第二子损失值调整所述全连接层分类器，或者调整所述第二编码器和所述全连接层分类器的参数。

在一些可选实施例中，所述肺部标注分类结果包括各子分类结果的标识值，可以通过0和1表示，0表示没有该类病种(子分类结果)，1表示有该类病种(子分类结果)。例如，所述肺部标注分类结果可以为1维向量，其中包括元素的个数为子分类结果(病种)的总数，通过1或0表示是否有对应的病种。

在进行训练时，可以采用固定编码器权重或不固定编码器权重两种方式；其中，固定编码器权重就是指不更新第二编码器的参数，依据第二子损失值调整全连接层分类器的参数；不固定编码器权重指更新第二编码器和全连接层分类器的参数。

在一些可选实施例中，基于所述第二子损失值调整所述全连接层分类器，或者调整所述第二编码器和所述全连接层分类器的参数之后，所述第一装置还可以重复执行步骤S103至步骤S104，即重复训练所述全连接层分类器，或者第二编码器和所述全连接层分类器，直至子损失值满足第二条件，确认所述全连接层分类器，或者第二编码器和所述全连接层分类器训练完成。其中，所述第二条件可以是所述子损失值小于预设阈值，或所述子损失值收敛，或者其他基于实际需求或实验结果设置的条件，本公开不做具体限制。

如此，本公开提供的图像分类模型的训练方法，充分利用胸部X射线图像的特点(肺野区域可能含有病灶，健康胸片(胸部X射线图像)中存在结构一致性的特点)，通过对去除掉肺野区域的胸片重建的代理任务，预训练ViT模型(第一编码器和解码器组成)，使得模型能够学习正常胸片内部的结构和组织；也使得不依赖大量数据的情况下，得到一个较好的模型初始化权重(得到调整参数后的第一编码器，即第二编码器)，并在此权重以及ViT模型了解肺部的结构和组织的基础上对胸部X射线图像分类(胸片疾病诊断)任务进行微调，使得原有ViT模型可以得到更好的分类性能；区别以往的掩码自编码器，并没有采用随机或块状掩码的方式对样本图像进行处理，而是基于分割的方式将肺野区域分割出来并进行掩码，即掩码的图形与肺野区域完全相同。

图3示出了本公开实施例提供的图像分类模型的训练方法的另一种可选流程示意图，将根据各个步骤进行说明。

步骤S201，获取训练集。

在一些实施例中，第一装置可以基于训练好的肺野分割模型对样本图像进行处理，得到样本图像的肺野区域并基于掩码替换所述肺野区域得到掩码区域；对应的还可以得样本图像中非掩码区域，将肺野区域的掩码区域和非掩码区域进行组合，得到掩码图像；或者还可以基于肺野分割模型对样本图像进行处理后，得到肺野区域，基于掩码对所述肺野区域进行处理，确认处理后的图像为掩码图像。

图4示出了本公开实施例提供的肺野分割的示意图。

如图4所示，将样本图像输入至肺野分割模型，得到的肺野分割模型的输出中，肺野区域通过掩码表示，非肺野区域则正常表示。并且，掩码区域的形状与肺野区域的形状完全相同。

在另一些实施例中，所述第一装置还可以对上述掩码图像(肺野区域全部为掩码)进行分割操作，划分为形状、大小一致的多个子图像。

图5示出了本公开实施例提供的图像的划分示意。如图5所示，将图像划分为形状、大小一致的16个子图像(patch)；需要理解图5仅为示意，在实施时，可以将掩码图像划分为大于16个子图像，使得肺野区域(掩码)可以划分为多个子图像，便于后期基于第一补丁库中的子图像进行替换。

图6示出了本公开实施例提供的确认第一掩码图像的可选示意图。

在一些实施例中，所述装置分割出肺野区域并将全部肺野区域替换为掩码，得到掩码图像后，将所述掩码图像划分为至少一个子图像，并基于第一补丁库中的子图像替换掩码图像中属于肺野区域的子图像，替换后得到第一掩码图像。

具体的，在替换时可以采用随机替换的方式，也可以预先确认掩码图像中不包含任何信息(即像素和为0)的子图像(patch)，将像素和为0的子图像的索引号信息(index)记录在一个列表中，将所述列表中子图像的索引号信息的顺序打乱，取出前

(即第一阈值)的索引号信息(其中λ为大于1的整数，可以设置为2、3等，本公开中选取2)，基于第一补丁库中的子图像替换掩码图像中前/>

的索引号信息对应的子图像；可选的，将第一补丁库中的图像参考掩码图像的方式进行分割并标记索引号信息，基于索引号信息进行替换(如基于第一补丁库中索引号编号为1的子图像替换掩码图像中索引号编号为1的子图像)，生成第一掩码图像后，基于第一掩码图像对第一编码器进行训练。其中，List_index表征掩码像素和为0的子图像的索引号信息(index)的列表，len(List_index)表征掩码像素和为0的子图像的索引号信息(index)的列表的长度。

具体的，所述第一补丁库中的图像为至少一张健康的胸部X射线图像；第一补丁库中的子图像可以第一补丁库中任一张健康的胸部X射线图像按照掩码图像的分割方式进行分割后，得到的子图像(如掩码图像按照20*30进行分割，则所述健康的胸部X射线图像也按照20*30进行分割)。

在替换时，第一补丁库中的子图像只替换掩码图像中像素和为0的子图像，如图6所示，对于像素和不为0(全部为非肺野区域或者部分为肺野区域部分为非肺野区域)的子图像不进行替换。

如图6所示，左边图像为输入的第一样本图像(健康的胸部X射线图像)，右边图像为基于掩码替换肺野区域并利用healthypatch(第一补丁库中的子图像)替代1/2的maskpatch(掩码区域的子图像)后的补充结果，对比两张图像，可以发现具有相同索引号信息的子图像之间具有相似的胸部结构组织，例如，左图和右图中的1号patch均包含锁骨与肋骨结构，2号patch均包含肋骨结构，3号patch均包含肺门与肋骨结构组织。

如此，基于掩码和第一补丁库中的子图像生成第一掩码图像，相较于直接用掩码替换肺野区域生成第一掩码图像，在不引入额外标注的前提下，为预训练任务提供了额外的辅助信息，加快模型的收敛速度，帮助cxrMAE模型(第一编码器)更好得填充原始胸片中的肺野区域。利用第一补丁库中的子图像替换部分掩码图像的方式建立了不同健康胸片之间的关联，更好得学习健康胸片所共有的结构组织信息，以此作为一个泛化性能更好的健康胸片肺野组织结构的先验知识模型，应用于下游任务中。对同一张健康胸片，通过替换不同的掩码图像可以得到多种可能的潜空间特征向量与填充结果。

在一些实施例中，每张样本图像的肺野区域大小不一致因此将掩码区域与非掩码区域共同输入到cxrMAE(图像分类模型)中进行特征提取。

获取训练集之后，基于训练集中的图像对第一编码器进行训练，得到第一编码器的预训练权重(即第二编码器和/或第二编码器的参数)；然后本公开提出了一种新的基于模型交叉注意力机制的图像分类模型的训练方法，利用cxrMAE中的健康胸片编码器(第二编码器)模型对输入的胸片输出的可能的健康胸部结构的特征向量，作为图像分类模型的参考，利用健康特征与原始特征之间的差异部分，挖掘出输入图像中潜在病灶区域的特征，并通过对差异部分的特征增强，提高图像分类模型的分类性能。

步骤S202，训练第一编码器。

图7示出了本公开实施例提供的图像分类模型的一种可选示意图。如图7所示，所述图像分类模型包括第一编码器和解码器。

在一些实施例中，如图7所示，第一装置将肺野区域被遮蔽的胸片图像(即第一掩码图像)按照预先设置好的图像块大小(patch size)不交叠地划分成图像块(分割图像)，图像块(分割图像)的数量数为输入图像的大小除以图像块的大小。划分好的多个图像块先经过第一全连接层(patchembeddinglayer)进行维度转换，将多个图像块的维度从m*n转换为1*(m*n)。接着将各图像块输入到第一编码器中，所述第一编码器可以选择ViT-Base或ViT-Large，第一编码器输出的至少一张特征图像经过层归一化后输入到解码器中，最终经过第二全连接层对第一样本图像的各图像块中的像素值进行回归，重建得到第一重构图像。

第一编码器对应的第一子损失值为带有掩码的图像块重建前后的L2距离的平方，具体计算公式为：

其中N为第一掩码图像被分割的图像块总数，P_i,pred为第一重构图像的第i个图像块(如第a行第b列的图像块)，P_i,target为第一样本图像的第i个图像块(如第a行第b列的图像块)。

基于所述第一子损失值调整所述第一编码器和/或解码器的参数，所述第一装置还可以重复执行步骤S202，即重复训练所述第一编码器和/或解码器，直至子损失值满足第一条件，确认所述第一编码器训练完成，确认训练完成的第一编码器为第二编码器。其中，所述第一条件可以是所述子损失值小于预设阈值，或所述子损失值收敛，或者其他基于实际需求或实验结果设置的条件，本公开不做具体限制。

步骤S203，训练第二编码器，或者训练第二编码器和全连接层分类器。

图8示出了本公开实施例提供的图像分类模型的另一种可选示意图。如图8所示，所述图像分类模型包括第一编码器和全连接层分类器。

将第二编码器应用于图像分类任务(胸片多病种分类任务)中，采用固定编码器权重或不固定编码器权重两种方式；其中，固定编码器权重就是指在下游图像分类任务中，梯度反传时不更新第二编码器的参数，依据第二子损失值调整全连接层分类器的参数；不固定编码器权重指在下游图像分类任务中，梯度反传时更新第二编码器和全连接层分类器的参数。无论采用固定编码器权重还是不固定编码器权重训练结果均优于ImageNet分类预训练得到的预训练权重

具体实施时，所述第一装置将所述第二样本图像输入至所述第二编码器中，确认所述第二编码器的输出为所述第二样本图像对应的特征；将所述第二样本图像对应的特征输入至所述全连接层分类器中，确认所述全连接层分类器的输出，为所述第二样本图像的肺部预测分类结果。

进一步，所述第一装置基于所述肺部标注分类结果包括的各子分类结果的标识值，以及所述肺部预测分类结果中各子分类结果的概率值确定第二子损失值(Lcls)，具体可以通过下式确定：

其中M为病种(子分类结果)数量，I_input为输入图像(第二样本图像)，p(i|I_input)为图像分类模型给出第二样本图像含有第j类病种的概率值，l_j为第二样本图像是否含有第j类病种(第j种子分类结果)的标签(标识值)，为0或1，0表示第j类病种不出现在第二样本图像上，1表示第j类病种出现在第二样本图像上。

在一些可选实施例中，基于所述第二子损失值调整所述全连接层分类器，或者调整所述第二编码器和所述全连接层分类器的参数之后，所述第一装置还可以重复执行步骤S203，即重复训练所述全连接层分类器，或者第二编码器和所述全连接层分类器，直至子损失值满足第二条件，确认所述全连接层分类器，或者第二编码器和所述全连接层分类器训练完成。其中，所述第二条件可以是所述子损失值小于预设阈值，或所述子损失值收敛，或者其他基于实际需求或实验结果设置的条件，本公开不做具体限制。

如此，本公开提供的图像分类模型的训练方法，充分利用胸部X射线图像的特点(肺野区域可能含有病灶，健康胸片(胸部X射线图像)中存在结构一致性的特点)，通过对去除掉肺野区域的胸片重建的代理任务，预训练ViT模型(第一编码器和解码器组成)，使得模型能够学习正常胸片内部的结构和组织；也使得不依赖大量数据的情况下，得到一个较好的模型初始化权重(得到调整参数的第一编码器，即第二编码器)，并在此权重以及ViT模型了解肺部的结构和组织的基础上对胸部X射线图像分类(胸片疾病诊断)任务进行微调，使得原有ViT模型可以得到更好的分类性能；区别以往的掩码自编码器，并没有采用随机或块状掩码的方式对样本图像进行处理，而是基于分割的方式将肺野区域分割出来并进行掩码，即掩码的图形与肺野区域完全相同。

图9示出了本公开实施例提供的图像分类方法的可选流程示意图，将根据各个步骤进行说明。

步骤S301，将待分类肺部图像输入至所述图像分类模型包括的第二编码器中，确认所述第二编码器的输出为所述待分类肺部模型的特征。

在一些实施例中，图像分类模型为基于步骤S101至步骤S104，或者步骤S201至步骤S203训练完成的图像分类模型。

在一些实施例中，待分类肺部图像可以是待分类的胸部X射线图像；图像分类装置将待分类肺部图像输入至所述图像分类模型包括的第二编码器中，确认所述第二编码器的输出为所述待分类肺部模型的特征。

在一些实施例中，所述第二编码器的参数可以是经过步骤S101至步骤S102训练得到的第二编码器的参数(即采用固定编码器权重训练图像分类模型)，也可以是基于步骤S101至步骤S104，采用不固定编码器权重训练并更新的第二编码器的参数。

步骤S302，将所述待分类肺部模型的特征输入至所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述待分类肺部图像的分类结果。

在一些实施例中，图像分类装置将所述待分类肺部模型的特征输入至所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述待分类肺部图像的分类结果；其中，所述分类结果可以包括所述待分类肺部图像对应各子分类结果(病种)的概率。

如此，通过本公开实施例提供的图像分类方法，基于图像分类模型进行分类，得到的结果的准确性更高。

图10示出了本公开实施例提供的图像分类模型的训练装置的可选结构示意图，将根据各个部分进行说明。

在一些实施例中，图像分类模型的训练装置400包括分割单元401、第一调整单元402、分类单元403和第二调整单元404。

所述分割单元401，用于确认第一样本图像和所述第一样本图像对应的第一掩码图像；其中，所述第一掩码图像基于第一样本图像获得，所述第一掩码图像中肺野区域为掩码；

所述第一调整单元402，用于基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器；

所述分类单元403，用于将第二样本图像输入至所述第二编码器和所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像的肺部预测分类结果；

所述第二调整单元404，用于基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述全连接层分类器，或者调整所述第二编码器和所述全连接层分类器的参数。

所述分割单元401，具体用于对所述第一样本图像进行分割，基于分割结果确定所述第一样本图像中肺野区域和非肺野区域；

基于掩码替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像。

所述第一调整单元402，具体用于将所述第一掩码图像输入至所述第一编码器中，确认所述第一编码器的输出为所述第一掩码图像对应的至少一张特征图像；

将所述至少一张特征图像输入至所述解码器中，确认所述解码器的输出为所述第一掩码图像对应的第一重构图像。

所述第一调整单元402，具体用于将所述第一掩码图像输入至图像分类模型包括的第一全连接层，确定所述第一全连接层的输出为所述第一掩码图像对应的至少一张分割图像；

将所述第一掩码图像对应的至少一张分割图像输入至所述第一编码器中，确定所述第一编码器的输出为所述获得所述第一掩码图像对应的至少一张特征图像；

将所述第一掩码图像对应的至少一张特征图像输入至所述解码器中，确定所述解码器的输出为至少一张重构子图像；

将所述至少一张重构子图像输入至第二全连接层中，确认所述第二全连接层的输出为第一重构图像。

所述第一调整单元402，具体用于确认位置相同的重构子图像和分割图像之间的欧式距离的平方之和，为所述第一子损失值；

所述第一重构图像对应的至少一张重构子图像的数量与所述第一样本图像对应的至少一张分割图像的数量相同。

所述分类单元403，具体用于将所述第二样本图像输入至所述第二编码器中，确认所述第二编码器的输出为所述第二样本图像对应的特征；

其中，所述全连接层分类器包括全局平均池化层和第三全连接层。

所述第二调整单元404，具体用于基于所述肺部标注分类结果包括的各子分类结果的标识值，以及所述肺部预测分类结果中各子分类结果的概率值确定第二子损失值；

图11示出了本公开实施例提供的图像分类装置的可选结构示意图，将根据各个部分进行说明。

在一些实施例中，图像分类装置500包括输入单元501和预测单元502。

所述输入单元501，用于将待分类肺部图像输入至所述图像分类模型包括的第二编码器中，确认所述第二编码器的输出为所述待分类肺部模型的特征；

所述预测单元502，用于将所述待分类肺部模型的特征输入至所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述待分类肺部图像的分类结果。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图12示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图像分类模型的训练方法和/或图像分类方法。例如，在一些实施例中，图像分类模型的训练方法和/或图像分类方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的图像分类模型的训练方法和/或图像分类方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像分类模型的训练方法和/或图像分类方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像分类模型的训练方法，其特征在于，所述方法包括：

基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述全连接层分类器，或者调整所述第二编码器和所述全连接层分类器的参数；

其中，所述第一样本图像包括健康的胸部X射线图像，所述确认第一样本图像和所述第一样本图像对应的第一掩码图像，包括：

对所述第一样本图像进行分割，基于分割结果确定所述第一样本图像中肺野区域和非肺野区域；基于掩码替换所述第一样本图像的肺野区域，或者基于掩码和第一补丁库中的子图像替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像；所述第一补丁库包括至少一张健康的胸部X射线图像，以及基于所述至少一张健康的胸部X射线图像分割得到的多张子图像。

2.根据权利要求1所述的方法，其特征在于，

若基于所述掩码替换所述第一样本图像的肺野区域，则所述第一掩码图像中肺野区域全部为掩码；

或者，若基于所述掩码和所述第一补丁库中的子图像，则所述第一掩码图像中肺野区域部分为掩码，部分为第一补丁库中的子图像。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器，包括：

4.根据权利要求1所述的方法，其特征在于，所述将第二样本图像输入至所述第二编码器和所述图像分类模型包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像的肺部预测分类结果，包括：

其中，所述全连接层分类器包括全局平均池化层GAP和第三全连接层MLP。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述全连接层分类器的参数，或者调整所述第二编码器和所述全连接层分类器的参数，包括：

6.一种图像分类方法，其特征在于，应用基于上述权利要求1至5训练得到的图像分类模型，所述方法包括：

7.一种图像分类模型的训练装置，其特征在于，所述装置包括：

第二调整单元，用于基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述全连接层分类器，或者调整所述第二编码器和所述全连接层分类器的参数；

所述第一样本图像包括健康的胸部X射线图像，所述分割单元，具体用于对所述第一样本图像进行分割，基于分割结果确定所述第一样本图像中肺野区域和非肺野区域；基于掩码替换所述第一样本图像的肺野区域，或者基于掩码和第一补丁库中的子图像替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像；所述第一补丁库包括至少一张健康的胸部X射线图像，以及基于所述至少一张健康的胸部X射线图像分割得到的多张子图像。

8.一种图像分类装置，其特征在于，应用基于上述权利要求1至5训练得到的图像分类模型，所述装置包括：

9. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法；

或者，执行权利要求6所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法；

或者，执行权利要求6所述的方法。