CN115359304B

CN115359304B - 一种面向单幅图像特征分组的因果不变性学习方法及系统

Info

Publication number: CN115359304B
Application number: CN202211263756.6A
Authority: CN
Inventors: 宁阳; 聂秀山; 李成龙; 郭杰; 刘培德; 张云峰; 张彩明
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-02-21
Anticipated expiration: 2042-10-17
Also published as: CN115359304A

Abstract

本发明公开了一种面向单幅图像特征分组的因果不变性学习方法及系统，属于鲁棒图像分类系统技术领域。本发明通过对单幅图像的跨尺度特征进行分组来构造具有明确划分标准的环境分组，在高质量标注数据不足且无法确定多环境划分标准的复杂开放场景下学习数据稳健的因果不变性，以实现鲁棒的图像识别和分类。解决了现有技术中存在“进行图像分类依赖于高质量标记数据，无法应对复杂开放场景，识别、分类准确率低”的问题。

Description

一种面向单幅图像特征分组的因果不变性学习方法及系统

技术领域

本申请涉及鲁棒图像分类系统技术领域，特别是涉及一种面向单幅图像特征分组的因果不变性学习方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。随着机器学习技术的飞速发展，虽然传统机器学习方法在面对满足独立同分布假设的测试数据时可以获得较好的预测性能，但如果数据存在一定偏差（采集偏差、选择性偏差、混淆偏差等），其性能将大打折扣，究其原因是传统机器学习方法无法对数据的关联性和不变性进行有效区分。考虑到不变风险最小化IRM（Invariant Risk Minimization）方法能学习数据的因果不变性并有效提升模型在数据存在偏差时的分布外泛化性能，其作为一种新的研究范式自2019年被提出以来便备受学界关注。IRM可以从数学方面推导出物体的真正特征与其标签分布的内在因果关系，既不变性。通过将IRM跟机器学习进行结合，不仅可以有效提高模型的可解释性，而且能从根本上解决分布外泛化问题。

然而，IRM需要假设数据是由多个环境构成的，并且需要提前对这些环境进行标注。显然这对于一些现实任务无法轻易实现。首先，环境的划分通常需要借助多样化的标注图像，然而一些领域的高质量标注图像非常稀缺（如医学影像分析领域），并且对其进行标注通常费时费力而且还需要一定的专业知识；其次，对于一些开放场景下的复杂数据集，我们可能无法轻易确定多环境的划分标准是什么。面对上述挑战，虽然一些方法借助对抗学习来自动实现数据的环境划分，但此类方法的工作前提是假设数据集存在一个较完美的环境划分，一旦不满足此假设，其很难学习到具有真正因果不变性的特征表示。另外，此类方法必须依赖多张图像来实现数据的环境划分，因此其并没有从根本上解决某些领域高质量标注数据稀缺的现实问题。

基于上述分析，虽然IRM方法能在满足基本假设且数据标注完善的情况下获得比传统的经验风险最小化方法更鲁棒的分布外泛化能力，但其可能无法在一些开放场景下获得令人满意的性能，甚至无法轻易实施。因此，如何基于IRM构造一种更有效的方法来应对上述开放场景，正变得越来越重要并逐渐成为当今鲁棒图像识别和分类领域最前沿的研究方向之一。

发明内容

为了解决现有技术的不足，本申请提供了一种面向单幅图像特征分组的因果不变性学习方法及系统，通过对单幅图像的跨尺度特征进行分组来构造具有明确划分标准的环境分组，在高质量标注数据不足且无法确定多环境划分标准的复杂开放场景下学习数据稳健的因果不变性，以实现鲁棒的图像识别和分类。

第一方面，本申请提供了一种面向单幅图像特征分组的因果不变性学习方法；

一种面向单幅图像特征分组的因果不变性学习方法，包括：

构建鲁棒分类模型，具体为：

获取分类数据集并进行数据预处理；

针对数据预处理后的分类数据集，基于卷积神经网络，构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取，构造特征分组；以及，

针对特征分组，计算经验风险最小化损失、不变风险最小化损失和对比损失，使用复合损失函数对网络进行训练获得网络模型；

针对待分类图像，利用鲁棒分类模型输出分类结果。

通过采用上述技术方案，通过对单张图像的多尺度特征进行分组来模拟环境分组，从而使模型摆脱对高质量标注数据的依赖；通过跨尺度空间和通道注意力机制生成相似但具有不同语义的特征表示，通过对不同语义进行区分来对跨尺度特征进行分组以实现环境划分，有效提升模型的分布外泛化能力，实现鲁棒的图像识别和分类。

进一步的，对分类数据集进行数据预处理包括：

对分类数据集中的图像进行尺寸一致化处理，再进行归一化操作；

对归一化操作后的图像进行随机数据增强。

通过采用上述技术方案，由于原始的分类数据集中可能存在图像分辨率过大以及尺寸不一致的情况，不利于网络进行学习；因此，对数据进行尺寸一致化、归一化、随机数据增强，保证数据之间的平衡。

进一步的，基于卷积神经网络，构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取包括：

根据预处理后数据集的属性和待处理单幅图像的尺寸，确定特征提取深度，根据特征提取深度，基于卷积神经网络，提取单幅图像的多尺度特征；

基于多尺度特征，分组获取跨尺度特征组合；

构造跨尺度空间注意力机制，将跨尺度特征组合中的特征表示分别作为跨尺度输入和主输入，获取基于空间维度的跨尺度增强特征；

构造跨尺度通道注意力机制，将跨尺度特征组合中的特征表示分别作为主输入和跨尺度输入，获取基于通道维度的跨尺度增强特征。

通过采用上述技术方案，构造跨尺度注意力机制，以跨尺度特征图作为输入，具有一定的多尺度表示能力，基于通道维度的跨尺度增强特征和基于空间维度的跨尺度增强特征具有显著的区分性，

进一步的，在提取跨尺度增强特征之后，构造特征分组之前还包括：

对提取的跨尺度增强特征进行重采样操作。

通过采用上述技术方案，由于上述不同组的跨尺度增强特征具有不同的分辨率，因此为了能构造有意义的环境划分，需要对上述具有不同分辨率的跨尺度增强特征进行分辨率一致化操作。

进一步的，根据特征提取深度，确定基准分辨率；

根据基准分辨率，对低于基准分辨率的跨尺度增强特征进行上采样操作，对高于基准分辨率的跨尺度增强特征进行下采样操作。

通过采用上述技术方案，通过采用两端向中间重采样的方式来实现分辨率一致化操作，尽可能降低图像空间信息的丢失。

进一步的，对跨尺度特征进行循环处理，构造两个特征分组，对特征分组进行对比损失最大化以使它们具有不同的语义。

通过采用上述技术方案，通过对不同语义进行区分来对跨尺度特征进行分组以实现有意义的环境划分，使模型在满足IRM基本假设的前提下获得鲁棒的不变特征表示，从而有效提升模型的分布外泛化能力。

进一步的，最小化经验风险最小损失以诱导网络模型学习数据的相关性，最小化不变风险最小化损失以诱导模型学习数据的因果不变性，加权最大化对比损失以迫使特征分组在相似的基础上具有不同的语义。

进一步的，经验风险最小化损失定义为：

其中，

为在环境

下的经验风险，

为训练集中的环境划分，

为特征表示器；

不变风险最小化损失定义为：

其中，

为最优分类器，

为在环境

下的经验风险；

对比损失被定义为：

其中，

表示对比样本，

表示正样本，

表示负样本，

表示负样本数量。

进一步的，构建鲁棒分类模型还包括：

将待预测的图像数据输入已训练好的网络模型进行预测得到分类结果。

通过采用上述技术方案，构建的鲁棒分类模型将具有因果不变性的不变特征用于鲁棒图像识别和分类，提高了鲁棒分类模型的分布外泛化性能。

第二方面，本申请提供了一种面向单幅图像特征分组的因果不变性学习系统；

一种面向单幅图像特征分组的因果不变性学习系统，包括：

鲁棒分类模型构建模块，被配置为：

获取分类数据集并进行数据预处理；

分类模块，被配置为：针对待分类图像，利用鲁棒分类模型输出分类结果。

与现有技术相比，本申请的有益效果是：

1、本申请提出了一种面向单幅图像特征分组的因果不变性学习方法与系统，针对一些开放场景中高质量标记数据不足的问题，本发明直接利用单幅图像的特征表示而不是多幅图像来学习数据的因果不变性，有效降低了模型对高质量标记数据的依赖；

2、针对开放场景中数据的环境划分不明确的问题，本申请直接利用相同跨尺度特征的具有不同关注点的特征表示来进行环境划分，可以保证特征分组能在相似的基础上具有不同的语义，而无需先挖掘具有相似性的分组再保证其语义不同，可以使模型在环境划分不明确的前提下对数据的因果不变性进行有效学习，以实现鲁棒的图像分类和识别；

3、本申请构建的鲁棒分类模型只需要基于单张图像就可以实现对因果不变性的学习，能够使其更好地在复杂开放场景中进行部署；

4、本申请也可以基于明确的环境划分标准对跨尺度图像特征进行分组，使模型在满足IRM基本假设的前提下获得鲁棒的不变特征表示，从而有效提升模型的分布外泛化能力。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请实施例提供的构建鲁棒分类模型的流程示意图；

图2为本申请实施例提供的图像分类的流程示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本申请使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

现有技术中，一方面，IRM方法无法在一些开放环境获得令人满意的性能，甚至无法实施；另一方面，必须依赖多张图像来实现数据的环境划分，因此其并没有从根本上解决某些领域高质量标注数据稀缺的现实问题；从而无法实现基于不变的特征表示的鲁棒的图像识别和分类。因此，本申请提供了一种面向单幅图像特征分组的因果不变性学习方法。

接下来，结合图1对本实施例公开的一种面向单幅图像特征分组的因果不变性学习方法进行详细说明。

一种面向单幅图像特征分组的因果不变形学习方法，具体包括如下步骤：

S1、数据集预处理：获取分类数据集，利用随机数据增强技术对对现有的分类数据集进行扩充，然后进行归一化操作。

具体的，由于原始数据样本中可能存在图像分辨率过大以及尺寸不一致的情况，不利于网络进行学习。因此，首先，利用Pytorch中的transformers类对数据集中的图像进行随机比例放缩、随机位置截取、随机水平和竖直方向翻转操作，对数量多的类别进行少量的随机数据增强操作，对数量少的类别则进行大量的随机数据增强操作，使每一类的样本数量尽量平衡；然后，再计算随机数据增强后图像的均值和方差，进行数据归一化操作。

S2、多尺度特征提取：

首先，根据扩充后数据集的属性以及待处理目标的尺寸大小和尺寸多样性确定模型的特征提取深度N；然后，将有标签数据输入模型并进行多层特征提取，将其作为后续模块多尺度特征的输入；示例性的，相邻多尺度特征的尺寸默认下采样2倍，可以借助U-Net、ResNet等卷积神经网络进行提取，卷积神经网络每一层的特征输出的空间分辨率依次降低两倍，如512*512、256*256、128*128。

S3、跨尺度增强特征提取：提取相似但具有不同语义的跨尺度特征表示。首先，构造跨尺度空间注意力机制并输出空间信息增强的特征表示；其次，构造跨尺度通道注意力机制并输出通道信息增强的特征表示。

具体的，考虑到模型提取了N层多尺度特征并将其表示为

，

对于相邻的多尺度特征进行依次两两分组，因此，可以获得

组跨尺度特征组合

。对于K中的第一组跨尺度特征

来说，其中,

，

，H代表

特征输入的高度,W代表

特征输入的宽度，

代表

特征输入的通道数，

代表

特征输入的高度，

代表

特征输入的宽度，

代表

特征输入的通道数。

第一步，将

和

分别作为跨尺度输入和主输入，构造跨尺度空间注意力机制。

具体的，以K中的第一组跨尺度特征

为例：

首先，将

和

分别作为其跨尺度输入和主输入；其次，基于

和

的特征变换

和

构造空间注意力特征表示；最后，基于

的特征变换

和构造的注意力特征表示，通过下式得到空间维度的跨尺度增强特征输出

；公式如下：

其中，

、

和

分别代表Query、Key和Value，

代表

的维度大小。

值得注意的是，传统的空间注意力机制（通道注意力机制类似）只将

或

作为其单一的主输入，然后通过主输入的不同特征变换来构造注意力特征表示并进一步得到最终的空间维度的增强特征输出，显然此特征输出不具备多尺度表示能力。

第二步，

和

分别作为主输入和跨尺度输入，构造跨尺度通道注意力机制。

具体的，同样以K中的第一组跨尺度特征

为例：

首先，基于

自身的不同特征变换

和

构造注意力特征表示；其次，基于

的特征变换

和构造的注意力特征表示，通过下式得到通道维度的跨尺度增强特征输出

；公式如下：

其中，

、

和

分别代表Query、Key和Value，

代表

的维度大小。

通过对跨尺度特征组合K中的每对多尺度特征进行跨尺度增强特征提取，可以得到N-1组跨尺度增强特征。已知

第一组多尺度特征，那么其跨尺度增强特征输出可以表示为

，同理第二组

多尺度特征的跨尺度增强特征输出可以表示为

，以此类推。

因此，接下来我们只需在此基础上迫使它们具有不同语义就可以构造有意义的环境划分了，其具体技术细节将在构造特征分组阶段进行介绍。

本申请新构造的

和

同传统的自注意力机制具有明显的不同，传统的自注意力机制是以单张特征图作为输入，其不具备多尺度表示能力。而本申请构造的跨尺度注意力机制则以跨尺度特征图作为输入，具备一定的多尺度表示能力，因此它们之间具有显著的区分性。

S4、特征重采样

由于上述不同组的跨尺度增强特征输出具有不同的分辨率，因此为了能构造有意义的环境划分，需要对上述具有不同分辨率的跨尺度增强特征进行分辨率一致化操作。

为了尽可能降低图像空间信息的丢失，本实施例采用两端向中间重采样的方式来实现分辨率一致化操作。示例性的，假设一共有5个不同分辨率的跨尺度增强特征，根据分辨率大小进行排序，确定基准分辨率，通过将第1、2个跨尺度增强特征的分辨率上采样到第3个跨尺度增强特征的分辨率，将第4、5个跨尺度增强特征的分辨率下采样到第3个跨尺度增强特征的分辨率的方式来实现分辨率一致化操作。

S5、构造特征分组

对第一组多尺度特征

的跨尺度增强特征

来说，它们本质上具有一定的相似性,因此通过对K中的跨尺度特征进行循环处理，得到两个全新分组

和

。

显然，由于

和

是对同一组跨尺度特征进行建模，因此，这两个分组本质上是相似的。接下来只需要对其进行对比损失的加权最大化以迫使它们具有不同的语义，就可以将

和

转换为有意义的环境划分

和

。

S6、网络训练

为了基于单幅图像学习具有因果不变性的特征表示，本实施例通过构造以下复合损失函数来提升鲁棒分类模型的分布外泛化性能，复合损失函数如下：

其中，

，其被用来平衡经验风险和不变风险；

可以在一定程度上调整特征分组间新引入语义的表现程度，本实施例默认将其设定为0.5，其具体数值可以根据不同任务进行自由调整；

为经验风险最小化损失，

为不变风险最小化损失，

为对比损失。

首先，

代表经验风险最小化损失，其最小化可以诱导鲁棒分类模型学习数据的相关性，其被定义如下：

其中，

用来表示在环境

下的经验风险，

表示训练集中的环境划分，

是一个特征表示器。

其次，

代表不变风险最小化损失，其加权最小化可以诱导鲁棒分类模型学习数据的因果不变性，其被定义如下：

其中，

是一个最优分类器，

为在环境

下的经验风险，

的极小化可以保证在特征表示

之上的分类器

在所有环境中的性能都是最优的。

最后，

代表对比损失，其加权最大化可以迫使特征分组在相似的基础上具有不同的语义，得到完美的环境划分；其被定义如下：

其中，

表示对比样本，

表示正样本，

表示负样本，

表示负样本数量。

S7：网络预测

将待预测的图像数据输入已训练好的鲁棒分类模型，通过softmax层进行预测得到分类得分，然后计算其最大值所对应的类别为预测结果。输出具有因果不变性的不变特征表示用于鲁棒图像识别和分类，有效提升图像分类模型的分布外泛化性能。

值得注意的是，模型学习到的具有因果不变性的特征表示也可以方便地扩展到其它下游任务，例如图像分割或目标检测。

如图2所示，在一些实施例中，将待分类图像输入鲁棒分类模型，系统内部自动进行多尺度特征提取、跨尺度增强特征提取、基于不变特征表示计算鲁棒预测类别三个过程，后输出预测类别与用户进行交互，不需要再重新进行特征重采样以及构造特征分组操作，得到的输出即为具有因果不变性的特征表示，能有效提升图像分类模型的分布外泛化性能。

实施例二

本实施例公开了一种面向单幅图像特征分组的因果不变性学习系统，包括：

鲁棒分类模型构建模块，被配置为：

获取分类数据集并进行数据预处理；

此处需要说明的是，上述鲁棒分类模型构建模块、分类模块对应于实施例一中的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。