CN115359304B - 一种面向单幅图像特征分组的因果不变性学习方法及系统 - Google Patents

一种面向单幅图像特征分组的因果不变性学习方法及系统 Download PDF

Info

Publication number
CN115359304B
CN115359304B CN202211263756.6A CN202211263756A CN115359304B CN 115359304 B CN115359304 B CN 115359304B CN 202211263756 A CN202211263756 A CN 202211263756A CN 115359304 B CN115359304 B CN 115359304B
Authority
CN
China
Prior art keywords
scale
feature
loss
risk
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211263756.6A
Other languages
English (en)
Other versions
CN115359304A (zh
Inventor
宁阳
聂秀山
李成龙
郭杰
刘培德
张云峰
张彩明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202211263756.6A priority Critical patent/CN115359304B/zh
Publication of CN115359304A publication Critical patent/CN115359304A/zh
Application granted granted Critical
Publication of CN115359304B publication Critical patent/CN115359304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向单幅图像特征分组的因果不变性学习方法及系统,属于鲁棒图像分类系统技术领域。本发明通过对单幅图像的跨尺度特征进行分组来构造具有明确划分标准的环境分组,在高质量标注数据不足且无法确定多环境划分标准的复杂开放场景下学习数据稳健的因果不变性,以实现鲁棒的图像识别和分类。解决了现有技术中存在“进行图像分类依赖于高质量标记数据,无法应对复杂开放场景,识别、分类准确率低”的问题。

Description

一种面向单幅图像特征分组的因果不变性学习方法及系统
技术领域
本申请涉及鲁棒图像分类系统技术领域,特别是涉及一种面向单幅图像特征分组的因果不变性学习方法及系统。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。随着机器学习技术的飞速发展,虽然传统机器学习方法在面对满足独立同分布假设的测试数据时可以获得较好的预测性能,但如果数据存在一定偏差(采集偏差、选择性偏差、混淆偏差等),其性能将大打折扣,究其原因是传统机器学习方法无法对数据的关联性和不变性进行有效区分。考虑到不变风险最小化IRM(Invariant Risk Minimization)方法能学习数据的因果不变性并有效提升模型在数据存在偏差时的分布外泛化性能,其作为一种新的研究范式自2019年被提出以来便备受学界关注。IRM可以从数学方面推导出物体的真正特征与其标签分布的内在因果关系,既不变性。通过将IRM跟机器学习进行结合,不仅可以有效提高模型的可解释性,而且能从根本上解决分布外泛化问题。
然而,IRM需要假设数据是由多个环境构成的,并且需要提前对这些环境进行标注。显然这对于一些现实任务无法轻易实现。首先,环境的划分通常需要借助多样化的标注图像,然而一些领域的高质量标注图像非常稀缺(如医学影像分析领域),并且对其进行标注通常费时费力而且还需要一定的专业知识;其次,对于一些开放场景下的复杂数据集,我们可能无法轻易确定多环境的划分标准是什么。面对上述挑战,虽然一些方法借助对抗学习来自动实现数据的环境划分,但此类方法的工作前提是假设数据集存在一个较完美的环境划分,一旦不满足此假设,其很难学习到具有真正因果不变性的特征表示。另外,此类方法必须依赖多张图像来实现数据的环境划分,因此其并没有从根本上解决某些领域高质量标注数据稀缺的现实问题。
基于上述分析,虽然IRM方法能在满足基本假设且数据标注完善的情况下获得比传统的经验风险最小化方法更鲁棒的分布外泛化能力,但其可能无法在一些开放场景下获得令人满意的性能,甚至无法轻易实施。因此,如何基于IRM构造一种更有效的方法来应对上述开放场景,正变得越来越重要并逐渐成为当今鲁棒图像识别和分类领域最前沿的研究方向之一。
发明内容
为了解决现有技术的不足,本申请提供了一种面向单幅图像特征分组的因果不变性学习方法及系统,通过对单幅图像的跨尺度特征进行分组来构造具有明确划分标准的环境分组,在高质量标注数据不足且无法确定多环境划分标准的复杂开放场景下学习数据稳健的因果不变性,以实现鲁棒的图像识别和分类。
第一方面,本申请提供了一种面向单幅图像特征分组的因果不变性学习方法;
一种面向单幅图像特征分组的因果不变性学习方法,包括:
构建鲁棒分类模型,具体为:
获取分类数据集并进行数据预处理;
针对数据预处理后的分类数据集,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取,构造特征分组;以及,
针对特征分组,计算经验风险最小化损失、不变风险最小化损失和对比损失,使用复合损失函数对网络进行训练获得网络模型;
针对待分类图像,利用鲁棒分类模型输出分类结果。
通过采用上述技术方案,通过对单张图像的多尺度特征进行分组来模拟环境分组,从而使模型摆脱对高质量标注数据的依赖;通过跨尺度空间和通道注意力机制生成相似但具有不同语义的特征表示,通过对不同语义进行区分来对跨尺度特征进行分组以实现环境划分,有效提升模型的分布外泛化能力,实现鲁棒的图像识别和分类。
进一步的,对分类数据集进行数据预处理包括:
对分类数据集中的图像进行尺寸一致化处理,再进行归一化操作;
对归一化操作后的图像进行随机数据增强。
通过采用上述技术方案,由于原始的分类数据集中可能存在图像分辨率过大以及尺寸不一致的情况,不利于网络进行学习;因此,对数据进行尺寸一致化、归一化、随机数据增强,保证数据之间的平衡。
进一步的,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取包括:
根据预处理后数据集的属性和待处理单幅图像的尺寸,确定特征提取深度,根据特征提取深度,基于卷积神经网络,提取单幅图像的多尺度特征;
基于多尺度特征,分组获取跨尺度特征组合;
构造跨尺度空间注意力机制,将跨尺度特征组合中的特征表示分别作为跨尺度输入和主输入,获取基于空间维度的跨尺度增强特征;
构造跨尺度通道注意力机制,将跨尺度特征组合中的特征表示分别作为主输入和跨尺度输入,获取基于通道维度的跨尺度增强特征。
通过采用上述技术方案,构造跨尺度注意力机制,以跨尺度特征图作为输入,具有一定的多尺度表示能力,基于通道维度的跨尺度增强特征和基于空间维度的跨尺度增强特征具有显著的区分性,
进一步的,在提取跨尺度增强特征之后,构造特征分组之前还包括:
对提取的跨尺度增强特征进行重采样操作。
通过采用上述技术方案,由于上述不同组的跨尺度增强特征具有不同的分辨率,因此为了能构造有意义的环境划分,需要对上述具有不同分辨率的跨尺度增强特征进行分辨率一致化操作。
进一步的,根据特征提取深度,确定基准分辨率;
根据基准分辨率,对低于基准分辨率的跨尺度增强特征进行上采样操作,对高于基准分辨率的跨尺度增强特征进行下采样操作。
通过采用上述技术方案,通过采用两端向中间重采样的方式来实现分辨率一致化操作,尽可能降低图像空间信息的丢失。
进一步的,对跨尺度特征进行循环处理,构造两个特征分组,对特征分组进行对比损失最大化以使它们具有不同的语义。
通过采用上述技术方案,通过对不同语义进行区分来对跨尺度特征进行分组以实现有意义的环境划分,使模型在满足IRM基本假设的前提下获得鲁棒的不变特征表示,从而有效提升模型的分布外泛化能力。
进一步的,最小化经验风险最小损失以诱导网络模型学习数据的相关性,最小化不变风险最小化损失以诱导模型学习数据的因果不变性,加权最大化对比损失以迫使特征分组在相似的基础上具有不同的语义。
进一步的,经验风险最小化损失定义为:
Figure DEST_PATH_IMAGE001
其中,
Figure 298199DEST_PATH_IMAGE002
为在环境
Figure DEST_PATH_IMAGE003
下的经验风险,
Figure 701499DEST_PATH_IMAGE004
为训练集中 的环境划分,
Figure DEST_PATH_IMAGE005
为特征表示器;
不变风险最小化损失定义为:
Figure 366966DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE007
为最优分类器,
Figure 104984DEST_PATH_IMAGE008
为在环境
Figure 310838DEST_PATH_IMAGE003
下的经验风险;
对比损失被定义为:
Figure DEST_PATH_IMAGE009
其中,
Figure 771906DEST_PATH_IMAGE010
表示对比样本,
Figure DEST_PATH_IMAGE011
表示正样本,
Figure 123122DEST_PATH_IMAGE012
表示负样本,
Figure DEST_PATH_IMAGE013
表示负样本数量。
进一步的,构建鲁棒分类模型还包括:
将待预测的图像数据输入已训练好的网络模型进行预测得到分类结果。
通过采用上述技术方案,构建的鲁棒分类模型将具有因果不变性的不变特征用于鲁棒图像识别和分类,提高了鲁棒分类模型的分布外泛化性能。
第二方面,本申请提供了一种面向单幅图像特征分组的因果不变性学习系统;
一种面向单幅图像特征分组的因果不变性学习系统,包括:
鲁棒分类模型构建模块,被配置为:
获取分类数据集并进行数据预处理;
针对数据预处理后的分类数据集,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取,构造特征分组;以及,
针对特征分组,计算经验风险最小化损失、不变风险最小化损失和对比损失,使用复合损失函数对网络进行训练获得网络模型;
分类模块,被配置为:针对待分类图像,利用鲁棒分类模型输出分类结果。
与现有技术相比,本申请的有益效果是:
1、本申请提出了一种面向单幅图像特征分组的因果不变性学习方法与系统,针对一些开放场景中高质量标记数据不足的问题,本发明直接利用单幅图像的特征表示而不是多幅图像来学习数据的因果不变性,有效降低了模型对高质量标记数据的依赖;
2、针对开放场景中数据的环境划分不明确的问题,本申请直接利用相同跨尺度特征的具有不同关注点的特征表示来进行环境划分,可以保证特征分组能在相似的基础上具有不同的语义,而无需先挖掘具有相似性的分组再保证其语义不同,可以使模型在环境划分不明确的前提下对数据的因果不变性进行有效学习,以实现鲁棒的图像分类和识别;
3、本申请构建的鲁棒分类模型只需要基于单张图像就可以实现对因果不变性的学习,能够使其更好地在复杂开放场景中进行部署;
4、本申请也可以基于明确的环境划分标准对跨尺度图像特征进行分组,使模型在满足IRM基本假设的前提下获得鲁棒的不变特征表示,从而有效提升模型的分布外泛化能力。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本申请实施例提供的构建鲁棒分类模型的流程示意图;
图2为本申请实施例提供的图像分类的流程示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本申请使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
现有技术中,一方面,IRM方法无法在一些开放环境获得令人满意的性能,甚至无法实施;另一方面,必须依赖多张图像来实现数据的环境划分,因此其并没有从根本上解决某些领域高质量标注数据稀缺的现实问题;从而无法实现基于不变的特征表示的鲁棒的图像识别和分类。因此,本申请提供了一种面向单幅图像特征分组的因果不变性学习方法。
接下来,结合图1对本实施例公开的一种面向单幅图像特征分组的因果不变性学习方法进行详细说明。
一种面向单幅图像特征分组的因果不变形学习方法,具体包括如下步骤:
S1、数据集预处理:获取分类数据集,利用随机数据增强技术对对现有的分类数据集进行扩充,然后进行归一化操作。
具体的,由于原始数据样本中可能存在图像分辨率过大以及尺寸不一致的情况,不利于网络进行学习。因此,首先,利用Pytorch中的transformers类对数据集中的图像进行随机比例放缩、随机位置截取、随机水平和竖直方向翻转操作,对数量多的类别进行少量的随机数据增强操作,对数量少的类别则进行大量的随机数据增强操作,使每一类的样本数量尽量平衡;然后,再计算随机数据增强后图像的均值和方差,进行数据归一化操作。
S2、多尺度特征提取:
首先,根据扩充后数据集的属性以及待处理目标的尺寸大小和尺寸多样性确定模型的特征提取深度N;然后,将有标签数据输入模型并进行多层特征提取,将其作为后续模块多尺度特征的输入;示例性的,相邻多尺度特征的尺寸默认下采样2倍,可以借助U-Net、ResNet等卷积神经网络进行提取,卷积神经网络每一层的特征输出的空间分辨率依次降低两倍,如512*512、256*256、128*128。
S3、跨尺度增强特征提取:提取相似但具有不同语义的跨尺度特征表示。首先,构造跨尺度空间注意力机制并输出空间信息增强的特征表示;其次,构造跨尺度通道注意力机制并输出通道信息增强的特征表示。
具体的,考虑到模型提取了N层多尺度特征并将其表示为
Figure 99168DEST_PATH_IMAGE014
对于相邻的多尺度特征进行依次两两分组,因此,可以获得
Figure DEST_PATH_IMAGE015
组跨尺度特征 组合
Figure 561242DEST_PATH_IMAGE016
。对于K中的第一组跨尺度特征
Figure DEST_PATH_IMAGE017
来说,其中,
Figure 876817DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
,H代表
Figure 946404DEST_PATH_IMAGE020
特征输入的高度,W代表
Figure 393435DEST_PATH_IMAGE020
特征输入的宽度,
Figure DEST_PATH_IMAGE021
代表
Figure 144353DEST_PATH_IMAGE020
特征输入的通道数,
Figure 907910DEST_PATH_IMAGE022
代表
Figure DEST_PATH_IMAGE023
特征输入的高度,
Figure 600928DEST_PATH_IMAGE024
代表
Figure 20408DEST_PATH_IMAGE023
特征输入的宽度,
Figure DEST_PATH_IMAGE025
代表
Figure 840597DEST_PATH_IMAGE023
特征输入的通道数。
第一步,将
Figure 458660DEST_PATH_IMAGE020
Figure 853738DEST_PATH_IMAGE023
分别作为跨尺度输入和主输入,构造跨尺度空间注意力机制。
具体的,以K中的第一组跨尺度特征
Figure 760514DEST_PATH_IMAGE017
为例:
首先,将
Figure 446710DEST_PATH_IMAGE020
Figure 388122DEST_PATH_IMAGE023
分别作为其跨尺度输入和主输入;其次,基于
Figure 704833DEST_PATH_IMAGE020
Figure 613752DEST_PATH_IMAGE023
的特征变换
Figure 41323DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
构造空间注意力特征表示;最后,基于
Figure 837240DEST_PATH_IMAGE023
的特征变换
Figure 590433DEST_PATH_IMAGE028
和构造的注意力特征表示, 通过下式得到空间维度的跨尺度增强特征输出
Figure DEST_PATH_IMAGE029
;公式如下:
Figure 924331DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE031
Figure 890013DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
分别代表Query、Key和Value,
Figure 789705DEST_PATH_IMAGE034
代表
Figure DEST_PATH_IMAGE035
的维度大小。
值得注意的是,传统的空间注意力机制(通道注意力机制类似)只将
Figure 917061DEST_PATH_IMAGE020
Figure 82463DEST_PATH_IMAGE023
作为 其单一的主输入,然后通过主输入的不同特征变换来构造注意力特征表示并进一步得到最 终的空间维度的增强特征输出,显然此特征输出不具备多尺度表示能力。
第二步,
Figure 117415DEST_PATH_IMAGE020
Figure 137192DEST_PATH_IMAGE023
分别作为主输入和跨尺度输入,构造跨尺度通道注意力机制。
具体的,同样以K中的第一组跨尺度特征
Figure 701029DEST_PATH_IMAGE017
为例:
首先,基于
Figure 556989DEST_PATH_IMAGE023
自身的不同特征变换
Figure 192370DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
构造注意力特征表示;其次,基于
Figure 269916DEST_PATH_IMAGE020
的 特征变换
Figure 270234DEST_PATH_IMAGE038
和构造的注意力特征表示,通过下式得到通道维度的跨尺度增强特征输出
Figure DEST_PATH_IMAGE039
;公式如下:
Figure 613490DEST_PATH_IMAGE040
其中,
Figure 990245DEST_PATH_IMAGE036
Figure 719035DEST_PATH_IMAGE037
Figure 155833DEST_PATH_IMAGE038
分别代表Query、Key和Value,
Figure DEST_PATH_IMAGE041
代表
Figure 189648DEST_PATH_IMAGE042
的维度大小。
通过对跨尺度特征组合K中的每对多尺度特征进行跨尺度增强特征提取,可以得 到N-1组跨尺度增强特征。已知
Figure 166831DEST_PATH_IMAGE017
第一组多尺度特征,那么其跨尺度增强特征输出可 以表示为
Figure DEST_PATH_IMAGE043
,同理第二组
Figure 218970DEST_PATH_IMAGE044
多尺度特征的跨尺度增强特征输出 可以表示为
Figure DEST_PATH_IMAGE045
,以此类推。
因此,接下来我们只需在此基础上迫使它们具有不同语义就可以构造有意义的环境划分了,其具体技术细节将在构造特征分组阶段进行介绍。
本申请新构造的
Figure 29931DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
同传统的自注意力机制具有明显的不同,传统的自注意 力机制是以单张特征图作为输入,其不具备多尺度表示能力。而本申请构造的跨尺度注意 力机制则以跨尺度特征图作为输入,具备一定的多尺度表示能力,因此它们之间具有显著 的区分性。
S4、特征重采样
由于上述不同组的跨尺度增强特征输出具有不同的分辨率,因此为了能构造有意义的环境划分,需要对上述具有不同分辨率的跨尺度增强特征进行分辨率一致化操作。
为了尽可能降低图像空间信息的丢失,本实施例采用两端向中间重采样的方式来实现分辨率一致化操作。示例性的,假设一共有5个不同分辨率的跨尺度增强特征,根据分辨率大小进行排序,确定基准分辨率,通过将第1、2个跨尺度增强特征的分辨率上采样到第3个跨尺度增强特征的分辨率,将第4、5个跨尺度增强特征的分辨率下采样到第3个跨尺度增强特征的分辨率的方式来实现分辨率一致化操作。
S5、构造特征分组
对第一组多尺度特征
Figure 597047DEST_PATH_IMAGE017
的跨尺度增强特征
Figure 315605DEST_PATH_IMAGE048
来说,它们本质上具有 一定的相似性,因此通过对K中的跨尺度特征进行循环处理,得到两个全新分组
Figure DEST_PATH_IMAGE049
Figure 972982DEST_PATH_IMAGE050
显然,由于
Figure DEST_PATH_IMAGE051
Figure 266429DEST_PATH_IMAGE052
是对同一组跨尺度特征进行建模,因此,这两个分组本质上是 相似的。接下来只需要对其进行对比损失的加权最大化以迫使它们具有不同的语义,就可 以将
Figure DEST_PATH_IMAGE053
Figure 9257DEST_PATH_IMAGE054
转换为有意义的环境划分
Figure DEST_PATH_IMAGE055
Figure 249614DEST_PATH_IMAGE056
S6、网络训练
为了基于单幅图像学习具有因果不变性的特征表示,本实施例通过构造以下复合损失函数来提升鲁棒分类模型的分布外泛化性能,复合损失函数如下:
Figure DEST_PATH_IMAGE057
其中,
Figure 823815DEST_PATH_IMAGE058
,其被用来平衡经验风险和不变风险;
Figure DEST_PATH_IMAGE059
可以在一定程度上调 整特征分组间新引入语义的表现程度,本实施例默认将其设定为0.5,其具体数值可以根据 不同任务进行自由调整;
Figure 976579DEST_PATH_IMAGE060
为经验风险最小化损失,
Figure DEST_PATH_IMAGE061
为不变风险最小化损失,
Figure 455971DEST_PATH_IMAGE062
为对比损失。
首先,
Figure 578648DEST_PATH_IMAGE060
代表经验风险最小化损失,其最小化可以诱导鲁棒分类模型学习数据 的相关性,其被定义如下:
Figure 741776DEST_PATH_IMAGE001
其中,
Figure 862178DEST_PATH_IMAGE002
用来表示在环境
Figure 360025DEST_PATH_IMAGE003
下的经验风险,
Figure 20813DEST_PATH_IMAGE004
表示 训练集中的环境划分,
Figure 38448DEST_PATH_IMAGE005
是一个特征表示器。
其次,
Figure 595331DEST_PATH_IMAGE061
代表不变风险最小化损失,其加权最小化可以诱导鲁棒分类模型学习 数据的因果不变性,其被定义如下:
Figure 65627DEST_PATH_IMAGE006
其中,
Figure 982636DEST_PATH_IMAGE007
是一个最优分类器,
Figure 120356DEST_PATH_IMAGE008
为在环境
Figure 582562DEST_PATH_IMAGE003
下的经验风险,
Figure 805733DEST_PATH_IMAGE061
的极小化可以保 证在特征表示
Figure 260854DEST_PATH_IMAGE005
之上的分类器
Figure 49818DEST_PATH_IMAGE007
在所有环境中的性能都是最优的。
最后,
Figure 948504DEST_PATH_IMAGE062
代表对比损失,其加权最大化可以迫使特征分组在相似的基础上具 有不同的语义,得到完美的环境划分;其被定义如下:
Figure 393392DEST_PATH_IMAGE009
其中,
Figure 137357DEST_PATH_IMAGE010
表示对比样本,
Figure 498937DEST_PATH_IMAGE011
表示正样本,
Figure 99682DEST_PATH_IMAGE012
表示负样本,
Figure 297446DEST_PATH_IMAGE013
表示负样本数量。
S7:网络预测
将待预测的图像数据输入已训练好的鲁棒分类模型,通过softmax层进行预测得到分类得分,然后计算其最大值所对应的类别为预测结果。输出具有因果不变性的不变特征表示用于鲁棒图像识别和分类,有效提升图像分类模型的分布外泛化性能。
值得注意的是,模型学习到的具有因果不变性的特征表示也可以方便地扩展到其它下游任务,例如图像分割或目标检测。
如图2所示,在一些实施例中,将待分类图像输入鲁棒分类模型,系统内部自动进行多尺度特征提取、跨尺度增强特征提取、基于不变特征表示计算鲁棒预测类别三个过程,后输出预测类别与用户进行交互,不需要再重新进行特征重采样以及构造特征分组操作,得到的输出即为具有因果不变性的特征表示,能有效提升图像分类模型的分布外泛化性能。
实施例二
本实施例公开了一种面向单幅图像特征分组的因果不变性学习系统,包括:
鲁棒分类模型构建模块,被配置为:
获取分类数据集并进行数据预处理;
针对数据预处理后的分类数据集,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取,构造特征分组;以及,
针对特征分组,计算经验风险最小化损失、不变风险最小化损失和对比损失,使用复合损失函数对网络进行训练获得网络模型;
分类模块,被配置为:针对待分类图像,利用鲁棒分类模型输出分类结果。
此处需要说明的是,上述鲁棒分类模型构建模块、分类模块对应于实施例一中的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种面向单幅图像特征分组的因果不变性学习方法,其特征是,包括:构建鲁棒分类模型,具体为:
获取分类数据集并进行数据预处理;
针对数据预处理后的分类数据集,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取,构造特征分组;以及,
针对特征分组,计算经验风险最小化损失、不变风险最小化损失和对比损失,使用复合损失函数对网络进行训练获得网络模型;复合损失函数表示为:
Figure 262971DEST_PATH_IMAGE001
其中,
Figure 295649DEST_PATH_IMAGE002
,用于平衡经验风险和不变风险;
Figure 682768DEST_PATH_IMAGE003
用于在一定程度上调整特征分组 间新引入语义的表现程度,
Figure 255831DEST_PATH_IMAGE004
为经验风险最小化损失,
Figure 84110DEST_PATH_IMAGE005
为不变风险最小化损失,
Figure 547409DEST_PATH_IMAGE006
为对比损失;
经验风险最小化损失定义为:
Figure 359508DEST_PATH_IMAGE007
其中,
Figure 470683DEST_PATH_IMAGE008
为在环境
Figure 419048DEST_PATH_IMAGE009
下的经验风险,
Figure 324687DEST_PATH_IMAGE010
为训练集中的环境划 分,
Figure 92923DEST_PATH_IMAGE011
为特征表示器;
不变风险最小化损失定义为:
Figure 804527DEST_PATH_IMAGE012
其中,
Figure 872977DEST_PATH_IMAGE013
为最优分类器,
Figure 949517DEST_PATH_IMAGE014
为在环境
Figure 205049DEST_PATH_IMAGE009
下的经验风险;
对比损失被定义为:
Figure 454765DEST_PATH_IMAGE015
其中,
Figure 643301DEST_PATH_IMAGE016
表示对比样本,
Figure 890742DEST_PATH_IMAGE017
表示正样本,
Figure 899150DEST_PATH_IMAGE018
表示负样本,
Figure 952556DEST_PATH_IMAGE019
表示负样本数量;
最小化经验风险最小损失以诱导网络模型学习数据的相关性,最小化不变风险最小化损失以诱导模型学习数据的因果不变性,加权最大化对比损失以迫使特征分组在相似的基础上具有不同的语义;
针对待分类图像,利用鲁棒分类模型输出分类结果。
2.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,对分类数据集进行数据预处理包括:
对分类数据集中的图像进行随机数据增强操作;
对随机数据增强后的图像进行归一化操作。
3.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取包括:
根据预处理后数据集的属性和待处理单幅图像的尺寸,确定特征提取深度,根据特征提取深度,基于卷积神经网络,提取单幅图像的多尺度特征;
基于多尺度特征,分组获取跨尺度特征组合;
构造跨尺度空间注意力机制,将跨尺度特征组合中的特征表示分别作为跨尺度输入和主输入,获取基于空间维度的跨尺度增强特征;
构造跨尺度通道注意力机制,将跨尺度特征组合中的特征表示分别作为主输入和跨尺度输入,获取基于通道维度的跨尺度增强特征。
4.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,在提取跨尺度增强特征之后,构造特征分组之前还包括:
对提取的跨尺度增强特征进行重采样操作。
5.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,根据特征提取深度,确定基准分辨率;
根据基准分辨率,对低于基准分辨率的跨尺度增强特征进行上采样操作,对高于基准分辨率的跨尺度增强特征进行下采样操作。
6.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,对跨尺度特征进行循环处理,构造两个特征分组,对特征分组进行对比损失最大化以使它们具有不同的语义。
7.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,构建鲁棒分类模型还包括:
将待预测的图像数据输入已训练好的网络模型进行预测得到分类结果。
8.一种面向单幅图像特征分组的因果不变性学习系统,其特征是,包括:
鲁棒分类模型构建模块,被配置为:
获取分类数据集并进行数据预处理;
针对数据预处理后的分类数据集,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取,构造特征分组;以及,
针对特征分组,计算经验风险最小化损失、不变风险最小化损失和对比损失,使用复合损失函数对网络进行训练获得网络模型;其中,其中,复合损失函数表示为:
Figure 730020DEST_PATH_IMAGE001
其中,
Figure 882783DEST_PATH_IMAGE002
,用于平衡经验风险和不变风险;
Figure 378487DEST_PATH_IMAGE003
用于在一定程度上调整特征分组 间新引入语义的表现程度,
Figure 173267DEST_PATH_IMAGE004
为经验风险最小化损失,
Figure 533798DEST_PATH_IMAGE005
为不变风险最小化损失,
Figure 185360DEST_PATH_IMAGE006
为对比损失;
经验风险最小化损失定义为:
Figure 433938DEST_PATH_IMAGE007
其中,
Figure 766831DEST_PATH_IMAGE008
为在环境
Figure 253307DEST_PATH_IMAGE009
下的经验风险,
Figure 279032DEST_PATH_IMAGE010
为训练集中的环境划 分,
Figure 546065DEST_PATH_IMAGE011
为特征表示器;
不变风险最小化损失定义为:
Figure 417069DEST_PATH_IMAGE012
其中,
Figure 23631DEST_PATH_IMAGE013
为最优分类器,
Figure 220257DEST_PATH_IMAGE014
为在环境
Figure 646690DEST_PATH_IMAGE009
下的经验风险;
对比损失被定义为:
Figure 383702DEST_PATH_IMAGE015
其中,
Figure 110350DEST_PATH_IMAGE016
表示对比样本,
Figure 477877DEST_PATH_IMAGE017
表示正样本,
Figure 391606DEST_PATH_IMAGE018
表示负样本,
Figure 869992DEST_PATH_IMAGE019
表示负样本数量;
最小化经验风险最小损失以诱导网络模型学习数据的相关性,最小化不变风险最小化损失以诱导模型学习数据的因果不变性,加权最大化对比损失以迫使特征分组在相似的基础上具有不同的语义;
分类模块,被配置为:针对待分类图像,利用鲁棒分类模型输出分类结果。
CN202211263756.6A 2022-10-17 2022-10-17 一种面向单幅图像特征分组的因果不变性学习方法及系统 Active CN115359304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211263756.6A CN115359304B (zh) 2022-10-17 2022-10-17 一种面向单幅图像特征分组的因果不变性学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211263756.6A CN115359304B (zh) 2022-10-17 2022-10-17 一种面向单幅图像特征分组的因果不变性学习方法及系统

Publications (2)

Publication Number Publication Date
CN115359304A CN115359304A (zh) 2022-11-18
CN115359304B true CN115359304B (zh) 2023-02-21

Family

ID=84008589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211263756.6A Active CN115359304B (zh) 2022-10-17 2022-10-17 一种面向单幅图像特征分组的因果不变性学习方法及系统

Country Status (1)

Country Link
CN (1) CN115359304B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034123B (zh) * 2023-08-28 2024-05-07 定州市云领域体育用品有限公司 健身器材的故障监控系统及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8208541B2 (en) * 2006-04-03 2012-06-26 Panasonic Corporation Motion estimation device, motion estimation method, motion estimation integrated circuit, and picture coding device
CN113539293A (zh) * 2021-08-10 2021-10-22 南京邮电大学 基于卷积神经网络和联合优化的单通道语音分离方法
CN113537317A (zh) * 2021-06-30 2021-10-22 中国海洋大学 基于可解释深度学习的遥感图像跨域分类方法
CN114155556A (zh) * 2021-12-07 2022-03-08 中国石油大学(华东) 一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统
CN114898151A (zh) * 2022-05-13 2022-08-12 重庆理工大学 一种基于深度学习与支持向量机融合的图像分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114240891B (zh) * 2021-12-17 2023-07-18 重庆大学 融合知识图谱和图卷积神经网络的焊点质量识别方法
CN115100470B (zh) * 2022-06-23 2024-09-17 苏州科技大学 小样本图像分类系统及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8208541B2 (en) * 2006-04-03 2012-06-26 Panasonic Corporation Motion estimation device, motion estimation method, motion estimation integrated circuit, and picture coding device
CN113537317A (zh) * 2021-06-30 2021-10-22 中国海洋大学 基于可解释深度学习的遥感图像跨域分类方法
CN113539293A (zh) * 2021-08-10 2021-10-22 南京邮电大学 基于卷积神经网络和联合优化的单通道语音分离方法
CN114155556A (zh) * 2021-12-07 2022-03-08 中国石油大学(华东) 一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统
CN114898151A (zh) * 2022-05-13 2022-08-12 重庆理工大学 一种基于深度学习与支持向量机融合的图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Treatment Effect Estimation Using Invariant Risk Minimization";Abhin Shah et al.;《ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20211231;第5005-5009页 *
"一种联合频谱和空间特征的深度学习多通道语音增强算法";邓贺元 等;《电子测量技术》;20191231;第90-94页 *

Also Published As

Publication number Publication date
CN115359304A (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN112434721A (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN105069811B (zh) 一种多时相遥感图像变化检测方法
CN103714148B (zh) 基于稀疏编码分类的sar图像检索方法
CN112347970A (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN111950525B (zh) 一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法
CN114360038B (zh) 基于深度学习的弱监督rpa元素识别方法及系统
CN109766752B (zh) 一种基于深度学习的目标匹配和定位方法及系统、计算机
CN111401156A (zh) 基于Gabor卷积神经网络的图像识别方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN115359304B (zh) 一种面向单幅图像特征分组的因果不变性学习方法及系统
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
Guo et al. Multi-view feature learning for VHR remote sensing image classification
CN115049833A (zh) 一种基于局部特征增强和相似性度量的点云部件分割方法
Shao et al. InMAS: Deep learning for designing intelligent making system
CN111553361B (zh) 一种病理切片标签识别方法
CN110738194A (zh) 一种基于点云有序编码的三维物体识别方法
Tong et al. Robust facial expression recognition based on local tri-directional coding pattern
CN116386042A (zh) 一种基于三维池化空间注意力机制的点云语义分割模型
CN109871835B (zh) 一种基于互斥正则化技术的人脸识别方法
CN115861605A (zh) 一种图像数据处理方法、计算机设备以及可读存储介质
Yu et al. Aeroplane detection from high-resolution remotely sensed imagery using bag-of-visual-words based hough forests
CN111680722B (zh) 内容识别方法、装置、设备及可读存储介质
Zhan et al. Image orientation detection using convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant