CN115359304B - 一种面向单幅图像特征分组的因果不变性学习方法及系统 - Google Patents
一种面向单幅图像特征分组的因果不变性学习方法及系统 Download PDFInfo
- Publication number
- CN115359304B CN115359304B CN202211263756.6A CN202211263756A CN115359304B CN 115359304 B CN115359304 B CN 115359304B CN 202211263756 A CN202211263756 A CN 202211263756A CN 115359304 B CN115359304 B CN 115359304B
- Authority
- CN
- China
- Prior art keywords
- scale
- feature
- loss
- risk
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000001364 causal effect Effects 0.000 title claims abstract description 36
- 230000007246 mechanism Effects 0.000 claims description 30
- 238000013145 classification model Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 239000002131 composite material Substances 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000000638 solvent extraction Methods 0.000 claims description 8
- 238000012952 Resampling Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 abstract description 9
- 230000009466 transformation Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 239000002351 wastewater Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向单幅图像特征分组的因果不变性学习方法及系统,属于鲁棒图像分类系统技术领域。本发明通过对单幅图像的跨尺度特征进行分组来构造具有明确划分标准的环境分组,在高质量标注数据不足且无法确定多环境划分标准的复杂开放场景下学习数据稳健的因果不变性,以实现鲁棒的图像识别和分类。解决了现有技术中存在“进行图像分类依赖于高质量标记数据,无法应对复杂开放场景,识别、分类准确率低”的问题。
Description
技术领域
本申请涉及鲁棒图像分类系统技术领域,特别是涉及一种面向单幅图像特征分组的因果不变性学习方法及系统。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。随着机器学习技术的飞速发展,虽然传统机器学习方法在面对满足独立同分布假设的测试数据时可以获得较好的预测性能,但如果数据存在一定偏差(采集偏差、选择性偏差、混淆偏差等),其性能将大打折扣,究其原因是传统机器学习方法无法对数据的关联性和不变性进行有效区分。考虑到不变风险最小化IRM(Invariant Risk Minimization)方法能学习数据的因果不变性并有效提升模型在数据存在偏差时的分布外泛化性能,其作为一种新的研究范式自2019年被提出以来便备受学界关注。IRM可以从数学方面推导出物体的真正特征与其标签分布的内在因果关系,既不变性。通过将IRM跟机器学习进行结合,不仅可以有效提高模型的可解释性,而且能从根本上解决分布外泛化问题。
然而,IRM需要假设数据是由多个环境构成的,并且需要提前对这些环境进行标注。显然这对于一些现实任务无法轻易实现。首先,环境的划分通常需要借助多样化的标注图像,然而一些领域的高质量标注图像非常稀缺(如医学影像分析领域),并且对其进行标注通常费时费力而且还需要一定的专业知识;其次,对于一些开放场景下的复杂数据集,我们可能无法轻易确定多环境的划分标准是什么。面对上述挑战,虽然一些方法借助对抗学习来自动实现数据的环境划分,但此类方法的工作前提是假设数据集存在一个较完美的环境划分,一旦不满足此假设,其很难学习到具有真正因果不变性的特征表示。另外,此类方法必须依赖多张图像来实现数据的环境划分,因此其并没有从根本上解决某些领域高质量标注数据稀缺的现实问题。
基于上述分析,虽然IRM方法能在满足基本假设且数据标注完善的情况下获得比传统的经验风险最小化方法更鲁棒的分布外泛化能力,但其可能无法在一些开放场景下获得令人满意的性能,甚至无法轻易实施。因此,如何基于IRM构造一种更有效的方法来应对上述开放场景,正变得越来越重要并逐渐成为当今鲁棒图像识别和分类领域最前沿的研究方向之一。
发明内容
为了解决现有技术的不足,本申请提供了一种面向单幅图像特征分组的因果不变性学习方法及系统,通过对单幅图像的跨尺度特征进行分组来构造具有明确划分标准的环境分组,在高质量标注数据不足且无法确定多环境划分标准的复杂开放场景下学习数据稳健的因果不变性,以实现鲁棒的图像识别和分类。
第一方面,本申请提供了一种面向单幅图像特征分组的因果不变性学习方法;
一种面向单幅图像特征分组的因果不变性学习方法,包括:
构建鲁棒分类模型,具体为:
获取分类数据集并进行数据预处理;
针对数据预处理后的分类数据集,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取,构造特征分组;以及,
针对特征分组,计算经验风险最小化损失、不变风险最小化损失和对比损失,使用复合损失函数对网络进行训练获得网络模型;
针对待分类图像,利用鲁棒分类模型输出分类结果。
通过采用上述技术方案,通过对单张图像的多尺度特征进行分组来模拟环境分组,从而使模型摆脱对高质量标注数据的依赖;通过跨尺度空间和通道注意力机制生成相似但具有不同语义的特征表示,通过对不同语义进行区分来对跨尺度特征进行分组以实现环境划分,有效提升模型的分布外泛化能力,实现鲁棒的图像识别和分类。
进一步的,对分类数据集进行数据预处理包括:
对分类数据集中的图像进行尺寸一致化处理,再进行归一化操作;
对归一化操作后的图像进行随机数据增强。
通过采用上述技术方案,由于原始的分类数据集中可能存在图像分辨率过大以及尺寸不一致的情况,不利于网络进行学习;因此,对数据进行尺寸一致化、归一化、随机数据增强,保证数据之间的平衡。
进一步的,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取包括:
根据预处理后数据集的属性和待处理单幅图像的尺寸,确定特征提取深度,根据特征提取深度,基于卷积神经网络,提取单幅图像的多尺度特征;
基于多尺度特征,分组获取跨尺度特征组合;
构造跨尺度空间注意力机制,将跨尺度特征组合中的特征表示分别作为跨尺度输入和主输入,获取基于空间维度的跨尺度增强特征;
构造跨尺度通道注意力机制,将跨尺度特征组合中的特征表示分别作为主输入和跨尺度输入,获取基于通道维度的跨尺度增强特征。
通过采用上述技术方案,构造跨尺度注意力机制,以跨尺度特征图作为输入,具有一定的多尺度表示能力,基于通道维度的跨尺度增强特征和基于空间维度的跨尺度增强特征具有显著的区分性,
进一步的,在提取跨尺度增强特征之后,构造特征分组之前还包括:
对提取的跨尺度增强特征进行重采样操作。
通过采用上述技术方案,由于上述不同组的跨尺度增强特征具有不同的分辨率,因此为了能构造有意义的环境划分,需要对上述具有不同分辨率的跨尺度增强特征进行分辨率一致化操作。
进一步的,根据特征提取深度,确定基准分辨率;
根据基准分辨率,对低于基准分辨率的跨尺度增强特征进行上采样操作,对高于基准分辨率的跨尺度增强特征进行下采样操作。
通过采用上述技术方案,通过采用两端向中间重采样的方式来实现分辨率一致化操作,尽可能降低图像空间信息的丢失。
进一步的,对跨尺度特征进行循环处理,构造两个特征分组,对特征分组进行对比损失最大化以使它们具有不同的语义。
通过采用上述技术方案,通过对不同语义进行区分来对跨尺度特征进行分组以实现有意义的环境划分,使模型在满足IRM基本假设的前提下获得鲁棒的不变特征表示,从而有效提升模型的分布外泛化能力。
进一步的,最小化经验风险最小损失以诱导网络模型学习数据的相关性,最小化不变风险最小化损失以诱导模型学习数据的因果不变性,加权最大化对比损失以迫使特征分组在相似的基础上具有不同的语义。
进一步的,经验风险最小化损失定义为:
不变风险最小化损失定义为:
对比损失被定义为:
进一步的,构建鲁棒分类模型还包括:
将待预测的图像数据输入已训练好的网络模型进行预测得到分类结果。
通过采用上述技术方案,构建的鲁棒分类模型将具有因果不变性的不变特征用于鲁棒图像识别和分类,提高了鲁棒分类模型的分布外泛化性能。
第二方面,本申请提供了一种面向单幅图像特征分组的因果不变性学习系统;
一种面向单幅图像特征分组的因果不变性学习系统,包括:
鲁棒分类模型构建模块,被配置为:
获取分类数据集并进行数据预处理;
针对数据预处理后的分类数据集,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取,构造特征分组;以及,
针对特征分组,计算经验风险最小化损失、不变风险最小化损失和对比损失,使用复合损失函数对网络进行训练获得网络模型;
分类模块,被配置为:针对待分类图像,利用鲁棒分类模型输出分类结果。
与现有技术相比,本申请的有益效果是:
1、本申请提出了一种面向单幅图像特征分组的因果不变性学习方法与系统,针对一些开放场景中高质量标记数据不足的问题,本发明直接利用单幅图像的特征表示而不是多幅图像来学习数据的因果不变性,有效降低了模型对高质量标记数据的依赖;
2、针对开放场景中数据的环境划分不明确的问题,本申请直接利用相同跨尺度特征的具有不同关注点的特征表示来进行环境划分,可以保证特征分组能在相似的基础上具有不同的语义,而无需先挖掘具有相似性的分组再保证其语义不同,可以使模型在环境划分不明确的前提下对数据的因果不变性进行有效学习,以实现鲁棒的图像分类和识别;
3、本申请构建的鲁棒分类模型只需要基于单张图像就可以实现对因果不变性的学习,能够使其更好地在复杂开放场景中进行部署;
4、本申请也可以基于明确的环境划分标准对跨尺度图像特征进行分组,使模型在满足IRM基本假设的前提下获得鲁棒的不变特征表示,从而有效提升模型的分布外泛化能力。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本申请实施例提供的构建鲁棒分类模型的流程示意图;
图2为本申请实施例提供的图像分类的流程示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本申请使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
现有技术中,一方面,IRM方法无法在一些开放环境获得令人满意的性能,甚至无法实施;另一方面,必须依赖多张图像来实现数据的环境划分,因此其并没有从根本上解决某些领域高质量标注数据稀缺的现实问题;从而无法实现基于不变的特征表示的鲁棒的图像识别和分类。因此,本申请提供了一种面向单幅图像特征分组的因果不变性学习方法。
接下来,结合图1对本实施例公开的一种面向单幅图像特征分组的因果不变性学习方法进行详细说明。
一种面向单幅图像特征分组的因果不变形学习方法,具体包括如下步骤:
S1、数据集预处理:获取分类数据集,利用随机数据增强技术对对现有的分类数据集进行扩充,然后进行归一化操作。
具体的,由于原始数据样本中可能存在图像分辨率过大以及尺寸不一致的情况,不利于网络进行学习。因此,首先,利用Pytorch中的transformers类对数据集中的图像进行随机比例放缩、随机位置截取、随机水平和竖直方向翻转操作,对数量多的类别进行少量的随机数据增强操作,对数量少的类别则进行大量的随机数据增强操作,使每一类的样本数量尽量平衡;然后,再计算随机数据增强后图像的均值和方差,进行数据归一化操作。
S2、多尺度特征提取:
首先,根据扩充后数据集的属性以及待处理目标的尺寸大小和尺寸多样性确定模型的特征提取深度N;然后,将有标签数据输入模型并进行多层特征提取,将其作为后续模块多尺度特征的输入;示例性的,相邻多尺度特征的尺寸默认下采样2倍,可以借助U-Net、ResNet等卷积神经网络进行提取,卷积神经网络每一层的特征输出的空间分辨率依次降低两倍,如512*512、256*256、128*128。
S3、跨尺度增强特征提取:提取相似但具有不同语义的跨尺度特征表示。首先,构造跨尺度空间注意力机制并输出空间信息增强的特征表示;其次,构造跨尺度通道注意力机制并输出通道信息增强的特征表示。
具体的,考虑到模型提取了N层多尺度特征并将其表示为
对于相邻的多尺度特征进行依次两两分组,因此,可以获得组跨尺度特征
组合。对于K中的第一组跨尺度特征来说,其中,,,H代表特征输入的高度,W代表特征输入的宽度,代表特征输入的通道数,代表特征输入的高度,代表特征输入的宽度,
代表特征输入的通道数。
值得注意的是,传统的空间注意力机制(通道注意力机制类似)只将或作为
其单一的主输入,然后通过主输入的不同特征变换来构造注意力特征表示并进一步得到最
终的空间维度的增强特征输出,显然此特征输出不具备多尺度表示能力。
通过对跨尺度特征组合K中的每对多尺度特征进行跨尺度增强特征提取,可以得
到N-1组跨尺度增强特征。已知第一组多尺度特征,那么其跨尺度增强特征输出可
以表示为,同理第二组多尺度特征的跨尺度增强特征输出
可以表示为,以此类推。
因此,接下来我们只需在此基础上迫使它们具有不同语义就可以构造有意义的环境划分了,其具体技术细节将在构造特征分组阶段进行介绍。
本申请新构造的和同传统的自注意力机制具有明显的不同,传统的自注意
力机制是以单张特征图作为输入,其不具备多尺度表示能力。而本申请构造的跨尺度注意
力机制则以跨尺度特征图作为输入,具备一定的多尺度表示能力,因此它们之间具有显著
的区分性。
S4、特征重采样
由于上述不同组的跨尺度增强特征输出具有不同的分辨率,因此为了能构造有意义的环境划分,需要对上述具有不同分辨率的跨尺度增强特征进行分辨率一致化操作。
为了尽可能降低图像空间信息的丢失,本实施例采用两端向中间重采样的方式来实现分辨率一致化操作。示例性的,假设一共有5个不同分辨率的跨尺度增强特征,根据分辨率大小进行排序,确定基准分辨率,通过将第1、2个跨尺度增强特征的分辨率上采样到第3个跨尺度增强特征的分辨率,将第4、5个跨尺度增强特征的分辨率下采样到第3个跨尺度增强特征的分辨率的方式来实现分辨率一致化操作。
S5、构造特征分组
S6、网络训练
为了基于单幅图像学习具有因果不变性的特征表示,本实施例通过构造以下复合损失函数来提升鲁棒分类模型的分布外泛化性能,复合损失函数如下:
其中,,其被用来平衡经验风险和不变风险;可以在一定程度上调
整特征分组间新引入语义的表现程度,本实施例默认将其设定为0.5,其具体数值可以根据
不同任务进行自由调整;为经验风险最小化损失,为不变风险最小化损失,为对比损失。
S7:网络预测
将待预测的图像数据输入已训练好的鲁棒分类模型,通过softmax层进行预测得到分类得分,然后计算其最大值所对应的类别为预测结果。输出具有因果不变性的不变特征表示用于鲁棒图像识别和分类,有效提升图像分类模型的分布外泛化性能。
值得注意的是,模型学习到的具有因果不变性的特征表示也可以方便地扩展到其它下游任务,例如图像分割或目标检测。
如图2所示,在一些实施例中,将待分类图像输入鲁棒分类模型,系统内部自动进行多尺度特征提取、跨尺度增强特征提取、基于不变特征表示计算鲁棒预测类别三个过程,后输出预测类别与用户进行交互,不需要再重新进行特征重采样以及构造特征分组操作,得到的输出即为具有因果不变性的特征表示,能有效提升图像分类模型的分布外泛化性能。
实施例二
本实施例公开了一种面向单幅图像特征分组的因果不变性学习系统,包括:
鲁棒分类模型构建模块,被配置为:
获取分类数据集并进行数据预处理;
针对数据预处理后的分类数据集,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取,构造特征分组;以及,
针对特征分组,计算经验风险最小化损失、不变风险最小化损失和对比损失,使用复合损失函数对网络进行训练获得网络模型;
分类模块,被配置为:针对待分类图像,利用鲁棒分类模型输出分类结果。
此处需要说明的是,上述鲁棒分类模型构建模块、分类模块对应于实施例一中的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种面向单幅图像特征分组的因果不变性学习方法,其特征是,包括:构建鲁棒分类模型,具体为:
获取分类数据集并进行数据预处理;
针对数据预处理后的分类数据集,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取,构造特征分组;以及,
针对特征分组,计算经验风险最小化损失、不变风险最小化损失和对比损失,使用复合损失函数对网络进行训练获得网络模型;复合损失函数表示为:
经验风险最小化损失定义为:
不变风险最小化损失定义为:
对比损失被定义为:
最小化经验风险最小损失以诱导网络模型学习数据的相关性,最小化不变风险最小化损失以诱导模型学习数据的因果不变性,加权最大化对比损失以迫使特征分组在相似的基础上具有不同的语义;
针对待分类图像,利用鲁棒分类模型输出分类结果。
2.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,对分类数据集进行数据预处理包括:
对分类数据集中的图像进行随机数据增强操作;
对随机数据增强后的图像进行归一化操作。
3.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取包括:
根据预处理后数据集的属性和待处理单幅图像的尺寸,确定特征提取深度,根据特征提取深度,基于卷积神经网络,提取单幅图像的多尺度特征;
基于多尺度特征,分组获取跨尺度特征组合;
构造跨尺度空间注意力机制,将跨尺度特征组合中的特征表示分别作为跨尺度输入和主输入,获取基于空间维度的跨尺度增强特征;
构造跨尺度通道注意力机制,将跨尺度特征组合中的特征表示分别作为主输入和跨尺度输入,获取基于通道维度的跨尺度增强特征。
4.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,在提取跨尺度增强特征之后,构造特征分组之前还包括:
对提取的跨尺度增强特征进行重采样操作。
5.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,根据特征提取深度,确定基准分辨率;
根据基准分辨率,对低于基准分辨率的跨尺度增强特征进行上采样操作,对高于基准分辨率的跨尺度增强特征进行下采样操作。
6.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,对跨尺度特征进行循环处理,构造两个特征分组,对特征分组进行对比损失最大化以使它们具有不同的语义。
7.如权利要求1所述的一种面向单幅图像特征分组的因果不变性学习方法,其特征是,构建鲁棒分类模型还包括:
将待预测的图像数据输入已训练好的网络模型进行预测得到分类结果。
8.一种面向单幅图像特征分组的因果不变性学习系统,其特征是,包括:
鲁棒分类模型构建模块,被配置为:
获取分类数据集并进行数据预处理;
针对数据预处理后的分类数据集,基于卷积神经网络,构造跨尺度空间注意力机制和跨尺度通过注意力机制对单幅图像进行跨尺度增强特征提取,构造特征分组;以及,
针对特征分组,计算经验风险最小化损失、不变风险最小化损失和对比损失,使用复合损失函数对网络进行训练获得网络模型;其中,其中,复合损失函数表示为:
经验风险最小化损失定义为:
不变风险最小化损失定义为:
对比损失被定义为:
最小化经验风险最小损失以诱导网络模型学习数据的相关性,最小化不变风险最小化损失以诱导模型学习数据的因果不变性,加权最大化对比损失以迫使特征分组在相似的基础上具有不同的语义;
分类模块,被配置为:针对待分类图像,利用鲁棒分类模型输出分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211263756.6A CN115359304B (zh) | 2022-10-17 | 2022-10-17 | 一种面向单幅图像特征分组的因果不变性学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211263756.6A CN115359304B (zh) | 2022-10-17 | 2022-10-17 | 一种面向单幅图像特征分组的因果不变性学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115359304A CN115359304A (zh) | 2022-11-18 |
CN115359304B true CN115359304B (zh) | 2023-02-21 |
Family
ID=84008589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211263756.6A Active CN115359304B (zh) | 2022-10-17 | 2022-10-17 | 一种面向单幅图像特征分组的因果不变性学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115359304B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117034123B (zh) * | 2023-08-28 | 2024-05-07 | 定州市云领域体育用品有限公司 | 健身器材的故障监控系统及其方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8208541B2 (en) * | 2006-04-03 | 2012-06-26 | Panasonic Corporation | Motion estimation device, motion estimation method, motion estimation integrated circuit, and picture coding device |
CN113539293A (zh) * | 2021-08-10 | 2021-10-22 | 南京邮电大学 | 基于卷积神经网络和联合优化的单通道语音分离方法 |
CN113537317A (zh) * | 2021-06-30 | 2021-10-22 | 中国海洋大学 | 基于可解释深度学习的遥感图像跨域分类方法 |
CN114155556A (zh) * | 2021-12-07 | 2022-03-08 | 中国石油大学(华东) | 一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统 |
CN114898151A (zh) * | 2022-05-13 | 2022-08-12 | 重庆理工大学 | 一种基于深度学习与支持向量机融合的图像分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114240891B (zh) * | 2021-12-17 | 2023-07-18 | 重庆大学 | 融合知识图谱和图卷积神经网络的焊点质量识别方法 |
CN115100470B (zh) * | 2022-06-23 | 2024-09-17 | 苏州科技大学 | 小样本图像分类系统及其方法 |
-
2022
- 2022-10-17 CN CN202211263756.6A patent/CN115359304B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8208541B2 (en) * | 2006-04-03 | 2012-06-26 | Panasonic Corporation | Motion estimation device, motion estimation method, motion estimation integrated circuit, and picture coding device |
CN113537317A (zh) * | 2021-06-30 | 2021-10-22 | 中国海洋大学 | 基于可解释深度学习的遥感图像跨域分类方法 |
CN113539293A (zh) * | 2021-08-10 | 2021-10-22 | 南京邮电大学 | 基于卷积神经网络和联合优化的单通道语音分离方法 |
CN114155556A (zh) * | 2021-12-07 | 2022-03-08 | 中国石油大学(华东) | 一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统 |
CN114898151A (zh) * | 2022-05-13 | 2022-08-12 | 重庆理工大学 | 一种基于深度学习与支持向量机融合的图像分类方法 |
Non-Patent Citations (2)
Title |
---|
"Treatment Effect Estimation Using Invariant Risk Minimization";Abhin Shah et al.;《ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20211231;第5005-5009页 * |
"一种联合频谱和空间特征的深度学习多通道语音增强算法";邓贺元 等;《电子测量技术》;20191231;第90-94页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115359304A (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
CN112434721A (zh) | 一种基于小样本学习的图像分类方法、系统、存储介质及终端 | |
CN110569738B (zh) | 基于密集连接网络的自然场景文本检测方法、设备和介质 | |
CN105069811B (zh) | 一种多时相遥感图像变化检测方法 | |
CN103714148B (zh) | 基于稀疏编码分类的sar图像检索方法 | |
CN112347970A (zh) | 一种基于图卷积神经网络的遥感影像地物识别方法 | |
CN111950525B (zh) | 一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法 | |
CN114360038B (zh) | 基于深度学习的弱监督rpa元素识别方法及系统 | |
CN109766752B (zh) | 一种基于深度学习的目标匹配和定位方法及系统、计算机 | |
CN111401156A (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115359304B (zh) | 一种面向单幅图像特征分组的因果不变性学习方法及系统 | |
CN111639697B (zh) | 基于非重复采样与原型网络的高光谱图像分类方法 | |
Guo et al. | Multi-view feature learning for VHR remote sensing image classification | |
CN115049833A (zh) | 一种基于局部特征增强和相似性度量的点云部件分割方法 | |
Shao et al. | InMAS: Deep learning for designing intelligent making system | |
CN111553361B (zh) | 一种病理切片标签识别方法 | |
CN110738194A (zh) | 一种基于点云有序编码的三维物体识别方法 | |
Tong et al. | Robust facial expression recognition based on local tri-directional coding pattern | |
CN116386042A (zh) | 一种基于三维池化空间注意力机制的点云语义分割模型 | |
CN109871835B (zh) | 一种基于互斥正则化技术的人脸识别方法 | |
CN115861605A (zh) | 一种图像数据处理方法、计算机设备以及可读存储介质 | |
Yu et al. | Aeroplane detection from high-resolution remotely sensed imagery using bag-of-visual-words based hough forests | |
CN111680722B (zh) | 内容识别方法、装置、设备及可读存储介质 | |
Zhan et al. | Image orientation detection using convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |