CN117994570A - 基于模型无关适配器提高复杂多样数据分布的识别方法 - Google Patents
基于模型无关适配器提高复杂多样数据分布的识别方法 Download PDFInfo
- Publication number
- CN117994570A CN117994570A CN202410018143.9A CN202410018143A CN117994570A CN 117994570 A CN117994570 A CN 117994570A CN 202410018143 A CN202410018143 A CN 202410018143A CN 117994570 A CN117994570 A CN 117994570A
- Authority
- CN
- China
- Prior art keywords
- distribution
- model
- data
- independent
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 211
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 63
- 230000006870 function Effects 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 28
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于模型无关适配器提高复杂多样数据分布的识别方法,包括如下步骤:利用不同种环境下用于数据分布识别的训练集训练数据分布识别模型,基于最小化独立同分布损失函数以及分布外泛化损失函数对数据分布识别模型的网络参数进行更新;最后将若干个待分类识别的图像数据输入到经过训练的数据分布识别模型中,每个待分类识别的图像数据服从独立同分布或者分布外泛化,输出每个待分类识别的图像数据的预测类别,完成基于模型无关适配器的数据分布识别。本发明着重于从网络模型架构出发,解决了现有的大多数方法需要预先使用先验知识知道测试图像数据分布难题,提升真实环境数据识别性能及相关应用的精度。
Description
技术领域
本发明属于泛化领域,尤其涉及一种基于模型无关适配器提高复杂多样数据分布的识别方法。
背景技术
深度学习在计算机视觉的各种应用中取得了前所未有的成功,例如图像分类,但这些成功大多基于独立同分布假设,即,训练和测试图片数据来自相同的分布。然而,由于广泛存在未观察到的混杂因素或数据偏差,训练图片数据和测试图片数据之间的分布外变化通常是不可避免的。在这种情况下,采用独立同分布假设的经验风险最小化训练的深度模型通常在分布外数据上表现不佳。因此,提高深度模型的分布外泛化能力是非常重要。
最近,人们提出了许多分布外方法,通过引入各种正则化器来学习对不同分布(或叫做环境)不变的表示或预测变量。尽管这些方法在与训练数据有主要分布变化的测试数据上取得了良好的分布外泛化性能,但通过实验发现它们会显着损害独立同分布(或者几乎没有变化差异)或较小变化数据的性能。并且在彩色手写数字识别数据上的分布外泛化和独立同分布场景中实现了一些代表性的分布外泛化方法,结果显示:这些方法具有显著的分布外泛化的准确度,但是独立同分布的性能很差,或者带有很高的独立同分布的性能但是分布外泛化的精度就很差。造成这种现象的一个可能原因是许多分布外方法提取不变特征,同时可能丢失一些有助于独立同分布泛化的信息。
发明内容
本发明着重于从网络模型架构出发,解决了现有的大多数方法需要预先使用先验知识知道测试数据的分布的难题,提出一种基于模型无关适配器提高复杂多样数据分布的识别方法,其能够直接对现实环境数据变量进行测试,提升真实环境数据识别及相关应用的精度。
本发明具体采用的技术方案如下:
第一方面,本发明提供一种基于模型无关适配器提高复杂多样数据分布的识别方法,包括如下步骤:
S1.获取不同种环境下用于数据分布识别的训练集,所述训练集包含若干个独立同分布图像数据、分布外泛化图像数据、独立同分布图像数据的标签、以及分布外泛化图像数据的标签;
S2.利用所述训练集训练数据分布识别模型,基于最小化独立同分布损失函数以及分布外泛化损失函数对数据分布识别模型的网络参数进行更新;其中,所述数据分布识别模型由一个特征提取模块和一个分类模块依次级联而成;所述特征提取模块由一个初始卷积模块和若干个残差模块依次级联而成;在每个残差模块中,输入的图像数据依次经过第一卷积层、批归一化和ReLU,得到第一特征图;将第一特征图依次经过第一卷积层和批归一化,得到第二特征图;将第二特征图输入到一个模型无关适配器中,得到第三特征图,将第三特征图与输入的图像数据进行残差连接,得到第四特征图,将第四特征图经过ReLU,得到输出特征图;所述模型无关适配器由多个全连接层依次级联而成;
S3.将待分类识别的图像数据输入到经过训练的数据分布识别模型中,输出待分类识别的图像数据的预测类别,完成基于模型无关适配器的数据分布识别。
作为上述第一方面的优选,所述独立同分布损失函数的函数形式为:
其中,表示第e种环境下的训练图像;gφ(·;φ)表示所述分类模块,φ表示所述分类模块的参数;fθ(·;θ)表示所述特征提取模块,θ表示所述特征提取模块的参数;/>表示第e种环境下第i个训练图像的标签;/>表示第e种环境下第i个训练图像;l(·)表示第i个训练图像的独立同分布损失函数;n表示所述训练集中训练图像的数量;E表示环境种类的数量。
作为上述第一方面的优选,所述分布外泛化损失函数的函数形式为:
其中,λ∈[0,∞)表示用来平衡经验风险最小化损失和正则化损失的超参数;表示数据分布识别模型参数φ=1.0,只需要更新数据分布识别模型参数θ的梯度;表示2-范数的平方。
作为上述第一方面的优选,所述分布外泛化损失函数的函数形式为:
其中,τ∈[0,∞)表示用来平衡经验风险最小化损失和正则化损失的超参数;表示第e种环境下的损失方差。
作为上述第一方面的优选,所述分类模块由一个平均池化层和一个线性层依次级联而成。
作为上述第一方面的优选,所述初始卷积模块由一个初始卷积层、批归一化、ReLU依次级联而成,所述初始卷积层的卷积核大小为3×3。
作为上述第一方面的优选,所述数据分布识别模型带有四个残差模块;所述模型无关适配器带有2个全连接层;所述第一卷积层的卷积核大小为3×3。
第二方面,本发明提供了一种基于模型无关适配器提高复杂多样数据分布的识别系统,包括:
数据获取模块,用于获取不同种环境下用于数据分布识别的训练集,每种环境下的所述训练集均包含若干个独立同分布图像数据、分布外泛化图像数据、独立同分布图像数据的标签、以及分布外泛化图像数据的标签;
数据分布识别模型获取模块,用于利用所述训练集训练数据分布识别模型,基于最小化独立同分布损失函数以及分布外泛化损失函数对数据分布识别模型的网络参数进行更新;其中,所述数据分布识别模型由一个特征提取模块和一个分类模块依次级联而成;所述特征提取模块由一个初始卷积模块和若干个残差模块依次级联而成;在每个残差模块中,输入的图像数据依次经过第一卷积层、批归一化和ReLU,得到第一特征图;将第一特征图依次经过第一卷积层和批归一化,得到第二特征图;将第二特征图输入到一个模型无关适配器中,得到第三特征图,将第三特征图与输入的图像数据进行残差连接,得到第四特征图,将第四特征图经过ReLU,得到输出特征图;所述模型无关适配器由多个全连接层依次级联而成;
数据分布预测模块,用于将待分类识别的图像数据输入到经过训练的数据分布识别模型中,输出待分类识别的图像数据的预测类别,完成基于模型无关适配器的数据分布识别。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上述第一方面任一方案的基于模型无关适配器提高复杂多样数据分布的识别方法。
第四方面,本发明提供了一种计算机电子设备,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如上述第一方面任一方案的基于模型无关适配器提高复杂多样数据分布的识别方法。
本发明相对于现有技术而言,具有以下有益效果:
本发明使用表征学习技术进行平衡现实环境数据独立同分布和分布外泛化。针对之前独立同分布-分布外泛化困境问题,并提出了一种有效的基于模型无关适配器提高复杂多样数据分布的识别方法,以实现独立同分布和分布外泛化之间的平衡泛化性能。对不确定的现实世界分布变化的分布外评估。具体来说,本发明所提出的方法在数据分布识别模型中插入辅助适配器层,以同时学习独立同分布图像数据和分布外泛化图像数据的归纳偏差。并采用独立同分布损失函数以及分布外泛化损失函数双层优化方式,以分布外泛化损失函数优化内部层的深度神经网络,并基于内部层优化的深度神经网络模型使用独立同分布损失函数更新外部层的模型无关适配器参数,大大提升了域泛化的性能。本发明首次平衡两种测试环境数据分布,在算法和运用上有自己的独创性和独特性,将本发明应用于现有的基于现实环境数据预测方法,可以达到相当、甚至更好的性能表现。
附图说明
图1为本发明的流程示意图;
图2为本发明的模型无关适配器的示意图;
图3为本发明的模型无关适配器的结构图;
图4为本发明的系统框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,为本发明实施例的一种基于模型无关适配器提高复杂多样数据分布的识别方法流程图,其包括如下步骤:
S1.获取不同种环境下用于数据分布识别的训练集,上述训练集包含若干个独立同分布图像数据、分布外泛化图像数据、独立同分布图像数据的标签、以及分布外泛化图像数据的标签;
需要说明的是,在本发明实施例步骤S1中,为了模拟复杂多样的真实环境分布,因此构建了一个不同种环境下既有独立同分布图像数据又有分布外泛化图像数据的数据集。将数据集按照8:2的比例进行划分,得到用于数据分布识别的训练集以及测试集。其中,训练集/>服从训练分布/>其用来训练数据分布识别模型;测试集/>服从测试分布/>其用来测试数据分布识别模型独立同分布以及分布外泛化的性能。
给定数据集中,每一个图像数据A和每一个图像样本标签(或结果)变量B之间的数据关系为:
其中,A表示数据集中图像数据的样本空间,B表示数据集/>中图像数据的标签空间,S表示数据集/>中图像数据的数量,as表示表示数据集/>中第s个图像数据;bs表示数据集/>中第s个图像数据的标签。
S2.利用上述训练集训练数据分布识别模型,基于最小化独立同分布损失函数以及分布外泛化损失函数对数据分布识别模型的网络参数进行更新。其中,上述数据分布识别模型由一个特征提取模块和一个分类模块依次级联而成。上述特征提取模块由一个初始卷积模块和若干个残差模块依次级联而成。在每个残差模块中,输入的图像数据依次经过第一卷积层、批归一化和ReLU,得到第一特征图;将第一特征图依次经过第一卷积层和批归一化,得到第二特征图;将第二特征图输入到一个模型无关适配器中,得到第三特征图,将第三特征图与输入的图像数据进行残差连接,得到第四特征图,将第四特征图经过ReLU,得到输出特征图。上述模型无关适配器由多个全连接层依次级联而成。
需要说明的是,在本发明中,上述分类模块以及初始卷积模块的结构可由本领域技术人员结合实际情况进行相应调整。在本实施例中,上述分类模块由一个平均池化层和一个线性层依次级联而成;上述初始卷积模块由一个初始卷积层、批归一化、ReLU依次级联而成,初始卷积层的卷积核大小为3×3;上述数据分布识别模型带有四个残差模块;上述模型无关适配器带有2个全连接层;上述第一卷积层的卷积核大小为3×3。
需要说明的是,在本发明的独立同分布学习过程中,深度学习方法总是假定训练分布和测试分布/>相等,即/>基于独立同分布的假设,利用经验风险最小化方法使得训练图像的平均损失最小化,进而使得数据分布识别模型可以泛化到测试分布。经验风险最小化的优化目标为上述独立同分布损失函数/>其函数形式为:
其中,表示表示第e种环境下的训练图像;fθ(·;θ)表示上述特征提取模块,其目的是把图像数据从样本空间/>映射到特征空间/>即/>θ表示上述特征提取模块的参数;gφ(·;φ)表示上述分类模块,其目的是把图像数据从特征空间/>映射到类别空间/>即/>φ表示上述分类模块的参数;/>表示第e种环境下第i个训练图像的标签;/>表示第e种环境下第i个训练图像;l(·)表示第i个训练图像的独立同分布损失函数;n表示上述训练集中训练图像的数量;E表示环境种类的数量。
需要说明的是,在本发明的分布外泛化学习过程中,测试分布是没有见过且不同于训练分布/>的,即/>一般而言,分布外泛化方法的训练数据空间/>中有多个环境或者分布,即ε=(e1,e2,…,eE)。不同环境中,非语义信息(例如背景)和语义信息(例如物体的形状)之间的关系是不稳定的。存在分布外泛化方法通过引入各种正则项学习不变的表达,上述优化目标为分布外泛化损失函数,其可采用/>或者/>上述两种形式均可实现。其中,分布外泛化损失函数/>的函数形式为:
上述分布外泛化损失函数的函数形式为:
其中,λ∈[0,∞)、τ∈[0,∞)均表示用来平衡经验风险最小化损失和正则化损失的超参数;表示数据分布识别模型参数φ=1.0,只需要更新数据分布识别模型参数θ的梯度;/>表示2-范数的平方;/>表示第e种环境下的损失方差。
为了便于本领域技术人员更好理解本发明的模型无关适配器,现将模型无关适配器的作用以及原理作简要说明。在本实施例中,首先利用上述独立同分布损失函数(例如不变风险最小化方法)以及分布外泛化损失函数(例如经验风险最小化方法)分别训练数据分布识别模型,然后将数据分布识别模型最后一个卷积层通道上的归纳偏置进行可视化,即批归一化的均值和方差。可视化结果显示:采用独立同分布损失函数和分布外泛化损失函数分别提取不同图像数据特征,以进行数据分布识别模型的优化,导致两者分别学习不同的归纳偏置,呈现相反的方向。具体来说,采用独立同分布损失函数训练的数据分布识别模型,可从训练分布中提取简单学习的变化特征(例如背景)并将其很好的泛化到带有相同分布的测试图像上。采用分布外泛化损失函数训练的数据分布识别模型,可从训练分布中学习不变的特征(例如物体的形状),以提高和训练分布差异比较大的测试图像的性能。这种独立同分布损失函数和分布外泛化损失函数博弈的现象,导致现有的大多数方法不能适应到复杂多样的真实环境的应用中,也无法在真实环境中给出最优的测试结果。
因此,本发明实施例提出模型无关适配器,并将其插入到现有的网络架构(Res-Net18)上,两者分别提取数据表征的不同部分,目的是平衡独立同分布和分布外泛化两种测试环境的性能,即让深度神经网络提取不变的特征(例如物体的形状)可以提高在分布外泛化测试环境的泛化性,同时让模型无关适配器关注变化的特征(例如物体的背景)进而保证独立同分布测试环境的性能,进而对复杂多样的数据表征进一步学习。具体来说,如图3所示,将模型无关适配器额外插入到深度神经网络的卷积层和批归一化层之间,模型无关适配器提取的信息被融入到深度神经网络,深度神经网络第l∈[1,…L]层卷积层的输出作为第l+1层卷积层的输入,上述特征提取过程的函数形式为:
其中,表示第l层的深度神经网络参数;/>表示第l层卷积层的输入特征;Wl、Hl和Cl分别表示第l层卷积层的输入特征的宽、高和通道数;Aα表示模型无关适配器的参数;αl表示插入到第l层卷积层的模型无关适配器的参数。
进而,模型无关适配器内部的信息传输过程为:
其中,αl=(Bl,Al),r的维度远小于min(Cl,Cl+1),Cl、Cl+1分别表示第l层卷积层、第(l+1)层卷积层的通道数。
需要说明的是,本发明的模型无关适配器结构可根据实际情况进行调整,在本发明实施例中,模型无关适配器的网络结构为2个全连接层MLP,具体网络架构如图2所示。将模型适配器的结构设置为全连接形式的好处是:
(1)低秩适应:两个全连接意味着模型参数的调整是在低秩(低维度)空间中进行的,这可以减少需要调整的参数数量,降低计算成本,并减轻模型可能出现的过拟合问题。
(2)适配器模型的适应性:全连接可能更适用于处理参数数量巨大的情况,因为其在低秩空间中进行调整,有助于应对大规模模型的挑战。
(3)参数共享:通过在低秩空间中共享参数,全连接可能有助于更好地捕捉模型中的通用特征,提高模型的泛化性能。
(4)减少过拟合的风险:低秩适应可能有助于降低对训练数据的过分拟合,因为它在参数空间中引入了一些共享的结构,从而提高了对未见数据的泛化性。
(5)更快的收敛速度:由于低秩空间的参数数量较少,全连接可能具有更快的收敛速度,这对于大规模模型的训练是一个重要的考虑因素。
S3.将待分类识别的图像数据输入到经过训练的数据分布识别模型中,输出待分类识别的图像数据的预测类别,完成基于模型无关适配器的数据分布识别。
下面利用前述的基于模型无关适配器提高复杂多样数据分布的识别方法,通过一个具体的应用实例来展示本发明分类方法的具体效果。具体的方法步骤如前所述,不再赘述,下面仅展示其具体效果。
实施例
本实施例在真实环境数据集上进行测试。该方法主要针对自然图片和对应的标签之间的关系,通过自动的对测试数据提取样本特征,获取仅仅和标签条件相关的预测信息,从而辅助真实环境数据识别以达到最大的精度。
在本实施例的训练过程和测试过程中,分别采样1000个图像样本用于训练、测试,其中从训练图像样本中采样800个图像样本训练模型,200个图像样本作为独立同分布测试。同理从测试图像样本中采样800个图像样本作为分布外泛化测试,200个图像样本用来选择最好的模型参数。每个图像样本都包含了自然数据图像、对应的标签和其他相关的混合数据。为了展示本实施例的方法在平衡真实复杂多样数据分布的性能,使用基于独立同分布和分布外泛化的方法进行自然数据图片的预测与识别,包括ERM、IRM、VREx、ARM、MLDG、MMD、IGA,其中,在现有技术文献Vladimir Vapnik and Vlamimir Vapnik.Statisticallearning theory wiley.New York,1(624):2,1中提出的ERM方法;在现有技术文献Arjovsky,Martin and Bottou,L'eon and Gulrajani,Ishaan and Lopez-Paz,David.Invariant risk minimization.In arXiv preprint arXiv:1907.02893,2019中提出的IRM方法;在现有技术文献Krueger,David and Caballero,Ethan and Jacobsen,Joern-Henrik and Zhang,Amy and Binas,Jonathan and Zhang,Dinghuai and LePriol,Remi and Courville,Aaron.Out-of-distribution generalization via riskextrapolation(rex).In ICML,pp.5815–5826,2021中提出的VREx方法;在现有技术文献Zhang,Marvin and Marklund,Henrik and Dhawan,Nikita and Gupta,Abhishek andLevine,Sergey and Finn,Chelsea.Adaptive risk minimization:Learning to adaptto domain shift.In NeurIPS,pp.23664–23678,2021中提出的ARM方法;在现有技术文献Li,Da and Yang,Yongxin and Song,Yi-Zhe and Hospedales,Timothy.Learning togeneralize:Meta-learning for domain generalization.In AAAI,pp.4221–4231,2018中提出的MLDG方法;在现有技术文献Li,Haoliang and Pan,Sinno Jialin and Wang,Shiqi and Kot,Alex C.Domain generalization with adversarial featurelearning.In CVPR,pp.5400–5409,2018中提出的MMD方法;在现有技术文献MasanoriKoyama and Shoichiro Yamaguchi.When is invariance useful in an out-of-distribution generalization problem?In arXiv preprint arXiv:2008.01883,2020中提出的IGA方法。
为进一步客观评估本发明方法的性能,将自然图像的独立同分布(IID)预测结果和分布外泛化(OOD)预测结果两者的调和平均(HM)作为自然图像平衡的预测结果,即HM=(2x1x2)/(x1+x2)。实验结果如表1所示,结果表明,本发明的方法(MAP)具有极高的自然数据图片识别精度,从而能够显著提升真实环境数据识别的效率和准确性。
表1不同优化方法下自然数据图片识别的准确率及其调和平均值
算法 | ERM | IRM | VREx | ARM | MLDG | MMD | IGA | MAP(MLP) |
IID | 86.0 | 32.6 | 14.6 | 49.9 | 50.3 | 51.3 | 25.0 | 73.6 |
OOD | 29.7 | 60.3 | 52.9 | 28.1 | 29.4 | 50.6 | 50.5 | 54.9 |
HM | 44.2 | 42.3 | 22.9 | 36.0 | 34.6 | 51.0 | 33.4 | 62.9 |
另外需要说明的是,上述实施例中的基于模型无关适配器提高复杂多样数据分布的识别方法,本质上可以通过计算机程序或者模块来执行。因此同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的基于模型无关适配器提高复杂多样数据分布的识别方法对应的一种基于模型无关适配器提高复杂多样数据分布的识别系统,如图4所示,其包括:
数据获取模块,用于获取不同种环境下用于数据分布识别的训练集,每种环境下的所述训练集均包含若干个的独立同分布图像数据、分布外泛化图像数据、独立同分布图像数据的标签、以及分布外泛化图像数据的标签;
数据分布识别模型获取模块,用于利用所述训练集训练数据分布识别模型,基于最小化独立同分布损失函数以及分布外泛化损失函数对数据分布识别模型的网络参数进行更新;其中,所述数据分布识别模型由一个特征提取模块和一个分类模块依次级联而成;所述特征提取模块由一个初始卷积模块和若干个残差模块依次级联而成;在每个残差模块中,输入的图像数据依次经过第一卷积层、批归一化和ReLU,得到第一特征图;将第一特征图依次经过第一卷积层和批归一化,得到第二特征图;将第二特征图输入到一个模型无关适配器中,得到第三特征图,将第三特征图与输入的图像数据进行残差连接,得到第四特征图,将第四特征图经过ReLU,得到输出特征图;所述模型无关适配器由多个全连接层依次级联而成;
数据分布预测模块,用于将待分类识别的图像数据输入到经过训练的数据分布识别模型中,输出待分类识别的图像数据的预测类别,完成基于模型无关适配器的数据分布识别。
同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的基于模型无关适配器提高复杂多样数据分布的识别方法对应的一种计算机电子设备,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现上述实施例中的基于模型无关适配器提高复杂多样数据分布的识别方法。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
由此,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的基于模型无关适配器提高复杂多样数据分布的识别方法对应的一种计算机可读存储介质,该所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现上述实施例中的基于模型无关适配器提高复杂多样数据分布的识别方法。
可以理解的是,上述存储介质可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可以理解的是,上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
另外需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本发明所提供的各实施例中,所述的系统和方法中对于步骤或者模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或步骤可以结合或者可以集成到一起,一个模块或者步骤亦可进行拆分。
综上所述,本发明的关键技术在于基于深度学习网络架构,解决了现有的大多数方法需要预先使用先验知识知道测试数据的分布的难题,提出一种基于模型无关适配器提高复杂多样数据分布的识别方法,实现可直接从可观测变量中提取有利于模型预测的特征,能够直接对现实环境数据变量进行测试,从而提升真实环境数据的识别效率及相关应用的精度。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种基于模型无关适配器提高复杂多样数据分布的识别方法,其特征在于,包括如下步骤:
S1.获取不同种环境下用于数据分布识别的训练集,所述训练集包含若干个独立同分布图像数据、分布外泛化图像数据、独立同分布图像数据的标签、以及分布外泛化图像数据的标签;
S2.利用所述训练集训练数据分布识别模型,基于最小化独立同分布损失函数以及分布外泛化损失函数对数据分布识别模型的网络参数进行更新;其中,所述数据分布识别模型由一个特征提取模块和一个分类模块依次级联而成;所述特征提取模块由一个初始卷积模块和若干个残差模块依次级联而成;在每个残差模块中,输入的图像数据依次经过第一卷积层、批归一化和ReLU,得到第一特征图;将第一特征图依次经过第一卷积层和批归一化,得到第二特征图;将第二特征图输入到一个模型无关适配器中,得到第三特征图,将第三特征图与输入的图像数据进行残差连接,得到第四特征图,将第四特征图经过ReLU,得到输出特征图;所述模型无关适配器由多个全连接层依次级联而成;
S3.将待分类识别的图像数据输入到经过训练的数据分布识别模型中,输出待分类识别的图像数据的预测类别,完成基于模型无关适配器的数据分布识别。
2.如权利要求1所述的一种基于模型无关适配器提高复杂多样数据分布的识别方法,其特征在于,所述独立同分布损失函数的函数形式为:
其中,表示第e种环境下的训练图像;gφ(·;φ)表示所述分类模块,φ表示所述分类模块的参数;fθ(·;θ)表示所述特征提取模块,θ表示所述特征提取模块的参数;/>表示第e种环境下第i个训练图像的标签;/>表示第e种环境下第i个训练图像;l(·)表示第i个训练图像的独立同分布损失函数;n表示所述训练集中训练图像的数量;E表示环境种类的数量。
3.如权利要求2所述的一种基于模型无关适配器提高复杂多样数据分布的识别方法,其特征在于,所述分布外泛化损失函数的函数形式为:
其中,λ∈[0,∞)表示用来平衡经验风险最小化损失和正则化损失的超参数;表示数据分布识别模型参数φ=1.0,只需要更新数据分布识别模型参数θ的梯度;/>表示2-范数的平方。
4.如权利要求2所述的一种基于模型无关适配器提高复杂多样数据分布的识别方法,其特征在于,所述分布外泛化损失函数的函数形式为:
其中,τ∈[0,∞)表示用来平衡经验风险最小化损失和正则化损失的超参数;表示第e种环境下的损失方差。
5.如权利要求1所述的一种基于模型无关适配器提高复杂多样数据分布的识别方法,其特征在于,所述分类模块由一个平均池化层和一个线性层依次级联而成。
6.如权利要求1所述的一种基于模型无关适配器提高复杂多样数据分布的识别方法,其特征在于,所述初始卷积模块由一个初始卷积层、批归一化、ReLU依次级联而成,所述初始卷积层的卷积核大小为3×3。
7.如权利要求1所述的一种基于模型无关适配器提高复杂多样数据分布的识别方法,其特征在于,所述数据分布识别模型带有四个残差模块;所述模型无关适配器带有2个全连接层;所述第一卷积层的卷积核大小为3×3。
8.一种基于模型无关适配器提高复杂多样数据分布的识别系统,其特征在于,包括:
数据获取模块,用于获取不同种环境下用于数据分布识别的训练集,每种环境下的所述训练集均包含若干个独立同分布图像数据、分布外泛化图像数据、独立同分布图像数据的标签、以及分布外泛化图像数据的标签;
数据分布识别模型获取模块,用于利用所述训练集训练数据分布识别模型,基于最小化独立同分布损失函数以及分布外泛化损失函数对数据分布识别模型的网络参数进行更新;其中,所述数据分布识别模型由一个特征提取模块和一个分类模块依次级联而成;所述特征提取模块由一个初始卷积模块和若干个残差模块依次级联而成;在每个残差模块中,输入的图像数据依次经过第一卷积层、批归一化和ReLU,得到第一特征图;将第一特征图依次经过第一卷积层和批归一化,得到第二特征图;将第二特征图输入到一个模型无关适配器中,得到第三特征图,将第三特征图与输入的图像数据进行残差连接,得到第四特征图,将第四特征图经过ReLU,得到输出特征图;所述模型无关适配器由多个全连接层依次级联而成;
数据分布预测模块,用于将待分类识别的图像数据输入到经过训练的数据分布识别模型中,输出待分类识别的图像数据的预测类别,完成基于模型无关适配器的数据分布识别。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~7任一所述的基于模型无关适配器提高复杂多样数据分布的识别方法。
10.一种计算机电子设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~7任一所述的基于模型无关适配器提高复杂多样数据分布的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410018143.9A CN117994570A (zh) | 2024-01-05 | 2024-01-05 | 基于模型无关适配器提高复杂多样数据分布的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410018143.9A CN117994570A (zh) | 2024-01-05 | 2024-01-05 | 基于模型无关适配器提高复杂多样数据分布的识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117994570A true CN117994570A (zh) | 2024-05-07 |
Family
ID=90887992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410018143.9A Pending CN117994570A (zh) | 2024-01-05 | 2024-01-05 | 基于模型无关适配器提高复杂多样数据分布的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117994570A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11876209B2 (en) | 2020-07-30 | 2024-01-16 | Guangdong Brunp Recycling Technology Co., Ltd. | Pre-lithiated lithium ion positive electrode material, and preparation method therefor and use thereof |
-
2024
- 2024-01-05 CN CN202410018143.9A patent/CN117994570A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11876209B2 (en) | 2020-07-30 | 2024-01-16 | Guangdong Brunp Recycling Technology Co., Ltd. | Pre-lithiated lithium ion positive electrode material, and preparation method therefor and use thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966074B (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
Rong et al. | Radial lens distortion correction using convolutional neural networks trained with synthesized images | |
US20200073968A1 (en) | Sketch-based image retrieval techniques using generative domain migration hashing | |
WO2020214305A1 (en) | Multi-task machine learning architectures and training procedures | |
CN110555399B (zh) | 手指静脉识别方法、装置、计算机设备及可读存储介质 | |
CN113487629B (zh) | 一种基于结构化场景和文本描述的图像属性编辑方法 | |
CN113837370B (zh) | 用于训练基于对比学习的模型的方法和装置 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
US11681913B2 (en) | Method and system with neural network model updating | |
CN117994570A (zh) | 基于模型无关适配器提高复杂多样数据分布的识别方法 | |
CN111460222B (zh) | 一种基于多视角低秩分解的短视频多标签分类方法 | |
CN115080749B (zh) | 一种基于自监督训练的弱监督文本分类方法、系统和装置 | |
CN112818889A (zh) | 基于动态注意力的超网络融合视觉问答答案准确性的方法 | |
CN111522979B (zh) | 图片排序推荐方法、装置、电子设备、存储介质 | |
CN111507406A (zh) | 一种用于优化神经网络文本识别模型的方法与设备 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN114692750A (zh) | 一种细粒度图像分类方法、装置、电子设备及存储介质 | |
Peng et al. | Swin transformer-based supervised hashing | |
WO2022133814A1 (en) | Omni-scale convolution for convolutional neural networks | |
CN114692715A (zh) | 一种样本标注方法及装置 | |
CN113901175A (zh) | 物品关系判别方法和装置 | |
Zhang et al. | Nonlinear dictionary learning based deep neural networks | |
CN110796167A (zh) | 基于提升方案深度神经网络的图像分类方法 | |
CN117095447B (zh) | 一种跨域人脸识别方法、装置、计算机设备及存储介质 | |
Abdi et al. | Binary domain adaptation with independence maximization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |