CN113989595A - 一种基于阴影模型的联邦多源域适应方法及系统 - Google Patents
一种基于阴影模型的联邦多源域适应方法及系统 Download PDFInfo
- Publication number
- CN113989595A CN113989595A CN202111308767.7A CN202111308767A CN113989595A CN 113989595 A CN113989595 A CN 113989595A CN 202111308767 A CN202111308767 A CN 202111308767A CN 113989595 A CN113989595 A CN 113989595A
- Authority
- CN
- China
- Prior art keywords
- domain
- source
- target
- network
- source domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000010606 normalization Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 150000007524 organic acids Chemical class 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 238000003860 storage Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Abstract
本发明公开了一种基于阴影模型的联邦多源域适应方法及系统,设计基于阴影模型的联邦多源域适应网络模型,对不同的源域模型进行去中心化预训练,获取K个去中心化训练好的源域模型;通过获取目标域样本对应的可能性输出,计算不同源域模型输出结果的类间方差,通过归一化处理获取不同源域模型对目标域的贡献占比;通过加权计算获取每一个目标域样本的伪标签,并对目标样本赋予伪标签;通过结合协同教学和混淆匹配的方式,对伪标签目标样本进行标签噪声学习,依次迭代直到网络TA和TB收敛,在源域数据、网络参数以及学习梯度均不可知的情况下实现无监督域适应。本发明方法有效促进在保障用户隐私安全前提下的网络训练,具有重大的社会意义。
Description
技术领域
本发明属于深度学习的计算机视觉技术领域,具体涉及一种基于阴影模型的联邦多源域适应方法及系统。
背景技术
近年来,计算机视觉方面的研究在现实生活中被广泛应用。但在实现过程严重受到大量标记样本数据的约束,而标记数据需要耗费大量的人力、物力和财力。为了解决应用中数据标签不足的问题,无监督域适应相关研究取得了很大的进展。现有方法大多基于同时获取有标记的源域数据以及无标签的目标域数据的前提下完成。传统的无监督多源域适应(UMDA)方法假设可以直接访问所有源域数据集。但这一假设忽略了用户的隐私保护问题,但由于部分信息包含用户的私人生物信息,涉及到用户的隐私问题,如用户的生物信息:指纹,人脸,虹膜等,为了保护用户的数据隐私和安全抵御网络攻击,其中所有数据和计算必须保持分散,保证设备只能访问自身独有的数据。在抵御攻击的过程中,可分为白盒攻击和黑盒攻击,白盒攻击是在可以获取源域数据训练的网络模型参数的情况下进行无监督域适应,但是由于恶意攻击者可以通过对抗的方式对网络模型进行干扰,进而干扰网络的预测性能。黑盒攻击是在不可获取源域数据训练的网络模型参数的情况下进行无监督域适应,相较于白盒攻击可以减轻网络被攻击的风险。
由于不同源域与目标域之间具有不同的域差异,对于目标域网络训练具有不同的贡献,如何能够在不获取各源域数据以及训练网络参数的前提下,实现不同源域对目标域样本的分类性能的定量评价,有效促进目标域网络的训练,进而提升网络对目标域的分类性能是一项困难但又急需解决的问题。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于阴影模型的联邦多源域适应方法及系统,解决现有技术未曾涉及的基于黑盒攻击的源域注意力联邦域适应方法,弥补现有联邦域适应忽略不同源域与目标域之间不同的域差异存在的局限性。
本发明采用以下技术方案:
一种基于阴影模型的联邦多源域适应方法,包括以下步骤:
S1、设计基于阴影模型的联邦多源域适应网络模型;
S2、通过最小化标准的交叉熵损失,对步骤S1设计的不同的源域模型进行去中心化预训练,获取K个去中心化训练好的源域模型;
S3、对步骤S2获取的K个阴影源域模型,通过获取目标域样本对应的可能性输出,计算不同源域模型输出结果的类间方差,通过归一化处理获取不同源域模型对目标域的贡献占比;
S4、对步骤S3获取的不同源域模型对目标域的贡献占比,通过加权计算获取每一个目标域样本的伪标签,并对目标样本赋予伪标签;
S5、通过结合协同教学和混淆匹配的方式,对步骤S4得到的伪标签目标样本进行标签噪声学习,依次迭代直到网络TA和TB收敛,在源域数据、网络参数以及学习梯度均不可知的情况下实现无监督域适应。
具体的,步骤S1中,基于阴影模型的联邦多源域适应网络模型中,有标记的源域和目标域分别由K个有标签的源域数据集和一个无标签的目标域DT表示;源域和目标域具有相同的类别个数C,且所有的源域数据和标签以及目标域样本均不共享。
其中,表示soft-max输出层对应的C维向量的第c个元素的值,q表示的yk的one-hot编码,qc为样本xk的标签yk对应的one-hot编码的第c个元素的值,Sk(xk)为当源域样本xk输入到附图1所示的网络Sk时对应的输出结果,C为输入图像样本的类别总个数。
具体的,步骤S3具体为:
S301、根据步骤S2获取的K个训练好的阴影源域模型,通过输入目标域样本XT获取样本属于不同类别的概率输出;
S302、使用同类别软概率的类方差作为评价指标来评价不同模型对目标域样本的分类能力,计算得到第k个阴影源模型中软概率的类间方差的均值。
其中,Sk为第k个源域图像训练的第k个源域网络,XT为目标域图像样本。
进一步的,步骤S302中,第k个阴影源模型中软概率的类间方差的均值σk为:
具体的,步骤S4中,目标数据XT的软伪标签Ypse为:
其中,wk为第k个阴影源模型的权重,K为源域的个数。
具体的,步骤S5具体为:
S501、根据步骤S4得到所有目标数据的伪标签Ypse,同时训练网络TA和网络TB,当一个小批量数据D形成时,首先让网络TA选择一部分实例让网络TB选择一部分实例实例数由提取的目标样本占比R(T)控制,网络TA和TB从损失实例中选取R(T)百分比的小损失实例,然后将所选实例作为有标签样本训练其对等网络;
其中,βu,βs和βco均表示对应的平衡超参数,为通过网络TB选择的实例DA对应的均方误差损失(MSE),为通过网络TA选择的实例对应的均方误差损失,为通过网络TA选择的实例对应的交叉熵损失,为通过网络TB选择的实例对应的交叉熵损失,βco为0.01,为交叉熵损失计算,为通过网络TA选择的损失实例,ΘA和ΘB分别为网络TA和TB的网络参数,为通过网络TB选择的损失实例。
本发明的另一技术方案是,一种基于阴影模型的联邦多源域适应系统,包括:
设计模块,设计基于阴影模型的联邦多源域适应网络模型;
训练模块,通过最小化标准的交叉熵损失,对不同的源域模型进行去中心化预训练,获取K个去中心化训练好的源域模型;
归一化模块,对训练模块获取的K个阴影源域模型,通过获取目标域样本对应的可能性输出,计算不同源域模型输出结果的类间方差,通过归一化处理获取不同源域模型对目标域的贡献占比;
加权模块,对归一化模块获取的不同源域模型对目标域的贡献占比,通过加权计算获取每一个目标域样本的伪标签,并对目标样本赋予伪标签;
适应模块,通过结合协同教学和混淆匹配的方式,对加权模块得到的伪标签目标样本进行标签噪声学习,依次迭代直到网络TA和TB收敛,在源域数据、网络参数以及学习梯度均不可知的情况下实现无监督域适应。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于阴影模型的联邦多源域适应方法,通过量化不同源域网络输出结果的聚集程度进行归一化,并对不同源域的输出结果进行加权获取目标域样本的伪标签;随后将联邦域适应问题,转换标签噪声学习,进而实现联邦无监督域适应;本发明方法包含多域注意力(Multi-Domain Attention)部分和标签噪声学习(Label Noise Learning)部分:多域注意力部分表示当目标数据通过K个阴影源模型传输时,从软概率中获得类间方差,并进行归一化以获得上方虚线框内的域权重;关于标签噪声学习部分,针对嘈杂的标签,同时训练两个目标模型TA和TB以通过批处理级别的显式教学与选定的具有小损失的目标实例。
进一步的,为保护用户数据隐私安全,不同源域数据均不可共享。由于仅仅通过网络参数仍可以进行源域数据的重构,为进一步提升用户数据隐私安全,我们提出源域数据和对应的网络参数与目标域样本均不可共享的问题设置。
进一步的,对不同的源域模型进行通过交叉熵损失进行去中心化预训练,获取K个去中心化训练好的源域模型,以使得不同源域模型具有对目标域样本的初步分类识别能力,为后续类间方差计算奠定基础。
进一步的,通过实验发现网络的分类性能与网络模型soft-max层输出结果的聚集程度相关,即当网络分类性能越好,这些输出结果就越集中,反之亦然。根据这些理论支撑,通过量化不同源域网络输出结果的聚集程度进行归一化,获取不同源域模型对目标域的贡献占比,以有效抑制源域模型中可能存在负迁移的源域模型。
进一步的,为保护用户数据隐私安全,源域数据和对应的网络参数均不可共享,我们只能获取不同源域的阴影模型,通过将目标域数据作为输入获取对应的soft-max层的输出有助于本发明在保护用户隐私安全的前提下从中提取源域和目标域差异信息。
进一步的,由于同分布测试集上的网络输出大多是低熵预测,与源域分布差异小的目标样本的分类输出结果应是远离决策边界的,每一类别输出的置信度都应具有较强的类别可分性,源域模型soft-max层的输出可分性越强表示其距离目标域的域差异越小。为此对于每一类别我们采用与二分类问题可分性成正比的类间方差对不同源域模型对于目标域的分类性能进行定量评价。并通过soft-max对每个源域的结束输出进行归一化获取每一个源域对目标域分类训练的贡献占比,以抑制源域模型中可能存在负迁移的源域模型,如图2和3所示进一步证明了该本发明方法对于衡量不同源域和目标域域差异的有效性。
进一步的,在基于阴影源域的联邦域适应的前提下,根据获取的不同源域模型对于目标域的贡献占比对不同源域模型的软标签输出进行加权计算可以获取鲁邦的目标域XT的软伪标签Ypse,进而促进目标域分类网络模型TA和TB的训练。
进一步的,通过步骤S4获取获取目标域样本的伪标签后,为了根据带有标签噪声的目标域样本实现目标域分类网络的训练,鉴于神经网络会首先学习易学习样本,本发明提出结合相互教学和插值一致性训练,充分利用带有标签噪声的目标域样本信息,实现对目标域样本的无监督域适应。
进一步的,通过获取的软伪标签直接根据目标域样本和对应的软伪标签通过交叉熵损失最小化进行网络训练,由于伪标签中的标签噪声不可避免,极易导致网络过度自信导致网络过拟合。由于深度神经网络首先学习易学习样本而后学习难学习样本,本发明设置两个不同初始化参数的网络TA和TB结合相互教学的方法,通过对方网络筛选小损失样本作为干净无噪声样本进行交叉熵训练,实现相互约束,通过批量级显式教学来相互过滤错误进而提升网络TA和TB的分类性能。其次为了充分利用目标域样本图像信息,本发明通过对具有清晰标记的目标样本和无标记目标样本进行插值一致性训练,希望网络以最小的均方误差损失和交叉熵损失预测相同的类别,促进网络分类边界穿越低密度区域以更好的未标记的数据结构最终实现对目标域样本进行更好的无监督域适应。
综上所述,本发明解决了现有技术未曾涉及的多源域样本、网络参数以及网络训练梯度均不可知的情况下的无监督域适应方法,有效促进在保障用户隐私安全前提下的网络训练,具有重大的社会意义。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明基于阴影模型的联邦多源域适应方法的整体网络结构图;
图2为本发明涉及到的当源域为D,W,C,目标域为A的训练期间目标数据上的ICVar值和准确率(%)的对比结果图;
图3为本发明涉及到DomainNet数据集上不同任务中目标数据的准确率(%)和ICVar值的对比结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
请参阅图1,本发明一种基于阴影模型的联邦多源域适应方法,包含多域注意力(Multi-Domain Attention)部分和标签噪声学习(Label Noise Learning)部分:其中多域注意力部分表示当目标数据通过K个阴影源模型传输时,从软概率中获得类间方差,并进行归一化以获得红色虚线框内的域权重;关于标签噪声学习部分,针对嘈杂的标签,同时训练两个目标模型TA和TB以通过批处理级别的显式教学与选定的具有小损失的目标实例;包括以下步骤:
S1、设计基于阴影模型的联邦多源域适应网络模型;
其中,K表示去中心化训练的源域个数,NT表示目标域样本的样本个数。
其中,Nk表示第k个源域包含的标签样本的个数。
此外,假设源域和目标域具有相同的类别个数C,且所有的源域数据和标签以及目标域样本均不可共享。
S2、通过最小化标准的交叉熵损失,对步骤S1设计的不同的源域模型进行去中心化预训练,获取K个去中心化训练好的源域模型;
通过最小化标准的交叉熵损失,对不同的源域模型进行去中心化预训练,获取K个去中心化训练好的源域模型,具体按照以下步骤实施:
去中心化训练不同的源域模型,通过最小化标准的交叉熵损失建立K个源域样本到类别的转换网络Sk:Xk→Yk,其中k=1,2,…,K。
交叉熵损失如下所示:
S3、对步骤S2获取的K个阴影源域模型,通过获取目标域样本对应的可能性输出,计算不同源域模型输出结果的类间方差,通过归一化处理获取不同源域模型对目标域的贡献占比;
S301、根据步骤S2获取的K个训练好的阴影源域模型,通过输入目标域样本XT获取样本属于不同类别的概率输出;
其中,Sk为第k个源域图像训练的第k个源域网络,XT为目标域图像样本。
像常见的伪标签获取方法一样,输出类别对应的概率越高,结果为真的可能性就越大。该结果背后的直觉是,源模型的学习能力越强,越能准确地将真实类别与其他类别分离开。当即类别识别的置信度接近“1”,且其他类别的置信度接近“0”时,表示该模型的输出结果是针对该类别的。如果这一直存在,则说明模型可以清楚地区分目标数据的类别。
S302、为了根据目标域样本的软概率输出区分不同源域模型(S2Ms)对目标域样本的贡献,提出了一种名为ICVar的方法,使用同类别软概率的类方差作为评价指标来评价不同模型对目标域样本的分类能力。
随后,第k个阴影源模型中软概率的类间方差的均值计算为:
请参阅图2和图3,C类间方差之和越大,S2Ms在office-caltech10和DomainNet任务中的测试精度越高,多域注意力方法可以用于区分训练阴影模型的源数据和目标域数据的接近程度。
S4、对步骤S3获取的不同源域模型对目标域的贡献占比,通过加权计算获取每一个目标域样本的伪标签,并对目标样本赋予伪标签;
采用一种迭代算法来更新每个阴影源模型的域权重,每个阴影源模型的类间方差可以通过以下归一化来完成:
其中,s(·)表示sigmoid函数,wk表示第k个阴影源模型的权重。
其中,wk为第k个阴影源模型的权重,K为源域的个数。
S5、为了减弱错误的伪标签对网络训练的影响,通过结合协同教学和混淆匹配的方式进行标签噪声学习,依次迭代直到网络收敛,最终实现源域数据、网络参数以及学习梯度均不可知的情况下无监督域适应的实现。
S501、根据步骤S4得到所有目标数据的伪标签Ypse,为了避免其中的标签噪声对目标域网络训练的确认偏差,同时训练两个网络,通过批量级显式教学来相互过滤错误;
请参阅图1,在每个小批量数据中,每个网络选择其小损失实例作为有用知识,并将这些有用实例传授给其对等网络以进行进一步训练。
具体来说,维护两个网络TA(带有参数ΘA)和TB(带有参数ΘB)。当一个小批量数据D形成时,首先让TA选择一小部分损失小的实例让TB选择一小部分损失小的实例实例数由提取的目标样本占比R(T)控制,其中TA和TB只从损失实例中选取R(T)百分比的小损失实例。然后,将所选实例作为有标签样本训练其对等网络。
S502、为根据去中心化训练的阴影源域模型实现无标记目标域样本的分类识别,进而实现无监督域适应,根据阴影源域模型获取的目标域伪标签根据网络总是首先学习易学习知识的前提,根据步骤S501,所有的目标域样本被分为有伪标签的目标域样本和无标签的目标域样本,为了减轻单个网络自训练易过度自信导致过拟合的情况,通过互相教学的方式本发明对于有标记样本进行最小化交叉熵损失训练,使得网络能够实现对目标域样本的初步准确分类,对于无标记的目标域样本通过混合有标记和无标记样本进行插值一致性训练,希望网络以最小的交叉熵损失和均方误差损失预测相同的类别,促进网络分类边界穿越低密度区域以更好的未标记的数据结构。
具体来说,对于一对两个示例及其相应的标签概率(x1,y1)和(x2,y2),或(x1,y1)和无标签的(x2),混合(x′,y′)或(x′)的计算公式如下:
λ~Beta(α,α)
λ′=max(λ,1-λ)
x′=λ′x1+(1-λ′)x2
y′=λ′y1+(1-λ′)y2
类似地,TB的混淆匹配损失表述如下:
最后,TA和TB的总损失表示为:
在实验中,设置βco为1,βs为0.1,并使用βu控制无监督损失的强度。
本发明再一个实施例中,提供一种基于阴影模型的联邦多源域适应系统,该系统能够用于实现上述基于阴影模型的联邦多源域适应方法,具体的,该基于阴影模型的联邦多源域适应系统包括设计模块、训练模块、归一化模块、加权模块以及适应模块。
其中,设计模块,设计基于阴影模型的联邦多源域适应网络模型;
训练模块,通过最小化标准的交叉熵损失,对不同的源域模型进行去中心化预训练,获取K个去中心化训练好的源域模型;
归一化模块,对训练模块获取的K个阴影源域模型,通过获取目标域样本对应的可能性输出,计算不同源域模型输出结果的类间方差,通过归一化处理获取不同源域模型对目标域的贡献占比;
加权模块,对归一化模块获取的不同源域模型对目标域的贡献占比,通过加权计算获取每一个目标域样本的伪标签,并对目标样本赋予伪标签;
适应模块,通过结合协同教学和混淆匹配的方式,对加权模块得到的伪标签目标样本进行标签噪声学习,依次迭代直到网络TA和TB收敛,在源域数据、网络参数以及学习梯度均不可知的情况下实现无监督域适应。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于阴影模型的联邦多源域适应方法的操作,包括:
设计基于阴影模型的联邦多源域适应网络模型;通过最小化标准的交叉熵损失,对不同的源域模型进行去中心化预训练,获取K个去中心化训练好的源域模型;对获取的K个阴影源域模型,通过获取目标域样本对应的可能性输出,计算不同源域模型输出结果的类间方差,通过归一化处理获取不同源域模型对目标域的贡献占比;对获取的不同源域模型对目标域的贡献占比,通过加权计算获取每一个目标域样本的伪标签,并对目标样本赋予伪标签;通过结合协同教学和混淆匹配的方式,对伪标签目标样本进行标签噪声学习,依次迭代直到网络TA和TB收敛,在源域数据、网络参数以及学习梯度均不可知的情况下实现无监督域适应。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于阴影模型的联邦多源域适应方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
设计基于阴影模型的联邦多源域适应网络模型;通过最小化标准的交叉熵损失,对不同的源域模型进行去中心化预训练,获取K个去中心化训练好的源域模型;对获取的K个阴影源域模型,通过获取目标域样本对应的可能性输出,计算不同源域模型输出结果的类间方差,通过归一化处理获取不同源域模型对目标域的贡献占比;对获取的不同源域模型对目标域的贡献占比,通过加权计算获取每一个目标域样本的伪标签,并对目标样本赋予伪标签;通过结合协同教学和混淆匹配的方式,对伪标签目标样本进行标签噪声学习,依次迭代直到网络TA和TB收敛,在源域数据、网络参数以及学习梯度均不可知的情况下实现无监督域适应。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图2,表示当源域为D,W,C,目标域为A的训练期间目标数据上的ICVar值和准确率(%)的对比结果。
请参阅图3,表示DomainNet数据集上不同任务中目标数据的准确率(%)和ICVar值的对比结果。
由图2和图3可知,C类间方差之和越大,S2Ms在office-caltech10和DomainNet数据集任务中的测试精度越高。
结果表明,ICVar值越大,准确度越高,对应的源域和目标域之间的域偏移越小。在一定程度上,ICVar可以用于评估源模型对目标训练的贡献。
在实际应用中源域数据分散且多,为了保证用户的隐私安全,我们无法直接获取源域数据具体信息,对于不同源域与目标域之间的域差异也未知,如何通过源域数据训练的参数不可知黑箱分析不同源域和目标域之间的域差异也是我们需要解决的问题。
通常来讲,当源域和目标域分布差异较小时,训练获取的网络具有更好的目标域样本分类性能,测试准确率也会更高,反之依然。
此外,通过实验我们可以发现网络的分类性能与网络模型soft-max层输出结果的聚集程度相关,即当网络分类性能越好,这些输出结果就越集中,反之依然。根据这些理论支撑,我们通过量化不同源域网络输出结果的聚集程度进行归一化,并对不同源域的输出结果进行加权获取目标域样本的伪标签;随后将联邦域适应问题,转换标签噪声学习,进而实现联邦无监督域适应;本发明解决了现有技术未曾涉及的多源域样本、网络参数以及网络训练梯度均不可知的情况下的无监督域适应方法,有效促进在保障用户隐私安全前提下的网络训练,具有重大的社会意义。
综上所述,本发明一种基于阴影模型的联邦多源域适应方法及系统,通过对不同源域网络输出结果的聚集程度进行归一化获取不同源域对目标域的贡献占比,结合贡献占比对不同源域模型的输出结果进行加权获取目标域样本的伪标签。随后将联邦域适应问题,转换标签噪声学习,进而实现联邦无监督域适应。为在保障用户隐私安全的前提下进行网络训练奠定良好基础。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (10)
1.一种基于阴影模型的联邦多源域适应方法,其特征在于,包括以下步骤:
S1、设计基于阴影模型的联邦多源域适应网络模型;
S2、通过最小化标准的交叉熵损失,对步骤S1设计的不同的源域模型进行去中心化预训练,获取K个去中心化训练好的源域模型;
S3、对步骤S2获取的K个阴影源域模型,通过获取目标域样本对应的可能性输出,计算不同源域模型输出结果的类间方差,通过归一化处理获取不同源域模型对目标域的贡献占比;
S4、对步骤S3获取的不同源域模型对目标域的贡献占比,通过加权计算获取每一个目标域样本的伪标签,并对目标样本赋予伪标签;
S5、通过结合协同教学和混淆匹配的方式,对步骤S4得到的伪标签目标样本进行标签噪声学习,依次迭代直到网络TA和TB收敛,在源域数据、网络参数以及学习梯度均不可知的情况下实现无监督域适应。
4.根据权利要求1所述的基于阴影模型的联邦多源域适应方法,其特征在于,步骤S3具体为:
S301、根据步骤S2获取的K个训练好的阴影源域模型,通过输入目标域样本XT获取样本属于不同类别的概率输出;
S302、使用同类别软概率的类方差作为评价指标来评价不同模型对目标域样本的分类能力,计算得到第k个阴影源模型中软概率的类间方差的均值。
10.一种基于阴影模型的联邦多源域适应系统,其特征在于,包括:
设计模块,设计基于阴影模型的联邦多源域适应网络模型;
训练模块,通过最小化标准的交叉熵损失,对不同的源域模型进行去中心化预训练,获取K个去中心化训练好的源域模型;
归一化模块,对训练模块获取的K个阴影源域模型,通过获取目标域样本对应的可能性输出,计算不同源域模型输出结果的类间方差,通过归一化处理获取不同源域模型对目标域的贡献占比;
加权模块,对归一化模块获取的不同源域模型对目标域的贡献占比,通过加权计算获取每一个目标域样本的伪标签,并对目标样本赋予伪标签;
适应模块,通过结合协同教学和混淆匹配的方式,对加权模块得到的伪标签目标样本进行标签噪声学习,依次迭代直到网络TA和TB收敛,在源域数据、网络参数以及学习梯度均不可知的情况下实现无监督域适应。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111308767.7A CN113989595B (zh) | 2021-11-05 | 2021-11-05 | 一种基于阴影模型的联邦多源域适应方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111308767.7A CN113989595B (zh) | 2021-11-05 | 2021-11-05 | 一种基于阴影模型的联邦多源域适应方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113989595A true CN113989595A (zh) | 2022-01-28 |
CN113989595B CN113989595B (zh) | 2024-05-07 |
Family
ID=79746883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111308767.7A Active CN113989595B (zh) | 2021-11-05 | 2021-11-05 | 一种基于阴影模型的联邦多源域适应方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989595B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082725A (zh) * | 2022-05-17 | 2022-09-20 | 西北工业大学 | 基于可靠样本选择和双分支动态网络的多源域自适应方法 |
CN115310130A (zh) * | 2022-08-15 | 2022-11-08 | 南京航空航天大学 | 一种基于联邦学习的多站点医学数据分析方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019228358A1 (zh) * | 2018-05-31 | 2019-12-05 | 华为技术有限公司 | 深度神经网络的训练方法和装置 |
CN111709315A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种基于领域适配的水声目标辐射噪声识别方法 |
CN112203282A (zh) * | 2020-08-28 | 2021-01-08 | 中国科学院信息工程研究所 | 一种基于联邦迁移学习的5g物联网入侵检测方法及系统 |
AU2020103905A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning |
CN113159283A (zh) * | 2021-03-31 | 2021-07-23 | 华为技术有限公司 | 一种基于联邦迁移学习的模型训练方法及计算节点 |
CN113420888A (zh) * | 2021-06-03 | 2021-09-21 | 中国石油大学(华东) | 一种基于泛化域自适应的无监督联邦学习方法 |
-
2021
- 2021-11-05 CN CN202111308767.7A patent/CN113989595B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019228358A1 (zh) * | 2018-05-31 | 2019-12-05 | 华为技术有限公司 | 深度神经网络的训练方法和装置 |
CN111709315A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种基于领域适配的水声目标辐射噪声识别方法 |
CN112203282A (zh) * | 2020-08-28 | 2021-01-08 | 中国科学院信息工程研究所 | 一种基于联邦迁移学习的5g物联网入侵检测方法及系统 |
AU2020103905A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning |
CN113159283A (zh) * | 2021-03-31 | 2021-07-23 | 华为技术有限公司 | 一种基于联邦迁移学习的模型训练方法及计算节点 |
CN113420888A (zh) * | 2021-06-03 | 2021-09-21 | 中国石油大学(华东) | 一种基于泛化域自适应的无监督联邦学习方法 |
Non-Patent Citations (1)
Title |
---|
闫美阳;李原;: "多源域混淆的双流深度迁移学习", 中国图象图形学报, no. 12, 16 December 2019 (2019-12-16) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082725A (zh) * | 2022-05-17 | 2022-09-20 | 西北工业大学 | 基于可靠样本选择和双分支动态网络的多源域自适应方法 |
CN115082725B (zh) * | 2022-05-17 | 2024-02-23 | 西北工业大学 | 基于可靠样本选择和双分支动态网络的多源域自适应方法 |
CN115310130A (zh) * | 2022-08-15 | 2022-11-08 | 南京航空航天大学 | 一种基于联邦学习的多站点医学数据分析方法及系统 |
CN115310130B (zh) * | 2022-08-15 | 2023-11-17 | 南京航空航天大学 | 一种基于联邦学习的多站点医学数据分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113989595B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Springenberg et al. | Improving deep neural networks with probabilistic maxout units | |
Lee et al. | Deep asymmetric multi-task feature learning | |
CN112949837A (zh) | 一种基于可信网络的目标识别联邦深度学习方法 | |
US11586860B2 (en) | Method for preventing the extraction of a machine learning model | |
CN110033026B (zh) | 一种连续小样本图像的目标检测方法、装置及设备 | |
CN113989595B (zh) | 一种基于阴影模型的联邦多源域适应方法及系统 | |
CN111881722B (zh) | 一种跨年龄人脸识别方法、系统、装置及存储介质 | |
WO2023125654A1 (zh) | 人脸识别模型的训练方法、装置、电子设备及存储介质 | |
CN113569243A (zh) | 基于自监督变分lstm的深层半监督学习网络入侵检测方法 | |
CN112885468A (zh) | 一种基于随机响应差分隐私技术的教师共识聚集学习方法 | |
Lee et al. | Neighborhood reconstructing autoencoders | |
CN111985207B (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
EP3916597A1 (en) | Detecting malware with deep generative models | |
Tsai et al. | Formalizing generalization and adversarial robustness of neural networks to weight perturbations | |
Grari et al. | Learning unbiased representations via rényi minimization | |
CN116010793A (zh) | 分类模型训练方法及装置、类别检测方法 | |
CN117153268A (zh) | 一种细胞类别确定方法及系统 | |
Kompa et al. | Deep learning methods for proximal inference via maximum moment restriction | |
Kuzina et al. | Diagnosing vulnerability of variational auto-encoders to adversarial attacks | |
Zhang et al. | Effective presentation attack detection driven by face related task | |
Yan et al. | Statistical Methods for Tissue Array Images–Algorithmic Scoring and Co-Training | |
CN116580243A (zh) | 一种掩码图像建模引导域适应的跨域遥感场景分类方法 | |
Cheng et al. | Multi-view multi-label learning with view feature attention allocation | |
Liu et al. | Robust hypothesis test for nonlinear effect with gaussian processes | |
CN116359738A (zh) | 电池的健康状态监测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |