CN115578248A - 一种基于风格引导的泛化增强图像分类算法 - Google Patents
一种基于风格引导的泛化增强图像分类算法 Download PDFInfo
- Publication number
- CN115578248A CN115578248A CN202211497758.1A CN202211497758A CN115578248A CN 115578248 A CN115578248 A CN 115578248A CN 202211497758 A CN202211497758 A CN 202211497758A CN 115578248 A CN115578248 A CN 115578248A
- Authority
- CN
- China
- Prior art keywords
- feature
- style
- source domain
- domain
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于风格引导的泛化增强图像分类算法,共由四部分组成:多源域特征提取模块用来提取训练集中每个源域的高维特征;特征风格转换模块通过迁移统计特征的均值和方差将所有训练数据的浅层特征风格分别定向迁移到各个源域中;特征分布距离统计模块在训练结束后累积统计各源域中不同类别的特征中心,用于和测试样本进行域匹配;在线自适应分类模块在训练阶段基于不同的域迁移方向生成不同的分类器,在测试阶段根据匹配到的源域风格选择最适合的分类器进行分类。本发明采用与数据发散相反的方法,将训练数据中的多源特征风格信息统一到一种风格上,并对未知域的测试数据经过一致的迁移方式,从而达到泛化增强的目的。
Description
技术领域
本发明涉及一种基于风格引导的泛化增强图像分类算法,属于图像分类技术领域。
背景技术
在基于数据操作的域泛化分类算法中利用风格迁移进行数据增强是常见的方式,通过生成对抗网络(例如CycleGan)在数据预处理阶段将选定的风格库中的图像风格信息迁移到原有训练集样本上进行数据扩充,可以得到样式丰富但仍保留有完整类别信息的样本集。这种方法旨在发散训练样本分布,却大多依靠在数据预处理阶段人为指定多个方向进行数据发散,无法对发散得到的样本集进行有效的“域饱和”程度量化评价,进而影响了训练得到的模型在测试集上的有效性,同时伴随着生成对抗网络中常见的模式崩塌带来的训练集数据质量不高的风险。
基于域不变表示学习的方法将图像在预处理阶段的扩散过程转移到模型特征提取阶段,目的是训练得到能够有效提取作为分类依据的图像本征特征,其通过计算不同数据域样本之间的特征距离来表示域分布差异,利用在原数据域特征上添加噪声的方式,使得经过干扰后的数据特征与原域特征的域分布差异最大化,从而确定扩散方向。这种方式一定程度上保证了训练集发散的有效性,但仍未对发散程度有较明确的定义和计算,同时随机噪声的添加也存在破坏原有分类有效特征的风险。
发明内容
发明目的:基于风格迁移在域泛化领域算法中所存在的问题,本发明提出一种基于风格引导的泛化增强图像分类算法,采用与数据发散相反的方法,将训练数据中的多源特征风格信息统一到一种风格上,并对未知域的测试数据经过一致的迁移方式后,使得分类器具有较高的识别能力,从而达到泛化增强的目的。
技术方案:为实现上述目的,本发明提供一种基于风格引导的泛化增强图像分类算法,包括以下阶段:
1)训练阶段:
首先通过多源域特征提取模块提取训练集中每个源域的高维特征,而后特征风格转换模块通过迁移统计特征的均值和方差将所有训练数据的浅层特征风格分别定向迁移到各个源域中,最后通过在线自适应分类模块基于不同的域迁移方向生成不同的分类器,并通过特征分布距离统计模块在训练结束后累积统计各个源域的特征中心;
2)测试阶段:
首先通过特征分布距离统计模块实现未知目标域测试样本和已知源域风格特征中心的最佳匹配,而后通过在线自适应分类模块基于匹配到的源域风格选择相应的分类器进行测试样本的分类。
进一步的,所述多源域特征提取模块基于残差网络搭建,用于将输入的训练集按不同源域划分为若干部分,每一部分仅包含相同源域的训练数据。
进一步的,所述特征风格转换模块基于AdaIN风格迁移算法的思想,利用统计特征的均值和方差实现风格特征的迁移,并在训练阶段分别指定各个源域为定向迁移方向进行特征风格迁移,风格定向迁移只在拥有相同类别标签的不同源域中进行。
进一步的,所述特征分布距离统计模块利用训练完成后的浅层特征进行源域特征提取并统计对应域的均值信息,最终对这些统计信息求平均以得到每个源域各自的风格特征中心,计算公式如下:
进一步的,所述特征分布距离统计模块在测试阶段首先计算测试样本的浅层特征均值统计量(测试样本的浅层特征由特征提取模块提取),而后将其与确定的多源域风格特征中心进行匹配,匹配公式如下:
有益效果:本发明提供的一种基于风格引导的泛化增强图像分类算法,相对于现有技术,具有以下优点:
1、提出一种特征层面的定向风格迁移学习策略,利用自适应实例层在训练阶段将多源域训练数据风格特征统一到同一风格域上,可以避免目前域发散方法中“域饱和”程度难以度量带来的风险。
2、提出一种数据域和分类信息联合对齐的迁移策略,多源域之间风格特征的定向迁移只在相同类别中进行,兼顾条件概率分布和边缘概率分布,且不引入训练集外的其他数据,减少噪声对有效分类信息的破坏。
3、提出一种测试阶段在线域匹配及回迁的分类策略,通过对测试样本和训练阶段确定的风格域中心进行距离计算,在线匹配其最适合的迁移方向进行迁移,进一步提升针对测试场景的分类准确率。
附图说明
图1为本发明实施例的整体框架图;
图2为本发明实施例中多源域特征提取模块的原理示意图;
图3为本发明实施例中多源域特征提取模块的组成结构;
图4为本发明实施例中特征风格转换模块的原理示意图;
图5为本发明实施例中在线自适应分类模块的原理示意图;
图6为本发明实施例中所采用的实验数据分布图;
图7为本发明实施例与其他算法在PACS数据集上的实验对比结果。
具体实施方式
下面将结合附图对本发明的优选实施方式进行描述,更加清楚、完整地阐述本发明的技术方案。
如图1所示为本发明提出的一种基于风格引导的泛化增强图像分类算法,该算法分别在训练阶段和测试阶段进行优化,共由四个部分组成,分别为多源域特征提取模块(Feature Extractor)、特征风格转换模块(Feature Style Transfer)、特征分布距离统计模块(Domain Matcher)和在线自适应分类模块(Classifiers)。其中多源域特征提取模块用来分别提取训练集中每个源域的高维特征,这些特征用于后续各个源域的特征中心计算和分类器的输入;特征风格转换模块通过在训练阶段迁移统计特征的均值和方差将所有训练数据的浅层特征风格分别定向迁移到各个源域中,例如FST_1表示所有训练样本特征都迁移到源域1对应的同类别特征风格中,并且这个过程只在不同域的同类别之间完成,在进行边缘概率分布对齐的过程中显式加强进一步保证了条件概率分布对齐;特征分布距离统计模块在训练结束后累积统计各源域中不同类别的特征中心,在测试阶段用于和目标域的测试样本进行域匹配,进一步加强针对测试样本的分类能力;在线自适应分类模块在训练阶段基于不同的域迁移方向生成不同的分类器,并在测试阶段根据特征分布距离统计模块匹配到的源域风格选择最适合的分类器进行分类。
1)多源域特征提取模块;
特征提取模块用于将输入数据映射到高维特征表示空间中,在计算机视觉领域任务中,常用卷积神经网络CNN作为图像的特征提取器。早期卷积神经网络在不断加深的过程中会引起反向传播过程中的梯度消失或梯度爆炸以及网络的退化问题,这些问题在残差网络(ResNet)诞生后得到了很大程度的改善。残差网络由若干个残差块(Residual Block)组成的模块堆叠构成,其中残差块由两路映射相加而成,其中一路为常规卷积映射,另一路为恒等映射,即卷积映射前的原始特征,通过这种保留原始信息的特征整合方式,即可以有效缓解深度网络带来的退化问题。
本发明使用的特征提取器基于残差网络搭建,与常见的特征提取过程不同的是,该特征提取模块在训练阶段会将每个送进网络训练的批次按不同源域划分为若干部分(如图2所示),每一部分仅包含相同源域的训练数据,采用这样的特征提取策略是便于后续特征的定向迁移和特征中心计算。
如图3所示,本发明使用的残差网络特征提取器为ResNet-18网络结构,主要由4个残差结构模块(Block)组成,每个模块中含有2个残差块,加上学习参数的网络层共18层。
2)特征风格转换模块;
本发明中的特征风格转换模块(FST)利用在浅层特征空间进行风格迁移的思想实现,之所以选择在模型浅层进行特征转换,是因为卷积神经网络提取到的浅层特征是一些细粒度信息,如纹理和颜色,高层特征则是抽象信息即语义信息,因为希望转移图像的风格特征而不破坏提供分类依据的语义信息,所以选择在浅层网络中进行定向迁移。
FST模块中的特征风格迁移方式借鉴了自适应实例标准化层(AdaIN)中将卷积神经网络提取到的特征风格信息以统计量均值和方差的形式分离出来的思想,AdaIN是XunHuang等人提出的一种任意风格实时迁移算法,是在批量标准化(BN)层和实例标准化(IN)层的基础上提出的。BN层的提出是为了解决早期深度网络训练缓慢、收敛困难,通过标准化每个批次的数据分布实现;IN层与BN层表述基本一致,但标准化统计尺度从批量数据改为单个样本实例。
近年来大量实验证明IN层相比于BN层更适合风格迁移任务,Xun Huang等人认为IN层的这种对单样本特征统计特性(均值和方差)进行标准化,某种程度上实现了对自身的风格标准化,并设计了实验证明他们的观点,进而设计了AdaIN风格迁移算法,利用风格对象特征均值和方差代替网络学习参数γ和β,从而实现风格特征的迁移:
其中,AdaIN(x,y)表示将特征y的风格信息迁移到特征x中,特征x来自提供内容信息的样本,特征y来自提供风格信息的样本;μ(x),μ(y)分别表示特征x和特征y的均值信息,σ(x),σ(y)分别表示特征x和特征y的方差信息。
本发明中的FST模块根据域泛化任务中的多源域特性,采用AdaIN中用均值和方差剥离特征风格信息的思想,在训练阶段分别指定多源域中的各个数据域为定向迁移方向进行特征风格迁移,由此保证联合概率分布对齐;为了进一步保证这个过程中的条件概率分布对齐,风格定向迁移只在拥有相同类别标签的不同源域中进行,迁移示意图如图4所示。
与目前领域泛化中常见的域随机化做法不同,本发明将不同源域的风格特征收敛到指定的源域中,并希望模型学习到这种定向风格特征迁移方式,在面对未知测试样本时分类器依然能够对通过这种固定方向的迁移数据进行有效分类。
3)特征分布距离统计模块;
特征分布距离统计模块(DM)主要功能是计算训练集各个源域的浅层特征中心,用于测试阶段完成未知域测试样本和已知源域风格特征中心的最佳匹配,从而选择最合适的迁移方向,进一步增强针对测试场景的域适应能力。
对于各个源域的特征中心计算,DM利用训练完成后的特征提取器浅层进行源域特征提取并统计对应域的均值信息,最终对这些统计信息求平均以得到每个源域各自的风格特征中心,计算过程如下所示:
在域自适应和域泛化相关任务中,基于域分布差异方法进行讨论的工作非常广泛,其核心思想是选择合适的特征距离度量方式进行特征之间的差异计算,进而利用卷积神经网络学习减小不同域之间的分布差异提升分类器的适应能力。最大均值差异(MaximumMean Discrepancy)就是常见且有效的与差异度量准则,被广泛应用于比较两个数据分布的相似性,MMD的基本思想是如果描述随机变量的任意高阶矩都相同,那么两个分布一致,若不相同,那么使得两个分布差异最大的矩应该被认为是两个分布的度量标准,如均值为一阶矩,方差为二阶矩。MMD的定义如下所示:
其中sup表示求上界,E表示求期望,x p , y q 分别表示满足p分布的x和满足q分布的
y,f表示高维映射函数,表示f在再生希尔伯特空间中的范数小于等于1,表示将数据映射到再生希尔伯特空间利用核函数计算的分布p和分布q的最大
均值距离,直观上理解就是两个分布经过函数f映射后的期望之差的最大值(上界)。
DM在测试阶段在线计算测试样本浅层特征均值统计量(测试样本的浅层特征由特征提取模块提取),并与前一阶段确定的多源域风格特征中心进行匹配,从而选择最佳迁移方向,该方向由下式确定:
4)在线自适应分类模块;
多源域决定了特征提取模块有多个定向迁移方向,因此也会得到多个分类器,即以不同的源域作为不同的定向迁移风格,可以产生不同的分类器。利用上一小节介绍的特征分布距离统计模块得到的最佳迁移方向选择最佳的分类器进行预测,能够进一步提升分类准确率,这就是在线自适应分类模块的作用,它根据测试样本的变化在线选择最佳分类器进行分类,与特征分布距离统计模块的联合工作模式如图5所示。
5)损失函数;
该算法训练过程中的损失函数包含两部分,分别为不经过特征处理的分类损失和经过风格特征定向迁移的分类损失,如下所示:
其中L表示模型整体损失函数,表示各源域数据不经过特征处理的交叉熵损
失,用于模型学习到针对数据集基本的分类能力;表示特征经过指定源域作为迁移方向
的迁移后的分类交叉熵损失,用于加强特征提取器的联合分布对齐能力从而提升模型学习
未知域特征经过一致处理后的高维表示分类能力;作为权重超参数用于控制两者的平
衡关系。
6)实验测试;
如图6所示,实验使用PACS(Photo Art Cartoon Sketch)数据集,该数据集由四个源域组成,分别是照片域(Photo)、艺术画像域(Art)、卡通形象域(Cartoon)以及素描域(Sketch),各个域之间整体有较大差异,对于跨域识别任务具有一定的挑战性。每个域包含有狗、大象、人等相同的共七个类别的数据,共包含9991个样本,模型优化时三个域作为训练集验证集,余下的作为测试集,每个域的训练集与验证集比例均为8:2。
实验中,特征提取模块采用在大型分类数据集ImageNet完成预训练的ResNet-18网络结构,主要由4个残差结构模块(Block)组成,每个模块中含有2个残差块,包含学习参数的网络层18层;特征迁移模块采用AdaIN的模式,在模型较浅层Block1和Block2上完成特征迁移;分类器采用将ResNet全连接层输出替换为与数据集类别数量对应的输出结构。模型训练时每批数据为48个样本,采用批量随机梯度下降优化方式,动量为0.9,初始学习率设置为0.001,定向迁移损失函数的权重系数α为2。
图7展示了本算法与其他经典域泛化算法在PACS数据集上的实验对比结果。通过对比可以发现本章算法相较于其他经典算法具有一定的竞争力,其中L2A-OT是随机生成新域通过数据发散的方式进行域泛化的模型,可以发现其在纹理丰富的Photo域表现突出,但在其他域和平均指标上均不如本算法,在Cartoon和Sketch这两个与其他数据域跨度最大的样本集中本算法取得了最好的表现,在Photo这个纹理最丰富的数据域中,本算法指出的定向迁移方向可能受到了一定程度的干扰从而导致迁移难度加大,致使性能有所下降。综合而言,本算法在综合指标上表现最突出。
上述具体实施方式仅仅对本发明的优选实施方式进行描述,而并非对本发明的保护范围进行限定。在不脱离本发明设计构思和精神范畴的前提下,本领域的普通技术人员根据本发明所提供的文字描述、附图对本发明的技术方案所作出的各种变形、替代和改进,均应属于本发明的保护范畴。
Claims (5)
1.一种基于风格引导的泛化增强图像分类算法,其特征在于,包括以下阶段:
1)训练阶段:
首先通过多源域特征提取模块提取训练集中每个源域的高维特征,而后特征风格转换模块通过迁移统计特征的均值和方差将所有训练数据的浅层特征风格分别定向迁移到各个源域中,最后通过在线自适应分类模块基于不同的域迁移方向生成不同的分类器,并通过特征分布距离统计模块在训练结束后累积统计各个源域的特征中心;
2)测试阶段:
首先通过特征分布距离统计模块实现未知目标域测试样本和已知源域风格特征中心的最佳匹配,而后通过在线自适应分类模块基于匹配到的源域风格选择相应的分类器进行测试样本的分类。
2.根据权利要求1所述的一种基于风格引导的泛化增强图像分类算法,其特征在于,所述多源域特征提取模块基于残差网络搭建,用于将输入的训练集按不同源域划分为若干部分,每一部分仅包含相同源域的训练数据。
3.根据权利要求1所述的一种基于风格引导的泛化增强图像分类算法,其特征在于,所述特征风格转换模块基于AdaIN风格迁移算法的思想,利用统计特征的均值和方差实现风格特征的迁移,并在训练阶段分别指定各个源域为定向迁移方向进行特征风格迁移,风格定向迁移只在拥有相同类别标签的不同源域中进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211497758.1A CN115578248B (zh) | 2022-11-28 | 2022-11-28 | 一种基于风格引导的泛化增强图像分类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211497758.1A CN115578248B (zh) | 2022-11-28 | 2022-11-28 | 一种基于风格引导的泛化增强图像分类算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115578248A true CN115578248A (zh) | 2023-01-06 |
CN115578248B CN115578248B (zh) | 2023-03-21 |
Family
ID=84590771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211497758.1A Active CN115578248B (zh) | 2022-11-28 | 2022-11-28 | 一种基于风格引导的泛化增强图像分类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115578248B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227428A (zh) * | 2023-05-08 | 2023-06-06 | 中国科学技术大学 | 一种基于迁移模式感知的文本风格迁移方法 |
CN116363421A (zh) * | 2023-03-15 | 2023-06-30 | 北京邮电大学 | 图像的特征分类方法、装置、电子设备及介质 |
CN117496601A (zh) * | 2023-12-28 | 2024-02-02 | 华东交通大学 | 基于细分类和对抗域泛化的人脸活体检测系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738315A (zh) * | 2020-06-10 | 2020-10-02 | 西安电子科技大学 | 基于对抗融合多源迁移学习的图像分类方法 |
-
2022
- 2022-11-28 CN CN202211497758.1A patent/CN115578248B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738315A (zh) * | 2020-06-10 | 2020-10-02 | 西安电子科技大学 | 基于对抗融合多源迁移学习的图像分类方法 |
Non-Patent Citations (1)
Title |
---|
刘振等: "基于域相关性与流形约束的多源域迁移学习分类算法", 《计算机应用研究》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363421A (zh) * | 2023-03-15 | 2023-06-30 | 北京邮电大学 | 图像的特征分类方法、装置、电子设备及介质 |
CN116227428A (zh) * | 2023-05-08 | 2023-06-06 | 中国科学技术大学 | 一种基于迁移模式感知的文本风格迁移方法 |
CN116227428B (zh) * | 2023-05-08 | 2023-07-18 | 中国科学技术大学 | 一种基于迁移模式感知的文本风格迁移方法 |
CN117496601A (zh) * | 2023-12-28 | 2024-02-02 | 华东交通大学 | 基于细分类和对抗域泛化的人脸活体检测系统及方法 |
CN117496601B (zh) * | 2023-12-28 | 2024-04-05 | 华东交通大学 | 基于细分类和对抗域泛化的人脸活体检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115578248B (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115578248B (zh) | 一种基于风格引导的泛化增强图像分类算法 | |
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
CN108898180B (zh) | 一种面向单颗粒冷冻电镜图像的深度聚类方法 | |
CN110084610B (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
WO2022042123A1 (zh) | 图像识别模型生成方法、装置、计算机设备和存储介质 | |
CN107506865B (zh) | 一种基于lssvm优化的负荷预测方法及系统 | |
CN108399428A (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN113408610B (zh) | 一种基于自适应矩阵迭代极限学习机的图像识别方法 | |
CN113704758A (zh) | 一种黑盒攻击对抗样本生成方法及系统 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
US20230076290A1 (en) | Rounding mechanisms for post-training quantization | |
CN113191445A (zh) | 基于自监督对抗哈希算法的大规模图像检索方法 | |
CN111444937B (zh) | 一种基于集成tsk模糊分类器的众包质量提升的方法 | |
CN111652264A (zh) | 基于最大均值差异的负迁移样本筛选方法 | |
CN116341558A (zh) | 一种基于多层级图神经网络的多模态情感识别方法及模型 | |
CN118035448A (zh) | 基于伪标签去偏的引文网络中论文领域分类方法、装置及介质 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
Gorokhovatskiy et al. | Vector Quantization, Learning and Recognition in the Space of Descriptors of Structural Features of Images | |
CN116303386A (zh) | 一种基于关系图谱的缺失数据智能插补方法和系统 | |
CN113283530B (zh) | 基于级联特征块的图像分类系统 | |
CN115795355A (zh) | 一种分类模型训练方法、装置及设备 | |
CN115410250A (zh) | 阵列式人脸美丽预测方法、设备及存储介质 | |
CN114706977A (zh) | 基于动态多跳图注意力网络的谣言检测方法及系统 | |
CN115249513A (zh) | 一种基于Adaboost集成思想的神经网络拷贝数变异检测方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |