CN113011513B

CN113011513B - 一种基于通用域自适应的图像大数据分类方法

Info

Publication number: CN113011513B
Application number: CN202110333791.XA
Authority: CN
Inventors: 罗荣华; 周绍煌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2023-03-24
Anticipated expiration: 2041-03-29
Also published as: CN113011513A

Abstract

本发明公开了一种基于通用域自适应的图像大数据分类方法，本发明方法包括将获取的目标域图像数据X_t输入预先训练好的通用域自适应网络，通过特征提取器F将目标域图像数据X_t转化成目标域图像特征向量Z_t,通过分类部分G对特征向量Z_t进行分类输出得到分类结果Y_t和余弦相似度C_t,通过域判别器D对特征向量Z_t进行域判别输出得到目标域判别d_t。将得到的余弦相似度C_t和域判别d_t结合得到目标域权重W_t，目标域权重W_t与阈值相比较，大于阈值则输出分类结果Yt。本发明能够解决图像大数据域自适应的问题，使训练好的模型可以应用在任意图像大数据集上，极大地提高了模型的泛化能力和分类效果，减轻对模型源域数据集的依赖。

Description

一种基于通用域自适应的图像大数据分类方法

技术领域

本发明涉及图像大数据处理技术，具体涉及一种基于通用域自适应的图像大数据分类方法。

背景技术

随着神经网络的提出，在人工智能领域取得了重大发展突破，并成为深度学习等研究领域的主干网络。

随着对抗神经网络的提出，作为启发方法又产生了大量的新的学习方法，其中迁移学习根据神经网络以及对抗训练的方法提出了对抗性域自适应，并成为了域自适应的主流框架。

近年来大数据相关产业蓬勃发展，而大数据的使用也成为了一个重要的研究问题，以往的机器学习中都需要目标域标注数据，域自适应刚好是一个解决目标域无标签训练的较好方法。但由于域自适应要求源域与目标域之间的标签空间完全相同，在应用时虽然减少了目标域空间标签的工作量，在大数据的应用场景上远不能满足现实世界的要求，因作为源域的训练样本标签空间有限，且制作需要消耗大量代价，在实际应用中不能很好的满足大数据中众多类别的需求。因此本发明提出了通用域自适应研究方法，旨在已知源域而目标域类别未知的情况下训练网络，能将目标域中与源域共有的部分很好区分出来并进行任务输出。

Kaichao You等在《Universal domain adaptation.In The IEEE Conference onComputer Vision and Pattern Recognition(CVPR)，June 2019》中，对于分类方法的实际应用并没有深入研究，在工业界中也未有实际应用，且分类的精确性较低。

发明内容

本发明要解决的技术问题，针对现有技术的上述问题，提出了一种基于通用域自适应的图像大数据分类方法，通过该方法，能将源域和目标域的数据映射到同一空间，并确保其共有类别在空间上分布一致，最终通过在源域和目标域伪标签训练的分类器上能有较好的分类效果，并且通过权重判断是否为共有类，解决传统域自适应的应用场景有限问题。

一种基于通用域自适应的图像大数据分类方法，步骤包括：

将目标域图像数据x_t输入预先训练好的通用域自适应网络，所述通用域自适应网络包括特征提取器F、分类部分G和域判别器D，通过特征提取器F将目标域图像数据x_t转化成目标域图像特征向量z_t，分类部分G对特征向量z_t进行分类输出得到分类结果y_t和余弦相似度c_t，通过域判别器D对特征向量z_t进行域判别，输出得到目标域与源域的相似度d_t；

将得到的分类结果y_t、余弦相似度c_t和域判别d_t结合得到目标域权重w_t，目标域权重w_t与阈值w_α相比较，大于阈值w_α则输出分类结果y_t，小于阈值的目标域数据为目标域的特有类，将其视为一类输出，目标域的特有类加上源域和目标域共有的类别数做为最终的分类结果输出。

在所述将目标域图像数据x_t输入训练好的通用域自适应网络之前还包括训练通用域自适应网络的步骤，所述训练通用域自适应网络的步骤如下：

其中特征提取器F由残差网络resnet-50组成，在image-net上预训练得到基础参数。将有标签的源域数据x_s和无标签的目标域数据x_t作为输入特征提取器F，从而将源域和目标域映射到同一空间中，得到对应输出源域图像特征向量z_s和目标域图像特征向量z_t，这些特征向量又作为输入，分别传给分类部分G和域判别器D进行训练。

其中所述分类部分G由两个参数不同的分类器组成，所述的两个分类器的网络结构相同，都是由2个全连接层组成且全连接层也尺寸相同，为确保两分类器的参数不同，使两个分类器的参数保持余弦距离损失函数；

所述公式如：

所述分类器的两层全连接层大小256，源域类别数。

所述域判别器D由3层全连接层组成，域判别器输出该数据是来自源域还是目标域，当输入为目标域时d_t越大，为源域与目标域共有类的可能性越高。

所述域判别器D三层全连接层大小分别为1024，1024，1。

所述第一第二层全连接层后面加有激活函数ReLU和0.5的Dropout。

所述第三层后加有激活函数sigmoid。

所述域判别器D的训练损失函数如下所示：

所述L_adv(G，D)中w(x)为输入图像的权重，当输入为源域，w(x)权重越小，越有可能属于源域中共有类部分，因此乘以-1；

所述L_adv(G，D)中源域训练标签为1目标域训练标签为0；

为判别目标域输入是否为源域共有类，通过获取目标域数据于域判别器D和分类部分G的输出处理并得到权重w_t，该权重w_t与阈值w_α进行对比，大于阈值的视为共有类，进行处理，否则小于阈值视为目标域特有类，记为unknown。

所述阈值w_α在训练阶段根据不同批次，动态线性变化，当最后一批训练完成时值为w₀。

所述训练阶段动态阈值w_α公式：

所述动态阈值w_α公式中t为当前训练批次，T为总批次，阈值随着训练过程线性降低，w₀＝0.8为定值，当训练到最后一批t＝T时，w_α＝w₀。

所述阈值在测试阶段大小固定为w₀，所述w₀与训练阶段w₀相同。

所述判断为共有类进行处理包括：

在训练阶段将分批次中被判定为共有类的目标域数据打上伪标签，将拥有伪标签的目标域特征向量z_t作为输入反馈训练分类部分G。

而在测试阶段则直接将分类部分G的输出作为结果输出。

所述伪标签是目标域数据在分类部分G中输出的单位向量y_t的最大值所属类别作为伪标签，

所述权重是由域判别器D和分类部分G得到。

所述权重w(x)中的分类器部分，是通过协同训练，将两个分类器的输出向量计算相似度。

所述计算相似度是通过余弦距离公式，计算两个分类器的输出余弦 c_t＝cos(y_t1，y_t2)，其中y_t1和y_t2分别为两个分类器的分类输出。

目标域的分类部分输出y_t，y_t＝(y_t1+y_t2)/2。

权重w(x)中的域判别部分即域判别器的输出，当输入为目标域，w(x)权重越大，越有可能属于目标域中共有类部分，当输入为源域，w(x)权重越小，越有可能属于源域中共有类部分；

当输入为目标域数据时，目标域余弦相似度c_t＝cos(y_t1，y_t2)，目标域的分类输出y_t＝(y_t1+y_t2)/2，其中y_t1和y_t2分别为两个分类器的分类输出，目标域权重 w_t最终公式为：w(x)＝d(x)+c_t；

当输入为源域数据时，源域余弦相似度c_s＝cos(y_s1，y_s2)，源域的分类输出为 y_s＝(y_s1+y_s2)/2，其中y_s1，y_s2分别为两个分类器的源域分类输出，源域权重w_s： w_s＝d(x)+c_s。

域判别器与特征提取器之间加入了梯度反转层λ_adv，λ_adv＝-1。

训练的总损失函数为：

所述总损失函数L_(G，D)中，L_seg(G)为分类部分G的损失函数，

为分类器参数损失函数，L_adv(G，D)为域判别器D计算损失函数，λ_weight为参数。

所述分类部分G训练阶段是分别通过有标签的源域数据和有伪标签的目标域数据进行训练参数，所述损失函数L_seg计算函数表达式如下：

所述损失函数L_seg中，x表示输入的图片，L_CE为交叉熵损失函数，p为源域部分， q为目标域部分，y为源域的真实标签，

为源域或目标域图像的分类输出，

将目标域分类输出的最大值类别作为伪标签类别，

表示当权重大于阈值w_α时为1，否则为0，

表示概率分布在p源域和q目标域。

与现有技术相比，本发明能够实现的有益效果如下：

(1)对于图像大数据来说，存在着不同的图像由于拍摄时间背景不同，因此即便是同一物体也存在着风格差异较大的问题，同时图像大数据还存在着图像的类别较多难以统计，在实际应用中如要对需要的类别进行提取，需要大量的人工筛选。因此本发明提出的一种基于通用域自适应的图像大数据分类方法方法，可以直接应用在图像大数据方面，通过域自适应消除由于背景原因对于分类结果的影响，并通过加入权重筛选判别出需要用到的类别图像，并取得较好的分类效果。

(2)域自适应方法就是在只有源域有训练标签而目标域没有训练标签的情况下，可以通过在源域上训练，迁移到目标域，因此增加模型的应用范围，而之前的域自适应方法都要求源域和目标的的标签空间(即类比相同)，本申请的通用域自适应可以在源域和目标域的标签空间类别不完全相同的情况下进行训练，训练后的模型可对目标域中与源域共有的类别即所述权重W判别为共有类的图像数据进行分类输出，扩大了源域和目标域数据的应用场景。

(3)本发明能够解决图像大数据域自适应的问题，使训练好的模型可以应用在任意图像大数据集上，极大地提高了模型的泛化能力和分类效果，减轻对模型源域数据集的依赖。

(4)本申请的加入的协同训练的方法，可以提高分类器的分类精度准确性，并且，对于是否共有类这一判别标准，加入了两个分类器的余弦距离来增加不确定性的度量，即当两个分类器的输出余弦距离越小，说明输入图像的不确定性越大，判别为目标域特有类的可能性越高。

附图说明

图1为训练阶段基本框架流程示意图。

图2为测试阶段基本框架流程示意图。

图3为本发明实施例方法的基本流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。

如图2所示，本实施例一种基于通用域自适应的图像大数据分类方法的实施步骤包括：

步骤1：获取目标域图像数据x_t；

步骤2：将目标域图像数据x_t输入预先训练好的通用域自适应网络，通过特征提取器F将目标域图像数据x_t转化成目标域图像特征向量z_t。

步骤3：将特征向量z_t通过分类部分G对进行分类输出得到分类结果y_t和余弦相似度c_t；

步骤4：将特征向量z_t通过域判别器D进行域判别输出得到目标域判别d_t。

步骤5：将得到的余弦相似度c_t和域判别器d_t结合得到目标域权重w_t，目标域权重w_t与阈值w_α相比较，大于阈值则输出分类结果y_t。小于阈值的目标域数据为目标域的特有类，将其视为一类输出，目标域的特有类加上源域和目标域共有的类别数做为最终的分类结果输出。

在本发明其中一个实施例中，通用域自适应网络结构包括特征提取器F，域判别器D和分类部分G三部分。

所述特征提取器F，用于对输入的目标域图像数据x_t进行特征向量提取，得到目标域图像特征向量z_t；

所述分类部分G，将目标域图像特征向量z_t输入，得到目标域分类结果y_t、余弦相似度c_t；

所述域判别器D，将目标域图像特征向量z_t输入，输出目标域判别d_t。

在本发明其中一个实施例中，如图1所示，将目标域图像数据X_t输入训练好的通用域自适应网络之前还包括训练通用域自适应网络的步骤，准备好有标签的源域数据x_s和无标签将要应用的目标域数据x_t，其中源域与目标域标签空间不同但有交集，且交集未知。

所述训练特征提取器F，域判别器D和分类部分G的步骤如下：

1)特征提取器F由残差网络resnet-50组成，在image-net上预训练得到网络基础参数；

2)将有标签的源域数据x_s和无标签的目标域图像数据x_t同时输入至特征提取器F，特征提取器F输出源域图像特征向量z_s和目标域图像特征向量z_t，通过同一个特征提取器F，使源域和目标域特征向量映射在同一特征空间中；

3)将得到的源域图像特征向量z_s和目标域图像特征向量z_t作为输入，分别传给分类部分G和域判别器D，分类部分G对输入的特征向量进行分类，输出源域分类结果y_s、余弦相似度c_s和目标域分类结果y_t、余弦相似度c_t，对有标签的源域数据分类结果y_s计算分类标签的损失函数L_seg，域判别器D将输入的特征向量进行二分类，判别输入数据来自源域还是目标域，输出源域判别d_s和目标域判别d_t；

4)按照源域和目标域将域判别器D输出的源域判别d_s和目标域判别d_t、分类部分G输出的源域余弦相似度c_s和目标域余弦相似度c_t结合起来，得到源域权重w_s和目标域权重w_t，将其中目标域权重w_t与阈值w_α进行对比，大于阈值w_α的视为共有类，进行处理，小于阈值视为目标域特有类，记为unknown；

5)训练阶段所述阈值w_α在训练阶段根据不同批次，动态线性变化，阈值w_α公式：

其中t是当前训练批次，T是模型训练的总批次，w₀是测试阶段的阈值，当训练到最后一批t＝T时，w_α＝w₀。

在本发明其中一个实施例中，所述分类部分G训练阶段是分别通过有标签的源域数据和有伪标签的目标域数据进行训练参数，所述损失函数L_seg计算函数表达式如下：

为源域或目标域图像的分类输出，

将目标域分类输出的最大值类别作为伪标签类别，

表示当权重大于阈值w_α时为1，否则为0，

表示概率分布在p源域和q目标域。

所述目标域伪标签

是将目标域图像的权重大于阈值w_α的部分视为共有类，并将其分类输出作为输入再训练分类部分G。而在测试阶段则直接将分类部分G输出向量最大值作为结果输出。

在本发明其中一个实施例中，所述分类部分G由两个参数不同的分类器组成，两个分类器的网络结构相同，都是由2个全连接层组成且全连接层尺寸相同，为确保两分类器的参数不同，使两个分类器的参数保持余弦距离损失函数：

分类器的两层全连接层大小256，源域类别数。

权重w(x)中的分类器部分，是通过协同训练，将两个分类器的分类输出计算余弦相似度，加上与判别器的输出d(x)，输出值越大，该目标域图像为源域与目标域共有类的可能性越高。

在本发明其中一个实施例中，计算相似度是通过余弦距离公式，计算两个分类器的输出余弦距离c_t＝cos(y_t1，y_t2)，其中y_t1和y_t2分别为两个分类器的分类输出。

当输入为源域数据时，源域余弦相似度c_s＝cos(y_s1，y_s2)，源域的分类输出为 y_s＝(y_s1+y_s2)/2，其中y_s1，y_s2分别为两个分类器的源域分类输出，源域权重w_s， w_s＝d(x)+c_s。

在本发明其中一个实施例中，所述域判别器D由3层全连接层组成，域判别器输出该数据是来自源域还是目标域。

所述域判别器D三层全连接层大小分别为1024，1024，1。

所述第三层后加油激活函数sigmoid。

所述域判别器D的训练损失函数如下所示：

L_adv(G，D)中源域训练标签为1目标域训练标签为0；

L_adv(G，D)中w(x)为输入图像的权重，当输入为目标域时w(x)＝w_t，当输入为源域时w(x)＝w_s。当输入为源域，w(x)权重越小，越有可能属于源域中共有类部分，因此乘以-1。权重w(x)是由域判别器输出和余弦距离组合而成，对于与判别器输出来说，是通过设计源域为1目标域为0，因为共有类是源域和目标域重合的部分，因此输入属于目标域中共有类部分时，域判别器的输出比当输入属于目标域的特有部分大，同理源域，源域的共有部分因与目标域重合，因此源域的域判别器输出中共有类部分比特有类部分小。而余弦距离也是相同的理论，余弦距离是度量两个向量相似度的，因为分类器是在源域进行了分类训练，所以两个分类器在输入为源域时，输出的相似度大，目标域时小。而域判别器存在的目的就是是源域和目标域共有的数据在同一特征空间重合，因此乘以w(x)作为参数，更有利于训练数据中属于共有类部分。

综上所述方法训练的总损失函数为：

总损失函数L_(G，D)中，L_seg(G)为分类部分G的损失函数，

为分类器参数损失函数，L_adv(G，D)为域判别器D计算损失函数，λ_weight为参数。在本发明其中一个实施例中，参数λ_weight＝0.05。λ_weight控制

的大小，防止过分影响分类器参数而影响分类结果的准确性。

在本发明其中一个实施例中，域判别器与特征提取器之间加入了梯度反转层，与特征提取器进行对抗训练，因此域判别器损失函数乘以参数λ_adv，一般λ_adv＝-1。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。