CN110909814A

CN110909814A - 一种基于特征分离的分类方法

Info

Publication number: CN110909814A
Application number: CN201911203005.3A
Authority: CN
Inventors: 谢龙汉; 杨烈
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-24
Anticipated expiration: 2039-11-29
Also published as: CN110909814B

Abstract

本发明公开了一种基于特征分离的分类方法。所述方法包括以下步骤：提出了特征分离框架，该框架首先对两个输入样本进行部分特征交换得到两个生成样本，然后对两个生成样本再次进行特征交换得到两个输入样本的重建样本；对特征分离框架进行训练，通过各种损失函数的约束使得特征分离框架最终能够让决定对象类别的特征收敛到目标特征向量中，让与类别无关的特征收敛到无关特征向量中；在测试阶段中，首先使用训练好的特征分离框架对输入样本进行特征分离，然后根据分离出来的目标特征向量训练分类器进行分类。本发明通过从原始样本中高纯度地分离出真正决定类别的特征来进行分类，从而在很大程度上克服无关因素对分类任务的干扰，提高分类的准确率。

Description

一种基于特征分离的分类方法

技术领域

本发明主要涉及基于深度学习的分类任务领域，具体涉及一种基于特征分离的分类方法。

背景技术

分类任务是传统机器学习领域和深度学习领域最重要的内容之一，目前通用的基于深度学习的分类方法有很多，例如AlexNet、VGG、GoogLeNet、ResNet等。在普通的对象分类任务中，这些通用的方法可以准确提取出目标特征，并获得很高的分类准确率。但是，在有些特殊的分类任务中，真正决定类别的信息很少，大部分信息是与类别无关的，这些与对象类别无关的信息会对分类任务带来极大的干扰，从而严重影响分类的准确率。例如，在面部表情识别任务中，一张图片中真正决定对象表情的信息只占很少的，大部分与对象身份相关的信息，如：年龄、性别、发型、肤色、长相等，与对象的表情类别无关，然而这些信息会对表情识别任务带来干扰。Shan Li等(《DeepFacial ExpressionRecognition：ASurvey》)在基于深度学习的表情识别方法的文献综述中总结了该领域面临的主要挑战，他们指出个体差异是基于深度学习的表情识别领域依然面临的重要挑战之一。

对于样本中大部分信息与类别无关，真正决定对象类别的信息只占一小部分的时候，如何排除无关因素的干扰，高纯度地分离出决定类别的特征，成为决定分类准确率的关键。然而，将样本中与类别无关的特征和真正决定类别的特征进行高纯度的分离，是一项非常具有挑战性的任务。

发明内容

对于样本中决定类别的信息占比比较小，大部分信息与类别无关的分类任务，为了克服与类别无关的信息对分类任务带来干扰，本发明提出了一种基于生成对抗网络的特征分离框架，该框架可以从样本包含的复杂信息中高纯度地分离出决定对象类别的特征，从而排除无关因素对分类任务的干扰，提高分类的准确率。

本发明的目的至少通过如下技术方案之一实现。

一种基于特征分离的分类方法，包括以下步骤：

S1、提出了特征分离框架，该框架首先对两个输入样本进行部分特征交换得到两个生成样本，然后对两个生成样本再次进行特征交换得到两个输入样本的重建样本；

S2、对特征分离框架进行训练，通过各种损失函数的约束使得特征分离框架最终能够让决定对象类别的特征收敛到目标特征向量中，让与类别无关的特征收敛到无关特征向量中；

S3、在测试阶段中，首先使用训练好的特征分离框架对输入样本进行特征分离，然后根据分离出来的目标特征向量训练分类器进行分类。

进一步地，所述步骤S1具体包括以下步骤：

S1.1、首先，提出了一种基于生成对抗网络的特征分离框架，该框架包含一个生成器G和一个判别器D，其中生成器G由一个编码器Gen和一个解码器Gde构成；

S1.2、从训练集中任意读入两个样本作为输入的第一样本和第二样本，然后使用编码器Gen分别对输入的第一样本和第二样本进行特征提取；

S1.3、分别将提取到的特征向量按设定比例分割为目标特征向量和无关特征向量两个部分，得到第一目标特征向量、第二表目标征向量、第一无关特征向量以及第二无关特征向量；并将第一目标特征向量和第二目标特征向量进行交换，第一无关特征向量和第二无关特征向量保持不变；

S1.4、使用解码器Gde根据交换后重新组合的特征向量生成两个新的样本即第一生成样本和第二生成样本，由两个输入样本得到两个生成样本的过程称为生成过程；

S1.5、接着，将第一生成样本和第二生成样本分别输入到判别器D中同时进行真假判别和分类，所述真假判别的结果用于后面的对抗损失的计算，所述分类的结果用于后面分类损失的计算；并将第一生成样本和第二生成样本作为输入样本，重复S1.2～S1.4，得到两个重建样本即第一重建样本和第二重建样本，该过程称为重建过程。

进一步地，所述步骤S2包括以下步骤：

S2.1、为了让与类别相关的特征收敛到目标向量中，引入了目标损失L_tar和分类损失L_cls；通过目标损失的约束使得生成过程中的第一目标特征向量和第二目标特征向量与重建过程中的第一目标特征向量和第二目标特征向量趋于相同；在训练过程中，根据真实样本的分类损失

来优化判别器D，从而提高判别器D的分类能力；同时根据生成样本的分类损失

来优化生成器G，使生成器G通过特征交换实现生成样本的类别交换，从而让决定生成样本类别的信息收敛到参与交换的目标特征向量中；

S2.2、为了让与类别无关的特征收敛到无关特征向量中，引入内容损失L_con和重建损失L_rec；通过内容损失的约束使得生成过程中的第一无关特征向量和第二无关特征向量与重建过程中的第一无关特征向量与第二无关特征向量趋于相同；通过重建损失的约束使得与类别无关的特征逐渐收敛到没有参与交换的无关特征向量中；

S2.3、为了使生成样本与真实样本具有很高的相似度，并促进与类别相关特征和与类别无关的特征分别收敛到目标特征向量和无关特征向量中，生成器和判别器都引入了对抗损失L_adv；

S2.4、为了使同类样本的目标特征在特征空间中的距离减小，提高目标特征分离的纯度，从而提高分类的准确率，引入中心损失L_cen；

S2.5、最后，根据生成器G的综合损失函数L_G和判别器D的综合损失函数L_D对特征分离框架进行训练，其中L_G和L_D分别为：

其中，λ_cls，λ_con，λ_tar，λ_rec和λ_cen分别为分类损失、内容损失、目标损失和中心损失在最终损失函数中的权重，这些权重需要通过大量实验来确定。

进一步地，步骤S2.1中，目标损失L_tar的表达式如下：

L_tar＝E_x[||Tar_gen-Tar_rec||2]；

其中，Tar_gen表示生成过程中的目标特征向量，Tar_rec表示重建过程中的目标特征向量，E_x表示根据输入样本x求数学期望；

和

的表达式分别为：

其中，x表示输入的样本，c表示样本x的类别，G(x)表示根据样本x得到的生成样本，D_cls(c|x)表示判别器D将输入样本x识别为类别c的概率，E_x，c表示根据输入样本x以及样本x的类别c求数学期望。

进一步地，步骤S2.2中，内容损失L_con的表达式如下：

L_con＝E_x[||irr_gen-irr_rec||2]；

其中，irr_gen表示生成过程中的无关特征向量，irr_rec表示重建过程中的无关特征向量，E_x表示根据输入样本x求数学期望；

重建损失L_rec的表达式为：

L_rec＝E_x[||x-G(G(x))||₂]；

其中，x为输入样本，G(x)表示根据输入样本x得到的生成样本，G(G(x))表示根据生成样本G(x)得到的重建样本，E_x表示根据输入样本x求数学期望。

进一步地，步骤S2.3中，对抗损失L_adv的表达式如下：

L_adv＝E_x[logD_src(x)]+E_x[log(1-D_src(G(x)))]；

其中，x为输入样本，G(x)为根据输入样本x得到的生成样本，D_src(x)为判别器D将样本x判断为真实样本的概率，E_x表示根据输入样本x求数学期望。

进一步地，步骤S2.4中，中心损失L_cen的表达式如下：

其中，e_i表示第i个样本的目标特征，m为一个批量样本的个数，y_i表示样本i的类别，

表示样本i在第k次训练时对应的类别的中心特征向量；各个类别目标特征的中心特征向量的初始值为随机值，在训练过程中，各中心特征向量的更新过程如下：

其中，

表示第t次迭代过程中，第j类样本的与相应的中心向量之间的平均距离，

和

分别表示第t次迭代和第t+1次迭代过程中第y_i类样本的中心向量，α为中心向量更新的学习率，α∈(0，1)，α的具体取值需要通过大量实验来确定。

进一步地，所述步骤S3具体包括以下步骤：

S3.1、特征分离框架训练完成之后，首先使用训练好的编码器Gen对任意输入样本进行特征提取和分离，然后根据分离出来的目标特征向量训练一个简单的卷积神经网络作为分类器，该分类器使用交叉熵损失作为优化目标函数；

S3.2、分类器训练完成之后，从测试集中读入测试样本，首先使用前面训练好的编码器Gen对每个测试样本进行特征提取和分离，然后使用分类器根据分离出来的目标特征向量进行分类。

与现有技术相比，本发明的优点在于：

本发明基于生成对抗网络提出了一种特征分离的框架，该框架可以将决定类别的特征和与类别无关的特征进行分离，然后直接根据决定对象类别的特征进行分类，从而克服无关因素对分类任务的干扰，提高分类的准确率。

附图说明

图1为本发明实施例中所提出的特征分离框架中生成器G的网络结构图。

图2为本发明实施例中所提出的特征分离框架中判别器D的网络结构图。

图3为本发明实施例中分类器C的网络结构图。

图4为本发明实施例中所提出的特征分离框架结构框图。

图5为本发明实施例中测试阶段分类过程的结构框图。

具体实施方式

下面将结合附图和基于特征分离的面部表情识别实例对本发明的具体实施作方法进一步说明，但本发明的实施和保护不限于此。

实施例：

一种基于特征分离的分类方法，包括以下步骤：

S1、提出了特征分离框架，该框架首先对两个输入样本进行部分特征交换得到两个生成样本，然后对两个生成样本再次进行特征交换得到两个输入样本的重建样本；具体步骤如下：

S1.1、首先，提出了一种基于生成对抗网络的特征分离框架，如图4所示，该框架包含一个生成器G和一个判别器D，其中生成器G由一个编码器Gen和一个解码器Gde构成；在本实施例中，生成器的网络结构如图1所示，图中convm×n表示卷积核大小为m×n的卷积层，S表示卷积核的滑移步长，N×Residual Block表示N个残差模块，在本实例中N＝2。

如图1a所示，本实施例中，编码器Gen的结构为：输入图像的尺寸为96×96×3，第一层是卷积核大小为7×7，滑移步长为1的卷积层，输出张量的大小为96×96×64；第二层是卷积核大小为4×4，滑移步长为2的卷积层，输出张量的大小为48×48×128；第三层是卷积核大小为4×4，滑移步长为2的卷积层，输出张量大小为24×24×256；第四层是卷积核大小为4×4，滑移步长为2的卷积层，输出张量大小为12×12×512；第五层是卷积核大小为4×4，滑移步长为2的卷积层，输出张量大小为6×6×1024；最后还有2个残差模块。

如图1b所示，本实施例中，解码器Gde的结构为：输入张量大小为6×6×1024，第一层为卷积核大小为4×4，滑移步长为2的反卷积层，输出张量的大小为12×12×512；第二层是卷积核大小为4×4，滑移步长为2的反卷积层，输出张量大小为24×24×256；第三层是卷积核大小为4×4，滑移步长为2的反卷积层，输出张量大小为48×48×128；第四层是卷积核大小为4×4，滑移步长为2的反卷积层，输出张量大小为96×96×64；第五层是卷积核大小为7×7，滑移步长为1的卷积层，输出张量大小为96×96×3。

判别器的网络结构如图2所示，图中convm×n表示卷积核大小为m×n的卷积层，S表示卷积核的滑移步长，FC表全连接层，Output1和Output2分别表示判别器的两个输出。

如图2所示，本实施例中，判别器D的结构为：输入图像的尺寸为96×96×3，第一层是卷积核大小为4×4，滑移步长为2的卷积层，输出张量大小为48×48×64；第二层是卷积核大小为4×4，滑移步长为2的卷积层，输出张量大小为24×24×128；第三层是卷积核大小为4×4，滑移步长为2的卷积层，输出张量大小为12×12×256；第四层是卷积核大小为4×4，滑移步长为2的卷积层，输出张量大小为6×6×512；第五个卷积层是卷积核大小为3×3，滑移步长为1的卷积层，真假判别的输出张量为1×1×1，辅助分类器的输出张量大小为1×1×c，辅助分类器最后是一个全连接层，输出张量大小为1×c，此处c表示类别数。

S1.2、从训练集中任意读入两张图像作为输入的第一样本和第二样本，输入样本的尺寸为128×128，然后使用编码器Gen分别对输入的第一样本和第二样本进行特征提取。

S1.3、将提取到的特征向量按比例分割为目标特征向量和无关特征向量两个部分，本实施例中的特征分离比为124∶900，得到第一目标征向量、第二目标特征向量、第一无关特征向量以及第二无关特征向量；然后将第一目标特征向量和第二目标特征向量进行交换，第一无关特征向量和第二无关特征向量保持不变。

S1.4、使用解码器Gde根据交换后重新组合的特征向量生成两张新的图像即第一生成样本和第二生成样本，由两个输入样本得到两个生成样本的过程称为生成过程；

S2、对特征分离框架进行训练，通过各种损失函数的约束，训练特征分离框架使得在特征分离时真正决定对象表情的特征收敛到目标特征向量中，与对象表情无关的特征收敛到无关特征向量中，具体步骤如下：

S2.1、为了让与表情相关的特征收敛到目标向量中，引入了目标损失L_tar和分类损失L_cls。通过目标损失的约束使得生成过程中的第一目标特征向量和第二目标特征向量与重建过程中的第一目标特征向量和第二目标特征向量趋于相同。在训练过程中，根据真实样本的分类损失

来优化生成器G，使生成器G通过特征交换实现生成样本的表情类别交换，从而让决定生成样本表情类别的信息收敛到参与交换的目标特征向量中；

目标损失L_tar的表达式如下：

L_tar＝E_x[||Tar_gen-Tar_rec||2]；

其中，Tar_gen表示生成过程中的目标特征向量，Tar_rec表示重建过程中的目标特征向量，E_x表示根据输入样本x求数学期望。

和

的表达式分别为：

其中，x表示输入的样本，c表示样本x的类别，G(x)表示根据输入样本x得到的生成样本，D_cls(c|x)表示判别器D将输入样本x识别为类别c的概率，E_x，c表示根据输入样本x以及样本x的类别c求数学期望。

S2.2、为了让与表情无关的特征收敛到无关特征向量中，引入内容损失L_con和重建损失L_rec；通过内容损失的约束使得生成过程中的第一无关特征向量和第二无关特征向量与重建过程中的第一无关特征向量与第二无关特征向量趋于相同。通过重建损失的约束使得与表情类别无关的特征逐渐收敛到没有参与交换的无关特征向量中；

内容损失L_con的表达式如下：

L_con＝E_x[||irr_gen-irr_rec||₂]；

其中，irr_gen表示生成过程中的无关特征向量，irr_rec表示重建过程中的无关特征向量，E_x表示根据输入样本x求数学期望。

重建损失L_rec的表达式为：

L_rec＝E_x[||x-G(G(x))||₂]；

S2.3、为了使生成样本与真实样本具有很高的相似度，并促进与表情相关特征和与表情无关的特征分别收敛到目标特征向量和无关特征向量中，生成器和判别器都引入了对抗损失L_adv；

对抗损失L_adv的表达式如下：

L_adv＝E_x[logD_src(x)]+E_x[log(1-D_src(G(x)))]；

S2.4、为了使同类样本的目标特征在特征空间中的距离减小，提高目标特征分离的纯度，从而提高表情分类的准确率，引入中心损失L_cen；

中心损失L_cen的表达式如下：

其中，

和

分别表示第t次迭代和第t+1次迭代过程中第y_i类样本的中心向量，α为中心向量更新的学习率，α∈(0，1)，α的具体取值需要通过大量实验来确定，本实施例中α＝0.001；

其中，λ_cls，λ_con，λ_tar，λ_rec和λ_cen分别为分类损失、内容损失、目标损失和中心损失在最终损失函数中的权重，这些权重需要通过大量实验来确定，本实施例中各权重的取值分别为：λ_cls＝3，λ_con＝10，λ_exp＝10，λ_rec＝10，λ_cen＝10。

S3、特征分离框架训练完成之后，根首先使用训练好的特征分离框架对输入样本进行特征分离，然后根据分离出来的目标特征向量训练分类器进行分类，如图5所示，具体步骤如下：

S3.1、特征分离框架训练完成之后，首先使用训练好的编码器Gen对任意输入样本进行特征提取和分离，然后根据分离出来的目标特征向量训练一个简单的卷积神经网络作为表情识别的分类器，其网络结构如图3所示，图中convm×n表示卷积核大小为m×n的卷积层，S表示卷积核的滑移步长，FC表全连接层，该分类器使用交叉熵损失作为优化目标函数；

如图3所示，本实施例中，分类器C的结构为：输入张量大小为6×6×124，第一层是卷积核大小为4×4，滑移步长为2的卷积层，输出张量大小为3×3×248；第二层是卷积核大小为3×3，滑移步长为1的卷积层，输出张量大小为1×1×c；第三层是全连接层，输出张量大小为1×c，此处c表示类别数。

S3.2、分类器训练完成之后，从测试集中读入测试样本，首先使用前面训练好的编码器Gen对每个测试样本进行特征提取和分离，然后使用分类器根据分离出来的目标特征向量进行表情识别。