CN110705713A

CN110705713A - 一种基于生成对抗网络的领域特有特征对齐方法

Info

Publication number: CN110705713A
Application number: CN201910793143.5A
Authority: CN
Inventors: 李云栋; 胡威; 董晗; 刘艺; 林晨
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2020-01-17

Abstract

本发明属于迁移学习领域的域适应问题，具体涉及一种基于生成对抗网络的领域特有特征对齐的方法。包括以下步骤：S1基于“伪概率”的目标域特征子空间无监督自动分割；S2基于生成对抗网络的目标域多模态特有特征与源域特征对齐。本发明的有益效果是：通过基于“伪概率”的目标域特征子空间无监督自动分割方法可以将目标域特征分割为共享特征和特有特征。可以针对两个特征的特点选择合适的对齐算法。对于特征差异较大的目标域特有特征采用改进的生成对抗网络进行对齐；对于差异较小的目标域共享特征采用MMD算法对齐。经过此算法可使目标域与源域的特征分布更加接近，进而提高域适应模型的知识迁移能力，解决迁移不足和负迁移的问题。

Description

一种基于生成对抗网络的领域特有特征对齐方法

本发明属于迁移学习领域的域适应问题，具体涉及一种基于生成对抗网络的领域(目标域与源域)特有特征对齐的方法。

背景技术

在传统机器学习中，为了保证训练得到的模型具有高的准确性和可靠性，需要满足两个基本约束条件：(1)用于学习的训练样本与测试样本独立同分布；(2)必须有充足的有标签训练样本才能得到一个好的模型。但是在实际应用中以上两条并不容易满足。首先，数据具有时效性，以前的数据并不能再对当前的数据训练。此外，有标签的样本在现实生活中往往很匮乏，并且很难获得。标注大量的样本费时费力，并且是由于人的主观操作，正确率也往往不能保持很高的水平。另外，当今数据的爆炸式增长也使得标注的数据往往跟不上新数据的增长速度。因此，如何使用少量有标签训练样本或者源域大量有标签的样本，建立一个可靠的模型对目标域进行预测是目前需要解决的问题。

迁移学习是运用已有的知识对不同但相关领域问题进行求解的一种新的机器学习方法，它放宽了上文提到传统机器学习的两个约束条件。将领域分为源域和目标域：源域是指有标签的数据，认为是迁移方；目标域是指无标签或只有少量标签的数据，认为是迁移的目标。领域自适应算法是迁移学习的一个子类。对于域自适应学习，源域和目标域的任务相同，但是数据不同但相关。这类学习的重点解决任务是两个域数据分布的差异问题。

一种主流的域适应方法是先利用源域数据进行预训练，保存其网络结构参数，然后使用目标域数据进行调优，最后使用训练好的模型对目标域样本分类。此类方法简单高效，但是由于两个域之间的数据分布存在差异，知识迁移的效果不佳。另一种方法是分别提取源域数据和目标域数据的特征，将源域、目标域映射到公共特征空间，通过算法做特征对齐。但是源域、目标域之间既有共享特征，又有特有特征。此类方法忽略了特有特征的影响，实际中很难对齐域间特征。如果强行对齐域间特征，则可能导致错误对齐。总之，域间特征不能对齐，会导致迁移不足；域间特征错误对齐，会导致负迁移。

发明内容

针对上述技术存在的缺点，提出一种基于生成对抗网络(GAN)的领域特有特征对齐方法，通过特征对齐，可以解决域适应模型中的迁移不足和负迁移问题，提升域适应模型的知识迁移能力。

本发明采用的技术方案为：一种基于生成对抗网络的领域特有特征对齐方法，包括对目标域特征子空间的分割，以及基于生成对抗网络的多模态特有特征对齐，具体如下：

S1基于“伪概率”的目标域特征子空间无监督自动分割：

若将源域数据和目标域数据的特征映射到公共特征空间中，由于源域、目标域具有相似性，因此会有部分特征在特征空间中重叠，称作共享特征，不重叠的部分则称为特有特征。本发明提出基于“伪概率”的目标域特征子空间无监督自动分割方法，其目的是分割目标域的共享特征与特有特征，并分别采用不同的特征对齐算法进行与源域特征的对齐，具体做法如下：

S1.1首先分别计算目标域共享特征、特有特征与源域特征之间的相似性向量Dc和Ds，如下所示：

D_C＝[D_C1,D_C2,D_Ci,…,D_CL]

D_S＝[D_S1,D_S2,D_Si,…,D_SL]

其中i＝[1,2,3,…..,L]，L表示源域类别的数量，为第i个源域类别的特征，M_tc为目标域共享特征，M_ts为目标域特有特征。

S1.2分别计算目标域共享特征、特有特征与源域之间的“伪概率”Pc和Ps以及信息熵Hc和Hs。Pc和Ps是将Dc和Ds归一化后得到的向量，具体公式如下：

P_C＝[P_C1,P_C2,P_Ci,…,P_CL]

P_S＝[P_S1,P_S2,P_Si,…,P_SL]

其中i＝[1,2,3,…..,L]，L表示源域类别的数量。

分别表示共享特征、特有特征与源域特征之间的相似性向量Dc和Ds中的最小值与最大值。

S1.3计算共享特征和特有特征的类间距D(c,s)，

D(c,s)＝‖M_tc-M_ts‖²

设计基于类间距与“伪概率”的损失函数

经过多次迭代实现目标域共享特征与特有特征子空间的分割，同时对齐目标域共享特征与源域特征。

S2基于生成对抗网络的目标域多模态特有特征与源域特征对齐：

S2.1将源域特征与目标域特征映射到公共的特征空间，并通过特征子空间分割获得目标域共享特征和目标域特有特征。由于最大均值差异(MMD)算法可以有效的对齐差别相对较小的特征，因此将MMD算法应用于目标域共享特征与源域特征的对齐。

S2.2对于差异较大的特有特征，引入改进的生成对抗网络来完成目标域特有特征与源域特征的对齐：

原始的生成对抗网络包含一个生成模型和一个判别模型。生成对抗网络的目的是学习到训练数据的分布，为了学习该分布，定义一个符合一种数学分布(例如高斯分布，均匀分布等)的噪声变量，然后将其映射到数据空间，这个数据空间就是生成模型。之后定义一个判别模型来判断输入数据是来自生成模型还是训练数据。最后训练判别模型无法区分数据来源于生成器还是真实数据。为了将该网络应用在本发明，本发明对其进行改进，包括多组生成器和判别器。利用生成器对目标域特有特征变换，将变换得到的特征与源域特征输入到判别模型，通过优化损失函数使得判别模型无法区分该特征来源于哪个领域，达到对齐域间特征的目的。考虑到特有特征的多样性，构建多个生成器，将特有特征映射到多个特征分布，形成多模态特征对齐方法，具体做法如下：

S2.2.1构建改进的生成对抗网络，所述改进的生成对抗网络包括k组生成器和一个判别器；

S2.2.2利用k组生成器对目标域特有特征进行变换，将变换得到的特征与源域特征输入判别器；

S2.2.3判别器通过源域特征分别判断k组生成器所生成的特征来自源域或目标域。在训练过程中通过不断迭代生成器与判别器的参数，使k组生成器所生成的特征不断靠近源域特征，完成多模态特征对齐。

与现有技术相比，本发明的有益效果是：通过基于“伪概率”的目标域特征子空间无监督自动分割方法可以将目标域特征分割为共享特征和特有特征。可以针对两个特征的特点选择合适的对齐算法。对于特征差异较大的目标域特有特征采用改进的生成对抗网络进行对齐；对于差异较小的目标域共享特征采用MMD算法对齐。经过此算法可使目标域与源域的特征分布更加接近，进而提高域适应模型的知识迁移能力，解决迁移不足和负迁移的问题。

附图说明

图1 S1目标域特征子空间无监督分割的实施流程；

图2 S 2.1源域特征与目标域共享特征对齐的实施流程；

图3 S2.2多模态目标域特有特征与源域特征对齐的实施流程；

图4本发明总的实施流程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

图1为S1目标域特征子空间无监督分割的实施流程；

图2为S 2.1源域特征与目标域共享特征的对齐的实施流程；

图3为S2.2多模态目标域特有特征与源域特征对齐的实施流程；

图4为本发明总的实施流程。

本发明所述一种基于生成对抗网络的领域特有特征对齐方法，包括以下步骤：

(1)基于“伪概率”的目标域特征子空间无监督自动分割方法

图1为本发明所述目标域特征子空间分割实施流程图，首先将源域特征和目标域特征映射到公共的特征空间，基于“伪概率”的目标域特征子空间无监督自动分割方法就应用在此特征空间。然后提出“伪概率”的概念，将特征子空间分割转换为共享特征与特有特征的二分类问题，研究思路如图2所示。本发明提出的“伪概率”概念是基于域间特征分布的相似性，估计目标域样本属于源域某个类别的概率，通过最小化信息熵得到“独热向量”(One-hot vector)，迫使目标域共享特征空间的样本属于源域某个类别的概率最大，同时使得目标域特有特征空间的样本不属于源域任何一个类别。最后基于“伪概率”设计损失函数，经过多次迭代可以实现目标域共享特征与特有特征子空间的分割，同时对齐目标域共享特征与源域特征。

目标域特征经过特征分割后分为与源域特征具有相关性的共享特征及与源域特征无关的特有特征。对于目标域共享特征，采用最大均值差异(MMD)算法进行对齐，其原理是利用MMD算法将领域特征镶嵌到希尔伯特空间，降低变换后特征分布的距离。由于特征变换会改变源域的原本特征，若两类数据特征差异过大则会破坏数据的原本特征，引起负迁移现象。因此将MMD应用在共享域特征中可得到理想的结果。对于目标域特有特征的处理，则引入本发明所提出的基于生成对抗网络的多模态特征对齐方法。

(2)基于生成对抗网络的多模态特征对齐方法

本发明设计了一种改进的生成对抗网络，主要包括多组生成器和判别器。以源域特征为判别标准，将目标域特有特征输入多个生成器。通过优化损失函数使得判别器无法区分特征来自源域还是生成器，达到对齐域间特征的目的。考虑到特有特征的多样性，构建多个生成器，将特有特征映射到多个特征分布，形成多模态特征对齐方法。研究思路如图3所示。

生成器选择规则：对于每个训练样本，仅有一个生成器参与训练和推理，根据源域分类器的输出结果决定。将生成器生成的特征输入到分类器，根据分类器预测的标签决定哪个生成器被用于训练和推理。为了判断多个生成器哪个用于训练和推理，将生成器生成的特征输入到分类器，根据分类器的预测概率确定选择。

Claims

1.一种基于生成对抗网络的领域特有特征对齐方法，其特征在于：包括对目标域特征子空间的分割，以及基于生成对抗网络的多模态特有特征对齐，具体如下：

S1基于“伪概率”的目标域特征子空间无监督自动分割：

D_C＝[D_C1，D_C2，D_Ci，…，D_CL]

D_s＝[D_S1，D_S2，D_Si，…，D_SL]

其中i＝[1，2，3，.....，L]，L表示源域类别的数量，

为第i个源域类别的特征，M_tc为目标域共享特征，M_ts为目标域特有特征；

S1.2分别计算目标域共享特征、特有特征与源域之间的“伪概率”Pc和Ps以及信息熵Hc和Hs，Pc和Ps是将Dc和Ds归一化后得到的向量，具体公式如下：

P_C＝[P_C1，P_C2，P_Ci，…，P_CL]

P_S＝[P_S1，P_S2，P_Si，…，P_SL]

其中

分别表示共享特征、特有特征与源域特征之间的相似性向量Dc和Ds中的最小值与最大值；

S1.3计算共享特征和特有特征的类间距D(c，s)，

D(c，s)＝||M_tc-M_ts||²

设计基于类间距与“伪概率”的损失函数

经过多次迭代实现目标域共享特征与特有特征子空间的分割，同时对齐目标域共享特征与源域特征；

S2.1将源域特征与目标域特征映射到公共的特征空间，并通过特征子空间分割获得目标域共享特征和目标域特有特征，将MMD算法应用于目标域共享特征与源域特征的对齐；

本步骤对生成对抗网络进行改进，包括多组生成器和判别器；利用生成器对目标域特有特征变换，将变换得到的特征与源域特征输入到判别模型，通过优化损失函数使得判别模型无法区分该特征来源于哪个领域，达到对齐域间特征的目的；考虑到特有特征的多样性，构建多个生成器，将特有特征映射到多个特征分布，形成多模态特征对齐方法，具体做法如下：