CN109492075B

CN109492075B - 一种基于循环生成对抗网络的迁移学习排序方法

Info

Publication number: CN109492075B
Application number: CN201811051537.5A
Authority: CN
Inventors: 赵伟强; 赖韩江; 印鉴; 高静
Original assignee: Guangdong Hengdian Information Technology Co ltd; Sun Yat Sen University
Current assignee: Guangdong Hengdian Information Technology Co ltd; Sun Yat Sen University
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2021-09-28
Anticipated expiration: 2038-09-10
Also published as: CN109492075A

Abstract

本发明提供一种基于循环对抗生成网络的迁移学习排序的方法，本发明是在学习排序的数据集LETOR3.0上进行迁移排序学习，用计算机视觉领域内的循环对抗生成网络做迁移学习框架，即用A域的特征生成B的特征，用B域的特征生成A域的特征，这样生成的特征都包含着另外一个域的特征信息；再用RankNet的学习排序算法对迁移过来的数据进行学习，用学习到的排序模型在目标域进行测试；在学习的过程中完全不涉及到目标域的标签信息。

Description

一种基于循环生成对抗网络的迁移学习排序方法

技术领域

本发明涉及学习排序和计算机视觉相关领域，更具体地，涉及一种基于循环生成对抗网络的迁移学习排序方法。

背景技术

近年来，随着大数据和信息技术突飞猛进的发展，每一天产生的数据信息无法估计，如何在这浩瀚的数据信息中搜索到自己想要的信息显的尤为重要。同时信息检索技术也得很大的发展和应用，在信息检索领域中比较重要的技术之一就是学习排序。学习排序的目的是检索到和查询相关的文档。学习排序的目的是优化一个排序函数,其中包含了广泛的相关特性和避免根据经验大量调整的参数。像其他监督学习的算法一样，学习排序也需要一个很大的用于搜索任务的数据集。这样的数据集是非常难进行人工收集的。比如建立一个医学搜索引擎需要不同于音乐搜索引擎的专家和标签标准，那么收集一个这样的带有标签的数据集更是难上加难。在LETOR3.0中，有几个不同的领域的搜索任务数据集，例如命名页面查找和主题关键词搜索是不同的搜索任务。基于这样的数据集，最近为了解决上述困境出现了一个明确的方向，就是将排名知识从相关域的训练数据转移到目标域，其中目标域是没有标签可用的。因此出现了很多基于这种思路的方法，有个方法是使用少量的目标域数据和标签，这些少量的数据在迁移学习中占很大的权重。其他大多数方法都是根据两个领域的公共信息，利用公共信息的相似性大小对相关域的数据进行加权，然后再训练模型，训练好之后在目标域上进行测试。这种方法在训练的过程中没有直接使用目标域的信息，并且如果两个领域的公共信息比较少时就表现不佳。

对上上述出现的问题，随着最近越来越火的GAN系列结构，我们考虑最近可以生成特征的网络结够GAN，能否将这种对抗生成网络用来做迁移学习呢？所以我们提出了一种基于循环生成对抗网络迁移学习的排序模型。

发明内容

本发明提供一种利用迁移学习的一种基于循环生成对抗网络的学习排序方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于循环生成对抗网络的迁移学习排序方法，包括以下步骤：

S1：建立用于学习排序任务的循环生成对抗网络；

S2：建立循环生成对抗网络的损失函数并结合学习排序的损失函数；

S3：进行循环生成对抗网络的迁移学习排序的模型训练，并在目标域测试。

进一步地，所述步骤S1的具体过程是：

S11：针对学习排序的任务，构建两个生成器G_A和G_B，构建两个辨别器D_A和D_B，他们四个都是由3层全连接网络组成；

S12：首先G_A生成器生成B域的学习排序数据的假特征值，G_B生成器生成A域的学习排序数据的假特征值，同时G_A生成器还生成正负样本的B域的假特征值。

S13：将D_A辨别器用于分别A域的学习排序特征和由G_B生成的特征值，同理D_A辨别器用于分别A域的学习排序特征和由G_B生成的特征值；当辨别器辨别为真实的时候输出接近1，辨别为假的时候输出接近0.

S14：(为了让从A域生成B域的特征能保持A域的一些特征)将生成出来的B域特征再放入G_B生成器中生成CYCLE_A，同理生成出来的A域特征再放入G_A生成器中生成CYCLE_B；

S15：建立两个和两层全连接RankNet结构一致的排序结构，一个输入为A域特征和A域标签，另一个的输入为用A域特征生成的B域特征和对应的A域标签。

进一步地，所述步骤S2的具体过程是：

S21：首先CYCLE_LOSS的值由如下部分组成：A域学习排序的真实特征和S14中CYCLE_A的距离的绝对值，B域学习排序的真实特征和S14中CYCLE_B的距离的绝对值。

S22：对于两个辨别器，他们的损失函数分别是辨别各自数据域的真实特征的结果与1的差值加上对各自生成的假特征的辨别结果；

S23：对于生成器G_B的损失函数由CYCLE_LOSS*10和它生成特征值通过辨别器D_A输出值与1的差值的平方组成；

S24：对于生成器G_A的损失函数，其损失函数由CYCLE_LOSS*10和它生成特征值通过辨别器D_B输出值与1差值的平方，同时还包含排序模型的损失函数*5.0，还包括生成特征保持原样本间距离的损失值*5.0。

进一步地，所述步骤S3的具体过程如下：

S31：循环对抗生成网络中将原特征域和目标特征域的特征作为输入，而排序模型则是将原域特征经过生成对抗网络生成出来的特征和其一一对应的标签作为输入。

S32：为了作为结果比较，同时同步训练一个单独的排序模型，原域特征和对应标签作为输入；

S33：将生成器、辨别器和排序模型的训练比例大约设置成10:25:45。一共需要迭代700代左右，每隔200代随机打乱下数据，这样使对抗生成网络的稳定性，使用dropout技术减弱过拟合问题。迭代600-800代之后，检索精度已经趋于收敛；

S34：将训练好的模型保存，并用这个模型在迁移学习目标域上的测试集进行测试，测试结果使用学习排序官方计算结果的perl脚本计算。

S35:重复S31-S34，在数据集上做5次交叉验证，最后每个数据集的结果是5次交叉验证结果的均值。

与现有技术相比，本发明技术方案的有益效果是：

本发明利用letor3.0数据集中三个不同检索任务的数据集互相进行迁移学习，先用两个特征的域的数据进行循环生成对抗训练，这样训练的之后用相关域通过对应生成器生成的特征含有目标域部分信息，但主体还是相关域的特征，所以利用相关域原有对应标签，再异步交叉训练排序模型，最后做到End To End检索模型。

附图说明

图1为本发明流程示意图；

图2为实施例1中的算法结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，本发明是一种基于循环生成对抗网络的迁移学习排序方法，既然是迁移学习，首先要了解数据集。我们使用的是包含TREC 2003和2004的LETOR3.0数据集，它是微软亚洲研究院发布的信息检索研究学习排序的标准数据集。我们按排序任务将这个数据解分成几个特征域，即主页查找(HP)、命名页查找(NP)和主题提取(TD)各作为一个单独的域。其中各个单独域的query数量如表一所示，其中HP和NP任务之间的相似性更大，而TD与其他两个任务截然不同。用64维特征用于描述查询文档实例，每个任务有五个文件夹，分别用于五次交叉验证，每个文件夹中都有三个子数据集：训练集，验证集，测试集。我们用两个域的训练集进行训练，用目标域测试集进行测试，在整个训练过程中，目标域的标签整体不可见，目标域的测试集不可见。

◆表1、每个单独域的query数量

在之前的方法中，效果最好的做法是先计算相关域和目标域重要性或者相似性，然后使用这个重要性或相似性来对每个文档实例进行加权，然后再做迁移学习。由于他们没有直接在训练中使用目标域的特征分布信息，而这个信息在学习排序中由为重要，特别是在没有标签的情况下。所以我们就提出了一种基于循环生成对抗的网络的迁移学习方法。

具体方法步骤如下：首先构建一个可以在不同命名空间使用的生成器和辨别器。由于我们的目标任务是迁移学习排序，所以我们用三成全连接神经网络来表达生成器和辨别器。由于两个域的特征都是大于零的所以生成器最后一层输出用relu函数限制表达。辨别器最后一程用tanh函数作为分类函数，将真是的特征分布输出为1，将生成的假特征分布输出为-1。再构建一个和RankNet结构一样的学习排序网络用来做迁移排序学习。细节如下：

1、首先读入数据集，对应的两个数据集的年份和Fold号码相对应，例如相关域是HP2003/fold1那么目标域就应该是NP2003/fold1；

2、设置两个命名空间并构建两个生成器G_A和G_B，G_A负责用相关域特征生成目标域特征，并将G_B生成的假相关域特征生成回目标域特征。G_B负责用目标域特征生成相关域特征，并将G_A生成的假目标域特征生成回相关域域特征；设置两个命名空间并构建两个生成器D_A和D_B，D_A负责是相关域特征真是特征还是生产的特征，D_B负责辨别是目标域真是特征还是生成的特征；在将用G_A生成的假目标域特征和对应特征在相关域的标签放入学习排序的网络中进行训练。

3、先训练10次两个生成器，每次训练都将数据进行位移，以便使用不同批次数据训练，这里每批次数据大小为16个实例，然后将两个生成器生成的数据分别写入对应的文件中，以便辨别器使用，此时辨别器是固定的。为了加速训练和约束生成特征的表达空间，在生成器最后一层分别加入两个函数，一个是个RELU函数，另一个函数是自己实现的，其中α是相关系数，在试验中我们取α＝0.07形式如下：

4、再训练25次辨别器，从刚刚的记录生成数据的文件中读取数据并输入到对应辨别器中，再将真是的特征也同时输入到辨别器中进行训练，此时生成器是固定的。

5、然后训练45次排序模型，将相关域特征输入至生成器G_A中，然后利用G_A输出和对应标签来训练排序模型，此时的辨别器和生成器都是固定的。由于标签只有两类:相关和不相关，所以我们加了一个Tanh层(双曲函数)来将最后的预测相关性映射到-1到1之间。

6、重复步奏3-5大约700个epoch，然后用官方perl脚本对相应的数据集进行测试并记录结果。我们做了对应年份的HP-NP，NP-TD的迁移学习，还有一个NP03-TD04的数据集迁移。

我们假设相关域为A，目标域为B，那么对于辨别器，其优化函数如下所示，

对于

对于

其中x是学习排序特征向量，x∈R⁶⁴。P_A表示A域特征的分布，P_B类似。P_B2A是指由B生产A的特征分布，P_A2B类似。由上述函数可知，辨别器的目的就是让真实的分布输出接近1，而生成的特征分布输出接近0。

对于生成器G_B，其优化目标函数和循环对抗生成网络模型一致，如下所示：

对于

其中x∈R⁶⁴。P_A表示A域特征的分布。P_B2A是指由B生产A的特征分布。由上述函数可知生成器B尽量生成让辨别器A输出为1的特征，函数第二项是让由生成器A生成的特征还能通过B生成器生成回真实A域特征。

由于我们是做迁移学习，那么对于G_A有目的的改造。因为我们要让用G_A生成的特征加上相关域对应标签训练的排序模型在目标域上有更好的效果，所以我们要让G_A其中之的能力优化一下目标：

这里我们计算排序模型的损失函数时用的是pairwise方法，其中概率

P_ij表示x_i比x_j排名靠前的概率，x_i，x_j∈P_A2B，其中o_ij＝f(x_i)-f(x_j)。f函数就是排序打分函数。

为了解决在由相关域生成目标域特征时和相关域对应标签的变化问题，我们用两个方法结合：(1)让生成器G_A在生成特征后不仅要在目标域表现好，同时也要在自己的相关域表现好，既要优化

其中x_i，x_j∈P_A。(2)由于数据集只有相关和不相关两类，故在生成特征时要保持其在相关域(源域)不同类别的特征距离，我们因此定义距离损失函数：

所以综合起来，G_A生成器的优化目标函数为：

在本专利中λ取10.0，θ和γ都取5.0。

为了和以前方法做对比，排序相关的设置和以前的方法一致，都是两层的全连接网络来拟合排序打分函数，并使用随机梯度下降优化器进行优化。具体结果由平均精确率MAP来评价。同时为了使结果更有说服力，我们分别使用了RankNet的损失函数和RankSVM损失函数来获得对比结果。具体结果如以下表格所示：

表2、HP到NP迁移的MAP结果

表3、NP到TD迁移的MAP结果

表4、NP2003到TD2004迁移的MAP结果

从结果可以看出我们的发明相较于以前方法都很大的提升，本发明从当前生成对抗网络的作用出发，合理的利用了迁移学习中目标域的特征分布信息来做出效果更好的迁移，本发明的具体结构如附图2所示。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于循环生成对抗网络的迁移学习排序方法，其特征在于，包括以下步骤：

S1：建立用于学习排序任务的循环生成对抗网络；

S3：进行循环生成对抗网络的迁移学习排序的模型训练，并在目标域测试；

所述步骤S1的具体过程是：

S12：首先G_A生成器生成B域的学习排序数据的假特征值，G_B生成器生成A域的学习排序数据的假特征值，同时G_A生成器还生成正负样本的B域的假特征值；

S13：将D_A辨别器用于分别A域的学习排序特征和由G_B生成的特征值，同理D_A辨别器用于分别A域的学习排序特征和由G_B生成的特征值；当辨别器辨别为真实的时候输出约等于1，辨别为假的时候输出约等于0；

S14：将生成出来的B域特征再放入G_B生成器中生成CYCLE_A，同理生成出来的A域特征再放入G_A生成器中生成CYCLE_B；

S15：建立两个和两层全连接RankNet结构一致的排序结构，一个输入为A域特征和A域标签，另一个的输入为用A域特征生成的B域特征和对应的A域标签；

所述步骤S2的具体过程是：

S21：首先CYCLE_LOSS的值由如下部分组成：A域学习排序的真实特征和S14中CYCLE_A的距离的绝对值，B域学习排序的真实特征和S14中CYCLE_B的距离的绝对值；

S24：对于生成器G_A的损失函数，其损失函数由CYCLE_LOSS*10和它生成特征值通过辨别器D_B输出值与1差值的平方，同时还包含排序模型的损失函数*5.0，还包括生成特征保持原样本间距离的损失值*5.0；

所述步骤S3的具体过程如下：

S31：循环对抗生成网络中将原特征域和目标特征域的特征作为输入，而排序模型则是将原域特征经过生成对抗网络生成出来的特征和其一一对应的标签作为输入；

S33：将生成器、辨别器和排序模型的训练比例设置成2:5:9；一共需要迭代3000代，每隔1000代随机打乱下数据，这样使对抗生成网络的稳定性，使用dropout技术减弱过拟合问题；迭代3000代之后，检索精度已经趋于收敛；