CN116245146A

CN116245146A - 基于进化条件生成对抗网络的排序学习方法、系统及应用

Info

Publication number: CN116245146A
Application number: CN202310125303.5A
Authority: CN
Inventors: 李金忠; 曾寰
Original assignee: Jinggangshan University
Current assignee: Jinggangshan University
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-06-09

Abstract

本发明涉及一种基于进化条件生成对抗网络的排序学习方法、系统及应用，该方法包括以下步骤：步骤一：初始化相关参数，输入排序学习数据集；步骤二：初始化生成器种群和判别器；步骤三：交替迭代对抗训练生成器种群和判别器以产生最优模型，所述生成器种群采用进化策略进行训练；步骤四：基于所选择出的最优模型对信息检索目标进行预测排序。与现有技术相比，本发明融入进化策略到条件生成对抗网络中而设计Listwise排序学习方法，采用多种损失函数进行优化，互相取长补短，从而进化和寻找更好的解以产生效果优良的模型。

Description

基于进化条件生成对抗网络的排序学习方法、系统及应用

技术领域

本发明涉及信息检索与深度学习领域，尤其是涉及一种基于进化条件生成对抗网络的排序学习方法。

背景技术

排序学习(Learning to rank，LTR)是利用机器学习方法对大量的排序特征进行组合、自动训练排序模型以解决信息检索等领域中的一些排序问题。它在搜索引擎、电商系统、推荐系统和问答系统等实际应用中占有重要地位，越来越多的排序学习方法被广泛应用于这些场景中。很多知名的互联网公司如百度、搜狗、雅虎、Google、Yandex和Bing等搜索引擎，都依赖于排序学习方法为用户提供高质量的搜索结果，如排序学习算法RankNet已应用于微软的搜索引擎Bing当中以对Web搜索结果进行优化排序，排序学习算法LogisticRank已应用于雅虎搜索引擎中以优化搜索结果的排序等。

按照训练模型时输入数据样例的不同，排序学习方法可分为三大类型：Pointwise(单文档级别)、Pairwise(文档对级别)和Listwise(文档列表级别)的排序学习方法，其中Listwise类型的排序学习方法针对排序问题的模型设计更加自然，它将每个查询对应的所有搜索文档结果列表作为一个训练实例进行输入，直接优化排序列表，更加符合排序的本质。近年来，Listwise类型的排序学习方法变得越来越流行。

按照训练模型时所采用机器学习技术的不同，排序学习方法可分为：基于感知机、基于神经网络、基于支持向量机、基于极限学习机、基于贝叶斯、基于提升、基于树、基于进化算法、基于深度学习的排序学习方法和其他排序学习方法等。随着深度学习技术的爆发式发展，基于深度学习的排序学习方法逐渐成为学术界和工业界的主流方法，如采用循环神经网络、卷积神经网络、深度神经网络、深度Q网络、深度强化学习、生成对抗网络等设计排序学习方法以解决信息检索中的排序问题已成为研究者们追崇的热点。

运用生成对抗网络解决信息检索问题的第一个开创性工作是2017年Wang等提出的信息检索生成对抗网络(Information retrieval Generative Adversarial Networks，IRGAN)，它借鉴了生成对抗网络中生成器和判别器相互对抗思想，采用博弈论中的极小化极大算法来将生成检索模型和判别检索模型以一种对抗训练的方式集成到一个统一的框架中，使得两模型能够互相提高，最终使得检索到的文档更加精准。IRGAN只是设计了Pointwise IRGAN和Pairwise IRGAN排序学习方法，并没有设计Listwise类型的排序学习方法。2022年，Hai-Tao Yu等在IRGAN的基础上提出了Listwise对抗性排序学习，此处给它命名为IRGAN-Listwise，弥补了IRGAN缺乏Listwise IRGAN的缺陷。IRGAN-Listwise采用传统的生成对抗网络中定义的固定和静态的单个对抗性目标迭代地训练生成器和判别器，不利于从多个角度去提高生成性能，其效果还有待于进一步提升。

发明内容

为了克服上述现有技术的不足，本专利针对排序学习问题，创新性融合生成对抗网络技术和进化策略，发明提供一种基于进化条件生成对抗网络的Listwise类型的排序学习方法(Evolutionary Conditional Generative Adversarial Networks-Learning ToRank，ECGAN-LTR)。

本发明的目的可以通过以下技术方案来实现：

作为本发明的第一方面，提供一种基于进化条件生成对抗网络的排序学习方法，包括以下步骤：

步骤一：初始化相关参数，输入排序学习数据集；

步骤二：初始化生成器种群和判别器；

步骤三：交替迭代对抗训练生成器种群和判别器以产生最优模型，所述生成器种群采用进化策略进行训练；

步骤四：基于所选择出的最优模型对信息检索目标进行预测排序。

作为优选技术方案，所述初始化相关参数包括：初始化生成器种群大小μ，生成器变异算子个数N_m，迭代训练总次数epochs，每个epoch中判别器的更新步长N_d，top-K批量大小K以及Adam优化器的超参数。

作为优选技术方案，所述初始化生成器种群和判别器具体为：用随机权重

初始化生成器种群/>

用随机权重φ初始化判别器D_φ。

作为优选技术方案，所述交替迭代对抗训练生成器种群和判别器具体包括：

对于每个epoch，按照生成器种群训练1次、判别器训练N_d次的方式，通过对总体优化目标函数的最小化和最大化，交替迭代对抗训练生成器种群和判别器，直至算法收敛或者到达给定的epochs为止；

所述总体优化目标函数如下所示：

其中，θ和φ分别表示生成器G和判别器D的参数集，r代表文档与查询的相关性标签，N代表查询总数，P代表概率分布，E代表数学期望；P_true(list|q_n,r)表示正样本的概率分布，即在给定查询q_n下对所属文档按照相关性标签排序得到的ground-truth文档排序列表list的概率分布；P_θ(list|q_n,r)表示生成检索模型，它是由生成器G_θ从给定查询q_n下采样得到top-K文档排序列表list的概率分布，即采样得到的负样本的概率分布；f_φ(list|q_n,r)表示判别检索模型，它是由判别器D_φ估计一个排序列表list是ground-truth排序列表list还是生成器生成的文档排序列表list的概率；PL(f_φ(list|q_n,r))表示采用Plackett-Luce模型计算得到的排序概率分布；

表示服从排序学习数据集的ground-truth文档排列分布P_true(list|q_n,r)的数学期望，/>

表示采样得到的负样本的文档排列分布P_θ(list|q_n,r)的数学期望；

将生成器G_θ视为进化种群，判别器D_φ作为环境，对于每个epoch中的进化操作，生成器G_θ更新不同的包括似然函数、余弦函数和交叉熵函数的变异算子以此作为目标来适应当前环境D_φ，选择性能表现优秀的子代生成器

参与其后的对抗性迭代博弈训练。

作为优选技术方案，所述生成器种群的训练具体包括：

步骤a.1.对生成器种群G_θ中的每个生成器

针对不同变异算子，分别按以下步骤迭代训练生成器/>

其中，1≤j≤μ，1≤h≤N_m；

步骤a.1.1.使用生成器

从排序学习训练集中根据评分采样top-K的样本数据

步骤a.1.2.采用策略梯度优化生成器目标函数，按照

计算所选变异算子的梯度以更新梯度/>

所述生成器目标函数如下所示：

式中，θ为生成器的参数集，N为查询总数，r为文档与查询的相关性标签；P_θ(list|q_n,r)表示生成检索模型，它是由生成器G_θ从给定查询q_n下采样得到top-K文档排序列表list的概率分布，即采样得到的负样本的概率分布；f_φ(list|q_n,r)表示判别检索模型，它是由判别器D_φ估计一个排序列表list是ground-truth排序列表list还是生成器生成的文档排序列表list的概率；PL(f_φ(list|q_n,r))表示采用Plackett-Luce模型计算得到的排序概率分布；

所述变异算子h包括似然变异Likelihood、余弦变异Cosine和交叉熵变异CrossEntropy算子；

步骤a.1.3.更新子代网络参数

通过Adam优化器优化生成器网络以更新生成器网络参数，生成子代生成器/>

即/>

其中，θ^j为第j个生成器的网络参数，α、β₁、β₂为Adam优化器的超参数；

步骤a.1.4.按照适应度函数

的计算方法，评估子代生成器的适应度函数值F^j,h，其中，f_φ(d_z,q_n)表示判别器的评分函数，PL(f_φ(d_z,q_n))表示采用Plackett-Luce模型计算而得出的排序概率，K为文档总数；

步骤a.2.对所产生的子代生成器种群G_θ的各适应度函数值F^j,h进行排序，生成排序列表

即/>

步骤a.3.为各子代生成器按适应度函数值排序列表

选择最优的生成器网络，更新各子代的网络参数，即/>

生成新的生成器种群。

作为优选技术方案，所述似然变异Likelihood算子如下所示：

其中，

表示生成器p_θ从给定查询q下采样得到top-K文档排序列表list中的文档d_z的评分值，其中，/>

表示排序列表list中排在第z位置的文档d_z；

表示采用Plackett-Luce模型计算而得出的排序概率，其计算方法为:

是由判别器D_φ反馈的用于基于策略梯度的强化学习中策略梯度的奖励函数值，它的计算方法定义为：

其中，

表示采用Plackett-Luce模型计算而得出的排序概率；

通过极小化似然变异算子来最大化生成器的似然排序概率以迷惑判别器的判别行为。

作为优选技术方案，所述余弦变异Cosine算子如下所示：

其中，

表示生成器p_θ从给定查询q下采样得到top-K文档排序列表list中的文档d_z的评分值，/>

是由判别器D_φ反馈的用于基于策略梯度的强化学习中策略梯度的奖励函数值；/>

表示一个映射函数ψ(·)，保留了关联于给定查询q的一个最理想的排序列表list中各文档d_z的评分值，该list按照各文档d_z与其查询q的相关性标签值从大到小进行排序而所形成的最理想的排序列表，即ground-truth排序列表。

作为优选技术方案，所述交叉熵变异CrossEntropy算子如下所示：

其中，

是由判别器D_φ反馈的用于基于策略梯度的强化学习中策略梯度的奖励函数值，/>

表示一个映射函数ψ(·)，它保留了关联于给定查询q的一个最理想的排序列表list中各文档d_z的评分值，/>

表示一个最理想化的排序列表list中文档d_z的排序概率，/>

表示一个模型预测的排序列表list中文档d_z的排序概率，它们都采用softmax函数来进行计算而得出其排序概率，它们的计算方法分别为：/>

和

作为优选技术方案，所述判别器的训练具体包括：

对判别器执行N_d×μ次以下操作的迭代训练：

步骤b.1.给定查询q_n，使用当前生成器

从排序学习训练数据集中根据评分采样top-K的负样例数据/>

并与根据相关性标签排序的top-K正样例数据/>

进行组合；

步骤b.2.根据当前生成器Gθj生成的排列和由ground-truth标签所产生的排列使用判别器目标函数进行训练，判别器目标函数如下所示：

式中，φ代表判别器D的参数集，r代表文档与查询的相关性标签，N代表查询总数，P_true(list|q_n,r)表示正样本的概率分布，即在给定查询q_n下对所属文档按照相关性标签排序得到的ground-truth的文档排序列表list的概率分布；

表示生成检索模型，它是由生成器/>

从给定查询q_n下采样得到top-K文档排序列表list的概率分布，即采样得到的负样本的概率分布；f_φ(list|q_n,r)表示判别检索模型，它是由判别器D_φ估计一个排序列表list是ground-truth排序列表list还是生成器生成的文档排序列表list的概率；PL(f_φ(list|q_n,r))表示采用Plackett-Luce模型计算得到的排序概率分布；/>

表示服从排序学习数据集的真实最理想(即ground-truth)的文档排列分布P_true(list|q_n,r)的数学期望，/>

表示采样得到的负样本的文档排列分布/>

的数学期望；

计算判别器目标函数的梯度g_φ，即

式中，

表示判别器的评分函数，/>

表示采用Plackett-Luce模型计算而得出的排序概率，K为文档总数；

步骤b.3.通过Adam优化器优化判别器网络以更新判别器网络参数φ，即

φ←Adam(g_φ,φ,α,β₁,β₂)

式中，α、β₁、β₂为Adam优化器的超参数。

作为优选技术方案，所述基于所选择出的最优模型对信息检索目标进行预测排序具体包括：基于所选择出的最优模型可对排序学习测试数据集进行测试以比较不同排序学习方法的效果，也可应用于排序学习系统中对信息检索目标进行排序预测，进而应用于信息检索系统中以解决实际应用问题。

作为本发明的第二方面，提供一种采用上任一所述的基于进化条件生成对抗网络的排序学习方法的系统，所述系统包括

模型训练功能模块：利用基于进化条件生成对抗网络的排序学习方法训练模型，包括生成器模型训练子模块和判别器模型训练子模块，实现功能包括训练模型的评估和训练模型的保存；所述模型训练功能模块执行操作包括：加载排序学习训练数据集；设置好排序学习方法的相关参数；利用排序学习方法在所选择的排序学习训练数据集上进行交替迭代博弈训练以获取生成器种群模型和判别器模型；

模型验证功能模块：利用在模型训练功能模块中所训练出的模型，验证并选择和保存最优模型，包括生成器模型验证子模块和判别器模型验证子模块，实现功能包括验证模型的评估和验证模型的选择与保存；所述模型验证功能模块执行操作包括：加载排序学习验证数据集；将模型训练功能模块中所训练出的模型在所选择的排序学习验证数据集上进行验证以获取性能评估最优的模型，并选择和保存最优模型作为模型预测功能模块的测试模型；

模型测试功能模块：利用在模型验证功能模块中所选择出的性能评估最优模型来测试模型，包括生成器模型测试子模块和判别器模型测试子模块，实现功能包括性能指标评估和预测结果保存；所述性能评估指标包括信息检索领域中的有效性评估指标；所述模型测试功能模块执行操作包括：加载排序学习测试数据集；将模型验证功能模块中所保存的性能评估最优模型在所选择的排序学习测试数据集上进行测试以获得相关性评分和信息检索中的一些性能指标评估值；判断相关性评分是否大于设定阈值：若是则返回文档与查询相关，否则返回文档与查询不相关。

作为本发明的第三方面，提供一种采用上任一所述的基于进化条件生成对抗网络的排序学习方法的应用，

将基于进化条件生成对抗网络的排序学习方法ECGAN-LTR应用于包括百度、谷歌、必应、雅虎、搜狗和Yandex的搜索引擎中，具体应用步骤如下：

步骤1：将基于进化条件生成对抗网络的排序学习方法ECGAN-LTR嵌入搜索引擎中；

首先，获得网页到搜索引擎网页索引数据库中以获取排序学习初始数据；

其次，对搜索引擎网页索引数据库中的部分网页进行数据预处理，对网页进行排序特征的提取和相关性标注，并以标准排序学习数据集的格式构建搜索引擎的排序学习数据集；

然后，在所构建的排序学习数据集上，运用基于进化条件生成对抗网络的排序学习方法ECGAN-LTR去交替迭代博弈对抗优化训练、验证和选择模型以产生最优生成器模型和判别器模型；

最后，将所产生的最优模型植入到搜索引擎的排序系统中；

步骤2：执行查询-网页搜索，按照嵌入的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR所产生的最优模型进行效果评估，预测并呈现排序结果；

在融入了排序学习方法ECGAN-LTR的搜索引擎中，用户可循环多次执行查询-网页搜索；

首先，用户在搜索引擎的搜索框中，输入想要搜索的查询词，并点击搜索以执行网页搜索；

其次，搜索引擎的排序系统从搜索引擎网页索引数据库中找出所有包含了该查询词的网页，并按照嵌入的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR所产生的最优模型进行效果评估，计算出网页排序得分，以预测出网页搜索的排序结果；

最后，将网页搜索排序结果按照一定的方式返回到搜索页面以呈现给搜索用户。

与现有技术相比，本发明具有以下有益效果：

本发明提供了一种基于进化条件生成对抗网络的排序学习方法ECGAN-LTR，该方法是一种新颖且更加有效的Listwise类型的排序学习方法。ECGAN-LTR方法针对排序学习问题，在条件生成对抗网络框架下融入了变异、评估和选择等进化策略以进化生成器种群，并与判别器进行对抗博弈以交替迭代训练最优生成器模型和判别器模型。Listwise排序学习方法ECGAN-LTR是将进化策略融入到条件生成对抗网络中，在每一次迭代进化中，生成器根据多种不同的损失函数去适应当前的环境(即判别器)，删掉适应度较低的个体。并且相比单一的损失函数，本发明采用多种损失函数(似然变异、余弦变异，交叉熵变异)进行优化，可以互相取长补短，从而进化和寻找更好的解以产生效果优良的模型。

附图说明

图1为本发明基于进化条件生成对抗网络的排序学习方法ECGAN-LTR的流程示意图；

图2为本发明基于进化条件生成对抗网络的排序学习系统的流程示意图；

图3为本发明基于进化条件生成对抗网络的排序学习系统功能结构图；

图4为本发明实施例中基于进化条件生成对抗网络的排序学习系统界面图；

图5为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集OHSUMED上的P@K性能指标对比图；

图6为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集OHSUMED上的NDCG@K性能指标对比图；

图7为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集MQ2008上的P@K性能指标对比图；

图8为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集MQ2008上的NDCG@K性能指标对比图；

图9为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集MSLR-WEB10K上的P@K性能指标对比图；

图10为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集MSLR-WEB10K上的NDCG@K性能指标对比图；

图11为基于进化条件生成对抗网络的排序学习方法ECGAN-LTR的应用示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

作为本发明的第一方面，提供了一种基于进化条件生成对抗网络的排序学习方法ECGAN-LTR，该方法是一种在条件生成对抗网络(Conditional Generative AdversarialNets，CGAN)框架基础上，融入变异、评估和选择等进化操作以进化CGAN中生成器种群来与判别器进行交替迭代对抗性博弈以产生性能优良的模型的新颖方法。该方法将排序学习的过程建模为两个对手(即一个生成器种群和一个判别器)之间的迭代博弈，生成器旨在生成(或选择)看起来像ground-truth排名的排列以此欺骗判别器，而判别器旨在明确区分ground-truth排列和由其对手生成器所生成的排列。在ECGAN-LTR方法中，生成器和判别器的最优参数θ和φ可以分别通过对同一总体优化目标函数式(1)的最小化和最大化进行迭代学习以博弈训练、对抗优化各自模型。

其中，生成器G_θ旨在最小化该目标函数，即最小化目标函数式(2)：

生成器拟合在所有可能排列list～p_true(list|q_n,r)上的真实分布，并随机生成排列以欺骗判别器。判别器评估一个排列是真实最理想(ground-truth)排列或者是生成器所生成的排列的概率，其目标是使正确区分ground-truth排列和由生成器所生成的排列的对数似能性最大化，即最大化目标函数式(3)：

其中，θ和φ分别表示生成器G和判别器D的参数集，r代表文档与查询的相关性标签，N代表查询总数，P代表概率分布，E代表数学期望；P_true(list|q_n,r)表示正样本的概率分布，即在给定查询q_n下对所属文档按照相关性标签排序得到的真实最理想(即ground-truth)的文档排序列表list的概率分布；P_θ(list|q_n,r)表示生成检索模型，它是由生成器G_θ从给定查询q_n下采样得到top-K文档排序列表list的概率分布，即采样得到的负样本的概率分布；f_φ(list|q_n,r)表示判别检索模型，它是由判别器D_φ估计一个排序列表list是ground-truth排序列表list还是生成器生成的文档排序列表list的概率；PL(f_φ(list|q_n,r))表示采用Plackett-Luce模型计算得到的排序概率分布；

表示服从排序学习数据集的真实最理想(即ground-truth)的文档排列分布P_true(list|q_n,r)的数学期望，

表示采样得到的负样本的文档排列分布P_θ(list|q_n,r)的数学期望。

将生成器G_θ视为进化种群，判别器D_φ作为环境。对于每轮进化操作，生成器G_θ更新不同的变异函数以此作为目标来适应当前环境D_φ，变异函数主要包括似然函数、余弦函数和交叉熵函数等。根据“适者生存”原则，只有性能表现优秀的子代生成器

存活并参与其后的对抗性迭代博弈训练。与信息检索生成对抗网络IRGAN中具有单一固定和静态对抗性训练目标的极小极大博弈的双人游戏不同，ECGAN-LTR排序学习方法通过融合多个不同变异函数的动态对抗性目标等优势来进化和寻找更好的解以产生性能优良的模型。

基于进化条件生成对抗网络的排序学习方法ECGAN-LTR的流程框架如图1所示，主要包含初始化相关参数和输入排序学习数据集、初始化生成器种群和判别器、交替迭代对抗训练生成器种群和判别器以产生最优模型、基于所选择出的最优模型对信息检索目标进行预测排序这四大步骤。

一种基于进化条件生成对抗网络的排序学习方法ECGAN-LTR各具体步骤如下：

步骤一：初始化相关参数，输入排序学习数据集。

初始化生成器种群大小μ，生成器变异算子个数N_m，迭代训练总次数epochs，每个epoch中判别器的更新步长N_d，top-K批量大小K，Adam优化器的超参数α、β₁和β₂等参数，输入排序学习数据集。

步骤二：初始化生成器种群和判别器。

用随机权重

初始化生成器种群/>

用随机权重φ初始化判别器D_φ。

步骤三：交替迭代对抗训练生成器种群和判别器以产生最优模型。

对于每个epoch，按照生成器种群训练1次、判别器训练N_d次的方式，通过对同一总体优化目标函数(1)的最小化和最大化，交替迭代对抗训练生成器种群和判别器，直至算法收敛或者到达给定的epochs为止。生成器种群和判别器的具体训练方式分别如下：

(一)、训练生成器种群：执行变异、评估和选择等进化策略训练生成器种群。

步骤a.1对生成器种群G_θ中的每个生成器

针对不同变异算子，分别按以下步骤迭代训练生成器/>

其中，1≤j≤μ，1≤h≤N_m：

步骤a.1.1使用生成器

从排序学习训练集中根据评分采样top-K的样本数据

步骤a.1.2采用策略梯度优化目标函数(2)，按照

计算所选变异算子的梯度以更新梯度/>

变异算子h可包括似然变异Likelihood、余弦变异Cosine和交叉熵变异CrossEntropy等算子。此处的似然变异算子、余弦变异算子和交叉熵变异算子分别是依据排序学习方法ListMLE中的似然损失函数Likelihood Loss、排序学习方法RankCosine中的余弦损失函数Cosine Loss和排序学习方法ListNet中的交叉熵损失函数Cross Entropy Loss的思想而设计的变体变异算子，它们的计算方法分别设计为公式(4)至(6)所示：

(1)似然变异Likelihood算子：

此处，

表示排序列表list中排在第z位置的文档d_z；/>

是由判别器D_φ反馈的用于基于策略梯度的强化学习中策略梯度的奖励函数值，它的计算方法定义为

(2)余弦变异Cosine算子：

此处，

和/>

的含义与似然变异算子中的/>

和

的含义分别对应相同；/>

表示一个映射函数ψ(·)，它保留了关联于给定查询q的一个最理想的排序列表list中各文档d_z的评分值，该list是按照各文档d_z与其查询q的相关性标签值从大到小进行排序而所形成的最理想的排序列表，即ground-truth排序列表。

(3)交叉熵变异CrossEntropy算子：

此处，

和/>

的含义与似然变异算子中的/>

和

的含义分别对应相同，/>

的含义与余弦变异算子中的含义对应相同；/>

表示一个最理想化的排序列表list中文档d_z的排序概率，

表示一个模型预测的排序列表list中文档d_z的排序概率，它们都采用softmax函数来进行计算而得出其排序概率，它们的计算方法分别为：

和/>

步骤a.1.3更新子代网络参数

即/>

步骤a.1.4按照适应度函数

的计算方法，评估子代生成器的适应度函数值F^j,h。/>

步骤a.2对所产生的子代生成器种群G_θ的各适应度函数值F^j,h进行排序，生成排序列表

即/>

步骤a.3为各子代生成器按适应度函数值排序列表

选择最优的生成器网络，更新各子代的网络参数，即/>

生成新的生成器种群。

(二)、训练判别器。

对判别器执行N_d×μ次以下操作的迭代训练：

步骤b.1给定查询q_n，使用当前生成器

从排序学习训练数据集中根据评分采样top-K的负样例数据/>

并与给定的根据相关性标签排序的top-K正样例数据

进行组合；

步骤b.2根据当前生成器

生成的排列和由ground-truth标签所产生的排列使用函数(3)训练判别器，即计算判别器目标函数(3)的梯度g_φ，也即

步骤b.3通过Adam优化器优化判别器网络以更新判别器网络参数φ，即φ←Adam(g_φ,φ,α,β₁,β₂)。

基于所选择出的最优模型可对排序学习测试数据集进行测试以比较不同排序学习方法的效果，也可应用于排序学习系统中对信息检索目标进行排序预测，进而应用于信息检索系统中以解决实际应用问题。

本发明提供了一种新颖且更加有效的Listwise排序学习方法ECGAN-LTR，该方法针对排序学习问题，在条件生成对抗网络框架下融入了变异、评估和选择等进化策略以进化判别器种群，并与生成器进行对抗博弈以交替迭代训练最优判别器模型和生成器模型。

1)创新了一种Listwise类型的排序学习方法。

本专利所发明的基于进化条件生成对抗网络的排序学习方法，是一种新颖的Listwise类型的排序学习方法。该方法可为信息检索提供一类基于进化生成对抗网络的Listwise排序学习新方法，树立了生成对抗网络与进化算法融合的Listwise排序学习研究新范式，开创了应用进化生成对抗网络设计Listwise类型的排序学习的先河，为排序学习方法的研究开辟了一个崭新的视野，为致力于排序学习研究的同仁探索了一种新思路。

2)本发明所要实现的技术效果在于：Listwise排序学习方法ECGAN-LTR将进化策略融入到条件生成对抗网络中，在每一次进化中，生成器根据多种不同的损失函数去适应当前的环境(即判别器)，删掉适应度较低的个体。相比单一的损失函数，采用多种损失函数(似然变异、余弦变异，交叉熵变异)进行优化，可以互相取长补短，从而进化和寻找更好的解以产生效果优良的模型。

实施例2

作为本发明的第二方面，为了验证所发明的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR的效果，本实施例在PyCharm 2019集成开发环境和深度学习框架PyTorch下，采用Python语言编写实现了一个融入了基于进化条件生成对抗网络的Listwise排序学习方法ECGAN-LTR的系统。该系统的基本流程框架如图2所示，它是通过如上实施例所述的基于进化条件生成对抗网络的Listwise排序学习方法ECGAN-LTR在排序学习训练数据集上训练模型，再利用训练出来的模型在排序学习验证数据集上进行验证以选择和保存最优模型。最后，通过所保存的最终的最优模型在排序学习测试数据集上进行模型预测以此得出测试结果。对于模型训练，基于排序学习训练数据集，进化生成器种群，并与判别器交替博弈对抗训练以优化模型；对于验证模型，基于排序学习验证数据集，通过计算各子代模型的性能指标值，并根据优胜劣汰的原则选择和保存最优的生成器模型和判别器模型。对于模型测试，基于排序学习测试数据集，运用所保存的最终最优模型进行测试并预测排序结果，同时输出预测排序结果。

基于进化条件生成对抗网络的排序学习系统主要包含模型训练功能模块、模型验证功能模块和模型测试功能模块，其功能结构如图3所示。其中，模型训练功能模块是利用本发明所设计的基于进化条件生成对抗网络的Listwise排序学习方法ECGAN-LTR来训练模型，主要包括生成器模型训练子模块和判别器模型训练子模块，它们主要实现训练模型的评估和训练模型的保存等功能；在模型训练功能模块中，主要操作有：加载排序学习训练数据集；设置好排序学习方法ECGAN-LTR的相关参数；利用排序学习方法ECGAN-LTR在所选择的排序学习训练数据集上进行交替迭代博弈训练以获取生成器种群模型和判别器模型。

模型验证功能模块是利用在模型训练功能模块中所训练出的模型来验证并选择和保存最优模型的，主要包括生成器模型验证子模块和判别器模型验证子模块，它们主要实现验证模型的评估和验证模型的选择与保存等功能；在模型验证功能模块中，主要操作有：加载排序学习验证数据集；将模型训练功能模块中所训练出的模型在所选择的排序学习验证数据集上进行验证以获取性能评估最优的模型(包括最优判别器模型和最优生成器模型)，并选择和保存最优模型作为模型测试功能模块的测试模型。

模型测试功能模块是利用在模型验证功能模块中所最终选择和保存的最优模型来测试模型的，主要包括生成器模型测试子模块和判别器模型测试子模块，它们主要实现性能指标评估和预测结果保存等功能。对于性能评估指标，主要包括信息检索领域中的有效性评估指标，例如归一化折扣累积增益(Normalize Discounted Cumulative Gain，NDCG)和准确率(Precision，P)等性能指标。在模型测试功能模块中，主要操作有：加载排序学习测试数据集；将模型验证功能模块中所保存的性能评估最优模型在所选择的排序学习测试数据集上进行测试以获得相关性评分和信息检索中的一些性能指标评估值；判断相关性评分是否大于设定阈值：若是则返回文档与查询相关(用1表示)，否则返回文档与查询不相关(用0表示)。

当安装了Python 3.8和PyCharm 2019及以上版本，同时安装完Pytorch 1.12.1，PrettyTable 3.4.1等软件以后，就可以去运行基于进化条件生成对抗网络的排序学习系统。系统提供了GUI操作界面，如图4所示，其使用和操作方法如下：

首先，用户点击“排序学习数据集路径选择”按钮以选择排序学习数据集的路径；其次，用户点击“生成器和判别器模型输出路径选择”按钮以选择生成器和判别器模型的输出路径；接着，用户通过选择排序学习数据集的选择框中的向下箭头(即下拉列表框)以选择所需要加载的排序学习数据集，如可加载排序学习数据集OHSUMED，MQ2008和MSLR-WEB10K等；然后，用户可以修改一些参数的默认设置，例如top-k中k的大小、生成器种群大小、生成器学习率、判别器学习率、判别器更新步长以及生成对抗网络的epochs等值的设置；再次，用户点击“训练生成器种群和判别器模型”按钮运行Listwise排序学习方法ECGAN-LTR以交替迭代博弈训练生成器种群和判别器模型，并等待运行结果。最后，用户点击“测试最优生成器和判别器模型”按钮，对通过运行Listwise排序学习方法ECGAN-LTR时所产生的最优生成器和判别器模型进行测试，并等待运行结果。

对于ECGAN-LTR方法，可供调节的参数有：排序学习数据集的选择，top-k大小的设置(默认值为2，可调节范围为大于1的整数，当top-k数值大于query下排序文档数时，则top-k为该query下对应的文档总数)，判别器学习率和生成器学习率(默认数值为0.001，调节范围需大于0且小于1的浮点型数值)，判别器轮数(默认数值为8，调节范围需大于1的整型数值)，生成器种群数(默认数值为1，调节范围需大于1的整型数值)，生成对抗网络博弈的总轮数epochs(默认数值为1，调节范围需大于1的整型数值)等。

实验在公开的3个标准排序学习数据集上进行了测试，这3个标准排序学习数据集分别是LETOR3.0中的OHSUMED，LETOR4.0中的MQ2008和微软排序学习数据集MSLR-WEB10K，并与IRGAN-listwise排序学习方法进行了性能对比。

图5至图10分别展示了ECGAN-LTR方法与IRGAN-listwise方法在排序学习数据集OHSUMED、MQ2008和MSLR-WEB10K上关于性能指标P@K和NDCG@K的比较，其中ECGAN-LTR-D和ECGAN-LTR-G分别表示ECGAN-LTR的判别器和生成器，IRGAN-Listwise-D和IRGAN-Listwise-G分别表示IRGAN-Listwise的判别器和生成器。从图中的实验结果可表明，Listwise排序学习方法ECGAN-LTR取得了具有竞争力的性能，整体效果上优于IRGAN-Listwise排序学习方法。

实施例3

根据本发明的第三方面，提供了一种采用所述的基于进化条件生成对抗网络的排序学习方法的应用。其具体应用实例为：

基于进化条件生成对抗网络的排序学习方法ECGAN-LTR可以应用于如搜索引擎、电商系统、推荐系统、广告系统和问答系统等实际需求排序中。将该方法所训练出的排序模型嵌入信息检索应用场景的排序系统中，以此排序模型去预测用户需要搜索的查询词的网页排序结果以优化搜索结果的排序，从而可提高信息检索的有效性，增强用户体验感。

将基于进化条件生成对抗网络的排序学习方法ECGAN-LTR应用于如百度(Baidu)、谷歌(Google)、必应(Bing)、雅虎(Yahoo)、搜狗(Sogou)和Yandex等搜索引擎中以作示例应用。ECGAN-LTR排序学习方法应用于搜索引擎中的操作实施流程如图11所示，其实施步骤如下所述：

步骤1.将基于进化条件生成对抗网络的排序学习方法ECGAN-LTR嵌入搜索引擎中。

首先，获得网页到搜索引擎网页索引数据库中以获取排序学习初始数据。

其次，对搜索引擎网页索引数据库中的部分网页进行数据预处理，对网页进行排序特征的提取和相关性标注，并以标准排序学习数据集的格式构建搜索引擎的排序学习数据集。

然后，在所构建的排序学习数据集上，运用基于进化条件生成对抗网络的排序学习方法ECGAN-LTR去交替迭代博弈对抗优化训练、验证和选择模型以产生最优生成器模型和判别器模型。

最后，将所产生的最优模型植入到搜索引擎的排序系统中。

步骤2.执行查询-网页搜索，按照嵌入的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR所产生的最优模型进行效果评估，预测并呈现排序结果。

在融入了ECGAN-LTR排序学习方法的搜索引擎中，用户可循环多次执行查询-网页搜索。

首先，用户在搜索引擎的搜索框中，输入想要搜索的查询词，并点击搜索以执行网页搜索。

其次，搜索引擎的排序系统从搜索引擎网页索引数据库中找出所有包含了该查询词的网页，并按照嵌入的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR所产生的最优模型进行效果评估，计算出网页排序得分，以预测出哪些网页应该排在前面，哪些网页应该排在后面。从而获得网页搜索的排序结果。

最后，将网页搜索排序结果按照一定的方式返回到“搜索”页面以呈现给搜索用户。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于进化条件生成对抗网络的排序学习方法，其特征在于，包括以下步骤：

步骤一：初始化相关参数，输入排序学习数据集；

步骤二：初始化生成器种群和判别器；

2.根据权利要求1所述的基于进化条件生成对抗网络的排序学习方法，其特征在于，所述初始化相关参数包括：初始化生成器种群大小μ，生成器变异算子个数N_m，迭代训练总次数epochs，每个epoch中判别器的更新步长N_d，top-K批量大小K以及Adam优化器的超参数。

3.根据权利要求1所述的基于进化条件生成对抗网络的排序学习方法，其特征在于，所述交替迭代对抗训练生成器种群和判别器具体包括：

所述总体优化目标函数如下所示：

参与其后的对抗性迭代博弈训练。

4.根据权利要求3所述的基于进化条件生成对抗网络的排序学习方法，其特征在于，所述生成器种群的训练具体包括：

步骤a.1.对生成器种群G_θ中的每个生成器

针对不同变异算子，分别按以下步骤迭代训练生成器/>

其中，1≤j≤μ，1≤h≤N_m；

步骤a.1.1.使用生成器

从排序学习训练集中根据评分采样top-K的样本数据/>

步骤a.1.2.采用策略梯度优化生成器目标函数，按照

计算所选变异算子的梯度以更新梯度/>

所述生成器目标函数如下所示：

步骤a.1.3.更新子代网络参数

即/>

其中，θ^j为第j个生成器种群的网络参数，α、β₁、β₂为Adam优化器的超参数；

步骤a.1.4.按照适应度函数

即/>

步骤a.3.为各子代生成器按适应度函数值排序列表

选择最优的生成器网络，更新各子代的网络参数，即/>

生成新的生成器种群。

5.根据权利要求4所述的基于进化条件生成对抗网络的排序学习方法，其特征在于，所述似然变异Likelihood算子如下所示：

其中，

表示排序列表list中排在第z位置的文档d_z；/>

表示采用Plackett-Luce模型计算而得出的排序概率，其计算方法为:/>

其中，

表示采用Plackett-Luce模型计算而得出的排序概率；

6.根据权利要求4所述的基于进化条件生成对抗网络的排序学习方法，其特征在于，所述余弦变异Cosine算子如下所示：

其中，

7.根据权利要求4所述的基于进化条件生成对抗网络的排序学习方法，其特征在于，所述交叉熵变异CrossEntropy算子如下所示：

其中，

表示一个最理想化的排序列表list中文档d_z的排序概率，/>

和/>

8.根据权利要求3所述的基于进化条件生成对抗网络的排序学习方法，其特征在于，所述判别器的训练具体包括：

对判别器执行N_d×μ次以下操作的迭代训练：

步骤b.1.给定查询q_n，使用当前生成器

从排序学习训练数据集中根据它们的评分采样top-K的负样例数据/>

并与根据相关性标签排序的top-K正样例数据/>

进行组合；

步骤b.2.根据当前生成器

生成的排列和由ground-truth标签所产生的排列使用判别器目标函数进行训练，判别器目标函数如下所示：

表示生成检索模型，它是由生成器/>

表示采样得到的负样本的文档排列分布/>

的数学期望；

计算判别器目标函数的梯度g_φ，即

式中，

表示判别器的评分函数，/>

φ←Adam(g_φ，φ，α，β₁，β₂)

式中，α、β₁、β₂为Adam优化器的超参数。

9.一种采用权利要求1-8任一所述的基于进化条件生成对抗网络的排序学习方法的系统，其特征在于，所述系统包括

模型验证功能模块：利用在模型训练功能模块中所训练出的模型，验证并选择和保存最优模型，包括生成器模型验证子模块和判别器模型验证子模块，实现功能包括验证模型的评估和验证模型的选择与保存；所述模型验证功能模块执行操作包括：加载排序学习验证数据集；将模型训练功能模块中所训练出的模型在所选择的排序学习验证数据集上进行验证以获取性能评估最优的模型，并选择和保存最优模型作为模型测试功能模块的测试模型；

10.一种采用权利要求1-8任一所述的基于进化条件生成对抗网络的排序学习方法的应用，其特征在于，

将基于进化条件生成对抗网络的排序学习方法，命名为ECGAN-LTR，应用于包括百度、谷歌、必应、雅虎、搜狗和Yandex的搜索引擎中，具体应用步骤如下：

最后，将所产生的最优模型植入到搜索引擎的排序系统中；