CN116245146A - 基于进化条件生成对抗网络的排序学习方法、系统及应用 - Google Patents

基于进化条件生成对抗网络的排序学习方法、系统及应用 Download PDF

Info

Publication number
CN116245146A
CN116245146A CN202310125303.5A CN202310125303A CN116245146A CN 116245146 A CN116245146 A CN 116245146A CN 202310125303 A CN202310125303 A CN 202310125303A CN 116245146 A CN116245146 A CN 116245146A
Authority
CN
China
Prior art keywords
model
generator
learning
training
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310125303.5A
Other languages
English (en)
Inventor
李金忠
曾寰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinggangshan University
Original Assignee
Jinggangshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinggangshan University filed Critical Jinggangshan University
Priority to CN202310125303.5A priority Critical patent/CN116245146A/zh
Publication of CN116245146A publication Critical patent/CN116245146A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于进化条件生成对抗网络的排序学习方法、系统及应用,该方法包括以下步骤:步骤一:初始化相关参数,输入排序学习数据集;步骤二:初始化生成器种群和判别器;步骤三:交替迭代对抗训练生成器种群和判别器以产生最优模型,所述生成器种群采用进化策略进行训练;步骤四:基于所选择出的最优模型对信息检索目标进行预测排序。与现有技术相比,本发明融入进化策略到条件生成对抗网络中而设计Listwise排序学习方法,采用多种损失函数进行优化,互相取长补短,从而进化和寻找更好的解以产生效果优良的模型。

Description

基于进化条件生成对抗网络的排序学习方法、系统及应用
技术领域
本发明涉及信息检索与深度学习领域,尤其是涉及一种基于进化条件生成对抗网络的排序学习方法。
背景技术
排序学习(Learning to rank,LTR)是利用机器学习方法对大量的排序特征进行组合、自动训练排序模型以解决信息检索等领域中的一些排序问题。它在搜索引擎、电商系统、推荐系统和问答系统等实际应用中占有重要地位,越来越多的排序学习方法被广泛应用于这些场景中。很多知名的互联网公司如百度、搜狗、雅虎、Google、Yandex和Bing等搜索引擎,都依赖于排序学习方法为用户提供高质量的搜索结果,如排序学习算法RankNet已应用于微软的搜索引擎Bing当中以对Web搜索结果进行优化排序,排序学习算法LogisticRank已应用于雅虎搜索引擎中以优化搜索结果的排序等。
按照训练模型时输入数据样例的不同,排序学习方法可分为三大类型:Pointwise(单文档级别)、Pairwise(文档对级别)和Listwise(文档列表级别)的排序学习方法,其中Listwise类型的排序学习方法针对排序问题的模型设计更加自然,它将每个查询对应的所有搜索文档结果列表作为一个训练实例进行输入,直接优化排序列表,更加符合排序的本质。近年来,Listwise类型的排序学习方法变得越来越流行。
按照训练模型时所采用机器学习技术的不同,排序学习方法可分为:基于感知机、基于神经网络、基于支持向量机、基于极限学习机、基于贝叶斯、基于提升、基于树、基于进化算法、基于深度学习的排序学习方法和其他排序学习方法等。随着深度学习技术的爆发式发展,基于深度学习的排序学习方法逐渐成为学术界和工业界的主流方法,如采用循环神经网络、卷积神经网络、深度神经网络、深度Q网络、深度强化学习、生成对抗网络等设计排序学习方法以解决信息检索中的排序问题已成为研究者们追崇的热点。
运用生成对抗网络解决信息检索问题的第一个开创性工作是2017年Wang等提出的信息检索生成对抗网络(Information retrieval Generative Adversarial Networks,IRGAN),它借鉴了生成对抗网络中生成器和判别器相互对抗思想,采用博弈论中的极小化极大算法来将生成检索模型和判别检索模型以一种对抗训练的方式集成到一个统一的框架中,使得两模型能够互相提高,最终使得检索到的文档更加精准。IRGAN只是设计了Pointwise IRGAN和Pairwise IRGAN排序学习方法,并没有设计Listwise类型的排序学习方法。2022年,Hai-Tao Yu等在IRGAN的基础上提出了Listwise对抗性排序学习,此处给它命名为IRGAN-Listwise,弥补了IRGAN缺乏Listwise IRGAN的缺陷。IRGAN-Listwise采用传统的生成对抗网络中定义的固定和静态的单个对抗性目标迭代地训练生成器和判别器,不利于从多个角度去提高生成性能,其效果还有待于进一步提升。
发明内容
为了克服上述现有技术的不足,本专利针对排序学习问题,创新性融合生成对抗网络技术和进化策略,发明提供一种基于进化条件生成对抗网络的Listwise类型的排序学习方法(Evolutionary Conditional Generative Adversarial Networks-Learning ToRank,ECGAN-LTR)。
本发明的目的可以通过以下技术方案来实现:
作为本发明的第一方面,提供一种基于进化条件生成对抗网络的排序学习方法,包括以下步骤:
步骤一:初始化相关参数,输入排序学习数据集;
步骤二:初始化生成器种群和判别器;
步骤三:交替迭代对抗训练生成器种群和判别器以产生最优模型,所述生成器种群采用进化策略进行训练;
步骤四:基于所选择出的最优模型对信息检索目标进行预测排序。
作为优选技术方案,所述初始化相关参数包括:初始化生成器种群大小μ,生成器变异算子个数Nm,迭代训练总次数epochs,每个epoch中判别器的更新步长Nd,top-K批量大小K以及Adam优化器的超参数。
作为优选技术方案,所述初始化生成器种群和判别器具体为:用随机权重
Figure SMS_1
初始化生成器种群/>
Figure SMS_2
用随机权重φ初始化判别器Dφ
作为优选技术方案,所述交替迭代对抗训练生成器种群和判别器具体包括:
对于每个epoch,按照生成器种群训练1次、判别器训练Nd次的方式,通过对总体优化目标函数的最小化和最大化,交替迭代对抗训练生成器种群和判别器,直至算法收敛或者到达给定的epochs为止;
所述总体优化目标函数如下所示:
Figure SMS_3
其中,θ和φ分别表示生成器G和判别器D的参数集,r代表文档与查询的相关性标签,N代表查询总数,P代表概率分布,E代表数学期望;Ptrue(list|qn,r)表示正样本的概率分布,即在给定查询qn下对所属文档按照相关性标签排序得到的ground-truth文档排序列表list的概率分布;Pθ(list|qn,r)表示生成检索模型,它是由生成器Gθ从给定查询qn下采样得到top-K文档排序列表list的概率分布,即采样得到的负样本的概率分布;fφ(list|qn,r)表示判别检索模型,它是由判别器Dφ估计一个排序列表list是ground-truth排序列表list还是生成器生成的文档排序列表list的概率;PL(fφ(list|qn,r))表示采用Plackett-Luce模型计算得到的排序概率分布;
Figure SMS_4
表示服从排序学习数据集的ground-truth文档排列分布Ptrue(list|qn,r)的数学期望,/>
Figure SMS_5
表示采样得到的负样本的文档排列分布Pθ(list|qn,r)的数学期望;
将生成器Gθ视为进化种群,判别器Dφ作为环境,对于每个epoch中的进化操作,生成器Gθ更新不同的包括似然函数、余弦函数和交叉熵函数的变异算子以此作为目标来适应当前环境Dφ,选择性能表现优秀的子代生成器
Figure SMS_6
参与其后的对抗性迭代博弈训练。
作为优选技术方案,所述生成器种群的训练具体包括:
步骤a.1.对生成器种群Gθ中的每个生成器
Figure SMS_7
针对不同变异算子,分别按以下步骤迭代训练生成器/>
Figure SMS_8
其中,1≤j≤μ,1≤h≤Nm
步骤a.1.1.使用生成器
Figure SMS_9
从排序学习训练集中根据评分采样top-K的样本数据
Figure SMS_10
步骤a.1.2.采用策略梯度优化生成器目标函数,按照
Figure SMS_11
计算所选变异算子的梯度以更新梯度/>
Figure SMS_12
所述生成器目标函数如下所示:
Figure SMS_13
式中,θ为生成器的参数集,N为查询总数,r为文档与查询的相关性标签;Pθ(list|qn,r)表示生成检索模型,它是由生成器Gθ从给定查询qn下采样得到top-K文档排序列表list的概率分布,即采样得到的负样本的概率分布;fφ(list|qn,r)表示判别检索模型,它是由判别器Dφ估计一个排序列表list是ground-truth排序列表list还是生成器生成的文档排序列表list的概率;PL(fφ(list|qn,r))表示采用Plackett-Luce模型计算得到的排序概率分布;
Figure SMS_14
表示采样得到的负样本的文档排列分布Pθ(list|qn,r)的数学期望;
所述变异算子h包括似然变异Likelihood、余弦变异Cosine和交叉熵变异CrossEntropy算子;
步骤a.1.3.更新子代网络参数
Figure SMS_15
通过Adam优化器优化生成器网络以更新生成器网络参数,生成子代生成器/>
Figure SMS_16
即/>
Figure SMS_17
其中,θj为第j个生成器的网络参数,α、β1、β2为Adam优化器的超参数;
步骤a.1.4.按照适应度函数
Figure SMS_18
的计算方法,评估子代生成器的适应度函数值Fj,h,其中,fφ(dz,qn)表示判别器的评分函数,PL(fφ(dz,qn))表示采用Plackett-Luce模型计算而得出的排序概率,K为文档总数;
步骤a.2.对所产生的子代生成器种群Gθ的各适应度函数值Fj,h进行排序,生成排序列表
Figure SMS_19
即/>
Figure SMS_20
步骤a.3.为各子代生成器按适应度函数值排序列表
Figure SMS_21
选择最优的生成器网络,更新各子代的网络参数,即/>
Figure SMS_22
生成新的生成器种群。
作为优选技术方案,所述似然变异Likelihood算子如下所示:
Figure SMS_23
其中,
Figure SMS_24
表示生成器pθ从给定查询q下采样得到top-K文档排序列表list中的文档dz的评分值,其中,/>
Figure SMS_25
表示排序列表list中排在第z位置的文档dz
Figure SMS_26
表示采用Plackett-Luce模型计算而得出的排序概率,其计算方法为:
Figure SMS_27
Figure SMS_28
是由判别器Dφ反馈的用于基于策略梯度的强化学习中策略梯度的奖励函数值,它的计算方法定义为:
Figure SMS_29
其中,
Figure SMS_30
表示采用Plackett-Luce模型计算而得出的排序概率;
通过极小化似然变异算子来最大化生成器的似然排序概率以迷惑判别器的判别行为。
作为优选技术方案,所述余弦变异Cosine算子如下所示:
Figure SMS_31
其中,
Figure SMS_32
表示生成器pθ从给定查询q下采样得到top-K文档排序列表list中的文档dz的评分值,/>
Figure SMS_33
是由判别器Dφ反馈的用于基于策略梯度的强化学习中策略梯度的奖励函数值;/>
Figure SMS_34
表示一个映射函数ψ(·),保留了关联于给定查询q的一个最理想的排序列表list中各文档dz的评分值,该list按照各文档dz与其查询q的相关性标签值从大到小进行排序而所形成的最理想的排序列表,即ground-truth排序列表。
作为优选技术方案,所述交叉熵变异CrossEntropy算子如下所示:
Figure SMS_35
其中,
Figure SMS_36
表示生成器pθ从给定查询q下采样得到top-K文档排序列表list中的文档dz的评分值,/>
Figure SMS_37
是由判别器Dφ反馈的用于基于策略梯度的强化学习中策略梯度的奖励函数值,/>
Figure SMS_38
表示一个映射函数ψ(·),它保留了关联于给定查询q的一个最理想的排序列表list中各文档dz的评分值,/>
Figure SMS_39
表示一个最理想化的排序列表list中文档dz的排序概率,/>
Figure SMS_40
表示一个模型预测的排序列表list中文档dz的排序概率,它们都采用softmax函数来进行计算而得出其排序概率,它们的计算方法分别为:/>
Figure SMS_41
Figure SMS_42
作为优选技术方案,所述判别器的训练具体包括:
对判别器执行Nd×μ次以下操作的迭代训练:
步骤b.1.给定查询qn,使用当前生成器
Figure SMS_43
从排序学习训练数据集中根据评分采样top-K的负样例数据/>
Figure SMS_44
并与根据相关性标签排序的top-K正样例数据/>
Figure SMS_45
进行组合;
步骤b.2.根据当前生成器Gθj生成的排列和由ground-truth标签所产生的排列使用判别器目标函数进行训练,判别器目标函数如下所示:
Figure SMS_46
式中,φ代表判别器D的参数集,r代表文档与查询的相关性标签,N代表查询总数,Ptrue(list|qn,r)表示正样本的概率分布,即在给定查询qn下对所属文档按照相关性标签排序得到的ground-truth的文档排序列表list的概率分布;
Figure SMS_47
表示生成检索模型,它是由生成器/>
Figure SMS_48
从给定查询qn下采样得到top-K文档排序列表list的概率分布,即采样得到的负样本的概率分布;fφ(list|qn,r)表示判别检索模型,它是由判别器Dφ估计一个排序列表list是ground-truth排序列表list还是生成器生成的文档排序列表list的概率;PL(fφ(list|qn,r))表示采用Plackett-Luce模型计算得到的排序概率分布;/>
Figure SMS_49
表示服从排序学习数据集的真实最理想(即ground-truth)的文档排列分布Ptrue(list|qn,r)的数学期望,/>
Figure SMS_50
表示采样得到的负样本的文档排列分布/>
Figure SMS_51
的数学期望;
计算判别器目标函数的梯度gφ,即
Figure SMS_52
式中,
Figure SMS_53
表示判别器的评分函数,/>
Figure SMS_54
表示采用Plackett-Luce模型计算而得出的排序概率,K为文档总数;
步骤b.3.通过Adam优化器优化判别器网络以更新判别器网络参数φ,即
φ←Adam(gφ,φ,α,β12)
式中,α、β1、β2为Adam优化器的超参数。
作为优选技术方案,所述基于所选择出的最优模型对信息检索目标进行预测排序具体包括:基于所选择出的最优模型可对排序学习测试数据集进行测试以比较不同排序学习方法的效果,也可应用于排序学习系统中对信息检索目标进行排序预测,进而应用于信息检索系统中以解决实际应用问题。
作为本发明的第二方面,提供一种采用上任一所述的基于进化条件生成对抗网络的排序学习方法的系统,所述系统包括
模型训练功能模块:利用基于进化条件生成对抗网络的排序学习方法训练模型,包括生成器模型训练子模块和判别器模型训练子模块,实现功能包括训练模型的评估和训练模型的保存;所述模型训练功能模块执行操作包括:加载排序学习训练数据集;设置好排序学习方法的相关参数;利用排序学习方法在所选择的排序学习训练数据集上进行交替迭代博弈训练以获取生成器种群模型和判别器模型;
模型验证功能模块:利用在模型训练功能模块中所训练出的模型,验证并选择和保存最优模型,包括生成器模型验证子模块和判别器模型验证子模块,实现功能包括验证模型的评估和验证模型的选择与保存;所述模型验证功能模块执行操作包括:加载排序学习验证数据集;将模型训练功能模块中所训练出的模型在所选择的排序学习验证数据集上进行验证以获取性能评估最优的模型,并选择和保存最优模型作为模型预测功能模块的测试模型;
模型测试功能模块:利用在模型验证功能模块中所选择出的性能评估最优模型来测试模型,包括生成器模型测试子模块和判别器模型测试子模块,实现功能包括性能指标评估和预测结果保存;所述性能评估指标包括信息检索领域中的有效性评估指标;所述模型测试功能模块执行操作包括:加载排序学习测试数据集;将模型验证功能模块中所保存的性能评估最优模型在所选择的排序学习测试数据集上进行测试以获得相关性评分和信息检索中的一些性能指标评估值;判断相关性评分是否大于设定阈值:若是则返回文档与查询相关,否则返回文档与查询不相关。
作为本发明的第三方面,提供一种采用上任一所述的基于进化条件生成对抗网络的排序学习方法的应用,
将基于进化条件生成对抗网络的排序学习方法ECGAN-LTR应用于包括百度、谷歌、必应、雅虎、搜狗和Yandex的搜索引擎中,具体应用步骤如下:
步骤1:将基于进化条件生成对抗网络的排序学习方法ECGAN-LTR嵌入搜索引擎中;
首先,获得网页到搜索引擎网页索引数据库中以获取排序学习初始数据;
其次,对搜索引擎网页索引数据库中的部分网页进行数据预处理,对网页进行排序特征的提取和相关性标注,并以标准排序学习数据集的格式构建搜索引擎的排序学习数据集;
然后,在所构建的排序学习数据集上,运用基于进化条件生成对抗网络的排序学习方法ECGAN-LTR去交替迭代博弈对抗优化训练、验证和选择模型以产生最优生成器模型和判别器模型;
最后,将所产生的最优模型植入到搜索引擎的排序系统中;
步骤2:执行查询-网页搜索,按照嵌入的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR所产生的最优模型进行效果评估,预测并呈现排序结果;
在融入了排序学习方法ECGAN-LTR的搜索引擎中,用户可循环多次执行查询-网页搜索;
首先,用户在搜索引擎的搜索框中,输入想要搜索的查询词,并点击搜索以执行网页搜索;
其次,搜索引擎的排序系统从搜索引擎网页索引数据库中找出所有包含了该查询词的网页,并按照嵌入的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR所产生的最优模型进行效果评估,计算出网页排序得分,以预测出网页搜索的排序结果;
最后,将网页搜索排序结果按照一定的方式返回到搜索页面以呈现给搜索用户。
与现有技术相比,本发明具有以下有益效果:
本发明提供了一种基于进化条件生成对抗网络的排序学习方法ECGAN-LTR,该方法是一种新颖且更加有效的Listwise类型的排序学习方法。ECGAN-LTR方法针对排序学习问题,在条件生成对抗网络框架下融入了变异、评估和选择等进化策略以进化生成器种群,并与判别器进行对抗博弈以交替迭代训练最优生成器模型和判别器模型。Listwise排序学习方法ECGAN-LTR是将进化策略融入到条件生成对抗网络中,在每一次迭代进化中,生成器根据多种不同的损失函数去适应当前的环境(即判别器),删掉适应度较低的个体。并且相比单一的损失函数,本发明采用多种损失函数(似然变异、余弦变异,交叉熵变异)进行优化,可以互相取长补短,从而进化和寻找更好的解以产生效果优良的模型。
附图说明
图1为本发明基于进化条件生成对抗网络的排序学习方法ECGAN-LTR的流程示意图;
图2为本发明基于进化条件生成对抗网络的排序学习系统的流程示意图;
图3为本发明基于进化条件生成对抗网络的排序学习系统功能结构图;
图4为本发明实施例中基于进化条件生成对抗网络的排序学习系统界面图;
图5为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集OHSUMED上的P@K性能指标对比图;
图6为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集OHSUMED上的NDCG@K性能指标对比图;
图7为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集MQ2008上的P@K性能指标对比图;
图8为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集MQ2008上的NDCG@K性能指标对比图;
图9为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集MSLR-WEB10K上的P@K性能指标对比图;
图10为ECGAN-LTR方法和IRGAN-Listwise方法在排序学习数据集MSLR-WEB10K上的NDCG@K性能指标对比图;
图11为基于进化条件生成对抗网络的排序学习方法ECGAN-LTR的应用示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
作为本发明的第一方面,提供了一种基于进化条件生成对抗网络的排序学习方法ECGAN-LTR,该方法是一种在条件生成对抗网络(Conditional Generative AdversarialNets,CGAN)框架基础上,融入变异、评估和选择等进化操作以进化CGAN中生成器种群来与判别器进行交替迭代对抗性博弈以产生性能优良的模型的新颖方法。该方法将排序学习的过程建模为两个对手(即一个生成器种群和一个判别器)之间的迭代博弈,生成器旨在生成(或选择)看起来像ground-truth排名的排列以此欺骗判别器,而判别器旨在明确区分ground-truth排列和由其对手生成器所生成的排列。在ECGAN-LTR方法中,生成器和判别器的最优参数θ和φ可以分别通过对同一总体优化目标函数式(1)的最小化和最大化进行迭代学习以博弈训练、对抗优化各自模型。
Figure SMS_55
其中,生成器Gθ旨在最小化该目标函数,即最小化目标函数式(2):
Figure SMS_56
生成器拟合在所有可能排列list~ptrue(list|qn,r)上的真实分布,并随机生成排列以欺骗判别器。判别器评估一个排列是真实最理想(ground-truth)排列或者是生成器所生成的排列的概率,其目标是使正确区分ground-truth排列和由生成器所生成的排列的对数似能性最大化,即最大化目标函数式(3):
Figure SMS_57
其中,θ和φ分别表示生成器G和判别器D的参数集,r代表文档与查询的相关性标签,N代表查询总数,P代表概率分布,E代表数学期望;Ptrue(list|qn,r)表示正样本的概率分布,即在给定查询qn下对所属文档按照相关性标签排序得到的真实最理想(即ground-truth)的文档排序列表list的概率分布;Pθ(list|qn,r)表示生成检索模型,它是由生成器Gθ从给定查询qn下采样得到top-K文档排序列表list的概率分布,即采样得到的负样本的概率分布;fφ(list|qn,r)表示判别检索模型,它是由判别器Dφ估计一个排序列表list是ground-truth排序列表list还是生成器生成的文档排序列表list的概率;PL(fφ(list|qn,r))表示采用Plackett-Luce模型计算得到的排序概率分布;
Figure SMS_58
表示服从排序学习数据集的真实最理想(即ground-truth)的文档排列分布Ptrue(list|qn,r)的数学期望,
Figure SMS_59
表示采样得到的负样本的文档排列分布Pθ(list|qn,r)的数学期望。
将生成器Gθ视为进化种群,判别器Dφ作为环境。对于每轮进化操作,生成器Gθ更新不同的变异函数以此作为目标来适应当前环境Dφ,变异函数主要包括似然函数、余弦函数和交叉熵函数等。根据“适者生存”原则,只有性能表现优秀的子代生成器
Figure SMS_60
存活并参与其后的对抗性迭代博弈训练。与信息检索生成对抗网络IRGAN中具有单一固定和静态对抗性训练目标的极小极大博弈的双人游戏不同,ECGAN-LTR排序学习方法通过融合多个不同变异函数的动态对抗性目标等优势来进化和寻找更好的解以产生性能优良的模型。
基于进化条件生成对抗网络的排序学习方法ECGAN-LTR的流程框架如图1所示,主要包含初始化相关参数和输入排序学习数据集、初始化生成器种群和判别器、交替迭代对抗训练生成器种群和判别器以产生最优模型、基于所选择出的最优模型对信息检索目标进行预测排序这四大步骤。
一种基于进化条件生成对抗网络的排序学习方法ECGAN-LTR各具体步骤如下:
步骤一:初始化相关参数,输入排序学习数据集。
初始化生成器种群大小μ,生成器变异算子个数Nm,迭代训练总次数epochs,每个epoch中判别器的更新步长Nd,top-K批量大小K,Adam优化器的超参数α、β1和β2等参数,输入排序学习数据集。
步骤二:初始化生成器种群和判别器。
用随机权重
Figure SMS_61
初始化生成器种群/>
Figure SMS_62
用随机权重φ初始化判别器Dφ
步骤三:交替迭代对抗训练生成器种群和判别器以产生最优模型。
对于每个epoch,按照生成器种群训练1次、判别器训练Nd次的方式,通过对同一总体优化目标函数(1)的最小化和最大化,交替迭代对抗训练生成器种群和判别器,直至算法收敛或者到达给定的epochs为止。生成器种群和判别器的具体训练方式分别如下:
(一)、训练生成器种群:执行变异、评估和选择等进化策略训练生成器种群。
步骤a.1对生成器种群Gθ中的每个生成器
Figure SMS_63
针对不同变异算子,分别按以下步骤迭代训练生成器/>
Figure SMS_64
其中,1≤j≤μ,1≤h≤Nm
步骤a.1.1使用生成器
Figure SMS_65
从排序学习训练集中根据评分采样top-K的样本数据
Figure SMS_66
步骤a.1.2采用策略梯度优化目标函数(2),按照
Figure SMS_67
计算所选变异算子的梯度以更新梯度/>
Figure SMS_68
变异算子h可包括似然变异Likelihood、余弦变异Cosine和交叉熵变异CrossEntropy等算子。此处的似然变异算子、余弦变异算子和交叉熵变异算子分别是依据排序学习方法ListMLE中的似然损失函数Likelihood Loss、排序学习方法RankCosine中的余弦损失函数Cosine Loss和排序学习方法ListNet中的交叉熵损失函数Cross Entropy Loss的思想而设计的变体变异算子,它们的计算方法分别设计为公式(4)至(6)所示:
(1)似然变异Likelihood算子:
Figure SMS_69
此处,
Figure SMS_70
表示生成器pθ从给定查询q下采样得到top-K文档排序列表list中的文档dz的评分值,其中,/>
Figure SMS_71
表示排序列表list中排在第z位置的文档dz;/>
Figure SMS_72
表示采用Plackett-Luce模型计算而得出的排序概率,其计算方法为:
Figure SMS_73
Figure SMS_74
是由判别器Dφ反馈的用于基于策略梯度的强化学习中策略梯度的奖励函数值,它的计算方法定义为
Figure SMS_75
通过极小化似然变异算子来最大化生成器的似然排序概率以迷惑判别器的判别行为。
(2)余弦变异Cosine算子:
Figure SMS_76
此处,
Figure SMS_77
和/>
Figure SMS_78
的含义与似然变异算子中的/>
Figure SMS_79
Figure SMS_80
的含义分别对应相同;/>
Figure SMS_81
表示一个映射函数ψ(·),它保留了关联于给定查询q的一个最理想的排序列表list中各文档dz的评分值,该list是按照各文档dz与其查询q的相关性标签值从大到小进行排序而所形成的最理想的排序列表,即ground-truth排序列表。
(3)交叉熵变异CrossEntropy算子:
Figure SMS_82
此处,
Figure SMS_83
和/>
Figure SMS_84
的含义与似然变异算子中的/>
Figure SMS_85
Figure SMS_86
的含义分别对应相同,/>
Figure SMS_87
的含义与余弦变异算子中的含义对应相同;/>
Figure SMS_88
表示一个最理想化的排序列表list中文档dz的排序概率,
Figure SMS_89
表示一个模型预测的排序列表list中文档dz的排序概率,它们都采用softmax函数来进行计算而得出其排序概率,它们的计算方法分别为:
Figure SMS_90
和/>
Figure SMS_91
步骤a.1.3更新子代网络参数
Figure SMS_92
通过Adam优化器优化生成器网络以更新生成器网络参数,生成子代生成器/>
Figure SMS_93
即/>
Figure SMS_94
步骤a.1.4按照适应度函数
Figure SMS_95
的计算方法,评估子代生成器的适应度函数值Fj,h。/>
步骤a.2对所产生的子代生成器种群Gθ的各适应度函数值Fj,h进行排序,生成排序列表
Figure SMS_96
即/>
Figure SMS_97
步骤a.3为各子代生成器按适应度函数值排序列表
Figure SMS_98
选择最优的生成器网络,更新各子代的网络参数,即/>
Figure SMS_99
生成新的生成器种群。
(二)、训练判别器。
对判别器执行Nd×μ次以下操作的迭代训练:
步骤b.1给定查询qn,使用当前生成器
Figure SMS_100
从排序学习训练数据集中根据评分采样top-K的负样例数据/>
Figure SMS_101
并与给定的根据相关性标签排序的top-K正样例数据
Figure SMS_102
进行组合;
步骤b.2根据当前生成器
Figure SMS_103
生成的排列和由ground-truth标签所产生的排列使用函数(3)训练判别器,即计算判别器目标函数(3)的梯度gφ,也即
Figure SMS_104
步骤b.3通过Adam优化器优化判别器网络以更新判别器网络参数φ,即φ←Adam(gφ,φ,α,β12)。
步骤四:基于所选择出的最优模型对信息检索目标进行预测排序。
基于所选择出的最优模型可对排序学习测试数据集进行测试以比较不同排序学习方法的效果,也可应用于排序学习系统中对信息检索目标进行排序预测,进而应用于信息检索系统中以解决实际应用问题。
本发明提供了一种新颖且更加有效的Listwise排序学习方法ECGAN-LTR,该方法针对排序学习问题,在条件生成对抗网络框架下融入了变异、评估和选择等进化策略以进化判别器种群,并与生成器进行对抗博弈以交替迭代训练最优判别器模型和生成器模型。
1)创新了一种Listwise类型的排序学习方法。
本专利所发明的基于进化条件生成对抗网络的排序学习方法,是一种新颖的Listwise类型的排序学习方法。该方法可为信息检索提供一类基于进化生成对抗网络的Listwise排序学习新方法,树立了生成对抗网络与进化算法融合的Listwise排序学习研究新范式,开创了应用进化生成对抗网络设计Listwise类型的排序学习的先河,为排序学习方法的研究开辟了一个崭新的视野,为致力于排序学习研究的同仁探索了一种新思路。
2)本发明所要实现的技术效果在于:Listwise排序学习方法ECGAN-LTR将进化策略融入到条件生成对抗网络中,在每一次进化中,生成器根据多种不同的损失函数去适应当前的环境(即判别器),删掉适应度较低的个体。相比单一的损失函数,采用多种损失函数(似然变异、余弦变异,交叉熵变异)进行优化,可以互相取长补短,从而进化和寻找更好的解以产生效果优良的模型。
实施例2
作为本发明的第二方面,为了验证所发明的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR的效果,本实施例在PyCharm 2019集成开发环境和深度学习框架PyTorch下,采用Python语言编写实现了一个融入了基于进化条件生成对抗网络的Listwise排序学习方法ECGAN-LTR的系统。该系统的基本流程框架如图2所示,它是通过如上实施例所述的基于进化条件生成对抗网络的Listwise排序学习方法ECGAN-LTR在排序学习训练数据集上训练模型,再利用训练出来的模型在排序学习验证数据集上进行验证以选择和保存最优模型。最后,通过所保存的最终的最优模型在排序学习测试数据集上进行模型预测以此得出测试结果。对于模型训练,基于排序学习训练数据集,进化生成器种群,并与判别器交替博弈对抗训练以优化模型;对于验证模型,基于排序学习验证数据集,通过计算各子代模型的性能指标值,并根据优胜劣汰的原则选择和保存最优的生成器模型和判别器模型。对于模型测试,基于排序学习测试数据集,运用所保存的最终最优模型进行测试并预测排序结果,同时输出预测排序结果。
基于进化条件生成对抗网络的排序学习系统主要包含模型训练功能模块、模型验证功能模块和模型测试功能模块,其功能结构如图3所示。其中,模型训练功能模块是利用本发明所设计的基于进化条件生成对抗网络的Listwise排序学习方法ECGAN-LTR来训练模型,主要包括生成器模型训练子模块和判别器模型训练子模块,它们主要实现训练模型的评估和训练模型的保存等功能;在模型训练功能模块中,主要操作有:加载排序学习训练数据集;设置好排序学习方法ECGAN-LTR的相关参数;利用排序学习方法ECGAN-LTR在所选择的排序学习训练数据集上进行交替迭代博弈训练以获取生成器种群模型和判别器模型。
模型验证功能模块是利用在模型训练功能模块中所训练出的模型来验证并选择和保存最优模型的,主要包括生成器模型验证子模块和判别器模型验证子模块,它们主要实现验证模型的评估和验证模型的选择与保存等功能;在模型验证功能模块中,主要操作有:加载排序学习验证数据集;将模型训练功能模块中所训练出的模型在所选择的排序学习验证数据集上进行验证以获取性能评估最优的模型(包括最优判别器模型和最优生成器模型),并选择和保存最优模型作为模型测试功能模块的测试模型。
模型测试功能模块是利用在模型验证功能模块中所最终选择和保存的最优模型来测试模型的,主要包括生成器模型测试子模块和判别器模型测试子模块,它们主要实现性能指标评估和预测结果保存等功能。对于性能评估指标,主要包括信息检索领域中的有效性评估指标,例如归一化折扣累积增益(Normalize Discounted Cumulative Gain,NDCG)和准确率(Precision,P)等性能指标。在模型测试功能模块中,主要操作有:加载排序学习测试数据集;将模型验证功能模块中所保存的性能评估最优模型在所选择的排序学习测试数据集上进行测试以获得相关性评分和信息检索中的一些性能指标评估值;判断相关性评分是否大于设定阈值:若是则返回文档与查询相关(用1表示),否则返回文档与查询不相关(用0表示)。
当安装了Python 3.8和PyCharm 2019及以上版本,同时安装完Pytorch 1.12.1,PrettyTable 3.4.1等软件以后,就可以去运行基于进化条件生成对抗网络的排序学习系统。系统提供了GUI操作界面,如图4所示,其使用和操作方法如下:
首先,用户点击“排序学习数据集路径选择”按钮以选择排序学习数据集的路径;其次,用户点击“生成器和判别器模型输出路径选择”按钮以选择生成器和判别器模型的输出路径;接着,用户通过选择排序学习数据集的选择框中的向下箭头(即下拉列表框)以选择所需要加载的排序学习数据集,如可加载排序学习数据集OHSUMED,MQ2008和MSLR-WEB10K等;然后,用户可以修改一些参数的默认设置,例如top-k中k的大小、生成器种群大小、生成器学习率、判别器学习率、判别器更新步长以及生成对抗网络的epochs等值的设置;再次,用户点击“训练生成器种群和判别器模型”按钮运行Listwise排序学习方法ECGAN-LTR以交替迭代博弈训练生成器种群和判别器模型,并等待运行结果。最后,用户点击“测试最优生成器和判别器模型”按钮,对通过运行Listwise排序学习方法ECGAN-LTR时所产生的最优生成器和判别器模型进行测试,并等待运行结果。
对于ECGAN-LTR方法,可供调节的参数有:排序学习数据集的选择,top-k大小的设置(默认值为2,可调节范围为大于1的整数,当top-k数值大于query下排序文档数时,则top-k为该query下对应的文档总数),判别器学习率和生成器学习率(默认数值为0.001,调节范围需大于0且小于1的浮点型数值),判别器轮数(默认数值为8,调节范围需大于1的整型数值),生成器种群数(默认数值为1,调节范围需大于1的整型数值),生成对抗网络博弈的总轮数epochs(默认数值为1,调节范围需大于1的整型数值)等。
实验在公开的3个标准排序学习数据集上进行了测试,这3个标准排序学习数据集分别是LETOR3.0中的OHSUMED,LETOR4.0中的MQ2008和微软排序学习数据集MSLR-WEB10K,并与IRGAN-listwise排序学习方法进行了性能对比。
图5至图10分别展示了ECGAN-LTR方法与IRGAN-listwise方法在排序学习数据集OHSUMED、MQ2008和MSLR-WEB10K上关于性能指标P@K和NDCG@K的比较,其中ECGAN-LTR-D和ECGAN-LTR-G分别表示ECGAN-LTR的判别器和生成器,IRGAN-Listwise-D和IRGAN-Listwise-G分别表示IRGAN-Listwise的判别器和生成器。从图中的实验结果可表明,Listwise排序学习方法ECGAN-LTR取得了具有竞争力的性能,整体效果上优于IRGAN-Listwise排序学习方法。
实施例3
根据本发明的第三方面,提供了一种采用所述的基于进化条件生成对抗网络的排序学习方法的应用。其具体应用实例为:
基于进化条件生成对抗网络的排序学习方法ECGAN-LTR可以应用于如搜索引擎、电商系统、推荐系统、广告系统和问答系统等实际需求排序中。将该方法所训练出的排序模型嵌入信息检索应用场景的排序系统中,以此排序模型去预测用户需要搜索的查询词的网页排序结果以优化搜索结果的排序,从而可提高信息检索的有效性,增强用户体验感。
将基于进化条件生成对抗网络的排序学习方法ECGAN-LTR应用于如百度(Baidu)、谷歌(Google)、必应(Bing)、雅虎(Yahoo)、搜狗(Sogou)和Yandex等搜索引擎中以作示例应用。ECGAN-LTR排序学习方法应用于搜索引擎中的操作实施流程如图11所示,其实施步骤如下所述:
步骤1.将基于进化条件生成对抗网络的排序学习方法ECGAN-LTR嵌入搜索引擎中。
首先,获得网页到搜索引擎网页索引数据库中以获取排序学习初始数据。
其次,对搜索引擎网页索引数据库中的部分网页进行数据预处理,对网页进行排序特征的提取和相关性标注,并以标准排序学习数据集的格式构建搜索引擎的排序学习数据集。
然后,在所构建的排序学习数据集上,运用基于进化条件生成对抗网络的排序学习方法ECGAN-LTR去交替迭代博弈对抗优化训练、验证和选择模型以产生最优生成器模型和判别器模型。
最后,将所产生的最优模型植入到搜索引擎的排序系统中。
步骤2.执行查询-网页搜索,按照嵌入的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR所产生的最优模型进行效果评估,预测并呈现排序结果。
在融入了ECGAN-LTR排序学习方法的搜索引擎中,用户可循环多次执行查询-网页搜索。
首先,用户在搜索引擎的搜索框中,输入想要搜索的查询词,并点击搜索以执行网页搜索。
其次,搜索引擎的排序系统从搜索引擎网页索引数据库中找出所有包含了该查询词的网页,并按照嵌入的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR所产生的最优模型进行效果评估,计算出网页排序得分,以预测出哪些网页应该排在前面,哪些网页应该排在后面。从而获得网页搜索的排序结果。
最后,将网页搜索排序结果按照一定的方式返回到“搜索”页面以呈现给搜索用户。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于进化条件生成对抗网络的排序学习方法,其特征在于,包括以下步骤:
步骤一:初始化相关参数,输入排序学习数据集;
步骤二:初始化生成器种群和判别器;
步骤三:交替迭代对抗训练生成器种群和判别器以产生最优模型,所述生成器种群采用进化策略进行训练;
步骤四:基于所选择出的最优模型对信息检索目标进行预测排序。
2.根据权利要求1所述的基于进化条件生成对抗网络的排序学习方法,其特征在于,所述初始化相关参数包括:初始化生成器种群大小μ,生成器变异算子个数Nm,迭代训练总次数epochs,每个epoch中判别器的更新步长Nd,top-K批量大小K以及Adam优化器的超参数。
3.根据权利要求1所述的基于进化条件生成对抗网络的排序学习方法,其特征在于,所述交替迭代对抗训练生成器种群和判别器具体包括:
对于每个epoch,按照生成器种群训练1次、判别器训练Nd次的方式,通过对总体优化目标函数的最小化和最大化,交替迭代对抗训练生成器种群和判别器,直至算法收敛或者到达给定的epochs为止;
所述总体优化目标函数如下所示:
Figure FDA0004081982670000011
其中,θ和φ分别表示生成器G和判别器D的参数集,r代表文档与查询的相关性标签,N代表查询总数,P代表概率分布,E代表数学期望;Ptrue(list|qn,r)表示正样本的概率分布,即在给定查询qn下对所属文档按照相关性标签排序得到的ground-truth文档排序列表list的概率分布;Pθ(list|qn,r)表示生成检索模型,它是由生成器Gθ从给定查询qn下采样得到top-K文档排序列表list的概率分布,即采样得到的负样本的概率分布;fφ(list|qn,r)表示判别检索模型,它是由判别器Dφ估计一个排序列表list是ground-truth排序列表list还是生成器生成的文档排序列表list的概率;PL(fφ(list|qn,r))表示采用Plackett-Luce模型计算得到的排序概率分布;
Figure FDA0004081982670000012
表示服从排序学习数据集的ground-truth文档排列分布Ptrue(list|qn,r)的数学期望,/>
Figure FDA00040819826700000212
表示采样得到的负样本的文档排列分布Pθ(list|qn,r)的数学期望;
将生成器Gθ视为进化种群,判别器Dφ作为环境,对于每个epoch中的进化操作,生成器Gθ更新不同的包括似然函数、余弦函数和交叉熵函数的变异算子以此作为目标来适应当前环境Dφ,选择性能表现优秀的子代生成器
Figure FDA00040819826700000213
参与其后的对抗性迭代博弈训练。
4.根据权利要求3所述的基于进化条件生成对抗网络的排序学习方法,其特征在于,所述生成器种群的训练具体包括:
步骤a.1.对生成器种群Gθ中的每个生成器
Figure FDA00040819826700000214
针对不同变异算子,分别按以下步骤迭代训练生成器/>
Figure FDA0004081982670000021
其中,1≤j≤μ,1≤h≤Nm
步骤a.1.1.使用生成器
Figure FDA0004081982670000022
从排序学习训练集中根据评分采样top-K的样本数据/>
Figure FDA0004081982670000023
步骤a.1.2.采用策略梯度优化生成器目标函数,按照
Figure FDA0004081982670000024
计算所选变异算子的梯度以更新梯度/>
Figure FDA0004081982670000025
所述生成器目标函数如下所示:
Figure FDA0004081982670000026
式中,θ为生成器的参数集,N为查询总数,r为文档与查询的相关性标签;Pθ(list|qn,r)表示生成检索模型,它是由生成器Gθ从给定查询qn下采样得到top-K文档排序列表list的概率分布,即采样得到的负样本的概率分布;fφ(list|qn,r)表示判别检索模型,它是由判别器Dφ估计一个排序列表list是ground-truth排序列表list还是生成器生成的文档排序列表list的概率;PL(fφ(list|qn,r))表示采用Plackett-Luce模型计算得到的排序概率分布;
Figure FDA0004081982670000027
表示采样得到的负样本的文档排列分布Pθ(list|qn,r)的数学期望;
所述变异算子h包括似然变异Likelihood、余弦变异Cosine和交叉熵变异CrossEntropy算子;
步骤a.1.3.更新子代网络参数
Figure FDA0004081982670000028
通过Adam优化器优化生成器网络以更新生成器网络参数,生成子代生成器/>
Figure FDA0004081982670000029
即/>
Figure FDA00040819826700000210
其中,θj为第j个生成器种群的网络参数,α、β1、β2为Adam优化器的超参数;
步骤a.1.4.按照适应度函数
Figure FDA00040819826700000211
的计算方法,评估子代生成器的适应度函数值Fj,h,其中,fφ(dz,qn)表示判别器的评分函数,PL(fφ(dz,qn))表示采用Plackett-Luce模型计算而得出的排序概率,K为文档总数;
步骤a.2.对所产生的子代生成器种群Gθ的各适应度函数值Fj,h进行排序,生成排序列表
Figure FDA0004081982670000031
即/>
Figure FDA0004081982670000032
步骤a.3.为各子代生成器按适应度函数值排序列表
Figure FDA0004081982670000033
选择最优的生成器网络,更新各子代的网络参数,即/>
Figure FDA0004081982670000034
生成新的生成器种群。
5.根据权利要求4所述的基于进化条件生成对抗网络的排序学习方法,其特征在于,所述似然变异Likelihood算子如下所示:
Figure FDA0004081982670000035
其中,
Figure FDA0004081982670000036
表示生成器pθ从给定查询q下采样得到top-K文档排序列表list中的文档dz的评分值,其中,/>
Figure FDA0004081982670000037
表示排序列表list中排在第z位置的文档dz;/>
Figure FDA0004081982670000038
表示采用Plackett-Luce模型计算而得出的排序概率,其计算方法为:/>
Figure FDA0004081982670000039
Figure FDA00040819826700000310
是由判别器Dφ反馈的用于基于策略梯度的强化学习中策略梯度的奖励函数值,它的计算方法定义为:
Figure FDA00040819826700000311
其中,
Figure FDA00040819826700000312
表示采用Plackett-Luce模型计算而得出的排序概率;
通过极小化似然变异算子来最大化生成器的似然排序概率以迷惑判别器的判别行为。
6.根据权利要求4所述的基于进化条件生成对抗网络的排序学习方法,其特征在于,所述余弦变异Cosine算子如下所示:
Figure FDA00040819826700000313
其中,
Figure FDA00040819826700000314
表示生成器pθ从给定查询q下采样得到top-K文档排序列表list中的文档dz的评分值,/>
Figure FDA00040819826700000315
是由判别器Dφ反馈的用于基于策略梯度的强化学习中策略梯度的奖励函数值;/>
Figure FDA00040819826700000316
表示一个映射函数ψ(·),保留了关联于给定查询q的一个最理想的排序列表list中各文档dz的评分值,该list按照各文档dz与其查询q的相关性标签值从大到小进行排序而所形成的最理想的排序列表,即ground-truth排序列表。
7.根据权利要求4所述的基于进化条件生成对抗网络的排序学习方法,其特征在于,所述交叉熵变异CrossEntropy算子如下所示:
Figure FDA0004081982670000041
其中,
Figure FDA0004081982670000042
表示生成器pθ从给定查询q下采样得到top-K文档排序列表list中的文档dz的评分值,/>
Figure FDA0004081982670000043
是由判别器Dφ反馈的用于基于策略梯度的强化学习中策略梯度的奖励函数值,/>
Figure FDA0004081982670000044
表示一个映射函数ψ(·),它保留了关联于给定查询q的一个最理想的排序列表list中各文档dz的评分值,/>
Figure FDA0004081982670000045
表示一个最理想化的排序列表list中文档dz的排序概率,/>
Figure FDA0004081982670000046
表示一个模型预测的排序列表list中文档dz的排序概率,它们都采用softmax函数来进行计算而得出其排序概率,它们的计算方法分别为:
Figure FDA0004081982670000047
和/>
Figure FDA0004081982670000048
8.根据权利要求3所述的基于进化条件生成对抗网络的排序学习方法,其特征在于,所述判别器的训练具体包括:
对判别器执行Nd×μ次以下操作的迭代训练:
步骤b.1.给定查询qn,使用当前生成器
Figure FDA0004081982670000049
从排序学习训练数据集中根据它们的评分采样top-K的负样例数据/>
Figure FDA00040819826700000410
并与根据相关性标签排序的top-K正样例数据/>
Figure FDA00040819826700000411
进行组合;
步骤b.2.根据当前生成器
Figure FDA00040819826700000412
生成的排列和由ground-truth标签所产生的排列使用判别器目标函数进行训练,判别器目标函数如下所示:
Figure FDA00040819826700000413
式中,φ代表判别器D的参数集,r代表文档与查询的相关性标签,N代表查询总数,Ptrue(list|qn,r)表示正样本的概率分布,即在给定查询qn下对所属文档按照相关性标签排序得到的ground-truth的文档排序列表list的概率分布;
Figure FDA00040819826700000415
表示生成检索模型,它是由生成器/>
Figure FDA00040819826700000414
从给定查询qn下采样得到top-K文档排序列表list的概率分布,即采样得到的负样本的概率分布;fφ(list|qn,r)表示判别检索模型,它是由判别器Dφ估计一个排序列表list是ground-truth排序列表list还是生成器生成的文档排序列表list的概率;PL(fφ(list|qn,r))表示采用Plackett-Luce模型计算得到的排序概率分布;/>
Figure FDA0004081982670000051
表示服从排序学习数据集的真实最理想(即ground-truth)的文档排列分布Ptrue(list|qn,r)的数学期望,/>
Figure FDA0004081982670000052
表示采样得到的负样本的文档排列分布/>
Figure FDA0004081982670000056
的数学期望;
计算判别器目标函数的梯度gφ,即
Figure FDA0004081982670000053
式中,
Figure FDA0004081982670000054
表示判别器的评分函数,/>
Figure FDA0004081982670000055
表示采用Plackett-Luce模型计算而得出的排序概率,K为文档总数;
步骤b.3.通过Adam优化器优化判别器网络以更新判别器网络参数φ,即
φ←Adam(gφ,φ,α,β1,β2)
式中,α、β1、β2为Adam优化器的超参数。
9.一种采用权利要求1-8任一所述的基于进化条件生成对抗网络的排序学习方法的系统,其特征在于,所述系统包括
模型训练功能模块:利用基于进化条件生成对抗网络的排序学习方法训练模型,包括生成器模型训练子模块和判别器模型训练子模块,实现功能包括训练模型的评估和训练模型的保存;所述模型训练功能模块执行操作包括:加载排序学习训练数据集;设置好排序学习方法的相关参数;利用排序学习方法在所选择的排序学习训练数据集上进行交替迭代博弈训练以获取生成器种群模型和判别器模型;
模型验证功能模块:利用在模型训练功能模块中所训练出的模型,验证并选择和保存最优模型,包括生成器模型验证子模块和判别器模型验证子模块,实现功能包括验证模型的评估和验证模型的选择与保存;所述模型验证功能模块执行操作包括:加载排序学习验证数据集;将模型训练功能模块中所训练出的模型在所选择的排序学习验证数据集上进行验证以获取性能评估最优的模型,并选择和保存最优模型作为模型测试功能模块的测试模型;
模型测试功能模块:利用在模型验证功能模块中所选择出的性能评估最优模型来测试模型,包括生成器模型测试子模块和判别器模型测试子模块,实现功能包括性能指标评估和预测结果保存;所述性能评估指标包括信息检索领域中的有效性评估指标;所述模型测试功能模块执行操作包括:加载排序学习测试数据集;将模型验证功能模块中所保存的性能评估最优模型在所选择的排序学习测试数据集上进行测试以获得相关性评分和信息检索中的一些性能指标评估值;判断相关性评分是否大于设定阈值:若是则返回文档与查询相关,否则返回文档与查询不相关。
10.一种采用权利要求1-8任一所述的基于进化条件生成对抗网络的排序学习方法的应用,其特征在于,
将基于进化条件生成对抗网络的排序学习方法,命名为ECGAN-LTR,应用于包括百度、谷歌、必应、雅虎、搜狗和Yandex的搜索引擎中,具体应用步骤如下:
步骤1:将基于进化条件生成对抗网络的排序学习方法ECGAN-LTR嵌入搜索引擎中;
首先,获得网页到搜索引擎网页索引数据库中以获取排序学习初始数据;
其次,对搜索引擎网页索引数据库中的部分网页进行数据预处理,对网页进行排序特征的提取和相关性标注,并以标准排序学习数据集的格式构建搜索引擎的排序学习数据集;
然后,在所构建的排序学习数据集上,运用基于进化条件生成对抗网络的排序学习方法ECGAN-LTR去交替迭代博弈对抗优化训练、验证和选择模型以产生最优生成器模型和判别器模型;
最后,将所产生的最优模型植入到搜索引擎的排序系统中;
步骤2:执行查询-网页搜索,按照嵌入的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR所产生的最优模型进行效果评估,预测并呈现排序结果;
在融入了排序学习方法ECGAN-LTR的搜索引擎中,用户可循环多次执行查询-网页搜索;
首先,用户在搜索引擎的搜索框中,输入想要搜索的查询词,并点击搜索以执行网页搜索;
其次,搜索引擎的排序系统从搜索引擎网页索引数据库中找出所有包含了该查询词的网页,并按照嵌入的基于进化条件生成对抗网络的排序学习方法ECGAN-LTR所产生的最优模型进行效果评估,计算出网页排序得分,以预测出网页搜索的排序结果;
最后,将网页搜索排序结果按照一定的方式返回到搜索页面以呈现给搜索用户。
CN202310125303.5A 2023-02-16 2023-02-16 基于进化条件生成对抗网络的排序学习方法、系统及应用 Pending CN116245146A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310125303.5A CN116245146A (zh) 2023-02-16 2023-02-16 基于进化条件生成对抗网络的排序学习方法、系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310125303.5A CN116245146A (zh) 2023-02-16 2023-02-16 基于进化条件生成对抗网络的排序学习方法、系统及应用

Publications (1)

Publication Number Publication Date
CN116245146A true CN116245146A (zh) 2023-06-09

Family

ID=86629158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310125303.5A Pending CN116245146A (zh) 2023-02-16 2023-02-16 基于进化条件生成对抗网络的排序学习方法、系统及应用

Country Status (1)

Country Link
CN (1) CN116245146A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117234785A (zh) * 2023-11-09 2023-12-15 华能澜沧江水电股份有限公司 基于人工智能自查询的集控平台错误分析系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117234785A (zh) * 2023-11-09 2023-12-15 华能澜沧江水电股份有限公司 基于人工智能自查询的集控平台错误分析系统
CN117234785B (zh) * 2023-11-09 2024-02-02 华能澜沧江水电股份有限公司 基于人工智能自查询的集控平台错误分析系统

Similar Documents

Publication Publication Date Title
Volkovs et al. Boltzrank: learning to maximize expected ranking gain
Kumar et al. Algorithms for storytelling
Craswell et al. TREC deep learning track: Reusable test collections in the large data regime
CN109697289A (zh) 一种改进的用于命名实体识别的主动学习方法
Volkovs et al. New learning methods for supervised and unsupervised preference aggregation
CN105393264A (zh) 人机交互学习中的交互区段提取
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
Fu et al. Deep reinforcement learning framework for category-based item recommendation
Zou et al. Reinforcement learning to diversify top-n recommendation
CN109933720B (zh) 一种基于用户兴趣自适应演化的动态推荐方法
Jespersen et al. Evaluating the markov assumption for web usage mining
Luna et al. Efficient mining of top-k high utility itemsets through genetic algorithms
Zhang et al. Feature selection for high dimensional imbalanced class data based on F-measure optimization
Yilmaz et al. Using ontology and sequence information for extracting behavior patterns from web navigation logs
Ma et al. SNEGAN: Signed network embedding by using generative adversarial nets
CN116245146A (zh) 基于进化条件生成对抗网络的排序学习方法、系统及应用
Li et al. Robust personalized ranking from implicit feedback
CN116720519B (zh) 一种苗医药命名实体识别方法
CN112966165A (zh) 基于图神经网络的交互式社区搜索方法及装置
CN112182155A (zh) 一种基于生成式对抗网络的搜索结果多样化方法
CN113869034B (zh) 基于强化依赖图的方面情感分类方法
Altinok et al. Learning to rank by using multivariate adaptive regression splines and conic multivariate adaptive regression splines
Fan et al. Reading customer reviews to answer product-related questions
CN106649537A (zh) 基于改进的群智能算法实现搜索引擎关键词优化技术
Mohanraj et al. Ontology driven bee's foraging approach based self adaptive online recommendation system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination