CN109783709B - 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法 - Google Patents

一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法 Download PDF

Info

Publication number
CN109783709B
CN109783709B CN201811570937.7A CN201811570937A CN109783709B CN 109783709 B CN109783709 B CN 109783709B CN 201811570937 A CN201811570937 A CN 201811570937A CN 109783709 B CN109783709 B CN 109783709B
Authority
CN
China
Prior art keywords
time step
parameter
document
sequence
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811570937.7A
Other languages
English (en)
Other versions
CN109783709A (zh
Inventor
丁家满
官蕊
贾连印
游进国
姜瑛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201811570937.7A priority Critical patent/CN109783709B/zh
Publication of CN109783709A publication Critical patent/CN109783709A/zh
Application granted granted Critical
Publication of CN109783709B publication Critical patent/CN109783709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于马尔可夫决策过程和k‑最近邻强化学习的排序方法,属于信息检索领域。本发明基于马尔可夫决策过程模型框架,提出了一种应用k‑最近邻的文档排序方法,方法大大提高了的排序准确率;同时,智能化的为用户提供高相关性和多样性的文档搜索结果,节省用户的文档搜索时间,通过高效的文档排序更快更准确的使用户检索到符合其查询的文档。

Description

一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法
技术领域
本发明涉及一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法,属于信息检索技术领域。
背景技术
随着互联网的快速发展,Learning to Rank技术也越来越受到关注,这是机器学习常见的任务之一。信息检索时,给定一个查询目标,我们需要算出最符合要求的结果并返回,这里面涉及一些特征计算、匹配等算法,对于海量的数据,如果仅靠人工来干预其中的一些参数来进行排序的话,是远远不能达到要求的,而Learning to Rank算法就是用来解决这种问题的。在信息检索领域,排序学习的核心问题之一是开发新颖算法,通过直接优化评估度量例如归一化折扣累积增益(NDCG)来构造排序模型。现有的方法通常集中于优化在固定位置计算特定评估度量,例如在固定位置K计算的NDCG。在信息检索中,评估度量包括广泛使用的NDCG和P@K,在固定位置计算的NDCG包含的文档信息量有限,并不能完全体现用户的查询目标。通常计算在所有排名位置的文档排序,这种方法比仅在单个位置计算文档排名提供更丰富的信息。因此,设计一种算法,它能够利用在所有的排序位置上计算的度量,来学习更好的排序模型变得很有意义。其次,仅仅依靠相关性来给文档打分具有一定的片面性,有时用户需要返回的文档不仅需要高相关性,对返回结果的多样性仍有一定的需求,传统的排序学习方法大多只考虑到了文档的相关性,忽视了文档多样性,没有解决查询结果文档的多样性问题。
发明内容
本发明要解决的技术问题是为了克服上述现有技术存在的缺陷而提供一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法。
本发明的技术方案是:一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法,具体步骤为:
(1)将原始数据文件平均分成5个组,每组对应一个子数据集,方便实现k折交叉验证实验,对这些数据集中的各个数据项进行预处理,生成候选数据集;
(2)读取步骤(1)所述的候选数据集,设定算法的输入参数包括学习率η,折扣因子γ,奖励函数R,随机初始化学习参数w,中间参数Δw初始化为0;
(3)读取步骤(2)所述的参数,完成取样序列E,返回一个序列E;
(4)计算步骤(2)所述的取样序列E的长期累积折扣奖励;
(5)计算在时间步t参数w的梯度,并计算更新中间参数Δw;
(6)重复步骤(3)到(5),计算更新参数w,直至参数收敛,程序结束。
所述步骤(3)具体包括以下步骤:
11)初始化环境状态st和序列E;
12)假设查询q所检索到的的文档有M个,对于排序过程在时间步t=0至t=M-1,根据马尔可夫决策过程模型的策略,由当前环境的状态st选择一个动作at(文档);
Figure BDA0001915505380000021
其中,A(st)是当前环境状态st下所有可选择的动作集合,t表示时间步,假设at∈A(st)是当前环境的状态st选择的一个动作,
Figure BDA0001915505380000024
是该选择动作at对应的文档,m(at)是动作at对应的文档的索引。w是模型参数,其维度与文档特征一致。
13)应用奖励函数R,计算在该环境状态st下选择动作at的奖励回报rt+1
Figure BDA0001915505380000022
其中,
Figure BDA0001915505380000025
是所选择动作文档
Figure BDA0001915505380000026
的相关性标签,t表示时间步。
14)根据状态转移函数,改变环境状态st至st+1
15)应用欧式距离,计算所选动作at的k个最近邻动作(文档);
Figure BDA0001915505380000023
16)将14)计算出的k个最近邻动作(文档),从候选文档集中删除;
17)添加元组(st,at,rt+1)至序列E中,完成一个位置排序;
18)完成M次采样序列,得到序列(s0,a0,r1,……,sM-1,aM-1,rM)。
所述步骤(4)中计算步骤(2)所述的取样序列的累积长期折扣奖励,并用Gt表示:
Figure BDA0001915505380000031
其中,γ是预先设定的折扣因子,γk-1表示随着时间步t的增加,折扣因子的作用逐渐减小的变化,rt+k表示从时间步t=0开始的奖励回报。
所述步骤(5)具体包括以下步骤:
21)计算在时间步t的参数w的梯度,并用
Figure BDA0001915505380000032
表示
Figure BDA0001915505380000033
其中,A(t)是当前环境状态st下所有可选择的动作集合,t表示时间步,
Figure BDA0001915505380000039
是选择的动作at对应的文档,m(at)是动作at对应的文档的索引。w是模型参数,其维度与文档特征一致。
22)计算更新在所有时间步t的累积梯度,并用
Figure BDA0001915505380000034
表示:
Figure BDA0001915505380000035
其中,γt是随时间步t的增加,折扣因子逐渐减小的表示。Gt是从时间步t=0直至t=M-1的取样序列的累积长期折扣奖励。
Figure BDA0001915505380000036
是在时间步t的模型参数w的梯度。
23)计算更新中间参数Δw,并用Δw表示:
Figure BDA0001915505380000037
其中,γt是随时间步t的增加,折扣因子逐渐减小的表示。Gt是从时间步t=0直至t=M-1的取样序列的累积长期折扣奖励。
Figure BDA0001915505380000038
是在时间步t的模型参数w的梯度。
所述步骤(6)具体包括以下步骤:
31)计算更新参数w,并用w表示:
w=w+Δw; (8)
其中,w是模型参数,其维度与文档特征一致。Δw是模型的中间参数。
本发明的有益效果是:本发明基于马尔可夫决策过程模型框架,提出了一种应用k-最近邻的文档排序方法,方法大大提高了的排序准确率;同时,智能化的为用户提供高相关性和多样性的文档搜索结果,节省用户的文档搜索时间,通过高效的文档排序更快更准确的使用户检索到符合其查询的文档。
附图说明
图1是本发明马尔可夫决策过程中agent和环境的交互图;
图2是本发明流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,将文档排序过程建模为马尔可夫决策过程,图中的Agent相当于本发明的算法,Environment相当于查询用户。M个文档的排序问题形式化决策问题。每一个动作对应于选择一个文档。马尔可夫决策过程是一个agent与环境交互的过程,因此有一个离散的时间序列,t=0,1,2,…M,在每一个时刻t,agent都会接收一个用来表示现处环境的状态st∈S,其中S表示所有可能状态的集合,并且在现处状态st的基础上选择一个动作at∈A(st),其中A(st)表示在状态st时所有可能采取的动作的集合,在t时刻Agent采取一个动作后,环境的状态由st更新为st+1,在时间步t+1,Agent会收到一个奖励回报值rt+1∈R。在每个时间步t,动作的选择取决于策略函数Policy。
如图2所示,针对基于马尔可夫决策过程和k-最近邻强化学习的排序方法,其特征在于,包括以下步骤:
1、将原始数据文件平均分成5个组,每组对应一个子数据集,方便实现k折交叉验证实验,其中k设定为5,对这些数据集中的各个数据项进行预处理,生成候选数据集。
2、读取步骤1所述的候选数据集,设定算法的输入参数包括学习率η=0.0001,折扣因子γ=1,奖励函数R,随机初始化学习参数w,中间参数Δw初始化为0。
3、读取步骤2所述的参数,完成取样序列E,返回一个序列E,初始化环境状态st和序列E。假设查询q所检索到的的文档有M个,对于排序过程在时间步t=0至t=M-1,根据马尔可夫决策过程模型的策略,由当前环境的状态st选择一个动作at(文档),
Figure BDA0001915505380000051
其中,A(st)是当前环境状态st下所有可选择的动作集合,t表示时间步,假设at∈A(st)是当前环境的状态st选择的一个动作,
Figure BDA0001915505380000057
是该选择动作at对应的文档,m(at)是动作at对应的文档的索引。w是模型参数,其维度与文档特征一致。
3.1、应用奖励函数R(2),计算在该环境状态st下选择动作at的奖励回报rt+1
Figure BDA0001915505380000052
其中,
Figure BDA0001915505380000053
是所选择动作文档
Figure BDA0001915505380000054
的相关性标签,t表示时间步。
3.2、根据状态转移函数,改变环境状态st至st+1
3.3、应用欧式距离公式(3),计算所选动作at的k个最近邻动作(文档)。计算出的k个最近邻动作(文档),从候选文档集中删除;添加元组(st,at,rt+1)至序列E中,完成一个位置排序。完成M次采样序列,得到序列(s0,a0,r1,……,sM-1,aM-1,rM)。
Figure BDA0001915505380000055
4、计算步骤(2)所述的取样序列E的长期累积折扣奖励,并用Gt表示:
Figure BDA0001915505380000056
其中,γ是预先设定的折扣因子,γk-1表示随着时间步t的增加,折扣因子的作用逐渐减小的变化,rt+k表示从时间步t=0开始的奖励回报。
5、计算在时间步t参数w的梯度,并用
Figure BDA0001915505380000061
表示:
Figure BDA0001915505380000062
其中,A(t)是当前环境状态st下所有可选择的动作集合,t表示时间步,
Figure BDA0001915505380000063
是选择的动作at对应的文档,m(at)是动作at对应的文档的索引。w是模型参数,其维度与文档特征一致。
5.1、计算更新在所有时间步t的累积梯度,并用
Figure BDA0001915505380000064
表示:
Figure BDA0001915505380000065
其中,γt是随时间步t的增加,折扣因子逐渐减小的表示。Gt是从时间步t=0直至t=M-1的取样序列的累积长期折扣奖励。
Figure BDA0001915505380000066
是在时间步t的模型参数w的梯度。
5.2、计算更新中间参数Δw,并用Δw表示:
Figure BDA0001915505380000067
其中,γt是随时间步t的增加,折扣因子逐渐减小的表示。Gt是从时间步t=0直至t=M-1的取样序列的累积长期折扣奖励。
Figure BDA0001915505380000068
是在时间步t的模型参数w的梯度。
6、计算更新参数w,直至参数收敛,程序结束。
w=w+Δw; (8)
其中,w是模型参数,其维度与文档特征一致。Δw是模型的中间参数。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (3)

1.一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法,其特征在于:
(1)将原始数据文件平均分成5个组,每组对应一个子数据集,对这些数据集中的各个数据项进行预处理,生成候选数据集;
(2)读取步骤(1)所述的候选数据集,设定算法的输入参数包括学习率η,折扣因子γ,奖励函数R,随机初始化学习参数w,中间参数Δw初始化为0;
(3)读取步骤(2)所述的参数,完成取样序列E,返回一个序列E;
(4)计算步骤(2)所述的取样序列E的长期累积折扣奖励;
(5)计算在时间步t参数w的梯度,并计算更新中间参数Δw;
(6)重复步骤(3)到(5),计算更新参数w,直至参数收敛,程序结束;
所述步骤(3)具体包括以下步骤:
11)初始化环境状态st和序列E;
12)假设查询q所检索到的的文档有M个,对于排序过程在时间步t=0至t=M-1,根据马尔可夫决策过程模型的策略,由当前环境的状态st选择一个动作at
Figure FDA0003866255460000011
其中,A(st)是当前环境状态st下所有可选择的动作集合,t表示时间步,假设at∈A(st)是当前环境的状态st选择的一个动作,
Figure FDA0003866255460000012
是该选择动作at对应的文档,m(at)是动作at对应的文档的索引,w是模型参数,其维度与文档特征一致;
13)应用奖励函数R,计算在该环境状态st下选择动作at的奖励回报rt+1
Figure FDA0003866255460000013
其中,
Figure FDA0003866255460000014
是所选择动作文档
Figure FDA0003866255460000015
的相关性标签,t表示时间步;
14)根据状态转移函数,改变环境状态st至st+1
15)应用欧式距离,计算所选动作at的k个最近邻动作;
Figure FDA0003866255460000021
16)将14)计算出的k个最近邻动作,从候选文档集中删除;
17)添加元组(st,at,rt+1)至序列E中,完成一个位置排序;
18)完成M次采样序列,得到序列(s0,a0,r1,……,sM-1,aM-1,rM);
所述步骤(4)中计算步骤(2)所述的取样序列的累积长期折扣奖励,并用Gt表示:
Figure FDA0003866255460000022
其中,γ是预先设定的折扣因子,γk-1表示随着时间步t的增加,折扣因子的作用逐渐减小的变化,rt+k表示从时间步t=0开始的奖励回报。
2.根据权利要求1所述的基于马尔可夫决策过程和k-最近邻强化学习的排序方法,其特征在于所述步骤(5)具体包括以下步骤:
21)计算在时间步t的参数w的梯度,并用
Figure FDA0003866255460000023
表示
Figure FDA0003866255460000024
其中,A(t)是当前环境状态st下所有可选择的动作集合,t表示时间步,
Figure FDA0003866255460000025
是选择的动作at对应的文档,m(at)是动作at对应的文档的索引,w是模型参数,其维度与文档特征一致;
22)计算更新在所有时间步t的累积梯度,并用
Figure FDA0003866255460000026
表示:
Figure FDA0003866255460000027
其中,γt是随时间步t的增加,折扣因子逐渐减小的表示,Gt是从时间步t=0直至t=M-1的取样序列的累积长期折扣奖励,
Figure FDA0003866255460000028
是在时间步t的模型参数w的梯度;
23)计算更新中间参数Δw,并用Δw表示:
Figure FDA0003866255460000031
其中,γt是随时间步t的增加,折扣因子逐渐减小的表示,Gt是从时间步t=0直至t=M-1的取样序列的累积长期折扣奖励,
Figure FDA0003866255460000032
是在时间步t的模型参数w的梯度。
3.根据权利要求1所述的基于马尔可夫决策过程和k-最近邻强化学习的排序方法,其特征在于所述步骤(6)具体包括以下步骤:
31)计算更新参数w,并用w表示:
w=w+Δw; (8)
其中,w是模型参数,其维度与文档特征一致,Δw是模型的中间参数。
CN201811570937.7A 2018-12-21 2018-12-21 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法 Active CN109783709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811570937.7A CN109783709B (zh) 2018-12-21 2018-12-21 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811570937.7A CN109783709B (zh) 2018-12-21 2018-12-21 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法

Publications (2)

Publication Number Publication Date
CN109783709A CN109783709A (zh) 2019-05-21
CN109783709B true CN109783709B (zh) 2023-03-28

Family

ID=66497529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811570937.7A Active CN109783709B (zh) 2018-12-21 2018-12-21 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法

Country Status (1)

Country Link
CN (1) CN109783709B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241407B (zh) * 2020-01-21 2023-07-28 中国人民大学 一种基于强化学习的个性化搜索方法
CN112270451B (zh) * 2020-11-04 2022-05-24 中国科学院重庆绿色智能技术研究院 一种基于强化学习的监护预警方法及系统
CN115526338B (zh) * 2022-10-20 2023-06-23 北京中科闻歌科技股份有限公司 一种用于信息检索的强化学习模型构建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105393252A (zh) * 2013-04-18 2016-03-09 数字标记公司 生理数据采集和分析
CN105930400A (zh) * 2016-04-15 2016-09-07 南京大学 一种基于马尔科夫决策过程模型的会话搜索方法
CN107729512A (zh) * 2017-10-20 2018-02-23 南京大学 一种基于部分可观测马尔科夫决策过程模型的会话搜索方法
CN108230057A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 一种智能推荐方法及系统
CN108962221A (zh) * 2018-07-12 2018-12-07 苏州思必驰信息科技有限公司 在线对话状态跟踪模型的优化方法及系统
CN109241243A (zh) * 2018-08-30 2019-01-18 清华大学 候选文档排序方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
CN108701125A (zh) * 2015-12-29 2018-10-23 Mz知识产权控股有限责任公司 用于建议表情符号的系统和方法
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10997508B2 (en) * 2017-02-14 2021-05-04 Cognitive Scale, Inc. Cognitive machine learning architecture
US10796234B2 (en) * 2017-02-14 2020-10-06 Cognitive Scale, Inc. Ranked insight machine learning operation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105393252A (zh) * 2013-04-18 2016-03-09 数字标记公司 生理数据采集和分析
CN105930400A (zh) * 2016-04-15 2016-09-07 南京大学 一种基于马尔科夫决策过程模型的会话搜索方法
CN108230057A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 一种智能推荐方法及系统
CN107729512A (zh) * 2017-10-20 2018-02-23 南京大学 一种基于部分可观测马尔科夫决策过程模型的会话搜索方法
CN108962221A (zh) * 2018-07-12 2018-12-07 苏州思必驰信息科技有限公司 在线对话状态跟踪模型的优化方法及系统
CN109241243A (zh) * 2018-08-30 2019-01-18 清华大学 候选文档排序方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Large-scale Interactive Recommendation with Tree-structured Policy Gradient;Chen, Haokun等;《Proceedings of the AAAI Conference on Artificial Intelligence》;20190717;3312-3320 *
基于强化学习的多样性文档排序算法;官蕊;《计算机工程与科学》;20200915;1697-1703 *
马尔可夫决策问题的关键状态优先学习算法;白尘;《中国管理信息化》;20160401;198-202 *

Also Published As

Publication number Publication date
CN109783709A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109783709B (zh) 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法
CN107133290B (zh) 一种个性化信息检索方法与装置
US10592777B2 (en) Systems and methods for slate optimization with recurrent neural networks
CN105787061B (zh) 信息推送方法
CN103502899B (zh) 动态预测建模平台
US20170206551A1 (en) Personalized Recommendation Computation in Real Time using Incremental Matrix Factorization and User Factor Clustering
US8010535B2 (en) Optimization of discontinuous rank metrics
CN110046713B (zh) 基于多目标粒子群优化的鲁棒性排序学习方法及其应用
CN110020175B (zh) 一种搜索处理方法、处理设备和系统
EP2860672A2 (en) Scalable cross domain recommendation system
CN111507419A (zh) 图像分类模型的训练方法及装置
CN110020173B (zh) 用于优化搜索排序的方法、装置及电子设备
US20100082639A1 (en) Processing maximum likelihood for listwise rankings
CN111753215B (zh) 一种多目标推荐优化方法及可读介质
CN114186084A (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN112182387A (zh) 一种时间信息增强的个性化搜索算法
CN111523037B (zh) 一种开源软件开发中Pull Request的评审者推荐方法
CN115511071A (zh) 模型训练方法、装置及可读存储介质
CN117390477A (zh) 一种智能分类的水文预报方法
WO2022011603A1 (en) Video recommendation with multi-gate mixture of experts soft actor critic
CN116091174A (zh) 推荐策略优化系统、方法、装置及相关设备
CN115829123A (zh) 基于灰色模型与神经网络的天然气需求预测方法及装置
JP6203313B2 (ja) 特徴選択装置、特徴選択方法およびプログラム
CN111435378B (zh) 查询结果的排序方法、装置、电子设备以及存储介质
Mao et al. Popularity tendency analysis of ranking-oriented collaborative filtering from the perspective of loss function

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared