CN109783709B - 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法 - Google Patents
一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法 Download PDFInfo
- Publication number
- CN109783709B CN109783709B CN201811570937.7A CN201811570937A CN109783709B CN 109783709 B CN109783709 B CN 109783709B CN 201811570937 A CN201811570937 A CN 201811570937A CN 109783709 B CN109783709 B CN 109783709B
- Authority
- CN
- China
- Prior art keywords
- time step
- parameter
- document
- sequence
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000008569 process Effects 0.000 title claims abstract description 23
- 230000002787 reinforcement Effects 0.000 title claims abstract description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 43
- 230000001186 cumulative effect Effects 0.000 claims description 11
- 230000007774 longterm Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于马尔可夫决策过程和k‑最近邻强化学习的排序方法,属于信息检索领域。本发明基于马尔可夫决策过程模型框架,提出了一种应用k‑最近邻的文档排序方法,方法大大提高了的排序准确率;同时,智能化的为用户提供高相关性和多样性的文档搜索结果,节省用户的文档搜索时间,通过高效的文档排序更快更准确的使用户检索到符合其查询的文档。
Description
技术领域
本发明涉及一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法,属于信息检索技术领域。
背景技术
随着互联网的快速发展,Learning to Rank技术也越来越受到关注,这是机器学习常见的任务之一。信息检索时,给定一个查询目标,我们需要算出最符合要求的结果并返回,这里面涉及一些特征计算、匹配等算法,对于海量的数据,如果仅靠人工来干预其中的一些参数来进行排序的话,是远远不能达到要求的,而Learning to Rank算法就是用来解决这种问题的。在信息检索领域,排序学习的核心问题之一是开发新颖算法,通过直接优化评估度量例如归一化折扣累积增益(NDCG)来构造排序模型。现有的方法通常集中于优化在固定位置计算特定评估度量,例如在固定位置K计算的NDCG。在信息检索中,评估度量包括广泛使用的NDCG和P@K,在固定位置计算的NDCG包含的文档信息量有限,并不能完全体现用户的查询目标。通常计算在所有排名位置的文档排序,这种方法比仅在单个位置计算文档排名提供更丰富的信息。因此,设计一种算法,它能够利用在所有的排序位置上计算的度量,来学习更好的排序模型变得很有意义。其次,仅仅依靠相关性来给文档打分具有一定的片面性,有时用户需要返回的文档不仅需要高相关性,对返回结果的多样性仍有一定的需求,传统的排序学习方法大多只考虑到了文档的相关性,忽视了文档多样性,没有解决查询结果文档的多样性问题。
发明内容
本发明要解决的技术问题是为了克服上述现有技术存在的缺陷而提供一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法。
本发明的技术方案是:一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法,具体步骤为:
(1)将原始数据文件平均分成5个组,每组对应一个子数据集,方便实现k折交叉验证实验,对这些数据集中的各个数据项进行预处理,生成候选数据集;
(2)读取步骤(1)所述的候选数据集,设定算法的输入参数包括学习率η,折扣因子γ,奖励函数R,随机初始化学习参数w,中间参数Δw初始化为0;
(3)读取步骤(2)所述的参数,完成取样序列E,返回一个序列E;
(4)计算步骤(2)所述的取样序列E的长期累积折扣奖励;
(5)计算在时间步t参数w的梯度,并计算更新中间参数Δw;
(6)重复步骤(3)到(5),计算更新参数w,直至参数收敛,程序结束。
所述步骤(3)具体包括以下步骤:
11)初始化环境状态st和序列E;
12)假设查询q所检索到的的文档有M个,对于排序过程在时间步t=0至t=M-1,根据马尔可夫决策过程模型的策略,由当前环境的状态st选择一个动作at(文档);
其中,A(st)是当前环境状态st下所有可选择的动作集合,t表示时间步,假设at∈A(st)是当前环境的状态st选择的一个动作,是该选择动作at对应的文档,m(at)是动作at对应的文档的索引。w是模型参数,其维度与文档特征一致。
13)应用奖励函数R,计算在该环境状态st下选择动作at的奖励回报rt+1;
14)根据状态转移函数,改变环境状态st至st+1;
15)应用欧式距离,计算所选动作at的k个最近邻动作(文档);
16)将14)计算出的k个最近邻动作(文档),从候选文档集中删除;
17)添加元组(st,at,rt+1)至序列E中,完成一个位置排序;
18)完成M次采样序列,得到序列(s0,a0,r1,……,sM-1,aM-1,rM)。
所述步骤(4)中计算步骤(2)所述的取样序列的累积长期折扣奖励,并用Gt表示:
其中,γ是预先设定的折扣因子,γk-1表示随着时间步t的增加,折扣因子的作用逐渐减小的变化,rt+k表示从时间步t=0开始的奖励回报。
所述步骤(5)具体包括以下步骤:
23)计算更新中间参数Δw,并用Δw表示:
所述步骤(6)具体包括以下步骤:
31)计算更新参数w,并用w表示:
w=w+Δw; (8)
其中,w是模型参数,其维度与文档特征一致。Δw是模型的中间参数。
本发明的有益效果是:本发明基于马尔可夫决策过程模型框架,提出了一种应用k-最近邻的文档排序方法,方法大大提高了的排序准确率;同时,智能化的为用户提供高相关性和多样性的文档搜索结果,节省用户的文档搜索时间,通过高效的文档排序更快更准确的使用户检索到符合其查询的文档。
附图说明
图1是本发明马尔可夫决策过程中agent和环境的交互图;
图2是本发明流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,将文档排序过程建模为马尔可夫决策过程,图中的Agent相当于本发明的算法,Environment相当于查询用户。M个文档的排序问题形式化决策问题。每一个动作对应于选择一个文档。马尔可夫决策过程是一个agent与环境交互的过程,因此有一个离散的时间序列,t=0,1,2,…M,在每一个时刻t,agent都会接收一个用来表示现处环境的状态st∈S,其中S表示所有可能状态的集合,并且在现处状态st的基础上选择一个动作at∈A(st),其中A(st)表示在状态st时所有可能采取的动作的集合,在t时刻Agent采取一个动作后,环境的状态由st更新为st+1,在时间步t+1,Agent会收到一个奖励回报值rt+1∈R。在每个时间步t,动作的选择取决于策略函数Policy。
如图2所示,针对基于马尔可夫决策过程和k-最近邻强化学习的排序方法,其特征在于,包括以下步骤:
1、将原始数据文件平均分成5个组,每组对应一个子数据集,方便实现k折交叉验证实验,其中k设定为5,对这些数据集中的各个数据项进行预处理,生成候选数据集。
2、读取步骤1所述的候选数据集,设定算法的输入参数包括学习率η=0.0001,折扣因子γ=1,奖励函数R,随机初始化学习参数w,中间参数Δw初始化为0。
3、读取步骤2所述的参数,完成取样序列E,返回一个序列E,初始化环境状态st和序列E。假设查询q所检索到的的文档有M个,对于排序过程在时间步t=0至t=M-1,根据马尔可夫决策过程模型的策略,由当前环境的状态st选择一个动作at(文档),
其中,A(st)是当前环境状态st下所有可选择的动作集合,t表示时间步,假设at∈A(st)是当前环境的状态st选择的一个动作,是该选择动作at对应的文档,m(at)是动作at对应的文档的索引。w是模型参数,其维度与文档特征一致。
3.1、应用奖励函数R(2),计算在该环境状态st下选择动作at的奖励回报rt+1;
3.2、根据状态转移函数,改变环境状态st至st+1;
3.3、应用欧式距离公式(3),计算所选动作at的k个最近邻动作(文档)。计算出的k个最近邻动作(文档),从候选文档集中删除;添加元组(st,at,rt+1)至序列E中,完成一个位置排序。完成M次采样序列,得到序列(s0,a0,r1,……,sM-1,aM-1,rM)。
4、计算步骤(2)所述的取样序列E的长期累积折扣奖励,并用Gt表示:
其中,γ是预先设定的折扣因子,γk-1表示随着时间步t的增加,折扣因子的作用逐渐减小的变化,rt+k表示从时间步t=0开始的奖励回报。
5.2、计算更新中间参数Δw,并用Δw表示:
6、计算更新参数w,直至参数收敛,程序结束。
w=w+Δw; (8)
其中,w是模型参数,其维度与文档特征一致。Δw是模型的中间参数。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (3)
1.一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法,其特征在于:
(1)将原始数据文件平均分成5个组,每组对应一个子数据集,对这些数据集中的各个数据项进行预处理,生成候选数据集;
(2)读取步骤(1)所述的候选数据集,设定算法的输入参数包括学习率η,折扣因子γ,奖励函数R,随机初始化学习参数w,中间参数Δw初始化为0;
(3)读取步骤(2)所述的参数,完成取样序列E,返回一个序列E;
(4)计算步骤(2)所述的取样序列E的长期累积折扣奖励;
(5)计算在时间步t参数w的梯度,并计算更新中间参数Δw;
(6)重复步骤(3)到(5),计算更新参数w,直至参数收敛,程序结束;
所述步骤(3)具体包括以下步骤:
11)初始化环境状态st和序列E;
12)假设查询q所检索到的的文档有M个,对于排序过程在时间步t=0至t=M-1,根据马尔可夫决策过程模型的策略,由当前环境的状态st选择一个动作at;
其中,A(st)是当前环境状态st下所有可选择的动作集合,t表示时间步,假设at∈A(st)是当前环境的状态st选择的一个动作,是该选择动作at对应的文档,m(at)是动作at对应的文档的索引,w是模型参数,其维度与文档特征一致;
13)应用奖励函数R,计算在该环境状态st下选择动作at的奖励回报rt+1;
14)根据状态转移函数,改变环境状态st至st+1;
15)应用欧式距离,计算所选动作at的k个最近邻动作;
16)将14)计算出的k个最近邻动作,从候选文档集中删除;
17)添加元组(st,at,rt+1)至序列E中,完成一个位置排序;
18)完成M次采样序列,得到序列(s0,a0,r1,……,sM-1,aM-1,rM);
所述步骤(4)中计算步骤(2)所述的取样序列的累积长期折扣奖励,并用Gt表示:
其中,γ是预先设定的折扣因子,γk-1表示随着时间步t的增加,折扣因子的作用逐渐减小的变化,rt+k表示从时间步t=0开始的奖励回报。
2.根据权利要求1所述的基于马尔可夫决策过程和k-最近邻强化学习的排序方法,其特征在于所述步骤(5)具体包括以下步骤:
23)计算更新中间参数Δw,并用Δw表示:
3.根据权利要求1所述的基于马尔可夫决策过程和k-最近邻强化学习的排序方法,其特征在于所述步骤(6)具体包括以下步骤:
31)计算更新参数w,并用w表示:
w=w+Δw; (8)
其中,w是模型参数,其维度与文档特征一致,Δw是模型的中间参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811570937.7A CN109783709B (zh) | 2018-12-21 | 2018-12-21 | 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811570937.7A CN109783709B (zh) | 2018-12-21 | 2018-12-21 | 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109783709A CN109783709A (zh) | 2019-05-21 |
CN109783709B true CN109783709B (zh) | 2023-03-28 |
Family
ID=66497529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811570937.7A Active CN109783709B (zh) | 2018-12-21 | 2018-12-21 | 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783709B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241407B (zh) * | 2020-01-21 | 2023-07-28 | 中国人民大学 | 一种基于强化学习的个性化搜索方法 |
CN112270451B (zh) * | 2020-11-04 | 2022-05-24 | 中国科学院重庆绿色智能技术研究院 | 一种基于强化学习的监护预警方法及系统 |
CN115526338B (zh) * | 2022-10-20 | 2023-06-23 | 北京中科闻歌科技股份有限公司 | 一种用于信息检索的强化学习模型构建方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105393252A (zh) * | 2013-04-18 | 2016-03-09 | 数字标记公司 | 生理数据采集和分析 |
CN105930400A (zh) * | 2016-04-15 | 2016-09-07 | 南京大学 | 一种基于马尔科夫决策过程模型的会话搜索方法 |
CN107729512A (zh) * | 2017-10-20 | 2018-02-23 | 南京大学 | 一种基于部分可观测马尔科夫决策过程模型的会话搜索方法 |
CN108230057A (zh) * | 2016-12-09 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种智能推荐方法及系统 |
CN108962221A (zh) * | 2018-07-12 | 2018-12-07 | 苏州思必驰信息科技有限公司 | 在线对话状态跟踪模型的优化方法及系统 |
CN109241243A (zh) * | 2018-08-30 | 2019-01-18 | 清华大学 | 候选文档排序方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
CN108701125A (zh) * | 2015-12-29 | 2018-10-23 | Mz知识产权控股有限责任公司 | 用于建议表情符号的系统和方法 |
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10997508B2 (en) * | 2017-02-14 | 2021-05-04 | Cognitive Scale, Inc. | Cognitive machine learning architecture |
US10796234B2 (en) * | 2017-02-14 | 2020-10-06 | Cognitive Scale, Inc. | Ranked insight machine learning operation |
-
2018
- 2018-12-21 CN CN201811570937.7A patent/CN109783709B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105393252A (zh) * | 2013-04-18 | 2016-03-09 | 数字标记公司 | 生理数据采集和分析 |
CN105930400A (zh) * | 2016-04-15 | 2016-09-07 | 南京大学 | 一种基于马尔科夫决策过程模型的会话搜索方法 |
CN108230057A (zh) * | 2016-12-09 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种智能推荐方法及系统 |
CN107729512A (zh) * | 2017-10-20 | 2018-02-23 | 南京大学 | 一种基于部分可观测马尔科夫决策过程模型的会话搜索方法 |
CN108962221A (zh) * | 2018-07-12 | 2018-12-07 | 苏州思必驰信息科技有限公司 | 在线对话状态跟踪模型的优化方法及系统 |
CN109241243A (zh) * | 2018-08-30 | 2019-01-18 | 清华大学 | 候选文档排序方法及装置 |
Non-Patent Citations (3)
Title |
---|
Large-scale Interactive Recommendation with Tree-structured Policy Gradient;Chen, Haokun等;《Proceedings of the AAAI Conference on Artificial Intelligence》;20190717;3312-3320 * |
基于强化学习的多样性文档排序算法;官蕊;《计算机工程与科学》;20200915;1697-1703 * |
马尔可夫决策问题的关键状态优先学习算法;白尘;《中国管理信息化》;20160401;198-202 * |
Also Published As
Publication number | Publication date |
---|---|
CN109783709A (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783709B (zh) | 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法 | |
CN107133290B (zh) | 一种个性化信息检索方法与装置 | |
US10592777B2 (en) | Systems and methods for slate optimization with recurrent neural networks | |
CN105787061B (zh) | 信息推送方法 | |
CN103502899B (zh) | 动态预测建模平台 | |
US20170206551A1 (en) | Personalized Recommendation Computation in Real Time using Incremental Matrix Factorization and User Factor Clustering | |
US8010535B2 (en) | Optimization of discontinuous rank metrics | |
CN110046713B (zh) | 基于多目标粒子群优化的鲁棒性排序学习方法及其应用 | |
CN110020175B (zh) | 一种搜索处理方法、处理设备和系统 | |
EP2860672A2 (en) | Scalable cross domain recommendation system | |
CN111507419A (zh) | 图像分类模型的训练方法及装置 | |
CN110020173B (zh) | 用于优化搜索排序的方法、装置及电子设备 | |
US20100082639A1 (en) | Processing maximum likelihood for listwise rankings | |
CN111753215B (zh) | 一种多目标推荐优化方法及可读介质 | |
CN114186084A (zh) | 在线多模态哈希检索方法、系统、存储介质及设备 | |
CN112182387A (zh) | 一种时间信息增强的个性化搜索算法 | |
CN111523037B (zh) | 一种开源软件开发中Pull Request的评审者推荐方法 | |
CN115511071A (zh) | 模型训练方法、装置及可读存储介质 | |
CN117390477A (zh) | 一种智能分类的水文预报方法 | |
WO2022011603A1 (en) | Video recommendation with multi-gate mixture of experts soft actor critic | |
CN116091174A (zh) | 推荐策略优化系统、方法、装置及相关设备 | |
CN115829123A (zh) | 基于灰色模型与神经网络的天然气需求预测方法及装置 | |
JP6203313B2 (ja) | 特徴選択装置、特徴選択方法およびプログラム | |
CN111435378B (zh) | 查询结果的排序方法、装置、电子设备以及存储介质 | |
Mao et al. | Popularity tendency analysis of ranking-oriented collaborative filtering from the perspective of loss function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |