CN103914560A - 一种用于农资电子商务的基于Q学习的多agent主动推荐方法 - Google Patents
一种用于农资电子商务的基于Q学习的多agent主动推荐方法 Download PDFInfo
- Publication number
- CN103914560A CN103914560A CN201410153650.XA CN201410153650A CN103914560A CN 103914560 A CN103914560 A CN 103914560A CN 201410153650 A CN201410153650 A CN 201410153650A CN 103914560 A CN103914560 A CN 103914560A
- Authority
- CN
- China
- Prior art keywords
- user
- agent
- recommendation information
- recommendation
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 9
- 230000006399 behavior Effects 0.000 claims description 51
- 238000012271 agricultural production Methods 0.000 claims description 30
- 230000001149 cognitive effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 230000003542 behavioural effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract description 2
- 230000007704 transition Effects 0.000 abstract 1
- 239000003795 chemical substances by application Substances 0.000 description 82
- 230000000694 effects Effects 0.000 description 7
- 239000000047 product Substances 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 241000607479 Yersinia pestis Species 0.000 description 2
- 239000012773 agricultural material Substances 0.000 description 2
- 239000003905 agrochemical Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000003337 fertilizer Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Husbandry (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Agronomy & Crop Science (AREA)
- Finance (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用于农资电子商务的基于Q学习的多agent主动推荐方法,其特征在于,包括如下步骤:1构建多agent主动推荐系统;2状态定义;3初始化;4 Q学习计算与推荐方向选择;5推荐动作执行;6状态转换;7迭代与更新,直到满足终止条件为止。本发明有利于在大规模数据环境下消减信息过载带来的消费盲区,实现对海量信息的筛选和快速定位。
Description
技术领域
本发明涉及一种Q强化学习算法的多agent主动推荐方法应用到农资商品电子商务中,是智能决策在电子商务中的一种应用,属于人工智能、自动控制技术领域。
背景技术
农业生产资料主要包括化肥、农药、农膜、种子、饲料、农机具等几大类商品,是重要的农业生产要素,其中种子、化肥、农药等农资作为农业关键生产材料,直接关系农产品的产量与质量,对于保障农业生产,增加农民收入,维护国家粮食安全都有着特别重要的意义。
由于农资商品需求具有季节性强;品种、品牌繁多;地域性广且分散等行业特殊属性,目前农资经营流通模式已不能适应现代农业生产的要求。又由于农资商品与农业种植密切相关,配套性、技术性强,因此,农资商品在实施电子商务过程中,必须区分与普通商品电子商务的消费模式不同,前者是生产型消费,以农业生产需要驱动消费,后者是生活型消费,以个人生活需求或兴趣习惯驱动消费。
用户主动推荐技术是应对互联网信息过载的产物。目前常规电子商务和资讯类网站多数面向用户物质或精神生活消费需求,其推荐依据用户之间的兴趣、爱好和习惯。常见的推荐方法为基于社会化的推荐和基于协同过滤的推荐,均以用户在社交网络中的交互行为及其共同爱好出发,采用图或相似度计算模型实现用户主动推荐。显然,这些推荐方法本质上由顾客生活消费行为而驱动,无法应用到以生产需求为驱动的农资电子商务领域的主动推荐系统中。同时,在大规模数据集上,为维持用户以及兴趣无规则的迁移,这类推荐算法会带来巨大存储和运算开销,一定程度上影响系统对用户的响应速度。
发明内容
本发明为克服现有技术的不足之处,提出一种用于农资电子商务的基于Q学习的多agent主动推荐方法,有利于在大规模数据环境下消减信息过载带来的消费盲区,实现对海量信息的筛选和快速定位。
本发明为解决技术问题采用如下技术方案:
本发明一种用于农资电子商务的基于Q学习的多agent主动推荐方法的特点包括如下步骤:
步骤1、构建多agent主动推荐系统
将多agent主动推荐系统描述为四元组S=(O,H,M,Agt),所述四元组S中,O为用户集合,所述用户集合O={o1,o2,...oi};oi为第i个用户;H为用户属性集合,所述用户属性集合H={h1,h2,...hi},hi为用户oi的属性集合,所述用户oi的属性集合hi包括用户个性化信息和用户反馈行为信息;M为推荐信息全集;Agt为多智能体集合,所述多智能体集合Agt={agent1,agent2,agent3,agent4};agent1为认知agent,agent2为市场agent,agent3为知识agent,agent4为决策agent;
步骤2、状态定义
定义系统状态集s={s0,st,st+1},s0为初始状态,表示系统初始时刻对用户登陆行为的观察状态;st为当前状态,表示系统t时刻对用户登陆行为的观察状态;st+1为下一状态,表示系统在t+1时刻对用户登陆行为的观察状态;
步骤3、初始化
3.1、初始化Q学习中的参数,所述参数包括学习率α、奖惩因子r、时间衰减因子β、当前强化因子Qt、终止时刻T2、观察间隔天数T1;
3.2、所述决策agent通过与所述认知agent进行通信获得用户oi在初始状态s0下的属性集合hi并存入用户个性化信息库和用户行为库;
3.3、所述决策agent根据所述用户个性化信息与所述市场agent和知识agent进行通信,从所述推荐信息全集M中提取推荐信息子集a推荐给用户oi,并将所述推荐信息子集a存入推荐历史库中;
3.4所述多agent主动推荐系统由初始状态s0转换为当前状态st;
步骤4、Q学习计算与推荐方向选择
4.1、所述决策agent通过与所述认知agent进行通信获得用户oi在当前状态st下的属性集合hi并更新所述用户个性化信息库和用户行为库;
4.2、利用式(2)获得用户oi在当前状态st下的观察累计评估值P:
式(2)中,j表示用户oi在观察间隔天数T1内第j天登陆所述多agent主动推荐系统,γj表示时间折扣函数并有:
式(2)中,fj(oi,M)表示在第j天用户oi登陆所述多agent主动推荐系统行为的观察评估函数,并有:
fj(oi,M)=fj(oi,a)-fj(oi,b) (4)
式(4)中,fj(oi,a)表示在第j天用户oi在当前状态st对所述推荐信息子集a点击行为的观察评估值,a={a1,a2......an},并有:
式(5)中,n表示所述多agent主动推荐系统在当前状态st向用户oi推荐所述推荐信息子集a的总条数,ky为用户oi在第j天对第y条推荐信息ay的点击次数,y∈[1,n];
式(4)中,b为非推荐信息子集,表示用户oi在当前状态st对推荐信息子集a以外的所有点击信息的集合, 表示推荐信息子集a在推荐信息全集M的补集,fj(oi,b)表示用户oi第j天对非推荐信息子集b点击行为的观察评估值,b={b1,b2......bm},并有:
式(6)中,m表示用户oi第j天点击非推荐信息子集b的总条数,zx为用户oi第j天对第x条非推荐信息bx的点击次数,x∈[1,m];
4.3、根据所述奖惩判断条件更新所述奖惩因子r,所述奖惩判断条件为:
当用户oi对推荐信息ay产生购买行为,则奖惩因子r=1;
当用户oi对非推荐信息bx产生购买行为,则奖惩因子r=-1;
当用户oi未产生任何购买行为,则奖惩因子r=0;
4.4、利用式(7)获得下一状态st+1的强化因子Qt+1:
Qt+1(oi,M)=(1-α)Qt(oi,M)+α[r+P] (7)
式(7)中,学习率α∈(0,1);
4.5、更新所述推荐历史库,即将所述下一状态st+1的强化因子Qt+1、推荐信息子集a和非推荐信息子集b存入所述推荐历史库中,形成推荐历史记录;
4.6、所述决策agent根据式(8)选择下一状态st+1的推荐方向:
ΔQ=Qt+1(oi,M)-Qt(oi,M) (8)
式(8)中,ΔQ为强化因子增量,当ΔQ≥0时,选择与当前状态st下的推荐信息子集a的相同方向为下一状态st+1的推荐方向;否则,按当前状态st获得的非推荐信息子集b的方向为推荐方向;
步骤5、推荐动作执行
所述决策agent根据步骤4.6所获得的推荐方向与所述市场agent或知识agent进行通信,更新所述推荐信息子集a,并执行向用户oi输出更新后的推荐信息子集a的推荐动作,同时将所述推荐信息子集a更新到推荐历史库中;
步骤6、状态转换
所述多agent主动推荐系统由下一状态st+1转换为当前状态st,并将下一状态st+1的强化因子Qt+1的值赋给当前强化因子Qt;
步骤7、迭代与更新
重复步骤4,步骤5和步骤6直到满足终止条件为止,所述终止条件为:
到终止时刻T2内,决策agent与认知agent进行通信,获取用户oi在当前状态st的属性集合hi中无用户反馈行为,即用户oi没有登陆行为,或市场agent或知识agent对所述该推荐方向的内容为空。
与已有技术相比,本发明的有益效果包括以下内容:
1、本发明首次将原本用于连续过程自动控制的Q学习引入到农资电子商务领域,通过建立一个四元组agent实现主动推荐系统的架构和内部多agent间的相互协调与控制。其中,认知agent获取消费者的个性化信息以及反馈行为信息,起到传感器的作用,市场和知识agent提供具有层次本体结构的农资产品和技术支持知识,起到辅助控制器作用;决策agent根据认知agent的信息属性和强化学习结果,将市场和知识相关内容提取输出推荐,从而实现个性化推荐,起着系统中主控制器的作用。
2、本发明有利于解决农资电子商务中商家与顾客的自动协商问题;一方面认知agent将用户属性及时传给决策agent,另一方面通过强化学习决策agent获得前一次推荐信息与用户需求之间的差异,由此实现下一步的最优推荐抉择,从而为用户提供更好的推荐窗口。该方法的推荐计算量只与农资商品隶属递归关系树深度和用户历史数据库有关,与用户的社会网络无关,因而具有节省存储规模和运算开销的优点。
3、本发明中引入了Q学习方法来增强和改进个性化推荐的方向和内容,Q学习在上述主动推荐系统中起到了反馈作用,它使得决策agent能根据反馈信息的方向(ΔQ正负)和强弱(ΔQ大小)调整主控制器的输出方向和内容,从而保证系统输出信息的适应性和对用户的快速响应性。
4、本发明在Q学习计算(式7)中定义了观察累计评估值P(式2),观察累计评估值P用来评估用户在观察间隔天数T1内对主控制器输出响应程度的时间累计值;通过引入时间折扣因子(式3)模拟系统响应用户行为的时间特性,使用户的反馈效应随时间非线性地减退,越早的用户响应对观察累计评估值的贡献越大,同时,观察间隔天数T1的设定还能控制推荐频率,减少过度推荐为用户带来的困扰。
附图说明
图1为本发明多agent的协调机制示意图;
图2为本发明推荐系统作为自动控制闭环系统的解释原理图;
图3为本发明引入ΔQ学习计算和更新的过程图。
具体实施方式
结合附图对本发明作进一步描述,以下实施例仅用于更加清楚地说明本发明的技术方案,不能以此来限制本发明的保护范围。
在本实施例中,一种用于农资电子商务的基于Q学习的多agent主动推荐方法是基于具备在线交易功能的农资电子商务系统。农资电子商务系统是一个具备交易功能的农资行业的垂直型在线营销系统,由于农业领域知识资源丰富且快速增长,用户需求具有多样性、区域性与时变性的特点,因此主动推荐作为农资电子商务系统中的一个重要用户体验功能,能更为精确地向不同类型用户提供个性化推荐包括农资产品、农业知识和市场信息的服务。
一种用于农资电子商务的基于Q学习的多agent主动推荐方法实现步骤如下:
步骤1、构建多agent主动推荐系统;
在本实施例中,将所构建的推荐系统中的推荐-用户反馈-再推荐的过程视为一个延迟的离散慢系统;因此将多agent主动推荐系统描述为一个自控系统,该自控系统由主控器,辅控制器以及传感器构成,具体用一个四元组S=(O,H,M,Agt)表示,四元组S中,O为用户集合,用户集合O={o1,o2,...oi};i为用户的个数,oi为第i个用户;H为用户属性集合,用户属性集合H={h1,h2,...hi},hi为用户oi的属性集合,用户oi的属性集合hi包括用户个性化信息和反馈行为信息。本实施例中,用户个性化信息包括用户初始注册所填写的所在地域、土地规模、种植作物和年平均产值;反馈行为包括系统用户的登陆次数、登陆时间、点击对象(点击对象包括系统范围所有页面上的信息和商品)、点击对象的个数、点击对象的次数、购买商品的行为以及反馈行为产生时间。M为推荐信息全集,本实施例中,推荐信息包含了推荐方向和推荐内容,推荐内容包括商品基础信息、商品的农技知识信息和商品的市场信息,商品基础信息指农资商品名称、型号、成分和用途,商品的农技知识信息包括农资商品使用知识信息、存储保管信息、相关种植技术知识信息、病虫害防治知识信息,商品的市场信息指农资商品的市场供需比例分布信息和价格走势信息;推荐方向是指按照农资商品本体库和农技知识库建立自上而下的农资商品隶属递归关系树,树结构的父层(主目录)相对于子层(子目录)称为推荐方向,子层(子目录)相对于父层(主目录)称为推荐内容。Agt为多智能体集合,多智能体集合Agt={agent1,agent2,agent3,agent4};agent1为认知agent,在系统中起着传感器作用,用来获取消费者的个性化信息(时空、环境、生产对象等)及行为。agent2为市场agent,本实施例中,市场agent2为推荐系统提供商品的市场信息,获取的信息来源为商品基础信息库、搜索引擎库;agent3为知识agent,本实施例中,知识agent3为推荐系统提供商品的农技、病虫害知识信息,获取的信息来源主要由商品本体库和农技知识库提供;由此,推荐信息全集M通过agent2和agent3获取。其中,市场和知识agent在系统中起到辅控制器的作用。agent4为决策agent,本实施例中,决策agent4是系统的主控器,用于与其他agent通信、协调、强化学习以及推荐方向的选择;从而建立如图1所示的多agent之间的协调机制。
步骤2、将Q学习与所述多智能体集合Agt结合,定义系统状态集s={s0,st,st+1},s0为初始状态,表示系统初始时刻对用户登陆行为的观察状态;在本实施例中,表示多agent主动推荐系统对用户oi初始登陆的行为观察,st为当前状态,表示系统t时刻对用户登陆行为的观察状态;在本实施例中,st表示多agent主动推荐系统对用户oi从t时刻起到观察间隔天数T1内登陆时点击推荐信息全集M的累计行为观察;st+1为下一状态,表示系统在t+1时刻对用户登陆行为的观察状态;在本实施例中,st+1表示多agent主动推荐系统对用户oi从t+1时刻起到观察间隔天数T1内登陆时点击推荐信息全集M的累计行为观察;
步骤3、初始化
3.1、初始化Q学习中的参数,参数包括学习率α、奖惩因子r、时间衰减因子β、当前强化因子Qt,终止时刻T2,在本实施例中,T2=20。观察间隔天数T1,T1取决于推荐周期的长短,在本实施例中,T1∈[1,5]。
3.2、决策agent通过与认知agent进行通信获得用户oi在初始状态s0下的属性集合hi并存入用户个性化信息库和用户行为库;
3.3、决策agent根据所述用户个性化信息与市场agent和知识agent进行通信,从推荐信息全集M中提取推荐信息子集a推荐给用户oi,其中并将推荐信息子集a存入推荐历史库中,推荐历史库是指存储向某一用户oi推荐内容的历史记录。在本实施例中,初始化提取推荐信息的方法是:根据用户初始个性信息,通过农资商品本体库和农资技术知识库,确定初始推荐方向,依照推荐方向选择提取商品信息、市场信息和农技知识信息。
3.4、执行步骤3.3推荐动作后,多agent主动推荐系统由初始状态s0转换为当前状态st;
步骤4、Q学习计算与推荐方向选择
4.1、决策agent通过与认知agent进行通信获得用户oi在当前状态st下的属性集合hi并更新用户信息库和用户行为库;
4.2、根据用户oi的属性集合hi利用式(2)获得用户oi在当前状态st下的行为观察累计评估值P:
式(2)中,j表示用户oi在观察间隔天数T1内,第j天登陆多agent主动推荐系统,γj表示时间折扣函数,并有:
式(3)中,β表示时间衰减因子;时间衰减因子β起着控制时间衰减大小的作用,其值越小,时间衰减影响越小,j越大,时间折扣函数γj越小,本实施例中,时间衰减因子β取0.1-0.2;如果在观察间隔天数T1内该用户没有登陆行为,则将观察间隔扩大为2T1,3T1…nT1,直到终止时刻。
式(2)中,fj(oi,M)为第j天用户oi登陆多agent主动推荐系统行为的观察评估函数,并有:
fj(oi,M)=fj(oi,a)-fj(oi,b) (4)
式(4)中,fj(oi,a)表示第j天用户oi在当前状态st对推荐信息子集a点击行为的观察评估值,a={a1,a2......an},并有:
式(5)中,n表示为在当前状态st下多agent主动推荐系统向用户oi推荐推荐信息子集a的总条数,ky为用户oi第j天对第y条推荐信息ay的点击次数,y∈[1,n];
式(4)中,b为非推荐信息子集,即用户oi在当前状态st对推荐信息子集a以外的所点击信息的集合, 表示推荐信息子集a在推荐信息全集M的补集,fj(oi,b)表示用户oi第j天对非推荐信息子集b点击行为的观察评估值,b={b1,b2......bm},并有:
式(6)中,m表示用户oi第j天点击非推荐信息子集b的总条数,zx为用户oi第j天对第x条非推荐信息bx的点击次数,x∈[1,m];
4.3、根据所述奖惩判断条件更新所述奖惩因子r,奖惩判断条件为:
当用户oi对推荐信息ay产生购买行为,则奖惩因子r=1;
当用户oi对非推荐信息bx产生购买行为,则奖惩因子r=-1;
当用户oi未产生任何购买行为,则奖惩因子r=0;
4.4、利用式(7)计算下一状态st+1的强化因子Qt+1:
Qt+1(oi,M)=(1-α)Qt(oi,M)+α[r+P] (7)
式(7)中,学习率α∈(0,1),α值的大小控制用户的反馈行为对下一状态st+1的强化因子Qt+1影响程度,本实施例中,学习率α取0.6到0.8之间
4.5、更新所述推荐历史库,即将下一状态st+1的强化因子Qt+1、推荐信息子集a和非推荐信息子集b存入所述推荐历史库中,形成推荐历史记录;
4.6、决策agent根据式(8)选择下一状态st+1的推荐方向:
ΔQ=Qt+1(oi,M)-Qt(oi,M) (8)
式(8)中,ΔQ为强化因子增量,在推荐系统中作为控制量输入给决策agent,并形成控制-用户反馈的闭环系统。如图2所示,本发明中引入的Q学习起到自控系统的闭环反馈作用,使得主控器决策agent根据反馈信息的方向和强度,变动控制器输出,从而保证推荐系统输出的正确和快速响应。当ΔQ≥0时,选择与当前状态st下的推荐信息子集a的相同方向为下一状态st+1的推荐方向;即按照推荐信息子集a的方向进行推荐,否则,按当前状态st获得的非推荐信息子集b方向改变推荐方向;
步骤5、推荐动作执行
决策agent根据步骤4.6所获得的推荐方向与所述市场agent或知识agent进行通信,更新所述推荐信息子集a,并执行向用户oi输出更新后的推荐信息子集a的推荐动作,同时将推荐信息子集a更新到推荐历史库中。在本发明中,系统不断认知用户属性和观察用户对推荐的反馈,再通过引入Q强化学习依据前后时刻Q值变化(即ΔQ)所指示的推荐方向,从可推荐信息集合M中提取信息进行推荐,实现其迭代与更新的过程如图3所示。
步骤6、状态转换
执行步骤5的推荐动作后,多agent主动推荐系统由下一状态st+1转换为当前状态st,并将下一状态st+1的强化因子Qt+1的值赋给当前强化因子Qt;
步骤7、迭代与更新
重复步骤4,步骤5,步骤6直到满足终止条件为止,终止条件为:
到终止时刻T2内,决策agent与认知agent进行通信,获取用户oi在当前状态st下的属性集合hi中无用户反馈行为,即用户oi没有登陆行为,或市场agent或知识agent对该推荐方向的内容为空,即已无推荐信息可用。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (1)
1.一种用于农资电子商务的基于Q学习的多agent主动推荐方法,其特征在于,包括如下步骤:
步骤1、构建多agent主动推荐系统
将多agent主动推荐系统描述为四元组S=(O,H,M,Agt),所述四元组S中,O为用户集合,所述用户集合O={o1,o2,...oi};oi为第i个用户;H为用户属性集合,所述用户属性集合H={h1,h2,...hi},hi为用户oi的属性集合,所述用户oi的属性集合hi包括用户个性化信息和用户反馈行为信息;M为推荐信息全集;Agt为多智能体集合,所述多智能体集合Agt={agent1,agent2,agent3,agent4};agent1为认知agent,agent2为市场agent,agent3为知识agent,agent4为决策agent;
步骤2、状态定义
定义系统状态集s={s0,st,st+1},s0为初始状态,表示系统初始时刻对用户登陆行为的观察状态;st为当前状态,表示系统t时刻对用户登陆行为的观察状态;st+1为下一状态,表示系统在t+1时刻对用户登陆行为的观察状态;
步骤3、初始化
3.1、初始化Q学习中的参数,所述参数包括学习率α、奖惩因子r、时间衰减因子β、当前强化因子Qt、终止时刻T2、观察间隔天数T1;
3.2、所述决策agent通过与所述认知agent进行通信获得用户oi在初始状态s0下的属性集合hi并存入用户个性化信息库和用户行为库;
3.3、所述决策agent根据所述用户个性化信息与所述市场agent和知识agent进行通信,从所述推荐信息全集M中提取推荐信息子集a推荐给用户oi,并将所述推荐信息子集a存入推荐历史库中;
3.4所述多agent主动推荐系统由初始状态s0转换为当前状态st;
步骤4、Q学习计算与推荐方向选择
4.1、所述决策agent通过与所述认知agent进行通信获得用户oi在当前状态st下的属性集合hi并更新所述用户个性化信息库和用户行为库;
4.2、利用式(2)获得用户oi在当前状态st下的观察累计评估值P:
式(2)中,j表示用户oi在观察间隔天数T1内第j天登陆所述多agent主动推荐系
统,γj表示时间折扣函数并有:
式(2)中,fj(oi,M)表示在第j天用户oi登陆所述多agent主动推荐系统行为的观察评估函数,并有:
fj(oi,M)=fj(oi,a)-fj(oi,b) (4)
式(4)中,fj(oi,a)表示在第j天用户oi在当前状态st对所述推荐信息子集a点击行为的观察评估值,a={a1,a2......an},并有:
式(5)中,n表示所述多agent主动推荐系统在当前状态st向用户oi推荐所述推荐信息子集a的总条数,ky为用户oi在第j天对第y条推荐信息ay的点击次数,y∈[1,n];
式(4)中,b为非推荐信息子集,表示用户oi在当前状态st对推荐信息子集a以外的所有点击信息的集合, 表示推荐信息子集a在推荐信息全集M的补集,fj(oi,b)表示用户oi第j天对非推荐信息子集b点击行为的观察评估值,b={b1,b2......bm},并有:
式(6)中,m表示用户oi第j天点击非推荐信息子集b的总条数,zx为用户oi第j天对第x条非推荐信息bx的点击次数,x∈[1,m];
4.3、根据所述奖惩判断条件更新所述奖惩因子r,所述奖惩判断条件为:
当用户oi对推荐信息ay产生购买行为,则奖惩因子r=1;
当用户oi对非推荐信息bx产生购买行为,则奖惩因子r=-1;
当用户oi未产生任何购买行为,则奖惩因子r=0;
4.4、利用式(7)获得下一状态st+1的强化因子Qt+1:
Qt+1(oi,M)=(1-α)Qt(oi,M)+α[r+P] (7)
式(7)中,学习率α∈(0,1);
4.5、更新所述推荐历史库,即将所述下一状态st+1的强化因子Qt+1、推荐信息子集a和非推荐信息子集b存入所述推荐历史库中,形成推荐历史记录;
4.6、所述决策agent根据式(8)选择下一状态st+1的推荐方向:
ΔQ=Qt+1(oi,M)-Qt(oi,M) (8)
式(8)中,ΔQ为强化因子增量,当ΔQ≥0时,选择与当前状态st下的推荐信息子集a的相同方向为下一状态st+1的推荐方向;否则,按当前状态st获得的非推荐信息子集b的方向为推荐方向;
步骤5、推荐动作执行
所述决策agent根据步骤4.6所获得的推荐方向与所述市场agent或知识agent进行通信,更新所述推荐信息子集a,并执行向用户oi输出更新后的推荐信息子集a的推荐动作,同时将所述推荐信息子集a更新到推荐历史库中;
步骤6、状态转换
所述多agent主动推荐系统由下一状态st+1转换为当前状态st,并将下一状态st+1的强化因子Qt+1的值赋给当前强化因子Qt;
步骤7、迭代与更新
重复步骤4,步骤5和步骤6直到满足终止条件为止,所述终止条件为:
到终止时刻T2内,决策agent与认知agent进行通信,获取用户oi在当前状态st的属性集合hi中无用户反馈行为,即用户oi没有登陆行为,或市场agent或知识agent对所述该推荐方向的内容为空。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410153650.XA CN103914560B (zh) | 2014-04-16 | 2014-04-16 | 一种用于农资电子商务的基于Q学习的多agent主动推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410153650.XA CN103914560B (zh) | 2014-04-16 | 2014-04-16 | 一种用于农资电子商务的基于Q学习的多agent主动推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103914560A true CN103914560A (zh) | 2014-07-09 |
CN103914560B CN103914560B (zh) | 2017-01-18 |
Family
ID=51040240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410153650.XA Active CN103914560B (zh) | 2014-04-16 | 2014-04-16 | 一种用于农资电子商务的基于Q学习的多agent主动推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103914560B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133838A (zh) * | 2017-03-22 | 2017-09-05 | 无锡中科富农物联科技有限公司 | 一种基于知识的农资商品推荐方法 |
CN107145506A (zh) * | 2017-03-22 | 2017-09-08 | 无锡中科富农物联科技有限公司 | 一种改进基于内容的农资商品推荐方法 |
CN107516226A (zh) * | 2016-06-15 | 2017-12-26 | 苏州宝时得电动工具有限公司 | 一种智能割草机筛选方法及装置 |
CN108604314A (zh) * | 2015-12-01 | 2018-09-28 | 渊慧科技有限公司 | 使用强化学习选择动作名单 |
CN108876562A (zh) * | 2018-08-02 | 2018-11-23 | 浙江中农在线电子商务有限公司 | 农资电商平台的商品推荐方法及装置 |
CN111176350A (zh) * | 2018-11-13 | 2020-05-19 | 财团法人资讯工业策进会 | 产量控制系统、方法及其非暂态计算机可读取媒体 |
US11481267B2 (en) | 2020-05-28 | 2022-10-25 | International Business Machines Corporation | Reinforcement learning approach to root cause analysis |
CN116362426A (zh) * | 2023-06-01 | 2023-06-30 | 贵州开放大学(贵州职业技术学院) | 基于人工智能和深度学习的学习行为预测管理系统和方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5608843A (en) * | 1994-08-01 | 1997-03-04 | The United States Of America As Represented By The Secretary Of The Air Force | Learning controller with advantage updating algorithm |
WO2001078951A1 (en) * | 2000-04-13 | 2001-10-25 | Zhimin Lin | Semi-optimal path finding in a wholly unknown environment |
CN102207928A (zh) * | 2011-06-02 | 2011-10-05 | 河海大学常州校区 | 基于强化学习的多Agent污水处理决策支持系统 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN102868972A (zh) * | 2012-09-05 | 2013-01-09 | 河海大学常州校区 | 基于改进q学习算法的物联网错误传感器节点定位方法 |
-
2014
- 2014-04-16 CN CN201410153650.XA patent/CN103914560B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5608843A (en) * | 1994-08-01 | 1997-03-04 | The United States Of America As Represented By The Secretary Of The Air Force | Learning controller with advantage updating algorithm |
WO2001078951A1 (en) * | 2000-04-13 | 2001-10-25 | Zhimin Lin | Semi-optimal path finding in a wholly unknown environment |
CN102207928A (zh) * | 2011-06-02 | 2011-10-05 | 河海大学常州校区 | 基于强化学习的多Agent污水处理决策支持系统 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN102868972A (zh) * | 2012-09-05 | 2013-01-09 | 河海大学常州校区 | 基于改进q学习算法的物联网错误传感器节点定位方法 |
Non-Patent Citations (3)
Title |
---|
战忠丽 等: "多Agent系统中Q学习算法研究", 《辽宁农业职业技术学院学报》 * |
虞靖靓: "基于Q学习的Agent智能决策的研究与实现", 《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》 * |
许培 等: "基于Q-learning的一种多Agent系统结构模型", 《计算机与数字工程》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108604314A (zh) * | 2015-12-01 | 2018-09-28 | 渊慧科技有限公司 | 使用强化学习选择动作名单 |
CN108604314B (zh) * | 2015-12-01 | 2022-08-19 | 渊慧科技有限公司 | 使用强化学习选择动作名单 |
CN107516226A (zh) * | 2016-06-15 | 2017-12-26 | 苏州宝时得电动工具有限公司 | 一种智能割草机筛选方法及装置 |
CN107133838A (zh) * | 2017-03-22 | 2017-09-05 | 无锡中科富农物联科技有限公司 | 一种基于知识的农资商品推荐方法 |
CN107145506A (zh) * | 2017-03-22 | 2017-09-08 | 无锡中科富农物联科技有限公司 | 一种改进基于内容的农资商品推荐方法 |
CN107145506B (zh) * | 2017-03-22 | 2020-11-06 | 无锡中科富农物联科技有限公司 | 一种改进基于内容的农资商品推荐方法 |
CN108876562A (zh) * | 2018-08-02 | 2018-11-23 | 浙江中农在线电子商务有限公司 | 农资电商平台的商品推荐方法及装置 |
CN111176350A (zh) * | 2018-11-13 | 2020-05-19 | 财团法人资讯工业策进会 | 产量控制系统、方法及其非暂态计算机可读取媒体 |
US11481267B2 (en) | 2020-05-28 | 2022-10-25 | International Business Machines Corporation | Reinforcement learning approach to root cause analysis |
CN116362426A (zh) * | 2023-06-01 | 2023-06-30 | 贵州开放大学(贵州职业技术学院) | 基于人工智能和深度学习的学习行为预测管理系统和方法 |
CN116362426B (zh) * | 2023-06-01 | 2023-08-11 | 贵州开放大学(贵州职业技术学院) | 基于人工智能和深度学习的学习行为预测管理系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103914560B (zh) | 2017-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103914560A (zh) | 一种用于农资电子商务的基于Q学习的多agent主动推荐方法 | |
Kalimuthu et al. | Crop prediction using machine learning | |
Pant et al. | Analysis of agricultural crop yield prediction using statistical techniques of machine learning | |
Reshma et al. | IoT based classification techniques for soil content analysis and crop yield prediction | |
Alibabaei et al. | Irrigation optimization with a deep reinforcement learning model: Case study on a site in Portugal | |
Sagar et al. | Agriculture data analytics in crop yield estimation: a critical review | |
De Alwis et al. | Duo attention with deep learning on tomato yield prediction and factor interpretation | |
Lad et al. | Factors affecting agriculture and estimation of crop yield using supervised learning algorithms | |
Samuel et al. | Crop price prediction system using machine learning algorithms | |
CN117575094B (zh) | 一种基于数字孪生的农作物产量预测与优化方法及设备 | |
CN105184400A (zh) | 一种烟田土壤水分预测方法 | |
Nandanwar et al. | A survey of application of ML and data mining techniques for smart irrigation system | |
Li | Prospects of artificial intelligence applications in future agriculture | |
Caramihai et al. | Agricultural enterprise as a complex system: A cyber physical systems approach | |
CN116776290A (zh) | 一种烟草大数据模型构建方法 | |
Jadhav et al. | Farming made easy using machine learning | |
Gowd et al. | A Novel Based Crop Prediction using Machine Learning and Internet of Things | |
Mohamed et al. | Overcoming Challenges and Achieving Sustainability of Potato Production through A Real-time Digital Knowledge-based System. | |
Tayde et al. | Applying data mining technique to predict annual yield of major crops | |
Narmadha et al. | A fuzzy-based framework for an agriculture recommender system using membership function | |
Li et al. | Optimized deep neural network and its application in fine sowing of crops | |
Shreyas et al. | Effective crop prediction considering water and moisture needs using machine learning techniques | |
Nandaraj et al. | A machine learning approach for predicting crop seasonal yield and cost for smart agriculture | |
Jinger et al. | Maize Yield Prediction Considering Growth Stages using Fuzzy Logic Modelling | |
Kurnia et al. | Food independence determinant (Rice) In Supporting The Availability Of National Rice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |