CN103914560B - 一种用于农资电子商务的基于Q学习的多agent主动推荐方法 - Google Patents

一种用于农资电子商务的基于Q学习的多agent主动推荐方法 Download PDF

Info

Publication number
CN103914560B
CN103914560B CN201410153650.XA CN201410153650A CN103914560B CN 103914560 B CN103914560 B CN 103914560B CN 201410153650 A CN201410153650 A CN 201410153650A CN 103914560 B CN103914560 B CN 103914560B
Authority
CN
China
Prior art keywords
user
agent
recommendation
information
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410153650.XA
Other languages
English (en)
Other versions
CN103914560A (zh
Inventor
方薇
王儒敬
徐玲玲
李娇娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN201410153650.XA priority Critical patent/CN103914560B/zh
Publication of CN103914560A publication Critical patent/CN103914560A/zh
Application granted granted Critical
Publication of CN103914560B publication Critical patent/CN103914560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Husbandry (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Agronomy & Crop Science (AREA)
  • Finance (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于农资电子商务的基于Q学习的多agent主动推荐方法,其特征在于,包括如下步骤:1构建多agent主动推荐系统;2状态定义;3初始化;4 Q学习计算与推荐方向选择;5推荐动作执行;6状态转换;7迭代与更新,直到满足终止条件为止。本发明有利于在大规模数据环境下消减信息过载带来的消费盲区,实现对海量信息的筛选和快速定位。

Description

一种用于农资电子商务的基于Q学习的多agent主动推荐方法
技术领域
本发明涉及一种Q强化学习算法的多agent主动推荐方法应用到农资商品电子商务中,是智能决策在电子商务中的一种应用,属于人工智能、自动控制技术领域。
背景技术
农业生产资料主要包括化肥、农药、农膜、种子、饲料、农机具等几大类商品,是重要的农业生产要素,其中种子、化肥、农药等农资作为农业关键生产材料,直接关系农产品的产量与质量,对于保障农业生产,增加农民收入,维护国家粮食安全都有着特别重要的意义。
由于农资商品需求具有季节性强;品种、品牌繁多;地域性广且分散等行业特殊属性,目前农资经营流通模式已不能适应现代农业生产的要求。又由于农资商品与农业种植密切相关,配套性、技术性强,因此,农资商品在实施电子商务过程中,必须区分与普通商品电子商务的消费模式不同,前者是生产型消费,以农业生产需要驱动消费,后者是生活型消费,以个人生活需求或兴趣习惯驱动消费。
用户主动推荐技术是应对互联网信息过载的产物。目前常规电子商务和资讯类网站多数面向用户物质或精神生活消费需求,其推荐依据用户之间的兴趣、爱好和习惯。常见的推荐方法为基于社会化的推荐和基于协同过滤的推荐,均以用户在社交网络中的交互行为及其共同爱好出发,采用图或相似度计算模型实现用户主动推荐。显然,这些推荐方法本质上由顾客生活消费行为而驱动,无法应用到以生产需求为驱动的农资电子商务领域的主动推荐系统中。同时,在大规模数据集上,为维持用户以及兴趣无规则的迁移,这类推荐算法会带来巨大存储和运算开销,一定程度上影响系统对用户的响应速度。
发明内容
本发明为克服现有技术的不足之处,提出一种用于农资电子商务的基于Q学习的多agent主动推荐方法,有利于在大规模数据环境下消减信息过载带来的消费盲区,实现对海量信息的筛选和快速定位。
本发明为解决技术问题采用如下技术方案:
本发明一种用于农资电子商务的基于Q学习的多agent主动推荐方法的特点包括如下步骤:
步骤1、构建多agent主动推荐系统
将多agent主动推荐系统描述为四元组S=(O,H,M,Agt),所述四元组S中,O为用户集合,所述用户集合O={o1,o2,...oi};oi为第i个用户;H为用户属性集合,所述用户属性集合H={h1,h2,...hi},hi为用户oi的属性集合,所述用户oi的属性集合hi包括用户个性化信息和用户反馈行为信息;M为推荐信息全集;Agt为多智能体集合,所述多智能体集合Agt={agent1,agent2,agent3,agent4};agent1为认知agent,agent2为市场agent,agent3为知识agent,agent4为决策agent;
步骤2、状态定义
定义系统状态集s={s0,st,st+1},s0为初始状态,表示系统初始时刻对用户登陆行为的观察状态;st为当前状态,表示系统t时刻对用户登陆行为的观察状态;st+1为下一状态,表示系统在t+1时刻对用户登陆行为的观察状态;
步骤3、初始化
3.1、初始化Q学习中的参数,所述参数包括学习率α、奖惩因子r、时间衰减因子β、当前强化因子Qt、终止时刻T2、观察间隔天数T1
3.2、所述决策agent通过与所述认知agent进行通信获得用户oi在初始状态s0下的属性集合hi并存入用户个性化信息库和用户行为库;
3.3、所述决策agent根据所述用户个性化信息与所述市场agent和知识agent进行通信,从所述推荐信息全集M中提取推荐信息子集a推荐给用户oi并将所述推荐信息子集a存入推荐历史库中;
3.4所述多agent主动推荐系统由初始状态s0转换为当前状态st
步骤4、Q学习计算与推荐方向选择
4.1、所述决策agent通过与所述认知agent进行通信获得用户oi在当前状态st下的属性集合hi并更新所述用户个性化信息库和用户行为库;
4.2、利用式(2)获得用户oi在当前状态st下的观察累计评估值P:
P = Σ j = 1 T 1 γ j f j ( o i , M ) - - - ( 2 )
式(2)中,j表示用户oi在观察间隔天数T1内第j天登陆所述多agent主动推荐系统,γj表示时间折扣函数并有:
γ j = 1 1 + β × j - - - ( 3 )
式(2)中,fj(oi,M)表示在第j天用户oi登陆所述多agent主动推荐系统行为的观察评估函数,并有:
fj(oi,M)=fj(oi,a)-fj(oi,b) (4)
式(4)中,fj(oi,a)表示在第j天用户oi在当前状态st对所述推荐信息子集a点击行为的观察评估值,a={a1,a2......an},并有:
f j ( o i , a ) = l × k 1 k 2 . . . k y . . . k n - - - ( 5 )
式(5)中,n表示所述多agent主动推荐系统在当前状态st向用户oi推荐所述推荐信息子集a的总条数,ky为用户oi在第j天对第y条推荐信息ay的点击次数,y∈[1,n];
式(4)中,b为非推荐信息子集,表示用户oi在当前状态st对推荐信息子集a以外的所有点击信息的集合, 表示推荐信息子集a在推荐信息全集M的补集,fj(oi,b)表示用户oi第j天对非推荐信息子集b点击行为的观察评估值,b={b1,b2......bm},并有:
f j ( o i , b ) = g × z 1 z 2 . . . z x . . . z m - - - ( 6 )
式(6)中,m表示用户oi第j天点击非推荐信息子集b的总条数,zx为用户oi第j天对第x条非推荐信息bx的点击次数,x∈[1,m];
4.3、根据所述奖惩判断条件更新所述奖惩因子r,所述奖惩判断条件为:
当用户oi对推荐信息ay产生购买行为,则奖惩因子r=1;
当用户oi对非推荐信息bx产生购买行为,则奖惩因子r=-1;
当用户oi未产生任何购买行为,则奖惩因子r=0;
4.4、利用式(7)获得下一状态st+1的强化因子Qt+1
Qt+1(oi,M)=(1-α)Qt(oi,M)+α[r+P] (7)
式(7)中,学习率α∈(0,1);
4.5、更新所述推荐历史库,即将所述下一状态st+1的强化因子Qt+1、推荐信息子集a和非推荐信息子集b存入所述推荐历史库中,形成推荐历史记录;
4.6、所述决策agent根据式(8)选择下一状态st+1的推荐方向:
ΔQ=Qt+1(oi,M)-Qt(oi,M) (8)
式(8)中,ΔQ为强化因子增量,当ΔQ≥0时,选择与当前状态st下的推荐信息子集a的相同方向为下一状态st+1的推荐方向;否则,按当前状态st获得的非推荐信息子集b的方向为推荐方向;
步骤5、推荐动作执行
所述决策agent根据步骤4.6所获得的推荐方向与所述市场agent或知识agent进行通信,更新所述推荐信息子集a,并执行向用户oi输出更新后的推荐信息子集a的推荐动作,同时将所述推荐信息子集a更新到推荐历史库中;
步骤6、状态转换
所述多agent主动推荐系统由下一状态st+1转换为当前状态st,并将下一状态st+1的强化因子Qt+1的值赋给当前强化因子Qt
步骤7、迭代与更新
重复步骤4,步骤5和步骤6直到满足终止条件为止,所述终止条件为:
到终止时刻T2内,决策agent与认知agent进行通信,获取用户oi在当前状态st的属性集合hi中无用户反馈行为,即用户oi没有登陆行为,或市场agent或知识agent对所述该推荐方向的内容为空。
与已有技术相比,本发明的有益效果包括以下内容:
1、本发明首次将原本用于连续过程自动控制的Q学习引入到农资电子商务领域,通过建立一个四元组agent实现主动推荐系统的架构和内部多agent间的相互协调与控制。其中,认知agent获取消费者的个性化信息以及反馈行为信息,起到传感器的作用,市场和知识agent提供具有层次本体结构的农资产品和技术支持知识,起到辅助控制器作用;决策agent根据认知agent的信息属性和强化学习结果,将市场和知识相关内容提取输出推荐,从而实现个性化推荐,起着系统中主控制器的作用。
2、本发明有利于解决农资电子商务中商家与顾客的自动协商问题;一方面认知agent将用户属性及时传给决策agent,另一方面通过强化学习决策agent获得前一次推荐信息与用户需求之间的差异,由此实现下一步的最优推荐抉择,从而为用户提供更好的推荐窗口。该方法的推荐计算量只与农资商品隶属递归关系树深度和用户历史数据库有关,与用户的社会网络无关,因而具有节省存储规模和运算开销的优点。
3、本发明中引入了Q学习方法来增强和改进个性化推荐的方向和内容,Q学习在上述主动推荐系统中起到了反馈作用,它使得决策agent能根据反馈信息的方向(ΔQ正负)和强弱(ΔQ大小)调整主控制器的输出方向和内容,从而保证系统输出信息的适应性和对用户的快速响应性。
4、本发明在Q学习计算(式7)中定义了观察累计评估值P(式2),观察累计评估值P用来评估用户在观察间隔天数T1内对主控制器输出响应程度的时间累计值;通过引入时间折扣因子(式3)模拟系统响应用户行为的时间特性,使用户的反馈效应随时间非线性地减退,越早的用户响应对观察累计评估值的贡献越大,同时,观察间隔天数T1的设定还能控制推荐频率,减少过度推荐为用户带来的困扰。
附图说明
图1为本发明多agent的协调机制示意图;
图2为本发明推荐系统作为自动控制闭环系统的解释原理图;
图3为本发明引入ΔQ学习计算和更新的过程图。
具体实施方式
结合附图对本发明作进一步描述,以下实施例仅用于更加清楚地说明本发明的技术方案,不能以此来限制本发明的保护范围。
在本实施例中,一种用于农资电子商务的基于Q学习的多agent主动推荐方法是基于具备在线交易功能的农资电子商务系统。农资电子商务系统是一个具备交易功能的农资行业的垂直型在线营销系统,由于农业领域知识资源丰富且快速增长,用户需求具有多样性、区域性与时变性的特点,因此主动推荐作为农资电子商务系统中的一个重要用户体验功能,能更为精确地向不同类型用户提供个性化推荐包括农资产品、农业知识和市场信息的服务。
一种用于农资电子商务的基于Q学习的多agent主动推荐方法实现步骤如下:
步骤1、构建多agent主动推荐系统;
在本实施例中,将所构建的推荐系统中的推荐-用户反馈-再推荐的过程视为一个延迟的离散慢系统;因此将多agent主动推荐系统描述为一个自控系统,该自控系统由主控器,辅控制器以及传感器构成,具体用一个四元组S=(O,H,M,Agt)表示,四元组S中,O为用户集合,用户集合O={o1,o2,...oi};i为用户的个数,oi为第i个用户;H为用户属性集合,用户属性集合H={h1,h2,...hi},hi为用户oi的属性集合,用户oi的属性集合hi包括用户个性化信息和反馈行为信息。本实施例中,用户个性化信息包括用户初始注册所填写的所在地域、土地规模、种植作物和年平均产值;反馈行为包括系统用户的登陆次数、登陆时间、点击对象(点击对象包括系统范围所有页面上的信息和商品)、点击对象的个数、点击对象的次数、购买商品的行为以及反馈行为产生时间。M为推荐信息全集,本实施例中,推荐信息包含了推荐方向和推荐内容,推荐内容包括商品基础信息、商品的农技知识信息和商品的市场信息,商品基础信息指农资商品名称、型号、成分和用途,商品的农技知识信息包括农资商品使用知识信息、存储保管信息、相关种植技术知识信息、病虫害防治知识信息,商品的市场信息指农资商品的市场供需比例分布信息和价格走势信息;推荐方向是指按照农资商品本体库和农技知识库建立自上而下的农资商品隶属递归关系树,树结构的父层(主目录)相对于子层(子目录)称为推荐方向,子层(子目录)相对于父层(主目录)称为推荐内容。Agt为多智能体集合,多智能体集合Agt={agent1,agent2,agent3,agent4};agent1为认知agent,在系统中起着传感器作用,用来获取消费者的个性化信息(时空、环境、生产对象等)及行为。agent2为市场agent,本实施例中,市场agent2为推荐系统提供商品的市场信息,获取的信息来源为商品基础信息库、搜索引擎库;agent3为知识agent,本实施例中,知识agent3为推荐系统提供商品的农技、病虫害知识信息,获取的信息来源主要由商品本体库和农技知识库提供;由此,推荐信息全集M通过agent2和agent3获取。其中,市场和知识agent在系统中起到辅控制器的作用。agent4为决策agent,本实施例中,决策agent4是系统的主控器,用于与其他agent通信、协调、强化学习以及推荐方向的选择;从而建立如图1所示的多agent之间的协调机制。
步骤2、将Q学习与所述多智能体集合Agt结合,定义系统状态集s={s0,st,st+1},s0为初始状态,表示系统初始时刻对用户登陆行为的观察状态;在本实施例中,表示多agent主动推荐系统对用户oi初始登陆的行为观察,st为当前状态,表示系统t时刻对用户登陆行为的观察状态;在本实施例中,st表示多agent主动推荐系统对用户oi从t时刻起到观察间隔天数T1内登陆时点击推荐信息全集M的累计行为观察;st+1为下一状态,表示系统在t+1时刻对用户登陆行为的观察状态;在本实施例中,st+1表示多agent主动推荐系统对用户oi从t+1时刻起到观察间隔天数T1内登陆时点击推荐信息全集M的累计行为观察;
步骤3、初始化
3.1、初始化Q学习中的参数,参数包括学习率α、奖惩因子r、时间衰减因子β、当前强化因子Qt,终止时刻T2,在本实施例中,T2=20。观察间隔天数T1,T1取决于推荐周期的长短,在本实施例中,T1∈[1,5]。
3.2、决策agent通过与认知agent进行通信获得用户oi在初始状态s0下的属性集合hi并存入用户个性化信息库和用户行为库;
3.3、决策agent根据所述用户个性化信息与市场agent和知识agent进行通信,从推荐信息全集M中提取推荐信息子集a推荐给用户oi,其中并将推荐信息子集a存入推荐历史库中,推荐历史库是指存储向某一用户oi推荐内容的历史记录。在本实施例中,初始化提取推荐信息的方法是:根据用户初始个性信息,通过农资商品本体库和农资技术知识库,确定初始推荐方向,依照推荐方向选择提取商品信息、市场信息和农技知识信息。
3.4、执行步骤3.3推荐动作后,多agent主动推荐系统由初始状态s0转换为当前状态st
步骤4、Q学习计算与推荐方向选择
4.1、决策agent通过与认知agent进行通信获得用户oi在当前状态st下的属性集合hi并更新用户信息库和用户行为库;
4.2、根据用户oi的属性集合hi利用式(2)获得用户oi在当前状态st下的行为观察累计评估值P:
P = Σ j = 1 T 1 γ j f j ( o i , M ) - - - ( 2 )
式(2)中,j表示用户oi在观察间隔天数T1内,第j天登陆多agent主动推荐系统,γj表示时间折扣函数,并有:
γ j = 1 1 + β × j - - - ( 3 )
式(3)中,β表示时间衰减因子;时间衰减因子β起着控制时间衰减大小的作用,其值越小,时间衰减影响越小,j越大,时间折扣函数γj越小,本实施例中,时间衰减因子β取0.1-0.2;如果在观察间隔天数T1内该用户没有登陆行为,则将观察间隔扩大为2T1,3T1…nT1,直到终止时刻。
式(2)中,fj(oi,M)为第j天用户oi登陆多agent主动推荐系统行为的观察评估函数,并有:
fj(oi,M)=fj(oi,a)-fj(oi,b) (4)
式(4)中,fj(oi,a)表示第j天用户oi在当前状态st对推荐信息子集a点击行为的观察评估值,a={a1,a2......an},并有:
f j ( o i , a ) = l × k 1 k 2 . . . k y . . . k n - - - ( 5 )
式(5)中,n表示为在当前状态st下多agent主动推荐系统向用户oi推荐推荐信息子集a的总条数,ky为用户oi第j天对第y条推荐信息ay的点击次数,y∈[1,n];
式(4)中,b为非推荐信息子集,即用户oi在当前状态st对推荐信息子集a以外的所点击信息的集合, 表示推荐信息子集a在推荐信息全集M的补集,fj(oi,b)表示用户oi第j天对非推荐信息子集b点击行为的观察评估值,b={b1,b2......bm},并有:
f j ( o i , b ) = g × z 1 z 2 . . . z x . . . z m - - - ( 6 )
式(6)中,m表示用户oi第j天点击非推荐信息子集b的总条数,zx为用户oi第j天对第x条非推荐信息bx的点击次数,x∈[1,m];
4.3、根据所述奖惩判断条件更新所述奖惩因子r,奖惩判断条件为:
当用户oi对推荐信息ay产生购买行为,则奖惩因子r=1;
当用户oi对非推荐信息bx产生购买行为,则奖惩因子r=-1;
当用户oi未产生任何购买行为,则奖惩因子r=0;
4.4、利用式(7)计算下一状态st+1的强化因子Qt+1
Qt+1(oi,M)=(1-α)Qt(oi,M)+α[r+P] (7)
式(7)中,学习率α∈(0,1),α值的大小控制用户的反馈行为对下一状态st+1的强化因子Qt+1影响程度,本实施例中,学习率α取0.6到0.8之间
4.5、更新所述推荐历史库,即将下一状态st+1的强化因子Qt+1、推荐信息子集a和非推荐信息子集b存入所述推荐历史库中,形成推荐历史记录;
4.6、决策agent根据式(8)选择下一状态st+1的推荐方向:
ΔQ=Qt+1(oi,M)-Qt(oi,M) (8)
式(8)中,ΔQ为强化因子增量,在推荐系统中作为控制量输入给决策agent,并形成控制-用户反馈的闭环系统。如图2所示,本发明中引入的Q学习起到自控系统的闭环反馈作用,使得主控器决策agent根据反馈信息的方向和强度,变动控制器输出,从而保证推荐系统输出的正确和快速响应。当ΔQ≥0时,选择与当前状态st下的推荐信息子集a的相同方向为下一状态st+1的推荐方向;即按照推荐信息子集a的方向进行推荐,否则,按当前状态st获得的非推荐信息子集b方向改变推荐方向;
步骤5、推荐动作执行
决策agent根据步骤4.6所获得的推荐方向与所述市场agent或知识agent进行通信,更新所述推荐信息子集a,并执行向用户oi输出更新后的推荐信息子集a的推荐动作,同时将推荐信息子集a更新到推荐历史库中。在本发明中,系统不断认知用户属性和观察用户对推荐的反馈,再通过引入Q强化学习依据前后时刻Q值变化(即ΔQ)所指示的推荐方向,从可推荐信息集合M中提取信息进行推荐,实现其迭代与更新的过程如图3所示。
步骤6、状态转换
执行步骤5的推荐动作后,多agent主动推荐系统由下一状态st+1转换为当前状态st,并将下一状态st+1的强化因子Qt+1的值赋给当前强化因子Qt
步骤7、迭代与更新
重复步骤4,步骤5,步骤6直到满足终止条件为止,终止条件为:
到终止时刻T2内,决策agent与认知agent进行通信,获取用户oi在当前状态st下的属性集合hi中无用户反馈行为,即用户oi没有登陆行为,或市场agent或知识agent对该推荐方向的内容为空,即已无推荐信息可用。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (1)

1.一种用于农资电子商务的基于Q学习的多agent主动推荐方法,其特征在于,包括如下步骤:
步骤1、构建多agent主动推荐系统
将多agent主动推荐系统描述为四元组S=(O,H,M,Agt),所述四元组S中,O为用户集合,所述用户集合O={o1,o2,...oi};oi为第i个用户;H为用户属性集合,所述用户属性集合H={h1,h2,...hi},hi为用户oi的属性集合,所述用户oi的属性集合hi包括用户个性化信息和用户反馈行为信息;M为推荐信息全集;Agt为多智能体集合,所述多智能体集合Agt={agent1,agent2,agent3,agent4};agent1为认知agent,agent2为市场agent,agent3为知识agent,agent4为决策agent;
步骤2、状态定义
定义系统状态集s={s0,st,st+1},s0为初始状态,表示系统初始时刻对用户登陆行为的观察状态;st为当前状态,表示系统t时刻对用户登陆行为的观察状态;st+1为下一状态,表示系统在t+1时刻对用户登陆行为的观察状态;
步骤3、初始化
3.1、初始化Q学习中的参数,所述参数包括学习率α、奖惩因子r、时间衰减因子β、当前强化因子Qt、终止时刻T2、观察间隔天数T1
3.2、所述决策agent通过与所述认知agent进行通信获得用户oi在初始状态s0下的属性集合hi并存入用户个性化信息库和用户行为库;
3.3、所述决策agent根据所述用户个性化信息与所述市场agent和知识agent进行通信,从所述推荐信息全集M中提取推荐信息子集a推荐给用户oi并将所述推荐信息子集a存入推荐历史库中;
3.4所述多agent主动推荐系统由初始状态s0转换为当前状态st
步骤4、Q学习计算与推荐方向选择
4.1、所述决策agent通过与所述认知agent进行通信获得用户oi在当前状态st下的属性集合hi并更新所述用户个性化信息库和用户行为库;
4.2、利用式(2)获得用户oi在当前状态st下的观察累计评估值P:
P = Σ j = 1 T 1 γ j f j ( o i , M ) - - - ( 2 )
式(2)中,j表示用户oi在观察间隔天数T1内第j天登陆所述多agent主动推荐系统,γj表示时间折扣函数并有:
γ j = 1 1 + β × j - - - ( 3 )
式(2)中,fj(oi,M)表示在第j天用户oi登陆所述多agent主动推荐系统行为的观察评估函数,并有:
fj(oi,M)=fj(oi,a)-fj(oi,b) (4)
式(4)中,fj(oi,a)表示在第j天用户oi在当前状态st对所述推荐信息子集a点击行为的观察评估值,a={a1,a2......an},并有:
f j ( o i , a ) = l × k 1 k 2 ... k y ... k n - - - ( 5 )
式(5)中,n表示所述多agent主动推荐系统在当前状态st向用户oi推荐所述推荐信息子集a的总条数,ky为用户oi在第j天对第y条推荐信息ay的点击次数,y∈[1,n];
式(4)中,b为非推荐信息子集,表示用户oi在当前状态st对推荐信息子集a以外的所有点击信息的集合, 表示推荐信息子集a在推荐信息全集M的补集,fj(oi,b)表示用户oi第j天对非推荐信息子集b点击行为的观察评估值,b={b1,b2......bm},并有:
f j ( o i , b ) = g × z 1 z 2 ... z x ... z m - - - ( 6 )
式(6)中,m表示用户oi第j天点击非推荐信息子集b的总条数,zx为用户oi第j天对第x条非推荐信息bx的点击次数,x∈[1,m];
4.3、根据奖惩判断条件更新所述奖惩因子r,所述奖惩判断条件为:
当用户oi对推荐信息ay产生购买行为,则奖惩因子r=1;
当用户oi对非推荐信息bx产生购买行为,则奖惩因子r=-1;
当用户oi未产生任何购买行为,则奖惩因子r=0;
4.4、利用式(7)获得下一状态st+1的强化因子Qt+1
Qt+1(oi,M)=(1-α)Qt(oi,M)+α[r+P] (7)
式(7)中,学习率α∈(0,1);
4.5、更新所述推荐历史库,即将所述下一状态st+1的强化因子Qt+1、推荐信息子集a和非推荐信息子集b存入所述推荐历史库中,形成推荐历史记录;
4.6、所述决策agent根据式(8)选择下一状态st+1的推荐方向:
ΔQ=Qt+1(oi,M)-Qt(oi,M) (8)
式(8)中,ΔQ为强化因子增量,当ΔQ≥0时,选择与当前状态st下的推荐信息子集a的相同方向为下一状态st+1的推荐方向;否则,按当前状态st获得的非推荐信息子集b的方向为推荐方向;
步骤5、推荐动作执行
所述决策agent根据步骤4.6所获得的推荐方向与所述市场agent或知识agent进行通信,更新所述推荐信息子集a,并执行向用户oi输出更新后的推荐信息子集a的推荐动作,同时将所述推荐信息子集a更新到推荐历史库中;
步骤6、状态转换
所述多agent主动推荐系统由下一状态st+1转换为当前状态st,并将下一状态st+1的强化因子Qt+1的值赋给当前强化因子Qt
步骤7、迭代与更新
重复步骤4,步骤5和步骤6直到满足终止条件为止,所述终止条件为:
到终止时刻T2内,决策agent与认知agent进行通信,获取用户oi在当前状态st的属性集合hi中无用户反馈行为,即用户oi没有登陆行为,或市场agent或知识agent对所述该推荐方向的内容为空。
CN201410153650.XA 2014-04-16 2014-04-16 一种用于农资电子商务的基于Q学习的多agent主动推荐方法 Active CN103914560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410153650.XA CN103914560B (zh) 2014-04-16 2014-04-16 一种用于农资电子商务的基于Q学习的多agent主动推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410153650.XA CN103914560B (zh) 2014-04-16 2014-04-16 一种用于农资电子商务的基于Q学习的多agent主动推荐方法

Publications (2)

Publication Number Publication Date
CN103914560A CN103914560A (zh) 2014-07-09
CN103914560B true CN103914560B (zh) 2017-01-18

Family

ID=51040240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410153650.XA Active CN103914560B (zh) 2014-04-16 2014-04-16 一种用于农资电子商务的基于Q学习的多agent主动推荐方法

Country Status (1)

Country Link
CN (1) CN103914560B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108604314B (zh) * 2015-12-01 2022-08-19 渊慧科技有限公司 使用强化学习选择动作名单
CN107516226A (zh) * 2016-06-15 2017-12-26 苏州宝时得电动工具有限公司 一种智能割草机筛选方法及装置
CN107145506B (zh) * 2017-03-22 2020-11-06 无锡中科富农物联科技有限公司 一种改进基于内容的农资商品推荐方法
CN107133838A (zh) * 2017-03-22 2017-09-05 无锡中科富农物联科技有限公司 一种基于知识的农资商品推荐方法
CN108876562A (zh) * 2018-08-02 2018-11-23 浙江中农在线电子商务有限公司 农资电商平台的商品推荐方法及装置
TW202018545A (zh) * 2018-11-13 2020-05-16 財團法人資訊工業策進會 產量控制系統、方法及其非暫態電腦可讀取媒體
US11481267B2 (en) 2020-05-28 2022-10-25 International Business Machines Corporation Reinforcement learning approach to root cause analysis
CN116362426B (zh) * 2023-06-01 2023-08-11 贵州开放大学(贵州职业技术学院) 基于人工智能和深度学习的学习行为预测管理系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608843A (en) * 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
CN102207928A (zh) * 2011-06-02 2011-10-05 河海大学常州校区 基于强化学习的多Agent污水处理决策支持系统
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
CN102868972A (zh) * 2012-09-05 2013-01-09 河海大学常州校区 基于改进q学习算法的物联网错误传感器节点定位方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078951A1 (en) * 2000-04-13 2001-10-25 Zhimin Lin Semi-optimal path finding in a wholly unknown environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608843A (en) * 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
CN102207928A (zh) * 2011-06-02 2011-10-05 河海大学常州校区 基于强化学习的多Agent污水处理决策支持系统
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
CN102868972A (zh) * 2012-09-05 2013-01-09 河海大学常州校区 基于改进q学习算法的物联网错误传感器节点定位方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于Q-learning的一种多Agent系统结构模型;许培 等;《计算机与数字工程》;20110831;第39卷(第8期);第8-11页 *
基于Q学习的Agent智能决策的研究与实现;虞靖靓;《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》;20050915(第5期);第1-57页 *
多Agent系统中Q学习算法研究;战忠丽 等;《辽宁农业职业技术学院学报》;20080930;第10卷(第5期);第48-50页 *

Also Published As

Publication number Publication date
CN103914560A (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
CN103914560B (zh) 一种用于农资电子商务的基于Q学习的多agent主动推荐方法
Kalimuthu et al. Crop prediction using machine learning
CN101162384A (zh) 人工智能植物生长环境调控专家决策系统
De Alwis et al. Duo attention with deep learning on tomato yield prediction and factor interpretation
Pelak et al. A dynamical systems framework for crop models: Toward optimal fertilization and irrigation strategies under climatic variability
Rizkiana et al. Plant growth prediction model for lettuce (Lactuca sativa.) in plant factories using artificial neural network
Lad et al. Factors affecting agriculture and estimation of crop yield using supervised learning algorithms
Loomis et al. Integrative analyses of host-pathogen relations
Eskandari et al. Estimating quantity of date yield using soil properties by regression and artificial neural network
Chandak et al. Smart farming system using data mining
Sharpe et al. Spatial considerations in physiological models of tree growth
Jadhav et al. Farming made easy using machine learning
Li Prospects of artificial intelligence applications in future agriculture
Raimi et al. Leveraging precision agriculture for sustainable food security in sub-Saharan Africa: a theoretical discourse
Attari et al. Smart AgrIOT: A Machine learning and IOT based complete farming solution
Gowd et al. A Novel Based Crop Prediction using Machine Learning and Internet of Things
Waryanto et al. Analysis of farming efficiency and smart farming system development in supporting garlic self-sufficiency: A concept
Seligman Modelling as a tool for grassland science progress.
Fujimoto et al. A Lifecycle-Based Design Methodology of the Lightweight Ontology and Its Application to Cultivating High Quality Mandarin Orange
RAORANE et al. Crop yield forecasting using machine learning
Monika et al. Crop Fertilizer Prediction using Regression analysis and Machine Learning algorithms
Cheviron et al. The Optirrig model for the generation, analysis and optimization of irrigation scenarios: rationale and scopes
Thakur et al. Design of decision model for sensitive crop irrigation system
Shrivastava et al. Analysis of Crop Yield Prediction Using Machine Learning Algorithm
Stauber et al. Implicit Estimate of Residual Nitrogen Under Fertilized Range Conditions in the Northern Great Plains 1

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant