CN103914560B

CN103914560B - 一种用于农资电子商务的基于Q学习的多agent主动推荐方法

Info

Publication number: CN103914560B
Application number: CN201410153650.XA
Authority: CN
Inventors: 方薇; 王儒敬; 徐玲玲; 李娇娥
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2014-04-16
Filing date: 2014-04-16
Publication date: 2017-01-18
Anticipated expiration: 2034-04-16
Also published as: CN103914560A

Abstract

本发明公开了一种用于农资电子商务的基于Q学习的多agent主动推荐方法，其特征在于，包括如下步骤：1构建多agent主动推荐系统；2状态定义；3初始化；4 Q学习计算与推荐方向选择；5推荐动作执行；6状态转换；7迭代与更新，直到满足终止条件为止。本发明有利于在大规模数据环境下消减信息过载带来的消费盲区，实现对海量信息的筛选和快速定位。

Description

一种用于农资电子商务的基于Q学习的多agent主动推荐方法

技术领域

本发明涉及一种Q强化学习算法的多agent主动推荐方法应用到农资商品电子商务中，是智能决策在电子商务中的一种应用，属于人工智能、自动控制技术领域。

背景技术

农业生产资料主要包括化肥、农药、农膜、种子、饲料、农机具等几大类商品，是重要的农业生产要素，其中种子、化肥、农药等农资作为农业关键生产材料，直接关系农产品的产量与质量，对于保障农业生产，增加农民收入，维护国家粮食安全都有着特别重要的意义。

由于农资商品需求具有季节性强；品种、品牌繁多；地域性广且分散等行业特殊属性，目前农资经营流通模式已不能适应现代农业生产的要求。又由于农资商品与农业种植密切相关，配套性、技术性强，因此，农资商品在实施电子商务过程中，必须区分与普通商品电子商务的消费模式不同，前者是生产型消费，以农业生产需要驱动消费，后者是生活型消费，以个人生活需求或兴趣习惯驱动消费。

用户主动推荐技术是应对互联网信息过载的产物。目前常规电子商务和资讯类网站多数面向用户物质或精神生活消费需求，其推荐依据用户之间的兴趣、爱好和习惯。常见的推荐方法为基于社会化的推荐和基于协同过滤的推荐，均以用户在社交网络中的交互行为及其共同爱好出发，采用图或相似度计算模型实现用户主动推荐。显然，这些推荐方法本质上由顾客生活消费行为而驱动，无法应用到以生产需求为驱动的农资电子商务领域的主动推荐系统中。同时，在大规模数据集上，为维持用户以及兴趣无规则的迁移，这类推荐算法会带来巨大存储和运算开销，一定程度上影响系统对用户的响应速度。

发明内容

本发明为克服现有技术的不足之处，提出一种用于农资电子商务的基于Q学习的多agent主动推荐方法，有利于在大规模数据环境下消减信息过载带来的消费盲区，实现对海量信息的筛选和快速定位。

本发明为解决技术问题采用如下技术方案：

本发明一种用于农资电子商务的基于Q学习的多agent主动推荐方法的特点包括如下步骤：

步骤1、构建多agent主动推荐系统

将多agent主动推荐系统描述为四元组S＝(O,H,M,Agt)，所述四元组S中，O为用户集合，所述用户集合O＝{o₁,o₂,...o_i}；o_i为第i个用户；H为用户属性集合，所述用户属性集合H={h₁,h₂,...h_i}，h_i为用户o_i的属性集合，所述用户o_i的属性集合h_i包括用户个性化信息和用户反馈行为信息；M为推荐信息全集；Agt为多智能体集合，所述多智能体集合Agt＝{agent1,agent2,agent3,agent4}；agent1为认知agent，agent2为市场agent，agent3为知识agent，agent4为决策agent；

步骤2、状态定义

定义系统状态集s={s₀,s_t,s_t+1}，s₀为初始状态，表示系统初始时刻对用户登陆行为的观察状态；s_t为当前状态，表示系统t时刻对用户登陆行为的观察状态；s_t+1为下一状态，表示系统在t+1时刻对用户登陆行为的观察状态；

步骤3、初始化

3.1、初始化Q学习中的参数，所述参数包括学习率α、奖惩因子r、时间衰减因子β、当前强化因子Q_t、终止时刻T₂、观察间隔天数T₁；

3.2、所述决策agent通过与所述认知agent进行通信获得用户o_i在初始状态s₀下的属性集合h_i并存入用户个性化信息库和用户行为库；

3.3、所述决策agent根据所述用户个性化信息与所述市场agent和知识agent进行通信，从所述推荐信息全集M中提取推荐信息子集a推荐给用户o_i，并将所述推荐信息子集a存入推荐历史库中；

3.4所述多agent主动推荐系统由初始状态s₀转换为当前状态s_t；

步骤4、Q学习计算与推荐方向选择

4.1、所述决策agent通过与所述认知agent进行通信获得用户o_i在当前状态s_t下的属性集合h_i并更新所述用户个性化信息库和用户行为库；

4.2、利用式(2)获得用户o_i在当前状态s_t下的观察累计评估值P：

P = Σ_{j = 1}^{T_{1}} γ_{j} f_{j} (o_{i}, M) - - - (2)

式(2)中，j表示用户o_i在观察间隔天数T₁内第j天登陆所述多agent主动推荐系统，γ_j表示时间折扣函数并有：

γ_{j} = \frac{1}{1 + β \times j} - - - (3)

式(2)中，f_j(o_i,M)表示在第j天用户o_i登陆所述多agent主动推荐系统行为的观察评估函数，并有：

f_j(o_i,M)＝f_j(o_i,a)-f_j(o_i,b) （4）

式(4)中，f_j(o_i,a)表示在第j天用户o_i在当前状态s_t对所述推荐信息子集a点击行为的观察评估值，a＝{a₁,a₂......a_n}，并有：

f_{j} (o_{i}, a) = l \times [\begin{matrix} k_{1} \\ k_{2} \\ . . . \\ k_{y} \\ . . . \\ k_{n} \end{matrix}] - - - (5)

式(5)中，n表示所述多agent主动推荐系统在当前状态s_t向用户o_i推荐所述推荐信息子集a的总条数，k_y为用户o_i在第j天对第y条推荐信息a_y的点击次数，y∈[1,n]；

式(4)中，b为非推荐信息子集，表示用户o_i在当前状态s_t对推荐信息子集a以外的所有点击信息的集合，表示推荐信息子集a在推荐信息全集M的补集，f_j(o_i,b)表示用户o_i第j天对非推荐信息子集b点击行为的观察评估值，b＝{b₁,b₂......b_m}，并有：

f_{j} (o_{i}, b) = g \times [\begin{matrix} z_{1} \\ z_{2} \\ . . . \\ z_{x} \\ . . . \\ z_{m} \end{matrix}] - - - (6)

式(6)中，m表示用户o_i第j天点击非推荐信息子集b的总条数，z_x为用户o_i第j天对第x条非推荐信息b_x的点击次数，x∈[1,m]；

4.3、根据所述奖惩判断条件更新所述奖惩因子r，所述奖惩判断条件为：

当用户o_i对推荐信息a_y产生购买行为，则奖惩因子r=1；

当用户o_i对非推荐信息b_x产生购买行为，则奖惩因子r=-1；

当用户o_i未产生任何购买行为，则奖惩因子r=0；

4.4、利用式(7)获得下一状态s_t+1的强化因子Q_t+1：

Q_t+1(o_i,M)＝(1-α)Q_t(o_i,M)+α[r+P] （7）

式(7)中，学习率α∈(0,1)；

4.5、更新所述推荐历史库，即将所述下一状态s_t+1的强化因子Q_t+1、推荐信息子集a和非推荐信息子集b存入所述推荐历史库中，形成推荐历史记录；

4.6、所述决策agent根据式(8)选择下一状态s_t+1的推荐方向：

ΔQ＝Q_t+1(o_i,M)-Q_t(o_i,M) (8)

式(8)中，ΔQ为强化因子增量，当ΔQ≥0时，选择与当前状态s_t下的推荐信息子集a的相同方向为下一状态s_t+1的推荐方向；否则，按当前状态s_t获得的非推荐信息子集b的方向为推荐方向；

步骤5、推荐动作执行

所述决策agent根据步骤4.6所获得的推荐方向与所述市场agent或知识agent进行通信，更新所述推荐信息子集a，并执行向用户o_i输出更新后的推荐信息子集a的推荐动作，同时将所述推荐信息子集a更新到推荐历史库中；

步骤6、状态转换

所述多agent主动推荐系统由下一状态s_t+1转换为当前状态s_t，并将下一状态s_t+1的强化因子Q_t+1的值赋给当前强化因子Q_t；

步骤7、迭代与更新

重复步骤4，步骤5和步骤6直到满足终止条件为止，所述终止条件为：

到终止时刻T₂内，决策agent与认知agent进行通信，获取用户o_i在当前状态s_t的属性集合h_i中无用户反馈行为，即用户o_i没有登陆行为，或市场agent或知识agent对所述该推荐方向的内容为空。

与已有技术相比，本发明的有益效果包括以下内容：

1、本发明首次将原本用于连续过程自动控制的Q学习引入到农资电子商务领域,通过建立一个四元组agent实现主动推荐系统的架构和内部多agent间的相互协调与控制。其中，认知agent获取消费者的个性化信息以及反馈行为信息，起到传感器的作用，市场和知识agent提供具有层次本体结构的农资产品和技术支持知识，起到辅助控制器作用；决策agent根据认知agent的信息属性和强化学习结果，将市场和知识相关内容提取输出推荐，从而实现个性化推荐，起着系统中主控制器的作用。

2、本发明有利于解决农资电子商务中商家与顾客的自动协商问题；一方面认知agent将用户属性及时传给决策agent，另一方面通过强化学习决策agent获得前一次推荐信息与用户需求之间的差异，由此实现下一步的最优推荐抉择，从而为用户提供更好的推荐窗口。该方法的推荐计算量只与农资商品隶属递归关系树深度和用户历史数据库有关，与用户的社会网络无关，因而具有节省存储规模和运算开销的优点。

3、本发明中引入了Q学习方法来增强和改进个性化推荐的方向和内容，Q学习在上述主动推荐系统中起到了反馈作用，它使得决策agent能根据反馈信息的方向（ΔQ正负）和强弱（ΔQ大小）调整主控制器的输出方向和内容，从而保证系统输出信息的适应性和对用户的快速响应性。

4、本发明在Q学习计算（式7）中定义了观察累计评估值P（式2），观察累计评估值P用来评估用户在观察间隔天数T₁内对主控制器输出响应程度的时间累计值；通过引入时间折扣因子（式3）模拟系统响应用户行为的时间特性，使用户的反馈效应随时间非线性地减退，越早的用户响应对观察累计评估值的贡献越大，同时，观察间隔天数T₁的设定还能控制推荐频率，减少过度推荐为用户带来的困扰。

附图说明

图1为本发明多agent的协调机制示意图；

图2为本发明推荐系统作为自动控制闭环系统的解释原理图；

图3为本发明引入ΔQ学习计算和更新的过程图。

具体实施方式

结合附图对本发明作进一步描述，以下实施例仅用于更加清楚地说明本发明的技术方案，不能以此来限制本发明的保护范围。

在本实施例中，一种用于农资电子商务的基于Q学习的多agent主动推荐方法是基于具备在线交易功能的农资电子商务系统。农资电子商务系统是一个具备交易功能的农资行业的垂直型在线营销系统，由于农业领域知识资源丰富且快速增长，用户需求具有多样性、区域性与时变性的特点，因此主动推荐作为农资电子商务系统中的一个重要用户体验功能，能更为精确地向不同类型用户提供个性化推荐包括农资产品、农业知识和市场信息的服务。

一种用于农资电子商务的基于Q学习的多agent主动推荐方法实现步骤如下：

步骤1、构建多agent主动推荐系统；

在本实施例中，将所构建的推荐系统中的推荐-用户反馈-再推荐的过程视为一个延迟的离散慢系统；因此将多agent主动推荐系统描述为一个自控系统，该自控系统由主控器，辅控制器以及传感器构成，具体用一个四元组S＝(O,H,M,Agt)表示，四元组S中，O为用户集合，用户集合O＝{o₁,o₂,...o_i}；i为用户的个数，o_i为第i个用户；H为用户属性集合，用户属性集合H={h₁,h₂,...h_i}，h_i为用户o_i的属性集合，用户o_i的属性集合h_i包括用户个性化信息和反馈行为信息。本实施例中，用户个性化信息包括用户初始注册所填写的所在地域、土地规模、种植作物和年平均产值；反馈行为包括系统用户的登陆次数、登陆时间、点击对象（点击对象包括系统范围所有页面上的信息和商品）、点击对象的个数、点击对象的次数、购买商品的行为以及反馈行为产生时间。M为推荐信息全集，本实施例中，推荐信息包含了推荐方向和推荐内容，推荐内容包括商品基础信息、商品的农技知识信息和商品的市场信息，商品基础信息指农资商品名称、型号、成分和用途，商品的农技知识信息包括农资商品使用知识信息、存储保管信息、相关种植技术知识信息、病虫害防治知识信息，商品的市场信息指农资商品的市场供需比例分布信息和价格走势信息；推荐方向是指按照农资商品本体库和农技知识库建立自上而下的农资商品隶属递归关系树，树结构的父层（主目录）相对于子层（子目录）称为推荐方向，子层（子目录）相对于父层（主目录）称为推荐内容。Agt为多智能体集合，多智能体集合Agt＝{agent1,agent2,agent3,agent4}；agent1为认知agent，在系统中起着传感器作用，用来获取消费者的个性化信息（时空、环境、生产对象等）及行为。agent2为市场agent，本实施例中，市场agent2为推荐系统提供商品的市场信息，获取的信息来源为商品基础信息库、搜索引擎库；agent3为知识agent，本实施例中，知识agent3为推荐系统提供商品的农技、病虫害知识信息，获取的信息来源主要由商品本体库和农技知识库提供；由此，推荐信息全集M通过agent2和agent3获取。其中，市场和知识agent在系统中起到辅控制器的作用。agent4为决策agent，本实施例中，决策agent4是系统的主控器，用于与其他agent通信、协调、强化学习以及推荐方向的选择；从而建立如图1所示的多agent之间的协调机制。

步骤2、将Q学习与所述多智能体集合Agt结合，定义系统状态集s={s₀,s_t,s_t+1}，s₀为初始状态，表示系统初始时刻对用户登陆行为的观察状态；在本实施例中，表示多agent主动推荐系统对用户o_i初始登陆的行为观察，s_t为当前状态，表示系统t时刻对用户登陆行为的观察状态；在本实施例中，s_t表示多agent主动推荐系统对用户o_i从t时刻起到观察间隔天数T₁内登陆时点击推荐信息全集M的累计行为观察；s_t+1为下一状态，表示系统在t+1时刻对用户登陆行为的观察状态；在本实施例中，s_t+1表示多agent主动推荐系统对用户o_i从t+1时刻起到观察间隔天数T₁内登陆时点击推荐信息全集M的累计行为观察；

步骤3、初始化

3.1、初始化Q学习中的参数，参数包括学习率α、奖惩因子r、时间衰减因子β、当前强化因子Q_t，终止时刻T₂，在本实施例中，T₂=20。观察间隔天数T₁，T₁取决于推荐周期的长短，在本实施例中，T₁∈[1,5]。

3.2、决策agent通过与认知agent进行通信获得用户o_i在初始状态s₀下的属性集合h_i并存入用户个性化信息库和用户行为库；

3.3、决策agent根据所述用户个性化信息与市场agent和知识agent进行通信，从推荐信息全集M中提取推荐信息子集a推荐给用户o_i，其中并将推荐信息子集a存入推荐历史库中，推荐历史库是指存储向某一用户o_i推荐内容的历史记录。在本实施例中，初始化提取推荐信息的方法是：根据用户初始个性信息，通过农资商品本体库和农资技术知识库，确定初始推荐方向，依照推荐方向选择提取商品信息、市场信息和农技知识信息。

3.4、执行步骤3.3推荐动作后，多agent主动推荐系统由初始状态s₀转换为当前状态s_t；

步骤4、Q学习计算与推荐方向选择

4.1、决策agent通过与认知agent进行通信获得用户o_i在当前状态s_t下的属性集合h_i并更新用户信息库和用户行为库；

4.2、根据用户o_i的属性集合h_i利用式(2)获得用户o_i在当前状态s_t下的行为观察累计评估值P：

P = Σ_{j = 1}^{T_{1}} γ_{j} f_{j} (o_{i}, M) - - - (2)

式(2)中，j表示用户o_i在观察间隔天数T₁内，第j天登陆多agent主动推荐系统，γ_j表示时间折扣函数，并有：

γ_{j} = \frac{1}{1 + β \times j} - - - (3)

式(3)中，β表示时间衰减因子；时间衰减因子β起着控制时间衰减大小的作用，其值越小，时间衰减影响越小，j越大，时间折扣函数γ_j越小，本实施例中，时间衰减因子β取0.1-0.2；如果在观察间隔天数T₁内该用户没有登陆行为，则将观察间隔扩大为2T₁，3T₁…nT₁,直到终止时刻。

式(2)中，f_j(o_i,M)为第j天用户o_i登陆多agent主动推荐系统行为的观察评估函数，并有：

f_j(o_i,M)＝f_j(o_i,a)-f_j(o_i,b) （4）

式(4)中，f_j(o_i,a)表示第j天用户o_i在当前状态s_t对推荐信息子集a点击行为的观察评估值，a＝{a₁,a₂......a_n}，并有：

f_{j} (o_{i}, a) = l \times [\begin{matrix} k_{1} \\ k_{2} \\ . . . \\ k_{y} \\ . . . \\ k_{n} \end{matrix}] - - - (5)

式(5)中，n表示为在当前状态s_t下多agent主动推荐系统向用户o_i推荐推荐信息子集a的总条数，k_y为用户o_i第j天对第y条推荐信息a_y的点击次数，y∈[1,n]；

式(4)中，b为非推荐信息子集，即用户o_i在当前状态s_t对推荐信息子集a以外的所点击信息的集合，表示推荐信息子集a在推荐信息全集M的补集，f_j(o_i,b)表示用户o_i第j天对非推荐信息子集b点击行为的观察评估值，b＝{b₁,b₂......b_m}，并有：

f_{j} (o_{i}, b) = g \times [\begin{matrix} z_{1} \\ z_{2} \\ . . . \\ z_{x} \\ . . . \\ z_{m} \end{matrix}] - - - (6)

4.3、根据所述奖惩判断条件更新所述奖惩因子r，奖惩判断条件为：

当用户o_i对推荐信息a_y产生购买行为，则奖惩因子r=1；

当用户o_i对非推荐信息b_x产生购买行为，则奖惩因子r=-1；

当用户o_i未产生任何购买行为，则奖惩因子r=0；

4.4、利用式(7)计算下一状态s_t+1的强化因子Q_t+1：

Q_t+1(o_i,M)＝(1-α)Q_t(o_i,M)+α[r+P] （7）

式(7)中，学习率α∈(0,1)，α值的大小控制用户的反馈行为对下一状态s_t+1的强化因子Q_t+1影响程度，本实施例中，学习率α取0.6到0.8之间

4.5、更新所述推荐历史库，即将下一状态s_t+1的强化因子Q_t+1、推荐信息子集a和非推荐信息子集b存入所述推荐历史库中，形成推荐历史记录；

4.6、决策agent根据式(8)选择下一状态s_t+1的推荐方向：

ΔQ＝Q_t+1(o_i,M)-Q_t(o_i,M) (8)

式(8)中，ΔQ为强化因子增量，在推荐系统中作为控制量输入给决策agent，并形成控制-用户反馈的闭环系统。如图2所示，本发明中引入的Q学习起到自控系统的闭环反馈作用，使得主控器决策agent根据反馈信息的方向和强度，变动控制器输出，从而保证推荐系统输出的正确和快速响应。当ΔQ≥0时，选择与当前状态s_t下的推荐信息子集a的相同方向为下一状态s_t+1的推荐方向；即按照推荐信息子集a的方向进行推荐，否则，按当前状态s_t获得的非推荐信息子集b方向改变推荐方向；

步骤5、推荐动作执行

决策agent根据步骤4.6所获得的推荐方向与所述市场agent或知识agent进行通信，更新所述推荐信息子集a，并执行向用户o_i输出更新后的推荐信息子集a的推荐动作，同时将推荐信息子集a更新到推荐历史库中。在本发明中，系统不断认知用户属性和观察用户对推荐的反馈，再通过引入Q强化学习依据前后时刻Q值变化（即ΔQ）所指示的推荐方向，从可推荐信息集合M中提取信息进行推荐，实现其迭代与更新的过程如图3所示。

步骤6、状态转换

执行步骤5的推荐动作后，多agent主动推荐系统由下一状态s_t+1转换为当前状态s_t，并将下一状态s_t+1的强化因子Q_t+1的值赋给当前强化因子Q_t；

步骤7、迭代与更新

重复步骤4，步骤5，步骤6直到满足终止条件为止，终止条件为：

到终止时刻T₂内，决策agent与认知agent进行通信，获取用户o_i在当前状态s_t下的属性集合h_i中无用户反馈行为，即用户o_i没有登陆行为，或市场agent或知识agent对该推荐方向的内容为空，即已无推荐信息可用。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种用于农资电子商务的基于Q学习的多agent主动推荐方法，其特征在于，包括如下步骤：

步骤1、构建多agent主动推荐系统

将多agent主动推荐系统描述为四元组S＝(O,H,M,Agt)，所述四元组S中，O为用户集合，所述用户集合O＝{o₁,o₂,...o_i}；o_i为第i个用户；H为用户属性集合，所述用户属性集合H＝{h₁,h₂,...h_i}，h_i为用户o_i的属性集合，所述用户o_i的属性集合h_i包括用户个性化信息和用户反馈行为信息；M为推荐信息全集；Agt为多智能体集合，所述多智能体集合Agt＝{agent1,agent2,agent3,agent4}；agent1为认知agent，agent2为市场agent，agent3为知识agent，agent4为决策agent；

步骤2、状态定义

定义系统状态集s＝{s₀,s_t,s_t+1}，s₀为初始状态，表示系统初始时刻对用户登陆行为的观察状态；s_t为当前状态，表示系统t时刻对用户登陆行为的观察状态；s_t+1为下一状态，表示系统在t+1时刻对用户登陆行为的观察状态；

步骤3、初始化

步骤4、Q学习计算与推荐方向选择

P = Σ_{j = 1}^{T_{1}} γ_{j} f_{j} (o_{i}, M) - - - (2)

γ_{j} = \frac{1}{1 + β \times j} - - - (3)

f_j(o_i,M)＝f_j(o_i,a)-f_j(o_i,b) (4)

f_{j} (o_{i}, a) = l \times [\begin{matrix} k_{1} \\ k_{2} \\ ... \\ k_{y} \\ ... \\ k_{n} \end{matrix}] - - - (5)

f_{j} (o_{i}, b) = g \times [\begin{matrix} z_{1} \\ z_{2} \\ ... \\ z_{x} \\ ... \\ z_{m} \end{matrix}] - - - (6)

4.3、根据奖惩判断条件更新所述奖惩因子r，所述奖惩判断条件为：

当用户o_i对推荐信息a_y产生购买行为，则奖惩因子r＝1；

当用户o_i对非推荐信息b_x产生购买行为，则奖惩因子r＝-1；

当用户o_i未产生任何购买行为，则奖惩因子r＝0；

4.4、利用式(7)获得下一状态s_t+1的强化因子Q_t+1：

Q_t+1(o_i,M)＝(1-α)Q_t(o_i,M)+α[r+P] (7)

式(7)中，学习率α∈(0,1)；

4.6、所述决策agent根据式(8)选择下一状态s_t+1的推荐方向：

ΔQ＝Q_t+1(o_i,M)-Q_t(o_i,M) (8)

步骤5、推荐动作执行

步骤6、状态转换

步骤7、迭代与更新