CN111861648A

CN111861648A - 基于模拟训练的价格谈判策略模型学习方法

Info

Publication number: CN111861648A
Application number: CN202010640550.5A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 姜允执
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-30

Abstract

本发明公开一种基于模拟训练的价格谈判策略模型学习方法，该方法以(1)基于机器学习的价格谈判对手模拟器构建、(2)基于虚拟环境的智能价格谈判策略优化、(3)价格谈判策略的迁移优化三大模块为特点，解决以往智能价格谈判领域的方案试错成本高、泛化性能差、策略易受攻击的问题。

Description

基于模拟训练的价格谈判策略模型学习方法

技术领域

本发明涉及一种基于模拟训练的价格谈判策略模型学习方法，具体是一种在基于机器学习方法构建的虚拟环境(即模拟器)中对在线交易平台的智能价格谈判策略进行训练的方法，属于人工智能及互联网数据处理技术领域。

背景技术

在线电商平台的价格谈判过程中，价格谈判的过程通常由买方发起，买卖双方根据交易涉及的商品信息和己方对商品价值的评估，通过自身的价格策略交替对商品进行出价，直至双方就最终成交价格达成一致，或谈判破裂为止。从卖方的角度看来，这是一个典型的序列决策过程，价格谈判的目标是在尽可能提高成交价格的同时保证谈判能够成功。由于价格谈判中，卖方无从得知买方的价格策略，并且买方仍能够通过交易平台对相似的其他商品进行比价，因此价格谈判的过程一般是一个持续的、动态变化的过程，卖家在此过程中需要根据个人经验进行决策，即决定下一轮是否要接受对方的报价，或提出怎样的报价。

强化学习是学习过程要求智能体与环境不断交互试错，以帮助智能体在环境中逐渐学得最优控制策略(即最优决策策略)，从而自动完成决策任务。然而，强化学习的过程中令智能体与环境进行大量交互试错的过程，在实际的价格谈判过程中是难以实行的。如果在实际的谈判过程中直接使用强化学习，则需要使用大量不同的价格策略配置在真实的交易平台中进行试错，然后从这些策略与平台中的买家的交互轨迹中，学习得到最优的价格策略，显然这种方法会带来巨大的经济损失和时间成本，是无法接受的。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种基于模拟训练的价格谈判策略模型学习方法。

技术方案：一种基于模拟训练的价格谈判策略模型学习方法，通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现，由于在现实中的在线交易平台上，通常在一段较短时间内仅有一名买家与卖家进行价格谈判过程，因此本发明在对价格谈判对手模拟环境构造时，只考虑一对一的价格谈判过程，在每次卖方出价后，谈判对手模拟环境给出买方的新一轮出价。

价格谈判对手模拟环境构造模块中，从真实环境的在线交易平台中获取的买卖双方价格谈判过程交互数据，并对交互数据进行学习；学习过程中，基于卖方视角对交互数据作状态和动作数据分析，并将状态数据和动作数据分别编码为S和a，编码完成后，根据时间先后顺序，将交互数据排列为对应的状态-动作序列，即(S₀,a₀,S₁,a₁,…,S_T)序列；利用机器学习方法，从前述状态-动作序列中学习得到两类对手策略模型，即一般买家策略模型和对抗式对手策略模型，二者分别对应平台中的普通买家和恶意攻击者；随后将这两类对手策略模型混合，混合后的策略模型作为价格谈判对手模拟器，该模拟器输入当前的状态数据与卖方执行的动作数据，并输出动作数据执行完成后的下一个状态数据。

价格谈判对手模拟器构建完成后，卖家策略搜索模块利用策略搜索方法，与价格谈判对手模拟器交互，进行策略优化。例如优化目标为最大化成交价格的均值，并根据实际场景，建立约束，如限制成交价格大于底价等，通过策略搜索方法，得到价格谈判策略。

由于价格谈判对手模拟器和真实买家策略的状态和动作空间具有一致性，可将在价格谈判对手模拟环境中学得的价格谈判策略直接应用到真实交易平台上的价格谈判过程中，但在实际价格谈判场景中，买家的策略通常也随时间的变化而不断改变，因此将搜索得到的价格谈判策略部署后，策略迁移模块需要收集部署卖家策略搜索模块提供的策略后，交易平台产生的新的交互数据，用于对价格谈判对手模拟器的进一步更新，并通过卖家策略搜索模块重新搜索策略，以提高价格谈判对手模拟器和从模拟器中搜索得到的价格谈判策略模型的准确度和适应性。

所述状态S包含买方的个人信息、近期浏览商品等要素，以及对当前商品的历史出价等要素，所述动作a则为卖方针对对方出价给出的应对，如新出价或成交等。

有益效果：本发明通过对交易平台中的真实买家行为进行建模、构建价格谈判对手模拟环境的方式，有效的降低了利用强化学习搜索价格谈判策略时的采样代价和采样风险，使得强化学习得以应用至价格谈判领域。此外，本发明中通过在价格谈判模拟环境中加入对抗式对手的方法，令使用该模拟环境进行搜索得到的价格谈判策略具有较好的鲁棒性，能够有效的应对真实环境中可能存在的恶意攻击者，降低恶意数据的影响，提高价格谈判策略在遭受恶意攻击时的收益。

附图说明

图1是本发明模块之间交互关系图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于模拟训练的价格谈判策略模型学习方法，通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现，由于在现实中的在线交易平台上，通常在一段较短时间内仅有一名买家与卖家进行价格谈判过程，因此本发明在对价格谈判对手模拟环境构造时，只考虑一对一的价格谈判过程，在每次卖方出价后，谈判对手模拟环境给出买方的新一轮出价。

价格谈判对手模拟环境构造模块中，实现价格谈判对手模拟器构建，从真实环境的在线交易平台中获取的买卖双方价格谈判过程交互数据，并对交互数据进行学习；学习过程中，基于卖方视角对交互数据作状态和动作数据分析，并将状态数据和动作数据分别编码为S和a，编码完成后，根据时间先后顺序，将交互数据排列为对应的状态-动作序列，即(S₀,a₀,S₁,a₁,…,S_T)序列；利用机器学习方法，从前述状态-动作序列中学习得到两类对手策略模型，即一般买家策略模型和对抗式对手策略模型，二者分别对应平台中的普通买家和恶意攻击者；随后将这两类对手策略模型混合，混合后的策略模型作为价格谈判对手模拟器，该模拟器输入当前的状态数据与卖方执行的动作数据，并输出动作数据执行完成后的下一个状态数据。状态S包含买方的个人信息、近期浏览商品等要素，以及对当前商品的历史出价等要素，动作a则为卖方针对对方出价给出的应对，如新出价或成交等。

由于价格谈判对手模拟器和真实买家策略的状态和动作空间具有一致性，可将在价格谈判对手模拟环境中学得的价格谈判策略直接应用到真实交易平台上的价格谈判过程中，但在实际价格谈判场景中，买家的策略通常也随时间的变化而不断改变，因此将搜索得到的价格谈判策略部署后，策略迁移模块需要收集部署卖家策略搜索模块提供的策略后，交易平台产生的新的交互数据，用于对价格谈判对手模拟器的进一步更新，并通过卖家策略搜索模块重新搜索策略。

价格谈判对手模拟器构建过程主要分为三步：

首先，构建一般买家策略模型，该模型用于模拟电商交易平台中的普通买家在价格谈判过程中的行为模式；

其次，构建对抗式对手策略模型，该模型用于模拟电商交易平台中的恶意用户在价格谈判过程中的行为模式；

最后，通过选择一个策略选择函数，将一般买家策略模型和对抗式对手策略模型进行混合得到一个混合策略模型，作为价格谈判对手模拟器使用。其中策略选择函数在具体实施时可以使用随机函数，或由专家根据电商交易平台的实际情况给出一个函数模型。

构建一般买家策略模型时，采用神经网络作为一般买家策略模型，准备好状态-动作序列后，由于模型的输入为当前一步的状态和动作，输出为下一步状态，因此可进一步将从真实环境中收集到的交互数据、即状态-动作序列(S₀,a₀,S₁,a₁,…,S_T)进行切分，划分出多个(S_t,a_t,S_t+1)的元组，其中S_t为策略模型当前一步的状态、a_t为当前一步的动作，S_t+1为策略模型输出的下一步状态。其中(S_t,a_t)作为一般买家策略模型的输入，S_t+1为输出。一般买家策略模型需要学习这个输入到输出的对应关系。通常可直接使用监督学习方法对这个对应关系进行学习，具体方案如下：

【方案例1】使用监督学习训练一般买家策略模型

首先，对真实环境中的在线交易平台的历史交互数据进行划分，得到由多个(S_t,a_t,S_t+1)元组组成的数据集，S_t+1为S_t的下一个状态；

然后，使用监督学习方法，如深度神经网络、岭回归等，将(S_t,a_t)作为样本，S_t+1作为预测目标，从划分后的数据集中训练出模拟器模型；

最后，训练后模拟器模型根据输入的状态-动作对(S_t,a_t)，预测下一个状态S_t+1，作为价格谈判对手模拟器中的一般买家策略模型使用。

另一方面，由于使用监督学习来训练模拟器模型时，容易出现累积复合误差，导致模型在较长时序的预测下失效，采用对抗学习技术可以缓解复合误差的影响。利用在强化学习中卖方策略和买方策略“互为环境”的特性，即以卖方视角来看，买方策略是与其交互的环境，而以买方的视角来看，卖方策略是与其交互的环境。为了进一步缓解累积复合误差，需要评估交互轨迹，因此本发明中为卖方策略和一般买家策略各自建立模型，再建立一个判别器，令卖方策略和一般买家策略模型交互产生一批(S₀,a₀,S₁,a₁,…,S_n)序列，判别器对生成的一批(S0,a0,S1,a1,…,Sn)序列进行打分。具体实施过程如下：

【方案例2】使用对抗学习训练一般买家策略模型

(1)建立若干神经网络作为卖方策略模型和价格谈判对手模型。

(2)建立一个神经网络作为判别器，用于判别某条生成(S₀,a₀,S₁,a₁,…,S_n)序列的可信度，可信度取值为0到1之间的实数，越接近1则越像真实数据，越接近0则越像生成数据。

(3)通过卖方策略模型和价格谈判对手模型进行交互训练，生成一批(S₀,a₀,S₁,a₁,…,S_n)序列，用生成的(S₀,a₀,S₁,a₁,…,S_n)序列和交易平台产生的真实交互数据的(S₀,a₀,S₁,a₁,…,S_n)序列更新判别器，将交易平台产生的真实交互数据的(S₀,a₀,S₁,a₁,…,S_n)序列数据集记为D，训练过程中的生成的(S₀,a₀,S₁,a₁,…,S_n)序列数据集记为D’，更新目标如下：

其中f为判别器，f(τ),f(τ′)分别表示判别器在D中单条(S₀,a₀,S₁,a₁,…,S_n)序列和D’中单条(S₀,a₀,S₁,a₁,…,S_n)序列上输出的可信度。具体实施时，可令判别器f计算出f(S_t,a_t,S_t+1)作为状态-动作-状态对(St,at,St+1)三元组置信度，并按照

的方式计算判别器对单条序列输出的置信度。

(4)用更新后的判别器给生成的(S₀,a₀,S₁,a₁,…,S_n)序列(也称轨迹)打分，即输出可信度，作为该条轨迹的期望奖励，用强化学习算法更新卖方策略模型和对抗式对手策略模型。

(5)重复(3)(4)两步，直到达到最大循环次数。

(6)将通过以上过程训练完成后的价格谈判对手模型作为价格谈判对手模拟器中的一般买家策略模型使用。

构建对抗式对手策略模型时，由于对抗式对手策略模型需要模仿平台中具有恶意用户的行为策略，而恶意用户的特点为数量少、行为模式随意性强，因此恶意用户的状态-动作序列较难收集，无法使用训练一般买家策略的方法进行训练。本发明中利用了恶意用户目标为降低卖方利润这一特点，使用卖方利润指标取反作为恶意用户的优化目标，并使用强化学习方法对对抗式对手策略进行学习。具体实施过程如下：

【方案例3】使用强化学习训练对抗式对手策略模型

(1)建立一个神经网络作为对抗式对手策略模型；

(2)根据卖家需求或专业知识设计一个能有效反应卖家收益的收益函数，并将该函数取负作为对抗式对手策略模型的奖励函数；具体实施中，可按照实际情况进行选取，如需注重成交率时，收益函数可选用f(S_t)＝I(S_t＝成交)，其中I为指示函数，在状态S_t为成交时取值为1，否则取值为0；如需注重成交价，则收益函数可选用线性函数f(S_t)＝k×成交价，其中k>0，为一任意选取的价格-收益系数；

(3)使用对抗式对手策略模型和学习一般买家策略模型时得到的卖方策略模型交互得到M条状态-动作序列，状态-动作序列即(S₀,a₀,S₁,a₁,…,S_n)序列，并根据(2)中的奖励函数评估得到这些状态-动作序列对应的奖励函数值；

(4)用(3)中的状态-动作序列和奖励函数值使用强化学习算法(如DDPG、PPO等)对对抗式对手策略模型进行更新；

(5)重复(3)(4)，直到达到最大迭代次数，并将最后得到的策略模型作为价格谈判对手模拟器中的对抗式对手策略模型。

卖家策略搜索模块：

经过价格谈判对手模拟器构建后，可使用强化学习方法或演化学习算法进行策略搜索，寻找最优投放策略，具体实施方案描述如下：

(1)建立一个神经网络作为卖家策略模型；

(2)根据交易平台中卖家对价格谈判策略的需求，例如售价必须高于某特定的底价、或成交率不得低于某值等，设计一个奖励函数，用于评估每次价格谈判的优劣程度。该奖励函数可由卖方自行指定，或由专业人士根据应用中的实际需求设定。具体实施中可令奖励函数r(S_t,a_t)＝I(S_t＝谈判破裂)×-10+I(S_t＝成交)×成交价格，其中I为指示函数，在函数内条件成立时取值为1，不成立时取值为0。

(3)使用建立的卖家策略模型与价格谈判对手模拟器交互，根据生成的交互数据计算出奖励函数值，并将观测到的状态和奖励函数信息返回。

(4)使用演化算法或强化学习算法，结合上一步返回的状态和奖励函数信息，进行策略搜索来更新卖家策略模型，提高价格谈判策略的期望奖励；

(5)重复(3)和(4)两步，直至价格谈判策略的期望奖励无法提升或达到最大循环次数；

最后，将经过上述训练搜索过程后的价格谈判策略作为平台中卖方使用的价格谈判策略。

下面以强化学习算法为例，给出如下策略搜索实施例：

【方案例1】使用强化学习

(1)建立一个神经网络作为卖家策略模型；

(2)用卖家策略模型和价格谈判对手模拟器交互，即先由从平台商品清单中采样一个商品信息作为价格谈判对手模拟器的输入，由价格谈判对手模拟器生成买方的初始状态，卖家策略模型以该初始状态作为输入，输出卖方的下一轮动作；价格谈判对手模拟器再将当前的状态和卖方动作作为输入，输出下一个状态，价格谈判策略再根据当前状态，输出卖方动作，重复以上过程直到达到终止条件(即成交，或谈判破裂)。重复M次上述交互过程，得到M条轨迹，每条轨迹都可表述为(S0,a0,S1,a1,…,Sn)序列，并利用轨迹中的状态计算出奖励函数值；所述商品信息指的是由商品标价、型号、折旧、类型等商品综合信息构成的元组；

(3)用(2)中的轨迹使用强化学习算法(如DDPG、PPO等)对卖家策略模型进行更新；

(4)重复(2)(3)，直到达到最大迭代次数，并将最后得到的卖家策略模型作为策略搜索结果。

策略迁移模块：

策略搜索模块中得到的卖家策略在交易平台历史价格谈判数据上进行训练得到的最优价格谈判策略，而通常平台中的买方行为是会随时间发生改变的。因此我们需要根据价格谈判策略在交易平台上部署后的结果，对价格谈判对手模拟器以及卖家策略模型进行增量式的更新，以保证价格谈判策略的有效性。具体的实施方式如下：

【方案例1】

首先，将在策略搜索模块中进行策略搜索得到的最优价格谈判策略部署到真实的电商交易平台中进行应用。在应用的过程中记录所有由该价格谈判策略与真实用户交互生成的交互数据集D。

其次，对由卖家策略模型产生的新交互数据集D进行分析，使用价格谈判对手模拟环境构造模块设计的用于评估卖家收益的收益函数评估数据集中的所有轨迹，将其中表现最差的15％数据筛选出来并保存至一个新数据集D_bad中；

然后，使用交互数据集D，对价格谈判对手模拟器和最优价格谈判策略(卖家策略模型)，按照模拟器构建和策略搜索方法进行一次更新，并额外使用D_bad中的数据，按照模拟器构建和策略搜索方法进行一次更新，作为修正。

再次，对模拟器和最优价格谈判策略，按照模拟器构建和策略搜索步骤定期使用重新整合的交互数据定期进行全量更新。

Claims

1.一种基于模拟训练的价格谈判策略模型学习方法，其特征在于，通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现；

价格谈判对手模拟环境构造模块中，从真实的在线交易平台中获取的买卖双方价格谈判过程交互数据，并对交互数据进行学习；学习过程中，基于卖方视角对交互数据作状态和动作数据分析，并将状态数据和动作数据分别编码为S和a，编码完成后，根据时间先后顺序，将交互数据排列为对应的状态-动作序列，即(S₀,a₀,S₁,a₁,…,S_T)序列；利用机器学习方法，从前述状态-动作序列中学习得到两类对手策略模型，即一般买家策略模型和对抗式对手策略模型；将这两类对手策略模型混合，混合后的策略模型作为价格谈判对手模拟器，该模拟器输入当前的状态数据与卖方执行的动作数据，并输出动作数据执行完成后的下一个状态数据；

价格谈判对手模拟器构建完成后，卖家策略搜索模块利用策略搜索方法，与价格谈判对手模拟器交互，进行策略优化；

策略迁移模块需要收集部署卖家策略搜索模块提供的策略后，交易平台产生的新的交互数据，用于对价格谈判对手模拟器的进一步更新，并通过卖家策略搜索模块重新搜索策略。

2.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法，其特征在于，价格谈判对手模拟器构建过程主要分为三步：

最后，通过选择一个策略选择函数，将一般买家策略模型和对抗式对手策略模型进行混合得到一个混合策略模型，作为价格谈判对手模拟器使用。

3.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法，其特征在于，构建一般买家策略模型时，采用神经网络作为一般买家策略模型，准备好状态-动作序列后，由于模型的输入为当前一步的状态和动作，输出为下一步状态，将从真实环境中收集到的交互数据、即状态-动作序列(S₀,a₀,S₁,a₁,…,S_T)进行切分，划分出多个(S_t,a_t,S_t+1)的元组，其中S_t为策略模型当前一步的状态，a_t为当前一步的动作，S_t+1为策略模型输出的下一步状态；其中(S_t,a_t)作为一般买家策略模型的输入，S_t+1为输出；一般买家策略模型需要学习这个输入到输出的对应关系；使用监督学习方法对这个对应关系进行学习，具体方案如下：

然后，使用监督学习方法，将(S_t,a_t)作为样本，S_t+1作为预测目标，从划分后的数据集中训练出模拟器模型；

4.根据权利要求3所述的基于模拟训练的价格谈判策略模型学习方法，其特征在于，使用对抗学习训练一般买家策略模型，具体方案如下：

(1)建立若干神经网络作为卖方策略模型和价格谈判对手模型；

(2)建立一个神经网络作为判别器，用于判别某条生成(S₀,a₀,S₁,a₁,…,S_n)序列的可信度；

的方式计算判别器对单条序列输出的置信度；

(4)用更新后的判别器给生成的(S₀,a₀,S₁,a₁,…,S_n)序列打分，即输出可信度，作为序列的期望奖励，用强化学习算法更新卖方策略模型和对抗式对手策略模型；

(5)重复(3)(4)两步，直到达到最大循环次数；

5.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法，其特征在于，使用强化学习训练对抗式对手策略模型：

(1)建立一个神经网络作为对抗式对手策略模型；

(2)根据卖家需求或专业知识设计一个能有效反应卖家收益的收益函数，并将该函数取负作为对抗式对手策略模型的奖励函数；

6.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法，其特征在于，卖家策略搜索模块中，使用强化学习方法或演化学习算法进行策略搜索，寻找最优投放策略，具体如下：

(1)建立一个神经网络作为卖家策略模型；

(2)根据交易平台中卖家对价格谈判策略的需求，设计一个奖励函数，用于评估每次价格谈判的优劣程度；

(3)使用建立的卖家策略模型与价格谈判对手模拟器交互，根据生成的交互数据计算出奖励函数值，并将观测到的状态和奖励函数信息返回；

(4)使用演化算法或强化学习算法，结合上一步返回的状态和奖励函数信息，进行策略搜索来更新卖家策略模型；

(6)将经过上述训练搜索过程后的价格谈判策略作为平台中卖方使用的价格谈判策略。

7.根据权利要求6所述的基于模拟训练的价格谈判策略模型学习方法，其特征在于，卖家策略搜索模块中，通过强化学习算法实现策略搜索：

(1)建立一个神经网络作为卖家策略模型；

(2)用卖家策略模型和价格谈判对手模拟器交互，即先由从平台商品清单中采样一个商品信息作为价格谈判对手模拟器的输入，由价格谈判对手模拟器生成买方的初始状态，卖家策略模型以该初始状态作为输入，输出卖方的下一轮动作；价格谈判对手模拟器再将当前的状态和卖方动作作为输入，输出下一个状态，价格谈判策略再根据当前状态，输出卖方动作，重复以上过程直到达到终止条件；重复M次上述交互过程，得到M条轨迹，每条轨迹都可表述为(S0,a0,S1,a1,…,Sn)序列，并利用轨迹中的状态计算出奖励函数值；

(3)用(2)中的轨迹使用强化学习算法对卖家策略模型进行更新；

8.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法，其特征在于，策略迁移模块中，根据价格谈判策略在交易平台上部署后的结果，对价格谈判对手模拟器以及卖家策略模型进行增量式的更新，具体的实施方式如下：

首先，将在策略搜索模块中进行策略搜索得到的最优价格谈判策略部署到真实的电商交易平台中进行应用；在应用的过程中记录所有由该价格谈判策略与真实用户交互生成的交互数据集D；

其次，由卖家策略模型产生的新交互数据集D中与该策略在价格谈判对手模拟器中的期望表现相差大于阈值的数据筛选出来，并保存至一个新数据集D_bad中；

然后，使用交互数据集D，对价格谈判对手模拟器和最优价格谈判策略，按照模拟器构建和策略搜索方法进行一次更新，并额外使用D_bad中的数据，按照模拟器构建和策略搜索方法进行一次更新，作为修正；