CN111861648A - 基于模拟训练的价格谈判策略模型学习方法 - Google Patents

基于模拟训练的价格谈判策略模型学习方法 Download PDF

Info

Publication number
CN111861648A
CN111861648A CN202010640550.5A CN202010640550A CN111861648A CN 111861648 A CN111861648 A CN 111861648A CN 202010640550 A CN202010640550 A CN 202010640550A CN 111861648 A CN111861648 A CN 111861648A
Authority
CN
China
Prior art keywords
strategy
model
seller
price negotiation
price
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010640550.5A
Other languages
English (en)
Inventor
俞扬
詹德川
周志华
姜允执
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010640550.5A priority Critical patent/CN111861648A/zh
Publication of CN111861648A publication Critical patent/CN111861648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0611Request for offers or quotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0605Supply or demand aggregation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于模拟训练的价格谈判策略模型学习方法,该方法以(1)基于机器学习的价格谈判对手模拟器构建、(2)基于虚拟环境的智能价格谈判策略优化、(3)价格谈判策略的迁移优化三大模块为特点,解决以往智能价格谈判领域的方案试错成本高、泛化性能差、策略易受攻击的问题。

Description

基于模拟训练的价格谈判策略模型学习方法
技术领域
本发明涉及一种基于模拟训练的价格谈判策略模型学习方法,具体是一种在基于机器学习方法构建的虚拟环境(即模拟器)中对在线交易平台的智能价格谈判策略进行训练的方法,属于人工智能及互联网数据处理技术领域。
背景技术
在线电商平台的价格谈判过程中,价格谈判的过程通常由买方发起,买卖双方根据交易涉及的商品信息和己方对商品价值的评估,通过自身的价格策略交替对商品进行出价,直至双方就最终成交价格达成一致,或谈判破裂为止。从卖方的角度看来,这是一个典型的序列决策过程,价格谈判的目标是在尽可能提高成交价格的同时保证谈判能够成功。由于价格谈判中,卖方无从得知买方的价格策略,并且买方仍能够通过交易平台对相似的其他商品进行比价,因此价格谈判的过程一般是一个持续的、动态变化的过程,卖家在此过程中需要根据个人经验进行决策,即决定下一轮是否要接受对方的报价,或提出怎样的报价。
强化学习是学习过程要求智能体与环境不断交互试错,以帮助智能体在环境中逐渐学得最优控制策略(即最优决策策略),从而自动完成决策任务。然而,强化学习的过程中令智能体与环境进行大量交互试错的过程,在实际的价格谈判过程中是难以实行的。如果在实际的谈判过程中直接使用强化学习,则需要使用大量不同的价格策略配置在真实的交易平台中进行试错,然后从这些策略与平台中的买家的交互轨迹中,学习得到最优的价格策略,显然这种方法会带来巨大的经济损失和时间成本,是无法接受的。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于模拟训练的价格谈判策略模型学习方法。
技术方案:一种基于模拟训练的价格谈判策略模型学习方法,通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现,由于在现实中的在线交易平台上,通常在一段较短时间内仅有一名买家与卖家进行价格谈判过程,因此本发明在对价格谈判对手模拟环境构造时,只考虑一对一的价格谈判过程,在每次卖方出价后,谈判对手模拟环境给出买方的新一轮出价。
价格谈判对手模拟环境构造模块中,从真实环境的在线交易平台中获取的买卖双方价格谈判过程交互数据,并对交互数据进行学习;学习过程中,基于卖方视角对交互数据作状态和动作数据分析,并将状态数据和动作数据分别编码为S和a,编码完成后,根据时间先后顺序,将交互数据排列为对应的状态-动作序列,即(S0,a0,S1,a1,…,ST)序列;利用机器学习方法,从前述状态-动作序列中学习得到两类对手策略模型,即一般买家策略模型和对抗式对手策略模型,二者分别对应平台中的普通买家和恶意攻击者;随后将这两类对手策略模型混合,混合后的策略模型作为价格谈判对手模拟器,该模拟器输入当前的状态数据与卖方执行的动作数据,并输出动作数据执行完成后的下一个状态数据。
价格谈判对手模拟器构建完成后,卖家策略搜索模块利用策略搜索方法,与价格谈判对手模拟器交互,进行策略优化。例如优化目标为最大化成交价格的均值,并根据实际场景,建立约束,如限制成交价格大于底价等,通过策略搜索方法,得到价格谈判策略。
由于价格谈判对手模拟器和真实买家策略的状态和动作空间具有一致性,可将在价格谈判对手模拟环境中学得的价格谈判策略直接应用到真实交易平台上的价格谈判过程中,但在实际价格谈判场景中,买家的策略通常也随时间的变化而不断改变,因此将搜索得到的价格谈判策略部署后,策略迁移模块需要收集部署卖家策略搜索模块提供的策略后,交易平台产生的新的交互数据,用于对价格谈判对手模拟器的进一步更新,并通过卖家策略搜索模块重新搜索策略,以提高价格谈判对手模拟器和从模拟器中搜索得到的价格谈判策略模型的准确度和适应性。
所述状态S包含买方的个人信息、近期浏览商品等要素,以及对当前商品的历史出价等要素,所述动作a则为卖方针对对方出价给出的应对,如新出价或成交等。
有益效果:本发明通过对交易平台中的真实买家行为进行建模、构建价格谈判对手模拟环境的方式,有效的降低了利用强化学习搜索价格谈判策略时的采样代价和采样风险,使得强化学习得以应用至价格谈判领域。此外,本发明中通过在价格谈判模拟环境中加入对抗式对手的方法,令使用该模拟环境进行搜索得到的价格谈判策略具有较好的鲁棒性,能够有效的应对真实环境中可能存在的恶意攻击者,降低恶意数据的影响,提高价格谈判策略在遭受恶意攻击时的收益。
附图说明
图1是本发明模块之间交互关系图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于模拟训练的价格谈判策略模型学习方法,通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现,由于在现实中的在线交易平台上,通常在一段较短时间内仅有一名买家与卖家进行价格谈判过程,因此本发明在对价格谈判对手模拟环境构造时,只考虑一对一的价格谈判过程,在每次卖方出价后,谈判对手模拟环境给出买方的新一轮出价。
价格谈判对手模拟环境构造模块中,实现价格谈判对手模拟器构建,从真实环境的在线交易平台中获取的买卖双方价格谈判过程交互数据,并对交互数据进行学习;学习过程中,基于卖方视角对交互数据作状态和动作数据分析,并将状态数据和动作数据分别编码为S和a,编码完成后,根据时间先后顺序,将交互数据排列为对应的状态-动作序列,即(S0,a0,S1,a1,…,ST)序列;利用机器学习方法,从前述状态-动作序列中学习得到两类对手策略模型,即一般买家策略模型和对抗式对手策略模型,二者分别对应平台中的普通买家和恶意攻击者;随后将这两类对手策略模型混合,混合后的策略模型作为价格谈判对手模拟器,该模拟器输入当前的状态数据与卖方执行的动作数据,并输出动作数据执行完成后的下一个状态数据。状态S包含买方的个人信息、近期浏览商品等要素,以及对当前商品的历史出价等要素,动作a则为卖方针对对方出价给出的应对,如新出价或成交等。
价格谈判对手模拟器构建完成后,卖家策略搜索模块利用策略搜索方法,与价格谈判对手模拟器交互,进行策略优化。例如优化目标为最大化成交价格的均值,并根据实际场景,建立约束,如限制成交价格大于底价等,通过策略搜索方法,得到价格谈判策略。
由于价格谈判对手模拟器和真实买家策略的状态和动作空间具有一致性,可将在价格谈判对手模拟环境中学得的价格谈判策略直接应用到真实交易平台上的价格谈判过程中,但在实际价格谈判场景中,买家的策略通常也随时间的变化而不断改变,因此将搜索得到的价格谈判策略部署后,策略迁移模块需要收集部署卖家策略搜索模块提供的策略后,交易平台产生的新的交互数据,用于对价格谈判对手模拟器的进一步更新,并通过卖家策略搜索模块重新搜索策略。
价格谈判对手模拟器构建过程主要分为三步:
首先,构建一般买家策略模型,该模型用于模拟电商交易平台中的普通买家在价格谈判过程中的行为模式;
其次,构建对抗式对手策略模型,该模型用于模拟电商交易平台中的恶意用户在价格谈判过程中的行为模式;
最后,通过选择一个策略选择函数,将一般买家策略模型和对抗式对手策略模型进行混合得到一个混合策略模型,作为价格谈判对手模拟器使用。其中策略选择函数在具体实施时可以使用随机函数,或由专家根据电商交易平台的实际情况给出一个函数模型。
构建一般买家策略模型时,采用神经网络作为一般买家策略模型,准备好状态-动作序列后,由于模型的输入为当前一步的状态和动作,输出为下一步状态,因此可进一步将从真实环境中收集到的交互数据、即状态-动作序列(S0,a0,S1,a1,…,ST)进行切分,划分出多个(St,at,St+1)的元组,其中St为策略模型当前一步的状态、at为当前一步的动作,St+1为策略模型输出的下一步状态。其中(St,at)作为一般买家策略模型的输入,St+1为输出。一般买家策略模型需要学习这个输入到输出的对应关系。通常可直接使用监督学习方法对这个对应关系进行学习,具体方案如下:
【方案例1】使用监督学习训练一般买家策略模型
首先,对真实环境中的在线交易平台的历史交互数据进行划分,得到由多个(St,at,St+1)元组组成的数据集,St+1为St的下一个状态;
然后,使用监督学习方法,如深度神经网络、岭回归等,将(St,at)作为样本,St+1作为预测目标,从划分后的数据集中训练出模拟器模型;
最后,训练后模拟器模型根据输入的状态-动作对(St,at),预测下一个状态St+1,作为价格谈判对手模拟器中的一般买家策略模型使用。
另一方面,由于使用监督学习来训练模拟器模型时,容易出现累积复合误差,导致模型在较长时序的预测下失效,采用对抗学习技术可以缓解复合误差的影响。利用在强化学习中卖方策略和买方策略“互为环境”的特性,即以卖方视角来看,买方策略是与其交互的环境,而以买方的视角来看,卖方策略是与其交互的环境。为了进一步缓解累积复合误差,需要评估交互轨迹,因此本发明中为卖方策略和一般买家策略各自建立模型,再建立一个判别器,令卖方策略和一般买家策略模型交互产生一批(S0,a0,S1,a1,…,Sn)序列,判别器对生成的一批(S0,a0,S1,a1,…,Sn)序列进行打分。具体实施过程如下:
【方案例2】使用对抗学习训练一般买家策略模型
(1)建立若干神经网络作为卖方策略模型和价格谈判对手模型。
(2)建立一个神经网络作为判别器,用于判别某条生成(S0,a0,S1,a1,…,Sn)序列的可信度,可信度取值为0到1之间的实数,越接近1则越像真实数据,越接近0则越像生成数据。
(3)通过卖方策略模型和价格谈判对手模型进行交互训练,生成一批(S0,a0,S1,a1,…,Sn)序列,用生成的(S0,a0,S1,a1,…,Sn)序列和交易平台产生的真实交互数据的(S0,a0,S1,a1,…,Sn)序列更新判别器,将交易平台产生的真实交互数据的(S0,a0,S1,a1,…,Sn)序列数据集记为D,训练过程中的生成的(S0,a0,S1,a1,…,Sn)序列数据集记为D’,更新目标如下:
Figure BDA0002570934630000041
其中f为判别器,f(τ),f(τ′)分别表示判别器在D中单条(S0,a0,S1,a1,…,Sn)序列和D’中单条(S0,a0,S1,a1,…,Sn)序列上输出的可信度。具体实施时,可令判别器f计算出f(St,at,St+1)作为状态-动作-状态对(St,at,St+1)三元组置信度,并按照
Figure BDA0002570934630000051
的方式计算判别器对单条序列输出的置信度。
(4)用更新后的判别器给生成的(S0,a0,S1,a1,…,Sn)序列(也称轨迹)打分,即输出可信度,作为该条轨迹的期望奖励,用强化学习算法更新卖方策略模型和对抗式对手策略模型。
(5)重复(3)(4)两步,直到达到最大循环次数。
(6)将通过以上过程训练完成后的价格谈判对手模型作为价格谈判对手模拟器中的一般买家策略模型使用。
构建对抗式对手策略模型时,由于对抗式对手策略模型需要模仿平台中具有恶意用户的行为策略,而恶意用户的特点为数量少、行为模式随意性强,因此恶意用户的状态-动作序列较难收集,无法使用训练一般买家策略的方法进行训练。本发明中利用了恶意用户目标为降低卖方利润这一特点,使用卖方利润指标取反作为恶意用户的优化目标,并使用强化学习方法对对抗式对手策略进行学习。具体实施过程如下:
【方案例3】使用强化学习训练对抗式对手策略模型
(1)建立一个神经网络作为对抗式对手策略模型;
(2)根据卖家需求或专业知识设计一个能有效反应卖家收益的收益函数,并将该函数取负作为对抗式对手策略模型的奖励函数;具体实施中,可按照实际情况进行选取,如需注重成交率时,收益函数可选用f(St)=I(St=成交),其中I为指示函数,在状态St为成交时取值为1,否则取值为0;如需注重成交价,则收益函数可选用线性函数f(St)=k×成交价,其中k>0,为一任意选取的价格-收益系数;
(3)使用对抗式对手策略模型和学习一般买家策略模型时得到的卖方策略模型交互得到M条状态-动作序列,状态-动作序列即(S0,a0,S1,a1,…,Sn)序列,并根据(2)中的奖励函数评估得到这些状态-动作序列对应的奖励函数值;
(4)用(3)中的状态-动作序列和奖励函数值使用强化学习算法(如DDPG、PPO等)对对抗式对手策略模型进行更新;
(5)重复(3)(4),直到达到最大迭代次数,并将最后得到的策略模型作为价格谈判对手模拟器中的对抗式对手策略模型。
卖家策略搜索模块:
经过价格谈判对手模拟器构建后,可使用强化学习方法或演化学习算法进行策略搜索,寻找最优投放策略,具体实施方案描述如下:
(1)建立一个神经网络作为卖家策略模型;
(2)根据交易平台中卖家对价格谈判策略的需求,例如售价必须高于某特定的底价、或成交率不得低于某值等,设计一个奖励函数,用于评估每次价格谈判的优劣程度。该奖励函数可由卖方自行指定,或由专业人士根据应用中的实际需求设定。具体实施中可令奖励函数r(St,at)=I(St=谈判破裂)×-10+I(St=成交)×成交价格,其中I为指示函数,在函数内条件成立时取值为1,不成立时取值为0。
(3)使用建立的卖家策略模型与价格谈判对手模拟器交互,根据生成的交互数据计算出奖励函数值,并将观测到的状态和奖励函数信息返回。
(4)使用演化算法或强化学习算法,结合上一步返回的状态和奖励函数信息,进行策略搜索来更新卖家策略模型,提高价格谈判策略的期望奖励;
(5)重复(3)和(4)两步,直至价格谈判策略的期望奖励无法提升或达到最大循环次数;
最后,将经过上述训练搜索过程后的价格谈判策略作为平台中卖方使用的价格谈判策略。
下面以强化学习算法为例,给出如下策略搜索实施例:
【方案例1】使用强化学习
(1)建立一个神经网络作为卖家策略模型;
(2)用卖家策略模型和价格谈判对手模拟器交互,即先由从平台商品清单中采样一个商品信息作为价格谈判对手模拟器的输入,由价格谈判对手模拟器生成买方的初始状态,卖家策略模型以该初始状态作为输入,输出卖方的下一轮动作;价格谈判对手模拟器再将当前的状态和卖方动作作为输入,输出下一个状态,价格谈判策略再根据当前状态,输出卖方动作,重复以上过程直到达到终止条件(即成交,或谈判破裂)。重复M次上述交互过程,得到M条轨迹,每条轨迹都可表述为(S0,a0,S1,a1,…,Sn)序列,并利用轨迹中的状态计算出奖励函数值;所述商品信息指的是由商品标价、型号、折旧、类型等商品综合信息构成的元组;
(3)用(2)中的轨迹使用强化学习算法(如DDPG、PPO等)对卖家策略模型进行更新;
(4)重复(2)(3),直到达到最大迭代次数,并将最后得到的卖家策略模型作为策略搜索结果。
策略迁移模块:
策略搜索模块中得到的卖家策略在交易平台历史价格谈判数据上进行训练得到的最优价格谈判策略,而通常平台中的买方行为是会随时间发生改变的。因此我们需要根据价格谈判策略在交易平台上部署后的结果,对价格谈判对手模拟器以及卖家策略模型进行增量式的更新,以保证价格谈判策略的有效性。具体的实施方式如下:
【方案例1】
首先,将在策略搜索模块中进行策略搜索得到的最优价格谈判策略部署到真实的电商交易平台中进行应用。在应用的过程中记录所有由该价格谈判策略与真实用户交互生成的交互数据集D。
其次,对由卖家策略模型产生的新交互数据集D进行分析,使用价格谈判对手模拟环境构造模块设计的用于评估卖家收益的收益函数评估数据集中的所有轨迹,将其中表现最差的15%数据筛选出来并保存至一个新数据集Dbad中;
然后,使用交互数据集D,对价格谈判对手模拟器和最优价格谈判策略(卖家策略模型),按照模拟器构建和策略搜索方法进行一次更新,并额外使用Dbad中的数据,按照模拟器构建和策略搜索方法进行一次更新,作为修正。
再次,对模拟器和最优价格谈判策略,按照模拟器构建和策略搜索步骤定期使用重新整合的交互数据定期进行全量更新。

Claims (8)

1.一种基于模拟训练的价格谈判策略模型学习方法,其特征在于,通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现;
价格谈判对手模拟环境构造模块中,从真实的在线交易平台中获取的买卖双方价格谈判过程交互数据,并对交互数据进行学习;学习过程中,基于卖方视角对交互数据作状态和动作数据分析,并将状态数据和动作数据分别编码为S和a,编码完成后,根据时间先后顺序,将交互数据排列为对应的状态-动作序列,即(S0,a0,S1,a1,…,ST)序列;利用机器学习方法,从前述状态-动作序列中学习得到两类对手策略模型,即一般买家策略模型和对抗式对手策略模型;将这两类对手策略模型混合,混合后的策略模型作为价格谈判对手模拟器,该模拟器输入当前的状态数据与卖方执行的动作数据,并输出动作数据执行完成后的下一个状态数据;
价格谈判对手模拟器构建完成后,卖家策略搜索模块利用策略搜索方法,与价格谈判对手模拟器交互,进行策略优化;
策略迁移模块需要收集部署卖家策略搜索模块提供的策略后,交易平台产生的新的交互数据,用于对价格谈判对手模拟器的进一步更新,并通过卖家策略搜索模块重新搜索策略。
2.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,价格谈判对手模拟器构建过程主要分为三步:
首先,构建一般买家策略模型,该模型用于模拟电商交易平台中的普通买家在价格谈判过程中的行为模式;
其次,构建对抗式对手策略模型,该模型用于模拟电商交易平台中的恶意用户在价格谈判过程中的行为模式;
最后,通过选择一个策略选择函数,将一般买家策略模型和对抗式对手策略模型进行混合得到一个混合策略模型,作为价格谈判对手模拟器使用。
3.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,构建一般买家策略模型时,采用神经网络作为一般买家策略模型,准备好状态-动作序列后,由于模型的输入为当前一步的状态和动作,输出为下一步状态,将从真实环境中收集到的交互数据、即状态-动作序列(S0,a0,S1,a1,…,ST)进行切分,划分出多个(St,at,St+1)的元组,其中St为策略模型当前一步的状态,at为当前一步的动作,St+1为策略模型输出的下一步状态;其中(St,at)作为一般买家策略模型的输入,St+1为输出;一般买家策略模型需要学习这个输入到输出的对应关系;使用监督学习方法对这个对应关系进行学习,具体方案如下:
首先,对真实环境中的在线交易平台的历史交互数据进行划分,得到由多个(St,at,St+1)元组组成的数据集,St+1为St的下一个状态;
然后,使用监督学习方法,将(St,at)作为样本,St+1作为预测目标,从划分后的数据集中训练出模拟器模型;
最后,训练后模拟器模型根据输入的状态-动作对(St,at),预测下一个状态St+1,作为价格谈判对手模拟器中的一般买家策略模型使用。
4.根据权利要求3所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,使用对抗学习训练一般买家策略模型,具体方案如下:
(1)建立若干神经网络作为卖方策略模型和价格谈判对手模型;
(2)建立一个神经网络作为判别器,用于判别某条生成(S0,a0,S1,a1,…,Sn)序列的可信度;
(3)通过卖方策略模型和价格谈判对手模型进行交互训练,生成一批(S0,a0,S1,a1,…,Sn)序列,用生成的(S0,a0,S1,a1,…,Sn)序列和交易平台产生的真实交互数据的(S0,a0,S1,a1,…,Sn)序列更新判别器,将交易平台产生的真实交互数据的(S0,a0,S1,a1,…,Sn)序列数据集记为D,训练过程中的生成的(S0,a0,S1,a1,…,Sn)序列数据集记为D’,更新目标如下:
Figure FDA0002570934620000021
其中f为判别器,f(τ),f(τ′)分别表示判别器在D中单条(S0,a0,S1,a1,…,Sn)序列和D’中单条(S0,a0,S1,a1,…,Sn)序列上输出的可信度。具体实施时,可令判别器f计算出f(St,at,St+1)作为状态-动作-状态对(St,at,St+1)三元组置信度,并按照
Figure FDA0002570934620000022
的方式计算判别器对单条序列输出的置信度;
(4)用更新后的判别器给生成的(S0,a0,S1,a1,…,Sn)序列打分,即输出可信度,作为序列的期望奖励,用强化学习算法更新卖方策略模型和对抗式对手策略模型;
(5)重复(3)(4)两步,直到达到最大循环次数;
(6)将通过以上过程训练完成后的价格谈判对手模型作为价格谈判对手模拟器中的一般买家策略模型使用。
5.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,使用强化学习训练对抗式对手策略模型:
(1)建立一个神经网络作为对抗式对手策略模型;
(2)根据卖家需求或专业知识设计一个能有效反应卖家收益的收益函数,并将该函数取负作为对抗式对手策略模型的奖励函数;
(3)使用对抗式对手策略模型和学习一般买家策略模型时得到的卖方策略模型交互得到M条状态-动作序列,状态-动作序列即(S0,a0,S1,a1,…,Sn)序列,并根据(2)中的奖励函数评估得到这些状态-动作序列对应的奖励函数值;
(4)用(3)中的状态-动作序列和奖励函数值使用强化学习算法(如DDPG、PPO等)对对抗式对手策略模型进行更新;
(5)重复(3)(4),直到达到最大迭代次数,并将最后得到的策略模型作为价格谈判对手模拟器中的对抗式对手策略模型。
6.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,卖家策略搜索模块中,使用强化学习方法或演化学习算法进行策略搜索,寻找最优投放策略,具体如下:
(1)建立一个神经网络作为卖家策略模型;
(2)根据交易平台中卖家对价格谈判策略的需求,设计一个奖励函数,用于评估每次价格谈判的优劣程度;
(3)使用建立的卖家策略模型与价格谈判对手模拟器交互,根据生成的交互数据计算出奖励函数值,并将观测到的状态和奖励函数信息返回;
(4)使用演化算法或强化学习算法,结合上一步返回的状态和奖励函数信息,进行策略搜索来更新卖家策略模型;
(5)重复(3)和(4)两步,直至价格谈判策略的期望奖励无法提升或达到最大循环次数;
(6)将经过上述训练搜索过程后的价格谈判策略作为平台中卖方使用的价格谈判策略。
7.根据权利要求6所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,卖家策略搜索模块中,通过强化学习算法实现策略搜索:
(1)建立一个神经网络作为卖家策略模型;
(2)用卖家策略模型和价格谈判对手模拟器交互,即先由从平台商品清单中采样一个商品信息作为价格谈判对手模拟器的输入,由价格谈判对手模拟器生成买方的初始状态,卖家策略模型以该初始状态作为输入,输出卖方的下一轮动作;价格谈判对手模拟器再将当前的状态和卖方动作作为输入,输出下一个状态,价格谈判策略再根据当前状态,输出卖方动作,重复以上过程直到达到终止条件;重复M次上述交互过程,得到M条轨迹,每条轨迹都可表述为(S0,a0,S1,a1,…,Sn)序列,并利用轨迹中的状态计算出奖励函数值;
(3)用(2)中的轨迹使用强化学习算法对卖家策略模型进行更新;
(4)重复(2)(3),直到达到最大迭代次数,并将最后得到的卖家策略模型作为策略搜索结果。
8.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,策略迁移模块中,根据价格谈判策略在交易平台上部署后的结果,对价格谈判对手模拟器以及卖家策略模型进行增量式的更新,具体的实施方式如下:
首先,将在策略搜索模块中进行策略搜索得到的最优价格谈判策略部署到真实的电商交易平台中进行应用;在应用的过程中记录所有由该价格谈判策略与真实用户交互生成的交互数据集D;
其次,由卖家策略模型产生的新交互数据集D中与该策略在价格谈判对手模拟器中的期望表现相差大于阈值的数据筛选出来,并保存至一个新数据集Dbad中;
然后,使用交互数据集D,对价格谈判对手模拟器和最优价格谈判策略,按照模拟器构建和策略搜索方法进行一次更新,并额外使用Dbad中的数据,按照模拟器构建和策略搜索方法进行一次更新,作为修正;
再次,对模拟器和最优价格谈判策略,按照模拟器构建和策略搜索步骤定期使用重新整合的交互数据定期进行全量更新。
CN202010640550.5A 2020-07-06 2020-07-06 基于模拟训练的价格谈判策略模型学习方法 Pending CN111861648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010640550.5A CN111861648A (zh) 2020-07-06 2020-07-06 基于模拟训练的价格谈判策略模型学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010640550.5A CN111861648A (zh) 2020-07-06 2020-07-06 基于模拟训练的价格谈判策略模型学习方法

Publications (1)

Publication Number Publication Date
CN111861648A true CN111861648A (zh) 2020-10-30

Family

ID=73153076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010640550.5A Pending CN111861648A (zh) 2020-07-06 2020-07-06 基于模拟训练的价格谈判策略模型学习方法

Country Status (1)

Country Link
CN (1) CN111861648A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395777A (zh) * 2021-01-21 2021-02-23 南栖仙策(南京)科技有限公司 基于汽车尾气排放模拟环境的发动机标定参数寻优方法
CN113239634A (zh) * 2021-06-11 2021-08-10 上海交通大学 一种基于鲁棒模仿学习的模拟器建模方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001008072A1 (en) * 1999-07-23 2001-02-01 Firmbuy, Inc. Internet-based interactive market for sale of products and services
WO2008005034A1 (en) * 2006-07-07 2008-01-10 Dan Yu Investment chart-based interactive trade simulation training and game system
CN109670267A (zh) * 2018-12-29 2019-04-23 北京航天数据股份有限公司 一种数据处理方法和装置
CN111339675A (zh) * 2020-03-10 2020-06-26 南栖仙策(南京)科技有限公司 基于机器学习构建模拟环境的智能营销策略的训练方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001008072A1 (en) * 1999-07-23 2001-02-01 Firmbuy, Inc. Internet-based interactive market for sale of products and services
WO2008005034A1 (en) * 2006-07-07 2008-01-10 Dan Yu Investment chart-based interactive trade simulation training and game system
CN109670267A (zh) * 2018-12-29 2019-04-23 北京航天数据股份有限公司 一种数据处理方法和装置
CN111339675A (zh) * 2020-03-10 2020-06-26 南栖仙策(南京)科技有限公司 基于机器学习构建模拟环境的智能营销策略的训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIJUN MA等: "Channel bargaining with risk-averse retailer", 《INT. J.PRODUCTIONECONOMICS》, vol. 139, 8 September 2020 (2020-09-08), pages 155 - 167 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395777A (zh) * 2021-01-21 2021-02-23 南栖仙策(南京)科技有限公司 基于汽车尾气排放模拟环境的发动机标定参数寻优方法
CN113239634A (zh) * 2021-06-11 2021-08-10 上海交通大学 一种基于鲁棒模仿学习的模拟器建模方法
CN113239634B (zh) * 2021-06-11 2022-11-04 上海交通大学 一种基于鲁棒模仿学习的模拟器建模方法

Similar Documents

Publication Publication Date Title
Zheng et al. The ai economist: Improving equality and productivity with ai-driven tax policies
CN111966698B (zh) 一种基于区块链的可信联邦学习方法、系统、装置及介质
Martinez-Jaramillo et al. An heterogeneous, endogenous and coevolutionary GP-based financial market
Camerer et al. Sophisticated experience-weighted attraction learning and strategic teaching in repeated games
Glover et al. Scatter search and path relinking: Advances and applications
Wang et al. Spoofing the limit order book: An agent-based model
Jin et al. Portfolio management using reinforcement learning
CN111339675B (zh) 基于机器学习构建模拟环境的智能营销策略的训练方法
CN111861648A (zh) 基于模拟训练的价格谈判策略模型学习方法
Smith et al. Iterative empirical game solving via single policy best response
Sampath et al. A generalized decision support framework for large‐scale project portfolio decisions
Edmonds et al. The importance of representing cognitive processes in multi-agent models
CN109919688B (zh) 一种考虑市场因素的电子烟产品线规划方法
Chen et al. Agent-based artificial financial market with evolutionary algorithm
van Bragt et al. Equilibrium selection in alternating-offers bargaining models: The evolutionary computing approach
Irissappane et al. A case-based reasoning framework to choose trust models for different E-marketplace environments
Jumadinova et al. A multi-agent prediction market based on boolean network evolution
HIRANO et al. Data-driven Agent Design for Artificial Market Simulation
Bankes Interactive Decision Support for Open Systems.
Li et al. A data-driven method for recognizing automated negotiation strategies
Ataiefard et al. Gray-box Adversarial Attack of Deep Reinforcement Learning-based Trading Agents
CN116245610B (zh) 一种基于蒙特卡洛方法和轻量化图神经网络的图书精排方法
Van Bragt et al. Why agents for automated negotiations should be adaptive
Rodríguez-Fernández et al. Bilateral contract prices estimation using a Q-leaming based approach
CN110348190A (zh) 基于用户操作行为的用户设备归属判断方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination