CN112396501B - 一种基于交互式强化学习的订单分派方法及系统 - Google Patents
一种基于交互式强化学习的订单分派方法及系统 Download PDFInfo
- Publication number
- CN112396501B CN112396501B CN202011432387.XA CN202011432387A CN112396501B CN 112396501 B CN112396501 B CN 112396501B CN 202011432387 A CN202011432387 A CN 202011432387A CN 112396501 B CN112396501 B CN 112396501B
- Authority
- CN
- China
- Prior art keywords
- human
- order
- training
- strategy
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000002787 reinforcement Effects 0.000 title claims abstract description 34
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 20
- 241000282414 Homo sapiens Species 0.000 claims abstract description 148
- 238000011156 evaluation Methods 0.000 claims abstract description 48
- 230000009471 action Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 64
- 230000006399 behavior Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 abstract description 38
- 230000003993 interaction Effects 0.000 abstract description 27
- 230000006870 function Effects 0.000 description 17
- 230000006872 improvement Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 230000009916 joint effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及互联网信息技术领域,特别涉及一种基于交互式强化学习的订单分派方法及系统;本发明在自主学习过程中引入人机交互,融合人类演示、干扰、评价的人机交互模式,从人类演示中学习,通过人类演示的真实数据,能够更好地模拟真实的订单分派场景;从人类干扰中学习,当自主学习过程中出现错误动作时,控制智能体的性能,避免出现错误结果;从人类评估中学习,通过人工评价自主学习结果,使学习过程向更好的订单分派策略方向偏移,加快学习过程,从而得到最优的订单分派策略。
Description
技术领域
本发明涉及互联网信息技术领域,特别涉及一种基于交互式强化学习的订单分派方法及系统。
背景技术
在线打车应用和平台已经成为一种新颖而流行的、通过移动应用按需提供交通服务的方式。目前,滴滴、Uber、Lyft等一些打车移动应用程序在全世界范围内广受欢迎,系统每天都会为大量乘客提供服务,并产生大量的叫车订单,例如中国最大的网约车服务提供商滴滴,每天需处理约1100万份订单,在线打车服务的订单分派问题本质上是潜在乘客和司机的合理匹配,在这种场景下,在线用户到达后,需要为其分配一个最佳服务提供者。在许多情况下,服务是可重用的,服务提供者与用户匹配后将消失一段时间,用户使用完服务后将重新加入系统。在这里,离线的服务提供者是不同的司机,当一个潜在乘客发送请求后,系统会将其与附近的司机匹配,大多数情况下,司机会重新加入系统,完成服务后可以再次匹配。
现有的订单分派技术主要为基于强化学习的自主学习方式,构建马尔科夫决策过程,设定智能体、环境状态、智能体动作,并依据环境状态和智能体动作构建状态转移函数和奖励函数,据此训练出最优决策,使订单分派的总体效益最大。
现有技术基本都为通过传统的强化学习与环境的交互,进行完全自主的训练和学习过程,然而这种完全自主学习的方式缺少人的参与,学习过程需要耗费大量时间;学习过程中不能控制智能体的行为,可能出现错误的结果;学习结果难以模拟复杂的真实场景。
发明内容
本发明主要解决的技术问题是提供一种基于交互式强化学习的订单分派方法,在自主学习过程中引入人机交互,融合人类演示、干扰、评价的人机交互模式,从人类演示中学习,通过人类演示的真实数据,能够更好地模拟真实的订单分派场景;从人类干扰中学习,当自主学习过程中出现错误动作时,控制智能体的性能,避免出现错误结果;从人类评估中学习,通过人工评价自主学习结果,使学习过程向更好的订单分派策略方向偏移,加快学习过程,从而得到最优的订单分派策略;还提供了一种基于交互式强化学习的订单分派系统。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于交互式强化学习的订单分派方法,其中,包括如下步骤:
步骤S1、对订单分派任务建模进行模仿训练;
步骤S2、在状态和动作的序列方面提供模仿人类行为的订单分派的演示实例,通过自主学习模仿人类演示的订单分派策略行为;
步骤S3、在进入灾难性状态或人类不满意的错误状态中,通过自主学习模仿人类干预的行为;
步骤S4、通过自主学习模仿人类的评价反馈的行为;
步骤S5、进入纯强化学习阶段进行训练,从而得到最优的订单分派策略。
作为本发明的一种改进,在步骤S2内,当产生了人类演示数据时,从人类的演示中收集订单分派的演示记录,使用高斯回归训练该人类演示数据,从而训练出订单分派策略。
作为本发明的进一步改进,在步骤S2内,如果产生了新的人类演示数据,则重复进行模仿人类演示数据的训练。
作为本发明的更进一步改进,在步骤S3内,经过从步骤S2训练出的订单分派策略执行订单分派任务,当产生人类干扰数据时,收集人类干扰订单分派的动作数据,按该动作数据改变执行订单分派的动作,从而训练出新的订单分派策略。
作为本发明的更进一步改进,在步骤S3内,如果产生了新的人类干扰数据,则重复进行模仿人类干扰数据的训练。
作为本发明的更进一步改进,步骤S4内,经过从步骤S3训练出的订单分派策略执行订单分派任务,当产生人类评价数据时,收集人类的评价数据,通过奖励信号评价订单分派任务的动作,从而训练出新的订单分派策略。
作为本发明的更进一步改进,在步骤S4内,如果产生了新的人类评价数据,则重复进行模仿人类评价的训练。
作为本发明的更进一步改进,在步骤S3内,当产生人类干扰数据时,收集人类干扰订单分派的动作数据,按该动作数据改变执行订单分派的动作,再使用奖励信号和时序误差训练评价者,从而更新订单分派策略,从而训练出新的订单分派策略。
作为本发明的更进一步改进,在步骤S4内,经过订单分派策略执行订单分派任务,收集人类的评价数据,通过一个奖励信号评价当前订单分派方式的好坏,再使用奖励信号和时序误差训练评价者,从而训练出新的订单分派策略。
一种基于交互式强化学习的订单分派系统,包括:
建模模块,用于对订单分派任务进行训练建模;
模仿人类演示训练模块,用于通过自主学习模仿人类演示的订单分派策略行为进行训练;
模仿人类干扰训练模块,用于通过自主学习模仿人类干预的行为的训练;
模仿人类评价训练模块,用于通过自主学习模仿人类的评价反馈的行为的训练;
强化训练模块,用于纯强化学习训练,从而得到最优的订单分派策略。
本发明的有益效果是:与现有技术相比,本发明在自主学习过程中引入人机交互,融合人类演示、干扰、评价的人机交互模式,从人类演示中学习,通过人类演示的真实数据,能够更好地模拟真实的订单分派场景;从人类干扰中学习,当自主学习过程中出现错误动作时,控制智能体的性能,避免出现错误结果;从人类评估中学习,通过人工评价自主学习结果,使学习过程向更好的订单分派策略方向偏移,加快学习过程,从而得到最优的订单分派策略。
附图说明
图1为本发明的基于交互式强化学习的订单分派方法的步骤框图;
图2为本发明的基于交互式强化学习的订单分派方法的流程框图;
图3为本发明的模仿人类演示训练的学习执行流程框图;
图4为本发明的模仿人类干扰训练的学习执行流程框图;
图5为本发明的模仿人类评价训练的学习执行流程框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供一种基于交互式强化学习的订单分派方法,包括如下步骤:
步骤S1、对订单分派任务建模进行模仿训练;
步骤S2、在状态和动作的序列方面提供模仿人类行为的订单分派的演示实例,通过自主学习模仿人类演示的订单分派策略行为;
步骤S3、在进入灾难性状态或人类不满意的错误状态中,通过自主学习模仿人类干预的行为;
步骤S4、通过自主学习模仿人类的评价反馈的行为;
步骤S5、进入纯强化学习阶段进行训练,从而得到最优的订单分派策略。
在本发明中,在自主学习过程中引入人机交互,融合人类演示、干扰、评价的人机交互模式,从人类演示中学习,通过人类演示的真实数据,能够更好地模拟真实的订单分派场景;从人类干扰中学习,当自主学习过程中出现错误动作时,控制智能体的性能,避免出现错误结果;从人类评估中学习,通过人工评价自主学习结果,使学习过程向更好的订单分派策略方向偏移,加快学习过程,从而得到最优的订单分派策略。
如图2所示,对于订单分派任务,首先使用强化学习方法训练最优的订单分派策略,在训练过程中针对出现的人类演示、干扰、评价的人机交互模式,迭代地执行交互式强化学习训练过程:从人类演示中学习、从人类干扰中学习、从人类评价中学习,最后进入纯强化学习阶段继续进行训练。
在步骤S1内,使用马尔可夫决策过程对订单调度任务建模,构建为一个N个智能体的马尔可夫模型G,G=(N,S,a,P,R,γ),其中N,S,a,P,R,γ分别为智能体的数量、状态集、联合动作空间、转移概率函数、奖励函数和折扣因素,定义如下:
1、智能体:将一辆空闲的车辆视为一个智能体,同一时空节点中的车辆是同构的,即在同一时间间隔内位于同一区域的车辆被视为同一智能体(具有相同的策略)。
2、状态:在任意时刻,考虑空闲车辆和订单的空间分布(即每个网格中可用车辆的数量和订单)和当前时间,所有智能体有相同的全局状态。agenti(第i个智能体)的状态定义为其所处网格的标识和共享全局状态。
3、动作:联合动作指示在同一时间所有可用车辆的分配策略;单个智能体的动作空间指定智能体下一次能够到达的位置,它是由7个离散动作表示的集合,前六个离散的动作分别表示将智能体分配到它六个相邻网格中的一个,最后一个离散动作表示留在当前网格中。
4、奖励函数:所有在同一网格中的智能体拥有相同的奖励函数,agenti尝试最大化其折扣奖励,与agenti动作相关的个人奖励定义为在同一时刻与agenti到达相同网格的所有智能体的平均奖励。在同一时间、同一地点的个体奖励相同。
5、状态转移概率:它给出了在当前状态中采取联合动作时过渡到下一状态的概率,虽然动作是确定的,但是每次新的车辆和订单将出现在不同的网格中,并且现有的车辆将通过一个随机的过程转变为离线状态。
在本发明内,强化学习算法进行训练可采用actor-critic训练法(集中训练-分散执行),所有智能体共享一个中央法官(critic)来评估订单分派动作(action)和更新订单分派策略(policy),在执行期间智能体独立地遵循它们学习到的策略,不需要集中式critic。
在本发明中,在步骤S2内,当产生了人类演示数据时,从人类的演示中收集订单分派的演示记录,使用高斯回归训练该人类演示数据,从而训练出订单分派策略;如果产生了新的人类演示数据,则重复进行模仿人类演示数据的训练。
具体地讲,从人类演示中学习训练自主学习过程在订单分派任务中模仿人类行为,人扮演演示者的角色,在状态和动作的序列方面提供订单分派的演示实例,通过使用这些演示,自主学习过程模仿人类演示的订单分派策略(从状态到动作的映射),从演示中学习可以为这些预期的订单分派行为提供更直接的路径,快速收敛到更稳定的订单分派行为。
如图3所示,首先,使用强化学习方法训练订单分派策略πrl;当产生了人类演示数据时,从人类的演示中收集订单分派的演示记录,这些演示数据(接收到的观察和采取的行动)构成了最初的人类数据集;使用高斯回归训练演示数据,得到从人类演示数据中训练出的订单分派策略πm,使用∈-greedy策略(∈-greedy基于一个概率来对探索和利用进行折中:每次尝试时以∈的概率进行探索,以1-∈的概率利用已经学到的策略),产生随机数rand,若rand<=∈,则进行随机探索,即随机将订单分派给空闲的司机;若rand>∈,将CP(s)、CQ(s)归一化后利用双曲正切函数对二者进行缩放,比较缩放后的置信度大小,若πm的置信度>πrl的置信度,则按πm策略执行分派订单的动作,否则按πrl策略执行分派订单的策略(CP(s):已学到的策略的置信度,即从人类演示数据中训练出的订单分派策略πm的置信度;CQ(s):遵循当前自学习策略的置信度,即智能体当前通过与环境交互自主学习到的订单分派策略πrl的置信度;执行订单分派动作后,根据环境状态及反馈的奖励更新订单分派策略πrl,若产生了新的人类演示数据,则重复上述步骤;否则输出训练出的订单分派策略πrl。
在本发明内,在步骤S3内,经过从步骤S2训练出的订单分派策略执行订单分派任务,当产生人类干扰数据时,收集人类干扰订单分派的动作数据,按该动作数据改变执行订单分派的动作,从而训练出新的订单分派策略;如果产生了新的人类干扰数据,则重复进行模仿人类干扰数据的训练。进一步说,当产生人类干扰数据时,收集人类干扰订单分派的动作数据,按该动作数据改变执行订单分派的动作,再使用奖励信号和时序误差训练评价者,从而更新订单分派策略,从而训练出新的订单分派策略。
具体地讲,当自主学习过程即将进入灾难性状态或人类不满意的错误状态时,人类扮演着监督者的角色并进行干扰,可以防止或减轻灾难性行为、避免人类不满意的错误行为。如图4所示,首先,学习过程按照智能体通过与环境交互自主学习到的订单分派或经过从人类演示中学习训练出的订单分派策略πrl执行订单分派任务;当产生人类干扰数据时,收集人类干扰订单分派的动作数据,按该数据改变执行订单分派的动作;根据人类的干扰程度计算干预奖励,该奖励信号和与之相关的时序误差被用来训练一个值函数(评价者,critic)并评估actor(执行者)所采取的动作;使用actor-critic策略梯度方法更新订单分派策略πrl,若产生了新的人类干扰数据,则重复上述步骤;否则输出训练出的订单分派策略πrl。
在本发明内,步骤S4内,经过从步骤S3训练出的订单分派策略执行订单分派任务,当产生人类评价数据时,收集人类的评价数据,通过奖励信号评价订单分派任务的动作,从而训练出新的订单分派策略;如果产生了新的人类评价数据,则重复进行模仿人类评价的训练;进一步说,经过订单分派策略执行订单分派任务,收集人类的评价数据,通过一个奖励信号评价当前订单分派方式的好坏,再使用奖励信号和时序误差训练评价者,从而训练出新的订单分派策略。
具体地讲,从人类评价中学习人类充当监督者,提供实时评估(或评论),以交互方式塑造自主学习过程的行为;它利用人类领域知识和意图,通过评价反馈形式的稀疏交互来塑造智能体的动作;从人类评价中学习人类只需要理解任务目标,不需要了解任务的具体执行方式,最小化人类评价者的任务。如图5所示,首先,学习过程按照智能体通过与环境交互自主学习到的订单分派或经过从人类干扰中学习训练出的订单分派策略πrl执行订单分派任务;当产生人类评价数据时,人类扮演监督者的角色,通过一个奖励信号评估系统的动作,收集人类的评价数据,与从人类干预中学习阶段相似,通过一个奖励信号评价当前订单分派方式的好坏,奖励信号和与之相关的时序误差用于更新评价者的值函数和策略。若产生了新的人类评价数据,则重复上述步骤;否则输出训练出的订单分派策略πrl。
本发明中,为了集成三种不同的人机交互模式,采用actor-critic训练法(集中训练-分散执行)进行训练,最初只训练actor,然后添加critic,在从人类演示中学习过程训练actor,在从人类干扰中学习过程训练actor和critic。然后在从人类评价中学习过程训练出的critic承担监管者的角色,最后,actor和critic被结合在一个标准的由学习奖励模型驱动的actor-critic强化学习架构上。
在本发明内,一种基于交互式强化学习的订单分派方法,可以称为交互式学习法Cycle-of-HRL(HRL:交互式强化学习),实现高效的订单分派;这种方法基于交互式强化学习,将从人类演示中学习、从人类干扰中学习和从人类评价中学习的多种人机交互模式融合,制定交互模式的集成方式。
在本发明内,还可以进行模仿人类演示、干扰和评价的三种模式的切换,使用性能指标、数据模态限制和优势函数来定义三种人机交互模式的转换标准。性能指标:一旦订单分派策略达到某个级别,可以使用预定义的性能度量来指示何时切换交互模式,或者,当观察到系统的性能没有提高时,与系统交互的人可以在不同的交互方式之间手动切换。数据模态限制:根据任务的不同,数据模态的数量可能是有限的可以由人类提供的示范、干预或评估,在这种情况下,交互式学习法Cycle-of-HRL根据数据可用性在不同模式之间切换。优势函数:训练奖励函数后,优势函数(状态-动作价值函数Q(s)和状态值函数V(s)之间的差异,比较给定状态-动作对的期望返回值与该状态下的期望返回值),可以计算并用于人类和系统动作之间的期望返回值比较。有了这些信息,当系统优势功能超过人的优势功能时,Cycle-of-HRL可以切换交互方式。
本发明还提供了一种基于交互式强化学习的订单分派系统,包括:
建模模块,用于对订单分派任务进行训练建模;
模仿人类演示训练模块,用于通过自主学习模仿人类演示的订单分派策略行为进行训练;
模仿人类干扰训练模块,用于通过自主学习模仿人类干预的行为的训练;
模仿人类评价训练模块,用于通过自主学习模仿人类的评价反馈的行为的训练;
强化训练模块,用于纯强化学习训练,从而得到最优的订单分派策略。
在本发明内,引入人机交互,融合人类演示、干扰、评价的多种人机交互模式,减少搜索空间,加快学习过程,提高准确率。从人类演示中学习,通过人类演示的真实数据,能够更好地模拟真实的订单分派场景;从人类干扰中学习,当自主学习过程中出现错误动作时,控制智能体的性能,避免出现错误结果;从人类评估中学习,通过人工评价自主学习结果,使学习过程向更好的订单分派策略方向偏移,加快学习过程。同时本发明制定三种交互模式的集成方式,并设计三种交互模式切换的标准。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种基于交互式强化学习的订单分派方法,其特征在于,包括如下步骤:
步骤S1、对订单分派任务建模进行模仿训练;
步骤S2、在状态和动作的序列方面提供模仿人类行为的订单分派的演示实例,通过自主学习模仿人类演示的订单分派策略行为;
步骤S3、在进入灾难性状态或人类不满意的错误状态中,通过自主学习模仿人类干预的行为;
步骤S4、通过自主学习模仿人类的评价反馈的行为;
步骤S5、进入纯强化学习阶段进行训练,从而得到最优的订单分派策略;
在步骤S2内,当产生了人类演示数据时,从人类的演示中收集订单分派的演示记录,使用高斯回归训练该人类演示数据,从而训练出订单分派策略;
在步骤S3内,经过从步骤S2训练出的订单分派策略执行订单分派任务,当产生人类干扰数据时,收集人类干扰订单分派的动作数据,按该动作数据改变执行订单分派的动作,从而训练出新的订单分派策略;
步骤S4内,经过从步骤S3训练出的订单分派策略执行订单分派任务,当产生人类评价数据时,收集人类的评价数据,通过奖励信号评价订单分派任务的动作,从而训练出新的订单分派策略。
2.根据权利要求1所述的一种基于交互式强化学习的订单分派方法,其特征在于,在步骤S2内,如果产生了新的人类演示数据,则重复进行模仿人类演示数据的训练。
3.根据权利要求1所述的一种基于交互式强化学习的订单分派方法,其特征在于,在步骤S3内,如果产生了新的人类干扰数据,则重复进行模仿人类干扰数据的训练。
4.根据权利要求1所述的一种基于交互式强化学习的订单分派方法,其特征在于,在步骤S4内,如果产生了新的人类评价数据,则重复进行模仿人类评价的训练。
5.根据权利要求3所述的一种基于交互式强化学习的订单分派方法,其特征在于,在步骤S3内,当产生人类干扰数据时,收集人类干扰订单分派的动作数据,按该动作数据改变执行订单分派的动作,再使用奖励信号和时序误差训练评价者,从而更新订单分派策略,从而训练出新的订单分派策略。
6.根据权利要求4所述的一种基于交互式强化学习的订单分派方法,其特征在于,在步骤S4内,经过订单分派策略执行订单分派任务,收集人类的评价数据,通过一个奖励信号评价当前订单分派方式的好坏,再使用奖励信号和时序误差训练评价者,从而训练出新的订单分派策略。
7.一种基于交互式强化学习的订单分派系统,其特征在于,采用如权利要求1至6任一项所述的订单分派方法;该订单分派系统包括:
建模模块,用于对订单分派任务进行训练建模;
模仿人类演示训练模块,用于通过自主学习模仿人类演示的订单分派策略行为进行训练;
模仿人类干扰训练模块,用于通过自主学习模仿人类干预的行为的训练;
模仿人类评价训练模块,用于通过自主学习模仿人类的评价反馈的行为的训练;
强化训练模块,用于纯强化学习训练,从而得到最优的订单分派策略。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011432387.XA CN112396501B (zh) | 2020-12-10 | 2020-12-10 | 一种基于交互式强化学习的订单分派方法及系统 |
PCT/CN2020/139231 WO2022120970A1 (zh) | 2020-12-10 | 2020-12-25 | 一种基于交互式强化学习的订单分派方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011432387.XA CN112396501B (zh) | 2020-12-10 | 2020-12-10 | 一种基于交互式强化学习的订单分派方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112396501A CN112396501A (zh) | 2021-02-23 |
CN112396501B true CN112396501B (zh) | 2024-03-19 |
Family
ID=74624981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011432387.XA Active CN112396501B (zh) | 2020-12-10 | 2020-12-10 | 一种基于交互式强化学习的订单分派方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112396501B (zh) |
WO (1) | WO2022120970A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114004564A (zh) * | 2021-10-29 | 2022-02-01 | 拉扎斯网络科技(上海)有限公司 | 订单分派方法、装置、电子设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858574A (zh) * | 2018-12-14 | 2019-06-07 | 启元世界(北京)信息技术服务有限公司 | 面向人机协同工作的智能体的自主学习方法和系统 |
CN110213796A (zh) * | 2019-05-28 | 2019-09-06 | 大连理工大学 | 一种车联网中的智能资源分配方法 |
CN111033535A (zh) * | 2018-06-05 | 2020-04-17 | 北京嘀嘀无限科技发展有限公司 | 用于乘车订单调度的系统和方法 |
CN111080408A (zh) * | 2019-12-06 | 2020-04-28 | 广东工业大学 | 一种基于深度强化学习的订单信息处理方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11328219B2 (en) * | 2018-04-12 | 2022-05-10 | Baidu Usa Llc | System and method for training a machine learning model deployed on a simulation platform |
CN109733415B (zh) * | 2019-01-08 | 2020-08-14 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
CN110070188B (zh) * | 2019-04-30 | 2021-03-30 | 山东大学 | 一种融合交互式强化学习的增量式认知发育系统及方法 |
-
2020
- 2020-12-10 CN CN202011432387.XA patent/CN112396501B/zh active Active
- 2020-12-25 WO PCT/CN2020/139231 patent/WO2022120970A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111033535A (zh) * | 2018-06-05 | 2020-04-17 | 北京嘀嘀无限科技发展有限公司 | 用于乘车订单调度的系统和方法 |
CN109858574A (zh) * | 2018-12-14 | 2019-06-07 | 启元世界(北京)信息技术服务有限公司 | 面向人机协同工作的智能体的自主学习方法和系统 |
CN110213796A (zh) * | 2019-05-28 | 2019-09-06 | 大连理工大学 | 一种车联网中的智能资源分配方法 |
CN111080408A (zh) * | 2019-12-06 | 2020-04-28 | 广东工业大学 | 一种基于深度强化学习的订单信息处理方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2022120970A1 (zh) | 2022-06-16 |
CN112396501A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yao et al. | Path planning method with improved artificial potential field—a reinforcement learning perspective | |
CN110569443B (zh) | 一种基于强化学习的自适应学习路径规划系统 | |
CN109858574B (zh) | 面向人机协同工作的智能体的自主学习方法和系统 | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
CN111090899A (zh) | 一种用于城市建筑空间布局设计方法 | |
CN113112021B (zh) | 类人行为决策模型的推理方法 | |
CN112396501B (zh) | 一种基于交互式强化学习的订单分派方法及系统 | |
CN115331460A (zh) | 一种基于深度强化学习的大规模交通信号控制方法及装置 | |
Guillen-Perez et al. | Learning from Oracle demonstrations—a new approach to develop autonomous intersection management control algorithms based on multiagent deep reinforcement learning | |
Han et al. | Ensemblefollower: A hybrid car-following framework based on reinforcement learning and hierarchical planning | |
Shamshirband | A distributed approach for coordination between traffic lights based on game theory. | |
Kim et al. | Optimizing large-scale fleet management on a road network using multi-agent deep reinforcement learning with graph neural network | |
CN112000793B (zh) | 一种面向人机交互的对话目标规划方法 | |
Doctorarastoo et al. | Modeling human behavior in cyber-physical-social infrastructure systems | |
CN111783983A (zh) | 用于实现导航的可迁移的元学习的无监督dqn强化学习 | |
CN115840892A (zh) | 一种复杂环境下多智能体层次化自主决策方法及系统 | |
Asarkaya et al. | Persistent aerial monitoring under unknown stochastic dynamics in pick-up and delivery missions | |
Fang et al. | Graph Enhanced Reinforcement Learning for Effective Group Formation in Collaborative Problem Solving | |
Zhan et al. | Generative adversarial inverse reinforcement learning with deep deterministic policy gradient | |
Zhang et al. | Stm-gail: Spatial-Temporal meta-gail for learning diverse human driving strategies | |
Wang et al. | Decision optimisation of a mobile robot in a complex environment based on memory sequence replay mechanism | |
Hu et al. | RGMARL: Vehicle Dispatching Based on Road Information and Supply-Demand Distribution | |
Peng et al. | HKGAIL: Policy shaping via integrating human knowledge with generative adversarial imitation learning | |
Cheng et al. | A framework of an agent planning with reinforcement learning for e-pet | |
Lewis | Adaptive representation in a behavior-based robot: An extension of the copycat architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |