CN111507501B - 通过强化学习来执行个性化路径规划的方法及装置 - Google Patents

通过强化学习来执行个性化路径规划的方法及装置 Download PDF

Info

Publication number
CN111507501B
CN111507501B CN202010068642.0A CN202010068642A CN111507501B CN 111507501 B CN111507501 B CN 111507501B CN 202010068642 A CN202010068642 A CN 202010068642A CN 111507501 B CN111507501 B CN 111507501B
Authority
CN
China
Prior art keywords
learning
actual
common
rewards
personalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010068642.0A
Other languages
English (en)
Other versions
CN111507501A (zh
Inventor
金桂贤
金镕重
金鹤京
南云铉
夫硕焄
成明哲
申東洙
吕东勋
柳宇宙
李明春
李炯树
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111507501A publication Critical patent/CN111507501A/zh
Application granted granted Critical
Publication of CN111507501B publication Critical patent/CN111507501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/10Path keeping
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3453Special cost functions, i.e. other than distance or default speed limit of road segments
    • G01C21/3484Personalized, e.g. from learned user behaviour or user-defined profiles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60YINDEXING SCHEME RELATING TO ASPECTS CROSS-CUTTING VEHICLE TECHNOLOGY
    • B60Y2300/00Purposes or special features of road vehicle drive control systems
    • B60Y2300/10Path keeping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Game Theory and Decision Science (AREA)
  • Geometry (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Graphics (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)

Abstract

本发明提供一种通过强化学习来执行个性化路径规划的方法及装置,该方法及装置对应于目标驾驶员的个性化最优策略,该个性化最优策略是通过对基于自动驾驶的公共准则而建立的公共最优策略进行调整后获得的,所述方法包括以下步骤:学习装置指示调整奖励网络,通过参考与包括在驾驶轨迹中的实际状况向量及实际状况相关的信息,生成第一调整奖励;指示公共奖励模块,通过参考与实际状况向量及实际动作相关的信息,生成第一公共奖励;指示估算网络,通过参考实际状况向量,生成实际估算值;以及学习装置指示第一损失层生成调整奖励损失,并以调整奖励损失为参照进行反向传播来学习调整奖励网络的至少一部分参数。

Description

通过强化学习来执行个性化路径规划的方法及装置
技术领域
本发明涉及用于自动驾驶车辆的方法及装置;更具体地,涉及通过使用人类驾驶数据作为学习数据(TRAINING DATA)来支持强化学习,从而执行个性化路径规划的方法、装置及其测试方法、测试装置。
背景技术
自动驾驶以安全、快速地使乘客移动为目的。然而,经常在执行路径规划时,自动驾驶要实现的目标和乘客想要的目标可能是不同的。
例如,一些乘客相比于快速但不稳定的驾驶体验,可能更想要没有突然刹车或突然加速的舒适的驾驶体验。在这种情况下,根据运载一些乘客的自动驾驶车辆所执行的路径规划,若指示自动驾驶车辆快速但不稳定地驾驶,则所述一些乘客可能会对由自动驾驶车辆执行的自动驾驶感到不满意。
因此,像这样将路径规划根据乘客进行个性化是很重要的,但目前并没有这种方法的研究。
发明内容
本发明的目的是解决上述问题。
本发明的另一个目的是提供一种学习方法,该方法通过使用人类驾驶数据作为学习数据来支持强化学习,从而提供个性化路径规划,向乘客提供满意的驾驶体验。
本发明的又一个目的是提供一种包括个性化奖励函数的方法,该个性化奖励函数通过使用人类驾驶数据作为学习数据来支持所述强化学习方法,进而提供所述个性化路径规划。
本发明的又一个目的是提供一种通过调整公共奖励函数来获取所述个性化奖励函数的方法,其中,调整公共奖励函数是为减少计算资源。
为了达到上述目的,并实现下述技术效果,本发明的技术特征如下。
根据本发明一实施例,提供一种通过使用至少一个用于执行强化学习方法的个性化奖励(reward)函数来支持目标车辆自动驾驶的学习方法,该方法对应于目标驾驶员的个性化最优策略,所述个性化最优策略是通过调整基于自动驾驶的公共准则而建立的公共最优策略而获得的,所述方法包括以下步骤:(a)当学习装置获取到所述目标驾驶员的一个以上的驾驶轨迹中分别包括的在与一个以上的实际状况向量相对应的时间点、并通过参考一个以上的实际状况执行的一个以上的实际动作的相关信息及其对应的所述实际状况向量时,执行以下步骤:(i)指示调整奖励网络,通过参考所述实际状况向量及所述实际动作的信息,分别生成与在每个所述时间点执行的每个所述实际动作相对应的一个以上的第一调整奖励,所述调整奖励网络构建为用于启动调整奖励函数,所述调整奖励函数用于从所述公共最优策略对应的公共奖励函数生成所述个性化奖励函数;(ii)指示对应于所述公共奖励函数的公共奖励模块,通过参考所述实际状况向量及所述实际动作的信息,分别生成与在每个所述时间点执行的每个所述实际动作相对应的一个以上的第一公共奖励;以及(iii)指示估算网络,通过参考所述实际状况向量,分别生成与在所述驾驶轨迹的每个所述时间点的每个所述实际状况相对应的一个以上的实际估算值,所述估算网络用于估算个性化奖励之和,所述个性化奖励之和是在基于所述公共最优策略的公共最优动作根据与其相对应的实际状况在被执行的过程中生成的;以及(b)所述学习装置指示第一损失层通过参考(i)与每个所述第一调整奖励及每个所述第一公共奖励相对应的每个第一个性化奖励、以及(ii)所述实际估算值,来生成至少一个调整奖励损失,并以所述调整奖励损失为参照进行反向传播来学习所述调整奖励网络的至少一部分参数。
在一实施例中,在所述步骤(b)中,所述学习装置通过参考以下公式来指示所述第一损失层生成所述调整奖励损失:
在上述公式中,表示对应于所述驾驶轨迹中的第一驾驶轨迹至第N驾驶轨迹,Vcommon(st)表示在所述驾驶轨迹中特定驾驶轨迹的第t时间点到最后时间点,与基于所述通用最优策略的所述公共最优动作执行期间生成的个性化奖励之和相对应的所述实际估算值中的特定实际估算值,Rcommon(sr,ar,sr+1)+Rdriver(sr,ar,sr+1)表示与所述特定驾驶轨迹的所述第t时间点相同或之后的第r时间点相对应的所述第一个性化奖励中的第一特定个性化奖励,/>表示在所述特定驾驶轨迹的所述最初时间点到所述最后时间点的时间范围内生成的所述第一调整奖励中的第一特定调整奖励的绝对值之和,γ及α表示已设置的常数。
在一实施例中,还包括以下步骤:(c)所述学习装置还执行以下步骤:(i)指示所述调整奖励网络,通过参考所述实际状况向量,生成与所述驾驶轨迹的每个所述时间点执行的每个所述公共最优动作相对应的一个以上的第二调整奖励;(ii)指示所述公共奖励模块,通过参考所述实际状况向量,生成与所述驾驶轨迹的每个所述时间点执行的每个所述公共最优动作相对应的一个以上的第二公共奖励;(iii)指示所述估算网络,通过参考与在所述驾驶轨迹的每个所述时间点执行所述公共最优动作而导致的虚拟状况相对应的一个以上的每个虚拟状况向量,生成与所述虚拟状况相对应的一个以上的虚拟估算值;以及(d)所述学习装置指示第二损失层通过参考(i)与每个所述第二调整奖励及每个所述第二公共奖励相对应的每个第二个性化奖励、(ii)所述虚拟估算值以及(iii)所述实际估算值,生成至少一个估算损失,并以所述估算损失为参照进行反向传播来学习所述估算网络的至少一部分参数。
在一实施例中,在步骤(d)中,所述学习装置通过参考以下公式来指示所述第二损失层生成所述估算损失:
在上述公式中,表示对应于所述驾驶轨迹中的第一驾驶轨迹至第N驾驶轨迹,Vcommon(st)表示在所述驾驶轨迹中特定驾驶轨迹的第t时间点到最后时间点,与基于所述通用最优策略的所述公共最优动作执行期间生成的个性化奖励之和相对应的所述实际估算值中的特定实际估算值,Vcommon(s′t+1)表示基于所述第t时间点执行所述公共最优动作中的一个而导致的特定虚拟状况的基于第t+1时间点到所述最终时间点为止的与所述公共最优动作执行期间生成的个性化奖励之和相对应的所述虚拟估算值中的特定虚拟估算值,Rcommon(st,a′t,s′t+1)+Rdriver(st,a′t,s′t+1)表示与所述第t时间点相对应的所述第二个性化奖励中的第二特定个性化奖励,γ表示已设置的常数。
在一实施例中,所述虚拟状况向量是通过对与所述公共最优策略相对应的所述公共最优动作及其对应的所述实际状况向量中的至少一部分,分别进行状况估算运算来获得;所述状况估算运算是通过已学习的状况估算网络执行,或通过(i)指示虚拟空间模拟器,在虚拟空间上模拟与特定实际状况向量相对应的特定实际状况后,(ii)指示所述特定实际状况中的虚拟车辆,执行基于所述公共最优策略的所述公共最优动作中的一个后,(iii)对基于所述公共最优动作中的所述一个而导致的所述虚拟空间的变化进行检验来执行。
在一实施例中,所述学习装置对与所述步骤(a)及所述步骤(b)相对应的学习所述调整奖励网络的步骤、以及与所述步骤(c)以及所述步骤(d)相对应的学习所述估算网络的步骤进行重复执行,进而完全学习所述调整奖励网络及所述估算网络。
在一实施例中,所述驾驶轨迹作为通过从与所述目标驾驶员相对应的驾驶轨迹组中随机采样(sampling)所述驾驶轨迹而生成的小批量(mini batch),来提供给所述学习装置。
在一实施例中,基于所述公共最优策略的所述公共最优动作是根据一般强化学习代理来决定,所述一般强化学习代理是使用与所述公共最优策略相对应的所述公共奖励模块来执行所述强化学习方法进行最优化的。
根据本发明另一实施例,提供一种通过使用至少一个用于学习个性化强化学习代理的个性化奖励函数来支持目标车辆自动驾驶的测试方法,该测试方法对应于目标驾驶员的个性化最优策略,所述个性化最优策略是通过调整基于自动驾驶的公共准则而建立的公共最优策略而获得的,所述测试方法包括以下步骤:(a)(1)当学习装置获取到所述目标驾驶员的一个以上的学习用驾驶轨迹中分别包括的在与一个以上的学习用实际状况向量相对应的学习用时间点、并通过参考一个以上的学习用实际状况执行的一个以上的学习用实际动作的相关信息及其相对应的所述学习用实际状况向量时,执行以下步骤:(i)指示调整奖励网络,通过参考所述学习用实际状况向量及所述学习用实际动作的信息,分别生成与在每个所述学习用时间点执行的每个所述学习用实际动作相对应的一个以上的学习用第一调整奖励,所述调整奖励网络构建为用于启动调整奖励函数,所述调整奖励函数用于从所述公共最优策略相对应的公共奖励函数生成所述个性化奖励函数;(ii)指示对应于所述公共奖励函数的公共奖励模块,通过参考所述学习用实际状况向量及所述学习用实际动作的信息,分别生成与在每个所述学习用时间点执行的每个所述学习用实际动作相对应的一个以上的学习用第一调整奖励;以及(iii)指示估算网络,通过参考所述学习用实际状况向量,分别生成与在所述学习用驾驶轨迹的每个所述学习用时间点的每个所述学习用实际状况分别对应的一个以上的学习用实际估算值,所述估算网络用于估算学习用个性化奖励之和,所述学习用个性化奖励之和是基于所述学习用公共最优策略的学习用公共最优动作根据与其相对应的学习用实际状况在被执行的过程中生成的;以及(2)所述学习装置指示第一损失层通过参考(i)与每个所述学习用第一调整奖励及每个所述学习用第一公共奖励相对应的每个学习用第一个性化奖励、以及(ii)所述学习用实际估算值,来生成至少一个调整奖励损失,并以所述调整奖励损失为参照进行反向传播来学习所述调整奖励网络的至少一部分参数,并在此状态下,测试装置指示所述调整奖励网络及所述公共奖励模块通过参考(i)与第t时间点相对应的测试用实际状况向量及(ii)基于所述个性化强化学习代理而生成的测试用实际动作,来生成包括测试用调整奖励及测试用公共奖励的测试用个性化奖励;以及(b)所述测试装置指示所述个性化强化学习代理,通过参考所述测试用个性化奖励来学习自身的参数。
在一实施例中,在所述步骤(b)中,所述个性化强化学习代理通过参考所述测试用个性化奖励来学习所述自身的参数,从而支持所述目标车辆以与所述学习用实际动作相似的方式驾驶。
根据本发明另一实施例,提供一种通过使用至少一个用于执行强化学习方法的个性化奖励函数来支持目标车辆自动驾驶的学习装置,该学习装置对应于目标驾驶员的个性化最优策略,所述个性化最优策略是通过调整基于自动驾驶的公共准则而建立的公共最优策略而获得的,包括:至少一个存储指令的存储器;以及至少一个处理器,所述处理器被配置为执行以下步骤:(I)当获取到所述目标驾驶员的一个以上的驾驶轨迹中分别包括的,在与一个以上的实际状况向量相对应的时间点,通过参考一个以上的实际状况执行的一个以上的实际动作的相关信息及相对应的所述实际状况向量时,执行以下步骤:(i)指示调整奖励网络,通过参考所述实际状况向量及所述实际动作的信息,分别生成与在每个所述时间点执行的每个所述实际动作相对应的一个以上的第一调整奖励,所述调整奖励网络构建为用于启动调整奖励函数,所述调整奖励函数用于从所述公共最优策略相对应的公共奖励函数生成所述个性化奖励函数;(ii)指示对应于所述公共奖励函数的公共奖励模块,通过参考所述实际状况向量及所述实际动作的信息,分别生成与在每个所述时间点执行的每个所述实际动作相对应的一个以上的第一公共奖励;以及(iii)指示估算网络,通过参考所述实际状况向量,分别生成与在所述驾驶轨迹的每个所述时间点的每个所述实际状况分别对应的一个以上的实际估算值,所述估算网络用于估算个性化奖励之和,所述个性化奖励之和是基于所述公共最优策略的公共最优动作根据与其相对应的实际状况,在被执行的过程中生成的;以及(II)指示第一损失层通过参考(i)与每个所述第一调整奖励及每个所述第一公共奖励相对应的每个第一个性化奖励、以及(ii)所述实际估算值,来生成至少一个调整奖励损失,并以所述调整奖励损失为参照进行反向传播来学习所述调整奖励网络的至少一部分参数。
在一实施例中,在所述步骤(II)中,所述处理器通过参考以下公式,指示所述第一损失层生成所述调整奖励损失:
在上述公式中,表示对应于所述驾驶轨迹中的第一驾驶轨迹至第N驾驶轨迹,Vcommon(st)表示在所述驾驶轨迹中特定驾驶轨迹的第t时间点到最后时间点,与基于所述通用最优策略的所述公共最优动作执行期间生成的个性化奖励之和相对应的所述实际估算值中的特定实际估算值,Rcommon(sr,ar,sr+1)+Rdriver(sr,ar,sr+1)表示与所述特定驾驶轨迹的第t时间点相同或之后的第r时间点相对应的所述第一个性化奖励中的第一特定个性化奖励,/>表示在所述特定驾驶轨迹的所述最初时间点到所述最后时间点的时间范围内生成的所述第一调整奖励中的第一特定调整奖励的绝对值之和,γ及α表示已设置的常数。
在一实施例中,所述处理器还执行以下步骤:(III)(i)指示所述调整奖励网络,通过参考所述实际状况向量,生成与所述驾驶轨迹的每个所述时间点执行的每个所述公共最优动作相对应的一个以上的第二调整奖励;(ii)指示所述公共奖励模块,通过参考所述实际状况向量,生成与所述驾驶轨迹的每个所述时间点执行的每个所述公共最优动作相对应的一个以上的第二公共奖励;(iii)指示所述估算网络,通过参考与在所述驾驶轨迹的每个所述时间点执行所述公共最优动作而导致的虚拟状况相对应的一个以上的每个虚拟状况向量,生成与所述虚拟状况相对应的一个以上的虚拟估算值;以及(IV)指示第二损失层通过参考(i)与每个所述第二调整奖励及每个所述第二公共奖励相对应的每个第二个性化奖励、(ii)所述虚拟估算值以及(iii)所述实际估算值,生成至少一个估算损失,并以所述估算损失为参照进行反向传播来学习所述估算网络的至少一部分参数。
在一实施例中,在所述步骤(IV)中,所述处理器通过参考以下公式,指示所述第二损耗层生成所述估算损失:
在上述公式中,表示对应于所述驾驶轨迹中的第一驾驶轨迹至第N驾驶轨迹,Vcommon(st)表示在所述驾驶轨迹中特定驾驶轨迹的第t时间点到最后时间点,与基于所述通用最优策略的所述公共最优动作执行期间生成的个性化奖励之和相对应的所述实际估算值中的特定实际估算值,Vcommon(s′t+1)表示基于所述第t时间点执行所述公共最优动作中的一个而导致的特定虚拟状况的基于第t+1时间点到所述最终时间点为止的与所述公共最优动作执行期间生成的个性化奖励之和相对应的所述虚拟估算值中的特定虚拟估算值,Rcommon(st,a′t,s′t+1)+Rdriver(st,a′t,s′t+1)表示与所述第t时间点相对应的所述第二个性化奖励中的第二特定个性化奖励,γ表示已设置的常数。
在一实施例中,所述虚拟状况向量是通过对与所述公共最优策略相对应的所述公共最优动作及其对应的所述实际状况向量中的至少一部分分别进行状况估算运算来获得;所述状况估算运算是通过已学习的状况估算网络执行,或通过(i)指示虚拟空间模拟器,在虚拟空间上模拟与特定实际状况向量相对应的特定实际状况后,(ii)指示所述特定实际状况中的虚拟车辆,执行基于所述公共最优策略的所述公共最优动作中的一个,并(iii)对基于所述公共最优动作中的所述一个而导致的所述虚拟空间的变化进行检验来执行。
在一实施例中,所述处理器对与所述步骤(I)及所述步骤(II)相对应的学习所述调整奖励网络的步骤、以及与所述步骤(III)以及所述步骤(IV)相对应的学习所述估算网络的步骤进行重复执行,进而完全学习所述调整奖励网络及所述估算网络。
在一实施例中,所述驾驶轨迹作为通过从与所述目标驾驶员相对应的驾驶轨迹组中随机采样(sampling)所述驾驶轨迹而生成的小批量(mini batch),并提供给所述学习装置。
在一实施例中,基于所述公共最优策略的所述公共最优动作是根据一般强化学习代理来决定,所述一般强化学习代理是使用与所述公共最优策略相对应的所述公共奖励模块来执行所述强化学习方法而最优化的。
根据本发明另一实施例,提供一种通过使用至少一个用于学习个性化强化学习代理的个性化奖励函数来支持目标车辆自动驾驶的测试装置,该测试装置对应于目标驾驶员的个性化最优策略,所述个性化最优策略是通过调整基于自动驾驶的公共准则而建立的公共最优策略而获得的,包括:至少一个存储指令的存储器;以及至少一个处理器,所述处理器被配置为执行以下步骤:(I)(1)当学习装置获取到所述目标驾驶员的一个以上的学习用驾驶轨迹中分别包括的,在与一个以上学习用实际状况向量的学习用时间点,通过参考一个以上的学习用实际状况而执行的一个以上的学习用实际动作的信息及相对应的所述学习用实际状况向量时,执行以下步骤:(i)指示调整奖励网络,通过参考所述学习用实际状况向量及所述学习用实际动作的信息,分别生成与在每个所述学习用时间点执行的每个所述学习用实际动作相对应的一个以上的学习用第一调整奖励,所述调整奖励网络构建为用于启动调整奖励函数,所述调整奖励函数用于从所述公共最优策略相对应的公共奖励函数中生成所述个性化奖励函数;(ii)指示对应于所述公共奖励函数的公共奖励模块,通过参考所述学习用实际状况向量及所述学习用实际动作的信息,分别生成与在每个所述学习用时间点执行的每个所述学习用实际动作相对应的一个以上的学习用第一公共奖励;以及
(iii)指示估算网络,通过参考所述学习用实际状况向量,分别生成与在所述学习用驾驶轨迹的每个所述学习用时间点的每个所述学习用实际状况分别对应的一个以上的学习用实际估算值,所述估算网络用于估算学习用个性化奖励之和,所述学习用个性化奖励之和是基于所述学习用公共最优策略的学习用公共最优动作根据与其相对应的学习用实际状况在被执行的过程中生成的;以及(2)所述学习装置指示第一损失层通过参考(i)与每个所述学习用第一调整奖励及每个所述学习用第一公共奖励相对应的每个学习用第一个性化奖励、以及(ii)所述学习用实际估算值,来生成至少一个调整奖励损失,并以所述调整奖励损失为参照进行反向传播来学习所述调整奖励网络的至少一部分参数,并在此状态下,测试装置指示所述调整奖励网络及所述公共奖励模块通过参考(i)与第t时间点相对应的测试用实际状况向量及(ii)基于所述个性化强化学习代理而生成的测试用实际动作,来生成包括测试用调整奖励及测试用公共奖励的测试用个性化奖励;以及(II)指示所述个性化强化学习代理,通过参考所述测试用个性化奖励来学习自身的参数。
在一实施例中,在所述步骤(II)中,所述个性化强化学习代理通过参考所述测试用个性化奖励来学习所述自身的参数,从而支持所述目标车辆以与所述学习用实际动作相似的方式驾驶。
另外,本发明还提供了可由计算机读取以用于存储计算机程序以执行本发明的方法的可记录介质。
本发明具有通过提供使用人类驾驶数据作为学习数据来支持强化学习方法,从而提供个性化路径规划的学习方法,进而向乘客提供满意的驾驶体验的技术效果。
本发明具有通过提供一种用于通过使用人类驾驶数据作为学习数据来支持所述强化学习方法的个性化奖励函数,进而提供所述个性化路径规划的技术效果。
本发明具有提供一种通过调整公共奖励函数并获取所述个性化奖励函数,进而可以减少计算资源的方法的技术效果。
附图说明
下面所附的用于解释本发明实施例的附图仅是本发明的实施例的一部分,本领域内具备一般常识的技术人员(以下称之为一般技术人员)无需进行其他创造性劳动即可基于本发明的附图获得其他附图。
图1是根据本发明一实施例,用于执行使用人类驾驶数据作为学习数据来支持强化学习从而提供个性化路径规划的学习方法的学习装置的简略结构图;
图2是根据本发明一实施例,用于执行使用人类驾驶数据作为学习数据来支持强化学习从而提供个性化路径规划的学习方法的驾驶轨迹的一实施例的示意图;
图3是根据本发明一实施例,用于执行使用人类驾驶数据作为学习数据来支持强化学习从而提供个性化路径规划的学习方法的流程图。
具体实施方式
以下对本发明进行的详细说明是为了对本发明的目的、技术解决手段以及优点进行充分说明,以本发明可实施的特定实施例为示例,并参照附图。这些实施例将进行充分的说明,以使本领域内技术人员能够实施本发明。
此外,在本发明的详细描述和权利要求中,术语“包括”及其变化形式并不旨在排除其他技术特征、添加物、组件或步骤。本发明的其他目的、益处和特征将部分地从说明书和部分地从本发明的实施方式向本领域技术人员揭示。以下示例和附图将作为示例提供,但是它们并不限制本发明。
此外,本发明涵盖了本说明书中示出的实施例的所有可能的组合。本发明的多个实施例虽然不同,但不互斥。例如,在不背离本发明的精神和范围的情况下,可以在其他实施例内实现本文结合一个实施例描述的特定特征、结构或特性。另外,应当理解,在不脱离本发明的精神和范围的情况下,可以修改每个实施例内的各个元件的位置或布置。因此,以下详细描述不应被理解为限制性的,并且本发明的范围仅由所附权利要求以及权利要求所赋予的等同物的全部范围来限定。在附图中,贯穿几个附图,相似的数字表示相同或相似的功能。
本发明内容中提及的任何图像都可以包括与任何已铺设或未铺设的道路有关的图像,在这种情况下,道路上或道路附近的物体,可能包括车辆、人员、动物、植物、建筑物、飞行物体(例如飞机或无人机)、或可能出现在与道路有关的场景中的任何其他障碍物,但是本发明的范围不限于此。作为另一示例,本发明中提及的所述任何图像可以包括与任何道路都不相关的图像,诸如与巷道、土地、海洋、湖泊、河流、山脉、森林、沙漠、天空或任何室内空间有关的图像。在这种情况下,上述任何图像中的物体可能包括车辆、人员、动物、植物、建筑物、飞行物体(如飞机或无人驾驶飞机)、轮船、两栖飞机或轮船、或可能出现在与小巷有关的场景中的任何其他障碍物、土地、海洋、湖泊、河流、山脉、森林、沙漠、天空或任何室内空间,但是本发明的范围不限于此。
为了使本发明所在的技术领域内具备一般常识的技术人员能够容易地实施本发明,将参照附图来详细说明本发明的实施例。
作为参考,在以下描述中,为与学习过程有关的术语添加了短语“学习用”,为与测试过程有关的术语添加了短语“测试用”,以避免可能的混淆。
图1是根据本发明一实施例,用于执行使用人类驾驶数据作为学习数据来支持强化学习从而提供个性化路径规划的学习方法的学习装置的简略结构图。
参考图1,学习装置可以包括调整奖励网络130、估算网络140、第一损失层150、第二损失层160以及公共奖励模块170,这些结构要素将在以下进行详细说明。其中,所述调整奖励网络130、估算网络140、第一损失层150、第二损失层160以及公共奖励模块170的输入/输出和计算过程可以分别由至少一个通信部110以及至少一个处理器120来执行。但是,在图1中省略了通信部110以及处理器120之间的详细通信结构图。这时,存储器115可以是已经存储了稍后要描述的各种指令,且所述处理器120可以执行存储在所述处理器120中的指令,可以通过执行稍后将要进行说明的指令来执行本发明的处理。所述学习装置100的这种描述不排除包括处理器、存储器、介质或任何其他计算组件的任何组合的集成装置。
所述调整奖励网络130以及估算网络140可以包括虚拟神经元的多个层中的每一个,虚拟神经元从其先前的虚拟神经元获取其输入,并处理该输入,之后将其输出传递至其下一虚拟神经元。换句话说,所述调整奖励网络130以及估算网络140可以具有与众所周知的前馈网络(Feed-Forward networks)相似的结构。
至此,已经对执行本发明所述方法的所述学习装置100的结构进行了说明。下面,将对本发明的所述方法进行更详细的说明,为了便于理解,首选将对本发明的方法中将要使用到的各结构要素进行说明。
首先,众所周知,所述强化学习的方法是强化学习代理通过执行以下步骤进行学习:(i)选择基于特定状况的特定动作,(ii)通过使用分配给所述强化学习代理的奖励函数来获得相对于所述特定动作的特定奖励,以及(iii)使用所述特定奖励进行反向传播(backpropagation)或其他方法。因为所述奖励函数在学习所述强化学习代理上起到重要的作用,因此为了获得正确的输出值,程序员应该恰当地设定奖励函数。
在此基础上,公共最优策略可以是基于公共准则建立的自动驾驶方案。并且,公共奖励函数可以是根据所述公共最优策略执行所述自动驾驶的学习所述强化学习代理的奖励函数。
与此相反,个性化最优策略可以是为目标驾驶员建立的自动驾驶方案。并且,个性化奖励函数可以是根据所述个性化最优策略执行所述自动驾驶的学习所述强化学习代理的奖励函数。
就这一点而言,本发明可以导出提供所述个性化奖励函数的方法,该方法使用调整奖励函数对所述公共奖励函数进行微调整,进而得到提供所述个性化奖励函数的方法,所述个性化奖励函数与对于所述自动驾驶的所述个性化奖励策略相对应。这种关系如下述公式所示:
Rp=Rcommon+Rdriver
其中,Rcommon可以表示执行与所述自动驾驶的所述公共最优策略相对应的所述公共奖励模块的公共奖励模块170的输出值,Rdriver可以表示执行所述调整奖励函数的所述调整奖励网络130的输出值,通过共同使用所述公共奖励模块170以及所述调整奖励网络130获得的Rp可以表示所述个性化奖励函数的输出值。
这时,可以从一开始就将所述公共奖励函数170作为规则集(rule-set)给出,可以在一开始将所述调整奖励网络130作为未学习的状态给出,并可以通过执行本发明的所述方法来进行学习。相比于本发明使用的两个要素,即使用所述调整奖励网络130以及所述公共奖励模块170,不同的是,有人认为用其他方式去构建一个针对所述个性化最优策略执行所述个性化奖励函数的单一神经网络是可行的,但所述个性化奖励函数是无法使用所述单一神经网络来执行,这是因为所述个性化奖励函数的解决方案(solution)不是唯一的,并且需要太多的后面将要进行说明的如驾驶轨迹等学习数据来学习所述单一神经网络。因此,可以通过使用所述公共奖励模块170以及所述调整奖励网络130两者来执行所述个性化奖励函数。
对于所述公共奖励模块170以及所述公共最优策略的附加信息将在下面说明。即,可以通过分析所述驾驶员的每个驾驶轨迹来获取所述公共奖励模块170,所述驾驶轨迹包括与每个所述状况下每个所述驾驶员的动作的相关信息以及每个状况的相关信息。例如,注释者(annotator)可以确定每个所述驾驶轨迹中的每个所述动作是否会引起事故,对每个所述动作的各奖励进行设置,可以将从所述奖励与所述动作之间的关系得出的规则集作为所述公共奖励模块170来设置,并将包括所述规则集的模块作为所述公共奖励模块170来构建。这样的所述公共奖励模块170可以用于支持将所述驾驶轨迹作为所述学习数据输入到所述强化学习代理的学习过程中。其结果就是,所述强化学习代理可以通过参考所述公共最优策略执行所述自动驾驶。
这里,根据所述公共奖励模块170执行的所述公共奖励函数可以表示为以下公式:
Rcommon(S,A,Snext)
其中,S可以表示在所述驾驶轨迹之一中的每个时间点的一种情况,A可以表示在其相应的时间点执行的动作,Snext可以表示由所述动作引起的下一种情况。
以上说明的驾驶轨迹是用于获得公共最优策略的相对于多个人的。在本发明中,将使用与单个人,即所述目标驾驶员相对应的所述驾驶轨迹的一部分,这是因为本发明是针对一种用于获取“个性化”最优策略而不是“公共”最优策略的方法。因此,以下将要提到的“驾驶轨迹”全部对应于单人,即目标驾驶员。
在此,所述目标驾驶员的所述驾驶轨迹可以包括:通过参考对应于所述实际状况向量的一个以上的实际状况,在与所述实际状况向量相对应的时间点执行的一个以上的实际状况向量及一个以上的实际动作相关的信息。但,稍后将详细说明,包括以公共最优动作为虚拟而不是以所述实际动作为虚拟进行执行获得的与每个虚拟状况相关的信息的附加信息,即虚拟状况向量,可以在每个所述驾驶轨迹时间点与所述驾驶轨迹一起使用。这时,所述实际状况向量可以包括在相应时间点的所述目标车辆的周边信息或分割(segmentation)图像的信息,如周边个体的位置信息及其类别的信息。为了了解这些驾驶轨迹及所述附加信息,我们来参照图2。
图2是根据本发明一实施例,用于执行使用人类驾驶数据作为学习数据来支持强化学习从而提供个性化路径规划的方法的驾驶轨迹的一实施例的示意图。
参考图2,可以看到表示为s,a,s′以及a′的圆圈和箭头。其中,每个s和a可以表示每个所述实际状况向量和每个所述实际动作,每个s′和a′可以表示每个所述虚拟状况向量及其对应的公共最优动作。更具体地,s′可以表示通过在与每个所述实际状况向量s相对应的每个状态下执行每个所述公共最优动作a′而不是所述实际动作a而导致的每个所述虚拟状况向量。
在此,将说明如何获取所述公共最优动作和所述虚拟状况向量。首先,所述公共最优动作可以通过将所述驾驶轨迹中的所述实际状况向量输入到所述强化学习代理后,从包括所述公共最优策略的所述强化学习代理中获得。所述虚拟状况向量通过使用附加运算,即状况估算运算来获得。且所述状况估算运算可以以两种方式来执行。
首先,可以使用已学习的状况估算网络获得所述虚拟状况向量。所述状况估算网络可以包括神经元的多个层中的每一个。这样的状况估算网络可以获取学习用状况向量及其相应的学习用动作作为其学习数据,输出学习用估算下一状况向量,并通过使用所述学习用估算下一状况向量及其对应的GT(Ground-Truth)下一状况向量来生成损失,所述GT下一状况向量包括与所述学习用状况向量相对应的情况下由于所述学习用动作导致的情况下的相关信息。然后,所述状况估算网络使用所述损失来执行反向传播(backpropagation)来学习所述状况估算网络的参数。这样的学习过程与一般的前馈网络的学习过程相类似,因此本领域技术人员可以很容易的理解上述说明。
另外,所述虚拟状况向量可以通过使用虚拟世界模拟器来获得。即,所述状况估算运算可以通过指示所述虚拟世界模拟器模拟与虚拟世界中的特定实际状况向量相对应的特定实际状况,并指示所述特定情况下的虚拟车辆执行基于公共最优策略的所述公共最优动作中的一个后,根据检验所述公共最优动作之一所导致的所述虚拟世界的变化来获得所述虚拟状况向量。
对所述估算网络140也进行下简要说明。所述估算网络140可以以与特定时间点相对应的特定状况向量作为其输入来获得,在所述公共最优动作持续执行的情况下,输出从所述特定时间点到其对应的驾驶轨迹的最终时间点之间发生的个性化奖励的估算值之和。
基于以上的简要说明,将通过参考图3来对本发明的方法的整体流程进行说明。
图3是根据本发明一实施例,用于执行使用人类驾驶数据作为学习数据来支持强化学习从而提供个性化路径规划的方法的流程图。
参考图3,在步骤S00中,所述学习装置100可以通过参考包括在所述目标驾驶员的每个所述驾驶轨迹中包括的所述实际状况,来获得所述实际状况向量相对应的时间点所执行的所述实际动作的相关信息及所述实际状况向量。并且,在步骤S01-1中,所述学习装置100可以指示所述调整奖励网络130,通过参考与所述实际动作及所述实际状况向量相关的信息,来分别生成一个以上的第一调整奖励,与此并行地,在步骤S01-2中,所述学习装置100可以指示所述公共奖励模块170,通过参考与所述实际动作及所述实际状况向量相关的信息,来分别生成一个以上的第一公共奖励,此外,同样并行地,在步骤S01-3中,所述学习装置100可以指示所述估算网络140,通过参考所述实际状况向量,来分别生成一个以上的实际估算值。
此后,在步骤S02中,所述学习装置100可以指示所述第一损失层150,通过参考(i)与每个所述第一调整奖励及每个所述第一公共奖励相对应的每个第一个性化奖励以及(ii)所述实际估算值来生成至少一个的调整奖励损失。然后,在步骤S03中,所述学习装置100可以指示所述第一损失层150,通过参考所述调整奖励损失来执行反向传播,从而学习所述调整奖励网络130的至少一部分参数。
更具体地,在所述步骤S01-1中生成的每个所述第一调整奖励可以是与在每个所述时间点执行的每个所述实际动作相对应的每个调整奖励。将其称作“第一”调整奖励的原因是为了与其他调整奖励进行区分,例如,用于学习所述估算网络140的第二调整奖励。
此外,每个所述第一公共奖励可以是与在每个所述时间点执行的每个所述实际动作相对应的每个公共奖励。一样地,为了与其他调整奖励进行区分,例如与用于学习所述估算网络140的第二调整奖励进行区分,将其称作“第一”调整奖励。
这样的第一调整奖励与第一公共奖励对应的相加后生成所述第一个性化奖励。通过将这两种奖励相加,可以实现如本发明所揭示的,通过调整所述公共奖励函数来生成所述个性化奖励函数。
另外,所述实际估算值可以是与每个所述时间点的每个所述实际状况下执行的与每个所述公共最优动作相对应的个性化奖励相关的值。作为示例,所述实际估算值可以是这种个性化奖励的总和。
以下,将对通过参考所述第一个性化奖励及所述实际估算值来生成所述调整奖励损失的方法进行说明。通过以下公式来生成:
其中,表示对应于所述驾驶轨迹中的第一驾驶轨迹至第N驾驶轨迹,Vcommon(st)表示在所述驾驶轨迹中特定驾驶轨迹的第t时间点到最后时间点,与基于所述通用最优策略的所述公共最优动作执行期间生成的个性化奖励之和相对应的所述实际估算值中的特定实际估算值,Rcommon(sr,ar,sr+1)+Rdriver(sr,ar,sr+1)表示与所述特定驾驶轨迹的第t时间点相同或之后的第r时间点相对应的所述第一个性化奖励中的第一特定个性化奖励,/>表示在所述特定驾驶轨迹的所述最初时间点到所述最后时间点的时间范围内生成的所述第一调整奖励中的第一特定调整奖励的绝对值之和,γ及α表示已设置的常数。
更具体地,max运算设计如下:(i)将执行所述公共最优奖励时生成的作为个性化奖励之和的所述特定实际估算值Vcommon(st)与所述实际动作同时执行时生成的个性化奖励之和进行比较,(ii)如果后者较大则输出0,如果前者较大则输出前者与后者之间的差。由于所述个性化奖励网络130为了将所述目标驾驶员的偏好以参数方式反映而进行学习,因此当所述公共最优动作相对应的个性化奖励比所述实际动作相对应的个性化奖励大时,可以将更大的梯度应用于所述调整奖励网络的参数。这时,所述两种个性化奖励将被比较。
另外,对于没有max函数的所述调整奖励损失的所述公式的后一部分是为了防止所述第一调整奖励变得太大而添加的。防止所述调整奖励变得太大的原因是若所述调整奖励太大,则所述个性化奖励将过拟合(overfit)于目标驾驶员。若所述调整奖励损失不包括所述后一部分,则所述调整奖励网络140可以进行学习以生成所述调整奖励,与其对应的强化学习代理在与只与所述实际动作相类似地被执行时可以生成变大的个性化奖励。因此,为了防止过拟合,将所述第一调整奖励中的第一特定调整奖励的绝对值之和添加至所述调整奖励损失中。
所述调整奖励损失生成后,所述第一损失层150可以使用该调整奖励损失执行反向传播,以学习所述调整奖励损失的参数。
之后,所述学习装置100可以执行所述估算网络140的学习过程。以下将对其进行详细说明。
即,所述学习装置100可以指示所述调整奖励网络130,通过参考所述实际状况向量来生成一个以上的第二调整奖励。与此同时,所述学习装置100指示所述公共奖励模块170,通过参考所述实际状况向量来生成一个以上的第二公共奖励。此外,并行地,所述学习装置100可以指示所述估算网络140,通过参考每个所述虚拟状况向量来生成与所述虚拟状况相对应的一个以上的虚拟估算值。然后,所述学习装置100指示所述第二损失层160,通过参考(i)与每个所述第二调整奖励相对应的每个所述第二个性化奖励以及每个所述第二公共奖励、(ii)所述虚拟估算值以及(iii)实际估算值来生成一个以上的估算损失,并以所述估算损失为参照进行反向传播,从而学习所述估算网络140的至少一部分参数。
其中,所述第二调整奖励可以表示与在所述驾驶轨迹的每个时间点要执行的每个所述公共最优动作相对应的调整奖励。与所述第一调整奖励不同的是,所述第二调整奖励是用于所述公共最优动作而不是用于所述实际动作。此外,所述第二公共奖励可以表示与将在所述驾驶轨迹的每个所述时间点执行的每个所述公共最优动作相对应的公共奖励。与所述第一公共奖励不同的是,是用于所述公共最优动作而不是用于所述实际动作。因此,对应的所述第二调整奖励及所述第二公共奖励相加而生成的所述第二个性化奖励,不是与所述实际动作而是与所述公共最优动作相对应的个性化奖励。使用针对所述“公共”最优动作的这种第二个性化奖励的原因是,所述估算网络140是对为了所述公共最优动作而生成的个性化奖励的总和进行估算的网络。因此,针对所述公共最优动作的所述第二个性化奖励被用作所述学习数据。
通过参考以上说明,将对使用所述第二个性化奖励、所述虚拟估算值以及所述实际估算值来产生估算损失的方法进行详细说明,参考以下公式进行生成:
其中,表示对应于所述驾驶轨迹中的第一驾驶轨迹至第N驾驶轨迹,Vcommon(st)表示在所述驾驶轨迹中特定驾驶轨迹的第t时间点到最后时间点,与基于所述通用最优策略的所述公共最优动作执行期间生成的个性化奖励之和相对应的所述实际估算值中的特定实际估算值,Vcommon(s′t+1)表示基于所述第t时间点执行所述公共最优动作中的一个而导致的特定虚拟状况的基于第t+1时间点到所述最终时间点为止的与所述公共最优动作执行期间生成的个性化奖励之和相对应的所述虚拟估算值中的特定虚拟估算值,Rcommon(st,a′t,s′t+1)+Rdriver(st,a′t,s′t+1)表示与所述第t时间点相对应的所述第二个性化奖励中的第二特定个性化奖励,γ表示已设置的常数。
更具体地,Rcommon(st,a′t,s′t+1)+Rdriver(st,a′t,s′t+1)+γVcommon(s′t+1)与Vcommon(st)两者都可以表示从第t时间点到最终时间点的时间范围内生成的个性化奖励的总和。然而,后者是所述估算网络对从所述第t时间点到所述最终时间点的时间范围内生成的所述个性化奖励之和进行直接估算的结果,而前者是所述估算网络140对(i)与根据所述调整奖励网络130以及所述公共奖励模块170生成的所述第t时间点执行的所述公共最优动作中之一相关的个性化奖励以及(ii)所述公共最优动作在所述第t时间点执行时从第t+1时间点到所述最终时间点之间生成的个性化奖励之和进行估算的输出值。可以说前者比后者更准确,因为实际上,当执行所述公共最优动作时,所述估算网络140会估算所述调整奖励网络130以及所述公共奖励模块170的输出值之和。更具体地,后者包括对于所述第t时间点的所述调整奖励网络130以及所述公共奖励模块170的输出值的估算总和,而前者与后者包括的所述估算总和不同,包括的是所述调整奖励网络130以及所述公共奖励模块170的实际输出值的实际总和,所以前者更准确。因此,若所述估算网络140在没有完全学习的情况下,前者与后者间的差异将很大,反之亦然。所述估算损失公式是为了将所述估算网络140的适当性与差异点间的这种关系反映在所述估算损失上而设计的。以上学习过程与使用马尔可夫决策过程(Markov Decision Process)的方法相类似,因此本领域技术人员通过参考以上说明可以很容易地理所述学习过程。
至此,已对所述调整奖励网络130以及所述估算网络140的学习过程进行了说明。从所述学习过程中可以看出,两个网络在各自的学习过程中需要彼此。即,当学习所述调整奖励网络130时需要作为所述估算网络140的输出值的所述实际估算值,当学习所述估算网络140时需要作为所述调整奖励网络130的输出值的第二调整奖励。因此,可以交替学习两个网络。也就是说,可以先学习所述调整奖励网络130,然后学习所述估算网络140,之后再学习所述调整奖励网络130,然后再学习所述估算网络140,反复进行。在前面的说明中,相比于所述估算网络140的学习,看似是先对所述调整奖励网络130进行学习,但这不是必须的,也可以先学习所述估算网络140。
这里,用于学习所述两个网络的所述学习数据,即用于所述目标驾驶员的所述驾驶轨迹,可以通过(i)将查询(query)发送至数据库(database),(ii)从所述数据库中包括的与所述目标驾驶员相对应的驾驶轨迹组中进行随机采样(sampling),(iii)将其传送至所述学习装置100,以小批量(mini batch)的形式提供给所述学习装置。
在以上说明中,记载为所述相同的小批量用于所述调整奖励网络130以及所述估算网络140,但本发明的保护范围不限于此。即,可以为两个所述网络中的每一个的所述学习过程,选择分别不同的小批量。对本发明的方法的这种变形对于本领域技术人员是显而易见的,因此,这样的实施例包括在本发明的保护范围内。
至此,已对本发明的学习过程进行了说明。下面将对本发明的测试过程进行说明。
即,(1)当学习装置100获取到所述目标驾驶员的一个以上的学习用驾驶轨迹中分别包括的,在与一个以上的学习用实际状况向量相对应的学习用时间点,通过参考一个以上的学习用实际状况执行的一个以上的学习用实际动作的相关信息及相对应的所述学习用实际状况向量时,执行以下步骤:(i)指示调整奖励网络130,通过参考所述学习用实际状况向量及所述学习用实际动作的信息,分别生成与在每个所述学习用时间点执行的每个所述学习用实际动作相对应的一个以上的学习用第一调整奖励,所述调整奖励网络构建为用于启动调整奖励函数,所述调整奖励函数用于从所述公共最优策略相对应的公共奖励函数生成所述个性化奖励函数;(ii)指示对应于所述公共奖励函数的公共奖励模块170,通过参考所述学习用实际状况向量及所述学习用实际动作的信息,分别生成与在每个所述学习用时间点执行的每个所述学习用实际动作相对应的一个以上的学习用第一调整奖励;以及(iii)指示估算网络140,通过参考所述学习用实际状况向量,分别生成与在所述学习用驾驶轨迹的每个所述学习用时间点的每个所述学习用实际状况分别对应的一个以上的学习用实际估算值,所述估算网络用于估算学习用个性化奖励之和,所述学习用个性化奖励之和是基于所述学习用公共最优策略的学习用公共最优动作根据与其相对应的学习用实际状况在被执行的过程中生成的;以及(2)所述学习装置100指示第一损失层150通过参考(i)与每个所述学习用第一调整奖励及每个所述学习用第一公共奖励相对应的每个学习用第一个性化奖励、以及(ii)所述学习用实际估算值,来生成至少一个调整奖励损失,并以所述调整奖励损失为参照进行反向传播来学习所述调整奖励网络的至少一部分参数,并在此状态下,测试装置指示所述调整奖励网络130及所述公共奖励模块170通过参考(i)与第t时间点相对应的测试用实际状况向量及(ii)基于所述个性化强化学习代理而生成的测试用实际动作,来生成包括测试用调整奖励及测试用公共奖励的测试用个性化奖励。
然后,所述测试装置指示所述个性化强化学习代理,通过参考所述测试用个性化奖励来学习自身的参数。所述强化学习代理使用基于所述公共奖励模块170以及所述调整奖励网络130建立的所述个性化奖励函数的方法与所述强化学习上的传统技术(conventional arts)相类似,因此省略更多说明。
通过使用所述测试用个性化奖励来学习所述个性化强化学习代理,所述目标车辆可以与所述学习用实际动作相类似的驾驶,从而自主地向所述目标驾驶员提供特定于驾驶员的更好的驾驶体验。
本发明技术方案的目的或对现有技术做出贡献的部分可以通过各种计算机手段以可执行程序命令的形式来实现,并且可以被记录到计算机可读记录介质中。计算机可读介质可以单独或组合的形式去包括程序命令、数据文件和数据结构。记录到介质的程序命令可以是为本公开内容专门设计的组件,或者可以是计算机软件领域的技术人员可以使用的。计算机可读记录介质包括磁性介质(例如硬盘,软盘和磁带)、光学介质(例如CD-ROM和DVD)、磁光介质(例如软盘)和硬件装置(例如ROM、RAM和闪存)设计用于存储和执行程序。程序命令不仅包括由编译器进行的机器语言代码,而且包括可由计算机执行的解释器等可以使用的高级代码。前述硬件装置可以起软件模块的作用,以执行本公开的动作,并且它们可以在相反的情况下进行相同的操作。硬件装置可以与诸如ROM和RAM之类的存储器组合以存储程序命令,并且可以包括诸如CPU或GPU之类的处理器,以执行存储在存储器中的命令,并且还包括用于与外部装置发送和接收信号的通信部分。
如上所述,已经通过诸如详细的部件、受限的实施例和附图的特定事项对本公开进行了说明。但,应当理解的是,本领域内技术人员可以在不脱离本公开的精神和范围的情况下进行各种改变和修改。
因此,本发明的思想一定不限于上述的实施例,并且权利要求书以及包括与权利要求书等同或等同的变型在内的所有内容都属于本公开的保护范围内。

Claims (16)

1.一种通过使用至少一个用于执行强化学习方法的个性化奖励函数来支持目标车辆自动驾驶的学习方法,该方法对应于目标驾驶员的个性化最优策略,所述个性化最优策略是通过调整基于自动驾驶的公共准则而建立的公共最优策略而获得的,其中,所述方法包括以下步骤:
(a)当学习装置获取到所述目标驾驶员的一个以上的驾驶轨迹中分别包括的在与一个以上的实际状况向量相对应的时间点、并通过参考一个以上的实际状况执行的一个以上的实际动作的相关信息及其对应的所述实际状况向量时,执行以下步骤:(i)指示调整奖励网络,通过参考所述实际状况向量及所述实际动作的信息,分别生成与在每个所述时间点执行的每个所述实际动作相对应的一个以上的第一调整奖励,所述调整奖励网络构建为用于启动调整奖励函数,所述调整奖励函数用于从所述公共最优策略对应的公共奖励函数生成所述个性化奖励函数;(ii)指示对应于所述公共奖励函数的公共奖励模块,通过参考所述实际状况向量及所述实际动作的信息,分别生成与在每个所述时间点执行的每个所述实际动作相对应的所述一个以上的第一公共奖励;以及(iii)指示估算网络,通过参考所述实际状况向量,分别生成与在所述驾驶轨迹的每个所述时间点的每个所述实际状况相对应的一个以上的实际估算值,所述估算网络用于估算个性化奖励之和,所述个性化奖励之和是基于所述公共最优策略的公共最优动作根据与其相对应的实际状况在被执行的过程中生成的;以及
(b)所述学习装置指示第一损失层通过参考(i)与每个所述第一调整奖励及每个所述第一公共奖励相对应的每个第一个性化奖励、以及(ii)所述实际估算值,来生成至少一个调整奖励损失,并以所述调整奖励损失为参照进行反向传播来学习所述调整奖励网络的至少一部分参数。
2.根据权利要求1所述的方法,其中,还包括以下步骤:
(c)所述学习装置还执行以下步骤:(i)指示所述调整奖励网络,通过参考所述实际状况向量,生成与所述驾驶轨迹的每个所述时间点执行的每个所述公共最优动作相对应的一个以上的第二调整奖励;(ii)指示所述公共奖励模块,通过参考所述实际状况向量,生成与所述驾驶轨迹的每个所述时间点执行的每个所述公共最优动作相对应的一个以上的第二公共奖励;(iii)指示所述估算网络,通过参考与在所述驾驶轨迹的每个所述时间点执行所述公共最优动作而导致的虚拟状况相对应的一个以上的每个虚拟状况向量,生成与所述虚拟状况相对应的一个以上的虚拟估算值;以及
(d)所述学习装置指示第二损失层通过参考(i)与每个所述第二调整奖励及每个所述第二公共奖励相对应的每个第二个性化奖励、(ii)所述虚拟估算值以及(iii)所述实际估算值,生成至少一个估算损失,并以所述估算损失为参照进行反向传播来学习所述估算网络的至少一部分参数。
3.根据权利要求2所述的方法,其中,所述虚拟状况向量是通过对与所述公共最优策略相对应的所述公共最优动作及其对应的所述实际状况向量中的至少一部分,分别进行状况估算运算来获得;
所述状况估算运算是通过已学习的状况估算网络执行,或通过(i)指示虚拟空间模拟器,在虚拟空间上模拟与特定实际状况向量相对应的特定实际状况后,(ii)指示所述特定实际状况中的虚拟车辆,执行基于所述公共最优策略的所述公共最优动作中的一个后,(iii)对基于所述公共最优动作中的所述一个而导致的所述虚拟空间的变化进行检验来执行。
4.根据权利要求2所述的方法,其中,所述学习装置对与所述步骤(a)及所述步骤(b)相对应的学习所述调整奖励网络的步骤、以及与所述步骤(c)以及所述步骤(d)相对应的学习所述估算网络的步骤进行重复执行,进而完全学习所述调整奖励网络及所述估算网络。
5.根据权利要求1所述的方法,其中,所述驾驶轨迹作为通过从所述目标驾驶员对应的驾驶轨迹组中随机采样所述驾驶轨迹而生成的小批量来提供给所述学习装置。
6.根据权利要求1所述的方法,其中,基于所述公共最优策略的所述公共最优动作是根据一般强化学习代理来决定,所述一般强化学习代理是使用与所述公共最优策略相对应的所述公共奖励模块来执行所述强化学习方法进行最优化的。
7.一种通过使用至少一个用于学习个性化强化学习代理的个性化奖励函数来支持目标车辆自动驾驶的测试方法,该测试方法对应于目标驾驶员的个性化最优策略,所述个性化最优策略是通过调整基于自动驾驶的公共准则而建立的公共最优策略而获得的,其中,所述测试方法包括以下步骤:
(a)(1)当学习装置获取到所述目标驾驶员的一个以上的学习用驾驶轨迹中分别包括的,在与一个以上的学习用实际状况向量相对应的学习用时间点,通过参考一个以上的学习用实际状况执行的一个以上的学习用实际动作的相关信息及其对应的所述学习用实际状况向量时,执行以下步骤:(i)指示调整奖励网络,通过参考所述学习用实际状况向量及所述学习用实际动作的信息,分别生成与在每个所述学习用时间点执行的每个所述学习用实际动作相对应的一个以上的学习用第一调整奖励,所述调整奖励网络构建为用于启动调整奖励函数,所述调整奖励函数用于从所述公共最优策略相对应的公共奖励函数生成所述个性化奖励函数;(ii)指示对应于所述公共奖励函数的公共奖励模块,通过参考所述学习用实际状况向量及所述学习用实际动作的信息,分别生成与在每个所述学习用时间点执行的每个所述学习用实际动作相对应的一个以上的学习用第一公共奖励;以及(iii)指示估算网络,通过参考所述学习用实际状况向量,分别生成与在所述学习用驾驶轨迹的每个所述学习用时间点的每个所述学习用实际状况分别对应的一个以上的学习用实际估算值,所述估算网络用于估算学习用个性化奖励之和,所述学习用个性化奖励之和是基于所述公共最优策略的学习用公共最优动作根据与其相对应的学习用实际状况在被执行的过程中生成的;以及(2)所述学习装置指示第一损失层通过参考(i)与每个所述学习用第一调整奖励及每个所述学习用第一公共奖励相对应的每个学习用第一个性化奖励、以及(ii)所述学习用实际估算值,来生成至少一个调整奖励损失,并以所述调整奖励损失为参照进行反向传播来学习所述调整奖励网络的至少一部分参数,并在此状态下,测试装置指示所述调整奖励网络及所述公共奖励模块通过参考(i)与第t时间点相对应的测试用实际状况向量及(ii)基于所述个性化强化学习代理而生成的测试用实际动作,来生成包括测试用调整奖励及测试用公共奖励的测试用个性化奖励;以及
(b)所述测试装置指示所述个性化强化学习代理,通过参考所述测试用个性化奖励来学习自身的参数。
8.根据权利要求7所述的测试方法,其中,在所述步骤(b)中,所述个性化强化学习代理通过参考所述测试用个性化奖励来学习所述自身的参数,从而支持所述目标车辆以与所述学习用实际动作相似的方式驾驶。
9.一种通过使用至少一个用于执行强化学习方法的个性化奖励函数来支持目标车辆自动驾驶的学习装置,该方法对应于目标驾驶员的个性化最优策略,所述个性化最优策略是通过调整基于自动驾驶的公共准则而建立的公共最优策略而获得的,其中,包括:
至少一个存储指令的存储器;以及
至少一个处理器,所述处理器被配置为执行以下步骤:(I)当获取到所述目标驾驶员的一个以上的驾驶轨迹中分别包括的在与一个以上的实际状况向量相对应的时间点、并通过参考一个以上的实际状况执行的一个以上的实际动作的相关信息及相对应的所述实际状况向量时,执行以下步骤:(i)指示调整奖励网络,通过参考所述实际状况向量及所述实际动作的信息,分别生成与在每个所述时间点执行的每个所述实际动作相对应的一个以上的第一调整奖励,所述调整奖励网络构建为用于启动调整奖励函数,所述调整奖励函数用于从所述公共最优策略相对应的公共奖励函数生成所述个性化奖励函数;(ii)指示对应于所述公共奖励函数的公共奖励模块,通过参考所述实际状况向量及所述实际动作的信息,分别生成与在每个所述时间点执行的每个所述实际动作相对应的一个以上的第一公共奖励;以及(iii)指示估算网络,通过参考所述实际状况向量,分别生成与在所述驾驶轨迹的每个所述时间点的每个所述实际状况分别对应的一个以上的实际估算值,所述估算网络用于估算个性化奖励之和,所述个性化奖励之和是基于所述公共最优策略的公共最优动作根据与其相对应的实际状况在被执行的过程中生成的;以及
(II)指示第一损失层通过参考(i)与每个所述第一调整奖励及每个所述第一公共奖励相对应的每个第一个性化奖励、以及(ii)所述实际估算值,来生成至少一个调整奖励损失,并以所述调整奖励损失为参照进行反向传播来学习所述调整奖励网络的至少一部分参数。
10.根据权利要求9所述的学习装置,其中,所述处理器还执行以下步骤:
(III)(i)指示所述调整奖励网络,通过参考所述实际状况向量,生成与所述驾驶轨迹的每个所述时间点执行的每个所述公共最优动作相对应的一个以上的第二调整奖励;(ii)指示所述公共奖励模块,通过参考所述实际状况向量,生成与所述驾驶轨迹的每个所述时间点执行的每个所述公共最优动作相对应的一个以上的第二公共奖励;(iii)指示所述估算网络,通过参考与在所述驾驶轨迹的每个所述时间点执行所述公共最优动作而导致的虚拟状况相对应的一个以上的每个虚拟状况向量,生成与所述虚拟状况相对应的一个以上的虚拟估算值;以及
(IV)指示第二损失层通过参考(i)与每个所述第二调整奖励及每个所述第二公共奖励相对应的每个第二个性化奖励、(ii)所述虚拟估算值以及(iii)所述实际估算值,生成至少一个估算损失,并以所述估算损失为参照进行反向传播来学习所述估算网络的至少一部分参数。
11.根据权利要求10所述的学习装置,其中,所述虚拟状况向量是通过对与所述公共最优策略相对应的所述公共最优动作及其对应的所述实际状况向量中的至少一部分,分别进行状况估算运算来获得;
所述状况估算运算是通过已学习的状况估算网络执行,或通过(i)指示虚拟空间模拟器,在虚拟空间上模拟与特定实际状况向量相对应的特定实际状况后,(ii)指示所述特定实际状况中的虚拟车辆,执行基于所述公共最优策略的所述公共最优动作中的一个后,(iii)对基于所述公共最优动作中的所述一个而导致的所述虚拟空间的变化进行检验来执行。
12.根据权利要求10所述的学习装置,其中,所述处理器对与所述步骤(I)及所述步骤(II)相对应的学习所述调整奖励网络的步骤、以及与所述步骤(III)以及所述步骤(IV)相对应的学习所述估算网络的步骤进行重复执行,进而完全学习所述调整奖励网络及所述估算网络。
13.根据权利要求9所述的学习装置,其中,所述驾驶轨迹作为通过从与所述目标驾驶员相对应的驾驶轨迹组中随机采样所述驾驶轨迹而生成的小批量提供给所述学习装置。
14.根据权利要求9所述的学习装置,其中,基于所述公共最优策略的所述公共最优动作是根据一般强化学习代理来决定,所述一般强化学习代理是使用与所述公共最优策略相对应的所述公共奖励模块来执行所述强化学习方法而最优化的。
15.一种通过使用至少一个用于学习个性化强化学习代理的个性化奖励函数来支持目标车辆自动驾驶的测试装置,该测试装置对应于目标驾驶员的个性化最优策略,所述个性化最优策略是通过调整基于自动驾驶的公共准则而建立的公共最优策略而获得的,其中,包括:
至少一个存储指令的存储器;以及
至少一个处理器,所述处理器被配置为执行以下步骤:(I)(1)当学习装置获取到所述目标驾驶员的一个以上的学习用驾驶轨迹中分别包括的在与一个以上学习用实际状况向量的学习用时间点、并通过参考一个以上的学习用实际状况而执行的一个以上的学习用实际动作的信息及相对应的所述学习用实际状况向量时,执行以下步骤:(i)指示调整奖励网络,通过参考所述学习用实际状况向量及所述学习用实际动作的信息,分别生成与在每个所述学习用时间点执行的每个所述学习用实际动作相对应的一个以上的学习用第一调整奖励,所述调整奖励网络构建为用于启动调整奖励函数,所述调整奖励函数用于从所述公共最优策略相对应的公共奖励函数中生成所述个性化奖励函数;(ii)指示对应于所述公共奖励函数的公共奖励模块,通过参考所述学习用实际状况向量及所述学习用实际动作的信息,分别生成与在每个所述学习用时间点执行的每个所述学习用实际动作相对应的一个以上的学习用第一公共奖励;以及(iii)指示估算网络,通过参考所述学习用实际状况向量,分别生成与在所述学习用驾驶轨迹的每个所述学习用时间点的每个所述学习用实际状况分别对应的一个以上的学习用实际估算值,所述估算网络用于估算学习用个性化奖励之和,所述学习用个性化奖励之和是基于所述公共最优策略的学习用公共最优动作根据与其相对应的学习用实际状况在被执行的过程中生成的;以及(2)所述学习装置指示第一损失层通过参考(i)与每个所述学习用第一调整奖励及每个所述学习用第一公共奖励相对应的每个学习用第一个性化奖励、以及(ii)所述学习用实际估算值,来生成至少一个调整奖励损失,并以所述调整奖励损失为参照进行反向传播来学习所述调整奖励网络的至少一部分参数,并在此状态下,测试装置指示所述调整奖励网络及所述公共奖励模块通过参考(i)与第t时间点相对应的测试用实际状况向量及(ii)基于所述个性化强化学习代理而生成的测试用实际动作,来生成包括测试用调整奖励及测试用公共奖励的测试用个性化奖励;以及(II)指示所述个性化强化学习代理,通过参考所述测试用个性化奖励来学习自身的参数。
16.根据权利要求15所述的测试装置,其中,在所述步骤(II)中,所述个性化强化学习代理通过参考所述测试用个性化奖励来学习所述自身的参数,从而支持所述目标车辆以与所述学习用实际动作相似的方式驾驶。
CN202010068642.0A 2019-01-31 2020-01-21 通过强化学习来执行个性化路径规划的方法及装置 Active CN111507501B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962799368P 2019-01-31 2019-01-31
US62/799,368 2019-01-31
US16/740,135 US11074480B2 (en) 2019-01-31 2020-01-10 Learning method and learning device for supporting reinforcement learning by using human driving data as training data to thereby perform personalized path planning
US16/740,135 2020-01-10

Publications (2)

Publication Number Publication Date
CN111507501A CN111507501A (zh) 2020-08-07
CN111507501B true CN111507501B (zh) 2024-02-09

Family

ID=69185463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010068642.0A Active CN111507501B (zh) 2019-01-31 2020-01-21 通过强化学习来执行个性化路径规划的方法及装置

Country Status (5)

Country Link
US (1) US11074480B2 (zh)
EP (1) EP3690769A1 (zh)
JP (1) JP6931937B2 (zh)
KR (1) KR102373448B1 (zh)
CN (1) CN111507501B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11279372B2 (en) * 2019-08-23 2022-03-22 Toyota Research Institute, Inc. System and method for controlling a vehicle having an autonomous mode and a semi-autonomous mode
CN112414420B (zh) * 2020-08-13 2023-05-02 腾讯科技(深圳)有限公司 一种基于交通流量的导航方法以及相关装置
US11626021B2 (en) * 2020-10-07 2023-04-11 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for dispatching shared rides through ride-hailing platform
CN112558601B (zh) * 2020-11-09 2024-04-02 广东电网有限责任公司广州供电局 一种基于Q-learning算法和水滴算法的机器人实时调度方法及系统
CN113173170B (zh) * 2021-01-08 2023-03-17 海南华天科创软件开发有限公司 基于人员画像个性化算法
CN113050634B (zh) * 2021-03-12 2022-03-18 北方工业大学 一种攀爬机器人闭环控制方法及系统
CN113065709B (zh) * 2021-04-13 2023-06-30 西北工业大学 一种基于强化学习的跨域异构集群路径规划方法
CN113240118B (zh) * 2021-05-18 2023-05-09 中国科学院自动化研究所 优势估计方法、装置、电子设备和存储介质
CN113548047B (zh) * 2021-06-08 2022-11-11 重庆大学 一种基于深度学习的个性化车道保持辅助方法及装置
CN113353102B (zh) * 2021-07-08 2022-11-25 重庆大学 一种基于深度强化学习的无保护左转弯驾驶控制方法
CN113635909B (zh) * 2021-08-19 2022-07-12 崔建勋 一种基于对抗生成模仿学习的自动驾驶控制方法
CN113723012B (zh) * 2021-09-10 2024-04-30 上海交通大学 一种基于多智能体生成对抗模仿安全学习的协作围捕方法
CN114089762A (zh) * 2021-11-22 2022-02-25 江苏科技大学 一种基于强化学习的水空两栖无人航行器路径规划方法
CN113879339A (zh) * 2021-12-07 2022-01-04 阿里巴巴达摩院(杭州)科技有限公司 自动驾驶的决策规划方法、电子设备及计算机存储介质
CN114146420B (zh) * 2022-02-10 2022-04-22 中国科学院自动化研究所 一种资源分配方法、装置及设备
CN115235476B (zh) * 2022-09-26 2023-01-17 宁波均胜智能汽车技术研究院有限公司 一种全覆盖路径规划方法、装置、存储介质、电子设备
CN116010621B (zh) * 2023-01-10 2023-08-11 华中师范大学 一种基于规则引导的自适应路径生成方法
CN117601904B (zh) * 2024-01-22 2024-05-14 中国第一汽车股份有限公司 车辆行驶轨迹的规划方法、装置、车辆及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180044486A (ko) * 2016-10-21 2018-05-03 네이버 주식회사 자율 주행 기술을 응용한 3차원 실내 정밀 지도 자동 생성 로봇 및 로봇의 제어 방법
WO2018211140A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Data efficient imitation of diverse behaviors
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122992A (ja) * 1998-08-12 2000-04-28 Sony Corp 情報処理装置および方法、並びに提供媒体
US11062207B2 (en) * 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
CN110114783B (zh) * 2016-11-04 2023-07-18 渊慧科技有限公司 利用辅助任务的强化学习
IL287819B (en) * 2017-01-12 2022-07-01 Mobileye Vision Technologies Ltd Navigation based on vehicle activity
JP2018135068A (ja) * 2017-02-23 2018-08-30 パナソニックIpマネジメント株式会社 情報処理システム、情報処理方法及びプログラム
US11670420B2 (en) * 2017-04-12 2023-06-06 Koninklijke Philips N.V. Drawing conclusions from free form texts with deep reinforcement learning
ES2943122T3 (es) * 2017-06-29 2023-06-09 Boeing Co Método y sistema para operar de forma autónoma una aeronave
US10739776B2 (en) * 2017-10-12 2020-08-11 Honda Motor Co., Ltd. Autonomous vehicle policy generation
US11093829B2 (en) * 2017-10-12 2021-08-17 Honda Motor Co., Ltd. Interaction-aware decision making
JP6628819B2 (ja) * 2018-01-15 2020-01-15 本田技研工業株式会社 車両走行制御装置
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110646009B (zh) * 2019-09-27 2022-03-01 北京邮电大学 一种基于dqn的车辆自动驾驶路径规划的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180044486A (ko) * 2016-10-21 2018-05-03 네이버 주식회사 자율 주행 기술을 응용한 3차원 실내 정밀 지도 자동 생성 로봇 및 로봇의 제어 방법
WO2018211140A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Data efficient imitation of diverse behaviors
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法

Also Published As

Publication number Publication date
CN111507501A (zh) 2020-08-07
JP2020126646A (ja) 2020-08-20
US20200250486A1 (en) 2020-08-06
JP6931937B2 (ja) 2021-09-08
KR102373448B1 (ko) 2022-03-14
US11074480B2 (en) 2021-07-27
KR20200095378A (ko) 2020-08-10
EP3690769A1 (en) 2020-08-05

Similar Documents

Publication Publication Date Title
CN111507501B (zh) 通过强化学习来执行个性化路径规划的方法及装置
CN113392935B (zh) 基于注意力机制的多智能体深度强化学习策略优化方法
US20200216094A1 (en) Personal driving style learning for autonomous driving
US10373026B1 (en) Learning method and learning device for generation of virtual feature maps whose characteristics are same as or similar to those of real feature maps by using GAN capable of being applied to domain adaptation to be used in virtual driving environments
CN111507172A (zh) 通过预测周围物体移动支持安全的自动驾驶的方法和装置
CN111489285B (zh) 利用循环gan将真实图像变换成虚拟图像的方法及装置
CN111507167A (zh) 以avm与强化学习实现注意力驱动资源分配的方法和装置
US10325371B1 (en) Method and device for segmenting image to be used for surveillance using weighted convolution filters for respective grid cells by converting modes according to classes of areas to satisfy level 4 of autonomous vehicle, and testing method and testing device using the same
CN111462131A (zh) 一种注意力驱动图像分割的方法和设备
EP3686837B1 (en) Learning method and learning device for reducing distortion occurred in warped image generated in process of stabilizing jittered image by using gan to enhance fault tolerance and fluctuation robustness in extreme situations
US10325179B1 (en) Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same
US10890916B2 (en) Location-specific algorithm selection for optimized autonomous driving
CN111507159B (zh) 提供自动驾驶安全性的方法和装置
CN111476082B (zh) 在线批次归一化、在线学习及持续学习的方法和装置
CN112997128A (zh) 一种自动驾驶场景的生成方法、装置及系统
US10872297B2 (en) Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same
US20200250514A1 (en) Learning method and learning device for integrating object detection information acquired through v2v communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
US10402686B1 (en) Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
CN114194211B (zh) 一种自动驾驶方法、装置及电子设备和存储介质
US10650279B1 (en) Learning method and learning device for heterogeneous sensor fusion by using merging network which learns non-maximum suppression
US10838418B2 (en) Method for providing autonomous driving service platform to be used for supporting autonomous driving of vehicles by using competitive computing and information fusion, and server using the same
CN111507175B (zh) 用于虚拟世界中学习的卷积神经网络的方法和装置
US10776542B2 (en) Method and device for calibrating physics engine of virtual world simulator to be used for learning of deep learning-based device, and a learning method and learning device for real state network used therefor
Reiter et al. A hierarchical approach for strategic motion planning in autonomous racing
EP3920070A1 (en) Testing and simulation in autonomous driving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant