CN113511222A - 场景自适应式车辆交互行为决策与预测方法及装置 - Google Patents

场景自适应式车辆交互行为决策与预测方法及装置 Download PDF

Info

Publication number
CN113511222A
CN113511222A CN202110997604.8A CN202110997604A CN113511222A CN 113511222 A CN113511222 A CN 113511222A CN 202110997604 A CN202110997604 A CN 202110997604A CN 113511222 A CN113511222 A CN 113511222A
Authority
CN
China
Prior art keywords
vehicle
interaction
driving
weight factor
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110997604.8A
Other languages
English (en)
Other versions
CN113511222B (zh
Inventor
罗禹贡
刘金鑫
钟志华
李克强
王庭晗
王博
徐明畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110997604.8A priority Critical patent/CN113511222B/zh
Publication of CN113511222A publication Critical patent/CN113511222A/zh
Application granted granted Critical
Publication of CN113511222B publication Critical patent/CN113511222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • B60W60/0016Planning or execution of driving tasks specially adapted for safety of the vehicle or its occupants
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4042Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2555/00Input parameters relating to exterior conditions, not covered by groups B60W2552/00, B60W2554/00
    • B60W2555/60Traffic rules, e.g. speed limits or right of way

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mechanical Engineering (AREA)
  • Economics (AREA)
  • Transportation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明公开了一种场景自适应式车辆交互行为决策与预测方法及装置,其中,方法包括以下步骤:采集本车当前时刻的驾驶环境信息,并根据驾驶环境信息确定本车与目标车辆当前所处的交互阶段;根据交互阶段确定当前时刻下车辆之间的映射模型和交互模型,并根据映射模型确定本车与目标车辆在当前时刻下回报函数中的最优权重因子;根据最优权重因子和交互模型分别确定本车与目标车辆的回报函数,并结合交互阶段对应的动作空间预测本车与目标车辆下一时刻的行车动作,以确定本车当前时刻下的最佳交互动作,并基于最佳交互动作控制本车自动驾驶。该方法能够提高智能车辆对实际交通场景的判断和预测能力,使其能够进行安全、可靠、高效的驾驶行为决策。

Description

场景自适应式车辆交互行为决策与预测方法及装置
技术领域
本发明涉及自动驾驶技术领域,特别涉及一种场景自适应式车辆交互行为决策与预测方法及装置。
背景技术
由于机器学习等人工智能领域的技术飞速发展,智能车辆是汽车行业重要发展方向之一,也是未来智慧交通和智慧城市建设中的核心元素。而提高智能车辆的决策能力对提升其智能化水平起着关键的作用。
但是在现实复杂的驾驶场景中,交通参与者的行为是不确定的,时变的,且相互影响的,即存在较强的随机性、动态性和交互性。尤其在混合交通场景下,智能车辆和人类驾驶车辆并存,为了保障智能车辆的行驶安全性和稳定性,智能车辆在基于感知系统提供的信息进行行为决策时,需要同时考虑周围车辆的驾驶行为对自己行为决策的影响,以及自己的驾驶行为对周围车辆的影响。
因此,考虑车辆间行为的交互性对提高智能车辆的决策安全性至关重要。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种场景自适应式车辆交互行为决策与预测方法,能够提高智能车辆对实际交通场景的判断和预测能力,使其能够进行安全、可靠、高效的驾驶行为决策。
本发明的另一个目的在于提出一种场景自适应式车辆交互行为决策与预测装置。
为达到上述目的,本发明一方面实施例提出了一种场景自适应式车辆交互行为决策与预测方法,包括以下步骤:采集本车当前时刻的驾驶环境信息,并根据所述驾驶环境信息确定本车与目标车辆当前所处的交互阶段;根据所述交互阶段确定当前时刻下车辆之间的映射模型和交互模型,并根据所述映射模型确定所述本车与所述目标车辆在当前时刻下回报函数中的最优权重因子;根据最优权重因子和所述交互模型分别确定所述本车与所述目标车辆的回报函数,并结合所述交互阶段对应的动作空间预测所述本车与所述目标车辆下一时刻的行车动作,以确定所述本车当前时刻下的最佳交互动作,并基于所述最佳交互动作控制本车自动驾驶。
本发明实施例的场景自适应式车辆交互行为决策与预测方法,基于博弈论和逆强化学习的场景自适应式车辆交互行为决策与预测,可以用于智能车辆在动态驾驶场景中做出更合理可靠的行为决策,同时对其他目标车辆做出相应的行为预测,具备较好的场景适应性和实时性,提升自动驾驶的可靠性及安全性。
另外,根据本发明上述实施例的场景自适应式车辆交互行为决策与预测方法还可以具有以下附加的技术特征:
在本发明的一个实施例中,所述驾驶环境信息包括车辆状态信息和交通规则信息,在采集本车当前时刻的驾驶环境信息之前,还包括:定义车辆驾驶行为所对应的回报函数Ui:Ui=αiFuncsafetyiFuncefficiency,其中,i=0,1,0代表本车,1代表目标车辆,Funcsafety代表行驶安全函数,Funcefficiency代表行驶效率函数,αi为行驶安全函数的权重因子,βi为行驶效率函数的权重因子;根据车辆所处的运动状态、车辆状态信息和交通规则信息对所述回报函数进行修正,并利用非合作静态博弈理论构建所述交互模型,其中,所述交互模型包括交互对象集合P、动作空间A、回报函数U、混合策略解σ。
在本发明的一个实施例中,根据车辆所处的运动状态、车辆状态信息和交通规则信息对所述回报函数进行修正,包括:当车辆处于横向偏移运动状态时,根据本车与正前方车辆、目标车道前方车辆、目标车道后方车辆的碰撞风险对所述行驶安全函数进行修正,根据本车速度、正前方车辆速度和目标车道前车辆速度中的最大值对所述行驶效率函数进行修正,并结合所述交通规则信息和地形限制信息对所述回报函数进行修正,以得到偏离交互阶段的回报函数:
Figure BDA0003234614390000021
其中,v22代表本车的纵向速度,v23代表自本车前方车辆的纵向速度,v13代表目标车道前方车辆的纵向速度,D13_22代表自车与目标车道前方车辆的相对纵向距离,D11_22代表自车与目标车道后方车辆的相对纵向距离,v′33代表进入本车道车辆的横向速度,D′33_22代表本车与进入本车道车辆的相对横向距离;当车辆处于直行运动状态时,根据本车与正前方车辆、进入本车道车辆的碰撞风险对所述行驶安全函数进行修正,根据本车速度对所述行驶效率函数进行修正,并结合所述交通规则信息对所述回报函数进行修正,以得到直行交互阶段的回报函数:
Figure BDA0003234614390000022
其中,v23代表本车前方车辆的纵向速度,v13代表目标车道前方车辆的纵向速度。
在本发明的一个实施例中,在采集本车当前时刻的驾驶环境信息之前,还包括:根据预设时刻下的驾驶环境信息得到车辆hi和与其交互的其他车辆hi′的驾驶状态信息,同时得到车辆hi和与其交互的其他车辆hi′在预设时刻下实际采取的专家动作
Figure BDA0003234614390000023
根据当前环境下车辆所处的交互阶段,初始化回报函数对应的权重因子,确定车辆的动作空间,并计算相应的动作特征向量,根据车辆的回报函数,由车辆交互模型得到车辆取其动作空间中各个动作的概率,并计算车辆的期望特征,以分别得到车辆hi对应的回报函数
Figure BDA0003234614390000031
权重因子
Figure BDA0003234614390000032
动作空间
Figure BDA0003234614390000033
动作特征向量
Figure BDA0003234614390000034
期望特征
Figure BDA0003234614390000035
以及与车辆hi交互的其他车辆hi′的权重因子
Figure BDA0003234614390000036
回报函数
Figure BDA0003234614390000037
动作特征向量
Figure BDA0003234614390000038
和期望特征
Figure BDA0003234614390000039
同时得到专家动作
Figure BDA00032346143900000310
Figure BDA00032346143900000311
的动作特征向量
Figure BDA00032346143900000312
和期望特征
Figure BDA00032346143900000313
根据期望特征
Figure BDA00032346143900000314
Figure BDA00032346143900000315
Figure BDA00032346143900000316
计算得到车辆hi和hi′的特征梯度向量,并根据权重因子更新公式对权重因子进行更新,得到车辆hi和hi′的新权重因子,且在特征梯度向量小于设定阈值时停止更新,以得到交互模型回报函数中车辆hi和车辆hi′的最优权重因子;基于动态贝叶斯网络建立最优权重因子与交互阶段对应的驾驶状态之间的映射模型。
在本发明的一个实施例中,所述基于动态贝叶斯网络建立最优权重因子与交互阶段之间的映射模型,包括:根据车辆处于直行交互阶段与偏移交互阶段对应的驾驶状态信息,得到在时刻1∶t范围内交互车辆hi和hi′在不同驾驶状态
Figure BDA00032346143900000317
下所对应的各自交互模型中回报函数的最优权重因子
Figure BDA00032346143900000318
根据多个不同时刻下的时序数据DT1∶t,利用映射模型的参数学习,得到匹配当前时序数据的最佳映射模型参数ξ,基于模型学习后的参数ξ进行概率推理,得到时刻k所对应的最优权重因子;建立最优权重因子与交互阶段对应的驾驶状态之间的映射关系,并根据所述映射关系分别建立所述直行交互阶段与所述偏移交互阶段对应的映射模型。
为达到上述目的,本发明另一方面实施例提出了一种场景自适应式车辆交互行为决策与预测装置,包括:采集模块,用于采集本车当前时刻的驾驶环境信息,并根据所述驾驶环境信息确定本车与目标车辆当前所处的交互阶段;确定模块,用于根据所述交互阶段确定当前时刻下车辆之间的映射模型和交互模型,并根据所述映射模型确定所述本车与所述目标车辆在当前时刻下回报函数中的最优权重因子;预测模块,用于根据最优权重因子和所述交互模型分别确定所述本车与所述目标车辆的回报函数,并结合所述交互阶段对应的动作空间预测所述本车与所述目标车辆下一时刻的行车动作,以确定所述本车当前时刻下的最佳交互动作,并基于所述最佳交互动作控制本车自动驾驶。
本发明实施例的场景自适应式车辆交互行为决策与预测装置,基于博弈论和逆强化学习的场景自适应式车辆交互行为决策与预测,可以用于智能车辆在动态驾驶场景中做出更合理可靠的行为决策,同时对其他目标车辆做出相应的行为预测,具备较好的场景适应性和实时性,提升自动驾驶的可靠性及安全性。
另外,根据本发明上述实施例的场景自适应式车辆交互行为决策与预测装置还可以具有以下附加的技术特征:
在本发明的一个实施例中,所述驾驶环境信息包括车辆状态信息和交通规则信息,还包括:模型构建模块,用于在采集本车当前时刻的驾驶环境信息之前,定义车辆驾驶行为所对应的回报函数Ui
Ui=αiFuncsafetyiFuncefficiency,其中,i=0,1,0代表本车,1代表目标车辆,Funcsafety代表行驶安全函数,Funcefficiency代表行驶效率函数,αi为行驶安全函数的权重因子,βi为行驶效率函数的权重因子;根据车辆所处的运动状态、车辆状态信息和交通规则信息对所述回报函数进行修正,并利用非合作静态博弈理论构建所述交互模型,其中,所述交互模型包括交互对象集合P、动作空间A、回报函数U、混合策略解σ。
在本发明的一个实施例中,所述模型构建模块进一步用于:当车辆处于横向偏移运动状态时,根据本车与正前方车辆、目标车道前方车辆、目标车道后方车辆的碰撞风险对所述行驶安全函数进行修正,根据本车速度、正前方车辆速度和目标车道前车辆速度中的最大值对所述行驶效率函数进行修正,并结合所述交通规则信息和地形限制信息对所述回报函数进行修正,以得到偏离交互阶段的回报函数:
Figure BDA0003234614390000041
Figure BDA0003234614390000042
其中,v22代表本车的纵向速度,v23代表自本车前方车辆的纵向速度,v13代表目标车道前方车辆的纵向速厦,D13_22代表自车与目标车道前方车辆的相对纵向距离,D11_22代表自车与目标车道后方车辆的相对纵向距离,v′33代表进入本车道车辆的横向速度,D′33_22代表本车与进入本车道车辆的相对横向距离;当车辆处于直行运动状态时,根据本车与正前方车辆、进入本车道车辆的碰撞风险对所述行驶安全函数进行修正,根据本车速度对所述行驶效率函数进行修正,并结合所述交通规则信息对所述回报函数进行修正,以得到直行交互阶段的回报函数:
Figure BDA0003234614390000043
其中,v23代表本车前方车辆的纵向速度,v13代表目标车道前方车辆的纵向速度。
在本发明的一个实施例中,还包括:离线学习模块,用于在采集本车当前时刻的驾驶环境信息之前,根据预设时刻下的驾驶环境信息得到车辆hi和与其交互的其他车辆hi′的驾驶状态信息,同时得到车辆hi和与其交互的其他车辆hi′在预设时刻下实际采取的专家动作
Figure BDA0003234614390000044
根据当前环境下车辆所处的交互阶段,初始化回报函数对应的权重因子,确定车辆的动作空间,并计算相应的动作特征向量,根据车辆的回报函数,由车辆交互模型得到车辆取其动作空间中各个动作的概率,并计算车辆的期望特征,以分别得到车辆hi对应的回报函数
Figure BDA0003234614390000045
权重因子
Figure BDA0003234614390000046
动作空间
Figure BDA0003234614390000047
动作特征向量
Figure BDA0003234614390000048
期望特征
Figure BDA0003234614390000049
以及与车辆hi交互的其他车辆hi′的权重因子
Figure BDA0003234614390000051
回报函数
Figure BDA0003234614390000052
动作特征向量
Figure BDA0003234614390000053
和期望特征
Figure BDA0003234614390000054
同时得到专家动作
Figure BDA0003234614390000055
Figure BDA0003234614390000056
的动作特征向量
Figure BDA0003234614390000057
和期望特征
Figure BDA0003234614390000058
根据期望特征
Figure BDA0003234614390000059
Figure BDA00032346143900000510
计算得到车辆hi和hi′的特征梯度向量,并根据权重因子更新公式对权重因子进行更新,得到车辆hi和hi′的新权重因子,且在特征梯度向量小于设定阈值时停止更新,以得到交互模型回报函数中车辆hi和车辆hi′的最优权重因子;基于动态贝叶斯网络建立最优权重因子与交互阶段对应的驾驶状态之间的映射模型。
在本发明的一个实施例中,所述离线学习模块进一步用于:根据车辆处于直行交互阶段与偏移交互阶段对应的驾驶状态信息,得到在时刻1∶t范围内交互车辆hi和hi′在不同驾驶状态
Figure BDA00032346143900000511
下所对应的各自交互模型中回报函数的最优权重因子
Figure BDA00032346143900000512
根据多个不同时刻下的时序数据DT1∶t,利用映射模型的参数学习,得到匹配当前时序数据的最佳映射模型参数ξ,基于模型学习后的参数ξ进行概率推理,得到时刻k所对应的最优权重因子;建立最优权重因子与交互阶段对应的驾驶状态之间的映射关系,并根据所述映射关系分别建立所述直行交互阶段与所述偏移交互阶段对应的映射模型。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的场景自适应式车辆交互行为决策与预测方法的流程图;
图2为根据本发明具体实施例的场景自适应式车辆交互行为决策与预测方法的流程图;
图3为根据本发明实施例的场景自适应式车辆交互行为决策与预测方法的框架图;
图4为根据本发明实施例的高速场景下交互车辆驾驶环境的示意图;
图5为根据本发明实施例的用于分析目标车辆周围驾驶环境的示意图;
图6为根据本发明实施例的基于逆强化学习的权重因子优化流程图;
图7为根据本发明实施例的基于动态贝叶斯网络的映射模型示意图;
图8为根据本发明实施例的场景自适应式车辆交互行为决策与预测装置的方框示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明是发明人基于对于以下问题和认知做出的:
目前对车辆交互行为的研究主要的方法有基于深度学习的方法、基于概率图模型的方法和基于博弈论的方法。基于深度学习的方法主要是利用深度神经网络进行建模,具有强大的拟合能力,但是难以处理行为不确定性和引入交通规则的约束信息;基于概率图模型的方法主要利用动态贝叶斯网络进行建模,能够处理行为不确定性,且能够对多个时变变量间的因果关系进行概率表达,但是难以处理车辆行为间的双向交互问题;基于博弈论的方法主要利用博弈模型来处理车辆行为间的双向交互问题,但是模型的参数确定困难。
由于车辆的驾驶行为本身具有不确定性,且车辆间的行为是互相影响的,因此基于博弈论的车辆交互行为建模方法比较适用,但是目前基于博弈论开发的模型,其参数是不变的,无法适用于实际动态变化的驾驶场景。因此,有必要开发场景自适应式车辆交互行为决策与预测方法。
下面参照附图描述根据本发明实施例提出的场景自适应式车辆交互行为决策与预测方法及装置,首先将参照附图描述根据本发明实施例提出的场景自适应式车辆交互行为决策与预测方法。
图1是本发明一个实施例的场景自适应式车辆交互行为决策与预测方法的流程图。
如图1所示,该场景自适应式车辆交互行为决策与预测方法包括以下步骤:
在步骤S101中,采集本车当前时刻的驾驶环境信息,并根据驾驶环境信息确定本车与目标车辆当前所处的交互阶段。
其中,本车是指可以实现自动驾驶功能的智能车辆;驾驶环境信息可以包括车辆状态信息和交通规则信息;交互阶段可以包括直行交互阶段与偏移交互阶段。
可以理解的是,本发明实施例可以在智能车辆实际行驶过程中,根据当前时刻下的驾驶环境信息,提取车辆间的行驶状态信息,以确定当前所处的交互阶段。
在步骤S102中,根据交互阶段确定当前时刻下车辆之间的映射模型和交互模型,并根据映射模型确定本车与目标车辆在当前时刻下回报函数中的最优权重因子。
其中,交互模型可以输出下一时刻智能车辆的行为决策结果,以及下一时刻其他目标车辆的行为预测结果;映射模型可以反映不同时刻下车辆间的行驶状态信息与相应的权重因子之间的映射关系。
可以理解的是,本发明实施例可以环境信息的提取之后确定权重因子,具体地:根据智能车辆h0和与其交互的目标车辆h1处于不用的交互阶段,分别确定当前t时刻下各自已知的驾驶状态信息
Figure BDA0003234614390000061
Figure BDA0003234614390000062
并根据车辆所处的交互阶段确定相应的映射模型M,从而得到智能车辆h0和目标车辆h1在当前时刻t下的最优权重因子向量
Figure BDA0003234614390000063
Figure BDA0003234614390000064
Figure BDA0003234614390000065
在步骤S103中,根据最优权重因子和交互模型分别确定本车与目标车辆的回报函数,并结合交互阶段对应的动作空间预测本车与目标车辆下一时刻的行车动作,以确定本车当前时刻下的最佳交互动作,并基于最佳交互动作控制本车自动驾驶。
可以理解的是,在确定最优权重因子之后,本发明实施例可以利用映射模型和交互模型对车辆行为进行预测与决策,具体地:
(1)根据步骤S102得到的最优权重因子向量
Figure BDA0003234614390000071
Figure BDA0003234614390000072
利用交互模型确定智能车辆h0和目标车辆h1的回报函数
Figure BDA0003234614390000073
Figure BDA0003234614390000074
结合车辆处于的交互阶段确定车辆的动作空间
Figure BDA0003234614390000075
Figure BDA0003234614390000076
每个动作空间包含了车辆可能的各种驾驶行为,即
Figure BDA0003234614390000077
其中,sj为某一种驾驶行为。
(2)基于行为交互模型的求解方法,得到智能车辆h0和目标车辆h1在当前时刻t下的混合策略
Figure BDA0003234614390000078
Figure BDA0003234614390000079
它们代表了车辆取各个可能驾驶行为的概率,即
Figure BDA00032346143900000710
(3)基于车辆混合策略进行智能车辆自身的行为决策,取智能车辆混合策略的最大值,即选取当前时刻下可能的驾驶行为中概率最大的作为智能车辆当前的行为决策结果;同样的,在进行与智能车辆交互的其他目标车辆的行为预测时,也选取目标车辆混合策略的最大值:
Figure BDA00032346143900000711
因此,最终可以得到当前时刻下智能车辆应该采取的最佳交互行为动作
Figure BDA00032346143900000712
并预测目标车辆对应的交互行为动作
Figure BDA00032346143900000713
需要说明的是,交互模型的求解方法及车辆混合策略将在以下实施例中进行阐述。
下面将结合附图2和3对场景自适应式车辆交互行为决策与预测方法进行具体阐述,该实施例中主要阐述模型构建和离线学习的具体过程,具体包括:
步骤S1,模型构建。首先基于当前时刻下的驾驶环境信息,包括车辆状态信息和交通规则信息,设计考虑驾驶安全性和效率的回报函数,同时引入交通规则的约束条件以保证结果的合理性;接着,利用非合作静态博弈理论构建当前时刻下的车辆行为交互模型;其中,交互模型可以输出下一时刻智能车辆的行为决策结果,以及下一时刻其他目标车辆的行为预测结果。
具体而言,步骤S1.1,回报函数的设计。当车辆间存在交互关系时,如图4所示,智能车辆在直行过程中,右前方目标车辆产生左换道驾驶意图时,智能车辆与右前方目标车辆存在较强的冲突关系,此时智能车辆与右前方车辆存在先后通行权的争夺,但是车辆的实际驾驶行为会考虑车辆行驶的安全性和效率,因此这里从行驶安全性和效率出发,设计车辆驾驶行为所对应的回报函数Ui
Ui=αiFuncsafetyiFuncefficiency
其中,αi为行驶安全函数的权重因子,βi为行驶效率函数的权重因子,i=0,1,0代表智能车辆,1代表目标车辆。Funcsafety代表行驶安全函数;Funcefficiency代表行驶效率函数。
针对高速直行场景,首先定义从当前时刻下的驾驶环境中所获得车辆状态信息包括车辆的纵向位置x、横向位置y、纵向速度vx和纵向加速度ax,获得的交通规则包括车辆的限制速度vmax和车道线的虚实情况。如图5所示,将研究对象定位成中心车辆h22,其周围可能存在8个不同位置的其他车辆,从而形成周车分布矩阵H=[h11h12h13;h21h22h23;h31h32h33]。
如图4所示,智能车辆在向前行驶过程中,主要考虑前方对自己最有潜在冲突风险的车辆当作目标车辆,由于造成冲突风险主要是智能车辆和目标车辆两者的驾驶行为造成的,因此需要根据不同的驾驶行为设计车辆的回报函数。
当车辆有横向偏移运动时,若左换道或者右换道,此时可能会对目标车道(车辆偏移方向的车道)的后方车辆或旁车造成冲突,这种情况设计的回报函数主要包括:(1)行驶安全行函数主要考虑自车与正前方车辆、目标车道前方车辆、目标车道后方车辆的综合碰撞风险;(2)行驶效率函数主要考虑自己可获得的行驶速度,取自车速度、正前方车辆速度和目标车道前车速度的最大值;(3)结合交通规则和地形限制,对回报函数进行修正。假设有横向偏移的车辆为h22,则车辆的行驶安全函数Funcsafety和行驶效率函数Funcefficiency设计为:
Figure BDA0003234614390000081
Funcefficiency=max{v22,v23,v13}
其中,v22代表自车h22的纵向速度,v23代表自车正前方车辆的纵向速度,v13代表目标车道前方车辆的纵向速度,这里的纵向速度均为车辆采取某一纵向驾驶行为后预期速度;D23_22代表自车与正前方车辆h23的相对纵向距离,D13_22代表自车与目标车道前方车辆h13的相对纵向距离,D11_22代表自车与目标车道后方车辆h11的相对纵向距离,即D23_22=x23-x22,D13_22=x13-x22,D11_22=x22-x11
需要说明的是,车辆{h23,h13,h11}可能有不存在的情形,这里使用一个虚拟车辆代替,虚拟车辆与自车h22的纵向相对距离设为视距值Dmax,虚拟车辆的速度设为vmax
接着,根据交通规则和地形约束对回报函数进行修正,当车辆的可获得的预期行驶速度超过当前场景下的最高限制速度vmax时,Funcefficiency=vmax;当目标车道存在旁车时,车辆偏移运动会产生较大的碰撞风险,这里设置一个行驶安全性最低阈值∈,此时Funcsafety=∈;当车辆当前行驶的车道的车道线为长实线时,此时车辆偏移到目标车道的回报函数设为∈;当车辆当前行驶的车道为最左侧或者最右侧车道时,此时车辆向左或向右偏移到目标车道的回报函数设为∈。
当车辆处于直行状态且有其他车辆侵入本车道时,此时车辆设计的回报函数主要包括:(1)行驶安全行函数主要考虑自车与正前方车辆、侵入本车道的车辆的综合碰撞风险;(2)行驶效率函数主要考虑自车的速度;(3)结合交通规则,对回报函数进行修正。假设直行车辆为h22,侵入本车道的车辆为h33,则车辆的行驶安全函数Funcsafety和行驶效率函数Funcefficiency设计为:
Figure BDA0003234614390000091
Funcefficiency=v22
其中,v′33代表侵入本车道车辆的横向速度;D33_22代表自车与侵入本车道车辆的相对纵向距离,即D33_22=x33-x22,D′33_22代表自车与侵入本车道车辆的相对横向距离,即D′33_22=y33-y22
接着,根据交通规则对回报函数进行修正,当车辆的可获得的预期行驶速度超过当前场景下的最高限制速度vmax时,Funcefficiency=vmax
步骤S1.2,基于博弈论的行为交互模型。根据步骤S1.1建立的回报函数,利用非合作静态博弈理论构建当前时刻t下的车辆行为交互模型。该模型主要有四个要素组成:交互对象集合P、动作空间A、回报函数U、混合策略解σ。
首先,确定实际参与交互的车辆集合P,在图4中,P={h0,h1},其中h0代表智能车辆,h1代表目标车辆;接着,确定交互车辆的行为动作空间A,需结合在实际场景下车辆可能的交互行为来确定A,由于车辆的交互过程体现为对先后通行权的争抢,车辆主要有直行和偏移两类运动方式,因此车辆间的交互行为主要分为两个交互阶段:直行交互阶段和偏移交互阶段。图4所示的高速场景中,针对车辆的直行行为,其动态空间A=[sdel,scon,sacl],分别代表直行减速、直行速度不变和直行加速,针对向目标车辆横向偏移的车辆,其动作空间A=[sll,slk,slr],分别代表向目标车道左偏移、当前车道直行和向目标车道右偏移。
然后,根据设定的动作空间,引入回报函数,步骤S1.1已对直行车辆和偏移车辆的回报函数进行了设计,需要指出的是,针对动态空间A=[sdel,scon,sacl],回报函数中车辆的纵向速度是车辆采取特定动作后的预期速度,即v=vt+Δv,其中vt为车辆当前时刻t下的速度,Δv为车辆在未来Δt时刻内的速度变化量,在动作sdel下,Δv为负值;在动作scon下,Δv=0;在动作sacl下,Δv为正值。针对直行交互阶段的回报函数为:
Figure BDA0003234614390000101
针对偏离交互阶段的回报函数为:
Figure BDA0003234614390000102
这里设Θi=[αi1,αi2,αi3,βi]为车辆i的回报函数所对应的权重因子向量。当然上述的回报函数也会根据交通规则和地形限制的约束作出相应的调整。
最后,根据上述三个要素,即可得到基于非合作静态博弈理论的交互模型,然后进行模型的求解,该模型的解称为混合策略,它表达了车辆采取动作空间A中的每个元素的概率。这里主要将模型求解问题转化为非线性规划问题,设车辆hi的混合策略为
Figure BDA0003234614390000103
其中
Figure BDA0003234614390000104
代表车辆hi采取其动作空间Ai中第k个元素的概率,则可以得到如下的数学规划问题:
Figure BDA0003234614390000105
Figure BDA0003234614390000106
Figure BDA0003234614390000107
Figure BDA0003234614390000108
Figure BDA0003234614390000109
Figure BDA00032346143900001010
其中,
Figure BDA00032346143900001011
代表σi的转置;vi表示交互车辆i在混合策略下的期望回报,且
Figure BDA00032346143900001012
Figure BDA00032346143900001013
步骤S2,离线学习。根据已知的不同时刻下的驾驶环境信息,利用步骤S1中的交互模型,基于逆强化学习理论进行权重优化,即优化不同时刻下回报函数中的权重因子。接着,基于动态贝叶斯网络,得到不同时刻下车辆间的行驶状态信息与相应的权重因子之间的映射模型。
步骤S2.1,基于逆强化学习的权重优化。具体流程如图6所示,首先根据预设时刻,比如特定时刻t下的驾驶环境信息
Figure BDA00032346143900001014
得到车辆hi和与其交互的其他车辆hi′的驾驶状态信息
Figure BDA00032346143900001015
主要包括自身车辆与其有冲突关系的其他车辆的相对距离和相对车速,同时得到车辆hi和与其交互的其他车辆hi′在t实际采取的动作
Figure BDA00032346143900001016
它们也称专家动作。
然后,根据当前环境下车辆hi所处的交互阶段,初始化其回报函数
Figure BDA00032346143900001017
对应的权重因子向量
Figure BDA00032346143900001018
确定车辆的动作空间
Figure BDA00032346143900001019
并计算相应的动作特征向量
Figure BDA00032346143900001020
向量
Figure BDA00032346143900001021
中的每一个元素代表当车辆采取动作空间
Figure BDA00032346143900001022
中某一动作时回报函数
Figure BDA00032346143900001023
中各个分量的值,如针对图4中偏离交互阶段的车辆hi,其动作特征向量为:
Figure BDA0003234614390000111
接着,根据车辆hi的回报函数
Figure BDA0003234614390000112
由车辆交互模型得到车辆hi取其动作空间
Figure BDA0003234614390000113
中各个动作的概率,即混合策略
Figure BDA0003234614390000114
从而计算车辆hi的期望特征
Figure BDA0003234614390000115
Figure BDA0003234614390000116
同样的,可以得到与车辆hi交互的其他车辆hi′的初始化参数
Figure BDA0003234614390000117
回报函数
Figure BDA0003234614390000118
动作特征向量
Figure BDA0003234614390000119
和期望特征
Figure BDA00032346143900001110
同时也可以得到专家动作
Figure BDA00032346143900001111
Figure BDA00032346143900001112
下的动作特征向量
Figure BDA00032346143900001113
和期望特征
Figure BDA00032346143900001114
最后,根据所计算的期望特征分别得到车辆hi和hi′的特征梯度向量:
Figure BDA00032346143900001115
Figure BDA00032346143900001116
利用上式得到的特征梯度向量
Figure BDA00032346143900001117
Figure BDA00032346143900001118
和下式权重因子更新公式,来得到车辆hi和hi′新的权重因子:
Figure BDA00032346143900001119
Figure BDA00032346143900001120
如此循环上述环节,当某一步的特征梯度向量小于设定的阈值时,更新结束,将最终优化得到的权重因子
Figure BDA00032346143900001121
Figure BDA00032346143900001122
作为当前时刻t下交互模型回报函数中的车辆hi和车辆hi′的最优权重因子。
步骤S2.2,基于动态贝叶斯网络的映射模型。基于步骤S2.1的优化算法,可以进一步得到在已知的不同时刻1∶t下车辆hi和与其交互的其他车辆hi′的驾驶状态信息
Figure BDA00032346143900001123
以及车辆hi和车辆hi′在交互模型回报函数中的最优权重因子向量
Figure BDA00032346143900001124
Figure BDA00032346143900001125
关于驾驶状态信息可以分为两种情况,若车辆处于直行交互阶段,则驾驶状态信息E={O1,O2,O3}分别对应三类信息:自车与正前方车辆的相对纵向距离和相对纵向车速、自车与侵入本车道车辆的相对纵向距离和相对纵向车速、自车与侵入本车道车辆的相对横向距离和相对横向车速;若车辆处于偏移交互阶段,则驾驶状态信息E={O1,O2,O3}也分别对应三类信息:自车与正前方车辆的相对纵向距离和相对纵向车速、自车与目标车道前方车辆的相对纵向距离和相对纵向车速、自车与目标车道后方车辆的相对纵向距离和相对纵向车速。
从而,可以得到在时刻1∶t范围内,交互车辆hi和hi′在不同驾驶状态
Figure BDA0003234614390000121
下所对应的各自交互模型中回报函数的最优权重因子向量
Figure BDA0003234614390000122
为了建立其映射关系,考虑到这是一个时序数据的拟合问题,因此这里基于动态贝叶斯网络建立映射模型M,模型M中的隐变量为回报函数权重因子向量Θ={Θi,Θi′},观测变量为驾驶状态信息E={O1,02,O3}。所建立的映射模型的网络结构如图7所示,图中给出了从时刻t=1到时刻t=2的网络结构图,关于时刻t-1到时刻t之间的图结构与之一样。
根据获得的多个不同时刻下的时序数据DT1∶t,即多个驾驶状态和权重因子向量的匹配对
Figure BDA0003234614390000123
可以用于映射模型的参数学习,得到匹配当前时序数据的最佳映射模型参数ξ,从而当把一段时刻内的驾驶状态信息
Figure BDA0003234614390000124
输入到映射模型中时,基于模型学习后的参数ξ进行概率推理,得到当前时刻k所对应的最优权重因子向量,即:
Figure BDA0003234614390000125
由于不同的交互阶段下驾驶状态信息不同,因此最终可以分别得到两个交互阶段下的映射模型M={Mone,Mtwo}。
步骤S3,将步骤S2中离线建立的映射模型在线使用。智能车辆在实际行驶过程中,根据当前时刻下的驾驶环境信息,提取车辆间的驾驶状态信息,利用步骤S2中的映射模型确定当前时刻下回报函数中的权重因子,进而根据步骤S1中的交互模型,得到下一时刻智能车辆的行为决策结果,以及下一时刻其他目标车辆的行为预测结果。
需要说明的是,关于步骤S3的解释可以参见上述实施例中步骤S101至步骤S103的解释,为避免冗余,不再赘述。
综上,本发明实施例至少具有如下有益效果:
1、本发明提出的综合框架提供了一种场景自适应式车辆交互行为决策与预测方法,能够基于博弈理论分析影响车辆行为的多个因素,从而将动态驾驶场景中车辆间行为的交互性进行数学建模;
2、本发明提出的场景自适应式车辆交互行为决策与预测方法,能够基于逆强化学习理论,得到场景动态变化情况下车辆间行为交互性的动态变化规律,为实现动态交互性建模奠定基础;
3、本发明提出的场景自适应式车辆交互行为决策与预测方法,能够在真实驾驶环境中,使智能车辆不断的根据实时交通环境判断其他车辆的行为,同时调整自己的驾驶行为。对于智能车辆的实时场景理解、合理规划控制和安全高效行驶具有一定应用价值。也为道路交通参与者的行为交互领域提供一种新的思路。
根据本发明实施例提出的场景自适应式车辆交互行为决策与预测方法,基于博弈论和逆强化学习的场景自适应式车辆交互行为决策与预测,可以用于智能车辆在动态驾驶场景中做出更合理可靠的行为决策,同时对其他目标车辆做出相应的行为预测,具备较好的场景适应性和实时性,提升自动驾驶的可靠性及安全性。
其次参照附图描述根据本发明实施例提出的场景自适应式车辆交互行为决策与预测装置。
图8是本发明一个实施例的场景自适应式车辆交互行为决策与预测装置的方框示意图。
如图8所示,该场景自适应式车辆交互行为决策与预测装置10包括:采集模块100、确定模块200和预测模块300。
其中,采集模块100用于采集本车当前时刻的驾驶环境信息,并根据驾驶环境信息确定本车与目标车辆当前所处的交互阶段;确定模块200用于根据交互阶段确定当前时刻下车辆之间的映射模型和交互模型,并根据映射模型确定本车与目标车辆在当前时刻下回报函数中的最优权重因子;预测模块300用于根据最优权重因子和交互模型分别确定本车与目标车辆的回报函数,并结合交互阶段对应的动作空间预测本车与目标车辆下一时刻的行车动作,以确定本车当前时刻下的最佳交互动作,并基于最佳交互动作控制本车自动驾驶。
在本发明的一个实施例中,驾驶环境信息包括车辆状态信息和交通规则信息,还包括:模型构建模块,用于在采集本车当前时刻的驾驶环境信息之前,定义车辆驾驶行为所对应的回报函数Ui
Ui=αiFuncsafetyiFuncefficiency,其中,i=0,1,0代表本车,1代表目标车辆,Funcsafety代表行驶安全函数,Funcefficiency代表行驶效率函数,αi为行驶安全函数的权重因子,βi为行驶效率函数的权重因子;根据车辆所处的运动状态、车辆状态信息和交通规则信息对回报函数进行修正,并利用非合作静态博弈理论构建交互模型,其中,交互模型包括交互对象集合P、动作空间A、回报函数U、混合策略解σ。
在本发明的一个实施例中,模型构建模块进一步用于:当车辆处于横向偏移运动状态时,根据本车与正前方车辆、目标车道前方车辆、目标车道后方车辆的碰撞风险对行驶安全函数进行修正,根据本车速度、正前方车辆速度和目标车道前车辆速度中的最大值对行驶效率函数进行修正,并结合交通规则信息和地形限制信息对回报函数进行修正,以得到偏离交互阶段的回报函数:
Figure BDA0003234614390000131
其中,v22代表本车的纵向速度,v23代表自本车前方车辆的纵向速度,v13代表目标车道前方车辆的纵向速度,D13_22代表自车与目标车道前方车辆的相对纵向距离,D11_22代表自车与目标车道后方车辆的相对纵向距离,v′33代表进入本车道车辆的横向速度,D′33_22代表本车与进入本车道车辆的相对横向距离;当车辆处于直行运动状态时,根据本车与正前方车辆、进入本车道车辆的碰撞风险对行驶安全函数进行修正,根据本车速度对行驶效率函数进行修正,并结合交通规则信息对回报函数进行修正,以得到直行交互阶段的回报函数:
Figure BDA0003234614390000141
其中,v23代表本车前方车辆的纵向速度,v13代表目标车道前方车辆的纵向速度。
在本发明的一个实施例中,还包括:离线学习模块,用于在采集本车当前时刻的驾驶环境信息之前,根据预设时刻下的驾驶环境信息得到车辆hi和与其交互的其他车辆hi′的驾驶状态信息,同时得到车辆hi和与其交互的其他车辆hi′在预设时刻下实际采取的专家动作
Figure BDA0003234614390000142
根据当前环境下车辆所处的交互阶段,初始化回报函数对应的权重因子,确定车辆的动作空间,并计算相应的动作特征向量,根据车辆的回报函数,由车辆交互模型得到车辆取其动作空间中各个动作的概率,并计算车辆的期望特征,以分别得到车辆hi对应的回报函数
Figure BDA0003234614390000143
权重因子
Figure BDA0003234614390000144
动作空间
Figure BDA0003234614390000145
动作特征向量
Figure BDA0003234614390000146
期望特征
Figure BDA0003234614390000147
以及与车辆hi交互的其他车辆hi′的权重因子
Figure BDA0003234614390000148
回报函数
Figure BDA0003234614390000149
动作特征向量
Figure BDA00032346143900001410
和期望特征
Figure BDA00032346143900001411
同时得到专家动作
Figure BDA00032346143900001412
Figure BDA00032346143900001413
的动作特征向量
Figure BDA00032346143900001414
和期望特征
Figure BDA00032346143900001415
根据期望特征
Figure BDA00032346143900001416
Figure BDA00032346143900001417
计算得到车辆hi和hi′的特征梯度向量,并根据权重因子更新公式对权重因子进行更新,得到车辆hi和hi′的新权重因子,且在特征梯度向量小于设定阈值时停止更新,以得到交互模型回报函数中车辆hi和车辆hi′的最优权重因子;基于动态贝叶斯网络建立最优权重因子与交互阶段对应的驾驶状态之间的映射模型。
在本发明的一个实施例中,离线学习模块进一步用于:根据车辆处于直行交互阶段与偏移交互阶段对应的驾驶状态信息,得到在时刻1∶t范围内交互车辆hi和hi′在不同驾驶状态
Figure BDA00032346143900001418
下所对应的各自交互模型中回报函数的最优权重因子
Figure BDA00032346143900001419
根据多个不同时刻下的时序数据DT1∶t,利用映射模型的参数学习,得到匹配当前时序数据的最佳映射模型参数ξ,基于模型学习后的参数ξ进行概率推理,得到时刻k所对应的最优权重因子;建立最优权重因子与交互阶段对应的驾驶状态之间的映射关系,并根据映射关系分别建立直行交互阶段与偏移交互阶段对应的映射模型。
需要说明的是,前述对场景自适应式车辆交互行为决策与预测方法实施例的解释说明也适用于该实施例的场景自适应式车辆交互行为决策与预测装置,此处不再赘述。
根据本发明实施例提出的场景自适应式车辆交互行为决策与预测装置,基于博弈论和逆强化学习的场景自适应式车辆交互行为决策与预测,可以用于智能车辆在动态驾驶场景中做出更合理可靠的行为决策,同时对其他目标车辆做出相应的行为预测,具备较好的场景适应性和实时性,提升自动驾驶的可靠性及安全性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种场景自适应式车辆交互行为决策与预测方法,其特征在于,包括以下步骤:
采集本车当前时刻的驾驶环境信息,并根据所述驾驶环境信息确定本车与目标车辆当前所处的交互阶段;
根据所述交互阶段确定当前时刻下车辆之间的映射模型和交互模型,并根据所述映射模型确定所述本车与所述目标车辆在当前时刻下回报函数中的最优权重因子;以及
根据最优权重因子和所述交互模型分别确定所述本车与所述目标车辆的回报函数,并结合所述交互阶段对应的动作空间预测所述本车与所述目标车辆下一时刻的行车动作,以确定所述本车当前时刻下的最佳交互动作,并基于所述最佳交互动作控制本车自动驾驶。
2.根据权利要求1所述的方法,其特征在于,所述驾驶环境信息包括车辆状态信息和交通规则信息,在采集本车当前时刻的驾驶环境信息之前,还包括:
定义车辆驾驶行为所对应的回报函数Ui
Ui=αiFuncsafetyiFuncefficiency
其中,i=0,1,0代表本车,1代表目标车辆,Funcsafety代表行驶安全函数,Funcefficiency代表行驶效率函数,αi为行驶安全函数的权重因子,βi为行驶效率函数的权重因子;
根据车辆所处的运动状态、车辆状态信息和交通规则信息对所述回报函数进行修正,并利用非合作静态博弈理论构建所述交互模型,其中,所述交互模型包括交互对象集合P、动作空间A、回报函数U、混合策略解σ。
3.根据权利要求2所述的方法,其特征在于,根据车辆所处的运动状态、车辆状态信息和交通规则信息对所述回报函数进行修正,包括:
当车辆处于横向偏移运动状态时,根据本车与正前方车辆、目标车道前方车辆、目标车道后方车辆的碰撞风险对所述行驶安全函数进行修正,根据本车速度、正前方车辆速度和目标车道前车辆速度中的最大值对所述行驶效率函数进行修正,并结合所述交通规则信息和地形限制信息对所述回报函数进行修正,以得到偏离交互阶段的回报函数:
Figure FDA0003234614380000011
其中,v22代表本车的纵向速度,v23代表自本车前方车辆的纵向速度,v13代表目标车道前方车辆的纵向速度,D13_22代表自车与目标车道前方车辆的相对纵向距离,D11_22代表自车与目标车道后方车辆的相对纵向距离,v′33代表进入本车道车辆的横向速度,D′33_22代表本车与进入本车道车辆的相对横向距离;
当车辆处于直行运动状态时,根据本车与正前方车辆、进入本车道车辆的碰撞风险对所述行驶安全函数进行修正,根据本车速度对所述行驶效率函数进行修正,并结合所述交通规则信息对所述回报函数进行修正,以得到直行交互阶段的回报函数:
Figure FDA0003234614380000021
其中,v23代表本车前方车辆的纵向速度,v13代表目标车道前方车辆的纵向速度。
4.根据权利要求2所述的方法,其特征在于,在采集本车当前时刻的驾驶环境信息之前,还包括:
根据预设时刻下的驾驶环境信息得到车辆hi和与其交互的其他车辆hi′的驾驶状态信息,同时得到车辆hi和与其交互的其他车辆hi′在预设时刻下实际采取的专家动作
Figure FDA0003234614380000022
根据当前环境下车辆所处的交互阶段,初始化回报函数对应的权重因子,确定车辆的动作空间,并计算相应的动作特征向量,根据车辆的回报函数,由车辆交互模型得到车辆取其动作空间中各个动作的概率,并计算车辆的期望特征,以分别得到车辆hi对应的回报函数
Figure FDA0003234614380000023
权重因子
Figure FDA0003234614380000024
动作空间
Figure FDA0003234614380000025
动作特征向量
Figure FDA0003234614380000026
期望特征
Figure FDA0003234614380000027
以及与车辆hi交互的其他车辆hi′的权重因子
Figure FDA0003234614380000028
回报函数
Figure FDA0003234614380000029
动作特征向量
Figure FDA00032346143800000210
和期望特征
Figure FDA00032346143800000211
同时得到专家动作
Figure FDA00032346143800000212
Figure FDA00032346143800000213
的动作特征向量
Figure FDA00032346143800000214
和期望特征
Figure FDA00032346143800000215
根据期望特征
Figure FDA00032346143800000216
Figure FDA00032346143800000217
计算得到车辆hi和hi′的特征梯度向量,并根据权重因子更新公式对权重因子进行更新,得到车辆hi和hi′的新权重因子,且在特征梯度向量小于设定阈值时停止更新,以得到交互模型回报函数中车辆hi和车辆hi′的最优权重因子;
基于动态贝叶斯网络建立最优权重因子与交互阶段对应的驾驶状态之间的映射模型。
5.根据权利要求4所述的方法,其特征在于,所述基于动态贝叶斯网络建立最优权重因子与交互阶段之间的映射模型,包括:
根据车辆处于直行交互阶段与偏移交互阶段对应的驾驶状态信息,得到在时刻1:t范围内交互车辆hi和hi′在不同驾驶状态
Figure FDA00032346143800000218
下所对应的各自交互模型中回报函数的最优权重因子
Figure FDA00032346143800000219
根据多个不同时刻下的时序数据DT1: t,利用映射模型的参数学习,得到匹配当前时序数据的最佳映射模型参数ξ,基于模型学习后的参数ξ进行概率推理,得到时刻k所对应的最优权重因子;
建立最优权重因子与交互阶段对应的驾驶状态之间的映射关系,并根据所述映射关系分别建立所述直行交互阶段与所述偏移交互阶段对应的映射模型。
6.一种场景自适应式车辆交互行为决策与预测装置,其特征在于,包括:
采集模块,用于采集本车当前时刻的驾驶环境信息,并根据所述驾驶环境信息确定本车与目标车辆当前所处的交互阶段;
确定模块,用于根据所述交互阶段确定当前时刻下车辆之间的映射模型和交互模型,并根据所述映射模型确定所述本车与所述目标车辆在当前时刻下回报函数中的最优权重因子;以及
预测模块,用于根据最优权重因子和所述交互模型分别确定所述本车与所述目标车辆的回报函数,并结合所述交互阶段对应的动作空间预测所述本车与所述目标车辆下一时刻的行车动作,以确定所述本车当前时刻下的最佳交互动作,并基于所述最佳交互动作控制本车自动驾驶。
7.根据权利要求6所述的装置,其特征在于,所述驾驶环境信息包括车辆状态信息和交通规则信息,还包括:
模型构建模块,用于在采集本车当前时刻的驾驶环境信息之前,定义车辆驾驶行为所对应的回报函数Ui
Ui=αiFuncsafetyiFuncefficiency
其中,i=0,1,0代表本车,1代表目标车辆,Funcsafety代表行驶安全函数,Funcefficiency代表行驶效率函数,αi为行驶安全函数的权重因子,βi为行驶效率函数的权重因子;
根据车辆所处的运动状态、车辆状态信息和交通规则信息对所述回报函数进行修正,并利用非合作静态博弈理论构建所述交互模型,其中,所述交互模型包括交互对象集合P、动作空间A、回报函数U、混合策略解σ。
8.根据权利要求7所述的装置,其特征在于,所述模型构建模块进一步用于:
当车辆处于横向偏移运动状态时,根据本车与正前方车辆、目标车道前方车辆、目标车道后方车辆的碰撞风险对所述行驶安全函数进行修正,根据本车速度、正前方车辆速度和目标车道前车辆速度中的最大值对所述行驶效率函数进行修正,并结合所述交通规则信息和地形限制信息对所述回报函数进行修正,以得到偏离交互阶段的回报函数:
Figure FDA0003234614380000031
其中,v22代表本车的纵向速度,v23代表自本车前方车辆的纵向速度,v13代表目标车道前方车辆的纵向速度,D13_22代表自车与目标车道前方车辆的相对纵向距离,D11_22代表自车与目标车道后方车辆的相对纵向距离,v′33代表进入本车道车辆的横向速度,D′33_22代表本车与进入本车道车辆的相对横向距离;
当车辆处于直行运动状态时,根据本车与正前方车辆、进入本车道车辆的碰撞风险对所述行驶安全函数进行修正,根据本车速度对所述行驶效率函数进行修正,并结合所述交通规则信息对所述回报函数进行修正,以得到直行交互阶段的回报函数:
Figure FDA0003234614380000041
其中,v23代表本车前方车辆的纵向速度,v13代表目标车道前方车辆的纵向速度。
9.根据权利要求7所述的装置,其特征在于,还包括:
离线学习模块,用于在采集本车当前时刻的驾驶环境信息之前,根据预设时刻下的驾驶环境信息得到车辆hi和与其交互的其他车辆hi′的驾驶状态信息,同时得到车辆hi和与其交互的其他车辆hi′在预设时刻下实际采取的专家动作
Figure FDA0003234614380000042
根据当前环境下车辆所处的交互阶段,初始化回报函数对应的权重因子,确定车辆的动作空间,并计算相应的动作特征向量,根据车辆的回报函数,由车辆交互模型得到车辆取其动作空间中各个动作的概率,并计算车辆的期望特征,以分别得到车辆hi对应的回报函数
Figure FDA0003234614380000043
权重因子
Figure FDA0003234614380000044
动作空间
Figure FDA0003234614380000045
动作特征向量
Figure FDA0003234614380000046
期望特征
Figure FDA0003234614380000047
以及与车辆hi交互的其他车辆hi′的权重因子
Figure FDA0003234614380000048
回报函数
Figure FDA0003234614380000049
动作特征向量
Figure FDA00032346143800000410
和期望特征
Figure FDA00032346143800000411
同时得到专家动作
Figure FDA00032346143800000412
Figure FDA00032346143800000413
的动作特征向量
Figure FDA00032346143800000414
和期望特征
Figure FDA00032346143800000415
根据期望特征
Figure FDA00032346143800000416
Figure FDA00032346143800000417
计算得到车辆hi和hi′的特征梯度向量,并根据权重因子更新公式对权重因子进行更新,得到车辆hi和hi′的新权重因子,且在特征梯度向量小于设定阈值时停止更新,以得到交互模型回报函数中车辆hi和车辆hi′的最优权重因子;
基于动态贝叶斯网络建立最优权重因子与交互阶段对应的驾驶状态之间的映射模型。
10.根据权利要求9所述的装置,其特征在于,所述离线学习模块进一步用于:
根据车辆处于直行交互阶段与偏移交互阶段对应的驾驶状态信息,得到在时刻1:t范围内交互车辆hi和hi′在不同驾驶状态
Figure FDA00032346143800000418
下所对应的各自交互模型中回报函数的最优权重因子
Figure FDA00032346143800000419
根据多个不同时刻下的时序数据DT1:t,利用映射模型的参数学习,得到匹配当前时序数据的最佳映射模型参数ξ,基于模型学习后的参数ξ进行概率推理,得到时刻k所对应的最优权重因子;
建立最优权重因子与交互阶段对应的驾驶状态之间的映射关系,并根据所述映射关系分别建立所述直行交互阶段与所述偏移交互阶段对应的映射模型。
CN202110997604.8A 2021-08-27 2021-08-27 场景自适应式车辆交互行为决策与预测方法及装置 Active CN113511222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110997604.8A CN113511222B (zh) 2021-08-27 2021-08-27 场景自适应式车辆交互行为决策与预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110997604.8A CN113511222B (zh) 2021-08-27 2021-08-27 场景自适应式车辆交互行为决策与预测方法及装置

Publications (2)

Publication Number Publication Date
CN113511222A true CN113511222A (zh) 2021-10-19
CN113511222B CN113511222B (zh) 2023-09-26

Family

ID=78062917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110997604.8A Active CN113511222B (zh) 2021-08-27 2021-08-27 场景自适应式车辆交互行为决策与预测方法及装置

Country Status (1)

Country Link
CN (1) CN113511222B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114212105A (zh) * 2021-12-16 2022-03-22 中国人民解放军国防科技大学 一种高泛化能力的交互车辆驾驶意图预测方法和装置
CN114399659A (zh) * 2021-12-28 2022-04-26 禾多科技(北京)有限公司 车辆控制信息生成方法、装置、设备和计算机可读介质
CN114644018A (zh) * 2022-05-06 2022-06-21 重庆大学 一种基于博弈论的自动驾驶车辆人车交互决策规划方法
CN115179959A (zh) * 2022-07-18 2022-10-14 福州大学 基于行驶道路自适应更新阈值的智能驾驶车辆行为预测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169567A (zh) * 2017-03-30 2017-09-15 深圳先进技术研究院 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN110936954A (zh) * 2020-01-02 2020-03-31 南京航空航天大学 一种考虑车辆双向交互的智能车预测决策融合方法
CN111199284A (zh) * 2019-12-17 2020-05-26 天津职业技术师范大学(中国职业培训指导教师进修中心) 有人与无人驾驶混行条件下的车-车交互模型
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN112258097A (zh) * 2020-12-23 2021-01-22 睿至科技集团有限公司 一种基于大数据的辅助驾驶方法和系统
CN112550314A (zh) * 2020-12-16 2021-03-26 吉林大学青岛汽车研究院 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
KR20210101172A (ko) * 2020-11-06 2021-08-18 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 자율 주행을 위한 속도 계획 방법, 장치, 설비, 매체 및 차량

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169567A (zh) * 2017-03-30 2017-09-15 深圳先进技术研究院 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN111199284A (zh) * 2019-12-17 2020-05-26 天津职业技术师范大学(中国职业培训指导教师进修中心) 有人与无人驾驶混行条件下的车-车交互模型
CN110936954A (zh) * 2020-01-02 2020-03-31 南京航空航天大学 一种考虑车辆双向交互的智能车预测决策融合方法
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
KR20210101172A (ko) * 2020-11-06 2021-08-18 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 자율 주행을 위한 속도 계획 방법, 장치, 설비, 매체 및 차량
CN112550314A (zh) * 2020-12-16 2021-03-26 吉林大学青岛汽车研究院 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN112258097A (zh) * 2020-12-23 2021-01-22 睿至科技集团有限公司 一种基于大数据的辅助驾驶方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张效宇;赵祥磊;杨科: "自动驾驶汽车的智能决策模型研究", 汽车实用技术, no. 7, pages 42 - 45 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114212105A (zh) * 2021-12-16 2022-03-22 中国人民解放军国防科技大学 一种高泛化能力的交互车辆驾驶意图预测方法和装置
CN114212105B (zh) * 2021-12-16 2024-03-05 中国人民解放军国防科技大学 一种高泛化能力的交互车辆驾驶意图预测方法和装置
CN114399659A (zh) * 2021-12-28 2022-04-26 禾多科技(北京)有限公司 车辆控制信息生成方法、装置、设备和计算机可读介质
CN114644018A (zh) * 2022-05-06 2022-06-21 重庆大学 一种基于博弈论的自动驾驶车辆人车交互决策规划方法
CN115179959A (zh) * 2022-07-18 2022-10-14 福州大学 基于行驶道路自适应更新阈值的智能驾驶车辆行为预测方法

Also Published As

Publication number Publication date
CN113511222B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN110297494B (zh) 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
CN113511222A (zh) 场景自适应式车辆交互行为决策与预测方法及装置
CN110615003B (zh) 基于策略梯度在线学习算法的巡航控制系统及设计方法
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
Li et al. Decision making in dynamic and interactive environments based on cognitive hierarchy theory, Bayesian inference, and predictive control
CN112183288B (zh) 一种基于模型的多智能体强化学习方法
CN113581182B (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN117585017B (zh) 一种自动驾驶车辆换道决策方法、装置、设备及存储介质
CN115923833A (zh) 车辆的拟人化决策控制方法、装置、车辆及存储介质
CN117032203A (zh) 基于svo的自动驾驶智能控制方法
Jiang et al. Path tracking control based on Deep reinforcement learning in Autonomous driving
CN113110359B (zh) 约束型智能汽车自主决策系统在线训练方法及装置
CN110390398B (zh) 在线学习方法
CN113033902A (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
Yuan et al. Scalable Game-Theoretic Decision-Making for Self-Driving Cars at Unsignalized Intersections
Coppola et al. Adaptive cruise control for autonomous electric vehicles based on q-learning algorithm
CN116572993A (zh) 智能车辆风险敏感型序贯行为决策方法、装置及设备
CN113353102B (zh) 一种基于深度强化学习的无保护左转弯驾驶控制方法
Akca et al. eTS fuzzy driver model for simultaneous longitudinal and lateral vehicle control
CN116224996A (zh) 一种基于对抗强化学习的自动驾驶优化控制方法
Hossain et al. Stochastic model predictive control for coordination of autonomous and human-driven vehicles
CN115034281A (zh) 一种基于RoboSim的自动驾驶行为决策模型的构建方法
Bang et al. Safe Merging in Mixed Traffic with Confidence
Wang et al. An end-to-end deep reinforcement learning model based on proximal policy optimization algorithm for autonomous driving of off-road vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant