CN113168570A - 用于训练用于机动车的控制设备的至少一个算法的方法、计算机程序产品以及机动车 - Google Patents

用于训练用于机动车的控制设备的至少一个算法的方法、计算机程序产品以及机动车 Download PDF

Info

Publication number
CN113168570A
CN113168570A CN201980080062.9A CN201980080062A CN113168570A CN 113168570 A CN113168570 A CN 113168570A CN 201980080062 A CN201980080062 A CN 201980080062A CN 113168570 A CN113168570 A CN 113168570A
Authority
CN
China
Prior art keywords
quality
quality criterion
computer program
program product
motor vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980080062.9A
Other languages
English (en)
Inventor
U·埃贝勒
S·哈勒巴赫
J·克梅雷尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PSA Automobiles SA
Original Assignee
Peugeot Citroen Automobiles SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peugeot Citroen Automobiles SA filed Critical Peugeot Citroen Automobiles SA
Publication of CN113168570A publication Critical patent/CN113168570A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/06Improving the dynamic response of the control system, e.g. improving the speed of regulation or avoiding hunting or overshoot
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • B60W40/04Traffic conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

一种用于训练用于机动车的控制设备的至少一个算法的方法,所述控制设备用于实现自主驾驶功能,其中,通过自学习的神经网络训练所述算法,所述方法包括以下步骤:a)提供用于所述自主驾驶功能的计算机程序产品模块,其中,所述计算机程序产品模块包含待训练的算法和所述自学习的神经网络;b)提供至少一个指标和奖励函数;c)将所述计算机程序产品模块嵌入到模拟环境中以模拟至少一个重要相关的交通状况,以及通过模拟紧急的场景并且求取所述指标(M)来训练所述自学习的神经网络,直到满足第一品质标准(G1)为止;d)将经训练的计算机程序产品模块嵌入到所述机动车的控制设备中以模拟重要相关的交通状况,以及通过模拟紧急的场景并且求取所述指标(M)来训练所述自学习的神经网络,直到满足第二品质标准(G2)为止,其中,e),(i)如果步骤d)中的所述指标(M)差于所述第一品质标准(G1),则所述方法从步骤c)起继续,或者(ii)如果步骤d)中的所述指标(M)优于所述第一品质标准(G1)而差于所述第二品质标准(G2),则所述方法从步骤d)起继续。

Description

用于训练用于机动车的控制设备的至少一个算法的方法、计 算机程序产品以及机动车
技术领域
在本文中描述一种用于训练用于机动车的控制设备的至少一个算法的方法、一种计算机程序产品以及一种机动车,其中,该控制设备用于在干预机动车的机组(Aggregate)的情况下实现自主驾驶功能。
背景技术
开篇所提及类型的方法、计算机程序产品和机动车在现有技术中是已知的。在过去的几年中,第一自主驾驶机动车已经达到成批生产的水平(Serienreife)。自主驾驶机动车必须基于各种预先规定(例如目的地和常见交通规则的遵守)以最大的安全性独立地对未知的交通状况做出反应。由于交通现实由于交通参与者的行为的不可预测性而是高度复杂的,因此几乎不可能以常规的方法和规则来对机动车的相应控制设备进行编程。
相反,已知借助机器学习或者说人工智能方法来开发算法,这些算法一方面能够比传统算法更适度地对紧急的交通状况做出反应。另一方面,借助人工智能能够通过持续的学习在日常生活中进一步开发算法。
DE 10 2015 007 493 A1公开一种用于训练在机动车的控制设备中使用的、基于机器学习的决策算法的方法,其中,该决策算法根据描述当前运行状态和/或当前驾驶状况的输入数据来求取为了控制机动车的运行而要考虑的输出数据以及描述输出数据可靠性的可靠性值,并且在机动车中使用之前基于基本训练数据集进行训练,其中,在可靠性值低于阈值的情况下,将分配给可靠性值的输出数据的求取所基于的输入数据存储为评估输入数据,并且在之后的时刻向人工评估员示出,然后,通过评估员的操作输入接收与输出数据相对应的评估输出数据,并且基于由评估输入数据以及所分配的评估输出数据形成的改善训练数据集对决策算法进行训练。
Hallerbach、Xia、Eberle&Koester(2018年4月3日)的《Simulation-basedIdentification of Critical Scenarios for Cooperative and Automated Vehicles》(SAE 2018-01-1066)描述一系列用于基于模拟开发紧急场景的辅助工具。该过程包含机动车的动态行为的模拟以及交通状况的模拟和虚拟交通参与者的合作行为的模拟。基于指标(例如,安全性指标或交通质量指标)来识别紧急状况。
已知方法的缺点是,用于自主驾驶机动车的达到成批生产水平的算法的开发是高开销的并且耗时很长。
因此,任务是如下扩展开篇所提及类型的用于训练用于机动车的控制设备的至少一个算法的方法、计算机程序产品以及机动车,使得自主驾驶功能能够与至今相比更快地且以更高的质量在自主驾驶的机动车中实现。
发明内容
该任务通过根据权利要求1的用于训练用于机动车的控制设备的至少一个算法的方法、根据并列权利要求9的计算机程序以及根据并列权利要求11的机动车来解决。进一步实施的构型和扩展方案是从属权利要求的主题。
下面描述一种用于训练用于机动车的控制设备的至少一个算法的方法,其中,该控制设备设置用于,在使用所述至少一个算法的情况下基于输入数据在干预机动车的机组的情况下实现自主驾驶功能,其中,通过自学习的神经网络训练该算法,该方法包括以下步骤:
a)提供用于自主驾驶功能的计算机程序产品模块,其中,该计算机程序产品模块包含待训练的算法和自学习的神经网络;
b)提供用于自主驾驶功能的至少一个指标和奖励函数(Belohnungsfunktion);
c)将计算机程序产品模块嵌入到模拟环境中以模拟对于自主驾驶功能重要相关的至少一个交通状况,其中,模拟环境基于真实环境的地图数据以及基于机动车的数字车辆模型,
通过模拟紧急的场景并且求取品质来训练自学习的神经网络,直到满足第一品质标准(Gütemaβ)为止,其中,品质是至少一个指标的品质函数的结果;
d)将经训练的计算机程序产品模块嵌入到机动车的控制设备中以模拟对于自主驾驶功能重要相关的交通状况,其中,模拟在基于真实环境的地图数据的模拟环境中执行,
通过模拟紧急的场景并且求取品质来训练自学习的神经网络,直到满足第二品质标准为止,其中,第二品质标准比第一品质标准更严格;
e)(i)如果步骤d)中的品质差于第一品质标准,则该方法从步骤c)起继续,或者
(ii)如果步骤d)中的品质优于第一品质标准而差于第二品质标准,则该方法从步骤d)起继续。
与借助常规方法相比,借助前述方法能够更快地且更安全地开发通过自学习的神经网络开发的、用于实现自主驾驶功能的算法。
由于在早期的步骤中在纯虚拟的环境中训练系统,因此在自学习的神经网络可以在下一步骤中使算法匹配于较安全的虚拟环境中的由于真实的机动车而造成的较复杂的状况之前,算法已经能够达到一定的成熟度。增加的复杂性例如来自真实传感器的传感器输入信号的变化、信号链中的延迟、温度相关性和类似的现象。
通过引入用于算法的品质标准(借助该品质标准来测量所求取的指标),在算法不适合步骤d)中的更高现实级别的情况下,能够避免较长的学习过程,其方式为:暂时将学习过程重置到步骤c)中的不太复杂的完全模拟中,并在那里进一步开发算法。
相应的指标例如可以是:每个路线的平均事故数量,每个路线的危险状况数量,每个路线的忽视交通规则的数量等。由这些指标能够求取品质,该品质借助品质标准来测量。然后,更严格的品质标准例如意味着每个路线更少的事故、每个路线更少的危险状况等。只有当不再低于品质标准时,才能在下一阶段中进一步实施训练。由此能够防止不稳定的算法需要长的学习时间,并且能够更早地实现更高质量的算法。
第一可能的进一步实施的构型设置:
f)在混合现实的环境中模拟对于自主驾驶功能重要相关的交通状况,以及通过模拟紧急的场景并且求取品质来训练自学习的神经网络,直到满足第三品质标准为止,其中,第三品质标准比第二品质标准更严格,其中,
g)如果步骤f)中的品质差于第二品质标准,则该方法从步骤e)起继续。
根据该实施方式,可以在下一步骤中通过自学习的神经网络在混合现实的环境中进行算法的扩展,在该混合现实的环境中,交通参与者的危险最小化。通过基于品质标准来检查品质并且在必要时返回到算法开发的较早阶段,同样能够加速学习过程。
另一可能的进一步实施的构型设置:
h)在真实环境中模拟对于自主驾驶功能重要相关的交通状况,以及通过模拟紧急的场景并且求取品质来训练自学习的神经网络,直到满足第四品质标准为止,其中,第四品质标准比第三品质标准更严格,其中,
i)如果步骤h)中的品质差于第三品质标准,则该方法从步骤g)起继续,或者如果步骤h)中的品质差于第二品质标准,则该方法从步骤e)起继续。
根据该实施方式,可以在下一步骤中通过自学习的神经网络在真实环境中进行算法的扩展。在该时刻可以假设算法已经足够稳定,使得道路交通中的安全性不再遭到危险。通过检查品质并且在必要时返回到算法开发的较早阶段,同样能够加速学习过程。
另一可能的进一步实施的构型设置,当指标满足第四品质标准时,启用计算机程序产品模块以用于道路交通中的使用。
在该时刻可以假设算法足够稳定,以便在常规的道路交通中使用。
另一可能的进一步实施的构型设置,方法步骤f)和/或h)由安全驾驶员执行。
由此能够进一步降低其他交通参与者的风险,因为指示安全驾驶员始终在短时间内接管对自主驾驶机动车的控制。
另一可能的进一步实施的构型设置,指标具有以下标准:每单位路线的事故和/或碰撞时间和/或制动时间和/或所需延迟
Figure BDA0003098744760000041
相应的指标易于求取。
另一可能的进一步实施的构型设置,神经网络根据“加强学习(
Figure BDA0003098744760000042
Lernen)”方法进行学习。
加强学习或强化学习(Reinforcement Learning)代表一系列机器学习方法,在这些方法中,代理人(Agent)(在此为自学习的神经网络)自身持续地学习策略,以便最大化所获得的奖励。在此,未向代理人预先示出在哪个状况下哪个动作是最好的,而是该代理人在确定的时刻获得奖励,该奖励也可能是负的。基于奖励,代理人近似效用函数(Nutzenfunktion),该效用函数描述确定的状态或确定的动作具有哪个值。借助相应的学习方法,自学习的神经网络能够持续地进一步开发该算法。
另一可能的进一步实施的构型设置,神经网络根据随机原理尝试现有算法的变型。
由此能够实现,在应用算法的高维空间中,测试导致期望结果的各种策略。
第一独立主题涉及一种用于训练用于机动车的控制设备的至少一个算法的设备,其中,该控制设备设置用于,在使用至少一个算法的情况下基于输入数据在干预机动车的机组的情况下实现自主驾驶功能,其中,通过自学习的神经网络训练该算法,其中,该设备设置用于执行以下步骤:
a)提供用于自主驾驶功能的计算机程序产品模块,其中,该计算机程序产品模块包含待训练的算法和自学习的神经网络;
b)提供用于自主驾驶功能的至少一个指标和奖励函数;
c)将计算机程序产品模块嵌入到模拟环境中以模拟对于自主驾驶功能重要相关的至少一个交通状况,其中,模拟环境基于真实环境的地图数据以及基于机动车的数字车辆模型,
通过模拟紧急的场景并且求取品质来训练自学习的神经网络,直到满足第一品质标准为止,其中,品质是至少一个指标的品质函数的结果;
d)将经训练的计算机程序产品模块嵌入到机动车的控制设备中,以便模拟对于自主驾驶功能重要相关的交通状况,其中,模拟在基于真实环境的地图数据的模拟环境中执行,
通过模拟紧急的场景并且求取指标来训练自学习的神经网络,直到满足第二品质标准为止,其中,第二品质标准比第一品质标准更严格;
e)(i)如果步骤d)中的品质差于第一品质标准,则该方法从步骤c)起继续,或者
(ii)如果步骤d)中的品质优于第一品质标准而差于第二品质标准,则该方法从步骤d)起继续。
第一可能的进一步实施的构型设置,该设备还设置用于:
f)在混合现实的环境中模拟对于自主驾驶功能重要相关的交通状况,以及通过模拟紧急的场景并且求取品质来训练自学习的神经网络,直到满足第三品质标准为止,其中,第三品质标准比第二品质标准更严格,其中,
g)如果步骤f)中的品质差于第二品质标准,则该方法从步骤e)起继续。
另一可能的进一步实施的构型设置,该设备还设置用于:
h)在真实环境中模拟对于自主驾驶功能重要相关的交通状况,以及通过模拟紧急的场景并且求取品质来训练自学习的神经网络,直到满足第四品质标准为止,其中,第四品质标准比第三品质标准更严格,其中,如果步骤h)中的品质差于第三品质标准,则该方法从步骤g)起继续,或者如果步骤h)中的品质差于第二品质标准,则该方法从步骤e)起继续。
另一可能的进一步实施的构型设置,该设备还设置用于,当品质满足第四品质标准时,启用计算机程序产品模块以用于道路交通中的使用。
另一可能的进一步实施的构型设置,该设备还设置用于,方法步骤f)和/或h)可以由安全驾驶员执行。
另一可能的进一步实施的构型设置,该设备还设置用于,将以下标准用作指标:每单位路线的事故和/或碰撞时间和/或制动时间和/或所需延迟。
另一可能的进一步实施的构型设置,神经网络设置用于根据“加强学习”方法进行学习。
另一可能的进一步实施的构型设置,神经网络设置用于根据随机原理尝试现有算法的变型。
另一独立的主题涉及一种计算机程序产品,该计算机程序产品具有计算机可读的存储介质,在该计算机可读的存储介质上嵌入有指令,当由计算单元实施这些指令时,这些指令实现,计算单元设置用于实施根据以上权利要求中任一项所述的方法。
该计算机程序产品的第一进一步实施的构型设置,前述类型的计算机程序产品模块具有这些指令。
另一独立的主题涉及一种机动车,该机动车具有计算单元和计算机可读的存储介质,其中,在该存储介质上存储有前述类型的计算机程序产品。
第一进一步实施的构型设置,计算单元是控制设备的组成部分。
另一进一步实施的构型设置,计算单元与环境传感器联网。
附图说明
其他特征和细节从以下描述中得出,在该描述中(必要时参考附图)详细描述至少一个实施例。所描述的和/或通过图形示出的特征单独地或以任何有意义的组合形成主题,必要时也独立于权利要求,并且尤其附加地还可以是一个或多个单独申请的主题。相同的、相似的和/或功能相同的部件设有相同的附图标记。在此示意性示出:
图1示出机动车,该机动车设置用于自主驾驶;
图2示出用于来自图1的机动车的计算机程序产品;以及
图3示出该方法的流程图。
具体实施方式
图1示出机动车2,该机动车设置用于自主驾驶。
机动车2具有机动车控制设备4,该机动车控制设备具有计算单元6和存储器8。在存储器8中存储有计算机程序产品,下面尤其结合图2和图3更详细地描述该计算机程序产品。
机动车控制设备4一方面与一系列环境传感器连接,这些环境传感器允许检测机动车2的当前位置以及相应的交通状况。这些环境传感器包括:机动车2的前部处的环境传感器10、12,机动车2的尾部处的环境传感器14、16,摄像机18以及GPS模块20。根据构型能够设置其他传感器,例如车轮转数传感器、加速度传感器等,这些其他传感器与机动车控制设备4连接。
在机动车2运行期间,计算单元6加载存储在存储器8中的计算机程序产品并且实施该计算机程序产品。基于算法和输入信号,计算单元6决定对机动车2的控制,计算单元6可以通过干预分别与机动车控制设备4连接的转向装置22、马达控制装置24以及制动装置26来实现该控制。
图2示出具有计算机程序产品模块30的计算机程序产品28。
计算机程序产品30具有自学习的神经网络32,该自学习的神经网络训练算法34。自学习的神经网络32根据加强学习方法来进行学习,即,神经网络32试图通过算法34的变型来相应于一个或多个标准(Kriterien或
Figure BDA0003098744760000081
)获得用于经改善的性能的奖励、即用于算法34的改善的奖励。
算法34基本上可以包括复杂的滤波器,该滤波器具有由定义滤波器函数的值(通常称为权重)组成的矩阵,该滤波器函数根据输入参量(这些输入参量当前通过环境传感器10至20记录)确定算法34的性能并生成用于控制机动车2的控制信号。
对算法34的品质的监控由另一计算机程序产品模块36进行,该另一计算机程序产品模块监控输入参量和输出参量、从中求取指标并基于指标通过函数来控制品质的遵守。同时,计算机程序产品模块36可以对神经网络32给予负奖励以及正奖励。
图3示出方法的流程图。
在第一步骤中,提供计算机程序产品模块和学习环境。
在纯虚拟的环境中,作为模型的机动车以及环境都是虚拟提供的。机动车的模型在其参数、传感装置、驾驶特性及其性能方面对应于之后的真实模型。环境的模型基于真实环境的地图数据,以便尽可能切合实际地形成模型。
在这种纯虚拟的环境中,训练一直进行,直到品质GM优于预先给定的品质标准G1为止。品质GM由品质函数G(M)得出,该品质函数是至少一个指标M的函数。相应的指标M可以是诸如每单位路线的事故和/或碰撞时间和/或制动时间之类的标准,和/或可以具有相似的测量参量,例如所需延迟、横向加速度、低于安全间距、违反适用的交通规则等。
只要品质GM不足以超过第一品质标准G1,就继续该训练。
只有当品质GM如此之高而使得超过第一品质标准G1时,才切换到训练的下一阶段,在该阶段中,将计算机程序产品传输到真实机动车的机动车控制设备4中,并在那里进一步训练。
训练是在虚拟环境中基于真实的机动车进行的。通过使用真实的机动车(真实的机动车在某些情况下与该机动车的来自第一训练阶段的虚拟模型相比性能不同),能够如此进一步开发算法34,使得算法能够考虑真实机动车2的性能。例如,差异可能是由于使用真实的传感器而产生的,这些真实的传感器可能具有不同的信号高度、噪声等。
在训练期间始终监控品质函数G(M)。目标是品质GM优于第二品质标准G2。第二品质标准G2比第一品质标准G1更严格。
在切换到真实的机动车2时可能发生:品质GM低于第一品质标准G1。在这种情况下,切换回到纯虚拟的环境中,并一直继续进行训练,直到算法34超过第一品质标准G1为止,并以真实的机动车2继续进行训练。
只有当品质GM不再低于第二品质标准G2时,才能够在下一步骤中继续进行训练。
然后,切换到部分真实、部分虚拟的环境中,在该环境中,继续先前描述的原理。如果品质函数低于第二品质标准G2的阈值,则将该方法重置到先前的训练步骤。如果品质函数甚至低于第一品质标准G1的阈值,则将该方法重置到初始的训练步骤。
相同的原理在下一步骤中继续进行,其方式为:在真实环境中训练神经网络。该步骤和先前的步骤可以由安全驾驶员来执行,这些安全驾驶员能够在紧急状况中快速切换回手动驾驶模式。
只要品质GM优于第四G4,就能够启用算法34以用于自由的交通。
尽管已经通过实施例详细地说明和阐述主题,但是本发明不受限于所公开的示例,并且其他变型可以由本领域技术人员从中推导出。因此,明显存在多个变型可能性。同样明显的是,示例性地提及的实施方式仅示出示例,这些实施方式无论如何都不应理解为对本发明的保护范围、应用可能性或配置的限制。相反,先前的描述和附图描述使得本领域技术人员能够具体地实现这些示例性的实施方式,其中,本领域技术人员在了解所公开的发明构思的情况下能够例如在示例性的实施方式中所提及的各个元件的功能或布置方面进行各种改变,而不脱离通过权利要求及其法律等同物(例如说明书中的进一步阐述)所限定的保护范围。
附图标记列表
2 机动车
4 机动车控制设备
6 计算单元
8 存储器
10 环境传感器
12 环境传感器
14 环境传感器
16 环境传感器
18 摄像机
20 GPS模块
22 转向装置
24 马达控制装置
26 制动装置
28 计算机程序产品
30 计算机程序产品模块
32 神经网络
34 算法
36 计算机程序产品模块
G(M) 品质函数
GM 品质
G1 第一品质标准
G2 第二品质标准
G3 第三品质标准
G4 第四品质标准
M 指标。

Claims (13)

1.一种用于训练用于机动车(2)的控制设备(4)的至少一个算法(34)的方法,其中,所述控制设备(4)设置用于,在使用所述至少一个算法(34)的情况下基于输入数据在干预所述机动车(2)的机组(22,24,26)的情况下实现自主驾驶功能,其中,通过自学习的神经网络(32)训练所述算法(34),所述方法包括以下步骤:
a)提供用于所述自主驾驶功能的计算机程序产品模块(28),其中,所述计算机程序产品模块(28)包含待训练的算法(34)和所述自学习的神经网络(32);
b)提供用于所述自主驾驶功能的至少一个指标(M)和奖励函数;
c)将所述计算机程序产品模块(28)嵌入到模拟环境中以模拟对于所述自主驾驶功能重要相关的至少一个交通状况,其中,所述模拟环境基于真实环境的地图数据以及基于所述机动车(2)的数字车辆模型,
通过模拟紧急的场景并且求取品质(GM)来训练所述自学习的神经网络(32),直到满足第一品质标准(G1)为止,其中,所述品质(GM)是所述至少一个指标(M)的品质函数(G(M))的结果;
d)将经训练的计算机程序产品模块(28)嵌入到所述机动车(2)的控制设备(4)中以模拟对于所述自主驾驶功能重要相关的交通状况,其中,所述模拟在基于真实环境的地图数据的模拟环境中执行,
通过模拟紧急的场景并且求取所述品质(GM)来训练所述自学习的神经网络(32),直到满足第二品质标准(G2)为止,其中,所述第二品质标准(G2)比所述第一品质标准(G1)更严格;其中,
e)(i)如果步骤d)中的所述品质(GM)差于所述第一品质标准(G1),则所述方法从步骤c)起继续,或者
(ii)如果步骤d)中的所述品质(GM)优于所述第一品质标准(G1)而差于所述第二品质标准(G2),则所述方法从步骤d)起继续。
2.根据权利要求1所述的方法,其中,
f)在混合现实的环境中模拟对于所述自主驾驶功能重要相关的交通状况,以及通过模拟紧急的场景并且求取所述品质(GM)来训练所述自学习的神经网络(32),直到满足第三品质标准(G3)为止,其中,所述第三品质标准(G3)比所述第二品质标准(G2)更严格,其中,
g)如果步骤f)中的所述品质(GM)差于所述第二品质标准(G2),则所述方法从步骤e)起继续。
3.根据权利要求2所述的方法,其中,
h)在真实环境中模拟对于所述自主驾驶功能重要相关的交通状况,以及通过模拟紧急的场景并且求取所述品质(GM)来训练所述自学习的神经网络(32),直到满足第四品质标准(G4)为止,其中,所述第四品质标准(G4)比所述第三品质标准(G3)更严格,其中,
i)如果步骤h)中的所述品质(GM)差于所述第三品质标准(G3),则所述方法从步骤g)起继续,或者如果步骤h)中的所述品质(GM)差于所述第二品质标准(G2),则所述方法从步骤e)起继续。
4.根据权利要求3所述的方法,其中,当所述品质(GM)满足所述第四品质标准(G4)时,启用所述计算机程序产品模块(28)以用于道路交通中的使用。
5.根据以上权利要求中任一项所述的方法,其中,所述方法步骤f)和/或h)由安全驾驶员执行。
6.根据以上权利要求中任一项所述的方法,其中,所述指标(M)具有以下标准:每单位路线的事故和/或碰撞时间和/或制动时间和/或所需延迟。
7.根据以上权利要求中任一项所述的方法,其中,所述神经网络(32)根据“加强学习”方法进行学习。
8.根据以上权利要求中任一项所述的方法,其中,所述神经网络(32)根据随机原理尝试现有算法的变型。
9.一种计算机程序产品,所述计算机程序产品具有计算机可读的存储介质(8),在所述计算机可读的存储介质上嵌入有指令,当由计算单元(6)实施所述指令时,所述指令实现,所述计算单元(6)设置用于实施根据以上权利要求中任一项所述的方法。
10.根据权利要求9所述的计算机程序产品,其中,根据权利要求1至8中任一项所述的计算机程序产品模块(28)具有所述指令。
11.一种机动车(),所述机动车具有计算单元(6)和计算机可读的存储介质(8),其中,在所述存储介质(8)上存储有根据权利要求9或10所述的计算机程序产品。
12.根据权利要求11所述的机动车(2),其中,所述计算单元(6)是所述控制设备(4)的组成部分。
13.根据权利要求11或12所述的机动车,其中,所述计算单元(6)与环境传感器(10,12,14,16,18)联网。
CN201980080062.9A 2018-12-03 2019-10-24 用于训练用于机动车的控制设备的至少一个算法的方法、计算机程序产品以及机动车 Pending CN113168570A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102018220865.4A DE102018220865B4 (de) 2018-12-03 2018-12-03 Verfahren zum Trainieren wenigstens eines Algorithmus für ein Steuergerät eines Kraftfahrzeugs, Computerprogrammprodukt sowie Kraftfahrzeug
DE102018220865.4 2018-12-03
PCT/EP2019/078978 WO2020114674A1 (de) 2018-12-03 2019-10-24 Verfahren zum trainieren wenigstens eines algorithmus für ein steuergerät eines kraftfahrzeugs, computerprogrammprodukt sowie kraftfahrzeug

Publications (1)

Publication Number Publication Date
CN113168570A true CN113168570A (zh) 2021-07-23

Family

ID=68501579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980080062.9A Pending CN113168570A (zh) 2018-12-03 2019-10-24 用于训练用于机动车的控制设备的至少一个算法的方法、计算机程序产品以及机动车

Country Status (6)

Country Link
US (1) US20220009510A1 (zh)
EP (1) EP3891664A1 (zh)
CN (1) CN113168570A (zh)
DE (1) DE102018220865B4 (zh)
MA (1) MA54363A (zh)
WO (1) WO2020114674A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3116634B1 (fr) * 2020-11-23 2022-12-09 Commissariat Energie Atomique Dispositif apprenant pour système cyber-physique mobile
DE102021202083A1 (de) * 2021-03-04 2022-09-08 Psa Automobiles Sa Computerimplementiertes Verfahren zum Trainieren wenigstens eines Algorithmus für eine Steuereinheit eines Kraftfahrzeugs, Computerprogrammprodukt, Steuereinheit sowie Kraftfahrzeug
WO2023069558A1 (en) * 2021-10-19 2023-04-27 Cyngn, Inc. System and method of large-scale automatic grading in autonomous driving using a domain-specific language
DE102022204295A1 (de) 2022-05-02 2023-11-02 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Trainieren und Betreiben eines Transformationsmoduls zur Vorverarbeitung von Eingaberecords zu Zwischenprodukten
WO2023247767A1 (en) * 2022-06-23 2023-12-28 Deepmind Technologies Limited Simulating industrial facilities for control
DE102022208519A1 (de) 2022-08-17 2024-02-22 STTech GmbH Computerimplementiertes Verfahren und Computerprogramm zur Bewegungsplanung eines Ego-Fahrsystems in einer Verkehrssituation, computerimplementiertes Verfahren zur Bewegungsplanung eines Ego-Fahrsystems in einer realen Verkehrssituation Steuergerät für ein Ego-Fahrzeug

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015007493B4 (de) * 2015-06-11 2021-02-25 Audi Ag Verfahren zum Trainieren eines in einem Kraftfahrzeug eingesetzten Entscheidungsalgorithmus und Kraftfahrzeug
CN108027897B (zh) * 2015-07-24 2022-04-12 渊慧科技有限公司 利用深度强化学习的连续控制
US10521677B2 (en) * 2016-07-14 2019-12-31 Ford Global Technologies, Llc Virtual sensor-data-generation system and method supporting development of vision-based rain-detection algorithms
CN107862346B (zh) * 2017-12-01 2020-06-30 驭势科技(北京)有限公司 一种进行驾驶策略模型训练的方法与设备
US11613249B2 (en) * 2018-04-03 2023-03-28 Ford Global Technologies, Llc Automatic navigation using deep reinforcement learning

Also Published As

Publication number Publication date
DE102018220865B4 (de) 2020-11-05
WO2020114674A1 (de) 2020-06-11
DE102018220865A1 (de) 2020-06-18
EP3891664A1 (de) 2021-10-13
US20220009510A1 (en) 2022-01-13
MA54363A (fr) 2022-03-09

Similar Documents

Publication Publication Date Title
CN113168570A (zh) 用于训练用于机动车的控制设备的至少一个算法的方法、计算机程序产品以及机动车
CN106314428B (zh) 一种避撞系统、避撞方法及机动车辆
CN112703459B (zh) 对抗场景的迭代生成
EP3579211B1 (en) Method and vehicle for assisting an operator of an ego-vehicle in controlling the ego-vehicle by determining a future behavior and an associated trajectory for the ego-vehicle
DE102019206908B4 (de) Verfahren zum Trainieren wenigstens eines Algorithmus für ein Steuergerät eines Kraftfahrzeugs, Computerprogrammprodukt, Kraftfahrzeug sowie System
CN111795832B (zh) 一种智能驾驶车辆测试方法、装置及设备
US7177743B2 (en) Vehicle control system having an adaptive controller
Wada et al. Characterization of expert drivers' last-second braking and its application to a collision avoidance system
CN109910879B (zh) 一种结合安全距离与碰撞时间的车辆安全防撞控制方法
CN114667545A (zh) 用于训练用于机动车的控制器的至少一个算法的方法、计算机程序产品以及机动车
Wang et al. Driver's various information process and multi-ruled decision-making mechanism: a fundamental of intelligent driving shaping model
CN110686906A (zh) 车辆自动驾驶测试方法及装置
CN111332283A (zh) 用于控制机动车的方法和系统
JP7439963B2 (ja) 判定装置、判定プログラム、判定方法及びニューラルネットワークモデルの生成方法
CN112041213B (zh) 用于可自主运行的设备的运行方法和可自主运行的设备
CN113085873B (zh) 驾驶策略的获取方法、装置、计算机设备和存储介质
CN110663073A (zh) 策略生成装置及车辆
CN113076897A (zh) 智能网联汽车的博弈动态行驶安全测控方法及调控终端
EP3629105A1 (en) High-level decision making for safe and reasonable autonomous lane changing using reinforcement learning
WO2020031611A1 (ja) 車両制御装置
CN109070881A (zh) 用于运行车辆的方法
CN112506170A (zh) 一种基于驾驶员模型的测试方法及装置
CN115176297A (zh) 用于训练用于机动车的控制器的至少一个算法的方法、计算机程序产品以及机动车
US20190382006A1 (en) Situation-dependent decision-making for vehicles
CN115136081A (zh) 用于训练用于机动车的控制器的至少一个算法的方法、用于优化区域中的交通流的方法、计算机程序产品以及机动车

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination