CN111830962A - 强化学习代理控制器的解释数据 - Google Patents
强化学习代理控制器的解释数据 Download PDFInfo
- Publication number
- CN111830962A CN111830962A CN202010210834.0A CN202010210834A CN111830962A CN 111830962 A CN111830962 A CN 111830962A CN 202010210834 A CN202010210834 A CN 202010210834A CN 111830962 A CN111830962 A CN 111830962A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- controller
- state
- processor
- action values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 230000015654 memory Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 abstract description 25
- 239000003795 chemical substances by application Substances 0.000 description 41
- 230000001133 acceleration Effects 0.000 description 21
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 12
- 210000002569 neuron Anatomy 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 240000005020 Acaciella glauca Species 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 235000003499 redwood Nutrition 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/14—Adaptive cruise control
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0225—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving docking at a fixed facility, e.g. base station or loading bay
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0259—Control of position or course in two dimensions specially adapted to land vehicles using magnetic or electromagnetic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0002—Automatic control, details of type of controller or control system architecture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Evolutionary Computation (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Electromagnetism (AREA)
- Feedback Control In General (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Abstract
本公开提供了“强化学习代理控制器的解释数据”。本公开描述了系统和方法,其包括:经由强化学习代理(RLA)控制器,基于表示观察到的状态的传感器数据计算多个状态‑动作值,其中所述RLA控制器利用深度神经网络(DNN);以及经由模糊控制器生成将所述多个状态‑动作值映射到所述传感器数据的多个线性模型。
Description
技术领域
本公开总体上涉及车辆控制器。
背景技术
强化学习代理是一种神经网络技术。使用这种代理的挑战之一是解释其输出数据。
发明内容
描述了一种机器学习系统,其包括(深度)强化学习代理(RLA)控制器和模糊逻辑控制器(例如,在下文中,简称为模糊控制器)。根据一个示例,一种方法包括:经由强化学习代理(RLA)控制器,基于表示观察到的状态的传感器数据计算多个状态-动作值,其中RLA控制器利用深度神经网络(DNN);以及经由模糊控制器生成将多个状态-动作值映射到传感器数据的多个线性模型。
在其他特征中,多个状态-动作值对应于在强化学习训练期间生成的最佳策略。
在其他特征中,所述方法包括基于多个状态-动作值或多个线性模型中的至少一者来致动代理。
在其他特征中,所述代理包括自主车辆。
在其他特征中,致动所述代理还包括基于多个状态-动作值或多个线性模型中的至少一者来调整自主车辆的速度。
在其他特征中,多个线性模型包括将多个状态-动作值映射到传感器数据的一组IF-THEN规则。
在其他特征中,模糊控制器使用演进的高木-杉野(ETS)模型来生成多个线性模型。
在其他特征中,所述方法包括经由模糊控制器确定与传感器数据相对应的一个或多个数据集群,其中所述一个或多个数据集群中的每一个包括焦点和半径。
根据另一示例,一种系统包括至少一个处理器和至少一个存储器。至少一个存储器存储指令,所述指令可由至少一个处理器执行,使得至少一个处理器被编程为:经由深度神经网络,基于表示观察到的状态的传感器数据计算多个状态-动作值,并且生成将多个状态-动作值映射到传感器数据的多个线性模型。
在其他特征中,多个状态-动作值对应于在强化学习训练期间生成的最佳策略。
在其他特征中,所述处理器还被编程为基于多个状态-动作值或多个线性模型中的至少一者来致动代理。
在其他特征中,所述代理包括自主车辆。
在其他特征中,所述处理器还被编程为基于多个状态-动作值或多个线性模型中的至少一者来调整自主车辆的速度。
在其他特征中,多个线性模型包括将多个状态-动作值映射到传感器数据的一组IF-THEN规则。
在其他特征中,所述处理器还被编程为使用演进的高木-杉野(ETS)模型来生成多个线性模型。
在其他特征中,所述处理器还被编程为确定与传感器数据相对应的一个或多个数据集群,其中所述一个或多个数据集群中的每一个包括焦点和半径。
根据另一示例,一种自主代理包括至少一个处理器和至少一个存储器。至少一个存储器存储指令,所述指令可由至少一个处理器执行,使得至少一个处理器被编程为:经由深度神经网络,基于表示观察到的状态的传感器数据计算多个状态-动作值;生成将多个状态-动作值映射到传感器数据的多个线性模型;并且基于多个状态-动作值或多个线性模型中的至少一者来致动自主代理。
在其他特征中,多个状态-动作值对应于在强化学习训练期间生成的最佳策略。
在其他特征中,自主代理包括自主车辆。
在其他特征中,多个线性模型包括将多个状态-动作值映射到传感器数据的一组IF-THEN规则。
附图说明
图1是示出了包括强化学习代理(RLA)控制器和模糊控制器的机器学习系统的示意图。
图2是示例性深度神经网络的图示。
图3是使用图1的机器学习系统的自我意识车辆的示意图。
图4是示出可由图1的机器学习系统执行的过程的流程图。
图5是自我意识车辆和引导车辆的示意图,其中所述自我意识车辆处于自适应巡航控制(ACC)模式。
图6是RLA控制器在训练模式下可以使用的速度奖励曲线的图形描绘。
图7是关于RLA控制器的训练模式下的情节的平均步长数的图形描绘。
图8是由模糊控制器确定的聚类数据的图形描绘。
图9是自我意识车辆和引导车辆之间的随时间间隔变化的距离的图形描绘。
图10是在图9的时间间隔内自我意识车辆的加速度变化的图形描绘。
具体实施方式
强化学习(RL)是一种形式的目标导向的机器学习。例如,代理可以从与其环境的直接交互中学习,而无需依赖明确的监督和/或完整的环境模型。强化学习是一个框架,其根据状态、动作和奖励对学习代理与其环境之间的交互进行建模。在每个时间步长处,代理接收状态,基于策略选择动作,接收标量奖励,并且转变到下一个状态。所述状态可以基于指示环境数据的一个或多个传感器输入。代理的目标是使预期的累积奖励最大化。代理可以为积极动作接收正标量奖励,并且为消极动作接收负标量奖励。因此,代理通过尝试使预期的累积奖励最大化来“学习”。尽管在本文的车辆的上下文中描述了代理,但是应当理解,代理可以包括任何合适的强化学习代理。
模糊逻辑可以用于估计输入-输出函数。例如,使用模糊逻辑,系统可以在没有数学模型的情况下估计输出如何根据输入而变化的函数。替代地,可以使用一组语言规则和/或存储器关联来将输出映射到输入。
如本文所述,系统可以包括强化学习代理控制器和模糊控制器。强化学习代理控制器接收输入数据。例如,输入数据可以包括从设置在代理周围的一个或多个传感器接收的传感器数据,所述传感器数据指示代理附近的环境。强化学习代理控制器基于接收到的输入数据生成输出。例如,输出可以是用于控制代理的控制信号。模糊控制器接收输入数据,例如传感器数据,以及由强化学习代理控制器生成的输出数据。使用输入数据和输出数据,模糊控制器生成基于规则的模型以近似输出到输入的映射。基于规则的模型可以包括由线性部分组成的非线性模型。
现在参考附图,其中相似的附图标记表示类似或相似的特征或功能,描述了机器学习系统10。在下面的描述中,在自主驾驶的背景下说明系统10。然而,应当理解,系统10不限于此(例如,许多其他解决问题的上下文也存在)。
根据本文解释的示例,系统10利用串联的强化学习代理(RLA)控制器12和模糊控制器14来解决机器学习问题。例如,使用感测到的数据作为输入,RLA控制器12可以使用奖励和/或惩罚方案来确定其优化,并生成表示一个或多个状态-动作值(Q值)的输出,例如,RLA数据集。因此,在所公开的系统10中,模糊控制器14用作解释模型。例如,模糊控制器14可以接收RLA数据集和表示观察到的状态的感测数据作为输入。因此,如本文所述,系统10首先利用RLA控制器12来确定动态模型的优化,然后利用模糊控制器14来处理RLA控制器12的输出,以提供对工程师、设计师等有用的信息,所述信息帮助他们创建和调整此类动态模型。
根据一个非限制性示例,系统10可以是计算机或包括硬件和软件、固件等的任何其他计算装置,其中硬件包括一个或多个处理器和存储器。例如,系统10可以是计算机模块(例如,现场可更换单元或LRU)。或者,系统10可以是电路卡或其一部分,其形成计算机模块的一部分,例如,与所述模块中的其他电路卡互连。还存在其他示例。在图1中,系统10被示为包括标记为RLA控制器12和模糊控制器14的电子控制单元(ECU)。如下所述,这仅是示例。例如,在其他示例中,可以使用共同处理器和存储器来体现RLA控制器12和模糊控制器14。
RLA控制器12包括一组指令(例如,软件指令),所述指令包括接收数据、确定对接收到的数据的优化以及生成一个或多个状态-动作值作为输出。根据至少一个非限制性示例,RLA控制器12还包括硬件:即,至少一个处理器20和至少一个存储器22。处理器20可以是能够处理电子指令的任何类型的装置,非限制性示例包括微处理器、微控制器或控制器、专用集成电路(ASIC)等,仅举数例。通常,处理器20可以被编程为执行数字存储的指令,所述指令可以存储在存储器22中,这使系统10能够解决机器学习问题。指令的非限制性示例将在下面描述的一个或多个过程中进行描述。
存储器22可以包括任何非暂时性计算机可用或可读介质,所述任何非暂时性计算机可用或可读介质可以包括一个或多个存储装置或物品。示例性非暂时性计算机可用存储装置包括常规硬盘、固态存储器、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)以及任何其他易失性或非易失性介质。非易失性介质包括例如光盘或磁盘以及其他永久性存储器,而易失性存储器例如还可以包括动态随机存取存储器(DRAM)。这些存储装置是非限制性示例;例如,存在其他形式的计算机可读介质并且包括磁性介质、压缩光盘ROM(CD-ROM)、数字视频盘(DVD)、其他光学介质、任何合适的存储器芯片或盒式磁带,或计算机可从中读取的任何其他介质。如上所述,存储器22可以存储一个或多个计算机程序产品,所述一个或多个计算机程序产品可以体现为软件、固件或可由处理器20执行的其他编程指令。
模糊控制器14包括一组指令(例如,软件指令),所述指令包括从RLA控制器12接收数据集,以及基于接收到的数据集生成一组模糊规则。根据至少一个非限制性示例,模糊控制器14还包括硬件:即,至少一个处理器30和至少一个存储器32。在至少一个示例中,处理器30的物理属性可以与处理器20的物理属性相同,并且在至少一个示例中,存储器32的物理属性可以与存储器22的物理属性相同;因此,这些物理属性不会在这里重复描述。也就是说,应当理解,模糊控制器14的指令可以与RLA控制器12的指令的一部分或全部不同。因此,任何预编程的处理器至少在其指令上可能有所不同;体现为ASIC等的处理器可能在软件和硬件方面有所不同。
图2是示例性深度神经网络(DNN)200的图示。例如,DNN 200可以是可以加载到存储器22中并由处理器20执行的软件程序。在示例性实现方式中,DNN 200可以包括能够采用强化学习技术的任何合适的神经网络。DNN 200包括多个神经元205,并且神经元205被布置成使得DNN 200包括输入层、一个或多个隐藏层、以及输出层。DNN 200的每一层可以包括多个神经元205。尽管图2示出了三(3)个隐藏层,但是应当理解,DNN 200可以包括额外的或更少的隐藏层。输入层和输出层还可以包括一个(1)以上神经元205。
因为神经元205被设计来模仿生物(例如人类)神经元,所以它们有时被称为人工神经元205。每个神经元205的一组输入(由箭头表示)各自乘以相应的权重。然后,可以将加权的输入在输入函数中求和,以提供净输入,所述净输入可能通过偏差进行调整。然后,可以将净输入提供给激活函数,所述激活函数又为连接的神经元205提供输出。所述激活函数可以是通常基于经验分析选择的各种合适的函数。如图2中的箭头所示,接着可以提供神经元205的输出以将其包括在到下一层中的一个或多个神经元205的一组输入中。
可以训练DNN 200接受传感器数据作为输入并例如基于输入来生成状态-动作值,例如奖励价值。可以利用训练数据(例如,一组已知的传感器输入)训练DNN 200,以训练代理以确定最佳策略。权重可以通过使用例如高斯分布来初始化,并且每个神经元205的偏差可以设定为零。训练DNN 200可以包括:经由合适技术(诸如反向传播)加以优化来更新权重和偏差。
参考图3,以示例的方式示出了系统10,所述系统10体现在包括自主驾驶系统42的车辆40中。车辆40被示为乘用车;然而,车辆40可以是包括自主驾驶系统42的任何其他合适的交通工具类型,包括卡车、运动型多功能车辆(SUV)、休闲车辆、公共汽车、飞行器、船舶等等。在至少一个示例中,车辆40被配置成在如汽车工程师协会(SAE)(其已定义了在0-5级的操作)所定义的多种自主模式中的至少一种下操作。例如,车辆40可以接收并处理其周围环境的二维和/或三维数据,并且还可以被编程和/或配置为存储和执行逻辑指令,所述逻辑指令体现在硬件、软件、固件、其组合等中,并且使车辆40能够在用户辅助(部分自主)或没有任何用户辅助(完全自主)的情况下操作。例如,根据0-2级,人类驾驶员通常在没有来自车辆40的帮助的情况下监控或控制大部分驾驶任务。例如,在0级(“无自主”),人类驾驶员负责所有车辆操作。在1级(“驾驶员辅助”),车辆40有时辅助转向、加速或制动,但驾驶员仍然负责绝大部分车辆控制。在2级(“部分自主”),车辆40可以在某些情况下控制转向、加速和制动而无需人类交互。在3至5级,车辆40承担更多驾驶相关的任务。在3级(“条件性自主”),车辆40可以在某些情况下处置转向、加速和制动,以及监控驾驶环境。然而,3级可能需要驾驶员偶尔进行干预。在4级(“高度自主”),车辆40可以处置与3级相同的任务,但在某些驾驶模式下不依赖于驾驶员干预。在5级(“完全自主”),车辆40可以在没有任何驾驶员干预的情况下处置所有任务。在至少一个示例中,车辆40被配置成根据2-5级中的一级进行操作。
自主驾驶系统42可以包括一个或多个传感器50、52、54;系统10(先前描述的)以及一个或多个计算机60、62、64。传感器50-54分别可以包括车辆仪表组传感器50、一个或多个车轮传感器52(例如,测量车速)以及无线电探测和测距(RADAR)传感器54。应当理解,系统40不需要三个传感器;例如,其可以具有更多或更少的传感器。并且,仪表组传感器50、车轮传感器52和RADAR传感器54仅是示例。车辆传感器50-54的非详尽性和非限制性列表可以包括以下各者中的一者或多者:车辆俯仰传感器;车辆侧倾传感器;车辆横摆传感器;运动传感器;接近传感器;激光识别探测和测距(激光雷达)传感器;成像传感器(例如,互补金属氧化物(CMOS)、电荷耦合传感器(CCD)、图像增强传感器等);红外传感器;热传感器;短、中或远程无线信号传感器;车辆位置传感器(例如,全球定位系统(GPS)和全球导航卫星系统(GLONASS)传感器);门微开传感器;车辆加速度传感器;车辆制动传感器和车辆转向传感器,仅举数例。
如图3所示,该传感器数据可以由系统10接收。根据自主驾驶系统42的一个示例,系统10可以向计算机62-64提供数据。
根据一个非限制性示例,计算机60-64分别可以包括车辆发动机控制计算机(60)、车辆制动系统计算机(62)和车辆转向控制计算机(64),其中计算机60-64中的每一个执行指令以执行至少一个自主或部分自主车辆操作(例如,诸如自适应巡航控制(ACC)、车道保持辅助、车道偏离警告、前部碰撞警告、自动紧急制动、行人检测和盲区警告,仅举数例)。应当理解,系统42不需要三个联接到系统10的输出的计算机;例如,其可以具有更多或更少的计算机。并且,车辆发动机控制计算机60、车辆制动系统计算机62和车辆转向控制计算机64仅是示例。车辆计算机60-64的非详尽性和非限制性列表可以包括主体控制模块(BCM)、动力传动系统控制模块(PCM)、动力传递单元(PTU)和悬架控制模块,仅举数例。如将在下面更详细描述的,通过系统10向计算机60-64中的一个或多个提供输出,系统10可以启动车辆功能(例如,诸如控制车辆加速、控制车辆制动和/或控制车辆转向)。
现在参考图4,示出了用于操作机器学习系统10的过程400的概述。仅作为示例而非限制(例如,为了说明实现方式),关于执行自适应巡航控制(ACC)系统的自主系统42描述了过程400。在过程400的其他示例中,系统10的环境可以不同,或者系统10可以在车辆中,但是替代地用于执行不同的车辆功能(例如,除ACC以外);因此,在过程400中以ACC模式操作的车辆40仅是示例。
在本示例的上下文中,车辆40(例如,也称为'自我意识(e)车辆')可能跟随引导(l)车辆70,如图5所示。在ACC模式下,车辆40尝试保持其与车辆70之间的合适距离(ld),例如,通过控制其速度(ev(t))并基于引导车辆70的速度(lv))、当前驾驶状况(例如,车辆40的速度、路况(干燥、潮湿、结冰等)、当前天气状况(大风、下雪等)等。例如,当引导车辆70减速时,车辆40可能会减速,试图在它们之间保持适当的距离。并且当车辆70加速时,车辆40可能会加速,例如,只要其速度不超过用户的预先选择的最大巡航速度。
返回到图4,过程400可以从框405开始。在框405中,系统10可以接收各种传感器数据输入。该传感器数据可能与车辆40以及引导车辆70有关,并且可能与操作自主系统42(可能正在执行ACC)有关。例如,传感器数据可以包括来自仪表组50的一个或多个ACC信号(例如,指示用户已启动ACC模式、指示期望的ACC速度等)、来自车轮传感器52的车辆40的当前速度、以及来自RADAR传感器54的深度数据(例如,其可以用于确定车辆40、70之间的距离、车辆70的速度等)。如将在下面更详细描述的,该传感器数据可以用作RLA控制器12操作所利用的动态车辆模型的输入。
在框410中,系统10可以根据车辆动态模型执行RLA训练模式。例如,框410可以包括训练RLA控制器12以使用预定量的情节(E)学习策略(π),其中每个情节包括预定量的样本(S)。例如,RLA控制器12通常可以执行E=500-2000个情节(以训练模式)(例如,在至少一个示例中,E=1500个情节)。每个训练情节通常包括样本(S),例如,200<S<800个样本,除非存在碰撞(例如,ld≤0米(m))或者车辆40、70之间的相对距离大于预定阈值lTHR(例如,ld>lTHR;例如,lTHR=150m)。因此,碰撞或大于阈值(lTHR)的相对距离可以终止相应情节。
方程式(1)至方程式(3)中示出了一个示例性车辆动态模型的示例。例如,方程式(1)和方程式(2)示出了单位质量双积分器。
方程式(1)。
x1(t+1)=x1(t)+x2(t)Δt
方程式(2)。
x2(t+1)=x2(t)+u(t)Δt
其中x1是车辆40的位置,其中x2是车速(在以下示例中,限于[0米/秒(m/s),32m/s]),其中u是输入加速度(在以下示例中,限于[-2m/s2,2m/s2])。在此说明性示例中,使用4Hz的采样率。
在RLA训练模式期间,方程式(3)可以用于定义相对于时间的加速度。
方程式(3)。
其中是探测噪声,其中μ(s|θμ)是确定性策略网络,其是系统状态(s)和未知的参数向量(θμ)的函数。例如,在ACC模式下,状态s可以定义为[dr,Δv,u(t-1)],其中dr表示相对距离,Δv表示相对速度,并且u(t-1)是时间(t-1)处施加的加速度。在训练模式下,引导车辆70可以相对于车辆40采取随机距离,并且可以采用随机速度。作为训练模式的一部分,每个情节可以将不同的加速度曲线随机地应用于引导车辆70,使得RLA控制器12学习如何对不同的情况做出反应。
在下面的示例中,可以使用随机优化的亚当方法(例如,其中执行网络学习率可以为10-4,评论网络学习率可能是10-3,以及折扣系数(γ)可以是0.95,其中执行网络和评论网络中的每一者都可以具有两个隐藏层,每个隐藏层具有64个已更正的非线性单元)来训练RLA控制器40(例如,优化参数和/或权重)。
在该示例中,RLA控制器12可以涉及优化车辆40相对于引导车辆70的速度。根据一个非限制性示例,对于每个样本(S),RLA控制器12可以计算若干相等权重的奖励(rv、rd、ra)、分别对应于车辆40的速度(ev)和车辆70的速度(lv)的奖励、车辆40、70之间的距离(ld)以及车辆40的加速度(Δae)的变化。根据该示例,RLA控制器12可以利用方程式(4)、方程式(5)和方程式(6)。
方程式(4)
其中evmax是车辆40的最大速度(例如,通常是在ACC模式下的用户选择的巡航控制速度)。
方程式(5)
其中Th是车头时距参数(即,车辆40、70之间的时间的测量值;例如,车辆40穿越距离ld所需的时间)(图4)(通常以秒(s)为单位),其是基于车辆40的当前速度),其中dthr是表示车辆40、70之间的距离的确定或预定距离,以便使车辆40避免后端与车辆70发生碰撞。车头时距Th的非限制性示例是在[1s,2s]内的值;例如,在下面描述的说明性计算(作为示例)中,使用Th=1.5的值。并且距离dthr的非限制性示例为两车长度、三车长度等等。
方程式(6)
其中Δae可以关联到Δae=ae(t)-ae(t-1),其中amax是车辆40的预定最大允许加速度。
为了说明示例性计算,图5示出了当lv=20m/s(米/秒)时的速度奖励(rv)。给定样本的最大奖励位于局部最大值rv-max。
图7示出了使策略(π)被RLA控制器12学习可能需要大约500个情节。此外,此后可能会发生收敛。例如,在图6中,在1500个情节之后,已经发生了额外的收敛以充分地将RLA控制器12训练到期望的性能。如下所示,该机器学习控制器的性能胜过现有技术。
返回到图4,在框420中,RLA控制器12输出数据(例如,状态-动作值、RLA数据集)。因此,如本文所使用的,RLA数据集包括作为RLA控制器12的输出提供的多个状态-动作值;在一些情况下,这是在训练模式期间发生的。在其他情况下,其可以在评估模式期间发生(例如,其在训练模式之后)。继续本示例,RLA数据集可以包括包含奖励(rv、rd、ra)、车辆40、70的对应速度值(lv,ev)、车辆40、70之间的对应距离(ld)、车辆40的加速度的对应变化(Δae等等的数据。根据一个示例,一旦训练完成(例如,在以上示例中,在1500个情节之后),框420就发生。在另一个示例中,框420发生在阈值量的情节之后(例如,在以上示例中,在500个情节之后)。并且根据至少一个示例,框420与框310至少部分地同时发生(在图4中使用虚线示出,将过程300循环回到框310),例如,数据集可以被重复生成(并在之后的框330中使用),同时训练RLA控制器12。
在框430中,模糊控制器14接收(框420的)RLA数据集和传感器输入以从中生成模型,例如模糊规则。更具体地,模糊控制器14可以确定非线性模型,所述非线性模型可以用于将RLA数据集映射到传感器输入。在一个或多个示例中,模糊控制器14使用演进的高木-杉野(ETS)建模。这仅是说明性的,并且在其他实现方式中,可以替代地使用其他类型的模糊控制器系统。因此,继续ETS模型示例,模糊控制器14可以确定一组模糊规则其中第i个规则具有用于n维输入向量x的方程式(7)的形式。
方程式(7)
则yi=αi0+αi1x1+αi2x2+…+αinxn
其中对于所有i的y由下面的方程式(8)定义。
方程式(8)
其中τi是第i个规则的激活水平(firing level)并且可以由方程式(9)和方程式(10)定义。
方程式(9)
τi=μi1(x1)*μi2(x2)*…*μin(xn)
方程式(10)
如图4所示,生成模糊规则(框330)可以包括框440(学习规则前项)和框450(估计规则结果)。学习规则前项(框440)可以包括确定数据焦点(f)(例如,模糊数据集群的所谓的“中心”)和概括数据空间中的每个相关状态的影响区(例如,相应集群的所谓的‘半径’(r))。规则前项可以将输入空间(例如传感器数据)分解为与不同操作条件(例如,状态-动作值)相对应的区域,其中线性子模型可以提供局部近似值;但是请注意:这些线性子模型的聚集可能是非线性的。在框450中,这些线性子模型(例如,线性方程式)的多个系数可以使用伪反演技术或通过应用递归最小二乘(RLS)优化技术确定。
仅作为示例(并且使用示例性RLA控制器计算的数据集),将示出框430至框460。在该示例中,模糊控制器14可以使用ETS建模,使用以下参数:r=0.3、ρ=0.3和∈=0.05,其中αi0=0。图8示出了使用示例性数据集(其中,轴表示相对距离、相对速度和先前的加速度),模糊控制器14获得(通过对输入空间进行聚类)由归一化焦点(f)和归一化半径(r)定义的八个集群(C)。之后的方程式(11)至方程式(18)示出了使用示例性ETS模型学习的示例性完整的模糊规则基础其中每个规则前项包括焦点(f)和对应的半径(r),其中每个规则结果包括ETS模型的线性输出的多个系数(αi1,αi2,…,αin)。
方程式(11)。
则y1=7.36x1-9.73x2+1.68x3
例如,其中αi1=7.36,αi2=-9.73,并且αi3=1.68。
方程式(12)。
则y2=0.11x1-1.13x2+2.14x3
例如,其中αi1=0.11,αi2=-1.13,并且αi3=2.14。
方程式(13)。
则y3=7.79x1-12.11x2+2.57x3
例如,其中αi1=7.79,αi2=-12.11,并且αi3=2.57。
方程式(14)。
则y4=0.08x1-5.17x2+0.86x3
例如,其中αi1=0.08,αi2=-5.17,并且αi3=0.86。
方程式(15)。
则y5=-2.46x1+0.83x2+1.98x3
例如,其中αi1=-2.46,αi2=0.83,并且αi3=1.98。
方程式(16)。
则y6=1.95x1-6.92x2+3.26x3
例如,其中αi1=1.95,αi2=-6.92,并且αi3=3.26。
方程式(17)。
则y7=-0.53x1-3.81x2+2.27x3
例如,其中αi1=-0.53,αi2=-3.81,并且αi3=2.27。
方程式(18)。
则y8=-2.20x1-0.70x2+4.20x3
例如,其中αi1=-2.20,αi2=-0.70,并且αi3=4.20。
因此,框420的数据集可以通过可解释的(例如人类可解释的)方程式来建模,例如,根据由模糊控制器14构建的IF-THEN语句。
在框495中,自主驾驶系统42可以执行车辆功能。继续本示例,系统42可以使用框420或框460的输出来在ACC模式下将车辆40保持在引导车辆70的后面的合适距离(ld)处。例如,该输出数据可以被发送到计算机60或62以分别控制车辆的加速或制动。之后,过程400可以循环回到框405或结束。
上述过程400可以实现与已知系统相似或甚至更好的性能。例如,上述RLA控制器12可以具有比所谓的Gipps控制器[P.G.Gipps,“用于计算机模拟的行为汽车跟驰模型(Abehavioural car-following model for computer simulation),”运输研究部分B:方法论,第15卷,第2期,第105-111页,1981]或智能驱动器模型或IDM控制器[M.Treiber,A.Hennecke和D.Helbing,“经验观察和微观模拟中的交通拥堵状态(Congested trafficstates in empirical observations and microscopic simulations)”物理评论E,第62卷,第2期,第1805页,2000]更好的性能。举例来说,Gipps控制器利用下面的方程式(19)和方程式(20)。
方程式(19)。
其中是在时间t+Δt车辆40(例如,‘自我意识’(e)车辆)的期望速度,其中ev(t)是车辆40的当前速度,其中anom是标称加速度,其中ev0是车辆40的用户发送的最大速度(例如,经由车辆40的巡航控制用户接口(未示出)),其中是基于车辆40、70之间的相对距离(dr)和引导车辆70的相对速度(lv)所计算的速度。注意:其中相对距离与引导车辆70的位置相同。
方程式(20)
如图9所示,Gipps控制器可以与引导车辆保持近乎恒定的间隙;然而,如图10所示,Gipps控制器可能导致不期望的加速度曲线。在图9中,IDM控制器展示与引导车辆的距离的不期望的大变化,这主要是由于系统响应较慢。转到RLA控制器12的相对性能,车辆40在其与引导车辆70之间保持一致的距离(图9),同时还展示更平滑的加速度曲线(图10)。例如,这可能是由于对加速度的大变化使用了相对较大的惩罚。因此,RLA控制器12胜过Gipps和IDM控制器。
类似地,例如,上述模糊控制器14可以产生与使用基于ETS模糊规则(FRB)系统的控制器相似的加速度曲线。此外,计算时间可以是相似的。例如,根据一项研究,模糊控制器14的每个决策步骤的时间为0.3毫秒(ms),而ETS FRB的每个决策步骤的时间为0.13ms。
如上所述,自适应巡航控制模式仅是示例。其他汽车和非汽车实现方式存在。
因此,已经描述了一种机器学习系统,所述机器学习系统包括模糊控制器,所述模糊控制器从强化学习代理(RLA)控制器接收诸如多个状态-动作值的数据集。控制器可以体现在软件、硬件或其组合中。通过串联使用两个控制器,其中RLA控制器(数据)的输出被接收作为对模糊控制器的输入,可以创建机器学习系统,其中可使用模糊控制器解释输出数据。以这种方式,工程师、系统设计师等可能会更充分地理解其实现方式和/或解决其实现方式的问题。
通常,所描述的计算系统和/或装置可以采用许多计算机操作系统中的任一者,包括但绝不限于以下版本和/或变型的操作系统:Ford 应用程序、AppLink/SmartDevice Link中间件、Automotive操作系统、Microsoft操作系统、Unix操作系统(例如,由加州红木海岸的Oracle公司(Oracle Corporation,RedwoodShores,California)发布的操作系统)、由纽约阿蒙克市的国际商业机器公司(International Business Machines,Armonk,New York)发布的AIX UNIX操作系统、Linux操作系统、由加州库比蒂诺的Apple公司(Apple Inc.,Cupertino,California)发布的MacOSX和iOS操作系统、由加拿大滑铁卢的黑莓有限公司(Blackberry,Ltd,Waterloo,Canada)发布的BlackBerry OS以及由谷歌股份有限公司(Google,Inc.)和开放手机联盟(OpenHandset Alliance)开发的Android操作系统,或由QNX软件系统有限公司(QNX SoftwareSystems)供应的CAR信息娱乐平台。计算装置的示例包括但不限于车辆上的计算机、计算机工作站、服务器、台式计算机、笔记本计算机、膝上型计算机或手持式计算机,或者某一其他计算系统和/或装置。
计算装置通常包括计算机可执行指令,其中所述指令可以由诸如上面列出的那些的一个或多个计算装置执行。计算机可执行指令可以由使用各种编程语言和/或技术创建的计算机程序来编译或解译,这些编程语言和/或技术包括但不限于以下各者的单独或组合形式:JavaTM、C、C++、Visual Basic、Java Script、Perl等。这些应用程序中的一些可以在虚拟机(诸如Java虚拟机、Dalvik虚拟机等)上编译和执行。一般来说,处理器(例如,微处理器)例如从存储器、计算机可读介质等接收指令,并且执行这些指令,由此执行一个或多个过程,包括本文所描述的一个或多个过程。可以使用多种计算机可读介质来存储和传输此类指令和其他数据。
计算机可读介质(也被称为处理器可读介质)包括参与提供可以由计算机(例如,由计算机的处理器)读取的数据(例如,指令)的任何非暂时(例如,有形)介质。此类介质可以采取许多形式,包括但不限于非易失性介质和易失性介质。非易失性介质可以包括例如光盘或磁盘以及其他持久性存储器。易失性介质可以包括(例如)通常构成主存储器的动态随机存取存储器(DRAM)。此类指令可以由一种或多种传输介质(包括同轴电缆、铜线和光纤(包括构成联接到计算机的处理器的系统总线的导线))传输。计算机可读介质的常见形式包括例如软盘、软磁盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD、任何其他光学介质、穿孔卡片、纸带、任何其他具有孔图案的物理介质、RAM、PROM、EPROM、快闪EEPROM、任何其他存储器芯片或盒式磁带,或计算机可以从中读取的任何其他介质。
数据库、数据存储库或本文所描述的其他数据存储装置可以包括用于存储、访问和检索各种数据的各种机构,包括分层数据库、文件系统中的文件集、呈专用格式的应用程序数据库、关系数据库管理系统(RDBMS)等。每个此类数据存储装置总体上包括在采用计算机操作系统(诸如以上提到的操作系统中的一种)的计算装置内,并且经由网络以各种方式中的任一种或多种来访问。文件系统可以从计算机操作系统访问,并且可以包括以各种格式存储的文件。RDBMS除了用于创建、存储、编辑和执行所存储程序的语言(诸如上文提到的PL/SQL语言)之外通常采用结构化查询语言(SQL)。
在一些示例中,系统元件可以被实施为一个或多个计算装置(例如,服务器、个人计算机等)上的存储在与其相关联的计算机可读介质(例如,磁盘、存储器等)上的计算机可读指令(例如,软件)。计算机程序产品可以包括存储在计算机可读介质上用于执行本文所述的功能的此类指令。
处理器经由电路、芯片或其他电子部件来实施,并且可以包括一个或多个微控制器、一个或多个现场可编程门阵列(FPGA)、一个或多个专用电路(ASIC)、一个或多个数字信号处理器(DSP)、一个或多个客户集成电路等。处理器可以被编程来处理传感器数据。处理数据可以包括处理由传感器捕获的视频馈送或其他数据流,以确定主车辆的道路车道和任何目标车辆的存在。如下所述,处理器指示车辆部件根据传感器数据来致动。处理器可以并入到控制器(例如,自主模式控制器)中。
存储器(或数据存储装置)经由电路、芯片或其他电子部件来实施,并且可以包括以下各者中的一者或多者:只读存储器(ROM)、随机存取存储器(RAM)、闪速存储器、电可编程存储器(EPROM)、电可擦除可编程存储器(EEPROM)、嵌入式多媒体卡(eMMC)、硬盘驱动器、或任何易失性或非易失性介质等。存储器可以存储从传感器收集的数据。
已经以说明性方式描述了本公开,并且应当理解,已经使用的术语旨在本质上是描述性的而不是限制性的字词。鉴于以上教导,本公开的许多修改和变化是可能的,并且本公开可以不同于具体描述的其他方式来实践。
根据本发明,一种方法包括:经由强化学习代理(RLA)控制器,基于表示观察到的状态的传感器数据,计算多个状态-动作值,其中所述RLA控制器利用深度神经网络(DNN);以及经由模糊控制器生成将所述多个状态-动作值映射到所述传感器数据的多个线性模型。
根据一个实施例,所述多个状态-动作值对应于在强化学习训练期间生成的最佳策略。
根据一个实施例,上述本发明的特征还在于基于所述多个状态-动作值或所述多个线性模型中的至少一者来致动代理。
根据一个实施例,所述代理包括自主车辆。
根据一个实施例,致动所述代理还包括基于所述多个状态-动作值或所述多个线性模型中的至少一者来调整所述自主车辆的速度。
根据一个实施例,所述多个线性模型包括将所述多个状态-动作值映射到所述传感器数据的一组IF-THEN规则。
根据一个实施例,所述模糊控制器使用演进的高木-杉野(ETS)模型来生成所述多个线性模型。
根据一个实施例,上述发明的特征还在于,经由所述模糊控制器确定与所述传感器数据相对应的一个或多个数据集群,其中所述一个或多个数据集群中的每一个包括焦点和半径。
根据本发明,提供了一种系统,所述系统具有:至少一个处理器;以及至少一个存储器,其中所述至少一个存储器存储指令,所述指令可由所述至少一个处理器执行,使得所述至少一个处理器被编程为:经由深度神经网络,基于表示观察到的状态的传感器数据计算多个状态-动作值;并且生成将所述多个状态-动作值映射到所述传感器数据的多个线性模型。
根据一个实施例,所述多个状态-动作值对应于在强化学习训练期间生成的最佳策略。
根据一个实施例,所述处理器还被编程为基于所述多个状态-动作值或所述多个线性模型中的至少一者来致动代理。
根据一个实施例,所述代理包括自主车辆。
根据一个实施例,所述处理器还被编程为基于所述多个状态-动作值或所述多个线性模型中的至少一者来调整所述自主车辆的速度。
根据一个实施例,所述多个线性模型包括将所述多个状态-动作值映射到所述传感器数据的一组IF-THEN规则。
根据一个实施例,所述处理器还被编程为使用演进的高木-杉野(ETS)模型来生成所述多个线性模型。
根据一个实施例,所述处理器还被编程为确定与所述传感器数据相对应的一个或多个数据集群,其中所述一个或多个数据集群中的每一个包括焦点和半径。
根据本发明,提供了一种自主代理,所述自主代理具有:至少一个处理器;以及至少一个存储器,其中所述至少一个存储器存储指令,所述指令可由所述至少一个处理器执行,使得所述至少一个处理器被编程为:经由深度神经网络,基于表示观察到的状态的传感器数据计算多个状态-动作值;生成将所述多个状态-动作值映射到所述传感器数据的多个线性模型;并且基于所述多个状态-动作值或所述多个线性模型中的至少一者来致动所述自主代理。
根据一个实施例,所述多个状态-动作值对应于在强化学习训练期间生成的最佳策略。
根据一个实施例,所述自主代理包括自主车辆。
根据一个实施例,所述多个线性模型包括将所述多个状态-动作值映射到所述传感器数据的一组IF-THEN规则。
Claims (8)
1.一种系统,其包括:
至少一个处理器;以及
至少一个存储器,其中所述至少一个存储器存储指令,所述指令能够由所述至少一个处理器执行,使得所述至少一个处理器被编程为:
经由深度神经网络,基于表示观察到的状态的传感器数据计算多个状态-动作值;并且
生成将所述多个状态-动作值映射到所述传感器数据的多个线性模型。
2.如权利要求1所述的系统,其中所述多个状态-动作值对应于在强化学习训练期间生成的最佳策略。
3.如权利要求1所述的系统,其中所述处理器还被编程为基于所述多个状态-动作值或所述多个线性模型中的至少一者来致动代理。
4.如权利要求3所述的系统,其中所述代理包括自主车辆。
5.如权利要求4所述的系统,其中所述处理器还被编程为基于所述多个状态-动作值或所述多个线性模型中的至少一者来调整所述自主车辆的速度。
6.如权利要求1所述的系统,其中所述多个线性模型包括将所述多个状态-动作值映射到所述传感器数据的一组IF-THEN规则。
7.如权利要求1所述的系统,其中所述处理器还被编程为使用演进的高木-杉野(ETS)模型来生成所述多个线性模型。
8.如权利要求1所述的系统,其中所述处理器还被编程为确定与所述传感器数据相对应的一个或多个数据集群,其中所述一个或多个数据集群中的每一个包括焦点和半径。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962824015P | 2019-03-26 | 2019-03-26 | |
US62/824,015 | 2019-03-26 | ||
US16/778,444 | 2020-01-31 | ||
US16/778,444 US11560146B2 (en) | 2019-03-26 | 2020-01-31 | Interpreting data of reinforcement learning agent controller |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111830962A true CN111830962A (zh) | 2020-10-27 |
Family
ID=72607780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010210834.0A Pending CN111830962A (zh) | 2019-03-26 | 2020-03-24 | 强化学习代理控制器的解释数据 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11560146B2 (zh) |
CN (1) | CN111830962A (zh) |
DE (1) | DE102020108127A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116653888A (zh) * | 2023-06-06 | 2023-08-29 | 湖北文理学院 | 一种车辆制动的控制方法、装置、电子设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112249032B (zh) * | 2020-10-29 | 2022-02-18 | 浪潮(北京)电子信息产业有限公司 | 一种自动驾驶决策方法、系统、设备及计算机存储介质 |
US20230025154A1 (en) * | 2021-07-22 | 2023-01-26 | The Boeing Company | Dual agent reinforcement learning based system for autonomous operation of aircraft |
CN117172123B (zh) * | 2023-09-13 | 2024-03-08 | 江苏大块头智驾科技有限公司 | 用于矿山自动驾驶的传感器数据处理方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201305067D0 (en) * | 2013-03-19 | 2013-05-01 | Massive Analytic Ltd | Apparatus for controlling a land vehicle which is self-driving or partially self-driving |
CN108431549B (zh) * | 2016-01-05 | 2020-09-04 | 御眼视觉技术有限公司 | 具有施加的约束的经训练的系统 |
KR102406507B1 (ko) | 2017-03-27 | 2022-06-10 | 현대자동차주식회사 | 딥러닝 기반 자율주행 차량 제어 장치, 그를 포함한 시스템 및 그 방법 |
US10816973B2 (en) | 2017-06-02 | 2020-10-27 | Baidu Usa Llc | Utilizing rule-based and model-based decision systems for autonomous driving control |
CN107862346B (zh) | 2017-12-01 | 2020-06-30 | 驭势科技(北京)有限公司 | 一种进行驾驶策略模型训练的方法与设备 |
US10733510B2 (en) * | 2018-08-24 | 2020-08-04 | Ford Global Technologies, Llc | Vehicle adaptive learning |
US20200193318A1 (en) * | 2018-11-05 | 2020-06-18 | Incucomm, Inc. | System and method for state estimation in a noisy machine-learning environment |
US11480972B2 (en) * | 2018-11-13 | 2022-10-25 | Qualcomm Incorporated | Hybrid reinforcement learning for autonomous driving |
-
2020
- 2020-01-31 US US16/778,444 patent/US11560146B2/en active Active
- 2020-03-24 CN CN202010210834.0A patent/CN111830962A/zh active Pending
- 2020-03-24 DE DE102020108127.8A patent/DE102020108127A1/de active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116653888A (zh) * | 2023-06-06 | 2023-08-29 | 湖北文理学院 | 一种车辆制动的控制方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20200307577A1 (en) | 2020-10-01 |
US11560146B2 (en) | 2023-01-24 |
DE102020108127A1 (de) | 2020-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11899411B2 (en) | Hybrid reinforcement learning for autonomous driving | |
CN110949398B (zh) | 一种车辆编队行驶中头车驾驶员异常驾驶行为检测方法 | |
CN107229973B (zh) | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 | |
US11560146B2 (en) | Interpreting data of reinforcement learning agent controller | |
US10752253B1 (en) | Driver awareness detection system | |
US11657635B2 (en) | Measuring confidence in deep neural networks | |
US20220227391A1 (en) | Systems and methods for scenario dependent trajectory scoring | |
CN114763150A (zh) | 对故障状况进行排名 | |
US11100372B2 (en) | Training deep neural networks with synthetic images | |
US20230153623A1 (en) | Adaptively pruning neural network systems | |
Cheng et al. | Spatio-temporal image representation and deep-learning-based decision framework for automated vehicles | |
JP7350188B2 (ja) | 運転支援装置、学習装置、運転支援方法、運転支援プログラム、学習済モデルの生成方法、学習済モデル生成プログラム | |
CN114119625A (zh) | 点云数据的分割与分类 | |
US20230192118A1 (en) | Automated driving system with desired level of driving aggressiveness | |
US20230162039A1 (en) | Selective dropout of features for adversarial robustness of neural network | |
US20220172062A1 (en) | Measuring confidence in deep neural networks | |
US11794780B2 (en) | Reward function for vehicles | |
US11462020B2 (en) | Temporal CNN rear impact alert system | |
Zhang et al. | Vehicle driving behavior predicting and judging using LSTM and statistics methods | |
US10977783B1 (en) | Quantifying photorealism in simulated data with GANs | |
CN113298696A (zh) | 具有深度神经网络的rccc到rgb域转化 | |
CN112700001A (zh) | 用于深度强化学习的认证对抗鲁棒性 | |
Yamauchi et al. | Adaptive identification method of vehicle modeling according to the fluctuation of road and running situation in autonomous driving | |
US20230139521A1 (en) | Neural network validation system | |
US11321587B2 (en) | Domain generation via learned partial domain translations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |