CN108885722A - 信息处理设备 - Google Patents

信息处理设备 Download PDF

Info

Publication number
CN108885722A
CN108885722A CN201780018213.9A CN201780018213A CN108885722A CN 108885722 A CN108885722 A CN 108885722A CN 201780018213 A CN201780018213 A CN 201780018213A CN 108885722 A CN108885722 A CN 108885722A
Authority
CN
China
Prior art keywords
information
control
parameter
environment
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780018213.9A
Other languages
English (en)
Inventor
福井启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN108885722A publication Critical patent/CN108885722A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/593Recognising seat occupancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Feedback Control In General (AREA)

Abstract

基于真实世界中的环境有效地实现控制学习。提供了一种信息处理设备,该信息处理设备包括:生成单元,其生成响应信息,该响应信息与基于环境参数生成的环境模型中的要被控制的物体有关;以及发送单元,其将响应信息和环境参数发送至学习单元,该学习单元执行与对要被控制的物体的控制有关的机器学习。此外,提供了一种信息处理设备,该信息处理设备包括:通信单元,其接收第一环境参数和响应信息,该响应信息与基于第一环境参数生成的环境模型中的要被控制的物体有关;以及学习单元,其使用接收到的第一环境参数和接收到的响应信息来执行与对要控制的物体的控制有关的机器学习。

Description

信息处理设备
技术领域
本公开内容涉及信息处理设备。
背景技术
近年来,模仿颅神经系统的机理的神经网络引起了关注。此外,一些报道已经提出了通过利用物理模拟器使神经网络执行控制学习。例如,非专利文献1公开了使用模拟器的游戏的控制学习结果。
引文列表
非专利文献
非专利文献1:深度思维技术和七个其他技术(DeepMind Technologies,andseven others),“Playing Atari with Deep Reinforcement Learning”,2015年11月9日,[在线],[2016年2月8日检索的],因特网<https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf>
发明内容
技术问题
然而,通过非专利文献1中公开的方法,难以使神经网络执行与真实世界匹配的控制学习。
因此,本公开内容提出了一种能够根据真实世界中的环境有效地实现控制学习的信息处理设备。
[问题的解决方案]
根据本公开内容,提供了一种信息处理设备,该信息处理设备包括:生成单元,其被配置成生成基于环境参数而生成的环境模型中的与控制对象有关的响应信息;以及发送单元,其被配置成将响应信息和环境参数发送至学习单元,所述学习单元执行与控制对象的控制有关的机器学习。
另外,根据本公开内容,提供了一种信息处理设备,该信息处理设备包括:通信单元,其被配置成接收基于第一环境参数而生成的环境模型中的与控制对象有关的响应信息、以及接收第一环境参数;以及学习单元,其被配置成使用接收到的响应信息和接收到的第一环境参数,执行与控制对象的控制有关的机器学习。
另外,根据本公开内容,提供了一种信息处理设备,该信息处理设备包括:环境获取单元,其被配置成获取与环境状态有关的环境参数;确定单元,其被配置成基于所获取的环境参数确定所述环境状态是否已经被学习;以及发送单元,其被配置成基于确定单元确定环境状态尚未被学习而发送环境参数。
提供了一种信息处理设备,该信息处理设备包括:接收单元,其被配置成接收与未学习的环境状态有关的环境参数;以及生成单元,其被配置成生成基于环境参数而生成的环境模型中的与第一控制对象的行为有关的数据。
发明的有益效果
如上所述,根据本公开内容,可以根据真实世界中的环境有效地实现控制学习。注意,上述效果不一定是限制性的。与以上效果一起或替代以上效果,可以实现本说明书中描述的效果中的任一效果或者可以从本说明书理解的其他效果。
附图说明
图1是示出根据本公开内容的环境模型的概况的图。
图2是根据本公开内容的概念图。
图3示出根据实施方式的系统配置示例。
图4是根据实施方式的每个部件的功能框图。
图5是示出根据实施方式的控制学习的输入和输出的概念图。
图6根据实施方式的用于传递环境参数的API的示例。
图7是示意性地示出根据实施方式的控制学习设备的网络结构的概念图。
图8示出根据实施方式的学习的流程的流程图。
图9是示出根据实施方式的环境请求的流程的流程图。
图10是按照时间顺序示出根据实施方式的情节中的输入/输出数据的示例。
图11是示出根据实施方式的逆强化学习的输入和输出的概念图。
图12是示出根据实施方式的环境捕获的输入和输出的概念图。
图13是示出根据实施方式的环境确定的流程的流程图。
图14根据实施方式的通知画面的显示示例。
图15是示出根据实施方式的环境捕获的流程的流程图。
图16是根据本公开内容的硬件配置示例。
具体实施方式
在下文中,将参照附图详细描述本公开内容的优选实施方式。注意,在本说明书和附图中,用相同的附图标记表示具有基本相同的功能和结构的结构元件,并且省略对这些结构元件的重复说明。
注意,将按以下顺序来提供描述。
1.根据本公开内容的背景
1.1神经网络
1.2.利用神经网络的操作控制
1.3.利用物理模拟器的控制学习
1.4.根据本公开内容的概述
2.实施方式
2.1.根据本实施方式的系统配置示例
2.2.环境生成设备10
2.3.控制学习设备20
2.4.信息处理设备30
2.5.根据本实施方式的环境参数
2.6.根据本实施方式的奖励参数
2.7.与本实施方式的控制学习有关的输入/输出
2.8.根据本实施方式的控制学习的流程
2.9.根据本实施方式的环境请求的流程
2.10.根据本实施方式的情节转变的具体示例
2.11.根据本实施方式的逆强化学习
2.12.与未知环境和危险环境的捕获有关的概述
2.13.未知环境和危险环境的确定
2.14.与未知环境和危险环境的捕获有关的详细信息
3.硬件配置示例
4.结论
<1.根据本公开内容的背景>
<<1.1.神经网络>>
神经网络指代模仿人类颅神经回路的模型,并且是用于在计算机上实现人类学习能力的技术。如上所述,神经网络的一个特征是其具有学习能力。在神经网络中,通过突触耦合形成网络的人造神经元(节点)能够通过学习而改变突触耦合强度来获取解决问题的能力。换言之,神经网络能够通过重复复习来自动推断解决问题的规则。
由神经网络进行的学习的示例包括图像识别和语音识别。在神经网络中,可以通过例如重复学习输入图像图案来识别包括在输入图像中的物体等。如上所述的神经网络的学习能力作为使人工智能的发展前进的关键,已经引起了关注。此外,期望将神经网络的学习能力应用在各个工业领域中。神经网络的学习能力的应用的示例可以包括例如各种设备中的自主控制。
<<1.2.利用神经网络的操作控制>>
此处,将使用示例来描述利用神经网络的自主控制。近年来,已经开发了自主地进行操作而不需要用户操作的各种设备。上述设备包括例如不需要驾驶员的控制的自动驾驶车辆。自动驾驶车辆能够根据由各种传感器获取的信息识别周围环境,并且根据所识别的环境实现自主行驶。
如上所述,神经网络可以应用于自动驾驶车辆中的环境的识别和驾驶的控制。在自动驾驶控制中,例如,可以使用学习机器(在下文中,也被称为自动驾驶AI),所述学习机器通过使用具有多层结构的神经网络的深度学习来获取驾驶控制功能。即,自动驾驶AI可以基于通过学习获取的环境识别能力和驾驶控制能力来根据周围环境执行机动车的驾驶控制。例如,自动驾驶AI可以基于从传感器观测到的观测信息来识别行人,并且执行方向盘控制、制动控制等以避开行人。
<<1.3.利用物理模拟器的控制学习>>
虽然上面已经描述了通过学习机器进行的控制学习的概述,但是通过与如上所述的学习一起使用物理模拟器的模拟,可以提高学习效率。例如,在学习自动驾驶控制的学习机器的情况下,存在仅通过真实世界中的学习难以执行充分的学习的情况。
例如,在使学习机器在温暖地区学习驾驶控制的情况下,由于降雪的机会很少,因此难以在降雪环境下学习驾驶控制。同时,在温暖地区也有可能降雪,并且也存在以下假定可能性:已经在温暖地区执行了学习的自动驾驶AI被应用于在寒冷地区行驶的机动车。在这样的情况下,由于自动驾驶AI在与学习环境不同的未知环境下执行驾驶控制,因此存在与驾驶控制有关的准确度可能显著降低的可能性。因此,另外在安全性方面,优选地使自动驾驶AI在更多的环境下执行学习。
在这种情况下,例如,可以将从寒冷地区携带的雪放在路线上,并且使学习机器在该路线上执行控制学习。然而,由于这样的方法需要很多成本和工作,因此希望在操作侧也有改进。此外,利用上述方法,不可能再现诸如台风和暴雨的天气条件,并且此外,该方法在与危险环境例如事故和冲出有关的再现方面受到限制。因此,通过上述方法,可以进行处理的环境自然受到限制。
同时,利用根据本公开内容的学习方法,通过利用物理模拟器实现控制学习,可以排除如上所述的限制并且降低成本。即,利用根据本公开内容的学习方法,可以通过使用物理模拟器再现各种环境模型并且使控制学习在环境模型中被执行来提供能够应用于更多环境的自动驾驶AI。
此处,上述物理模拟器可以是包括模拟动力学规律的物理引擎的模拟器。在本公开内容中,通过使用物理模拟器,可以生成模仿拟真实世界中的环境的各种环境模型。注意,根据本公开内容的物理模拟器可以使用CG执行模拟。根据本公开内容的物理模拟器可以再现CG的各种物理现象。
图1是示出由本公开内容中的物理模拟器生成的环境模型的概况的图。参照图1,本公开内容中使用的物理模拟器可以例如再现真实世界中的天气条件。在图1中,物理模拟器在相同的地形信息下生成不同的环境模型E1和E2。
在图1所示的示例中,环境模型E1可以是降雨状况的再现,并且环境模型E2可以是再现强烈的西部太阳的状况的模型。以这种方式,在根据本公开内容的学习方法中,通过在相同地形下生成各种不同的环境模型,可以使学习机器在真实世界中难以学习的环境中执行控制学习。注意,虽然图1示出了与天气有关的环境模型作为示例,但是根据本公开内容的环境模型不限于这样的示例。
<<1.4.根据本公开内容概述>>
上面已经描述了根据本公开内容的自动驾驶AI和物理模拟器。如上所述,通过根据本公开内容的学习方法,可以在控制学习中通过使用由物理模拟器生成的环境模型来实现有效的学习。此外,本公开内容的效果不限于上述效果。
根据本公开内容的技术,学习机器可以执行控制学习同时根据学习的进程动态地请求环境。此外,基于安装在机动车上的自动驾驶AI检测到与学习环境不同的未知环境或危险环境,自动驾驶AI可以将与环境有关的环境信息发送至物理模拟器。此外,在这种情况下,物理模拟器可以根据接收到的环境信息生成新的环境模型,并且将生成的新环境模型提供给学习机器。
图2是示出根据本公开内容的概述的概念图。图2示出了由物理模拟器生成的多个环境模型EN、执行控制学习的学习机器I1以及自动驾驶车辆V1,该自动驾驶车辆V1上安装有已经完成学习的自动驾驶AI。此处,学习机器I1是使用由物理模拟器生成的多个环境模型EN来执行自动驾驶的控制学习的学习机器。学习机器I1可以执行控制学习同时根据学习的进程动态地请求环境。例如,学习机器I1可以在已经完成了晴朗环境下的驾驶控制的学习的情况下向物理模拟器请求降雨环境。
此外,自动驾驶车辆V1可以是由已经完成学习的自动驾驶AI控制的机动车。其上安装有多个传感器的自动驾驶车辆V1在真实世界中行驶并且收集周围环境信息。此处,在自动驾驶车辆V1上安装的自动驾驶AI检测到与学习环境不同的未知环境或危险环境的情况下,自动驾驶AI可以将与环境有关的环境信息发送至物理模拟器。在这种情况下,要发送的环境信息可以是由自动驾驶车辆V1收集的真实世界中的环境信息。
此外,物理模拟器可以根据接收到的环境信息生成新的环境模型。即,物理模拟器可以再现在真实世界中检测到的未知环境或危险环境作为新的环境模型,并且将环境添加至多个环境模型EM以被提供给学习机器AI。
上面已经描述了根据本公开内容的概述。如上所述,通过根据本公开内容的学习方法,可以使用由物理模拟器生成的环境模型来执行控制学习。此外,在本公开内容中,可以基于由自动驾驶AI检测到的未知环境或危险环境来生成新的环境模型。
即,根据本公开内容,可以基于真实世界中的观测信息有效地生成环境模型,并且在学习机器的控制学习中利用环境模型。此外,学习机器可以通过根据学习的进程请求环境模型来执行更有效的控制学习。
注意,虽然在上述本公开内容中已经描述了控制自动驾驶车辆的自动驾驶AI,但是根据本公开内容的学习方法不限于这样的示例。根据本公开内容的学习方法可以应用于各种控制学习。根据本公开内容的学习方法也可以应用于用于制造设施中进行制造的机器人、医疗手术机器人等。根据本公开的学习方法,可以实现与真实世界中的环境相匹配的高精度的控制学习。
此外,虽然在本公开内容中将主要描述使用神经网络的学习,但是根据本公开内容的学习方法不限于这样的示例。根据本公开内容的技术构思通常可以应用于从输入与输出之间的关系获得规则的学习机器。
<2.实施方式>
<<2.1根据本实施方式的系统配置示例>>
接下来,将详细描述根据本实施方式的系统配置。参照图3,根据本实施方式的系统包括环境生成装设备10、控制学习设备20、信息处理设备30、车辆40和三维地图DB 50。此外,环境生成设备10和信息处理设备30经由网络60连接以能够彼此进行通信。
此处,根据本实施方式的环境生成设备10可以是生成环境模型的信息处理设备。即,环境生成设备10可以基于由信息处理设备30获取的真实世界的环境信息(在下文中,也称为环境参数)来生成环境模型。此外,环境生成设备10具有作为物理模拟器的功能,该物理模拟器模拟所生成的环境模型中的控制对象的行为。
此外,根据本实施方式的控制学习设备20可以是使用由环境生成设备10生成的环境模型来执行与自动驾驶有关的控制学习的信息处理设备。控制学习设备20可以根据学习的进程动态地请求环境模型。
此外,根据本实施方式的信息处理设备30可以是通过学习获取驾驶控制能力的自动驾驶设备。即,信息处理设备30可以被称为已经完成了与自动驾驶有关的控制学习的控制学习设备20。此外,根据本实施方式的信息处理设备30可以是游戏机、驾驶模拟器等。在信息处理设备30是游戏机等的情况下,信息处理设备30可以将在游戏中获取的环境参数和控制信息发送至环境生成设备10。
此外,根据本实施方式的车辆40可以是信息处理设备30的控制对象。即,车辆40可以被称为通过信息处理设备30的控制来行驶的自动驾驶车辆。此处,车辆40可以具有用于观测真实世界的状态的各种传感器。上述传感器包括例如RGB-D摄像机、激光测距仪、GPS、Wi-Fi(注册商标)、地磁传感器、压力传感器、加速度传感器、陀螺仪传感器、振动传感器等。
此外,三维地图DB 50是存储在由环境生成设备10进行的模拟中使用的三维地图的数据库。三维地图DB 50具有响应于来自环境生成设备10的请求来移交保存的地图信息的功能。注意,由三维地图DB保存的三维地图可以是三维特征点地图或多边形化的三维地图。此外,根据本实施方式的三维地图不限于用与静止物体有关的一组特征点表示的地图,而可以是添加了基于物体识别结果的每个特征点的颜色信息、属性信息和物理属性信息等的各种地图。
此外,网络60具有连接环境生成设备10与控制学习设备20的功能。网络60可以包括公共网络例如因特网、电话网络或卫星通信网络、各种局域网(LAN),所述各种局域网(LAN)包括以太网(注册商标)、广域网(WAN)等。此外,通信网络60可以包括专用网络例如因特网协议-虚拟专用网络(IP-VPN)。
上面已经描述了根据本实施方式的系统配置示例。注意,在以上描述中,已经描述了环境生成设备10和控制学习设备20分别被设置为单独的设备的情况作为示例。在这种情况下,环境生成设备10可以执行与多个控制学习设备20的通信。即,环境生成设备10可以执行与多个控制学习设备20有关的物理模拟。即,根据本实施方式的环境生成设备10可以实现支持多代理的物理模拟。在与自动驾驶有关的控制学习中,包括迎面行驶的车辆的其他车辆的操作是重要的。因此,通过环境生成设备10使由自动AI控制的多个虚拟机动车在模拟中行驶,自动驾驶AI可以执行控制学习同时观察彼此的操作。
同时,根据本实施方式的环境生成设备10和控制学习设备20可以被配置为相同的设备。根据本实施方式的系统配置可以根据每个设备的规格和操作而适当地改变。
<<2.2.环境生成设备10>>
接下来将详细描述根据本实施方式的环境生成设备10。根据本实施方式的环境生成设备10具有生成响应信息的功能,所述响应信息与基于环境参数生成的环境模型中的控制对象有关。此外,环境生成设备10具有将上述响应信息和环境参数发送至控制学习设备20的功能。即,环境生成设备10可以将与环境模型中的由控制学习设备20控制的自动驾驶车辆有关的响应信息以及与环境模型相关联的环境参数发送至控制学习设备20。
此外,根据本实施方式的环境生成设备10可以接收与未学习的环境状态有关的环境参数,并且基于环境参数生成环境模型。即,环境生成设备10可以从信息处理设备30接收与未知环境或危险环境有关的环境参数,并且基于环境参数生成环境模型。
图4是与根据本实施方式的环境生成设备10、控制学习设备20和信息处理设备30有关的功能框图。参照图4,根据本实施方式的环境生成设备10包括生成单元110、环境捕获单元120和通信单元130。下面将描述在上述部件处提供的功能。
(生成单元110)
生成单元110具有基于环境参数生成环境模型的功能。此外,生成单元110可以生成与所生成的环境模型中的第一控制对象有关的响应信息。此处,上述第一控制对象可以是环境模型中的由控制学习设备20控制的虚拟自动驾驶车辆。即,生成单元110可以基于从控制学习设备20获取的控制信息来模拟虚拟自动驾驶车辆的行为。
注意,上述控制信息可以包括例如与方向盘、加速器、制动器等有关的信息。此外,根据本实施方式的控制信息不限于上述示例,并且可以包括例如与传动装置的换挡、灯的点亮、喇叭、驻车制动、空气调节器等有关的信息。此外,上述控制信息可以包括与传感器清洁、有效传感器、与传感器和驱动系统有关的自校准、与其他车辆或各种服务器的信息通信等有关的信息。即,根据本实施方式的控制信息可以是能够从对象物体获取的各种信息。
此外,此处,上述响应信息可以包括基于模拟结果的图像信息、声音信息、文本信息、各种数字数据等。上述响应信息可以被称为从设置在虚拟自动驾驶车辆处的传感器获取的各种信息。响应信息可以是与在模拟情节中获取的时间轴相关联的数据集。
(环境捕获单元120)
环境捕获单元120可以基于从信息处理设备30接收到的与未知环境和危险环境有关的环境参数来生成环境模型文件,并且捕获该环境模型文件作为新环境。在这种情况下,环境捕获单元120可以将接收到的环境参数分类成多个簇,并且针对每个簇执行所生成的模型学习。稍后将描述环境捕获单元120的上述功能的详细信息。
(通信单元130)
通信单元130具有在控制学习设备20与信息处理设备30之间进行通信的功能。即,通信单元130可以具有作为发送单元的功能和作为接收单元的功能二者。具体地,通信单元130可以将由生成单元110生成的响应信息以及与环境模型相关联的环境参数发送至控制学习设备20。此外,通信单元130可以将与机器学习有关的奖励参数发送至控制学习设备20。控制学习设备20可以使用上述奖励参数来执行强化学习。
此外,通信单元130可以将与对控制对象的控制有关的专家信息发送至控制学习设备20。控制学习设备20可以使用上述专家信息来执行逆强化学习。此处,根据本实施方式的专家信息可以是与机动车控制有关的日志信息,并且可以包括用户的实际驾驶的驾驶控制日志、游戏中的虚拟机动车的控制日志、已经完成学习的自动驾驶AI的控制日志等。
此外,通信单元130具有接收传感器信息的功能,所述传感器信息从设置在第二控制对象处的一个或多个传感器获取。此外,通信单元130可以接收从第二控制对象获取的控制信息或专家信息。注意,此处,上述第二控制对象可以是由信息处理设备30控制的车辆40或游戏中的虚拟机动车。此外,通信单元130可以从信息处理设备30接收与由控制学习设备20进行的控制学习有关的奖励参数。
<<2.3.控制学习设备20>>
接下来将详细描述根据本实施方式的控制学习设备20。根据本实施方式的控制学习设备20具有接收响应信息和第一环境参数的功能,所述响应信息与基于第一环境参数生成的环境模型中的控制对象有关。此外,控制学习设备20可以使用接收到的响应信息和第一环境参数来执行与对控制对象的控制有关的机器学习。此处,上述第一环境参数可以是从信息处理设备30发送的环境参数、由用户输入的环境参数、由环境生成设备10预先保存的环境参数等。
此外,控制学习设备20具有将与机器学习的结果对应的第二环境参数发送到环境生成设备10的功能。此处,上述第二环境参数可以是用于根据学习的进程向环境生成设备10请求环境模型的环境参数。即,环境生成设备10使用根据从控制学习设备20接收到的环境参数的环境模型来执行物理模拟。
参照图4,根据本实施方式的控制学习设备20包括学习单元210和设备通信单元220。下面将描述在上述部件处提供的功能。
(学习单元210)
学习单元20具有使用接收到的响应信息和环境参数来执行与对控制对象的控制有关的机器学习的功能。在这种情况下,学习单元210可以使用接收到的奖励参数来执行强化学习。此外,学习单元210可以使用接收到的专家信息来执行逆强化学习。可以根据情况适当设计学习单元210的学习方法。注意,在本实施方式中,上述控制对象可以是自动驾驶车辆。
此外,学习单元210具有根据学习的进程来确定要向环境生成设备10请求的环境模型的功能。例如,学习单元210可以基于与晴朗环境有关的学习准确度超过预定阈值来确定请求降雨环境。通过学习单元210进行上述确定,可以动态且有效地实现支持各种环境的控制学习。
(设备通信单元220)
设备通信单元220具有与环境生成设备10进行通信的功能。具体地,设备通信单元220可以接收响应信息和环境参数,所述响应信息与基于环境参数生成的环境模型中的控制对象有关。此外,设备通信单元220可以接收与机器学习有关的奖励参数和专家信息。通过这种方式,学习单元210可以执行与控制学习有关的强化学习和逆强化学习。
此外,设备通信单元220具有基于每个接收到的信息将由学习单元210输出的控制信息发送至环境生成设备10的功能。此处,上述控制信息可以是与由学习单元210控制的环境模型中的虚拟机动车有关的控制信息。即,设备通信单元220可以获取与由学习单元210确定的控制有关的信息,并且将该信息返回至环境生成设备10。此外,设备通信单元220还可以将用于根据学习的进程请求环境模型的环境参数发送至环境生成设备10。
<<2.4.信息处理设备30>>
接下来,将详细描述根据本实施方式的信理设备30。如上所述,根据本实施方式的信息处理设备30可以是通过学习获取驾驶控制能力的自动驾驶设备,或者可以是控制与机动车的行为有关的模拟游戏的游戏机。
根据本实施方式的信息处理设备30具有获取与环境状态有关的环境参数的功能。此外,信息处理设备30可以基于所获取的环境参数来确定环境状态是否已经被学习。此外,信息处理设备30可以将与未被确定为已经被学习的环境状态有关的环境参数发送至环境生成设备10。即,根据本实施方式的信息处理设备30基于所获取的环境参数来确定未知环境或危险环境,并且将与环境有关的环境参数发送至环境生成设备10。
注意,在信息处理设备30是游戏机的情况下,上述环境参数可以是从游戏中构建的环境获取的环境参数。信息处理设备30可以例如从游戏中再现的太阳的移动、下降雨状况等提取环境参数,并且将环境参数发送至环境生成设备10。
参照图4,根据本实施方式的信息处理设备30包括获取单元310、控制单元320、确定单元330以及服务器通信单元340。下面将描述在上述部件处提供的功能。
(获取单元310)
获取单元310可以具有作为传感器信息获取单元的功能,该传感器信息获取单元从一个或更多个传感器获取传感器信息。在信息处理设备30是自动驾驶设备的情况下,获取单元310可以从设置在作为控制对象的车辆40处的传感器获取上述传感器信息。此外,在信息处理设备30是游戏机的情况下,获取单元310可以从设置在游戏中的虚拟机动车处的虚拟传感器获取上述传感器信息。
此外,获取单元310具有作为控制信息获取单元的功能,该控制信息获取单元获取与对控制对象的控制有关的控制信息。此处,上述控制信息可以是例如与方向盘、加速器、制动器等的驱动控制有关的控制信息。此外,如上所述,控制信息可以是能够从控制对象获取的各种信息。在信息处理设备30是自动驾驶设备的情况下,获取单元310可以获取与作为控制对象的车辆40有关的控制信息。此外,在信息处理设备30是游戏机的情况下,获取单元310可以获取与作为游戏中的控制对象的虚拟机动车有关的控制信息。
此外,获取单元310具有作为环境获取单元的功能,该环境获取单元获取与环境状态有关的环境参数。在信息处理设备30是自动驾驶设备的情况下,获取单元310可以从设置在车辆40处的各种传感器或天气预报信息等获取上述环境参数。此外,在信息处理设备30是游戏机的情况下,获取单元310可以从设置在游戏中的虚拟机动车处的虚拟传感器或游戏中的各种设置数据获取上述环境参数。
(控制单元320)
控制单元320具有控制控制对象的行为的功能。在信息处理设备30是自动驾驶设备的情况下,控制单元320可以执行与车辆40的驾驶有关的控制。在这种情况下,信息处理设备30可以使车辆40基于从设置在车辆40处的各种传感器获取的传感器信息等执行自动驾驶。此外,在信息处理设备30是游戏机的情况下,控制单元320可以控制游戏中的虚拟机动车的驾驶或与游戏有关的各种功能。
(确定单元330)
确定单元330具有基于所获取的各种信息来确定环境状态是否已经被学习的功能。即,确定单元330可以基于环境参数、传感器信息、控制信息等来确定未知环境或危险环境。此外,在确定环境状态尚未被学习的情况下,确定单元330可以基于该确定生成通知数据。上述通知数据可以是用于通知车辆40的乘客检测到未知环境或危险环境的数据。稍后将描述在确定单元330处提供的功能的详细信息。
(服务器通信单元340)
服务器通信单元具有与环境生成设备10进行通信的功能。具体地,服务器通信单元340具有作为发送单元的功能,该发送单元基于确定单元330确定环境状态尚未被学习将与环境状态有关的环境参数发送至环境生成设备10。此外,服务器通信单元340可以将由获取单元310获取的传感器信息以及与对控制对象的控制有关的控制信息发送至环境生成设备10。
此外,服务器通信单元340可以基于由获取单元310获取的各种信息将奖励参数和专家信息发送至环境生成设备10。此外,服务器通信单元340可以将由确定单元330生成的通知数据发送至连接的显示设备等。
<<2.5.根据本实施方式的环境参数>>
上面已经描述了根据本实施方式的在各种信息处理设备处提供的功能。此处,将详细描述由上述环境生成设备10、控制学习设备20和信息处理设备30使用的环境参数。
根据本实施方式的环境参数可以包括不依赖于控制对象的状态的外部参数以及依赖于控制对象的状态的内部参数。此处,上述外部参数可以是与环境有关的独立于控制对象的参数。此外,上述内部参数可以是与控制对象密切相关的参数。下面将使用控制对象是机动车的情况作为示例来具体描述上述外部参数和内部参数。
(外部参数)
根据本实施方式的外部参数包括地理信息、时间信息、天气条件、室外信息、室内信息、与交通物体有关的信息、道路表面信息等。外部参数可以是根据从设置在车辆40处的各种传感器或因特网获取的天气信息生成的参数。
此处,上述地理信息可以是车辆40行驶的位置周围的环境中的地理信息。地理信息可以包括例如国家名称、地区名称、坐标位置等。
此外,上述时间信息可以是与获取环境参数的时间有关的信息。时间信息可以包括例如时间、日期、时间段、季节、太阳的位置等。
此外,上述天气条件可以是与车辆40行驶的位置周围的环境中的天气状态有关的信息。天气信息可以包括例如天气、雨滴的大小、降雨量、云的类型、云量、大气现象、定量信息等。
上述天气可以包括例如无云且晴朗、晴朗、朦胧的天空、阴天、雾、灰尘、暴风雨、飘雪、薄雾、烟雨、雨、雨雪、雪、雪雹、冰雹、强烈的西部太阳等的信息。
此外,上述云的类型可以包括例如卷云、卷层云、卷积云、积雨云、高积云、雨层云、层积云、积云、层云等的信息。
此外,上述大气现象可以包括台风、旋风、龙卷风、暴风雪、沙尘暴、海市蜃楼、极光、雷电、大风、狂风等的信息。此外,上述定量信息可以包括例如温、湿度等的信息。
此外,外部参数中包括的室外信息可以是车辆40行驶的位置周围的环境中的与室外有关的环境信息。室外信息可以包括与道路上的物体例如移动物体和静止物体有关的信息。此处,移动物体可以包括例如行人、车辆、移动物体等。此外,与移动物体有关的信息可以包括更详细的类型信息和属性信息。
例如,在车辆的情况下,信息可以包括每个制造商的车辆的类型、车辆的类别等。车辆的类别可以是例如重型机械、农用车辆、两轮车、重型卡车、公共汽车、专用车辆、轮椅、独轮车等。此外,在动物的情况下,信息可以包括类型例如牛、鹿、猫、狗和鸟。
此外,在上述移动物体是行人的情况下,行人的信息可以包括属性信息和状态信息。此处,属性信息可以是例如种族、性别、年龄组等。此外,状态信息可以包括例如跑步、站立、坐着、下降、滑滑板、使用手杖、拉手提箱、打开伞、推婴儿车、与宠物一起行走以及携带大件行李。此外,状态信息可以包括行人的衣服(例如他/她是穿着轻衣服还是穿着外套)。
此外,与移动物体有关的信息可以包括与移动模式有关的信息。例如,在移动物体是各种车辆的情况下,上述移动模式可以包括例如冲出、突然起动、骤然转向等。根据本实施方式的环境生成设备10可以通过捕获如上所述的移动模式作为环境模型来再现各种状况。
此外,室外信息中包括的静止物体信息可以包括例如园林树木、树木、垃圾、与道路施工有关的物体、道路封闭标志、围栏、防护栏等的信息。
此外,外部参数中包括的室内信息可以是例如与室内信息的特性有关的信息。室内信息可以包括例如各种房间、制造设施、工厂、机场、运动设施等的类型和特性。
此外,外部参数中包括的与交通物体有关的信息可以是与交通有关的各种信息。与交通物体有关的信息可以包括例如标志(包括特定国家或特定地区的标志)、交通信号灯、人行横道、停止线等。
此外,外部参数中包括的道路表面信息可以是车辆40行驶的道路的道路表面信息。道路表面信息可以包括例如霜、水坑、尘土、冰冻、积雪等的信息。
上面已经使用示例详细描述了根据本实施方式的外部参数。如上所述,根据本实施方式的外部参数是与环境有关并且独立于控制对象的参数。可以由根据本实施方式的环境生成设备10根据各种环境来实现控制学习,所述环境生成设备10基于外部参数生成环境模型。
(内部参数)
同时,根据本实施方式的内部参数是依赖于控制对象的状态的环境参数。内部参数可以包括例如与车体的状态、装载物和乘客有关的信息。根据本实施方式的环境生成设备10可以例如通过捕获与设置在车辆40处的传感器和驱动系统有关的内部参数来根据车辆40的个体差异执行模拟。即,依照根据本实施方式的环境生成设备10,可以有效地实现校准以吸收设备的个体差异。
此处,上述车体信息可以包括每个部分的特征信息、安装位置信息等。具体地,车体信息可以包括与每个部分的服务年龄(老化的退化指数)或者性能的变化有关的信息。此外,车体信息可以包括例如根据每个部分例如驱动系统、方向盘、制动系统和传感器系统的特性的信息。
例如,驱动系统信息可以包括温度、扭矩、响应特性等的信息。方向盘信息可以包括响应特性等的信息。制动系统信息可以包括磨损、摩擦系数、温度特性、退化程度等的信息。此外,传感器系统信息可以包括与每个传感器例如图像传感器、激光雷达、毫米波雷达、深度传感器和麦克风有关的信息。此外,传感器系统信息可以包括每个传感器附接的位置、搜索范围、传感器性能、与每个传感器附接的位置有关的变化等的信息。
此外,内部参数中包括的装载物信息可以是与车辆40上装载的装载物有关的信息。装载物信息可以包括与架置在车辆上的外部行李或内部行李有关的信息。此处,外部行李可以包括例如物体类型例如滑雪板、滑雪和板、空气阻力信息等。此外,装载物信息可以包括要装载的行李的重量、性质等的信息。
此外,内部参数中包括的乘客信息可以是与乘坐车辆40的乘客有关的信息。乘客信息可以包括例如乘客的数量和乘客的属性信息。例如,乘客的属性信息可以包括诸如孕妇、高龄人员、婴儿和残疾人的属性。
上面已经使用示例详细描述了根据本实施方式的内部参数。如上所述,根据本实施方式的内部参数是与控制对象密切相关的参数。根据本实施方式的奖励参数可以包括与至目的地的距离、乘坐质量、联系的次数、违反交通规则或燃料消耗有关的参数。可以由根据本实施方式的环境生成设备10根据控制对象的类型和个体差异来实现控制学习,所述环境生成设备10基于内部参数生成环境模型。
<<2.6.根据本实施方式的奖励参数>>
随后,将详细描述根据本实施方式的奖励参数的示例。如上所述,根据本实施方式的控制学习设备20可以使用奖励参数来执行强化学习。下面将描述在根据本实施方式的控制学习设备20的控制对象是车辆40的情况下的奖励参数的具体示例。
与本实施方式的自动驾驶控制有关的奖励参数可以包括例如与至目的地的距离有关的奖励。可以在考虑到例如路径距离、由于路线错误导致的路线的变化次数等的情况下,设置上述奖励。
此外,根据本实施方式的奖励参数可以包括例如与乘坐质量有关的奖励。可以在考虑到例如与加速度和角速度有关的振动量、紧急制动次数等的情况下,设置上述奖励。
此外,根据本实施方式的奖励参数可以包括例如与联系的次数有关的奖励。可以在考虑到例如与人或物体的联系次数、强度等的情况下,设置上述奖励。
此外,根据本实施方式的奖励参数可以包括例如违反交通规则。可以在考虑到例如违反交通规则的次数、类型等的情况下,设置上述奖励。
此外,根据本实施方式的奖励参数可以包括例如与燃料消耗有关的奖励。可以在考虑到例如根据每个制造商、车辆类型或车辆类别的燃料消耗特性信息等的情况下,设置上述奖励。
上面已经详细描述了根据本实施方式的奖励参数的具体示例。上述每个信息可以是从设置在车辆40处的各种传感器获取的信息。因此,在本实施方式中,可以在强化学习中使用不需要预先生成的奖励参数。即,信息处理设备30可以将基于从车辆40获取的传感器信息的奖励参数发送至环境生成设备10。
<<2.7.与本实施方式的控制学习有关的输入和输出>>
上面已经详细描述了在本实施方式中使用的环境参数和奖励参数。接下来将详细描述与本实施方式的控制学习有关的输入和输出。如上所述,根据本实施方式的环境生成设备10可以在基于环境参数生成的环境模型中模拟由控制学习设备20控制的虚拟机动车的行为。此外,控制学习设备20可以根据学习的进程向环境生成设备10请求用于下一次学习的环境模型。
(与控制学习有关的输入和输出的概述)
图5是示出与本实施方式的控制学习有关的输入和输出的概述的概念图。图5中的示例示出了控制学习设备20执行强化学习的情况。参照图5,环境生成设备10将响应信息、环境参数和奖励参数发送至控制学习设备20。此处,如上所述,上述响应信息可以包括基于模拟结果的图像信息、声音信息、文本信息、各种数字数据等。
在这种情况下,控制学习设备20可以基于上述输入信息来执行虚拟机动车的控制学习。此外,控制学习设备20可以与上述控制学习并行地基于输入的环境参数来执行环境识别学习。在这种情况下,控制学习设备20基于输入信息确定对控制对象的控制,并且将与控制有关的控制信息发送至环境生成设备10。此外,控制学习设备20可以基于输入信息生成与根据环境识别的结果而要请求的环境模型有关的环境参数,并且将环境参数发送至环境生成设备10。
图6是由环境生成设备10和控制学习设备20使用以传递环境参数的API的示例。在图6中的示例中,时间信息、国家信息、降雨标志和降雨强度被示为依据各数据类型的值作为环境参数。如图6所示,在本实施方式中,可以通过针对每个环境参数设置功能规格并且使用基于规格的API来发送和接收环境参数。
(与控制学习有关的输入和输出的详细信息)
随后,将参照图7更详细地描述与本实施方式的控制学习有关的输入和输出。图7是示意性地示出与控制学习设备20有关的网络结构的输入和输出的概念图。参照图7,从环境生成设备10输入的传感器信息(响应信息)、奖励参数和环境参数被分别输入到设置在控制学习设备20处的卷积层和仿射层。注意,虽然在图7中,与奖励参数和环境参数一起的括号中指示的数字是指示每个参数的元素数量的值,但是每个参数的元素数量不限于这样的示例。
随后,从每个层输出的信息被输入至网络NN1。此处,网络NN1可以具有与人的视觉皮层对应的功能。如上所述,根据本实施方式的控制学习设备20可以并行执行控制学习和环境识别学习。在这种情况下,与控制确定有关的网络NN2以及与稍后将描述的环境识别有关的网络NN4可以共享与作为输入源的视觉皮层对应的网络NN1。通过这种方式,能够预期网络NN1的性能根据环境识别能力的提高而提高,这间接地有助于更高效的控制学习。
注意,虽然图7示出了图像信息被输入作为响应信息的情况作为示例,但是根据本实施方式的响应信息不限于这样的示例,并且可以包括各种数据。因此,预期除了图7所示的网络NN1之外,获得了具有各种特性的网络,这间接地有助于控制学习。注意,与视觉皮层对应的网络NN1不必如图7中所示的明确地存在。假设可以通过在学习连接每个网络的输入和输出来获得如上所述的协同效应(synergetic effect)。
此外,来自网络NN1的输出被输入至网络NN2至NN4。此处,网络NN2可以是与控制确定有关的网络。网络NN3可以是与预测和重新配置有关的网络。此外,网络NN4可以是与环境识别有关的网络。
与控制确定有关的网络NN2基于来自网络NN1的输入来执行控制对象的控制确定,并且输出与该控制有关的控制信息。在图7所示的示例中,网络NN2输出与加速器控制和方向盘控制有关的控制信息。
此外,与预测和重新配置有关的网络NN3输出基于来自网络NN1的输入而重新配置的图像信息。
此外,与环境识别有关的网络NN4基于来自网络NN1的输入来输出环境估计的结果。随后,与环境请求有关的网络NN5可以基于从网络NN4输出的环境估计结果来输出用于请求用于下一次学习的环境模型的环境参数。控制学习设备20将从网络NN2输出的控制信息以及从网络NN5输出的环境参数发送至环境生成设备10并且完成一个输入/输出周期。
上面已经描述了与由控制学习设备20进行的控制学习有关的输入和输出的详细信息。控制学习设备20可以通过重复执行上述周期来执行控制学习和环境识别学习。如上所述,根据依照本实施方式的控制学习设备20,可以预期间接地通过环境识别来使控制学习更高效。
<<2.8.根据本实施方式的控制学习的流程>>
接下来将详细描述根据本实施方式的控制学习的流程。图8是示出根据实施方式的学习的流程的流程图。
参照图8,首先,控制学习设备20从环境生成设备10接收情节中的时间t处的响应信息、环境参数和奖励参数(S1101)。
随后,控制学习设备20使用在步骤S1101中接收到的信息来执行控制学习(S1102)。例如,控制学习设备20可以执行深度学习和Q学习(Q-学习)被组合的学习。此外,控制学习设备20还可以使用行为函数等来执行学习。即,控制学习设备20可以基于接收到的响应信息来确定状态值函数等的索引,并且通过使该值最大化来执行控制学习。在这种情况下,可以在学习中使用诸如深度学习的方法。
控制学习设备20然后在时间t处执行控制确定(S1103)。控制学习设备20可以例如使用诸如在强化学习中使用的ε贪婪方法。即,控制学习设备20可以在以所确定的概率ε随机地进行操作的情况下基于接收到的信息和迄今为止获取的学习机器在时间t处执行控制确定。
同时,控制学习设备20可以与步骤S1102和S1103并行地执行环境识别学习(S1104)。此处,控制学习设备20可以针对接收到的环境参数执行最小化预测误差的学习。
例如,控制学习设备20可以根据图像信息估计降雨的可能性,并且针对包括在环境参数中的降雨标志执行最小化预测误差的学习。此外,例如,控制学习设备20可以根据图像信息预测降雨强度,并且针对降雨强度执行最小化预测误差的学习。
随后,控制学习设备20确定要请求的环境(S1105)。稍后将描述对要由控制学习设备20请求的环境的确定的详细信息。
当完成了步骤S1103中的控制确定和步骤S1105中的对要请求的环境的确定时,控制学习设备20将控制信息和环境参数发送至环境生成设备10(S1106)。
然后,确定学习是否完成(S1107),并且在学习完成了的情况下(S1107:是),控制学习设备20结束与控制学习有关的处理。另一方面,在学习未完成的情况下(S1107:否),控制学习设备20重复执行从步骤S1101至S1106的每个处理。
<<2.9.根据本实施方式的环境请求的流程>>
随后,将详细描述根据本实施方式的环境请求的流程。如上所述,根据本实施方式的控制学习设备20可以基于环境识别的结果动态地请求要用于下一次学习的环境模型。图9是示出根据本实施方式的环境请求的流程的流程图。
参照图9,当学习开始时,重新设置与学习有关的情节和环境模型(S1201)。随后,更新环境生成设备10的模拟器时间(S1202)。以这种方式,环境生成设备10可以具有用于执行时间的模式设置的功能。即,环境生成设备10可以利用步骤执行功能来更新模拟器时间。
随后,控制学习设备20执行使用图8描述的控制学习(S1203)。在这种情况下,控制学习设备20可以与步骤S1203并行地执行环境识别学习(S1204)。
然后,环境生成设备10确定情节是否完成(S1205)。在这种情况下,环境生成设备10可以基于达到预定模拟器时间来结束情节。此外,在与自动驾驶控制有关的控制学习的情况下,环境生成设备10可以基于虚拟机动车的残骸、与人的联系、到达目的地等来确定情节完成。
此处,在情节未完成的情况下(S1205:否),重复执行从步骤S1202到S1204的处理。另一方面,在情节完成的情况下(S1205:是),处理由控制学习设备20对环境模型的请求(S1206)。
在这种情况下,控制学习设备20可以将对学习的贡献率最大的环境设置为要请求的环境。例如,控制学习设备20可以假定环境识别率和控制学习的准确度低的环境参数的组合作为弱环境。在这种情况下,控制学习设备20可以通过重新组合上述组合或者使参数以离散进行分散来生成环境参数。通过请求与如上所述生成的环境参数有关的环境模型,可以针对环境实现平衡学习。
此外,控制学习设备20可以将请求环境作为一种类型的控制。在这种情况下,控制学习设备20可以执行强化学习,使得控制性能在与控制学习的框架相同的框架内变得最大。
然后,确定学习是否完成(S1207),并且在学习完成了的情况下(S1207:是),环境生成设备10和控制学习设备20结束一系列处理。另一方面,在学习要继续的情况下(S1207:否),重复执行从步骤S1201到S1206的处理。
在这种情况下,基于预定标准例如在测试过程中设置的事故次数和行驶时间来确定学习是否完成。此外,可以基于在预定时间段内尚未识别的学习的进程来确定学习是否完成。可以适当地设计根据本实施方式的关于学习是否完成的确定。
<<2.10.根据本实施方式的情节转变的具体示例>>
接下来将描述根据本实施方式的情节转变的具体示例。图10是按时间顺序示出控制学习设备20对其执行强化学习的情节中的输入和输出数据的示例。图10在横轴上指示时间和情节编号,并且在竖直轴上指示每份输入和输出数据。
在图10所示的示例中,响应信息、奖励参数和环境参数被输入至控制学习设备20。此处,图像被指示为响应信息的示例,距离和事故的次数被指示为奖励参数的示例,并且晴朗标志和降雨标志被示为环境参数的示例。
此外,在图10所示的示例中,控制学习设备20基于输入信息输出控制信息、环境估计结果和环境请求结果。此处,与加速器、方向盘和制动器有关的控制信息被指示为控制信息的示例,与晴朗和降雨有关的估计值被指示为环境估计结果的示例,并且晴朗标志和降雨标志被指示为环境请求结果的示例。
如上所述,根据本实施方式的控制学习设备20可以在时间t处接收每个信息,并且可以基于接收到的信息执行控制确定和环境估计。此外,控制学习设备20可以根据学习的进程动态地请求要用于学习的环境模型。图10可以是以时间顺序示出与上述控制有关的输入和输出数据的示例。即,控制学习设备20可以通过针对每个时间t重复如图10所示的输入和输出来执行学习。
注意,参照10,可以看出控制学习设备20在时间t(5)处请求与雨有关的环境。在下一时间t(6)处,更新情节,并且环境生成设备10将与雨有关的环境模型提供给控制学习设备20。即,在时间t(6)处以及之后的情节1中,环境生成设备10将指示降雨环境的环境参数发送至控制学习设备20。
如上所述,根据本实施方式的控制学习设备20在时间t处基于输入信息输出控制信息、环境估计结果和环境请求结果。通过根据本实施方式的控制学习设备20,可以通过根据学习的进程请求动态环境来提高学习效率。
注意,虽然在以上描述中,已经描述了响应于来自控制学习设备20的请求,环境生成设备10立即提供基于请求的环境模型的情况作为示例,但是根据本实施方式的对环境模型的提供不限于这样的示例。具体地,根据本实施方式的环境生成设备10可以执行考虑到环境转变状态的模拟。例如,在控制学习设备20请求与雪有关的环境的情况下,环境生成设备10可以再现从降雪开始直到积雪的转变。即,根据本实施方式的环境生成设备10可以模拟与热容量、温度等的物理定律相匹配的环境状态的转变。通过这种方式,控制学习设备20能够根据包括天气的环境状态的转变来执行学习,使得控制学习设备20能够获得与真实世界中的环境更好地匹配的控制能力。
此外,根据本实施方式的奖励参数可以是由用户明确输入的信息。在这种情况下,环境生成设备10可以具有用于向用户提供由控制学习设备20进行的学习过程的学习再现功能。用户可以确认由控制学习设备20进行的学习过程,并且根据学习过程输入奖励参数。
<<2.11.根据本实施方式的逆强化学习>>
接下来将详细描述根据本实施方式的逆强化学习。如上所述,根据本实施方式的控制学习设备20还可以执行逆强化学习以及强化学习。图11是示出与本实施方式的逆强化学习有关的输入和输出的概述的概念图。与图5中所示的与强化学习有关的输入和输出相比较,在根据本实施方式的逆强化学习中,代替奖励参数,专家信息被输入至控制学习设备20。在这种情况下,控制学习设备20可以在内部获得奖励功能。
如上所述,根据本实施方式的专家信息可以是与机动车控制有关的日志信息。根据本实施方式的专家信息可以包括用户或信息处理设备30的实际驾驶控制日志。即,在根据本实施方式的逆强化学习中,可以使用从由用户操作的机动车或自动驾驶车辆获取的控制日志。此外,在逆强化学习中,也可以使用从由信息处理设备30控制的车辆40获取的控制日志。
此外,根据本实施方式的专家信息可以包括游戏中的虚拟机动车的控制日志。即,在根据本实施方式的逆强化学习中,可以使用与由信息处理设备30控制的游戏中的虚拟机动车或由用户操作的游戏或模拟器中的虚拟机动车有关的控制日志。
在用户操作虚拟机动车的情况下,环境生成设备10或信息处理设备30可以具有用于向用户呈现虚拟机动车周围的环境的接口或用于接受用户操作的接口。此外,在这种情况下,环境生成设备10或信息处理设备30可以具有用于接受用户的策略的接口。此处,上述策略可以是用户的关于驾驶的策略。上述策略可包括例如安全驾驶、匆忙、优先考虑较少的摆动或诸如紧急的情况。
上面已经描述了根据本实施方式的专家信息。根据本实施方式的控制学习设备20可以基于专家例如人的行为有效地搜索与周围有关的行为或行为的组合,并且执行用于获得对于情况而言最佳的行为的学习。即,根据本实施方式,可以基于能够由人执行的控制来模拟各种状态,使得控制学习设备20可以实现与由人执行的控制更接近的驾驶控制。
因此,根据本实施方式的控制学习设备20可以具有基于人的移动模式执行搜索的功能,代替诸如在强化学习中使用的ε-贪婪的方法。此外,控制学习设备20可以具有通过将专家信息捕获到重放存储器来生成要用于学习的经验数据的功能。即,控制学习设备20可以使用专家信息作为如图10中所示的情节中的一个。
此外,除了行为历史信息之外,专家信息还可以包括与行为相关联的专家的生物信息。上述生物信息可以包括例如心率和血压的增加、眼球移动、瞳孔直径的变化、排汗、体温、睡眠不足、健康状况等的信息。根据本实施方式的控制学习设备20可以通过基于上述生物信息执行逆强化学习来获得更接近人的驾驶控制能力的驾驶控制能力。
此外,根据本实施方式的环境生成设备10和控制学习设备20可以具有对专家信息进行分类的功能。在逆强化学习中,从包括在专家信息中的控制日志中获得行为的奖励函数或与驾驶有关的政策。在这种情况下,要求要在逆强化学习中使用的控制日志应该符合一致的策略等。例如,如果捕获与在红灯处停止失败有关的控制日志作为专家信息,则控制学习设备20难以获得正确的奖励函数或策略。
因此,根据本实施方式的环境生成设备10和信息处理设备30可以具有仅对满足条件的控制日志进行分类的功能。具体地,根据本实施方式的信息处理设备30的确定单元330可以确定控制控制对象的人是否属于预定属性。例如,确定单元330可以基于驾驶员信息来确定好的专家信息。此外,服务器通信单元340可以基于由确定单元330进行的上述确定将控制信息发送至环境生成设备10。此处,上述驾驶员信息可以包括例如驾驶员的生物信息、过去驾驶控制日志、事故历史、性格信息等。
此外,上述分类可以由环境生成设备10执行。根据本实施方式的环境生成设备10可以对从信息处理设备30接收的专家信息进行分类,并且仅将满足条件的专家信息发至控制学习设备20。具体地,根据本实施方式的环境生成设备10的环境捕获单元120可以确定控制控制对象的人是否属于预定属性。例如,环境捕获单元120可以过滤所获取的专家信息并且确定好的专家信息。在这种情况下,环境捕获单元120可以基于上述驾驶员信息来确定专家信息。此外,通信单元130可以基由环境捕获单元120进行的上述确定仅将好的专家信息发送至控制学习设备20。即,控制学习设备20可以使用被确定为属于预定属性的控制信息来执行逆强化学习。
依据在根据本实施方式的环境生成设备10和信息处理设备30处提供的上述功能,可以有效地实现控制学习设备20的逆强化学习。注意,多个条件可以被设置为用于对好的专家信息进行分类的上述条件,或者可以根据控制学习设备20的学习进程来设置。例如,可以根据各种政策例如能够快速到达目的地的驾驶员和安全驾驶的驾驶员来限定根据本实施方式的好的专家信息。
上面已经描述了根据本实施方式的逆强化学习。如上所述,根据本实施方式的控制学习设备20可以基于接收到的专家信息来执行逆强化学习。根据本实施方式的控制学习设备20,可以有效地利用用户的驾驶控制日志或者游戏或模拟器中的控制日志,使得可以实现更有效的控制学习。
<<2.12.与未知环境和危险环境的捕获有关的概述>>
接下来将描述与未知环境和危险环境的捕获有关的概述。如上所述,根据本实施方式的信息处理设备30可以基于所获取的各种信息来确定环境状态是否已经被学习。即,信息处理设备30可以基于传感器信息、环境参数、控制信息等来确定未知环境或危险环境。
在这种情况下,信息处理设备30可以将与被确定为未知环境或危险环境的环境状态有关的环境参数、传感器信息和控制信息发送至环境生成设备10。环境生成设备10可以基于从信息处理设备30接收到的上述信息来生成与未知环境或危险环境有关的新环境模型文件,并且使用环境模型文件以用于由控制学习设备20进行的控制学习。
图12是示出与信息处理设备30和环境生成设备10有关的输入和输出的概述的概念图。参照图12,确定单元330可以基于从获取单元310接收到的信息来确定未知环境或危险环境。在这种情况下,如果确定单元330确定环境状态是未知环境或危险环境,则服务器通信单元340基于由确定单元330进行的确定将传感器信息、环境参数和控制信息发送至环境生成设备10。
随后,环境生成设备10的通信单元130将上述接收到的信息移交至环境捕获单元120。此处,环境捕获单元120可以基于所获取的信息生成环境模型文件,并且将环境模型文件移交至生成单元110。注意,稍后将描述由环境捕获单元120生成环境模型文件的详细信息。
上面已经描述了与本实施方式的未知环境和危险环境的捕获有关的概述。在下文中,将描述由信息处理设备30确定环境的详细信息以及由环境生成设备10捕获环境的详细信息。
<<2.13.未知环境和危险环境的确定>>
接下来将详细描述根据本实施方式的未知环境和危险环境的确定。图13是示出根据本实施方式的由信息处理设备30进行的确定的流程的流程图。
参照图13,首先,信息处理设备30的获取单元310获取传感器信息、环境参数和控制信息(S1301)。在这种情况下,获取单元310可以在环境参数中包括从设置在车辆40处的各种传感器获取的信息。例如,获取单元310可以从设置在车辆40处的时钟或温度系统获取与时间和温度有关的信息。
此外,获取单元310可以在环境参数中包括从因特网获取的信息。获取单元310可以例如基于获取的区域天气报告来生成环境参数。此外,获取单元310可以基于识别的结果来生成环境参数。例如,获取单元310可以在环境参数中包括识别的道路表面的状态。
确定单元330基于从获取单元310接收到的信息执行与未知环境和危险环境有关的确定(S1302)。在这种情况下,在默认状态下,可以将所有环境设置为未知环境。此外,例如,可以为每个区域设置默认值。
在步骤S1302中,确定单元330例如可以基于环境参数的估计误差来执行上述确定。在这种情况下,确定单元330可以根据传感器信息估计环境参数,并且将环境参数的误差与保存的信息的误差进行比较。在这种情况下,确定单元330可以基于错误超过预定阈值来确定未知环境。
此外,确定单元330可以基于由自动编码器进行的图像重新配置的结果来执行确定。因为难以利用自动编码器根据目前为止通过学习尚未输入的天气来再现未知物体或状态,所以确定单元330可以基于重新配置的准确性差来确定未知环境。在这种情况下,确定单元330可以将从获取单元310获取的信息与使用距离索引例如PSNR的重新配置结果进行比较。在这种情况下,确定单元330可以基于重新配置结果的准确度未达到预定阈值来确定未知环境。
此外,确定单元330可以基于未来预测来确定未知环境。在这种情况下,确定单元330可以基于根据过去的传感器信息而不是当前的传感器信息进行配置的预测结果来执行确定。在这种情况下,确定单元330可以基于预测误差超过预定阈值来确定未知环境。
此外,确定单元330可以基于用户操作的历史来执行确定。确定单元330可以基于例如从控制信息中检测到与正常操作模式不同的操作模式来确定未知环境或危险环境。此外,确定单元330可以基于检测到等于或大于阈值的紧急制动或加速来确定危险环境。
此外,确定单元330可以基于用户将驾驶模式切换至手动驾驶模式来确定未知环境或危险环境。确定单元330可以例如通过检测感测到异常的用户的操作来执行上述确定。
在步骤S1302中确定单元330确定环境状态已知的情况下(S1302:否),处理可以返回至步骤S1301,并且信息处理设备30可以重复上述处理。另一方面,在确定单元330确定环境状态是未知环境或危险环境的情况下(S1302:未知),服务器通信单元340将传感器信息、环境参数和控制信息发送至环境生成设备10(S1303)。
随后,信息处理设备30可以通知乘客等(S1304)。具体地,当确定单元330确定未知环境或危险环境时,确定单元330可以基于确定生成通知数据。服务器通信单元340可以将上述通知数据发送至显示单元等,以使通知内容被显示。
图14示出了在车载装备等的显示单元处显示的通知画面的示例。参照图14,基于上述通知数据的消息M1以及按钮b1和b2被显示在通知画面D1中。
在图14所示的示例中,在消息M1中显示指示未知环境被检测到并且询问关于是否将驾驶切换至手动驾驶的判断的消息。此外,如图14中所示,在消息M1中,可以显示指示未知程度的级别等,所述未知程度基于在确定时的信息而确定。乘客可以通过确认上述消息来注意到未知环境或危险环境被检测到,并且可以进行后续的判断。此外,乘客还可以通过操作通知画面D1中显示的按钮b1或b2来将驾驶切换至手动驾驶。注意,尽管已经描述了使用图14中的视觉信息进行通知的情况作为示例,但是上述通知是使用声音等对乘客进行的。
上面已经描述了根据本实施方式的未知环境和危险环境的确定。根据本实施方式的信息处理设备30可以重复执行图13中所示的从步骤S1301至S1304的处理直到驾驶完成。
根据本实施方式的信息处理设备30,可以动态地且有效地收集环境生成设备10不具有的环境信息。此外,根据本实施方式的信息处理设备30能够通过向乘客通知所确定的内容来提高乘客的安全感或确保安全。
<<2.14.与未知环境和危险环境的捕获有关的详细信息>>
(捕获环境的流程)
接下来将详细描述根据本实施方式的对未知环境和危险环境的捕获。根据本实施方式的环境生成设备10可以基于接收到的信息生成环境模型文件,并且捕获该环境模型文件作为新的环境模型。图15是示出与未知环境和危险环境的捕获有关的流程的流程图。
参照图15,首先,环境生成设备10的通信单元130从信息处理设备30接收与未知环境或危险环境有关的传感器信息、环境参数和控制信息(S1401)。
环境捕获单元120然后基于接收到的信息对簇进行分类(S1402)。在这种情况下,环境捕获单元120可以通过利用相同的环境确定装置确定相同的环境或不相同的环境来对簇进行分类。
此外,在这种情况下,环境捕获单元120还可以基于所获取的地理信息对簇进行分类。在这种情况下,可以根据国家、地区等的特性来生成环境模型,使得控制学习设备20可以基于每个地区的环境来执行学习。
然后,环境捕获单元120针对分类后的簇中的每一个学习生成的模型(S1403)。环境捕获单元120可以通过执行学习来生成预定的未知环境模型,所述学习以标准环境中的相同的坐标和相同的观看状态来基于所获取的信息投射未知环境。
环境捕获单元120然后确定所生成的未知环境模型的生成质量(S1404)。此处,在上述生成质量超过预定阈值ε的情况下(S1404:是),环境捕获单元120可以使生成单元110捕获生成的环境模型文件(S1405)。
另一方面,在生成质量未达到预定阈值ε的情况下,处理可以返回至步骤S1401,并且环境生成设备10可以收集更多信息。
(未知环境模型的示例)
上面已经描述了根据本实施方式的捕获环境的流程。随后,将描述通过上述处理生成的未知环境模型的示例。根据本实施方式的环境生成设备10可以例如基于接收到的信息生成与未知物体、未知大气信息或未知运动特性有关的环境模型。
例如,环境生成设备10可以通过使用未知物体确定装置生成未知物体簇并且执行关于簇中的相同物体的确定,来生成与预定未知物体X有关的簇。在这种情况下,环境生成设备10可以例如基于未知物体X在预定区域中的出现频率高来根据与未知物体X有关的信息构成材料的属性例如三维形状,并且捕获材料的三维属性作为新的环境模型。
此外,例如,环境生成设备10可以通过使用大气状态确定装置生成大气状态簇并且执行关于簇中的相同大气的确定,来生成与预定的未知大气状态Y有关的簇。在这种情况下,环境生成设备10可以例如通过基于预定区域中的未知大气状态Y的观测频率高将未知大气状态Y投射到正常大气状态,生成新的环境模型。
此外,例如,环境生成设备10可以通过使用运动特性确定装置生成运动特性簇并且执行关于簇中的相同运动特性的确定,生成与预定的未知运动特性Z有关的簇。在这种情况下,环境生成设备10可以例如通过基于预定区域中的未知运动特性Z的观测频率高来重新配置未知运动特性Z,生成新的环境模型。
上面详细描述了根据本实施方式的对未知环境和危险环境的捕获。如上所述,根据本实施方式的信息处理设备30可以确定未知环境和危险环境,并且将与环境有关的信息发送至环境生成设备10。此外,根据本实施方式的环境生成设备10可以基于接收到的信息生成新的环境模型。注意,虽然在上面的描述中已经描述了环境生成设备10动态地捕获新的环境模型的情况,但是根据本实施方式的对环境模型的捕获可以由用户执行。通过用户创建在真实世界中感知到的环境作为新环境,可以更加灵活地支持真实世界中的环境。
依照根据本实施方式的信息处理设备30和环境生成设备10,可以动态且有效地收集不具有的环境信息。通过这种方式,可以持续缩小由环境生成设备10生成的环境模型与真实世界中的环境之间的差距,使得可以大幅度提高控制学习设备20的学习效率。
此外,环境生成设备10可以使用各种功能来实现上述功能。例如,环境生成设备10可以使用用于存储接收到的与预定环境有关的信息的功能。在这种情况下,环境生成设备10可以将接收到的环境参数、控制信息、奖励参数等结构化,并且将结构化的环境参数、控制信息、奖励参数等存储为内部数据。
此外,例如,环境生成设备10可以使用用于加载接收到的与预定环境有关的情况的功能。在这种情况下,环境生成设备10可以基于接收到的环境参数、控制信息和奖励参数、结构化的内部数据等来再现上述预定环境。
此外,例如,环境生成设备10可以组织接收到的预定环境情况,并且使用用于在预定坐标信息和时间处生成标准参数的功能。在这种情况下,环境生成设备10可以基于接收到的环境参数、控制参数、奖励参数等来再现上述预定环境,并且统计地计算参数在坐标和时间处的标准分布。
<3.硬件配置示例>
接下来,将描述根据本公开内容的环境生成设备10、控制学习设备20和信息处理设备30共同的硬件配置示例。图16是示出根据本公开内容的环境生成设备10、控制学习设备20和信息处理设备30中的每一个的硬件配置示例的框图。参照图16,环境生成设备10、控制学习设备20和信息处理设备30中的每一个均包括例如CPU 871、ROM 872、RAM 873、主机总线874、桥接器875、外部总线876、接口877、输入设备878、输出设备879、存储装置880、驱动器881、连接端口882和通信设备883。注意,此处描述的硬件配置是示例,并且可以省略一些部件。另外,可以进一步添加除了此处描述的部件之外的部件。
(CPU 871)
CPU 871用作例如操作处理装置或控制装置,并且基于记录在ROM 872、RAM 873、存储装置880或者可移除记录介质901中的各种程序来控制所有或者一些部件的操作。
(ROM 872和RAM 873)
ROM 872是存储由CPU 871读取的程序、用于操作的数据等的装置。例如,由CPU871读取的程序、在执行程序时适当地变化的各种参数暂时或永久地存储在RAM 873中。
(主机总线874、桥接器875、外部总线876和接口877)
例如,CPU 871、ROM 8 72和RAM 873连接至另一能够执行高速数据传输的主机总线874。另一方面,例如,主机总线874经由桥接器875连接至具有较低数据传输速度的外部总线876。此外,外部总线876经由接口877连接至各种部件。
(输入设备878)
输入设备878的示例包括鼠标、键盘、触摸面板、按钮、开关和控制杆。此外,可以使用能够使用红外线或其他无线电波发送控制信号的远程控制器(在下文中称为远程控制器)作为输入设备878。
(输出设备879)
输出设备879是能够视觉地或听觉地向用户通知所获取的信息的设备,例如显示装置例如阴极射线管(CRT)、LCD或有机EL,音频输出装置例如扬声器或耳机,打印机,移动电话,传真机。
(存储装置880)
存储装置880是存储各种数据的装置。存储装置880的示例包括磁存储装置例如硬盘驱动器(HDD)、半导体存储装置、光学存储装置和磁光存储装置。
(驱动器881)
驱动器881是读取记录在可移除记录介质901例如磁盘、光盘、磁光盘、半导体存储器等中的信息或将信息写入可移除记录介质901中的装置。
(可移动记录介质901)
可移动记录介质901的示例包括DVD介质、蓝光(注册商标)介质、HD DVD介质和各种半导体存储介质。将认识到的是,可移除记录介质901可以是例如安装有非接触型IC芯片的IC卡、电子装置等。
(连接端口882)
连接端口882是用于连接外部连接装置902例如通用串行总线(USB)端口、IEEE1394端口、小型计算机系统接口(SCSI)、RS-232C端口或光学音频终端的端口。
(外部连接装置902)
外部连接装置902的示例包括打印机、便携式音乐播放器、数码摄像机、数码摄影机和IC记录器。
(通信设备883)
通信设备883是建立与网络的连接的通信装置,并且通信设备883的示例包括用于有线或无线LAN的通信卡、蓝牙(注册商标)或无线USB(WUSB)、光通信路由器、非对称数字用户线路(ADSL)路由器以及各种通信调制解调器。
<4.结论>
如上所述,根据本公开内容的环境生成设备10可以接收与未学习环境状态有关的信息并且基于环境参数生成环境模型。此外,根据本公开内容的控制学习设备20可以基于接收到的响应信息和环境参数来执行控制学习。另外,控制学习设备20可以根据学习的进程请求环境模型。此外,根据本公开内容的信息处理设备30可以基于所获取的信息确定环境状态是否已经被学习,并且将与未学习的环境状态有关的信息发送至环境生成设备10。根据这样的配置,可以根据真实世界中的环境有效地实现控制学习。
上面已经参照附图描述了本公开内容的优选实施方式,但是本公开内容不限于以上示例。本领域技术人员可以在所附权利要求的范围内发现各种变化和修改,并且应该理解,它们将自然会落入本公开内容的技术范围内。
例如,虽然在上述实施方式中,与控制学习有关的控制对象是车辆,但是本技术不限于这样的示例。根据本公开内容的控制对象可以是例如在制造设施中使用的用于制造的机器人或在医疗场景中使用的医疗手术机器人。
用于制造的机器人需要以相似的方式处理具有不同重量的物体,或者处理形状变化的物质例如织物。此外,在用于制造的机器人中,假定马达特性由于热或摩擦而发生变化。根据本公开内容的技术解决了上述困难。因此,通过将根据本公开内容的技术应用于用于制造的机器人,可以继续实现始终适于当前环境的控制。
此外,在医疗手术机器人中,难以从真实世界中收集用于实现在医疗实践期间的控制的大量数据。此外,由于即使在相同的手术中,也存在多种环境变化例如患者的体质和出血状态等,因此难以创建令人满意的学习数据。根据本公开内容的技术解决了上述困难。因此,通过将根据本公开内容的技术应用于医疗手术机器人,可以执行对更多患者采取手术的学习。
此外,在本说明书中描述的效果仅是说明性或示例性的效果,而不是限制性的。即,利用或代替上述效果,根据本公开内容的技术可以实现本领域技术人员根据本说明书的描述而清楚的其他效果。
另外,本技术也可以如下进行配置。
(1)一种信息处理设备,包括:
生成单元,其被配置成生成基于环境参数而生成的环境模型中的与控制对象有关的响应信息;以及
发送单元,其被配置成将所述响应信息和所述环境参数发送至学习单元,所述学习单元执行与所述控制对象的控制有关的机器学习。
(2)根据(1)所述的信息处理设备,
其中,所述发送单元将与所述机器学习有关的奖励参数发送至所述学习单元。
(3)根据(1)或(2)所述的信息处理设备,
其中,所述环境参数包括不依赖于所述控制对象的状态的外部参数和依赖于所述控制对象的状态的内部参数中的至少之一。
(4)根据(3)所述的信息处理设备,
其中,所述外部参数包括地理信息、时间信息、天气条件、室外信息、室内信息、与交通物体有关的信息以及道路表面信息中的至少之一。
(5)根据(3)或(4)所述的信息处理设备,
其中,所述控制对象是车辆,并且
所述内部参数包括车体信息、装载物信息和乘客信息中的至少之一。
(6)一种信息处理设备,包括:
通信单元,其被配置成接收基于第一环境参数而生成的环境模型中的与控制对象有关的响应信息、以及接收所述第一环境参数;以及
学习单元,其被配置成使用接收到的所述响应信息和接收到的所述第一环境参数,执行与所述控制对象的控制有关的机器学习。
(7)根据(6)所述的信息处理设备,
其中,所述通信单元将与所述机器学习的结果对应的第二环境参数发送至生成所述响应信息的生成单元。
(8)根据(6)或(7)所述的信息处理设备,
其中,所述通信单元接收与所述机器学习有关的奖励参数。
(9)根据(6)至(8)中任一项所述的信息处理设备,
其中,所述通信单元接收与所述机器学习有关的专家信息。
(10)根据(8)所述的信息处理设备,
其中,所述控制对象是车辆,并且
所述奖励参数包括与至目的地的距离、乘坐质量、联系的次数、违反交通规则以及燃料消耗有关的参数中的至少一个。
(11)一种信息处理设备,包括:
环境获取单元,其被配置成获取与环境状态有关的环境参数;
确定单元,其被配置成基于所获取的环境参数确定所述环境状态是否已经被学习;以及
发送单元,其被配置成基于所述确定单元确定所述环境状态尚未被学习而发送所述环境参数。
(12)根据(11)所述的信息处理设备,还包括:
传感器信息获取单元,其被配置成从一个或更多个传感器获取传感器信息,
其中,所述发送单元发送所述传感器信息。
(13)根据(11)或(12)所述的信息处理设备,还包括:
控制信息获取单元,其被配置成获取与控制对象的控制有关的控制信息,
其中,所述发送单元发送与所述控制信息有关的数据。
(14)根据(13)所述的信息处理设备,
其中,所述发送单元发送与所述控制对象的控制学习有关的奖励参数。
(15)根据(11)至(14)中任一项所述的信息处理设备,
其中,在所述确定单元确定所述环境状态尚未被学习的情况下,所述确定单元生成基于所述确定的通知数据,并且
所述发送单元发送所述通知数据。
(16)一种信息处理设备,包括:
接收单元,其被配置成接收与未学习的环境状态有关的环境参数;以及
生成单元,其被配置成生成基于所述环境参数而生成的环境模型中的与第一控制对象的行为有关的数据。
(17)根据(16)所述的信息处理设备,
其中,所述接收单元接收从一个或更多个传感器获取的传感器信息、与所述第一控制对象的控制学习有关的奖励参数以及从第二控制对象获取的控制信息中的至少一个。
(18)根据(17)所述的信息处理设备,
其中,所述第二控制对象包括在真实世界中行驶的车辆以及游戏或模拟器中的虚拟车辆。
(19)一种信息处理设备,包括:
获取单元,其被配置成获取从控制对象获取的控制信息;
确定单元,其被配置成确定控制所述控制对象的人是否属于预定属性;以及
发送单元,其被配置成基于由所述确定单元进行的确定的结果,将所述控制信息发送至学习单元,所述学习单元执行逆强化学习。
(20)一种信息处理设备,包括:
接收单元,其被配置成接收从控制对象获取的控制信息;
确定单元,其被配置成确定控制所述控制对象的人是否属于预定属性;以及
学习单元,其被配置成使用与被确定为属于所述预定属性的、控制所述控制对象的人有关的控制信息来执行逆强化学习。
附图标记列表
10 环境生成设备
110 生成单元
120 环境捕获单元
130 通信单元
20 控制学习设备
210 学习单元
220 设备通信单元
30 信息处理设备
310 获取单元
320 控制单元
330 确定单元
340 服务器通信单元
40 车辆
50 三维地图数据库
60 网络
权利要求书(按照条约第19条的修改)
1.一种信息处理设备,包括:
生成单元,其被配置成生成基于环境参数而生成的环境模型中的与控制对象有关的响应信息;以及
通信单元,其被配置成将所述响应信息和所述环境参数发送至学习单元,所述学习单元执行与所述控制对象的控制有关的机器学习,
其中,所述通信单元接收与所述机器学习的进程对应的与环境模型的请求有关的第二环境参数,并且
所述生成单元还生成基于所述第二环境参数而生成的环境模型中的响应信息。
2.根据权利要求1所述的信息处理设备,
其中,所述通信单元将与所述机器学习有关的奖励参数发送至所述学习单元。
3.根据权利要求1所述的信息处理设备,
其中,所述环境参数包括不依赖于所述控制对象的状态的外部参数和依赖于所述控制对象的状态的内部参数中的至少之一。
4.根据权利要求3所述的信息处理设备,
其中,所述外部参数包括地理信息、时间信息、天气条件、室外信息、室内信息、与交通物体有关的信息以及道路表面信息中的至少之一。
5.根据权利要求3所述的信息处理设备,
其中,所述控制对象是车辆,并且
所述内部参数包括车体信息、装载物信息和乘客信息中的至少之一。
6.一种信息处理设备,包括:
通信单元,其被配置成接收基于第一环境参数而生成的环境模型中的与控制对象有关的响应信息、以及接收所述第一环境参数;以及
学习单元,其被配置成使用接收到的所述响应信息和接收到的所述第一环境参数,执行与所述控制对象的控制有关的机器学习,
其中,所述通信单元将与所述机器学习的进程对应的、与环境模型的请求有关的第二环境参数发送至生成所述响应信息的生成单元。
7.根据权利要求6所述的信息处理设备,
其中,所述通信单元将与所述机器学习的结果对应的第二环境参数发送至生成所述响应信息的生成单元。
8.根据权利要求6所述的信息处理设备,
其中,所述通信单元接收与所述机器学习有关的奖励参数。
9.根据权利要求6所述的信息处理设备,
其中,所述通信单元接收与所述机器学习有关的专家信息。
10.根据权利要求8所述的信息处理设备,
其中,所述控制对象是车辆,并且
所述奖励参数包括与至目的地的距离、乘坐质量、联系的次数、违反交通规则以及燃料消耗有关的参数中的至少一个。
11.一种信息处理设备,包括:
环境获取单元,其被配置成获取与环境状态有关的环境参数;
确定单元,其被配置成执行基于所述环境参数的估计,并且确定所述环境状态是否是未学习的环境状态;以及
发送单元,其被配置成基于所述确定单元确定所述环境状态是所述未学习的环境状态而发送所述环境参数。
12.根据权利要求11所述的信息处理设备,还包括:
传感器信息获取单元,其被配置成从一个或更多个传感器获取传感器信息,
其中,所述发送单元发送所述传感器信息。
13.根据权利要求11所述的信息处理设备,还包括:
控制信息获取单元,其被配置成获取与控制对象的控制有关的控制信息,
其中,所述发送单元发送与所述控制信息有关的数据。
14.根据权利要求13所述的信息处理设备,
其中,所述发送单元发送与所述控制对象的控制学习有关的奖励参数。
15.根据权利要求11所述的信息处理设备,
其中,在所述确定单元确定所述环境状态尚未被学习的情况下,所述确定单元生成基于所述确定的通知数据,并且
所述发送单元发送所述通知数据。
16.一种信息处理设备,包括:
接收单元,其被配置成接收与未学习的环境状态有关的环境参数;以及
生成单元,其被配置成生成基于所述环境参数而生成的新环境模型中的与第一控制对象的行为有关的数据。
17.根据权利要求16所述的信息处理设备,
其中,所述接收单元接收从一个或更多个传感器获取的传感器信息、与所述第一控制对象的控制学习有关的奖励参数以及从第二控制对象获取的控制信息中的至少一个。
18.根据权利要求17所述的信息处理设备,
其中,所述第二控制对象包括在真实世界中行驶的车辆以及游戏或模拟器中的虚拟车辆。
19.根据权利要求11所述的信息处理设备,还包括:
获取单元,其被配置成获取从控制对象获取的控制信息,
其中,所述确定单元还确定控制所述控制对象的人是否属于预定属性,并且
所述发送单元基于由所述确定单元进行的确定的结果,将所述控制信息发送至学习单元,所述学习单元执行逆强化学习。
20.根据权利要求6所述的信息处理设备,还包括:
确定单元,其被配置成确定控制所述控制对象的人是否属于预定属性,
其中,所述通信单元接收从控制对象获取的控制信息,并且
所述学习单元使用与被确定为属于所述预定属性的、控制所述控制对象的人有关的控制信息来执行逆强化学习。

Claims (20)

1.一种信息处理设备,包括:
生成单元,其被配置成生成基于环境参数而生成的环境模型中的与控制对象有关的响应信息;以及
发送单元,其被配置成将所述响应信息和所述环境参数发送至学习单元,所述学习单元执行与所述控制对象的控制有关的机器学习。
2.根据权利要求1所述的信息处理设备,
其中,所述发送单元将与所述机器学习有关的奖励参数发送至所述学习单元。
3.根据权利要求1所述的信息处理设备,
其中,所述环境参数包括不依赖于所述控制对象的状态的外部参数和依赖于所述控制对象的状态的内部参数中的至少之一。
4.根据权利要求3所述的信息处理设备,
其中,所述外部参数包括地理信息、时间信息、天气条件、室外信息、室内信息、与交通物体有关的信息以及道路表面信息中的至少之一。
5.根据权利要求3所述的信息处理设备,
其中,所述控制对象是车辆,并且
所述内部参数包括车体信息、装载物信息和乘客信息中的至少之一。
6.一种信息处理设备,包括:
通信单元,其被配置成接收基于第一环境参数而生成的环境模型中的与控制对象有关的响应信息、以及接收所述第一环境参数;以及
学习单元,其被配置成使用接收到的所述响应信息和接收到的所述第一环境参数,执行与所述控制对象的控制有关的机器学习。
7.根据权利要求6所述的信息处理设备,
其中,所述通信单元将与所述机器学习的结果对应的第二环境参数发送至生成所述响应信息的生成单元。
8.根据权利要求6所述的信息处理设备,
其中,所述通信单元接收与所述机器学习有关的奖励参数。
9.根据权利要求6所述的信息处理设备,
其中,所述通信单元接收与所述机器学习有关的专家信息。
10.根据权利要求8所述的信息处理设备,
其中,所述控制对象是车辆,并且
所述奖励参数包括与至目的地的距离、乘坐质量、联系的次数、违反交通规则以及燃料消耗有关的参数中的至少一个。
11.一种信息处理设备,包括:
环境获取单元,其被配置成获取与环境状态有关的环境参数;
确定单元,其被配置成基于所获取的环境参数确定所述环境状态是否已经被学习;以及
发送单元,其被配置成基于所述确定单元确定所述环境状态尚未被学习而发送所述环境参数。
12.根据权利要求11所述的信息处理设备,还包括:
传感器信息获取单元,其被配置成从一个或更多个传感器获取传感器信息,
其中,所述发送单元发送所述传感器信息。
13.根据权利要求11所述的信息处理设备,还包括:
控制信息获取单元,其被配置成获取与控制对象的控制有关的控制信息,
其中,所述发送单元发送与所述控制信息有关的数据。
14.根据权利要求13所述的信息处理设备,
其中,所述发送单元发送与所述控制对象的控制学习有关的奖励参数。
15.根据权利要求11所述的信息处理设备,
其中,在所述确定单元确定所述环境状态尚未被学习的情况下,所述确定单元生成基于所述确定的通知数据,并且
所述发送单元发送所述通知数据。
16.一种信息处理设备,包括:
接收单元,其被配置成接收与未学习的环境状态有关的环境参数;以及
生成单元,其被配置成生成基于所述环境参数而生成的环境模型中的与第一控制对象的行为有关的数据。
17.根据权利要求16所述的信息处理设备,
其中,所述接收单元接收从一个或更多个传感器获取的传感器信息、与所述第一控制对象的控制学习有关的奖励参数以及从第二控制对象获取的控制信息中的至少一个。
18.根据权利要求17所述的信息处理设备,
其中,所述第二控制对象包括在真实世界中行驶的车辆以及游戏或模拟器中的虚拟车辆。
19.一种信息处理设备,包括:
获取单元,其被配置成获取从控制对象获取的控制信息;
确定单元,其被配置成确定控制所述控制对象的人是否属于预定属性;以及
发送单元,其被配置成基于由所述确定单元进行的确定的结果,将所述控制信息发送至学习单元,所述学习单元执行逆强化学习。
20.一种信息处理设备,包括:
接收单元,其被配置成接收从控制对象获取的控制信息;
确定单元,其被配置成确定控制所述控制对象的人是否属于预定属性;以及
学习单元,其被配置成使用与被确定为属于所述预定属性的、控制所述控制对象的人有关的控制信息来执行逆强化学习。
CN201780018213.9A 2016-03-25 2017-01-06 信息处理设备 Pending CN108885722A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016-062770 2016-03-25
JP2016062770 2016-03-25
PCT/JP2017/000346 WO2017163538A1 (ja) 2016-03-25 2017-01-06 情報処理装置

Publications (1)

Publication Number Publication Date
CN108885722A true CN108885722A (zh) 2018-11-23

Family

ID=59901014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780018213.9A Pending CN108885722A (zh) 2016-03-25 2017-01-06 信息处理设备

Country Status (5)

Country Link
US (1) US20190019087A1 (zh)
EP (1) EP3435296A4 (zh)
JP (1) JP6747502B2 (zh)
CN (1) CN108885722A (zh)
WO (1) WO2017163538A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110132282A (zh) * 2019-05-24 2019-08-16 北京航空航天大学 无人机路径规划方法及装置

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769453B2 (en) * 2017-05-16 2020-09-08 Samsung Electronics Co., Ltd. Electronic device and method of controlling operation of vehicle
US11537262B1 (en) 2015-07-21 2022-12-27 Monotype Imaging Inc. Using attributes for font recommendations
US10528725B2 (en) 2016-11-04 2020-01-07 Microsoft Technology Licensing, Llc IoT security service
US10803323B2 (en) * 2017-05-16 2020-10-13 Samsung Electronics Co., Ltd. Electronic device and method of detecting driving event of vehicle
US11334750B2 (en) * 2017-09-07 2022-05-17 Monotype Imaging Inc. Using attributes for predicting imagery performance
US10691962B2 (en) * 2017-09-22 2020-06-23 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for rear signal identification using machine learning
US10909429B2 (en) 2017-09-27 2021-02-02 Monotype Imaging Inc. Using attributes for identifying imagery for selection
WO2019065546A1 (ja) 2017-09-29 2019-04-04 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元データ作成方法、クライアント装置及びサーバ
US10739776B2 (en) * 2017-10-12 2020-08-11 Honda Motor Co., Ltd. Autonomous vehicle policy generation
US11657266B2 (en) 2018-11-16 2023-05-23 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
WO2019089578A1 (en) 2017-10-30 2019-05-09 Monotype Imaging Inc. Font identification from imagery
JP6930901B2 (ja) * 2017-11-09 2021-09-01 株式会社Nttファシリティーズ 制振制御システム、制振制御方法、振動解析装置及び振動解析方法
JP6856936B2 (ja) * 2017-12-04 2021-04-14 アセントロボティクス株式会社 学習方法、学習装置及び学習プログラム
US10586132B2 (en) 2018-01-08 2020-03-10 Visteon Global Technologies, Inc. Map and environment based activation of neural networks for highly automated driving
JP6955702B2 (ja) 2018-03-06 2021-10-27 オムロン株式会社 情報処理装置、情報処理方法、及びプログラム
WO2019186996A1 (ja) * 2018-03-30 2019-10-03 日本電気株式会社 モデル推定システム、モデル推定方法およびモデル推定プログラム
JP2021165048A (ja) * 2018-06-29 2021-10-14 ソニーグループ株式会社 情報処理装置及び情報処理方法
US11537872B2 (en) * 2018-07-30 2022-12-27 International Business Machines Corporation Imitation learning by action shaping with antagonist reinforcement learning
US11734575B2 (en) 2018-07-30 2023-08-22 International Business Machines Corporation Sequential learning of constraints for hierarchical reinforcement learning
US11501157B2 (en) 2018-07-30 2022-11-15 International Business Machines Corporation Action shaping from demonstration for fast reinforcement learning
WO2020026460A1 (ja) * 2018-08-03 2020-02-06 日本電気株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP6797254B2 (ja) * 2018-08-14 2020-12-09 本田技研工業株式会社 相互作用認識意思決定
JP7079445B2 (ja) * 2018-09-25 2022-06-02 本田技研工業株式会社 モデルパラメータ学習装置、制御装置及びモデルパラメータ学習方法
JP7110884B2 (ja) 2018-10-01 2022-08-02 オムロン株式会社 学習装置、制御装置、学習方法、及び学習プログラム
KR102521657B1 (ko) * 2018-10-15 2023-04-14 삼성전자주식회사 차량을 제어하는 방법 및 장치
US20200133308A1 (en) * 2018-10-18 2020-04-30 Cartica Ai Ltd Vehicle to vehicle (v2v) communication less truck platooning
US11087049B2 (en) * 2018-11-27 2021-08-10 Hitachi, Ltd. Online self-driving car virtual test and development system
DE102018221063A1 (de) * 2018-12-05 2020-06-10 Volkswagen Aktiengesellschaft Konfiguration eines Steuerungssystems für ein zumindest teilautonomes Kraftfahrzeug
US10776542B2 (en) * 2019-01-30 2020-09-15 StradVision, Inc. Method and device for calibrating physics engine of virtual world simulator to be used for learning of deep learning-based device, and a learning method and learning device for real state network used therefor
US10831189B2 (en) * 2019-01-31 2020-11-10 StradVision, Inc. Learning method and learning device for providing functional safety by warning driver about potential dangerous situation by using explainable AI which verifies detection processes of autonomous driving network, and testing method and testing device using the same
WO2020246075A1 (ja) * 2019-06-04 2020-12-10 ソニー株式会社 行動制御装置と行動制御方法およびプログラム
JP7238994B2 (ja) * 2019-07-19 2023-03-14 日本電気株式会社 快適性運転データ収集システム、運転制御装置、方法、および、プログラム
JP7209296B2 (ja) * 2019-08-23 2023-01-20 日本電信電話株式会社 無線物体検知装置および無線物体検知方法
EP3792814A1 (en) * 2019-09-10 2021-03-17 Volvo Car Corporation Method and system for selecting an operation mode for an at least partly self-driving vehicle
JP7488638B2 (ja) 2019-10-04 2024-05-22 株式会社日本製鋼所 操作量決定装置、成形装置システム、成形機、コンピュータプログラム、操作量決定方法及び状態表示装置
US11645518B2 (en) * 2019-10-07 2023-05-09 Waymo Llc Multi-agent simulations
WO2021070732A1 (ja) * 2019-10-11 2021-04-15 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
CN110703766B (zh) * 2019-11-07 2022-01-11 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
JP2023526329A (ja) * 2020-05-15 2023-06-21 パーセプティブ オートマタ インコーポレイテッド 自律車両のための機械学習ベースモデルの検証およびトレーニングのためのシナリオ識別
CN111726554B (zh) 2020-06-30 2022-10-14 阿波罗智能技术(北京)有限公司 图像处理方法、装置、设备和存储介质
CN114220024B (zh) * 2021-12-22 2023-07-18 内蒙古自治区气象信息中心(内蒙古自治区农牧业经济信息中心)(内蒙古自治区气象档案馆) 基于深度学习的静止卫星沙尘暴识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007078116A (ja) * 2005-09-15 2007-03-29 Mazda Motor Corp 自動変速機制御システム
CN104484911A (zh) * 2014-10-29 2015-04-01 云南大学 基于QoE的个性化自动驾驶参数优化设定方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079862A (ja) * 2005-09-13 2007-03-29 Aisin Aw Co Ltd 車両制御装置
US9346167B2 (en) * 2014-04-29 2016-05-24 Brain Corporation Trainable convolutional network apparatus and methods for operating a robotic vehicle

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007078116A (ja) * 2005-09-15 2007-03-29 Mazda Motor Corp 自動変速機制御システム
CN104484911A (zh) * 2014-10-29 2015-04-01 云南大学 基于QoE的个性化自动驾驶参数优化设定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DIZAN VASQUEZ ET AL: "An open framework for human-like autonomous driving using Inverse Reinforcement Learning", 《2014 IEEE VEHICLE POWER AND PROPULSION CONFERENCE (VPPC)》 *
XIN LI ET AL: "Reinforcement Learning Based Overtaking Decision Making for Highway Autonomous Driving", 《SIXTH INTERNATIONAL CONFERENCE ON INTELLIGENT CONTROL AND INFORMATION PROCESSING》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110132282A (zh) * 2019-05-24 2019-08-16 北京航空航天大学 无人机路径规划方法及装置

Also Published As

Publication number Publication date
US20190019087A1 (en) 2019-01-17
WO2017163538A1 (ja) 2017-09-28
JPWO2017163538A1 (ja) 2019-01-31
JP6747502B2 (ja) 2020-08-26
EP3435296A4 (en) 2019-07-03
EP3435296A1 (en) 2019-01-30

Similar Documents

Publication Publication Date Title
CN108885722A (zh) 信息处理设备
JP7105305B2 (ja) 多段画像ベースの物体検出および認識
CN111919225B (zh) 使用模拟环境对自主机器进行培训、测试和验证
CN108205830A (zh) 识别对于无人驾驶车辆的个人驾驶偏好的方法和系统
CN107870668A (zh) 用于虚拟现实架构中改善的数据集成的系统和方法
CN104956183B (zh) 用于提供关于停车位的信息的方法和导航装置
CN107918781A (zh) 移动传感器平台
CN107577227A (zh) 操作无人驾驶车辆的方法、装置和数据处理系统
CN115843347A (zh) 从记录数据生成自主车辆模拟数据
CN108475406A (zh) 用于请求和控制自主车辆服务的软件应用
US11466886B2 (en) Artificial intelligence device and artificial intelligence system for managing indoor air condition
CN108290579A (zh) 用于自主车辆的模拟系统和方法
CN109219551A (zh) 道路状况抬头显示器
CN108334073A (zh) 使用制动灯保持自动驾驶车辆与跟随车辆之间的距离的方法
CN110715671B (zh) 三维地图生成方法、装置、车辆导航设备和无人驾驶车辆
WO2017141521A1 (ja) 情報処理装置、情報処理方法及びプログラム
US11507978B2 (en) Dynamic display of driver content
CN112435333B (zh) 一种道路场景的生成方法以及相关装置
KR102623190B1 (ko) 실내 공기 상태를 관리하는 인공 지능 장치 및 인공 지능 시스템
CN104185776B (zh) 动态导航服务
US20220306155A1 (en) Information processing circuitry and information processing method
CN108205787A (zh) 一种基于电力作业场景的情景信息模型构建方法及系统
Jiao et al. Pedestrian walking speed monitoring at street scale by an in-flight drone
TWI425194B (zh) 路徑規劃系統及其路徑規劃方法
US20220196839A1 (en) Procedurally generated three-dimensional environment for use in autonomous vehicle simulations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123