CN110268338B - 使用视觉输入进行代理导航 - Google Patents

使用视觉输入进行代理导航 Download PDF

Info

Publication number
CN110268338B
CN110268338B CN201880010935.4A CN201880010935A CN110268338B CN 110268338 B CN110268338 B CN 110268338B CN 201880010935 A CN201880010935 A CN 201880010935A CN 110268338 B CN110268338 B CN 110268338B
Authority
CN
China
Prior art keywords
characterization
time step
environment
agent
environmental map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880010935.4A
Other languages
English (en)
Other versions
CN110268338A (zh
Inventor
拉胡尔·苏克坦卡尔
绍拉伯·古普塔
詹姆斯·克里斯托弗·戴维森
谢尔盖·弗拉迪米尔·莱文
吉滕德拉·马利克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN110268338A publication Critical patent/CN110268338A/zh
Application granted granted Critical
Publication of CN110268338B publication Critical patent/CN110268338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3863Structures of map data
    • G01C21/387Organisation of map data, e.g. version management or database structures
    • G01C21/3878Hierarchical structures, e.g. layering
    • G06T3/18
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Abstract

方法、系统和装置,包括在计算机存储介质上编码的、用于使用视觉输入进行导航的计算机程序。所述系统中的一个系统包括绘图子系统,其被配置为在多个时间步中的每个时间步处根据该时间步处的环境的图像来生成环境的表征,其中,该表征包括标识环境中的、具有特定特性的位置的环境地图,并且其中,生成表征包括对于每个时间步:在该时间步处获得环境的图像,处理图像以生成针对该时间步的第一初始表征,获得针对先前时间步的最终表征,处理针对先前时间步的表征以生成针对该时间步的第二初始表征,并组合第一初始表征和第二初始表征以生成针对该时间步的最终表征。

Description

使用视觉输入进行代理导航
技术领域
本说明书涉及环境中的代理(agent)导航。
背景技术
使用视觉输入在环境中对代理(例如机器人)进行导航需要处理视觉输入以提取关于环境的信息并考虑到提取的关于环境的信息来选择适当的行动。一些系统使用神经网络来选择待由代理执行的行动。
神经网络是采用一个或多个非线性单元层来为接收的输入预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层的输入,即下一个隐藏层或输出层的输入。网络的每个层根据相应参数集合的当前值从接收的输入生成输出。
一些神经网络是循环神经网络。循环神经网络是接收输入序列并从输入序列生成输出序列的神经网络。具体地,循环神经网络能够使用来自先前时间步的网络的内部状态中的一些或全部来计算当前时间步的输出。循环神经网络的示例是长短期记忆(LSTM)神经网络,其包括一个或多个LSTM记忆块。每个LSTM记忆块能够包括一个或多个单元(cell),每个单元包括输入门、遗忘门、和输出门,其允许单元存储该单元的先前状态,例如以用于生成当前激活或被提供到LSTM神经网络的其他组件。
发明内容
本说明书大体描述了一种导航系统,其控制在环境中导航的代理,即该导航系统选择要由代理执行的行动并且然后使代理执行所选择的行动。
在所描述的主题的一个创造性方面,包括一个或多个计算机和一个或多个存储设备的系统存储指令,所述指令在被执行时使得所述一个或多个计算机实现:绘图子系统,所述绘图子系统被配置为在多个时间步中的每个时间步处根据该时间步处的环境的图像来生成所述环境的表征,其中,所述表征包括标识所述环境中具有特定特性的位置的环境地图,并且其中,生成所述表征包括对于每个时间步:在该时间步处获得所述环境的所述图像,处理所述图像以生成针对该时间步的所述环境的第一初始表征,获得针对该时间步之前的先前时间步的所述环境的最终表征,处理针对该先前时间步的所述环境的表征以生成针对该时间步的所述环境的第二初始表征,以及组合所述第一初始表征和所述第二初始表征以生成针对该时间步的所述环境的最终表征。
在一些实施方式中,处理图像以生成第一初始表征包括:使用神经网络处理图像以生成第一初始表征。
在一些实施方式中,图像是由在环境中移动的代理捕获的图像,并且其中,处理针对该先前时间步的所述环境的最终表征以生成针对该时间步的所述环境的第二初始表征包括:获得在该先前时间步和该时间步之间的所述代理的移动量度,以及将扭曲(warping)函数应用于针对该先前时间步的所述环境的最终表征和所述移动量度以生成所述第二初始表征。
在一些实施方式中,所述扭曲函数是使用双线性采样执行插值的函数。
在一些实施方式中,所述图像是由在环境中移动的所述代理捕获的,所述图像是来自所述代理的第一人称自我中心视角,以及所述第一初始表征、所述第二初始表征、针对该先前时间步的最终表征以及针对该时间步的最终表征是来自俯视视角。
在一些实施方式中,组合所述第一初始表征和所述第二初始表征以生成针对该时间步的最终表征包括:将更新函数应用于所述第一初始表征和所述第二初始表征以生成所述最终表征。
在一些实施方式中,每个表征包括:(i)表示所述环境中的多个位置是否具有所述特定特性的分值集合,以及(ii)对于所述分值集合的置信度量度集合,所述更新函数包括执行以下等式的运算:
Figure BDA0002160113260000031
ct=ct-1+c′t
其中,ft是针对该时间步的所述最终表征的分值集合,ct是对于针对该时间步的所述最终表征的分值集合的置信度量度集合,ft'是所述第一初始表征的分值集合,ct'是对于所述第一初始表征的分值集合的置信度量度集合,ft-1是所述第二初始表征的分值集合,以及ct-1是对于所述第二初始表征的分值集合的置信度量度集合。
在一些实施方式中,所述更新函数是由循环神经网络执行的,并且其中,所述循环神经网络被配置为:对于所述多个时间步中的每个时间步,处理针对该时间步的所述第一初始表征和所述第二初始表征以生成针对该时间步的所述最终表征。
在一些实施方式中,对于所述环境中的所述多个位置中的每个位置,针对该时间步的环境地图包括:表示该位置是否具有所述特定特性的分值,并且对于所述位置中的每个位置所述表征还包括:对于该位置的分值的置信度量度。
在一些实施方式中,系统进一步包括对于所述多个时间步中的每个时间步:从所述绘图子系统获得针对该时间步的所述最终表征,以及处理所述最终表征以选择要由在该时间步处与所述环境交互的代理执行的所建议的行动。
在另一创造性方面,所述系统包括规划子系统,其被配置为:对于多个时间步的每个时间步,获得执行行动以实现针对该时间步的目标的代理的环境的最终表征,其中,所述代理的所述环境的所述最终表征包括标识所述环境中的、具有特定特性的位置的环境地图;从所述最终表征生成空间扩缩的环境地图的序列,其中,所述序列中的每个空间扩缩的环境地图是相对于所述序列中的任何后续空间扩缩的环境地图下采样的;对于所述序列中的每个空间扩缩的环境地图,从最大下采样的空间扩缩的环境地图开始,处理所述序列中的该空间扩缩的环境地图和与该空间扩缩的环境地图相关联的一个或多个输入以生成该空间扩缩的环境地图的一个或多个价值地图,其中,价值地图对于该空间扩缩的环境地图中的多个区域中的每个区域包括在该区域中的所述代理实现所述目标的价值估计,以及对于所述序列中的、除了最后的空间扩缩的环境地图之外的每个空间扩缩的环境地图,提供该空间扩缩的环境地图的一个或多个价值地图以作为与所述序列中的后续空间扩缩的环境地图相关联的输入;以及基于所述序列中的所述最后的空间扩缩的环境地图的所更新的价值地图来选择所建议的行动。
在一些实施方式中,与所述序列中的每个空间扩缩的环境地图相关联的输入包括标识所述代理的所述目标的数据。
在一些实施方式中,目标是代理试图到达的环境中的位置。
在一些实施方式中,目标是代理试图定位的环境中的对象。
在一些实施方式中,对所述最大下采样的空间扩缩的环境地图的输入包括针对该时间步的所述最终表征。
在一些实施方式中,处理与该空间扩缩的环境地图相关联的输入以生成该空间扩缩的环境地图的一个或多个价值地图包括:处理与该空间扩缩的环境地图相关联的输入以生成该空间扩缩的环境地图的一个或多个初始价值地图;以及在该空间扩缩的环境地图的一个或多个初始价值地图上执行一次或多次价值迭代,以生成该空间扩缩的环境地图的一个或多个价值地图。
在一些实施方式中,基于所述序列中的所述最后的空间扩缩的环境地图的价值地图来选择所建议的行动包括:根据所述序列中的所述最后的空间扩缩的环境地图的价值地图,确定具有最高价值估计的所更新的价值地图的特定区域;以及选择使所述代理去往所述特定区域的行动作为针对该时间步的所建议的行动。
在一些实施方式中,基于所述序列中的所述最后的空间扩缩的环境地图的价值地图来选择所建议的行动包括:通过包括一个或多个修正的线性单元的神经网络来处理所述价值地图以选择所建议的行动。
能够实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。
用于在包括地图和规划子系统的环境中导航代理的系统能够被端对端(end-to-end)地训练,这能够在这样的系统被训练之后提高其效率和准确性。也就是说,因为由绘图器和规划器执行的操作完全可微分,因此能够通过反向传播来自规划器的误差来训练绘图器。例如,规划子系统能够学习如何使用由绘图子系统生成的环境地图,同时绘图子系统正在学习如何生成更好的环境地图。通过以下能够使针对代理的行动规划在计算上更有效率:对环境地图在空间上扩缩以针对更多下采样的空间扩缩的环境地图最小化价值迭代精度,同时仍然生成高度准确的行动规划。
在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书,本主题的其他特征、方面和优点将变得显而易见。
附图说明
图1示出了示例导航系统。
图2示出了可微分绘图器的示例架构。
图3示出了可微分分层规划器的示例架构。
图4是用于在给定时间步处理图像的示例过程的流程图。
各附图中相似的附图标记和名称指示相似的元件。
具体实施方式
图1示出了示例导航系统100。导航系统100是在一个或多个位置中的一个或多个计算机上被实现为计算机程序的系统的示例,其中能够实现下面描述的系统、组件和技术。
在代理通过接收环境的图像并且响应于所接收的图像而选择要由代理执行的行动来在环境中移动时,导航系统100控制代理。
通常,环境是真实世界环境,且代理是与真实世界环境交互以实现目标的机械代理。例如,代理可以是与环境交互以实现特定目标的机器人,所述特定目标例如移动到环境中的特定位置或者在环境中定位特定对象。作为另一示例,代理可以是在环境中导航以实现目标——即导航到特定位置的自主或半自主车辆。
具体地,导航系统100重复地接收环境的图像,并且响应于每个图像,从可能的行动集合中选择要由代理执行的行动,并使代理执行所选择的行动。接收图像且然后响应于图像而执行行动的每次迭代将在本说明书中称为时间步。通过以这种方式重复选择行动,系统100使代理实现目标。
通常,所接收的图像是随着代理在环境中移动而由代理捕获的图像,即由代理的相机或其他传感器捕获的图像。因此,图像是环境相对于代理的第一人称图像。
例如,在给定时间步,系统100接收环境的图像102和标识代理相对于先前时间步的自运动(egomotion)104的数据。自运动104是代理在先前时间步和该时间步之间的运动的量度,即,指示代理的位置相对于先前时间步如何变化的量度。
然后,系统100使用图像102、自运动104和标识代理试图到达的目标122的数据来选择行动132,并使代理执行行动132,即,通过指令代理的控制系统提交与行动132相对应的特定控制输入来使代理执行行动132。也就是说,行动是使代理在环境中移动的对于代理的控制输入。
具体地,系统100包括可微分绘图器110和可微分分层规划器120。
从下面的描述中可以看出,绘图器110和规划器120被称为“可微分的”,因为这些子系统中的每一个在响应于给定图像而选择行动时执行的操作是完全可微分的。这允许系统100端对端地训练绘图器110和规划器120,以改进训练系统的效能。下面将参考图4更详细地描述训练绘图器110和规划器120。
在每个时间步,绘图器110接收该时间步的图像102和自运动104,并生成环境的表征112。
表征112通常包括信念(belief)数据和置信度数据。
信念数据是环境的地图,其标识环境中具有将对规划器120有用的某些特性的位置。具体地,由于绘图器110被训练的方式,所以特定特性是被学习得到的而不是预先确定的。也就是说,地图等同于环境的潜在表示,因为绘图器是通过反向传播来自规划器120的误差来训练的。因此,如下将描述的,地图被直接馈送到学习规划器120,地图不需要编码预定的环境特性,但是能够替代地用作由规划器120使用的一般空间记忆,即,作为对环境中的各种位置的一些特性进行编码的记忆。
更具体地,该地图来自环境的俯视视图(top-down view),并且对于俯视视图中的多个位置中的每一个,包括指示该位置具有特定特性的可能性的相应分值。
置信度数据是标识绘图器110对信念数据是否准确的置信程度的数据。例如,对于地图中的每个位置,置信度数据能够包括置信度分值,其表示绘图器110对该位置的可能性的置信程度。
下面将参考图2更详细地描述绘图器110以及生成表征。
规划器120接收表征112并基于表征112来选择要由代理执行的行动132以便代理实现目标122。通常,规划器120使用表征112在多个尺度上执行价值迭代以选择代理要执行的行动。将在下面参考图3更详细地描述规划器120和基于表征选择行动。
然后,系统100使代理执行所选择的行动132。通常,所选择的行动132是对于代理的控制输入,并且系统通过将控制输入直接提交给代理或者通过指令代理的控制系统相应地指令代理来使代理执行所选择的行动132。
图2示出了可微分规划器110的示例架构。
为了生成针对给定时间步的最终表征112,规划器110处理图像102和自运动104以生成针对该时间步的两个初始表征。与最终表征相似,两个初始表征均包括信念数据和置信度数据二者,但具有与最终表征可能不同的分值和置信度。然后,规划器110组合两个初始表征以生成最终表征112。
具体地,规划器使用神经网络220处理图像102以生成针对时间步的环境的第一初始表征222。如能够从图2看出的,神经网络220包括卷积编码器,其使用残差连接并在二维(2D)图像空间中产生图像102中的场景的表示。该表示经由全连接层被转换为处于自我中心(egocentric)2D俯视视图中的表示。使用反卷积(up-convolutional)层(也具有残差连接)对该俯视的视图表示进行上采样,以获得第一初始表征。
规划器110还使用自运动104处理来自先前时间步的最终表征202以生成针对该时间步的第二初始表征212。
更具体地,规划器110将可微分的扭曲函数212应用于来自先前时间步的最终表征202和自运动104以生成第二初始表征212。扭曲函数能够是以可微分的方式将来自先前时间步的最终表征202扭曲的任何函数。
例如,扭曲函数能够是使用双线性采样实现的函数。具体地,给定自运动,系统能够计算反向流场,其将第二初始表征212中的每个像素映射到它应该来自的最终表征202中的位置。能够从自运动解析地计算该反向流。然后,该函数能够使用双线性采样将该流场应用于最终表征202以生成第二初始表征212。
然后,规划器110组合第一初始表征222和第二初始表征212以生成针对该时间步的环境的最终表征112。
更具体地,规划器110应用组合函数230组合第一初始表征222和第二表征212以生成针对时间步的最终表征112。
在一些实施方式中,组合函数230是解析函数。具体地,更新函数能够表达如下:
Figure BDA0002160113260000101
ct=ct-1+c′t
其中ft是针对该时间步的最终表征的信念数据中的分值集合,ct是对于针对该时间步的最终表征的分值数据的置信度量度集合,ft'是对于第一初始表征的分值集合,ct'是第一初始表征的置信度量度集合,ft-1是第二初始表征的分值集合,且ct-1是对于第二初始表征的分值集合的置信度量度集合。
在一些其他实施方式中,组合函数230是由神经网络实现的,例如循环神经网络,如长短期记忆(LSTM)神经网络。
从该描述中能够看出,由规划器110在图像102、自运动104和最终表征202上执行的每个操作是可微分操作,即,神经网络操作或可微分解析函数。
一旦规划器110已经生成最终表征112,规划器110就将最终表征112提供给绘图器120以用于在该时间步处选择行动。
图3示出了可微分分层规划器120的示例架构。
通常,分层规划器120在多个空间尺度上规划。具体地,分层规划器120包括针对多个空间尺度中的每一个的相应价值子系统310A-N。虽然在该示例中仅示出了价值子系统310M和310N,但是规划器120通常将包括多于两个价值子系统。
子系统310A-N的第一价值子系统310A对应于k次空间下采样的地图,而最后价值子系统310N对应于原始分辨率,即,从绘图器110接收的地图的分辨率。
每个价值子系统在对应的空间尺度上进行l次价值迭代,以生成处于对应空间尺度的一个或多个价值地图。对于与该空间尺度相对应的空间扩缩的环境地图中的多个区域中的每个区域,价值地图包括对在该区域中的代理要实现目标的价值的估计,即,对在对应区域中的代理对于实现目标的价值的估计。
然后,规划器120对一个或多个价值地图进行中心裁剪和上采样,并使用经中心裁剪的和上采样的输出以更精细的尺度进行价值迭代,即,通过提供经中心裁剪的和上采样的输出作为下一个价值子系统的输入来以更精细的尺度进行价值迭代。规划器120多次重复该处理——即对于每个价值子系统重复一次以达到原始问题的分辨率。
一旦最后价值子系统310N已经生成了与从绘图器110接收的环境地图相同尺度的一个或多个价值地图,则规划器120使用这些价值地图来选择要由代理132执行的行动。在图3的示例中,规划器120使用具有修正的线性单元激活函数的一组全连接层来处理这些价值地图,以生成关于要由代理执行的可能行动的分值分布,然后从分值分布中选择行动132。在其他示例中,规划器120能够从最后价值地图确定更新的价值地图的特定区域,该特定区域是从代理的当前位置可到达的并且具有最高的价值估计,然后选择使代理去往特定区域的行动来作为针对该时间步的所建议的行动132。
更具体地,规划器120接收针对该时间步的最终表征112并从该最终表征生成空间扩缩的环境地图的序列,其中序列中的每个空间扩缩的环境地图相对于任何后续的空间扩缩的环境地图被下采样并且对应于价值子系统310A-N中的不同的一个。
对于给定的空间尺度,针对该尺度的价值子系统处理(i)对应尺度的空间扩缩的环境地图和(ii)与该空间扩缩的环境地图相关联的一个或多个输入,以生成该空间扩缩的环境地图的一个或多个价值地图。
与空间扩缩的环境地图相关联的输入通常包括序列中先前空间尺度的一个或多个价值地图以及标识代理的目标的数据。也就是说,除序列中的最后价值子系统之外的每个价值子系统提供由该价值子系统生成的一个或多个价值地图作为与序列中的后续空间扩缩的环境地图相关联的输入,即作为对序列中的下一价值子系统的输入。对于序列中的第一价值子系统——即最大下采样的价值子系统,价值地图能够是一个或多个预定的初始价值地图。
当目标是位置时,标识输入到给定价值子系统的目标的数据能够是与该子系统具有相同尺度的地图。因此,对于精细尺度,当代理远离目标时,目标可能在被提供作为对应子系统的输入的数据中不可见。
每个价值子系统包括融合器320和价值迭代模块330。
融合器320组合(i)对应尺度的空间扩缩的环境地图和(ii)与该空间扩缩的环境地图相关联的一个或多个输入,以生成包括与该空间扩缩的环境地图相同尺度的一个或多个价值地图的价值迭代输入。具体地,融合器320对来自先前价值子系统的一个或多个价值地图进行中心裁剪和上采样,并且深度串接目标数据、空间扩缩的环境地图、以及经裁剪的和上采样的价值地图以生成价值迭代输入。
然后,价值迭代模块330使用价值迭代神经网络在价值迭代输入上——即在一个或多个初始价值地图上执行l次价值迭代,以生成该空间扩缩的环境地图的一个或多个价值地图。价值迭代能够被认为是Dijkstra的算法的泛化,其中每个状态的价值在每次迭代时通过对其邻近状态的价值加上转变至那些邻近状态的奖励取最大值来迭代地重复计算。执行价值迭代的价值迭代神经网络是具有交替卷积和通道层面(channel-wise)最大池化操作的神经网络,从而允许规划器120对于其输入进行微分。在以下论文中更详细地描述了价值迭代和价值迭代神经网络:A.Tamar,S.Levine,and P.Abbeel.Value iterationnetworks(价值迭代网络).In NIPS,2016。
图4是用于在给定时间步处理图像的示例过程400的流程图。为方便起见,过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如,被适当地编程的例如图1的导航系统100的导航系统能够执行过程400。
系统获得环境的图像(步骤402),即,当代理在环境中移动时由代理的传感器捕获的图像。该系统还从先前时间步接收标识代理的自运动的数据。
系统根据图像和自运动生成环境的表征(步骤404)。表征包括信念数据和置信度数据。也就是说,表征包括具有地图中的每个位置处的分值和分值的置信度量度的环境的俯视的地图。
系统选择要由代理执行的所建议的行动(步骤406)。具体地,系统使用标识代理的目标的数据和环境的表征在多个空间尺度上执行价值迭代,以生成一个或多个最终价值地图。然后,系统使用一个或多个最终价值地图来选择要由代理执行的所建议的行动。
如果执行过程400是在规划器和绘图器的训练期间的,则系统获得最优行动,即本应由代理执行的行动(步骤408)。
系统确定所选择的行动和最优行动之间的误差的量度的梯度(步骤410)。
系统通过规划器和绘图器反向传播该梯度以确定对绘图器和规划器的参数的更新(步骤412)。因此,系统端对端地训练绘图器和规划器,即,在训练期间所建议的行动中的误差导致不仅更新规划器的参数,而且还更新绘图器的参数。具体地,在一些实施方式中,所建议的行动中的误差是用于调整绘图器的参数的唯一反馈,使得绘图器学习生成对于规划器在选择正确行动时有用的地图而无需任何额外监督。具体地,不存在外部标签指定由绘图器生成的信念数据中的特定特性应该是什么,从而允许绘图器学习对规划器有用的特性。
如果过程400是在训练之后执行的,则系统能够使代理执行所建议的行动。如果过程400是在训练期间执行的,则系统能够使在环境中移动的代理以概率p执行所建议的行动,并且以概率1-p执行最优行动。这允许代理探索环境并可能发现可以导致改善实现目标的效能的行动。在一些情况下,系统在代理的操作期间增加p以退火(anneal)选择最优行动的概率。
该说明书关于与系统和计算机程序组件使用术语“配置”。对于要配置为执行特别操作或动作的一个或多个计算机的系统,意味着系统已在其上安装了在操作中使系统执行操作或动作的软件、固件、硬件或它们的组合。对于要被配置为执行特定操作或动作的一个或多个计算机程序,意味着一个或多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。
本说明书中描述的主题和功能性操作的实施例能够实现在的数字电子电路中、在有形实施的计算机软件或固件中、在计算机硬件中——包括本说明书中公开的结构及其结构等同物或者在它们中的一个或多个的组合中。本说明书中描述的主题的实施例能够被实现为一个或多个计算机程序,即,在有形非暂时性存储介质上编码的一个或多个计算机程序指令模块,其用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质能够是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。替选地或另外地,程序指令能够在例如机器生成的电、光或电磁信号的人工生成的传播信号上编码,其被生成以编码信息用于传输到合适的接收器装置以供数据处理装置执行。
术语“数据处理装置”指代数据处理硬件并且包括用于处理数据的所有类型的装置、设备和机器,其包括例如可编程处理器、计算机或多个处理器或计算机。该装置还能够或者进一步包括例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)的专用逻辑电路。除了硬件之外,该装置还能够包括为计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或它们的一个或多个的组合的代码。
也可以被称为或描述为程序、软件、软件应用程序、应用程序、模块、软件模块、脚本或代码的计算机程序能够用包括编译或解释性语言、或声明性或程序性语言的任何形式的编程语言编写;它能够以包括作为独立程序或作为模块、组件、子程序或适用于计算环境的其他单元的任何形式部署。程序可以但不必需对应于文件系统中的文件。程序能够被存储在保持例如存储在标记语言文档中的一个或多个脚本的其他程序或数据的文件的一部分中,被存储在专用于所讨论的程序的单个文件中,或者被存储在例如存储一个或多个模块、子程序或代码的部分的文件的多个协调文件中。能够部署计算机程序以在一个计算机上或在位于一个站点上或跨多个站点分布并通过数据通信网络互连的多个计算机上执行。
在本说明书中,术语“数据库”被用于宽泛指代任何数据集合:数据不需要以任何特别方式构造或根本不需要结构化,并且它可以被存储在一个或多个位置上的存储设备中。因此,例如,索引数据库能够包括多个数据集合,每个数据集合可以被不同地组织和访问。
类似地,在本说明书中,术语“引擎”被用于宽泛指代被编程以执行一个或多个特定函数的基于软件的系统、子系统或过程。通常,引擎将被实现为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在某些情况下,一个或多个计算机将专用于特别的引擎;在其他情况下,能够在相同计算机或多个计算机上安装和运行多个引擎。
本说明书中描述的过程和逻辑流程能够由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也能够由例如FPGA或ASIC的专用逻辑电路,或专用逻辑电路和一个或多个编程的计算机的组合来执行。
适合于执行计算机程序的计算机能够基于通用微处理器或专用微处理器或两者、或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器能够由专用逻辑电路补充或并入专用逻辑电路中。通常,计算机还将包括或可操作地耦合以从用于存储数据的一个或多个大容量存储设备——例如磁盘、磁光盘或光盘——接收数据或将数据传输到一个或多个大容量存储设备。但是,计算机不需要具有这样的设备。此外,计算机能够嵌入在另一个设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,其包括例如半导体存储器设备——例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;和CD ROM和DVD-ROM磁盘。
为了提供与用户的交互,本说明书中描述的主题的实施例能够在具有用于向用户展示信息的例如CRT(阴极射线管)或LCD(液晶显示器)监视器的显示设备和用户能够通过它们向计算机提供输入的键盘以及例如鼠标或跟踪球的指示设备的计算机上实现。其他类型的设备也能够被用于提供与用户的交互;例如,提供给用户的反馈能够是例如视觉反馈、听觉反馈或触觉反馈的任何形式的感官反馈;并且能够以包括声学、语音或触觉输入的任何形式接收来自用户的输入。另外,计算机能够通过向由用户使用的设备发送文档和从由用户使用的设备接收文档来与用户交互;例如,通过响应于从用户设备上的web浏览器接收的请求将网页发送到web浏览器。此外,计算机能够通过向例如运行消息传送应用并进而从用户接收响应消息的智能电话的个人设备发送文本消息或其他形式的消息来与用户交互。
用于实现机器学习模型的数据处理装置还能够包括:例如,专用硬件加速器单元,其用于处理机器学习训练或生产——即推断——工作负载的公共和计算密集部分。
能够使用例如TensorFlow框架、Microsoft Cognitive Toolkit框架、ApacheSinga框架或Apache MXNet框架的机器学习框架来实现和部署机器学习模型。
本说明书中描述的主题的实施例能够在包括例如作为数据服务器的后端组件、或包括例如应用服务器的中间件组件、或包括例如具有通过其用户能够与本说明书中描述的主题的实现进行交互的图形用户界面、web浏览器或app的客户端计算机的前端组件、或者一个或多个这样的后端组件、中间件组件、或前端组件的组合的计算系统中实现。系统的组件能够通过例如通信网络的任何形式或介质的数字数据通信互连。通信网络的示例包括局域网(LAN)和例如互联网的广域网(WAN)。
计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中,服务器将例如HTML页面的数据发送到用户设备,例如,用于向与作为客户端的设备交互的用户显示数据和从与作为客户端的设备交互的用户接收用户输入。能够在服务器处从用户设备接收在设备处生成的数据,例如用户交互的结果。
虽然本说明书包含许多具体的实施方式细节,但是这些不应被解释为对任何发明或可能要求保护的范围的限制,而是被解释为对特定于特定发明的特定实施例的特征的描述。本说明书在单独实施例的语境中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的语境中描述的各个特征也可以在多个实施例中单独地或以任何合适的子组合来实现。此外,尽管如上特征可以被描述为以某些组合起作用并且甚至最初如此要求保护,但是在一些情况下可以从该组合中删去来自所要求保护的组合的一个或多个特征,并且所要求保护的组合可以针对子组合或子组合的变型。
类似地,虽然以特定顺序在附图中描绘并且在权利要求书中叙述操作,但是这不应该被理解为要求以所示的特定顺序或按依次顺序执行这样的操作,或者执行所有示出的操作,以达到期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这样的分离,并且应当理解,所描述的程序组件和系统通常能够集成在单个软件产品中或封装成多个软件产品。
已经描述了主题的特定实施例。其他实施例在所附权利要求书的范围内。例如,权利要求书中记载的动作能够以不同的顺序执行并且仍然实现期望的结果。作为一个示例,附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。

Claims (24)

1.一种用于代理导航的系统,包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在被执行时使得所述一个或多个计算机实现:
绘图子系统,所述绘图子系统被配置为在多个时间步中的每个时间步处根据该时间步处的环境的图像来生成所述环境的表征,其中,所述表征包括标识所述环境中的、具有特定特性的多个位置的环境地图,并且其中,生成所述表征包括对于每个时间步:
在该时间步处获得所述环境的所述图像,其中,所述图像是由与所述环境交互并且在所述环境中移动的代理捕获的图像,
使用神经网络处理所述图像以生成针对该时间步的所述环境的第一初始表征,
获得针对该时间步之前的先前时间步的所述环境的最终表征,
获得所述代理在该先前时间步和该时间步之间的移动量度,所述移动量度指示所述代理的位置相对于该先前时间步如何变化,
处理针对该先前时间步的所述环境的表征以生成针对该时间步的所述环境的第二初始表征,包括将可微分的扭曲函数应用于针对该先前时间步的所述环境的最终表征和所述移动量度以生成所述第二初始表征;以及
组合所述第一初始表征和所述第二初始表征以生成针对该时间步的所述环境的最终表征。
2.根据权利要求1所述的系统,其中,所述扭曲函数是使用双线性采样执行插值的函数。
3.根据权利要求1至2中的任一项所述的系统,其中:
所述图像是来自所述代理的第一人称自我中心视角,以及
所述第一初始表征、所述第二初始表征、针对该先前时间步的最终表征以及针对该时间步的最终表征是来自俯视视角。
4.根据权利要求1所述的系统,其中,组合所述第一初始表征和所述第二初始表征以生成针对该时间步的最终表征包括:
将更新函数应用于所述第一初始表征和所述第二初始表征以生成所述最终表征。
5.根据权利要求4所述的系统,其中:
每个表征包括:(i)表示所述环境中的多个位置是否具有所述特定特性的分值集合,以及(ii)对于所述分值集合的置信度量度集合,
所述更新函数包括执行以下等式的运算:
Figure FDA0003577542500000021
ct=ct-1+c′t
其中,ft是针对该时间步的所述最终表征的分值集合,ct是对于针对该时间步的所述最终表征的分值集合的置信度量度集合,ft'是所述第一初始表征的分值集合,ct'是对于所述第一初始表征的分值集合的置信度量度集合,ft-1是所述第二初始表征的分值集合,以及ct-1是对于所述第二初始表征的分值集合的置信度量度集合。
6.根据权利要求4所述的系统,其中,所述更新函数是由循环神经网络执行的,并且其中,所述循环神经网络被配置为:对于所述多个时间步中的每个时间步,处理针对该时间步的所述第一初始表征和所述第二初始表征以生成针对该时间步的所述最终表征。
7.根据权利要求1所述的系统,其中,对于所述环境中的所述多个位置中的每个位置,针对时间步的环境地图包括:
表示该位置是否具有所述特定特性的分值,并且对于所述多个位置中的每个位置所述表征还包括:
对于该位置的分值的置信度量度。
8.根据权利要求1所述的系统,还包括:
规划子系统,所述规划子系统被配置为对于所述多个时间步中的每个时间步:
从所述绘图子系统获得针对该时间步的所述最终表征,以及
处理所述最终表征以选择要由在该时间步处与所述环境交互的代理执行的所建议的行动。
9.根据权利要求8所述的系统,其中,所述代理正在执行行动以实现目标,并且其中,处理所述最终表征以选择针对该时间步的所建议的行动包括:
根据针对该时间步的所述最终表征生成空间扩缩的环境地图的序列,其中,所述序列中的每个空间扩缩的环境地图是相对于所述序列中的任何后续空间扩缩的环境地图下采样的;以及
对于所述序列中的每个空间扩缩的环境地图,从最大下采样的空间扩缩的环境地图开始:
处理该空间扩缩的环境地图和与该空间扩缩的环境地图相关联的一个或多个输入以生成该空间扩缩的环境地图的一个或多个价值地图,其中,价值地图对于该空间扩缩的环境地图中的多个区域中的每个区域包括在该区域中的所述代理实现所述目标的价值估计,以及
对于所述序列中的、除了最后的空间扩缩的环境地图之外的每个空间扩缩的环境地图,提供该空间扩缩的环境地图的一个或多个价值地图以作为与所述序列中的后续空间扩缩的环境地图相关联的输入。
10.根据权利要求9所述的系统,其中,与所述序列中的每个空间扩缩的环境地图相关联的输入包括标识所述代理的所述目标的数据。
11.根据权利要求10所述的系统,其中,所述目标是所述代理试图到达的所述环境中的位置。
12.根据权利要求10所述的系统,其中,所述目标是所述代理试图定位的所述环境中的对象。
13.根据权利要求9至12中的任一项所述的系统,其中,对所述最大下采样的空间扩缩的环境地图的输入包括针对该时间步的所述最终表征。
14.根据权利要求9至12中的任一项所述的系统,其中,处理与该空间扩缩的环境地图相关联的输入以生成该空间扩缩的环境地图的一个或多个价值地图包括:
处理与该空间扩缩的环境地图相关联的输入以生成该空间扩缩的环境地图的一个或多个初始价值地图;以及
在该空间扩缩的环境地图的一个或多个初始价值地图上执行一次或多次价值迭代,以生成该空间扩缩的环境地图的一个或多个价值地图。
15.根据权利要求9至12中的任一项所述的系统,其中,处理所述最终表征以选择所建议的行动包括:
基于所述序列中的所述最后的空间扩缩的环境地图的价值地图来选择所建议的行动。
16.根据权利要求15所述的系统,其中,基于所述序列中的所述最后的空间扩缩的环境地图的价值地图来选择所建议的行动包括:
根据所述序列中的所述最后的空间扩缩的环境地图的价值地图,确定具有最高价值估计的所更新的价值地图的特定区域;以及
选择使所述代理去往所述特定区域的行动作为针对该时间步的所建议的行动。
17.根据权利要求15所述的系统,其中,基于所述序列中的所述最后的空间扩缩的环境地图的价值地图来选择所建议的行动包括:
通过包括一个或多个修正的线性单元的神经网络来处理所述价值地图以选择所建议的行动。
18.一种用于训练包括根据权利要求8至17中的任一项所述的绘图子系统和规划子系统的系统的方法,所述方法包括:
获得图像;
使用所述绘图子系统处理所述图像以确定针对所述图像的时间步的对象的环境的最终表征;
使用所述规划子系统处理所述最终表征以选择针对所述图像的所述时间步的所建议的行动;
获得针对所述图像的所述时间步的最优行动;
确定所选择的行动与所述最优行动之间的误差量度的梯度;以及
通过所述绘图子系统和所述规划子系统反向传播所述梯度,以确定对所述绘图子系统和所述规划子系统的参数的更新。
19.根据权利要求18所述的方法,还包括:
使得在所述环境中移动的代理以概率p执行所建议的行动并且以概率1-p执行所述最优行动。
20.根据权利要求19所述的方法,还包括:
在所述代理的操作期间增加p以退火选择所述最优行动的概率。
21.一种用于代理导航的方法,包括由根据权利要求1至17中的任一项所述的子系统中的任何一个执行的操作。
22.一个或多个编码有指令的计算机存储介质,所述指令在由一个或多个计算机执行时,使得所述一个或多个计算机实现根据权利要求1至17中的任一项所述的系统。
23.一种用于代理导航的系统,包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时可操作以使得所述一个或多个计算机执行根据权利要求18至20中的任一项所述的相应方法的操作。
24.一种编码有指令的计算机存储介质,所述指令在由一个或多个计算机执行时,使得所述一个或多个计算机执行根据权利要求18至20中的任一项所述的相应方法的操作。
CN201880010935.4A 2017-02-09 2018-02-09 使用视觉输入进行代理导航 Active CN110268338B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762456945P 2017-02-09 2017-02-09
US62/456,945 2017-02-09
PCT/US2018/017666 WO2018148574A1 (en) 2017-02-09 2018-02-09 Agent navigation using visual inputs

Publications (2)

Publication Number Publication Date
CN110268338A CN110268338A (zh) 2019-09-20
CN110268338B true CN110268338B (zh) 2022-07-19

Family

ID=63107124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880010935.4A Active CN110268338B (zh) 2017-02-09 2018-02-09 使用视觉输入进行代理导航

Country Status (6)

Country Link
US (1) US11010948B2 (zh)
EP (1) EP3563344A4 (zh)
JP (1) JP7021236B2 (zh)
KR (1) KR102241404B1 (zh)
CN (1) CN110268338B (zh)
WO (1) WO2018148574A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706840B2 (en) * 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
WO2020065024A1 (en) * 2018-09-27 2020-04-02 Deepmind Technologies Limited Stacked convolutional long short-term memory for model-free reinforcement learning
US11017499B2 (en) * 2018-12-21 2021-05-25 Here Global B.V. Method, apparatus, and computer program product for generating an overhead view of an environment from a perspective image
CN111044045B (zh) * 2019-12-09 2022-05-27 中国科学院深圳先进技术研究院 基于神经网络的导航方法、装置及终端设备
KR102430442B1 (ko) 2020-08-19 2022-08-09 경기대학교 산학협력단 에이전트 학습 보상 시스템

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1054844A (zh) * 1990-03-02 1991-09-25 株式会社日立制作所 图像处理装置
CN101466305A (zh) * 2006-06-11 2009-06-24 沃尔沃技术公司 用于确定和分析视觉兴趣位置的方法与装置
CN102243537A (zh) * 2010-05-14 2011-11-16 深圳市汇春科技有限公司 运动图像位移检测方法及装置、光电鼠标
CN102592287A (zh) * 2011-12-31 2012-07-18 浙江大学 基于3d视频的时空域运动分割与估计模型的凸优化方法
CN102741858A (zh) * 2009-10-28 2012-10-17 数字标记公司 基于传感器的移动搜索、相关方法和系统
CN102893327A (zh) * 2010-03-19 2013-01-23 数字标记公司 直觉计算方法和系统
CN103886581A (zh) * 2012-11-15 2014-06-25 西门子公司 利用生物力学模型仿真配准术前和术中图像的系统和方法
EP2869239A2 (en) * 2013-11-04 2015-05-06 Facebook, Inc. Systems and methods for facial representation
CN104823444A (zh) * 2012-11-12 2015-08-05 行为识别系统公司 用于视频监控系统的图像稳定技术
CN105164681A (zh) * 2013-03-15 2015-12-16 谷歌公司 用于翻译应用的对话用户接口的自动调用
WO2016108847A1 (en) * 2014-12-30 2016-07-07 Nokia Technologies Oy Methods and apparatus for processing motion information images
CN105957060A (zh) * 2016-04-22 2016-09-21 天津师范大学 一种基于光流分析的tvs事件分簇方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6954544B2 (en) * 2002-05-23 2005-10-11 Xerox Corporation Visual motion analysis method for detecting arbitrary numbers of moving objects in image sequences
CN1166922C (zh) * 2002-07-18 2004-09-15 上海交通大学 多传感器多目标信息融合方法
JP2004110802A (ja) 2002-08-26 2004-04-08 Sony Corp 環境同定装置、環境同定方法、プログラム及び記録媒体、並びにロボット装置
US7889905B2 (en) * 2005-05-23 2011-02-15 The Penn State Research Foundation Fast 3D-2D image registration method with application to continuously guided endoscopy
US7835820B2 (en) * 2005-10-11 2010-11-16 Vanderbilt University System and method for image mapping and visual attention
JP5560794B2 (ja) 2010-03-16 2014-07-30 ソニー株式会社 制御装置、制御方法およびプログラム
EP2609567A4 (en) * 2010-08-25 2014-05-14 Univ Sydney PROCESSING SENSOR DATA
JP2012064131A (ja) * 2010-09-17 2012-03-29 Tokyo Institute Of Technology 地図生成装置、地図生成方法、移動体の移動方法、及びロボット装置
US8553964B2 (en) * 2010-10-20 2013-10-08 Siemens Aktiengesellschaft Unifying reconstruction and motion estimation in first pass cardiac perfusion imaging
US8885941B2 (en) * 2011-09-16 2014-11-11 Adobe Systems Incorporated System and method for estimating spatially varying defocus blur in a digital image
US8700320B1 (en) * 2012-11-13 2014-04-15 Mordechai Teicher Emphasizing featured locations during a journey
US10451428B2 (en) * 2013-03-15 2019-10-22 Volkswagen Aktiengesellschaft Automatic driving route planning application
JP2015031922A (ja) * 2013-08-06 2015-02-16 Kddi株式会社 情報端末装置及びプログラム
US10062010B2 (en) * 2015-06-26 2018-08-28 Intel Corporation System for building a map and subsequent localization
CN108027897B (zh) 2015-07-24 2022-04-12 渊慧科技有限公司 利用深度强化学习的连续控制
US10093021B2 (en) * 2015-12-02 2018-10-09 Qualcomm Incorporated Simultaneous mapping and planning by a robot
US10788836B2 (en) * 2016-02-29 2020-09-29 AI Incorporated Obstacle recognition method for autonomous robots
US9661473B1 (en) * 2016-06-17 2017-05-23 Qualcomm Incorporated Methods and apparatus for determining locations of devices in confined spaces
US10061987B2 (en) * 2016-11-11 2018-08-28 Google Llc Differential scoring: a high-precision scoring method for video matching
US10607134B1 (en) * 2016-12-19 2020-03-31 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using an avatar's circumstances for autonomous avatar operation

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1054844A (zh) * 1990-03-02 1991-09-25 株式会社日立制作所 图像处理装置
CN101466305A (zh) * 2006-06-11 2009-06-24 沃尔沃技术公司 用于确定和分析视觉兴趣位置的方法与装置
CN102741858A (zh) * 2009-10-28 2012-10-17 数字标记公司 基于传感器的移动搜索、相关方法和系统
CN102893327A (zh) * 2010-03-19 2013-01-23 数字标记公司 直觉计算方法和系统
CN102243537A (zh) * 2010-05-14 2011-11-16 深圳市汇春科技有限公司 运动图像位移检测方法及装置、光电鼠标
CN102592287A (zh) * 2011-12-31 2012-07-18 浙江大学 基于3d视频的时空域运动分割与估计模型的凸优化方法
CN104823444A (zh) * 2012-11-12 2015-08-05 行为识别系统公司 用于视频监控系统的图像稳定技术
CN103886581A (zh) * 2012-11-15 2014-06-25 西门子公司 利用生物力学模型仿真配准术前和术中图像的系统和方法
CN105164681A (zh) * 2013-03-15 2015-12-16 谷歌公司 用于翻译应用的对话用户接口的自动调用
EP2869239A2 (en) * 2013-11-04 2015-05-06 Facebook, Inc. Systems and methods for facial representation
WO2016108847A1 (en) * 2014-12-30 2016-07-07 Nokia Technologies Oy Methods and apparatus for processing motion information images
CN105957060A (zh) * 2016-04-22 2016-09-21 天津师范大学 一种基于光流分析的tvs事件分簇方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
An indoor self-localization algorithm using the calibration of the online magnetic fingerprints and indoor landmarks;Qu Wang,等;《2016 International Conference on Indoor Positioning and Indoor Navigation (IPIN)》;20161007;全文 *
Spatio Transformer Networks;JADERBERG M,等;《Advances in Neural Information Processing Systems》;20151231;全文 *
SPATIO-TEMPORAL VIDEO AUTOENCODER WITH DIFFERENTIABLE MEMORY;Viorica P˘atr˘aucean,等;《Workshop track - ICLR 2016》;20160901;全文 *
Target-driven visual navigation in indoor scenes using deep reinforcement learning;Yuke Zhu,等;《Computer Vision and Pattern Recognition》;20160916;全文 *
光流法在运动目标识别领域的理论与应用;杨亚东;《电子设计工程》;20130305(第05期);全文 *
基于Curvelet变换和全变差的图像去噪方法;倪雪等;《光学学报》;20090915(第09期);全文 *
基于光流的运动分析理论及应用;胡以静等;《计算机测量与控制》;20070225(第02期);全文 *
基于相对位置不变性的SIFT高效匹配算法研究;李军民等;《四川大学学报(工程科学版)》;20131120(第06期);全文 *
基于边缘检测与码本模型的运动目标检测算法;雷飞等;《科学技术与工程》;20130828(第24期);全文 *

Also Published As

Publication number Publication date
KR20190104587A (ko) 2019-09-10
JP7021236B2 (ja) 2022-02-16
KR102241404B1 (ko) 2021-04-16
EP3563344A1 (en) 2019-11-06
US20190371025A1 (en) 2019-12-05
JP2020507857A (ja) 2020-03-12
WO2018148574A1 (en) 2018-08-16
CN110268338A (zh) 2019-09-20
US11010948B2 (en) 2021-05-18
EP3563344A4 (en) 2020-07-22

Similar Documents

Publication Publication Date Title
US11790549B2 (en) Unsupervised learning of image depth and ego-motion prediction neural networks
CN110268338B (zh) 使用视觉输入进行代理导航
US11842281B2 (en) Reinforcement learning with auxiliary tasks
CN110088774B (zh) 使用强化学习的环境导航
CN108027897B (zh) 利用深度强化学习的连续控制
CN110730970B (zh) 优化策略控制器的方法和系统
US10860927B2 (en) Stacked convolutional long short-term memory for model-free reinforcement learning
CN110546653B (zh) 使用管理者和工作者神经网络的用于强化学习的动作选择
CN110692066A (zh) 使用多模态输入选择动作
CN112106073A (zh) 使用网格代码执行导航任务
US10860895B2 (en) Imagination-based agent neural networks
WO2022023442A1 (en) Semi-supervised keypoint based models
CN113330458A (zh) 使用潜在计划控制代理
US11341596B2 (en) Robot and method for correcting position of same
US20230124261A1 (en) Generating spatial embeddings by integrating agent motion and optimizing a predictive objective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant