CN112714896A - 自知视觉-文本共接地导航代理 - Google Patents

自知视觉-文本共接地导航代理 Download PDF

Info

Publication number
CN112714896A
CN112714896A CN201980061398.0A CN201980061398A CN112714896A CN 112714896 A CN112714896 A CN 112714896A CN 201980061398 A CN201980061398 A CN 201980061398A CN 112714896 A CN112714896 A CN 112714896A
Authority
CN
China
Prior art keywords
automation system
navigation
processors
ground
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980061398.0A
Other languages
English (en)
Other versions
CN112714896B (zh
Inventor
C-Y·马
C·熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Salesforce Inc
Original Assignee
Salesforce com Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Salesforce com Inc filed Critical Salesforce com Inc
Publication of CN112714896A publication Critical patent/CN112714896A/zh
Application granted granted Critical
Publication of CN112714896B publication Critical patent/CN112714896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0011Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement
    • G05D1/0016Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement characterised by the operator's input device
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0003Home robots, i.e. small robots for domestic use
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/20Control system inputs
    • G05D1/22Command input arrangements
    • G05D1/221Remote-control arrangements
    • G05D1/222Remote-control arrangements operated by humans
    • G05D1/223Command input arrangements on the remote controller, e.g. joysticks or touch screens
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Electromagnetism (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本文公开了一种用于导航移动自动化系统的代理。导航代理接收导航指令和一个或多个观察图像的视觉信息。导航代理被提供或配备有自知能力,自知能力提供或支持以下能力:通过确定指令的对应于所观察到的图像的部分来识别要行走或进行哪个方向(视觉接地),并且识别指令的哪个部分已经完成或正在进行,以及哪个部分可能被需要用于下一个动作选择(文本接地)。在一些实施例中,导航代理应用规则化以确保接地指令可以被正确地用于估计朝向导航目标进行的进度(进度监测)。

Description

自知视觉-文本共接地导航代理
相关申请
本申请要求于2018年9月27日提交的美国临时专利申请第62/737,684号和于2018年10月31日提交的美国非临时专利申请第16/176,955号的优先权,其全部内容通过引用并入本文。
版权通知
本专利文献的公开内容的一部分包含受版权保护的材料。版权所有者不反对任何人对本专利文件或专利公开的传真复制,只要其是出现在专利商标局专利文件或记录中,但在其他情况下保留所有版权。
技术领域
本申请总体涉及自动导航系统,并且更具体地涉及自知视觉文本共接地导航代理(self-aware visual-textual co-grounded navigation agent)。
背景技术
视觉和语言导航(VLN)任务要求机器人或其他移动自动化系统遵循未知环境中的导航指令。在VLN任务中,代理被放置在未知的真实环境中并且被要求遵循自然语言指令以将移动自动化系统从其起始位置导航到目标位置。与其他导航情况相比,VLN任务的技术问题在于,代理没有明确的目标表示(例如地图中的位置或目标的图像表示)来知道目标是否已经到达。相反,代理需要通过观察到的视觉输入序列与指令之间的关联来感知其导航状态。
附图说明
图1是根据一些实施例的计算设备的简化图。
图2是根据一些实施例的导航代理的简化图。
图3是根据一些实施例的导航方法的简化图。
图4示出了根据一些实施例的视觉和语言(VLN)导航任务的示例。
图5示出了将导航代理的性能与其他方法进行比较的示例表。
图6示出了用于消融研究(ablation study)的示例表。
图7示出了执行导航任务的导航代理的示例。
在附图中,具有相同标号的元件具有相同或相似的功能。
具体实施方式
说明方面、实施例、实施方案或应用的说明和附图不应被视为限制——权利要求书界定受保护的发明。在不偏离本说明书和权利要求书的精神和范围的情况下,可以进行各种机械的、组成的、结构的、电气的和操作的改变。在一些情况下,没有详细示出或描述公知的电路、结构或技术,因为这些是本领域技术人员已知的。两个或多个图中的相同数字表示相同或相似的元件。
在本说明书中,阐述了描述根据本申请的一些实施例的具体细节。为了提供对实施例的透彻理解,阐述了许多具体细节。然而,对于本领域技术人员很清楚的是,可以在没有这些具体细节中的一些或全部的情况下实施一些实施例。本文所公开的具体实施例旨在说明而非限制。本领域的技术人员可以认识到,尽管未在此具体描述,但其他元件也在本申请的范围和精神内。此外,为了避免不必要的重复,结合一个实施例显示和描述的一个或多个特征可以结合到其他实施例中,除非另外具体描述或者这一个或多个特征将使实施例不起作用。
计算设备
图1是根据一些实施例的计算设备100的简化图。根据一些实施例,计算设备100可用于实现可向机器人或其他移动自动化系统提供计算机指令以在未知环境中导航的代理。在一些实施例中,计算装置100可并入机器人或自动化系统中。在一些实施例中,计算设备可以与机器人或自动化系统分离,但是例如通过无线信令与机器人或自动化系统通信,以交换数据、信息和控制。
计算设备100可以接收用于指示机器人或自动化系统在其当前环境中导航的指令160。这样的指令的示例可以是:“退出卧室前往桌子。走到沙发椅左侧的楼梯。等待第三步。”这些指令可以是例如由人类用户提供的文本或语音的形式。计算设备100还可以接收视觉信息170,例如以由机器人或移动自动化系统中的相机捕获的图像的形式。计算设备100处理导航指令160和视觉信息170两者,并且生成用于控制机器人或移动自动化系统的下一动作和进度结果180。
根据一些实施例,计算设备100实现或参与视觉语言(VLN)导航任务的实现,VLN导航任务要求代理遵循自然语言指令以在没有地图的情况下导航通过真实照片环境。在VLN任务中,代理被放置在未知的真实环境中,并需要遵循自然语言指令从其起始位置导航到目标位置。与现有导航任务不同,代理没有明确的目标表示(例如地图中的位置或目标的图像表示),以知道目标是否已经到达。
如图1所示,计算设备100包括联接到存储器120的处理器110。计算设备100的操作由处理器110控制。并且,尽管计算设备100被示出为仅具有一个处理器110,但是应当理解,处理器110可以表示计算设备100中的一个或多个中央处理单元、多核处理器、微处理器、微控制器、数字信号处理器,现场可编程门阵列(FPGA)、专用集成电路(ASIC)、图形处理单元(GPU)、张量处理单元(TPU)和/或类似物。计算设备100可以实现为独立子系统、添加到计算设备的板和/或虚拟机。
存储器120可用于存储由计算设备100执行的软件和/或在计算设备100的操作期间使用的一个或多个数据结构。存储器120可以包括一种或多种类型的机器可读介质。机器可读介质的一些常见形式可包含软盘、软磁盘、硬盘、磁带、任何其他磁性介质、CD-ROM、任何其他光学介质、打孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他存储器芯片或盒式磁盘,和/或处理器或计算机适于从其读取的任何其他介质。
处理器110和/或存储器120可以以任何合适的物理布置来布置。在一些实施例中,处理器110和/或存储器120可以在相同的板上、在相同的封装(例如系统级封装)中、在相同的芯片(例如片上系统)和/或类似物上实现。在一些实施例中,处理器110和/或存储器120可以包括分布式、虚拟化和/或容器化的计算资源。根据这些实施例,处理器110和/或存储器120可以位于一个或多个数据中心和/或云计算设施中。
再次参考示例,图3示出了针对指令“退出卧室前往桌子。走到沙发椅左侧的楼梯。等待第三步。”的视觉和语言(VLN)导航任务。在给出指令的情况下,在一些实施例中,本申请的导航代理首先需要定位下一移动需要哪个指令,这又要求代理知道(例如直接表示或将注意聚焦在)哪些指令已完成或正在进行。例如一旦代理已经离开房间并且移向桌子,应当执行动作“走到楼梯”。然而,对于动作“前往桌子”存在固有的模糊性。即,虽然预期代理在完成“前往桌子”的动作之后控制或指导机器人或移动自动化系统执行“走到楼梯”的动作,但是不清楚什么定义了“前往桌子”的完成。因此,代理必须知道指令的过去和下一部分以平稳地跟随它们。的确,评估朝向目标所取得的进度对于人类决策中针对目标的任务是重要的。虽然已经提出了许多用于VLN的方法,但是用于VLN的先前方法通常不知道接下来是哪个指令,也不知道朝向目标的进度。
为了解决这个问题,根据一些实施例,由计算设备100实现的导航代理被提供或配备有自知能力,所述自知能力提供或支持以下能力:(1)通过确定指令的对应于所观察到的图像的部分来识别将要行走或进行的方向——视觉接地,(2)识别指令的哪个部分已经完成或正在进行以及哪个部分可能是下一动作选择所需要的——文本接地,以及(3)确保接地指令可以被正确地用于估计朝向目标所做出的进度,并应用正则化方法(regularization)保证这一情况——进度监测。
在一些实施例中,通过将(例如基于或源自导航指令160的)接地指令的完整历史、观察到的图像(例如视觉信息170)和选定动作并入到导航代理中来同时实现视觉和文本接地两者。导航代理利用用于动作选择的指令中的词语和朝向目标进行的进度之间的结构偏差。提出或提供代理的新目标函数,以测量代理能够多好地估计指令跟随的完成。通过调整作为输入的接地指令的位置和权重,导航代理可以自知其进度并且进一步确保文本接地准确地反映所做出的进度。
为了实现这一点,在一些实施例中,如图1所示,存储器120包括文本接地模块130、视觉接地模块140、进度监测模块150和动作选择模块155。在一些实施例中,文本接地模块130、视觉接地模块140、进度监测模块150和动作选择模块155中的任何一个、最多全部可以包括具有适当的预处理、编码、解码和输出层的单层或多层神经网络,或者利用具有适当的预处理、编码、解码和输出层的单层或多层神经网络来实现。神经网络作为一种具有人类相似准确度的自动分析真实世界信息的技术具有良好的应用前景。通常,神经网络模型接收输入信息并基于输入信息进行预测。例如神经网络分类器可以在预定的类别集合中预测输入信息的类别。而分析真实世界信息的其他方法可涉及硬编码过程、统计分析和/或类似物,神经网络通过试验和试错的过程使用机器学习过程来学习以逐步进行预测。可以使用大量训练示例来训练给定的神经网络模型,迭代地进行直到神经网络模型开始与训练示例一致地做出人类可能做出的类似推断。
在一些实施例中,通过使用一个或多个递归神经网络(RNN)使用具有注意的序列到序列架构来对用文本接地模块130、视觉接地模块140、进度监测模块150和动作选择模块155实现的代理进行建模。在一些实施例中,RNN可以使用或利用长短期存储器(LSTM)来实现,以有效地携带信息流。
尽管文本接地模块130、视觉接地模块140、进度监测器模块150和动作选择模块155被示出为软件模块,但是它们可以使用硬件、软件和/或硬件和软件的组合来实现。
虽然图1是高级图,但是图2示出了根据一些实施例的共接地导航代理的更多细节。图3示出了根据一些实施例的用于共接地导航代理的相应方法300。尽管图3建议了对过程310-360的排序,但是应当理解,这些过程可以以其他顺序执行。例如在一些实施例中,可以以任何顺序和/或并发地执行过程330和340。
导航代理
图2是根据一些实施例的导航代理200的简化图。在一些实施例中,导航代理200可实现关于图1所描述的计算设备100的导航代理。
如图所示,导航代理200包括文本接地模块230、视觉接地模块240、进度监测模块250和动作选择模块255,在一些实施例中,它们可以是图1的文本接地模块130、视觉接地模块140、进度监测模块150和动作选择模块155的实现。
在一些实施例中,导航代理200可以包括一个或多个神经网络,其可以实现文本接地模块230、视觉接地模块240、进度监测模块250和动作选择模块255中的一个或多个,或者附加于这些模块,或者与这些模块分开。一个或多个神经网络实现或操作为编码器和解码器,以处理由导航代理200接收并在导航代理200内生成的各种信息和其他项目。这包括但不限于导航指令、观察到的图像(例如视觉信息)和用于由机器人或移动自动化系统采取的动作的信息。
在一些实施例中,导航代理200根据指令对用于VLN任务的视觉和文本信号或信息执行共接地——来自指令的视觉接地帮助代理200确定正确的方向,而文本接地隐式地使导航代理200能够知道指令的哪个部分完成了以及哪个部分需要进行。共同接地为要自知的导航代理200提供了有用信息,持续地监测其朝向期望目标的进度——例如诸如机器人或移动自动化系统的导航指令集合的完成。
在一些实施例中,导航代理200通过使用递归神经网络(RNN)以具有注意的序列到序列架构来建模。在一些实施例中,如图2所示,这种RNN用一个或多个编码元件来实现,所述编码元件分开地或一起实现长短期存储器(LSTM)260以有效地携带信息流。LSTM 260尤其从文本接地模块230和视觉接地模块240接收操作或处理(例如解码)信息或元素。在一些实施例中,导航代理200启用全景视图(例如,如在Fried等人的“Speaker-follower modelsfor vision-and-language navigation”,发表于Advances in Neural InformationProcessing Systems(NIPS),2018中所详细描述的,该文件通过引用并入本文)。
关于表示法,给定具有L个词语的自然语言指令(例如160),其表示由X={x1,x2,...,xL}表示,其中x1是由LSTM语言编码器编码的第l个词语的特征向量。在每个时间步t,导航代理200在每个视点vt={vt,1,vt,2,...,vt,K}感知成组的图像,其中K是可导航方向的最大数目,并且Vt,k表示方向k的图像特征。指令和图像的共同接地特征分别表示为
Figure BDA0002983118840000071
Figure BDA0002983118840000072
所选择的动作表示为at。可学习的权重用W表示,必要时具有适当的子/超级脚本。在一些实施例中,可以省略偏置项b以避免展示中的符号混乱。
在每个时间步t,LSTM 260(解码器)观察当前所注视的全景图像或视觉接地特征
Figure BDA0002983118840000073
先前选择的动作at-1和当前接地指令特征
Figure BDA0002983118840000074
的表示作为输入,并输出编码器语境或隐藏状态ht
Figure BDA0002983118840000075
其中[,]表示级联。前一编码器语境ht-1用于获得文本接地特征
Figure BDA0002983118840000076
和视觉接地特征
Figure BDA0002983118840000077
而当前编码器语境ht可用于获得下一动作at,如本文所述。
导航代理200接收导航指令作为输入(图3的过程310),例如通过“退出卧室前往桌子。走到沙发椅左侧的楼梯。等待第三步。”具体地,文本接地模块230接收导航指令并对其进行操作。当代理200从一个视点移动到另一个视点时,需要通过依赖接地指令来识别去哪个方向,即,应当使用指令的哪个部分。这可以是与过去匹配的指令(进行的动作at-1)或针对未来预测的指令(下一动作at)。在一些实施例中,文本接地模块230对指令160执行自然语言处理(NLP)。NLP是可以应用神经网络的一类问题。NLP可用于向新的神经网络注入对各个词语和短语的理解。
基于所接收的导航指令,文本接地模块230生成指令接地(图3的过程330)。文本接地模块230识别指令的哪个部分已经完成或正在进行以及哪个部分未完成,并因此识别下一动作可能需要的部分。为了捕获指令内的词语之间的相对位置,在一些实施例中,文本接地模块230将位置编码PE(.)(如例如在Vaswani等人的,“Attention is all you need”,发表于Advances in Neural Information Processing Systems(NIPS),pp.5998-6008,2017中更详细地描述的,该文献通过引用并入本文)执行或并入到指令特征中。如图2左侧所示,文本接地模块230然后对指令特征X执行软注意(soft-attention)(例如柔性最大值传输函数(softmax))。在指令的L个词语上的注意分布被计算为:
Figure BDA0002983118840000081
其中Wx是要学习的参数,
Figure BDA0002983118840000082
是作为指令的词语l和先前隐藏状态ht-1之间的相关性计算的标量值,并且at是在时间t处指令X中的特征上的注意权重。基于文本接地注意分布,接地文本特征
Figure BDA0002983118840000083
可以通过对文本特征
Figure BDA0002983118840000084
的加权和来获得。
在一些实施例中,用于编码导航指令的嵌入维度是256。导航代理可以在嵌入层之后使用比率为0.5的漏失层(dropout layer)。指令可以使用常规LSTM编码,隐藏状态为512维。用于投影原始图像特征的MLP g是BN→FC→BN→漏失→ReLU。FC层将2176-d输入向量投影为1024-d向量,漏失率设置为0.5。在方程1(Eq.1)中用于通过时间携带文本和视觉信息的LSTM的隐藏状态是512。将指令的最大长度设置为80,从而使文本接地at的注意权重的维度也为80。来自方程2-5的可学习矩阵的维度为:Wx∈R512×512,Wv∈R512×1024,Wa∈R1024×1024,Wh∈R1536×512,和Wh∈R592×1
为了定位完成的或正在进行的指令,导航代理200应当保持跟踪沿着导航轨迹观察到的图像序列。为此,导航代理200接收视觉信息(图3的过程320)。视觉接地模块240对视觉信息vt进行操作,视觉信息vt可以是例如来自机器人或自动化系统上提供的相机的一个或多个图像的形式。视觉接地模块240产生视觉接地(图3的过程340)。为了做出关于去哪个方向的决定,导航代理200使用视觉接地模块240来找到与接地导航指令具有最高相关性的可导航方向上的图像特征。
在一些实施例中,视觉接地模块240可使用ImageNet上的经预训练的ResNet-152来提取图像特征。因此,每个图像特征是2048-d向量。每个可导航方向的嵌入特征向量由外观特征与4-d定向特征[sinφ;cosφ;sinθ;cosθ]级联得到,其中φ和θ是航向角和倾斜角。将4-dim定向特征平铺(tiled)32次(如在Fried等人2018年的文章中更详细描述的),得到具有2176维的嵌入特征向量。
在一些实施例中,视觉接地模块240基于其先前的隐藏向量ht-1在周围视图上执行视觉注意。视觉注意权重βt可以如下获得:
Figure BDA0002983118840000091
Figure BDA0002983118840000092
其中g是两层多层感知器(MLP),Wv是要学习的参数。类似于方程2,通过对视觉特征
Figure BDA0002983118840000093
的加权求和,可以获得接地视觉特征
Figure BDA0002983118840000094
导航代理200生成用于导航的动作(图3的过程350)。特别地,动作选择模块255为机器人或自动化系统识别、确定、生成或选择动作at,以供采取(例如要走的方向)。为了对动作做出决定,在一些实施例中,动作选择模块255识别或找到与接地的导航指令
Figure BDA0002983118840000095
和当前隐藏状态ht具有最高相关性的可导航方向上的图像特征。在一些实施例中,动作选择模块255使用内积来计算相关性,然后将每个可导航方向的概率计算为:
Figure BDA0002983118840000096
和pt=softmax(ot),(4)
其中Wa是所学习的参数,g(.)与方程3中相同的多层感知器(MLP)相同,并且pt是每个可导航方向在时间t处的概率。动作选择模块255在训练期间使用分类采样来选择下一动作at
不同于仅基于所观察图像的历史来注意指令的全景视图的其他方法,导航代理200使用共享隐藏状态输出来实现文本和视觉接地两者,所述共享隐藏状态输出包含文本和视觉模态两者,从所述文本和视觉模态两者导出信息或基于所述文本和视觉模态两者的接地信息。在一些实施例中,在动作选择期间,动作选择模块255依赖于隐藏状态输出和接地指令两者,而不是仅依赖于接地指令。
根据一些实施例,LSTM 260和动作选择模块255中的一者或两者与文本接地模块230和视觉接地模块240一起支持、允许或提供视觉-文本共接地,以识别或确定过去完成的导航指令、下一动作中所需的导航指令以及来自周围图像的移动方向。同样地,这些元件的这种组合可以形成视觉-文本共接地模块。
在一些实施例中,文本接地应正确或准确地反映朝向目标的进度(例如机器人或移动自动化系统正在进行的进度),因为导航代理200然后可以隐式地知道它现在的位置以及要完成的下一个指令是什么。通过视觉-文本共接地,导航代理200可确保接地指令在选择可导航方向时合理地告知决策。这可能是必要的,但不足以确保对目标进度的概念进行编码。
因此,根据一些实施例,导航代理200可以监测机器人或移动自动化系统朝向其目标的进度(图3的过程360)。为此,导航代理200可包括或并入进度监测模块250。进度监测模块250可以在训练期间用作规则化器(regularizer)并且在推断期间智能地清理未完成的轨迹。
由于局部化指令的位置可以是由于导航步骤和指令之间的结构对准偏差引起的导航进度的强指示,所以进度监测模块250可以通过调节接地指令的位置和权重来估计当前视点距离最终目标有多近。这可以进一步迫使文本接地的结果与朝着目标所做的进度一致并且确保文本接地的正确性。
在一些实施例中,进度监测模块250旨在通过调节三个输入来估计导航进度:接地图像和指令的历史、周围图像的当前观察以及地面指令的位置。因此,如图2的底部所示,我们通过使用(1)LSTM 260的先前隐藏状态ht-1和当前单元状态ct,(2)接地周围图像
Figure BDA0002983118840000111
以及(3)文本接地at的注意权重的分布来表示这些输入。为此,进度监测模块250从文本接地模块230和视觉接地模块240中的每一个接收输入。
在一些实施例中,进度监测模块250首先使用接地图像表示
Figure BDA0002983118840000112
作为输入来计算附加隐藏状态输出
Figure BDA0002983118840000113
这类似于常规LSTM如何计算隐藏状态,除了其出于经验原因使用基于元素相加的级联(concatenation over element-wise addition)。然后在文本接地时将隐藏状态输出与注意权重at级联以估计导航代理200离目标有多近。表示指令遵循的完整性的进度监测器
Figure BDA0002983118840000114
的输出被计算为:
Figure BDA0002983118840000115
其中Wh和Wpm是所学习的参数,ct是LSTM 260的单元状态,
Figure BDA0002983118840000116
是元素式乘法,σ是sigmoid函数。
图4示出了本申请的导航代理200的示例,导航代理200操作以指示机器人或移动自动化系统执行导航指令——例如“上楼梯。在楼梯的顶部右转。直接走到卧室。左转走到床灯。左转入柜橱。在……停止”。自知代理200成功地在未可见的环境中导航。代理200从起始位置开始并遵循朝向目标的指令。随着代理200导航并接近期望目标,由所提出的进度监测器估计的指令完整性的百分比逐渐增加。
训练
根据一些实施例,使用新的目标函数来训练进度监测模块250。训练目标
Figure BDA0002983118840000117
被定义为从当前视点到目标的归一化距离,即当导航代理200接近目标时,目标将在开始时为0并且接近于1。请注意,如果导航代理与目标的当前距离比起始点远,则目标也可以低于0。最后,以两个交叉熵损失优化自知代理200,相对于来自动作选择和进度监测的输出计算两个交叉熵损失。
Figure BDA0002983118840000121
其中pk,t是每个可导航方向的动作概率,λ=0:5是平衡两个损失的权重,并且
Figure BDA0002983118840000122
是步骤t处的地实可导航方向(ground-truth navigable direction)。
在一些实施方式中,使用ADAM可以作为训练期间的优化器。在所有实验中,均是学习速率为1e-4,批量大小(batch size)为64。当使用波束搜索时,将波束大小设置为15。可以在用于动作选择的训练期间执行分类采样。
推断
在一些实施例中,在推断期间,导航代理200可以使用或采用波束搜索(如Fried等人在2018年的文章中更详细地描述)。具体地,当导航代理200决定保持射束中的哪些轨迹时,同样重要的是根据动作以及关于代理在每个所遍历视点处完成给定指令的置信度评估关于射束状态。这通过将进度监测模块250的输出集成到波束搜索的累积概率中来实现。在每个步骤,当候选轨迹基于累积概率竞争时,将指令跟随的估计的完整性
Figure BDA0002983118840000123
与动作概率pk,t结合以直接评估部分和未完成的候选路线:
Figure BDA0002983118840000124
实验和评价
在一些实施例中,可以使用房间到房间(R2R)数据集来评估导航代理200,如在Anderson等人的“Vision-and-language navigation:Interpreting visually-groundednavigation instructions in real environments”,发表于Proceedings of the IEEEConference on Computer Vision and Pattern Recognition(CVPR),第2卷,2018中进一步详细描述的,该文献通过引用结合于此。R2R数据集具有7189条路径,每条路径具有由人类编写的三个地实导航指令。将整个数据集分为4组:训练、可见验证、未可见验证和未可见测试集。
对于评估,遵循与先前关于R2R任务的工作所使用的度量相同的度量:(1)导航误差(NE),单位为米的导航代理的最终位置与目标位置之间的最短路径距离的平均值;(2)成功率(SR),远离目标位置小于3m的最终位置的百分比;以及(3)预言成功率(OSR),如果导航代理能够沿其轨迹在离目标最近的点处停止,则为成功率。
将本申请的自知导航代理200与各种现有方法进行比较,现有方法例如迫使学生(Anderson等人2018年的文章)、RPA(Wang等人的“Look before you leap:Bridgingmodel-free and model-based reinforcement learning for planned-ahead vision-and-language navigation”,发表于European Conference on Computer Vision(ECCV),2018)以及发言人追随者(Fried等人2018年的文章)。如图5的表所示,与没有数据扩充的现有技术相比,本申请的导航代理200(及其对应的方法)实现了显著的性能改进。代理200在可见环境下达到70%的SR,在未可见环境下达到57%的SR,而现有的最佳执行方法分别达到63%和50%的SR。当用合成数据2训练时,本申请的代理和方法在可见环境下实现略好的性能,并且在验证未可见环境和测试未可见环境两者上在提交到测试服务器时实现显著更好的性能。本申请的代理和方法在验证和测试未可见环境两者上实现SR的3%和8%改进。具有或不具有数据扩充的两个结果表明本申请的代理和方法对于未可见的环境是更普遍(generalizable)的。
文本接地的代理。直观地,当指令在环境中导航时,要求指令跟随代理强烈地展示正确地聚焦和跟随指令的相应部分的能力。因此,在一些实施例中,在每个步骤处将指令上的注意权重的分布记录为指令的哪些部分正被用于动作选择的指示。所有运行在可见验证和未可见数据集拆分中进行平均。预期注意权重的分布接近对角线,其中在开始时,代理200集中在指令的开始,并且当它更接近目标时将其注意移向指令的结束。
为了展示,使用具有全景动作空间的方法(在Fried等人2018的文章中提出)作为用于比较的基线。具有进度监测器的自知导航代理200展示接地指令的位置随时间形成类似于对角线的线。结果还可以指示代理成功地利用指令的注意来顺序地完成任务。本申请的基线方法和导航代理200都能够一致地集中在导航开始时的指令的第一部分。然而,当代理在未知环境中进一步移动时,自知代理200仍可成功地识别指令的对动作选择潜在有用的部分,而基线方法变得不确定应使用指令的哪个部分来选择动作。
消融研究
图6示出了用于消融研究的示例表。具体来说,此表展示导航代理200的每一部件(共接地、进度监测和数据扩充)与现有方法相比的效果。所有方法都使用全景动作空间。将来自全景动作空间的模型(在Fried等人2018年的文章)实现为基线。
共接地。当将在导航代理200中具有行#1的基线方法与本申请的方法进行比较时,可以看出,共接地代理200的性能比基线的性能要强出很大余裕。这是因为导航代理200使用LSTM来携带文本接地的和视觉接地的内容,并且利用LSTM的隐藏状态输出和文本接地的指令来预测关于每个可导航方向的判定。另一方面,基线代理依靠LSTM携带视觉接地内容,使用隐藏状态输出预测文本接地指令。结果,观察到,代替预测选择可导航方向所需的指令,文本接地的指令可与隐含保存在LSTM内的观察到的图像的过去序列匹配。
进度监测。将进度监测器的输出与状态因式分解的波束搜索集成(Fried等人2018年的文章),致使候选路径不仅基于选择某个可导航方向的概率而竞争,而且基于估计的过去轨迹与指令之间的对应关系而竞争。如通过比较图6的表中的行#1和#2所看到的,进度监测器显著提高了在可见和未可见环境上的成功率,并且是超越现有技术状态的关键,即使没有数据扩充。
数据扩充。在上文中,示出了本申请的方法中的每行对性能有贡献。它们中的每一个递增地增加成功率并减少导航误差。通过进一步将它们与从发言人预先训练的数据扩充相结合(Fried等人2018年的文章),SR和OSR进一步增加,并且NE也急剧减少。有趣的是,数据扩充所带来的性能改进比验证集合上的发言人追随者所带来的性能改进要小(比较请参见图5的表)。这表明本申请的导航代理和方法是更数据有效的。
定性结果
为了进一步验证本申请的代理和方法,定性地示出了代理200如何通过遵循如图7所示的指令导航通过未可见环境。在每个图中,自知代理200遵循接地指令(在图的顶部)并且决定向某个方向移动(箭头)。
考虑图7中左侧的轨迹,在步骤3,接地指令示出代理200刚刚完成“右转”并主要集中在“直接走到卧室”。当代理200进入卧室时,它然后将文本接地转移到下一个动作“左转走到床灯”。最后,在步骤6,代理200完成另一次“左转”并在地毯上成功停止。考虑右侧的例子,代理200已经进入过走廊,现在转向右侧去走过另一个房间。然而,指令引用哪个房间是不明确的。在步骤5,导航代理200首先检查出左边的房间,并发现它与“停在地毯前的门口”不匹配。然后移动到下一个房间并成功地停住目标。
在图7所示的两种情况下,可以看出,随着代理200稳定地向目标导航,由进度监测器估计的完整性逐渐增加。
因此,本文公开了一种用于导航移动自动化系统的自知代理。根据一些实施例,导航代理包括两个互补模块:视觉-文本共接地模块和进度监测模块。视觉-文本共接地模块从周围图像中识别或确定过去完成的导航指令、下一动作所需的导航指令和移动方向。进度监测模块通过明确估计指令跟随的完整性,规则化并保证接地指令正确或准确地反映朝向目标的进度。以接地指令的权重和位置调节估计。实验表明,方法在可见和未可见环境中的标准房间到房间数据集上设置了新的最新性能(new state-of-the-art performance)。
说明发明方面、实施例、实施方案或应用的描述和附图不应被视为限制。在不偏离本说明书和权利要求书的精神和范围的情况下,可以进行各种机械的、组成的、结构的、电气的和操作的改变。在一些情况下,没有详细示出或描述公知的电路、结构或技术以免模糊本申请的实施例。两个或多个图中的相同数字表示相同或相似的元件。
在本说明书中,阐述了描述根据本申请的一些实施例的具体细节。为了提供对实施例的透彻理解,阐述了许多具体细节。然而,对于本领域技术人员清楚明白的是,可以在没有这些具体细节中的一些或全部的情况下实施一些实施例。本文所公开的具体实施例旨在说明而非限制。本领域的技术人员可以认识到,尽管未在此具体描述,但在其他元件也在本申请的范围和精神内。此外,为了避免不必要的重复,结合一个实施例显示和描述的一个或多个特征可以结合到其他实施例中,除非另外具体描述或者该一个或多个特征将使实施例不起作用。
尽管已经示出并描述了示例性实施例,但是在前述公开中以及在一些情况下,可以考虑宽范围的修改、改变和替换,可以采用实施例的一些特征而不对应地使用其他特征。本领域的普通技术人员将认识到许多变化、替换和修改。因此,本发明的范围应当仅由所附权利要求来限定,并且适当的是,以与在此公开的实施例的范围一致的方式宽泛地解释权利要求。

Claims (18)

1.一种计算设备,包括:
存储器,所述存储器包含存储机器可执行代码的机器可读介质;和
一个或多个处理器,所述一个或多个处理器联接到所述存储器并能够配置为执行所述机器可执行代码以致使所述一个或多个处理器:
接收用于指示移动自动化系统导航所述移动自动化系统所处的环境的导航指令;
接收所述环境的视觉信息,所述视觉信息包括在所述移动自动化系统被导航通过所述环境时所观察到的所述环境的一个或多个图像;
至少部分地基于所述导航指令生成指令接地,所述指令接地识别所述导航指令的哪个部分已经由所述移动自动化系统完成以及所述导航指令的哪个部分未完成;
至少部分地基于所述视觉信息生成视觉接地,所述视觉接地识别所述移动自动化系统应当进行的方向;和
使用所述指令接地和所述视觉接地,为所述移动自动化系统生成待执行的动作以用于导航所述环境。
2.如权利要求1所述的计算设备,其中,所述机器可执行代码进一步致使所述一个或多个处理器监测所述自动化系统的导航的进度,以确保所述指令接地准确地反映所述导航进度。
3.如权利要求1或2的计算设备,其中,所述机器可执行代码致使所述一个或多个处理器:
基于所述指令接地和所述视觉接地生成编码器语境;和
使用所述编码器语境来生成用于所述移动自动化系统的动作。
4.如权利要求1-3中任一项所述的计算设备,其中,所述机器可执行代码致使所述一个或多个处理器对所述导航指令执行自然语言处理任务。
5.如权利要求1-4中任一项所述的计算设备,其中,所述机器可执行代码致使所述一个或多个处理器识别与所述指令接地具有最高相关性的可导航方向。
6.如权利要求1-5中任一项所述的计算设备,其中,所述机器可执行代码致使所述一个或多个处理器:
识别所述移动自动化系统能够导航的多个方向;和
对于每个所识别的可导航方向,生成相应的概率。
7.一种用于导航移动自动化系统的方法,所述方法包括:
在一个或多个处理器处接收用于指示所述移动自动化系统导航所述移动自动化系统所处的环境的导航指令;
在所述一个或多个处理器处接收所述环境的视觉信息,所述视觉信息包括在所述移动自动化系统被导航通过所述环境时所观察到的所述环境的一个或多个图像;
在所述一个或多个处理器处至少部分地基于所述导航指令生成指令接地,所述指令接地识别所述导航指令的哪个部分已经由所述移动自动化系统完成以及所述导航指令的哪个部分未完成;
在所述一个或多个处理器处至少部分地基于所述视觉信息生成视觉接地,所述视觉接地识别所述移动自动化系统应当进行的方向;和
使用所述指令接地和所述视觉接地,在所述一个或多个处理器处为所述移动自动化系统生成待执行的动作以用于导航所述环境。
8.如权利要求7所述的方法,包括监测所述自动化系统的导航的进度,以确保所述指令接地准确地反映所述导航进度。
9.如权利要求7或8所述的方法,其中,生成动作包括:
基于所述指令接地和所述视觉接地生成编码器语境;和
使用所述编码器语境来生成用于所述移动自动化系统的动作。
10.如权利要求7-9中任一项所述的方法,包括对所述导航指令执行自然语言处理任务。
11.如权利要求7-10中任一项所述的方法,其中,生成动作包括识别与所述指令接地具有最高相关性的可导航方向。
12.如权利要求7-11中任一项所述的方法,其中生成动作包括:
识别所述移动自动化系统能够导航的多个方向;和
对于每个所识别的可导航方向,生成相应的概率。
13.一种包括可执行代码的非瞬态机器可读介质,所述可执行代码在由与计算设备相关联的一个或多个处理器执行时被适配成致使所述一个或多个处理器执行一种方法,所述方法包括:
在所述一个或多个处理器处接收用于指示所述移动自动化系统导航所述移动自动化系统所处的环境的导航指令;
在所述一个或多个处理器处接收所述环境的视觉信息,所述视觉信息包括在所述移动自动化系统被导航通过所述环境时所观察到的所述环境的一个或多个图像;
在所述一个或多个处理器处至少部分地基于所述导航指令生成指令接地,所述指令接地识别所述导航指令的哪个部分已经由所述移动自动化系统完成以及所述导航指令的哪个部分未完成;
在所述一个或多个处理器处至少部分地基于所述视觉信息生成视觉接地,所述视觉接地识别所述移动自动化系统应当进行的方向;和
使用所述指令接地和所述视觉接地,在所述一个或多个处理器处为所述移动自动化系统生成待执行的动作以用于导航所述环境。
14.如权利要求13所述的非瞬态机器可读介质,其中,所述可执行代码进一步致使所述一个或多个处理器监测所述自动化系统的导航的进度,以确保所述指令接地准确地反映所述导航进度。
15.如权利要求13或14所述的非瞬态机器可读介质,其中,所述可执行代码致使所述一个或多个处理器:
基于所述指令接地和所述视觉接地生成编码器语境;和
使用所述编码器语境来生成用于所述移动自动化系统的动作。
16.如权利要求13-15中任一项所述的非瞬态机器可读介质,其中,所述可执行代码致使所述一个或多个处理器对所述导航指令执行自然语言处理任务。
17.如权利要求13-16中任一项所述的非瞬态机器可读介质,其中,所述可执行代码致使所述一个或多个处理器识别与所述指令接地具有最高相关性的可导航方向。
18.如权利要求13-17中任一项所述的非瞬态机器可读介质,其中,所述可执行代码致使所述一个或多个处理器:
识别所述移动自动化系统能够导航的多个方向;和
对于每个所识别的可导航方向,生成相应的概率。
CN201980061398.0A 2018-09-27 2019-09-26 自知视觉-文本共接地导航代理 Active CN112714896B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862737684P 2018-09-27 2018-09-27
US62/737,684 2018-09-27
US16/176,955 US11029694B2 (en) 2018-09-27 2018-10-31 Self-aware visual-textual co-grounded navigation agent
US16/176,955 2018-10-31
PCT/US2019/053200 WO2020069160A1 (en) 2018-09-27 2019-09-26 Self-aware visual-textual co-grounded navigation agent

Publications (2)

Publication Number Publication Date
CN112714896A true CN112714896A (zh) 2021-04-27
CN112714896B CN112714896B (zh) 2024-03-08

Family

ID=69947468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980061398.0A Active CN112714896B (zh) 2018-09-27 2019-09-26 自知视觉-文本共接地导航代理

Country Status (5)

Country Link
US (2) US11029694B2 (zh)
EP (2) EP4180892A1 (zh)
JP (1) JP7331084B2 (zh)
CN (1) CN112714896B (zh)
WO (1) WO2020069160A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113984052A (zh) * 2021-06-16 2022-01-28 北京小米移动软件有限公司 室内导航方法、室内导航装置、设备及存储介质

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817650B2 (en) 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
US11822897B2 (en) 2018-12-11 2023-11-21 Salesforce.Com, Inc. Systems and methods for structured text translation with tag alignment
US10963652B2 (en) 2018-12-11 2021-03-30 Salesforce.Com, Inc. Structured text translation
US11003867B2 (en) 2019-03-04 2021-05-11 Salesforce.Com, Inc. Cross-lingual regularization for multilingual generalization
US11809977B2 (en) * 2019-11-14 2023-11-07 NEC Laboratories Europe GmbH Weakly supervised reinforcement learning
US11922303B2 (en) 2019-11-18 2024-03-05 Salesforce, Inc. Systems and methods for distilled BERT-based training model for text classification
US11481636B2 (en) 2019-11-18 2022-10-25 Salesforce.Com, Inc. Systems and methods for out-of-distribution classification
US11573957B2 (en) 2019-12-09 2023-02-07 Salesforce.Com, Inc. Natural language processing engine for translating questions into executable database queries
US11487999B2 (en) 2019-12-09 2022-11-01 Salesforce.Com, Inc. Spatial-temporal reasoning through pretrained language models for video-grounded dialogues
US11416688B2 (en) 2019-12-09 2022-08-16 Salesforce.Com, Inc. Learning dialogue state tracking with limited labeled data
US11256754B2 (en) 2019-12-09 2022-02-22 Salesforce.Com, Inc. Systems and methods for generating natural language processing training samples with inflectional perturbations
US11640505B2 (en) 2019-12-09 2023-05-02 Salesforce.Com, Inc. Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading
US11669745B2 (en) 2020-01-13 2023-06-06 Salesforce.Com, Inc. Proposal learning for semi-supervised object detection
US11562147B2 (en) 2020-01-23 2023-01-24 Salesforce.Com, Inc. Unified vision and dialogue transformer with BERT
US20210249105A1 (en) 2020-02-06 2021-08-12 Salesforce.Com, Inc. Systems and methods for language modeling of protein engineering
US11263476B2 (en) 2020-03-19 2022-03-01 Salesforce.Com, Inc. Unsupervised representation learning with contrastive prototypes
US11328731B2 (en) 2020-04-08 2022-05-10 Salesforce.Com, Inc. Phone-based sub-word units for end-to-end speech recognition
EP3916507B1 (en) * 2020-05-29 2023-05-24 Tata Consultancy Services Limited Methods and systems for enabling human robot interaction by sharing cognition
US11625543B2 (en) 2020-05-31 2023-04-11 Salesforce.Com, Inc. Systems and methods for composed variational natural language generation
US11720559B2 (en) 2020-06-02 2023-08-08 Salesforce.Com, Inc. Bridging textual and tabular data for cross domain text-to-query language semantic parsing with a pre-trained transformer language encoder and anchor text
US11625436B2 (en) 2020-08-14 2023-04-11 Salesforce.Com, Inc. Systems and methods for query autocompletion
KR102430442B1 (ko) * 2020-08-19 2022-08-09 경기대학교 산학협력단 에이전트 학습 보상 시스템
US11934952B2 (en) 2020-08-21 2024-03-19 Salesforce, Inc. Systems and methods for natural language processing using joint energy-based models
US11934781B2 (en) 2020-08-28 2024-03-19 Salesforce, Inc. Systems and methods for controllable text summarization
US20220121213A1 (en) * 2020-10-21 2022-04-21 Automotive Research & Testing Center Hybrid planning method in autonomous vehicle and system thereof
US11829442B2 (en) 2020-11-16 2023-11-28 Salesforce.Com, Inc. Methods and systems for efficient batch active learning of a deep neural network
CN112529295B (zh) * 2020-12-09 2023-10-27 西湖大学 一种基于进度预测的自监督视觉语言导航器及路径缩短方法
US11720108B2 (en) * 2020-12-22 2023-08-08 Baidu Usa Llc Natural language based indoor autonomous navigation

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831433B1 (en) * 2005-02-03 2010-11-09 Hrl Laboratories, Llc System and method for using context in navigation dialog
US20110054786A1 (en) * 2009-08-26 2011-03-03 Electronics And Telecommunications Research Institute Device and method for providing navigation information
CN102306145A (zh) * 2011-07-27 2012-01-04 东南大学 一种基于自然语言处理的机器人导航方法
CN102564428A (zh) * 2010-12-22 2012-07-11 微软公司 使用低带宽信令的导航指令
CN103324197A (zh) * 2013-06-26 2013-09-25 西安电子科技大学 一种语音控制多用途智能服务机器人
CN105453025A (zh) * 2013-07-31 2016-03-30 谷歌公司 用于已识别语音发起动作的视觉确认
US20160161946A1 (en) * 2014-09-30 2016-06-09 Speak Loud SPA State and context dependent voice based interface for an unmanned vehicle or robot
US20160216130A1 (en) * 2012-06-21 2016-07-28 Cellepathy Ltd. Enhanced navigation instruction
CN106863307A (zh) * 2017-04-13 2017-06-20 苏州宇希新材料科技有限公司 一种基于视觉和语音智能控制的机器人
JP2017156511A (ja) * 2016-03-01 2017-09-07 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN107562069A (zh) * 2017-08-03 2018-01-09 汤庆佳 一种自主式巡逻导航无人机

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010044277A1 (ja) * 2008-10-16 2010-04-22 株式会社テムザック 移動体ナビゲーション装置
JP5647905B2 (ja) * 2010-01-20 2015-01-07 株式会社Ihiエアロスペース 無人移動体の制御方法
JP2012216069A (ja) * 2011-03-31 2012-11-08 Equos Research Co Ltd 車両および車両制御プログラム
JP5969903B2 (ja) * 2012-11-26 2016-08-17 株式会社Ihiエアロスペース 無人移動体の制御方法
US20160350653A1 (en) 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
US11113598B2 (en) 2015-06-01 2021-09-07 Salesforce.Com, Inc. Dynamic memory network
US20170140240A1 (en) 2015-07-27 2017-05-18 Salesforce.Com, Inc. Neural network combined image and text evaluator and classifier
US20170032280A1 (en) 2015-07-27 2017-02-02 Salesforce.Com, Inc. Engagement estimator
EP3582151A1 (en) 2015-08-15 2019-12-18 Salesforce.com, Inc. Three-dimensional (3d) convolution with 3d batch normalization
US9811074B1 (en) * 2016-06-21 2017-11-07 TruPhysics GmbH Optimization of robot control programs in physics-based simulated environment
US10565493B2 (en) 2016-09-22 2020-02-18 Salesforce.Com, Inc. Pointer sentinel mixture architecture
US10595037B2 (en) * 2016-10-28 2020-03-17 Nec Corporation Dynamic scene prediction with multiple interacting agents
US10839284B2 (en) 2016-11-03 2020-11-17 Salesforce.Com, Inc. Joint many-task neural network model for multiple natural language processing (NLP) tasks
US20180129937A1 (en) 2016-11-04 2018-05-10 Salesforce.Com, Inc. Quasi-recurrent neural network
US10963782B2 (en) 2016-11-04 2021-03-30 Salesforce.Com, Inc. Dynamic coattention network for question answering
US10565305B2 (en) 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
US11354565B2 (en) 2017-03-15 2022-06-07 Salesforce.Com, Inc. Probability-based guider
CN110419049B (zh) * 2017-03-17 2024-01-23 奇跃公司 房间布局估计方法和技术
US10565318B2 (en) 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
US10474709B2 (en) 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
US10606898B2 (en) * 2017-04-19 2020-03-31 Brown University Interpreting human-robot instructions
US10747761B2 (en) 2017-05-18 2020-08-18 Salesforce.Com, Inc. Neural network based translation of natural language queries to database queries
US11386327B2 (en) 2017-05-18 2022-07-12 Salesforce.Com, Inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
US20180336453A1 (en) 2017-05-19 2018-11-22 Salesforce.Com, Inc. Domain specific language for generation of recurrent neural network architectures
US10817650B2 (en) 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
CN111295669A (zh) * 2017-06-16 2020-06-16 马克波尔公司 图像处理系统
EP4053740A1 (en) * 2017-07-11 2022-09-07 DeepMind Technologies Limited Learning visual concepts using neural networks
US10817779B2 (en) * 2017-08-30 2020-10-27 International Business Machines Corporation Bayesian network based hybrid machine learning
US10366166B2 (en) * 2017-09-07 2019-07-30 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments
US20190130896A1 (en) 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
US11562287B2 (en) 2017-10-27 2023-01-24 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US10592767B2 (en) 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
CN111386536B (zh) * 2017-10-27 2024-01-23 谷歌有限责任公司 语义一致的图像样式转换的方法和系统
US11604956B2 (en) 2017-10-27 2023-03-14 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
US11928600B2 (en) 2017-10-27 2024-03-12 Salesforce, Inc. Sequence-to-sequence prediction using a neural network model
US11170287B2 (en) 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US10573295B2 (en) 2017-10-27 2020-02-25 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
US10346721B2 (en) 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets
US10542270B2 (en) 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
US11276002B2 (en) 2017-12-20 2022-03-15 Salesforce.Com, Inc. Hybrid training of deep networks
US11501076B2 (en) 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
US10929607B2 (en) 2018-02-22 2021-02-23 Salesforce.Com, Inc. Dialogue state tracking using a global-local encoder
US11227218B2 (en) 2018-02-22 2022-01-18 Salesforce.Com, Inc. Question answering from minimal context over documents
US11106182B2 (en) 2018-03-16 2021-08-31 Salesforce.Com, Inc. Systems and methods for learning for domain adaptation
US10783875B2 (en) 2018-03-16 2020-09-22 Salesforce.Com, Inc. Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network
US10909157B2 (en) 2018-05-22 2021-02-02 Salesforce.Com, Inc. Abstraction of text summarization
US11631009B2 (en) 2018-05-23 2023-04-18 Salesforce.Com, Inc Multi-hop knowledge graph reasoning with reward shaping
US11341356B2 (en) * 2018-06-15 2022-05-24 Uatc, Llc System and method for determining object intention through visual attributes
US11449079B2 (en) * 2019-01-30 2022-09-20 Adobe Inc. Generalizable robot approach control techniques

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831433B1 (en) * 2005-02-03 2010-11-09 Hrl Laboratories, Llc System and method for using context in navigation dialog
US20110054786A1 (en) * 2009-08-26 2011-03-03 Electronics And Telecommunications Research Institute Device and method for providing navigation information
CN102564428A (zh) * 2010-12-22 2012-07-11 微软公司 使用低带宽信令的导航指令
CN102306145A (zh) * 2011-07-27 2012-01-04 东南大学 一种基于自然语言处理的机器人导航方法
US20160216130A1 (en) * 2012-06-21 2016-07-28 Cellepathy Ltd. Enhanced navigation instruction
CN103324197A (zh) * 2013-06-26 2013-09-25 西安电子科技大学 一种语音控制多用途智能服务机器人
CN105453025A (zh) * 2013-07-31 2016-03-30 谷歌公司 用于已识别语音发起动作的视觉确认
US20160161946A1 (en) * 2014-09-30 2016-06-09 Speak Loud SPA State and context dependent voice based interface for an unmanned vehicle or robot
JP2017156511A (ja) * 2016-03-01 2017-09-07 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US20190057696A1 (en) * 2016-03-01 2019-02-21 Sony Corporation Information processing apparatus, information processing method, and program
CN106863307A (zh) * 2017-04-13 2017-06-20 苏州宇希新材料科技有限公司 一种基于视觉和语音智能控制的机器人
CN107562069A (zh) * 2017-08-03 2018-01-09 汤庆佳 一种自主式巡逻导航无人机

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHIH-YAO MA, JIASEN LU等: "Self-Monitoring Navigation Agent via Auxiliary Progress Estimation", pages 1 - 18 *
JOURNAL: "Computer Vision and Natural Language Processing", vol. 49, no. 4, pages 42 - 44 *
PARARTH SHAH;MAREK FISER;ALEKSANDRA FAUST;J.CHASE KEW;DILEK HAKKANI-TUR;: "Google提出FollowNet提高机器人导航能力", no. 03 *
赵程: "基于视觉—语音交互式室内层次地图构建与导航系统" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113984052A (zh) * 2021-06-16 2022-01-28 北京小米移动软件有限公司 室内导航方法、室内导航装置、设备及存储介质
CN113984052B (zh) * 2021-06-16 2024-03-19 北京小米移动软件有限公司 室内导航方法、室内导航装置、设备及存储介质

Also Published As

Publication number Publication date
EP4180892A1 (en) 2023-05-17
US20210286369A1 (en) 2021-09-16
JP7331084B2 (ja) 2023-08-22
WO2020069160A1 (en) 2020-04-02
JP2022500725A (ja) 2022-01-04
EP3814865B1 (en) 2022-06-22
EP3814865A1 (en) 2021-05-05
CN112714896B (zh) 2024-03-08
US20200103911A1 (en) 2020-04-02
US11029694B2 (en) 2021-06-08
US11971712B2 (en) 2024-04-30

Similar Documents

Publication Publication Date Title
CN112714896B (zh) 自知视觉-文本共接地导航代理
US20210142491A1 (en) Scene embedding for visual navigation
Han et al. Active object detection with multistep action prediction using deep q-network
Gupta et al. Unifying map and landmark based representations for visual navigation
Irshad et al. Hierarchical cross-modal agent for robotics vision-and-language navigation
Kwon et al. Visual graph memory with unsupervised representation for visual navigation
KR20200071990A (ko) 전자 장치 및 그의 3d 이미지 표시 방법
Ye et al. Gaple: Generalizable approaching policy learning for robotic object searching in indoor environment
Passalis et al. Deep reinforcement learning for controlling frontal person close-up shooting
US20230419113A1 (en) Attention-based deep reinforcement learning for autonomous agents
CN112347923A (zh) 一种基于对抗生成网络的路侧端行人轨迹预测算法
Mahdavian et al. Stpotr: Simultaneous human trajectory and pose prediction using a non-autoregressive transformer for robot follow-ahead
Naveed et al. Deep introspective SLAM: Deep reinforcement learning based approach to avoid tracking failure in visual SLAM
Martin et al. Estimation of pointing poses for visually instructing mobile robots under real world conditions
Omidshafiei et al. Hierarchical bayesian noise inference for robust real-time probabilistic object classification
CN115824213A (zh) 一种基于follower模型的视觉语言导航方法
Saleem et al. Obstacle-avoidance algorithm using deep learning based on rgbd images and robot orientation
Kayalvizhi et al. A Comprehensive Study on Supermarket Indoor Navigation for Visually Impaired using Computer Vision Techniques
Nguyen et al. Coarse-to-fine fusion for language grounding in 3D navigation
Wang et al. Multi-feature fusion for deep reinforcement learning: sequential control of mobile robots
US20230132280A1 (en) Robotic navigation and transport of objects
Anastasios Tsiakmakis Dimitrios
Ek-Hobak et al. Evaluation of Output Representations in Neural Network-based Trajectory Predictions Systems
Nie et al. Vision-and-Dialog Navigation by Fusing Cross-modal features
Daftry Towards scalable visual navigation of micro aerial vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: California, USA

Applicant after: Shuo Power Co.

Address before: California, USA

Applicant before: SALESFORCE.COM, Inc.

GR01 Patent grant
GR01 Patent grant