CN113228063A

CN113228063A - 多重预测网络

Info

Publication number: CN113228063A
Application number: CN202080007396.6A
Authority: CN
Inventors: R·卡波比安科; V·科佩拉; K·苏布拉曼尼亚; J·麦克哥拉山; P·沃尔曼; S·巴维亚
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2019-01-04
Filing date: 2020-01-02
Publication date: 2021-08-06
Also published as: EP3888017A1; EP3888017A4; KR20210090265A; US20200218992A1; WO2020142620A1; JP2022514935A; JP7379494B2

Abstract

用于训练和/或操作人工智能代理的方法和系统可以使用多输入和/或多重预测网络。多重预测是其共享的网络权重可以用于计算多个相关的预测的计算构造，通常是但不一定是神经网络。这允许根据所需的数据量和/或经验进行更高效的训练，并且在一些情况下，允许对那些预测进行更高效的计算。对于多重预测网络，有几种相关的和有时可组合的方案。

Description

多重预测网络

技术领域

本发明的一个或多个实施例一般而言涉及智能人工代理。更特别地，本发明涉及通过多重预测(multi-forecasts)和/或用于使预测计算更高效的方法来训练智能人工代理。

背景技术

以下背景信息可能会呈现现有技术的特定方面的示例(例如，但不限于方案、事实或常识)，尽管这些示例可望有助于进一步教育读者了解现有技术的其它方面，但是不应被解释为将本发明或其任何实施例限制为在其中陈述或暗示或据此推断的任何内容。

预测(forecasts)是在许多种类的人工智能(AI)系统中有用的预言(predictions)。预测是根据世界状态和以代理执行的技能或行为为条件对某个结果的预言。预测可以用于在当前状态下对当前行为的结果进行预言，或以出于计划目的的假设行为为条件进行假设预言。预测的示例包括距某个技能的终止的距离、距某个技能的终止的时间、某个技能的终止时的状态特征的值等。

当前已知的用于训练人工代理的系统表现出各种问题。在许多情况下，用户缺乏控制代理所学到的技能和知识的能力，或者这种学到的技能和知识可能是用户不认为与其它期望技能和知识一样重要的项目。而且，常规系统可能缺乏以模块化的方式来使技能和知识分层以用于学习较高级技能和知识的能力。同样，在常规系统中，人工代理可能不会学习特定形式的知识，即在技能执行期间对经验特征的预言。

鉴于前述内容，需要改进人工智能代理中的技能和知识的训练。

发明内容

本发明的实施例提供了一种在机器和基于计算机的软件应用中创建人工智能的多头预测方法，该方法包括：接收来自环境的输入作为状态信息；以及输出多个预测，该多个预测中的每个预测与不同的状态信息特征对应。

本发明的实施例还提供了一种在机器和基于计算机的软件应用中创建人工智能的多输入预测方法，该方法包括：接收来自环境的输入作为状态信息；从预测ID、技能ID和参数值中的至少一个接收附加输入；以及针对每个附加输入输出预测。

本发明的实施例还提供了一种在机器和基于计算机的软件应用中创建人工智能的预测网络方法，该方法包括：接收来自环境的输入作为状态信息；从预测ID、技能ID和参数值中的至少一个接收附加输入；在附加输入被输入到预测网络之前，将附加输入嵌入到经学习的简化向量(reduced vector)表示中；以及针对每个经学习的简化向量表示输出预测。

参考以下附图、描述和权利要求书，将更好地理解本发明的这些和其它特征、方面和优点。

附图说明

本发明的一些实施例作为示例说明，并且不受附图的各图限制，在附图中，相同的附图标记可以指示相似的元素。

图1A图示了根据本发明的示例性实施例的多头预测网络；

图1B图示了神经网络的输入节点的加权的示例；

图2图示了根据本发明的示例性实施例的多输入预测网络；

图3图示了根据本发明的示例性实施例的多技能预测网络；

图4图示了根据本发明的示例性实施例的参数化技能预测网络；

图5图示了根据本发明的示例性实施例的混合技能ID和多预测网络；以及

图6图示了根据本发明的示例性实施例的在多预测网络中利用预测ID进行嵌入。

除非另外指示，否则各图中的图示不一定按比例绘制。

现在，通过转向描述了图示的实施例的以下具体描述，可以更好地理解本发明及其各种实施例。应当清楚地理解，所图示的实施例仅是作为示例阐述的，而不是对权利要求书中最终定义的本发明的限制。

具体实施方式

本文所使用的术语仅出于描述特定实施例的目的，并不旨在限制本发明。如本文所使用的，术语“和/或”包括一个或多个相关联的列出的项目的任何和所有组合。如本文所使用的，单数形式“一”、“一个”和“该”旨在包括复数形式以及单数形式，除非上下文另外明确指出。还将理解的是，当在本说明书中使用术语“包括(comprises)”和/或“包括(comprising)”时，其指定了所述特征、步骤、操作、元素和/或组件的存在，但不排除一个或多个其它特征、步骤、操作、元素、组件和/或其组的存在或添加。

除非另有定义，否则本文中使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域的普通技术人员通常所理解的相同含义。还将理解的是，诸如在常用字典中定义的术语应被解释为具有与它们在相关领域和本公开的上下文中的含义一致的含义，并且将不被解释为理想化或过度形式化的意义，除非本文如此明确定义。

在描述本发明时，将理解，公开了许多技术和步骤。这些技术和步骤中的每个都有各自的益处，并且每个也可以与其它公开的技术中的一种或多种、或者在一些情况下全部其它公开的技术结合使用。因此，为了清楚起见，该描述将避免以不必要的方式重复各个步骤的每个可能的组合。但是，应当在理解这样的组合完全在本发明和权利要求书的范围之内的情况下阅读本说明书和权利要求书。

在下面的描述中，出于解释的目的，阐述了许多具体细节以便提供对本发明的透彻理解。但是，对于本领域技术人员清楚的是，可以在没有这些具体细节的情况下实践本发明。

除非另外明确指出，否则彼此至少一般通信的设备或系统模块不必彼此持续通信。另外，彼此至少一般通信的设备或系统模块可以通过一个或多个中介直接或间接地通信。

具有几个彼此通信的组件的实施例的描述并不意味着需要所有这样的组件。相反，描述了各种可选组件以说明本发明的多种可能的实施例。

如本领域技术人员所周知的，当设计用于任何系统的商业实现的最佳配置时，特别是本发明的实施例时，通常必须进行许多仔细的考虑和妥协。可以根据特定应用的需要来配置根据本发明的精神和教导的商业实现，由此与本发明的任何描述的实施例相关的教导的任何(一个或多个)方面、(一个或多个)特征、(一个或多个)功能、(一个或多个)结果、(一个或多个)组件、(一个或多个)方案或(一个或多个)步骤可以由本领域技术人员使用他们的平均技能和已知技术适当地省略、包括、改编、混合和匹配、或改进和/或优化，以实现满足特定应用需求的期望实现。

“计算机”可以指一个或多个装置和/或一个或多个系统，其能够接受结构化输入、根据规定的规则处理该结构化输入，并且产生处理结果作为输出。计算机的示例可以包括：计算机；固定和/或便携式计算机；具有单个处理器、多个处理器或可以并行和/或不并行操作的多核处理器的计算机；通用计算机；超级计算机；大型机；超级小型计算机；小型计算机；工作站；微型计算机；服务器；客户端；交互式电视；web电器；具有互联网访问的电信设备；计算机和交互式电视的混合组合；便携式计算机；平板个人计算机(PC)；个人数字助理(PDA)；便携式电话；用于仿真计算机和/或软件的专用硬件，诸如，例如，数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、特定于应用的指令集处理器(ASIP)、一个芯片、多个芯片、片上系统或芯片集；图形处理单元(GPU)；数据采集设备；光学计算机；量子计算机；生物特征计算机；以及一般可以接受数据、根据一个或多个存储的软件程序处理数据、生成结果，并且通常包括输入、输出、存储、算术、逻辑和控制单元的装置。

本领域技术人员将认识到，在适当的情况下，可以在具有许多类型的计算机系统配置的网络计算环境中实践本公开的一些实施例，包括个人计算机、手持式设备、多处理器系统、基于微处理器或可编程的消费者电子器件、网络PC、小型计算机、大型计算机等。在适当的情况下，也可以在分布式计算环境中实践实施例，在分布式计算环境中，任务由通过通信网络链接(通过硬连线、无线链接或通过其组合)的本地和远程处理设备执行。在分布式计算环境中，程序模块可以位于本地和远程存储器设备中。

“软件”可以指用于操作计算机的规定的规则。软件的示例可以包括一种或多种计算机可读语言的代码段；图形和/或文字说明；小程序；预编译的代码；解释代码；编译代码；以及计算机程序。

可以在包括安装在计算机上的计算机可执行指令(例如，软件)的操作环境中、在硬件中、或在软件和硬件的组合中实现本文描述的示例实施例。可以用计算机编程语言来编写计算机可执行指令，或者可以将计算机可执行指令实施在固件逻辑中。如果以符合公认标准的编程语言编写，那么此类指令可以在各种硬件平台上执行，并且可以用于各种操作系统的接口。虽然不限于此，但是可以以一种或多种合适的编程语言的任何组合来编写用于执行本发明各方面的操作的计算机软件程序代码，所述编程语言包括面向对象的编程语言和/或常规的过程编程语言，和/或编程语言，诸如例如超文本标记语言(HTML)、动态HTML、可扩展标记语言(XML)、可扩展样式表语言(XSL)、文档样式语义和规范语言(DSSSL)、级联样式表格(CSS)、同步多媒体集成语言(SMIL)、无线标记语言(WML)、Java.TM.、Jini.TM.、C、C++、Smalltalk、Python、Perl、UNIX Shell、Visual Basic或Visual Basic脚本、虚拟现实标记语言(VRML)、ColdFusion.TM或其它编译器、汇编器、解释器或其它计算机语言或平台。

可以以一种或多种编程语言的任何组合来编写用于执行本发明各方面的操作的计算机程序代码，所述编程语言包括诸如Java、Smalltalk、C++等面向对象的编程语言和诸如“C”编程语言或类似编程语言的常规过程编程语言。程序代码可以完全在用户计算机上、部分在用户计算机上，作为独立软件包部分在用户计算机上并且部分在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者可以与外部计算机进行连接(例如，通过使用互联网服务提供商的互联网)。程序代码还可以分布在多个计算单元当中，其中每个单元处理全部计算的一部分。

下面参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图示和/或框图描述本发明的各方面。将理解的是，流程图示和/或框图的每个方框以及流程图示和/或框图中的方框的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，以产生机器，使得经由计算机或其它可编程数据处理装置执行的指令创建用于实现流程图和/或一个或多个框图中指定的功能/动作的部件。

各图中的流程图和框图图示了根据各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。就这一点而言，流程图或框图中的每个方框可以表示代码的模块、段或部分，其包括用于实现指定的(一个或多个)逻辑功能的一个或多个可执行指令。还应当注意的是，在一些替代实施方式中，方框中指出的功能可以不按图中指出的顺序发生。例如，取决于所涉及的功能，实际上可以基本上同时执行连续示出的两个方框，或者有时可以以相反的顺序执行这些方框。还应当注意的是，框图和/或流程图示的每个方框以及框图和/或流程图示中的方框的组合可以由执行指定功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。

这些计算机程序指令还可以存储在计算机可读介质中，其可以指导计算机、其它可编程数据处理装置或其它设备以特定方式运行，使得存储在计算机可读介质中的指令产生制品，所述制品包括实现流程图和/或一个或多个框图中指定的功能/动作的指令。

此外，虽然可以按连续顺序描述处理步骤、方法步骤、算法等，但是这样的处理、方法和算法可以被配置为以替代顺序工作。换句话说，可能描述的步骤的任何序列或顺序不一定指示要求以该顺序执行所述步骤。本文描述的处理的步骤可以以任何实际顺序执行。此外，可以同时执行一些步骤。

清楚的是，本文描述的各种方法和算法可以由例如适当编程的通用计算机和计算设备来实现。通常，处理器(例如，微处理器)将从存储器或类似设备接收指令，并执行那些指令，从而执行由那些指令定义的处理。此外，可以使用多种已知介质来存储和发送实现这些方法和算法的程序。

如本文所使用的术语“计算机可读介质”是指参与提供可由计算机、处理器或类似设备读取的数据(例如，指令)的任何介质。这样的介质可以采取许多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘以及其它永久性存储器。易失性介质包括动态随机存取存储器(DRAM)，该存储器通常构成主存储器。传输介质包括同轴电缆、铜线和光纤，包括构成耦合到处理器的系统总线的电线。传输介质可以包括或传送声波、光波和电磁辐射，诸如在射频(RF)和红外(IR)数据通信期间生成的那些。计算机可读介质的常见形式包括，例如，软盘、柔性盘、硬盘、磁带、任何其它磁介质、CD-ROM、DVD、任何其它光学介质、打孔卡、纸带、任何其它具有孔图案的物理介质、RAM、PROM、EPROM、FLASH EPROM、EEPROM或任何其它存储器芯片或盒、如下文描述的载波、或者计算机可以从中读取的任何其它介质。

将指令序列携带到处理器可以涉及各种形式的计算机可读介质。例如，指令序列(i)可以从RAM传送到处理器，(ii)可以在无线传输介质上携带，和/或(iii)可以根据多种格式、标准或协议(诸如蓝牙、TDMA、CDMA、3G)来格式化。

本发明的实施例可以包括用于执行本文公开的操作的装置。可以为期望的目的而专门构造装置，或者该装置可以包括由存储在设备中的程序选择性地激活或重新配置的通用设备。

本发明的实施例还可以以硬件、固件和软件中的一种或组合来实现。它们可以被实现为存储在机器可读介质上的指令，该指令可以被计算平台读取和执行以执行本文描述的操作。

更具体而言，如本领域的技术人员将认识到的，本发明的各方面可以被实施为系统、方法或计算机程序产品。因此，本发明的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合了软件和硬件方面的实施例，其在本文中可以一般都被称为“电路”、“模块”或“系统”。此外，本发明的各方面可以采取一种计算机程序产品的形式，该计算机程序产品被实施在其上实施有计算机可读程序代码的一个或多个计算机可读介质中。

在下面的描述和权利要求书中，术语“计算机程序介质”和“计算机可读介质”可以用于通常指代介质，诸如但不限于可移除存储驱动器、安装在硬盘驱动器中的硬盘等。这些计算机程序产品可以向计算机系统提供软件。本发明的实施例可以针对这样的计算机程序产品。

在本公开的范围内的实施例还可以包括有形和/或非暂态的计算机可读存储介质，用于携带或具有存储在其上的计算机可执行指令或数据结构。这样的非暂态计算机可读存储介质可以是可由通用或专用计算机访问的任何可用介质，包括如上所讨论的任何专用处理器的功能设计。作为示例而非限制，这种非暂态计算机可读介质可以包括RAM、ROM、EEPROM、CDROM或其它光盘存储装置、磁盘存储装置或其它磁性存储设备，或任何其它可以用于以计算机可执行指令、数据结构或处理器芯片设计形式携带或存储期望程序代码部件的介质。当信息通过网络或其它通信连接(硬连线、无线或其组合)传输或提供给计算机时，计算机适当地将连接视为计算机可读介质。因此，任何这样的连接被适当地称为计算机可读介质。上述的组合也应包括在计算机可读介质的范围内。

虽然非暂态计算机可读介质包括但不限于硬盘驱动器、光碟、闪存、易失性存储器、随机存取存储器、磁存储器、光存储器、基于半导体的存储器、相变存储器、光存储器、定期刷新的存储器等；但是，非暂态计算机可读介质自身不包括纯暂态信号；即，介质本身是暂态的。

这里，算法通常被认为是导致期望结果的动作或操作的自洽序列。这些包括对物理量的物理操纵。通常，虽然不是必须的，但是这些量采取能够被存储、传输、组合、比较和以其它方式操纵的电或磁信号的形式。主要由于通用的原因，已经证明有时将这些信号称为位、值、元素、符号、字符、项、数字等是方便的。但是，应当理解的是，所有这些和类似术语与适当的物理量相关联，并且仅仅是应用于这些量的方便标签。

除非另有特别说明，并且如可以从以下描述和权利要求书中清楚的，应当认识到的是，在整个说明书中，利用诸如“处理”、“计算(computing)”、“计算(calculating)”、“确定”等术语的描述指代计算机或计算系统或者类似的电子计算设备的动作和/或处理，这些动作和/或处理将表示为计算系统的寄存器和/或存储器内的物理(诸如，电子)量的数据操纵和/或变换成类似地表示为计算系统的存储器、寄存器或其它此类信息存储装置、传输或显示设备内的物理量的其它数据。

以类似的方式，术语“处理器”可以指处理来自寄存器和/或存储器的电子数据以将该电子数据变换成可以存储在寄存器和/或存储器中或者可以被传送到外部设备以引起外部设备的物理变化或致动的其它电子数据的任何设备或设备的一部分。“计算平台”可以包括一个或多个处理器。

术语“机器人”或“代理”或“智能代理”或“人工代理”或“人工智能代理”可以指由计算机或计算系统直接或间接控制的任何系统，其响应于感觉或观察发出动作或命令。该术语可以指代但不限于具有物理传感器(诸如相机、触摸传感器、距离传感器等)的传统物理机器人，或存在于虚拟模拟中的模拟机器人，或诸如作为软件存在于网络中的邮件机器人或搜索机器人之类的“网上机器人(bot)”。它可以但不限于指代任何肢体机器人、步行机器人、工业机器人(包括但不限于用于自动化组装、喷漆、维修、维护等的机器人)、轮式机器人、吸尘机器人或割草机器人、私人助理机器人、服务机器人、医疗或外科手术机器人、飞行机器人、驾驶机器人、飞机或航天器机器人、或在实质上自主控制下可操作的任何其它机器人、车辆或以其它方式的真实的或模拟的机器人，也包括固定机器人，诸如智能家居或工作场所电器。

本发明的许多实际实施例提供了用于由人工智能代理高效地执行活动的部件和方法。

在一些实施例中，“传感器”可以包括但不限于关于代理环境的信息的任何来源，并且更特别地，可以如何将控制指向端点(end)。在非限制性示例中，感官信息可以来自任何来源，包括但不限于，感官设备，诸如相机、触摸传感器、距离传感器、温度传感器、波长传感器、声音或语音传感器、本体感受传感器、位置传感器、压力或力传感器、速度或加速度或其它运动传感器等，或来自与先前保持的信息(例如，关于对象的最新(recent)位置)、地点信息、地点传感器等结合的感官设备的集合中可以编译的已编译的、抽象的或情况信息(例如，对象在空间中的已知位置)。

术语“(一个或多个)观察”是指代理通过任何方式接收到的关于代理的环境或自身的任何信息。在一些实施例中，该信息可以是通过诸如但不限于相机、触摸传感器、距离传感器、温度传感器、波长传感器、声音或语音传感器、位置传感器、压力或力传感器、速度或加速度或其它运动传感器、地点传感器(例如，GPS)等的感官设备接收到的信号或感官信息。在其它实施例中，该信息还可以包括但不限于来自与存储的信息组合的感官设备的集合中编译的已编译的、抽象的或情况信息。在非限制性示例中，代理可以接收关于其自身或其它对象的地点或特性的抽象信息作为观察。在一些实施例中，该信息可以指代人或顾客，或者指代其特性，诸如购买习惯、个人联系信息、个人偏好等。在一些实施例中，观察可以是关于代理内部部分的信息，诸如但不限于本体感受信息或其它与代理当前或过去的动作相关的信息、与代理内部状态相关的信息或已由代理计算或处理的信息。

术语“动作”是指代理的用于控制、感染或影响代理的环境、代理的实体(physical)或模拟的自我、或者代理内部功能的任何部件，其最终可以控制或影响代理的未来动作、动作选择或动作偏好。在许多实施例中，动作可以直接控制实体或模拟的伺服或致动器。在一些实施例中，动作可以是最终意图影响代理的选择的偏好或一组偏好的表达。在一些实施例中，关于代理的(一个或多个)动作的信息可以包括但不限于代理的(一个或多个)动作的概率分布，和/或意在影响代理的最终动作选择的输出信息。

术语“状态”或“状态信息”是指与环境或代理的状态相关的信息的任何集合，其可以包括但不限于关于代理的当前和/或过去的观察的信息。

术语“策略”是指从任何完整的或部分的状态信息到任何动作信息的任何函数或映射。策略可以是硬编码的，或者可以用任何适当的学习或教学方法(包括但不限于任何强化学习方法或控制优化方法)进行修改、调整或训练。策略可以是显式映射，或者可以是隐式映射，诸如但不限于，可能由优化特定测量、值或函数产生的映射。策略可以包括相关联的附加信息、特征或特性，诸如但不限于，反映该策略可以在什么条件下开始或继续的起始条件(或概率)、反映策略可以在什么条件下终止的终止条件(或概率)。

术语“距离”是指任何单调函数。在一些实施例中，距离可以是指如通过方便的度量(诸如但不限于欧几里得距离或汉明距离)确定的表面上的两个点之间的空间。当两个点或坐标之间的距离小时，它们“接近”或“在附近”。

广义上，本发明的实施例提供了用于训练和/或操作人工智能代理的方法和系统。多重预测是其共享的网络权重可以用于计算多个相关的预测的计算构造，通常是但不一定是神经网络。这允许根据所需的数据量和/或经验进行更高效的训练，并且在一些情况下，对那些预测进行更高效的计算。对于多重预测网络，有几种相关的和有时可组合的方案。下面的讨论参考相关联的图描述了这些方案。

在图1至图6的每个中，f(x)是指预测，其中x可以是状态、预测id、技能id、参数值或其组合；s是指状态；g是预测id；k是技能id；并且p是参数值。

参考图1A，示出了多头预测网络。这里，单个网络具有多个输出，每个输出是不同特征的预测。如图1中所示，对网络的输入是当前状态，由多个状态输入S表示。在不同的预测当中共享除网络的最后一层之外的所有层中的网络的权重/参数。图1B图示了神经网络的单个隐藏层中单个激活节点的一组输入1、x₁、x₂和x₃的加权w₁至w₄的简单示例。如可以认识到的，在不共享加权的情况下，在不同的预测当中可能会涉及计算，尤其是在神经网络的隐藏层和激活节点的数量增长时。因此，这种共享有三个好处。首先，这种共享可以使得更快地学习预测。其次，由于在网络的较低层中共享计算，因此这种共享可能导致计算多个预测的较低计算成本。第三，这种共享可以导致对状态特征的泛化(generalization)。

例如，单个多头预测网络可以根据给定状态预测最近对象的距离、颜色、形状和重量。代理可以从传感器等接收输入，作为状态输入数据，并且可以生成预测，该预测确定存在蓝色的圆形3盎司球位于向前40度四英尺远处。这些预测在图1中被指示为f₁(s)、f₂(s)、f₃(s)和f₄(s)。

现在参考图2，示出了多输入预测网络。这里，单个网络能够计算几个不同预测的值。除了当前状态S之外，它还取预测ID(g₁至g₄)作为输入。例如，单个网络可以能够预测到红色、绿色、蓝色或黄色块中任何一个的距离。可以通过供给g值的向量向网络指示您想预言四个之中的哪一个，其中g值中只有一个被“打开”。如附图中所示，在g₂＝1的情况下，您可要求网络基于其余状态信息来计算到绿球的距离。

多输入预测网络的输出是作为输入供给的预测ID的对应预测值f(s,g)。网络是共享的，这意味着权重/参数在多个预测中是共同的。相对于多头预测，参数化预测具有显著优势，即参数化预测可以泛化为新的或未经训练的预测，这是因为神经网络具有通过足够的训练对未见的输入进行泛化的能力。

例如，这样的多输入预测网络可以能够根据图像预言对象的距离、颜色、形状或重量。用户将供给标志作为输入，该标志告诉网络应当计算哪个值。

参考图3，示出了多技能预测网络。该网络能够针对不同技能计算相同类型的预测。除了状态S之外，预测网络还取技能ID(k₁至k₄)作为输入，并输出预测值f(s,k)。多技能预测网络能够基于共享一些共同状态依赖性的技能来泛化预测。

例如，可以使用多技能预测网络来计算以下技能之一的持续时间：跑步到门(run-to-door)、步行到门(walk-to-door)、跳到门(skip-to-door)或爬到门(crawl-to-door)，所有这些取决于代理离门多远。这里，如图2中所示，[0,1]层旨在表示所供给的输入的“独热码(one-hot)”性质。在附图中，通过将第二技能(步行到门)标志设置为等于1，并将其余标志设置为零，您正在要求网络计算如果您执行了步行到门技能的预测。

参考图4，示出了参数化技能预测网络。该网络能够基于影响行为的可变输入参数来预言状态特征或其它预测。例如，预测f(s,p)可以预测踢球时球将滚动多远，其中输入参数p是踢球的难度或针对踢运动计划的所有关节角度。

参考图5，示出了混合网络。在所示示例中，该网络将图1A的多头预测与技能条件网络中的一个或多个(诸如图3或4中所示的技能条件网络)组合在一起。例如，对于一组类似的技能，诸如跑步到门、步行到门、跳到门或爬到门，单个网络可以能够计算三个输出预测，诸如经历的距离、持续时间和膝盖疼痛。输入将包括正常状态信息以及技能ID的编码。

参考图6，嵌入是一种跨输入强制甚至更加泛化的技术。嵌入可以与任何条件输入一起使用。在图6中，首先将条件输入嵌入到经学习的简化向量表示中，以形成参数化预测的输入。

例如，需要预言跑步到门、步行到门、跳到门或爬到门的持续时间的网络可以学习将跑步和跳聚类到一个类别中，并且将爬和步行聚类到第二类别中，然后以这两个类别为条件进行预测。

应当注意的是，这些网络的许多组合是可能的。例如，组合图2和图3的网络，可以具有以技能ID和预测ID两者为条件的预测网络。或者可以组合图1A、图3和图4的网络来获得可以使用共同的实际值输入参数(诸如力的量)对多个技能的几个状态变量预测进行预言的网络。

例如，可以建立一个网络，其预言对四个不同技能(跑步、步行、跳和爬)以及“努力”输入参数所经历的距离、持续时间和膝盖疼痛的预测。

鉴于和根据本发明的教导，本领域技术人员将容易认识到，取决于特定应用的需要，可以适当地替换、重新排序、移除任何前述步骤，并且可以插入附加步骤。此外，根据前述教导，可以使用本领域技术人员将容易知道适合的任何实体和/或硬件系统来实现前述实施例的规定方法步骤。对于可以在计算机上执行的本申请中描述的任何方法步骤，典型的计算机系统可以在适当地配置或设计时用作其中可以实施本发明的这些方面的计算机系统。因此，本发明不限于任何特定的有形实施方式。

除非另有明确说明，否则本说明书中公开的所有特征，包括任何随附的摘要和附图，都可以由服务相同、等同或相似目的的替代特征代替。因此，除非另有明确说明，否则所公开的每个特征仅是一系列等同或相似特征的一个示例。

智能人工代理的特定实施方式可以取决于特定的上下文或应用而变化。作为示例而非限制，前述的智能人工代理主要针对二维实施方式；但是，类似的技术可以替代地应用于更高维度的实施方式，本发明的实施方式被认为在本发明的范围内。因此，本发明将覆盖落入所附权利要求书的精神和范围内的所有修改、等同和替代。应当进一步理解的是，在前述说明书中并非所有公开的实施例都必须满足或实现在前述说明书中描述的每个目的、优点或改进。

本文的权利要求元素和步骤可能已经被编号和/或加上字母，仅是为了便于阅读和理解。任何这样的编号和字母本身均不旨在且不应被用来指示权利要求书中的元素和/或步骤的排序。

在不脱离本发明的精神和范围的情况下，本领域普通技术人员可以做出许多改变和修改。因此，必须理解的是，仅出于示例的目的而阐述了所示的实施例，并且不应将其视为对由权利以下要求书所定义的本发明的限制。例如，虽然以下以某种组合阐述了权利要求书的元素这样的事实，但是必须明确地理解，本发明包括所公开的元素的更少、更多或不同的其它组合。

本说明书中用来描述本发明及其各种实施例的词语不仅应从其共同定义的意义上理解，而且应通过特殊定义在本说明书中包括它们表示单一物种的一般结构、材料或动作。

因此，以下权利要求书中的词语或元素的定义在本说明书中被定义为不仅包括从字面上阐述的元素的组合。因此，从这个意义上考虑，可以对下面的权利要求书中的任何一个元素进行两个或更多个元素的等效替换，或者可以将权利要求书中的两个或更多个元素替换为单个元素。虽然以上可能将元素描述为以某些组合起作用并且甚至最初是如此要求的，但是应当明确地理解，在一些情况下，可以从该组合中切除来自所要求保护的组合的一个或多个元素，并且可以将所要求保护的组合指向为子组合或子组合的变体。

因此，权利要求书应当被理解为包括上面具体示出和描述的内容、概念上等同的内容、可以明显替代的内容以及还有结合了本发明的基本思想的内容。

Claims

1.在机器和基于计算机的软件应用中创建人工智能的多头预测方法，所述方法包括：

接收来自环境的输入作为状态信息；以及

输出多个预测，所述多个预测中的每个预测与不同的状态信息特征对应。

2.根据权利要求1所述的多头预测方法，其中在所述多个预测中的每个预测当中共享除所述网络的最后一层之外的所有层中的所述网络的权重或参数。

3.根据权利要求1所述的多头预测方法，还包括：通过在所述多个预测中的每个预测当中共享除所述网络的最后一层之外的所有层中的所述网络的权重或参数来最小化学习所述多个预测中的每个预测所需的时间。

4.根据权利要求1所述的多头预测方法，还包括：通过在所述多个预测中的每个预测当中共享除所述网络的最后一层之外的所有层中的所述网络的权重或参数来最小化计算所述多个预测的计算成本。

5.根据权利要求1所述的多头预测方法，还包括：泛化所述状态信息。

6.根据权利要求1所述的多头预测方法，还包括：输入多个技能ID和多个预测ID中的至少一个以提供混合网络，其中分别基于所述多个技能ID和所述多个预测ID针对一组相似技能或预测输出所述多个预测。

7.一种在机器和基于计算机的软件应用中创建人工智能的多输入预测方法，所述方法包括：

接收来自环境的输入作为状态信息；

从预测ID、技能ID和参数值中的至少一个接收附加输入；以及

针对每个所述附加输入输出预测。

8.根据权利要求7所述的多输入预测方法，其中在所述附加输入中包括多个预测ID，其中所输出的预测是针对作为输入供给的预测ID的预测值。

9.根据权利要求7所述的多输入预测方法，其中跨多个预测共享所述网络的权重或参数。

10.根据权利要求7所述的多输入预测方法，其中所述附加输入包括多个技能ID。

11.根据权利要求10所述的多输入预测方法，还包括基于共享共同状态依赖性的技能来泛化所述预测。

12.根据权利要求7所述的多输入预测方法，其中所述附加输入包括影响行为的可变输入参数。

13.一种在机器和基于计算机的软件应用中创建人工智能的预测网络方法，所述方法包括：

接收来自环境的输入作为状态信息；

从预测ID、技能ID和参数值中的至少一个接收附加输入；

在所述附加输入被输入到所述预测网络之前，将所述附加输入嵌入到经学习的简化向量表示中；以及

针对每个经学习的简化向量表示输出预测。

14.根据权利要求13所述的预测网络方法，还包括输出多个预测，所述多个预测中的每个预测与不同的状态信息特征对应。

15.根据权利要求14所述的预测网络方法，其中在所述多个预测中的每个预测当中共享除所述网络的最后一层之外的所有层中的所述网络的权重或参数。

16.根据权利要求14所述的预测网络方法，还包括输入多个技能ID和多个预测ID中的至少一个以提供混合网络，其中分别基于所述多个技能ID和所述多个预测ID针对一组相似技能或预测输出所述多个预测。

17.根据权利要求13所述的预测网络方法，其中在所述附加输入中包括多个预测ID，其中所输出的预测是作为输入供给的预测ID的预测值。

18.根据权利要求17所述的预测网络方法，其中跨多个所述预测共享所述网络的权重或参数。

19.根据权利要求17所述的预测网络方法，其中所述附加输入包括多个技能ID。

20.根据权利要求19所述的预测网络方法，还包括基于共享共同状态依赖性的技能来泛化所述预测。