CN112424736A

CN112424736A - 机器交互

Info

Publication number: CN112424736A
Application number: CN201980048089.XA
Authority: CN
Inventors: R·J·门罗; S·A·布莱克特; M·A·萨加
Original assignee: Somerset Intelligence Co ltd
Current assignee: Somerset Intelligence Co ltd
Priority date: 2018-07-19
Filing date: 2019-07-19
Publication date: 2021-02-26
Also published as: JP7381581B2; KR20210024174A; JP2024016167A; US12032728B2; AU2019308100A1; CA3101001A1; EP3824378A1; EP3824378A4; JP2021531603A; WO2020017981A1; SG11202011951PA; US20210216349A1

Abstract

经由自主虚拟经具体化的代理提供与计算机的交互。该计算机输出数字内容，该数字内容包括以数字数据的形式存在并且可向用户呈现的任何内容。数字内容的子集或全部数字内容被配置为可向用户和代理二者呈现的共享数字内容。

Description

机器交互

技术领域

使用计算机科学技术来促进人类与机器之间的交互，更具体地但非排他地，使用经具体化的代理来促进人机交互。

背景技术

人机交互(HCI)是涉及使用来自计算机图形学、操作系统、软件编程和认知科学的技术来改进人类和计算机之间的交互的计算机科学领域。自主代理(Autonomous Agent)可以通过辅助人类用户操作计算机来改善人机交互。由于自主代理能够在环境(其可以是虚拟的或现实的)中进行灵活和/或自主动作，则自主接口代理(Autonomous InterfaceAgent)可以被视为机器人，该机器人的传感器和效应器与计算机接口的输入和输出能力交互。在具有或不具有用户指令或协作的情况下，自主接口代理可以与用户并行地与计算机接口交互。

标题为“用于管理基于交互式语音的混合主动人机对话的方法”的EP1444687B1公开了一种管理基于语音交互的混合主动人机对话的方法。标题为“用于在线用户辅助的系统和方法”的EP2610724Al公开了用于在线用户辅助的虚拟动画角色的显示。

可期望：自主接口代理采用人工智能技术来智能地处理信息并以更类似人类的方式交互和展现它们自己。人类用户可以发现使用类似人类的通信方法(包括身体语言和声调)更容易、更快速和/或更多地与计算机进行交互。第二，增加代理动作和响应的现实性，可以减少感知到的技术障碍，如恐怖谷效应。

发明目的

本发明的目的是改进人机器交互(人机交互)或者至少为公众或工业提供有用的选择。

附图说明

图1示出了共享交互环境下的用户代理交互；

图2从代理的视角示出了用户代理交互；

图3示出了人机交互的示意图；

图4示出了用户代理与该代理后面的数字内容的交互；

图5示出了用于人机交互的系统图；

图6示出了用于人机交互的过程图；

图7示出了代理和环境之间的反馈回路的流程图；

图8示出了在虚拟现实背景中的用户交互；

图9示出了用于在虚拟现实背景中人机交互的系统图；

图10示出了增强现实背景中的用户交互；

图11示出了用于与移动应用人机交互的系统图；

图12至图16示出了经由代理的人机交互的屏幕截图；

图17示出了使用代理的计算机视觉系统与数字内容交互的示意图；

图18示出了与嵌入式动作和/或代理可感知定位符相关联的数字内容；

图19示出了如何在终端用户显示器上显示由相机采集的用户的呈现的示例；

图20示出了轮换的示例；

图21示出了用于设置显著性值的用户界面；

图22示出了用于多个视觉馈送的注意力系统；

图23示出了用户代理交互的示例实施方式的类图。

具体实施方式

经由自主虚拟具体化(embodied)的代理(以下称为“代理”)提供与计算机的交互。该计算机输出数字内容，该数字内容包括以数字数据的形式存在并且可向用户呈现的任何内容。数字内容的子集或全部数字内容被配置为可向用户和代理二者呈现的共享数字内容(Shared Digital Content)。图1示出了感知共享数字内容5的用户3和代理1。共享数字内容5可以由用户3和代理1二者操纵和/或感知(与用户3和代理1二者交互)。共享环境6包括所有共享数字内容5，并且可由代理1和用户3二者感知。代理1可以在其代理虚拟环境8内(使用其实施例)与共享数字内容5“物理地”交互。

该代理1处于代理虚拟环境8中并且感知其代理虚拟环境8。共享数字内容5被呈现给代理虚拟环境8(AYE)内的代理1。代理虚拟环境8的平面14与计算机屏幕(终端用户显示设备10)上的区域映射。代理虚拟环境8可以可选地包括AVE对象11，代理1可以与AVE对象交互。与共享数字内容5不同，用户3不能直接与AVE对象交互，但AVE对象在如11RER所示的向用户3显示的压缩视图中作为代理1的环境的一部分呈现给用户3。代理1可以在其代理虚拟环境8周围移动，并且在代理虚拟环境8的物理定律的背景内与数字对象和AVE对象交互。例如，代理1可向下拉共享数字内容5，并走到并坐在AVE对象11(虚拟凳子)上。代理1还可看到叠覆(superimposed)有共享数字内容5和/或与共享数字内容5同时的用户3(3VER)和现实世界环境7的呈现，就好像代理1在屏幕“内”并向外看现实世界一样。

用户3是现实世界环境7中的人类用户3，并且从计算机看到并控制(与之交互)在终端用户显示设备10(现实世界显示器，诸如屏幕)上所呈现的内容。终端用户显示设备10显示共享数字内容5RER(例如，经由浏览器从网页)的现实世界环境呈现(RER)和代理1的环境(AVE)的压缩、叠覆和/或融合(blended)视图，包括：

·代理1的现实世界环境呈现(1RER)

·AVE对象11的现实世界环境呈现(11RER)

当用户3经由用户界面改变共享数字内容5时，该改变被反映在代理1的代理虚拟环境8中的共享数字内容5的呈现上。同样，当代理1对代理虚拟环境8中的对象(共享数字内容5的项目/组件)作出改变时，该改变在用户3的屏幕10上的、共享数字内容5的呈现上被镜像。

可以在终端用户显示设备上以不同方式视觉化代理及其环境。例如，通过转动代理的虚拟空间，可以从代理的视角来显示2D平面。图2从代理1的视角示出了用户-代理交互。在三维代理虚拟环境8内模拟代理1。共享数字内容5位于代理虚拟环境8内，从用户的视角而言相对位于代理1的前方。代理1感知用户3VER的虚拟环境呈现(例如，经由相机馈送)，该呈现可选地也可被模拟为平面或以其他方式在代理虚拟环境8中或与共享数字内容5平面叠覆/融合。代理1因此可感知数字内容对用户的相对定位，并查明用户是否正在观看共享数字内容5。代理1被示出为将其手伸展以触摸共享数字内容5。

平面14可以位于代理虚拟环境8中的任何地方。图4示出了面向用户3的代理1和代理1后面包含共享数字内容5(对象)的平面14。可以在共享数字内容5RER的现实世界环境呈现(RER)的前方示出代理1的呈现。用户3看到与共享数字内容5交互的代理1的呈现，就好像代理1在屏幕的前方一样。

图3示出了人机交互的示意图，其中，代理1促进用户3和数字内容4之间的交互。通过经由任何合适的人类输入设备/主输入设备和/或接口设备向计算机2提供输入并且从计算机2接收来自任何合适的人类输出设备(例如显示器或扬声器)的输出，用户3可以直接与来自计算机2的数字内容4交互。代理1可以类似地向计算机2提供输入并从计算机2接收输出。

向代理在其模拟环境之外提供对象的感知类似于向代理提供“增强现实”，因为它向代理提供现实世界元素和计算机的当前状态的实时呈现，并且在其世界的统一视图中融合来自计算机、现实世界元素的数字内容项目的呈现。当用现实世界对象加强虚拟世界时，这可以更准确地定义为增强的虚拟化，增强与人类视觉相对地自主代理视觉。

与数字和现实世界输入的代理自主交互

该代理可以包括认知、位置、具体化、会话和动态方面。该代理被具体化，意味着它具有代理能够表达的虚拟主体。代理的身体(body)图形地呈现在屏幕或其他显示器上。可以使用神经行为模型(生物建模的“脑”或神经系统)来模拟代理，该神经行为模型包括具有耦合的计算和图形元素的多个模块。每个模块代表生物过程并且包括与该生物过程相关并且模拟该生物过程的计算元素以及使该生物过程视觉化的图形元素。因此，由于不需要外部控制，因此代理是“自动态化的”，并且呈现自然发生的自动行为，诸如呼吸、眨眼、四处看、打哈欠、移动其嘴唇。可以通过对神经系统的多个方面进行建模来实现基于生物学的自主动画，这些方面包括但不限于感觉和运动系统、反射、感知、情绪和调节系统、注意力、学习和记忆、奖励、决策和目标。代理的脸既反映了代理的脑，也反映了代理的身体，揭示了精神状态(如经由其眼睛的方向的精神注意力)和生理状态(例如疲劳，通过眼睑的位置和皮肤的颜色)。使用神经行为模型来使虚拟对象或数字实体成动画进一步公开在以下中：Sagar,M.,Seymour,M.,&Henderson,A.(2016)，使用自主面部动画创建连接，通讯ACM,59(12),82-91；以及WO 2015016723 A1，其也转让给本发明的受让人，并且通过引用并入本文。如WO 2015016723 A1中描述的时间步进机制可以同步或协调代理的内部过程。

代理的方面可以是动态的，这意味着代理的未来行为取决于其当前的内部状态。代理的神经系统、身体及其环境是耦合的动态系统。可以在有或没有外部输入的情况下生成复杂行为。可以在不依赖于代理外部环境的任何内部呈现的情况下生成复杂行为。代理的周围物的元素(诸如来自用户的视觉刺激或内容项目)可以形成导致行为产生的因果网络的一部分。代理行为以及由此产生的动画可以从下到上出现。该代理的动态可能是混乱的，使得难以预测该代理在给定情况下的行为。代理的动作依赖于来自现实世界环境7和代理虚拟环境8两者的连续反馈回路，如图7中所示。因此，代理1位于两种环境中，因为它接收来自现实世界环境7的输入1102，例如来自用户和用户的环境(现实世界环境7)的音频输入(诸如经由麦克风)，以及来自用户的视觉输入(经由相机)。针对代理1模拟的现实世界输入1102影响代理1的行为，这导致在代理1动画输出1106中示出的代理1行为。例如，当代理1经由间接机制看到人类用户时，代理1可能微笑，其中，识别用户释放了神经行为模型内的虚拟神经递质，诸如多巴胺，其可以自然地触发代理1的微笑。例如通过在现实世界环境7中的用户中引起响应或情绪，该输出1106可进而影响现实世界环境7，该响应或情绪再次被输入用于代理1模拟。代理1的代理虚拟环境8也被输入1102用于代理1。例如，代理虚拟环境内的共享数字内容项目可被代理1实时感知为流，并且影响代理1的行为，这也导致特定代理1动画输出1106。该输出1106可以影响代理虚拟环境8。例如，代理1可以改变代理虚拟环境8内的虚拟对象的位置。现在输入1102新的对象位置，用于代理1模拟以驱动连续反馈回路。

该代理可以以任何合适的方式被模拟和/或呈现为任何合适的形式，诸如：人类形式、虚构人类形式、拟人特征、机器人、动物。用户能够选择或改变其代理所采取的形式，或者该代理可以根据用户或现实或虚拟环境改变其形式。

移动到坐标定位

将代理置于代理虚拟环境8中允许看起来自然的“运行中(on-the-fly)”动画，并允许代理自由地与周围的数字内容项目(共享数字内容5)交互，就好像它们存在于代理1的环境中一样。这不同于预先生成或预先记录的动画片断，预先生成或预先记录的动画片断不利地难以在与不可预测或动态内容的交互中使用。预先记录的动画的限制的示例是使用模拟臂来在位置(X，Y)处达到特定内容项目。考虑到内容项目确切位于何处，动画将在功能上受到限制；如果内容项目移动或改变大小，则动画将不能相应地改变。

可以使用“运行中”动画算法使该代理成为动画。在经具体化的代理中，通过计算使末端效应器达到目标状态的关节自由度的向量来实现达到末端目标定位(数字对象坐标)的效应器(例如手)。可以使用诸如逆运动学之类的计算技术来使代理1成为动画。逆运动学可使用已知技术(诸如，Jacohian或循环坐标下降(CCD))来近似。可以训练神经网络来映射身体位置以呈现达到或指向二维或三维坐标空间中的对象(即，学习手眼协调)。在一个示例中，移动成功预测器使用深度卷积神经网络(CNN)来确定给定运动如何可以成功达到指定坐标，以及使用CNN来连续更新代理的运动命令的连续伺服机构。

虚拟环境

代理位于代理虚拟环境中，并且可以在该代理虚拟环境中感知对象以及对象与代理的相对定位。在本文描述的大多数实施例中，代理位于三维代理虚拟环境中。在一个实施例中，代理虚拟环境是由2D像素阵列呈现的2D虚拟空间。2D代理可位于2D虚拟空间内并与该2D空间上的共享数字内容交互，其可从代理水平(左或右)和/或垂直(上或下)移位。

在图1中，代理1位于反映共享环境的平面14(屏幕)后面的3D空间中。代理1在代理虚拟环境8的外边界/面处的平面14上看到共享数字内容(该代理虚拟环境是长方柱)。图2示出了代理1触摸代理1正前方的内容项目。图4示出了位于平面14前方的代理1，其中，屏幕上的共享环境数字内容项目位于该平面中。为共享数字内容的内容项目/对象可以相对于代理1在三维中水平地(左、右、前方或后方)和/或垂直地(上或下)从代理1移位。

可以将虚拟3D空间的平面14的坐标映射到浏览器(或其它显示器)坐标。因此，当与共享数字内容相关的代理1移动被叠覆到屏幕上时，移动与数字内容项目位置对准。

可以改变在其上显示代理的显示器的现实世界坐标。例如，可以通过例如用户拖动浏览器/调整浏览器的大小来移动浏览器上显示的代理或调整该代理的大小。显示器的现实世界物理尺寸是动态可变的，并且改变现实世界环境中显示器的物理尺寸成比例地更新代理虚拟环境的呈现。

代理虚拟环境可以用任何适当的机制来模拟，并可以遵循一定的自然规律。可以定义代理虚拟环境的物理特性，诸如：对象和/或代理之间的碰撞检测、物理约束(例如，对象的关节之间允许的移动)、大气阻力、动量、重力、材料特性(例如，弹性项目在被代理拉伸之后可以返回到自然形状)的模拟。

代理接收的输入

代理接收来自现实世界的任何合适的视觉输入(诸如来自相机的视频流)、来自具有范围成像能力的相机(诸如微软Kinect相机)的深度感测信息、诸如来自麦克风的听觉输入、来自生物传感器、热传感器或任何其他合适的输入设备的输入、触摸屏输入(其中，用户正在按压屏幕)。可以向代理提供单个输入，或者可以提供输入的组合。代理可以在空间上使其自身与现实世界的各方面相关，并且用户可以将代理的注意力带到用户的现实世界空间中的对象(诸如事物或人)。

代理可以经由计算设备接收来自用户的输入/通信。代理可以感知内容项目，诸如用户的光标/鼠标或触摸屏输入(其也以一种方式从现实世界输入)。代理可能够用他们的眼睛和/或手来跟随用户的鼠标移动。在一些实施例中，代理能够感知键盘输入。例如，用户可以经由键盘而不是言语与代理通信。

将视觉(例如视频流)输入提供给代理的视觉系统。来自适当接口的例程可用于硬件接口。这可以经由代理的编程定义与相机和/或像素流转化器之间的接口来提供。该接口由视觉模块提供，该视觉模块提供模块包装以在代理的每个时间步采集来自相机的图像数据。视觉模块可以不执行图像数据的任何感知处理(类似于人类“视网膜”)。

该代理可以通过计算系统的输出设备向现实世界提供输出，诸如显示器上的视觉输出、通过扬声器的可听输出，或任何其他合适的装置。该代理还可以输出鼠标移动、键盘敲击或其他界面交互，诸如点击或按压。

代理可以具有两个或多个视觉系统，允许代理同时接收来自不同源的视觉输入，而不需要将不同的视觉源叠加(overlay)到彼此上。例如，代理可以具有两个视觉模块，一个用于相机输入，一个用于用户界面输入，且同时查看两者。不同的显著性映射可以应用于每个输入源。例如，对面部优先化的显著性映射可以在被配置为接收现实世界输入(诸如相机输入)的视觉系统上操作，而对文本的识别和/或UI元素的识别优先化的显著性映射可以被应用于被配置为接收UI输入的视觉系统。

数字内容

与网站相关的共享数字内容可以包括站点表单、按钮、文本框、文本字段、视频元素或图像。在诸如增强现实、虚拟现实、全息图等混合现实应用中，数字内容项目可以指的是3D对象。在应用(诸如VR/移动/计算机应用)中，数字内容项目可以是由面向对象的语言定义的对象。

数字内容可以是动态的(例如，数字内容的项目可以在屏幕上移动)，并且代理可以跟随或引导这样的动态内容项目的移动。数字内容项目可以是静态的或交互式的。静态内容项目可以是文本或图像。例如，参与用户的学术辅导的代理可以通过指向显示给用户的某个词语并询问用户该用户是否理解该词语的含义来与文本交互。交互式数字内容项目可以以某种方式响应用户和/或代理的动作。例如，按钮是当被点击时展现其他内容的数字内容项目。可以以二维或三维来呈现数字内容项目。例如，图15示出了在3D中建模并位于代理虚拟环境内的汽车对象。

由于代理连同内容项目一起被具体化在虚拟空间中，所以代理可以以灵活且可缩放的方式、使用姿势、查看项目、接近项目、操纵或处理项目或调用与项目相关联的方法以若干不同的方式与共享数字内容交互。该代理可以：

·使其身体朝向项目倾斜和/或使其头部朝向该项目倾斜。

·用其眼睛查看项目。

·通过指向项目、在项目的大致方向上摆动其头部、或在项目的方向上挥动来向项目做姿势。

·通过朝向该项目行走或传送或浮动到接近该项目的定位来接近该项目。

启用与共享数字内容的代理交互

经具体化的代理独立于与它们交互的数字内容被编程地定义：没有中央控制器控制数字内容和经具体化的代理二者。这允许灵活使用经具体化的代理与由不同的第三方供应商授权的数字内容。可以使代理能够感知新的数字内容并与之进行本地交互的两种机制包括计算机视觉和交互模块(支持界面)：

计算机视觉

在一个实施例中，代理从呈现向用户显示的源接收视觉数据形式的输入。例如，代理经由视觉(虚拟)图像和/或对象识别来查看屏幕或3D虚拟空间的像素。该代理可以配备有诸如通过标准计算机视觉/图像处理/图像识别/机器学习技术的视觉对象识别，以标识该图像或视频或对象中的对象/主题、该图像或视频的主题的轮廓/颜色，并且相应地与其进行交互。该代理可以配备有用于识别文本的光学字符识别以及用于理解文本的自然语言处理。换言之，数字内容以与呈现给人类用户的方式相同的方式(像素的视觉显示)被视觉地呈现给代理。该代理系统可以包括内置式图像识别和/或学习，或者它可以使用第三方服务来进行图像识别。

数字内容输入

可以以类似于屏幕共享软件如何将屏幕的视觉呈现发送到远程定位的方式将共享环境的视觉呈现发送到代理。接口可以被配置为将信息分组从计算设备发送到代理，该信息分组描述在任何给定时间由计算设备输出的内容。数据可以作为图像文件(例如，JPEGs和GIFs)达到，或者数据可以作为分配给特定X坐标和Y坐标(以及在混合现实情况下的Z坐标)的单独像素达到。为了最小化带宽量，接口可以被配置为仅在屏幕的已经改变的部分上发送信息更新和/或压缩所发送的数据。

图17示出了使用代理的计算机视觉系统与数字内容交互的示意图。所涉及的模块不必是代码的模块化组件，而可以是由高度互连的神经行为模型驱动的模块的功能网络。在2901处，终端用户计算设备用户界面(诸如，浏览器)渲染对显示器的更新(例如，网页刷新)。经由共享存储器缓冲器2930，代理1控制器2951将来自显示器的像素作为输入2902提供到代理的视网膜2903中。这是代理的编程定义和像素流转化器之间的接口。然后可以将这些像素提供给认知模块2952，在该认知模块内视觉检查模块2904执行图像处理。像素流的被关注/处理的部分可以由注意力模块2905引导，该注意力模块2905确定代理注意的内容。从像素数据的处理产生的信息可传递到反应性和/或决策制定模块2907。这驱动了代理的行为。例如，在将图像的一部分识别为按钮之后，反应和/或决策制定模块2907可以使代理伸出并触摸按钮2910。代理进行的动作或行为被传递到模拟生理模块2908，模拟生理模块可以具有子组件，以用于控制身体的各个部分，包括手臂控制2910。在2911处，代理控制器2951可以操作以将代理与数字内容之间的交互映射成用户3界面交互。在虚拟环境中，“代理”在AVE中的“物理”动作可以被转换为用户3界面上的动作。例如，当代理的身体的坐标与所感知的共享环境平面相交时，该平面的相交的坐标可以被转换成用户界面上的对应像素定位处的鼠标点击或触摸板触摸事件。然后将事件动作/反向信道2932作为人类输入设备事件(例如，在浏览器上的对应像素定位处的鼠标点击)发送到计算系统。在一种实施方式中，铬嵌入框架(CEF)开放浏览器实施方式适于使代理能够与站点数字内容交互。离屏(Off screen)渲染允许将浏览器窗口的内容输出到可在别处渲染的位图。

与(触发)事件相对应的经具体化的交互

触摸数字内容项目是可以导致与数字内容项目交互的一种类型的经具体化的交互，然而本发明在这方面不受限制。在其它实施例中，代理针对数字内容项目的特定姿势可以触发该项目上的事件。例如，查看项目并眨眼的代理可能会触发该项目上的事件。另一个示例是对数字内容项目(例如按钮)做姿势。

直接控制浏览器或计算系统

在一个实施例中，代理直接控制鼠标、触摸板或其他主输入设备，就好像输入设备是代理的效应器一样。换言之，代理可以以与代理控制其自身的身体/肌肉移动相同的方式控制输入设备。在计算设备中，可以通过任何合适的技术(例如，诸如使得能够通过图形终端仿真器在人的台式计算机上进行远程访问和远程协作的技术)，来实现由代理对计算设备的直接控制。

显著性映射

注意力模块2905可以包括“显著性”映射以引导代理的注意力。显著性映射是根据重要性对代理的屏幕呈现。显著性映射可以定义代理的注意力和关注的地点。可区别地视为显著或不显著的特征的示例包括：

·用户：该代理可以包括面部检测模块以检测面部。面部检测可能与代理的情感影响和用户交互回路有关。面部检测模块使用面部跟踪和解决库在代理的视觉输入流中查找面部。可以由代理将面部的存在解释为高度显著的视觉特征。可以将来自任何检测到的面部的、所解决的面部表情馈送到表情识别网络中。

·移动-可以提供运动检测模块，因为视觉模块不尝试视频输入的任何感知处理。运动检测模块可以是代理的视觉感知系统的组件，其比较时间上相邻的视频帧以推断简单运动。所得到的“运动映射”可以用作视觉显著性的驱动元素

·某些对象或图像的识别

·文本的识别；显著性归因于某些关键词或文本模式

·颜色

·亮度

·边缘

显著性映射可以是用户定义的。在一个实施例中，用户可以交互地向代理传达用户希望代理将其视为显著(关注)的特征。在使用多个显著性映射的情况下，每个显著性映射可以用由每个活跃显著性映射的加权组合驱动的代理的注意力的最终关注点来加权。在其它实施例中，显著性可在外部定义，并提供人工指针以标记数字内容项目以供代理关注。

在用户和代理之间切换UI控制

用户和代理都可以控制鼠标、键盘或其他主输入机制。在一个实施例中，以控制机制的形式提供了一种用于协作的机制，该控制机制确保：一旦任一方移动鼠标，直到完成所发起的动作，然后才允许另一方移动鼠标。该控制机制可以在该用户与该代理之间强制执行轮换。在其他实施例中，用户和代理可以使用对话来确定谁控制了UI(例如，用户可以询问代理它们是否可以接管控制，反之亦然)。

感知控制

该代理可以控制其感知输入。例如，它可以选择查看用户而不是内容，反之亦然。使代理能够经由视觉像素识别来感知的优点在于，它提供了代理可以查看/关注并因此感知的内容的自由度/灵活性(使用以更高分辨率显示给代理的像素流的“凹窝(Fovea)”子集/区域)。该代理可以关注显示在用户界面上的任何像素，或者显示在用户界面上的内容的任何超结构/方面，诸如所创建的图案、颜色，或者所呈现的对象。

与代理模拟器集成

图23示出了使用CEF浏览器的一种实施方式的类图。CEF窗口定义用户在UI上看到的内容。可以在代理的神经行为模型内定义变量以存储与共享数字内容(例如浏览器内容)的交互。一变量组可以用于用户的交互，且另一变量组可以存储代理交互。代理的变量组可以由运行时通过神经行为建模语言来设置。运行时刻主机2304可以为这两个变量组设置变量监视。在接收到对这些变量的更新时，运行时刻主机2304构造UI事件(例如，鼠标/键盘事件)并将它们发送到共享环境VER(其可以对应于代理的环境中平面，代理通过该平面查看共享数字内容)。共享环境VER由运行时刻主机拥有，但被离屏渲染到缓冲器中，并且运行时刻主机将缓冲器发送到神经行为建模框架(模拟器)，用于神经行为建模框架以将内容渲染到3D空间中)。

当用户与浏览器交互时，UI将设置的变量消息发送到SDK，例如，user_mousedown、user_mouse_x。从UI接收的坐标与离屏渲染的共享环境2308(代理的窗口)有关。在浏览器中将坐标转换为xy位置。神经行为模型方法转换坐标并确定浏览器对象是否包含鼠标。然后，运行时刻主机构建鼠标和键事件并转发到共享环境(共享浏览器)。

当代理与共享环境2308交互时，运行时刻主机2304接收针对被监视的已改变的变量的回调。如果同一回调中没有用户事件，那么将代理的交互转发到共享浏览器。否则，用户的交互覆盖代理的交互。用于共享交互的神经行为建模语言变量可以被定义为诸如：

·跟踪鼠标向下(mousedown)和鼠标向上(mouseup)事件变量：user_mousedown、user_mouseup、persona_mousedown、persona_rnouseup

·跟踪键向下(keydown)和键向上(keyup)事件变量：user_keydown、user_keyup、persona_keydown、persona_keyup

为了指示事件(例如，鼠标事件或键盘事件)正在发生，神经行为建模框架变量(例如，user_moussedown/user_mouseup/agent_mousedown/agent_mouseup)与上一时间步不同。计数器对事件进行计数并且每次将1添加到先前的值，而不是使用1/0切换来指示事件正在发生，一旦计数器达到1000，则计数器被重置为1。其原因是因为向下和向上(开、关)可以在同一时间部，以保持跟踪所有事件，变量的当前值和先前值不需要匹配。这确保事件不会丢失。可以实施队列以便于快速和/或同时输入/输出事件(比代理的时间步进快)。代理内部2314可控制代理时间步进的速率并更新共享环境VER中的用户交互。

交互模块

交互模块可以促进代理感知共享数字内容，并且定义在代理的虚拟环境中呈现的内容项目的交互功能可见性并将其传送给代理。交互模块可以是支持库或应用编程接口(API)。当代理1决定采取某个动作时，交互模块16将该动作转换成由第三方数字内容的作者本地定义的命令。代理可以通过使用交互模块与数字内容(例如，站点内容、应用内容或其它编程地定义的内容)直接且动态地交互。该交互模块在由计算机程序可读信息定义的数字内容和代理可理解信息之间进行转换。

共享数字内容项目可以作为概念性对象向代理呈现，该概念性对象是本地(或本地渲染的)数字内容项目的抽象。概念性对象可以由某些特性(诸如虚拟世界环境坐标、颜色、标识符或与代理和相应数字内容项目之间的交互相关的其他事物)来定义。概念性对象是以跨AVE转换的抽象方式来呈现现实数字内容项目的对象。代理1只需要理解“概念”和与该概念相关的元数据(即尺寸、颜色、定位/位置)。

本地数字内容项目存在并且以它们的本地格式展现给用户，然而数字内容项目具有代理1可以用来引用数字内容项目的附加标识。在一个实施例中，代理经由交互模块16查看共享数字内容项目/对象，该交互模块16转换关于这些对象的HTML信息并将其传递给代理1。交互模块16可以提取出本地数字内容项目信息，诸如HTML信息，并将其转换为代理1，使得代理1可以理解内容项目是什么、其特性以及可能需要什么输入。

图5示出了用于促进用户3与网页交互的人机交互的系统图。该系统可以包括客户端512、数字内容供应商服务器端520和代理端(代理系统或模拟)510，并且可选地，与第三方服务590通信。数字内容供应商可以在站点服务器522和/或服务器端数据库524上定义数字内容。站点服务器522可以将数字内容提供给用户可查看的站点客户端511，诸如站点浏览器。通过在客户端512上包括交互模块16来促进人机交互。在代理系统510上模拟该代理，该代理系统510可以是云服务器。交互模块16处理数字内容(例如，可以通过HIML代码来定义该数字内容)，并转换与代理相关的项目，使得它们可由代理感知。这可以为代理提供：将内容项目背景映射在网页上。该代理和该代理的虚拟环境驻留在代理系统510上。代理系统510包括在代理的虚拟环境内模拟代理的代理建模系统513，用于渲染代理的显示的动画渲染系统514。知识基础515可以向代理提供基本级别的域知识，该域知识与代理所处的环境以及它可以与之交互的内容项目的类型有关。该代理可以由第三方服务590(例如第三方提供的自然语言处理系统)支持。

图6示出了用于人机交互的泳道过程图。数字内容供应商620定义数字内容项目621。数字内容供应商620包括链接到数字内容项目621的交互模块16，使得数字内容项目可以支持代理交互。为了用代理1交互来增强数字内容，数字内容供应商可在定义网站时通过链接到或包括交互模块16来启用此。在另一个实施例中，如果没有链接到交互模块16，则可以提供代理服务器，通过该代理服务器运行数字内容，该数字内容链接或包括实现经由代理1的交互的交互模块16。

用户设备612本地地向用户显示数字内容项目，该用户与由数字内容供应商620定义的网页、应用或其它计算机程序交互。交互模块16将某些数字内容项目从它们的本地定义转换成概念性对象。概念性对象被发送到代理1云610，允许代理1概念化数字内容616。为代理1模拟617输入概念性对象。因此，概念性对象构成了代理1的环境的一部分。因此，代理1可以基于概念性对象与它的行为交互或改变它的行为。代理1可以直接操纵数字内容618，例如，按压或移动概念性对象。当代理1直接操纵概念性对象时，交互模块16将代理的动作转换成对数字内容项目的改变。换言之，交互模块16更新642数字内容以反映代理1的、对内容项目的改变。代理还可以与概念性对象间接交互，诸如通过朝向概念性对象的定位查看或在概念性对象的定位处做姿势。对直接或间接与概念性对象交互的代理1的呈现进行渲染619。

代理可能不会以用户所采用的相同方式(诸如通过像素识别)直接感知内容项目。交互模块16可以将诸如内容项目的抽象呈现的“概念性对象”传递给代理。概念性对象可以包括与代理1(该代理1与项目的交互)有关的基本特性，诸如定义内容项目是什么以及定位的标签。交互模块16可以向代理1提供该内容项目在代理1的虚拟环境的背景下的功能可见性列表。与内容项目相对应的概念性对象可以包括定义代理1可以与之交互的、具有“物理质量”的对象的进一步信息。

交互模块16可以提供允许用户3经由代理与数字内容项目交互的“动作”支持。此“交互”功能提供抽象层以用于代理1在对象上执行“动作”。动作的示例是按压、拖动、推动、查看、抓等。这些动作由交互模块16转换成一操作，可以在该时刻并以对交互空间起作用的方式对数字内容项目执行该操作。可以忽略不被转换的操作。例如，代理1可“动作”按压在站点按钮上，这将由交互模块16转换成在按钮HTML元素上的点击。在站点元素上的“推动”动作可能被忽略，但是当在球上的3D交互空间中进行动作时将导致该球移动。

例如，希望向下滚动网页的代理可以向交互模块发送向下滚动命令，交互模块又可以将代理1的动作转换为网络可读命令，诸如JavaScript代码。JavaScript代码在网页上致动动作。因此，不需要代理能够以站点语言直接通信。因为代理1可以应用于不同的背景，因此这使得系统可扩展。

在另一个示例中，希望将文本输入到内容项目中的代理可以向交互模块16发送输入命令。交互模块16可以执行必要的JavaScript命令以将光标放置在该文本字段内，并输入代理希望输入的文本。因此，在web交互背景下，数字内容项目的用户的视图可以是具有正确风格化的站点元素(例如，HTML元素)的全保真度网页。该代理可以具有由概念性对象组成的该HTML页面的抽象视觉化。在概念上，这类似于：代理仅看到与代理与用户和网页的交互相关的、网页的各方面的简化视图。

除了将信息从站点语言转换成代理可感知的信息之外，交互模块16可以将概念性对象上的“物理”代理动作转换成用于移动对应的数字内容项目的指令。代理在其虚拟环境内操纵内容项目，而不是直接经由本地方法操纵内容项目，就好像它们是物理项目一样。为此效果，交互模块16还可以包括物理转换，以模拟物理的方式来移动HTML元素。例如，通过交互模块16以每秒一定数目的帧将对象移动一定的量从而“模拟”物理推动，可以将诸如推动内容项目的“物理”类型动作转换成HTML元素。因此，交互模块16所包含的各种“动作”可以直接实施或模拟(通过近似)元素(如其位置、内容或其它元数据)的改变。

在一些实施例中，代理1可以向交互模块16发送查询以获得关于该项目的附加信息。例如，希望“读取”项目(HTML中的项目是文本字段)内的文本的代理1可以查询交互模块16以获得其文本字段内的文本。

动态控制

数字内容项目可以包括站点元素，该站点元素可以具有由文档设计者建立来定义该元素的初始结构和内容的一组参数。这些包括元素的这两个物理特征，诸如元素在文档内的绝对或相对空间定位，以及待应用于在元素中输入的任何用户文本内容的属性，诸如字体类型、字体大小、字体颜色，以及诸如粗体和斜体的任何字体属性。该文档还可以被设计成允许用户通过传统的点击-拖动技术来重新定位元素中的一者或多者。在数字内容处于网页的背景下的情况下，可以提供诸如JavaScript交互模块16的交互模块16以使得代理1能够修改站点元素的物理特征和/或属性。在经由动态HTML(DHTML)、若干站点相关标准的组合和交互(包括HTML、CSS(层叠样式表)、DOM(文档对象模型)和脚本)渲染页面之后，HTML页面中的元素可以是可控制的。浏览器可以在加载网页时创建呈现页面上的HTML元素的文档对象模型(DOM)。JavaScript可以用于与DOM(浏览器中允许程序访问和改变文档的内容、结构和样式的界面)交互。JavaScript交互模块16可以包括专门实现通过DOM在代理1和网页之间进行特定类型的交互的方法。

QuerySelector可以用于查询DOM。交互模块16可以使代理1能够通过以下方式修改网页：

·改变/删除DOM中或页面上的HTML元素

·改变和/或添加CSS样式到元素

·读取和/或改变元素属性(锚文本上的href属性、图像文本上的src属性、alt属性或任何自定义属性)

·创建新的HTML元素并将它们插入到DOM/页面中

·将事件侦听器附加到元素。例如，事件侦听器可以监听点击、按键和/或提交，并且在JavaScript中对这些做出反应。

虽然已经参考JavaScript交互模块16描述了网页的动态控制，但是本发明不限于此方面。例如，在另一实施例中，JQuery可以促进代理1和数字内容之间的交互。可以以任何合适的站点相关的开放技术标准来实施该交互/支持模块。

其他交互背景

图8示出了在诸如虚拟现实环境的虚拟现实背景中的用户3交互。以上描述的用于用户界面交互的方法和系统类似地应用于虚拟/混合/增强现实交互。还可以提供概念性共享环境，包括用户3和Vent1都可以访问的一组对象。交互模块16可以用于在代理1空间和用户3空间之间进行转换。交互模块16可以嵌入到具有虚拟现实环境(VR环境)的虚拟现实应用(VR应用)中。交互模块16便于在代理1和数字内容项目之间的交互中的视觉一致。可替代地和/或附加地，可以向代理提供由VR环境定义的(并且同样具有下面描述的增强现实实施例)共享数字内容的全保真度计算机视觉。

现实世界环境7中的用户3观看3D VR环境13，该3D VR环境可以包括共享数字内容5，该共享数字内容包括3D对象。交互模块可以将来自VR应用的数字内容转换成代理1可感知的概念性对象9。因此，代理1可直接或间接地与概念性对象9交互或指代概念性对象9。当代理1直接与概念性对象9交互时，例如，沿着代理1的环境的虚拟地板推动圆柱，交互模块16将其转换为在VR应用中本地定义的数字对象的改变。图8示出代理虚拟环境8小于VR环境13，然而代理1的代理虚拟环境8可以与VR环境13同延或大于VR环境13。代理1可以将共享环境中的项目传递给用户3。例如，代理1可以将足球(共享数字内容)传递给用户3。在一个实施例中，使用射线跟踪来模拟代理1在三维场景内的视觉。接口可以从代理1的视点将射线投射到三维场景中，并且可以用射线执行射线跟踪以确定对象是否在代理1的视场内。因此，代理1的行为可以基于共享数字内容5是否在其视场内。

图9示出了用于在虚拟现实背景中人机交互的系统图。VR数字内容项目824可以在VR应用822中定义，并在VR显示器811上显示给用户3。交互模块16将VR数字内容项目(例如VR对象)转换成代理1可感知的概念性对象。因此，代理1可以与可感知的概念性对象交互。然后交互模块16转换该交互以反映VR数字内容项目的相应改变。VR应用可以向用户3渲染由交互模块16促进的场景，包括代理1、代理1的环境的任何方面和数字内容项目。代理1系统810还可以包括知识基础815，该知识基础815使得代理1能够知道该代理1在其内进行交互的特定域。

图10示出了增强现实背景中的用户界面交互。该交互类似于参考虚拟现实所描述的交互，除了用户通过视口观看虚拟数字内容，例如被示为移动电话屏幕，该视口可以被叠加到现实世界的视图上。图11示出了用于与移动应用进行人机交互的系统图。内容项目824可以在移动设备1022中定义并在诸如移动设备屏幕的显示器1011上显示给用户3。交互模块16将移动应用数字内容项目转换成代理可感知的概念性对象。代理1因此可以与可感知的概念性对象交互。然后交互模块16转换该交互以反映移动应用上的相应改变。

在一个实施例中，代理1位于WEB GL中；场景中的一切都可以是角色可以操纵的对象。WEB GL(站点图形API，Web Graphics API)是一种在不使用插件的情况下，在任何兼容的站点浏览器中渲染交互式的3D和2D图形的JavaScript API。WEB GL兼容浏览器提供代理1所投影到的虚拟3D空间。这允许代理1在其内操作的虚拟空间被展现在任何兼容的站点浏览器或WEB GL兼容设备上，并且允许代理1在同一虚拟空间内与站点对象和3D对象交互。

代理相对于数字内容的渲染

动画渲染器可以渲染该代理和该代理的环境的动画以供显示给用户。然后可以将所得到的动画作为视频流流化到UI设备(诸如浏览器)。在一个实施例中，可以在终端用户显示器的受限区域中渲染代理。在站点背景中，可以将代理界定在HTML DIV元素中。在另一个实施例中，终端用户显示器上的代理的显示可以是无界定的。

可以融合像素，使得代理或数字内容是透明的，并且允许分别查看代理或数字内容后面的事物。在AVE是3D环境并且显示器是2D屏幕的情况下，可以从用户的视点将AVE渲染为2D动画。对于交互式用户体验，AVE可被渲染为数字内容(例如包括本地渲染的HTL站点元素)的移动背景或前景。

该代理的虚拟环境可以经由一个或多个视角展现给用户。代理和/或用户可以将用户的视口改变为代理的虚拟环境。例如，在代理的环境的渲染的针孔相机模型中，代理可以改变针孔定位以改变代理的环境的用户的视图的角度/方向和/或缩放。代替渲染代理的环境的动画(其可能是计算密集的)，在一些实施例中，可以渲染与代理的视图相对应的某视图的2D呈现(从代理的有利位置)并将其给呈现用户。

相机图像的叠加

用户可以使用姿势将代理的注意力吸引到或指向/指示计算机屏幕上的区域。图19显示如何在屏幕10上显示由相机15采集的用户的呈现(3VER和/或3RER)的示例。该呈现可以叠加在正显示在屏幕10上的任何其它事物上，并且可以是半透明的，使得用户3能够看到用户3的身体以及屏幕10的其它内容。可替代地，可以自动地剪裁(使用标准图像处理技术)用户3的背景，使得仅用户3的图像或手被显示在屏幕上，使得该呈现不必透明。在另一个实施例中，用户3的呈现仅对代理1可见。两个按钮A和B显示在屏幕3120上，并且用户3的手3145悬停在按钮B上。用户3的手的呈现在屏幕上是可见的。代理1能够看到与用户3看到的呈现相同的呈现，因此也能够看到用户3正在引起注意的是哪个按钮。显著性映射可以引起对人手的重视，或者移动(用户3的手可以在按钮B上移动以引起对其的注意)。因此，用户3可以以与触摸屏类似的方式与非触摸屏屏幕交互。可以使用接口模块将用户姿势(例如，手指点击)转换为输入设备事件(例如，点击)。在其他实施例中，用户3可以接收用户3正在指示的位置的一些其他视觉指示符，诸如通过代理1查看该方向，而不是在屏幕上显示用户3的呈现。以类似的方式，代理1可能够通过跟踪用户的注视或者根据来自用户3的言语指令/指示来感知用户3正在看屏幕上的位置。

改变

多个代理可以独立地与数字内容交互。该多个代理可以彼此以及与一个或多个用户进行对话。所述多个代理可以在相同的虚拟环境内被模拟，或者它们可以在彼此不同的虚拟环境内被模拟。该多个代理可以具有相同的感官能力，或者它们可以具有彼此不同的能力。一个或多个代理可以与多个用户交互。用户中任何一个或多个可以与一个或多个代理会话并指引一个或多个代理操纵用户与之交互的用户界面，如本文所述。

组合计算机视觉和交互模块16

计算机视觉和交互模块实施例可以被组合。在一个实施例中，代理可以通过处理图像的像素来感知地意识到诸如图像的内容项目的特征。这允许代理讨论诸如项目的一种或多种颜色等特征。

代理知识

代理还能够例如从所提供的对象数据库访问对象元数据。一种示例是购买项目的目录。代理1可以将数字内容项目与数据库目录中的购买项目相关联，并使用该信息与用户3会话。代理可以控制用户3界面的导航或显示方面。例如，在网站背景中，代理1可以通过向上、向下、向左或向右滚动或者放大或缩小来控制网页的哪个(些)部分被显示。

持久性代理浏览器

在一个实施例中，代理可以理解某些数字内容项目的性质，使得代理可以集成到不同的数字内容源(例如，不同的网站)中。因此，代理可以在因特网上以可缩放的方式促进用户内容交互。可以经由定制浏览器来提供这样的代理。可以使用机器学习技术来训练代理，以理解站点语言的性质，从而学习内容项目与可以/应该相对于这样的内容项目采取的动作之间的关联。例如，可以训练代理1来标识文本字段，而不管文本字段的确切配置如何，读取文本字段的用户可见标签，并代表用户填写这些字段。

在一个实施例中，用户可以教导代理数字内容项目。例如，用户可以将鼠标悬停在数字内容项目上并对项目进行命名。代理可以观察这一点并将项目的名称与数字内容项目的呈现(由交互模块提供的像素呈现或概念性呈现)相关联。

嵌入式动作和代理可感知的定位符

在一个实施例中，如图18中所示，数字内容可以与嵌入式动作和/或代理可感知定位符相关联。代理可感知定位符定位数字内容项目(并且可以与对应于代理虚拟环境内的数字内容项目的空间坐标相关联)。定位符可与描述数字内容项目的元数据相关联。定位符可以替换和/或支持显著性映射。在替换显著性映射的定位符的一个示例中，用元数据来标记与按钮相对应的定位符，该元数据指示必须由代理1点击该按钮。在支持显著性映射的定位符的示例中，定位符被放置在按钮上(并且可以通过读取网页的HTML内容并将定位符分配给具有HTML按钮标签的项目而自动生成)。按钮的显著性映射可以与任何其他显著性映射一起提供，例如颜色显著性映射，并且例如，显著性映射可以被配置为鼓励代理点击红色按钮。可以在网站中提供嵌入式内容，该网站可由代理但不必是用户访问。例如，代理可见的嵌入式内容可允许代理单击用户不可见的链接并导航到另一页或读取用户不可见的信息。

会话交互

代理1可以使用与人类所做的言语和非言语方式(诸如姿势、面部表情等)相同的言语和非言语方式来与人进行会话。这些响应可以包括计算机生成的语音或经由终端用户计算设备的一个或多个扬声器回放的其他音频内容。由代理1生成的响应可以以文本、图像或对用户3的其它视觉内容的形式对用户3可见。代理1可以借助于第三方服务(诸如IBMWatson或Google Dialogue Flow和/或会话语料库)进行会话。

图20示出了用户3。代理1可以查看用户3。代理1可以接收关于用户3的以下信息，并使用该信息来通知现实世界和虚拟世界二者中的交互：

·经具体化的代理可以接收相机输入并计算用户注视的位置。这可以被映射到用户正在观看的、用户的空间/现实世界中的内容项目或对象。可以使用用户的眼睛角度和/或用户的头部角度来跟踪用户的注视。

·经具体化的代理可以另外跟踪用户的眼睛移动、头部移动并计算用户的眼睛和头部角度。

·经具体化的代理还接收包括来自用户的指示的言语输入，该指示在一些情况下可以指示经具体化的代理的动作和/或经具体化的代理的注视。其它输入可以包括例如经由键盘的文本。

·已经标识用户的经具体化的代理可以用他们的眼睛并且通过向用户倾斜来跟随用户的位置(查看用户)。

·经具体化的代理可以意识到用户控制的鼠标相对于数字内容项目位于屏幕上的位置。代理1还可以通过例如触摸屏监视器来意识到用户的触摸。

·经具体化的代理可以经由相机监视用户的移动，特别是用户的手臂、手和手指的移动。

·面部表情可以用于检测用户情绪并相应地适应。

·用户的语音的音调可用于检测用户信息，以便代理相应地适应。

·代理可以确保代理在继续会话之前获得用户的注意力。

·代理可能会有过去与用户的交互并在会话中使用此信息的记忆。

代理可以使用会话的背景、数字内容项目和用户信息来解决多义性。代理采取的动作可以是动态的、针对用户制定的，或背景敏感的、意图/目标定向的。代理可以访问有关用户的信息源。例如，代理可以意识到用户的定位(例如，经由地理位置服务)和/或时区，并且使用此来相应地引导交互。该代理结合对话、情绪、认知和记忆来创建交互式用户体验。实施例提供了一种用于通过内容交互来综合代理的情绪和姿势行为的系统。代理经由对话和用户的动作与用户交互，以建立用户的目标、信念和期望，并相应地引导用户，用户的动作包括眼睛注视、眼睛方向、用户的移动和所接收的关于用户的其他输入。该代理可以包括对用户作出反应的情绪反应模块。在一个实施例中，代理交互由学习响应(诸如强化学习)引导或规定。规定的行为可以由规则的知识基础来引导。在一个实施例中，通过用户的心理测量配置文件来引导代理交互的方式。

在一个实施例中，可以使用应用于用户的且经具体化的代理的注视的二元轮换模型来实施经具体化的代理和用户之间的模拟交互。该经具体化的代理可以在交互期间通过尝试直接注视用户来指示他们的会话轮换的结束。以类似的方式，当经具体化的代理检测到用户已经发起对经具体化的代理的直接注视时，经具体化的代理可以感知到用户已经指示了他们的轮换的结束。

参考图20，示出了进行轮换的示例。用户3可以查看3325代理1或说出代理1的名称或通过例如指向代理1来提示代理1。一旦用户3获得代理1的注意力，代理1可以返回用户3的眼睛接触3330，向用户3发信号：代理1已经识别出用户3的注意力。用户3又可以以微笑响应，提示代理1继续进行并轮换例如提供信息，或者以其他方式与用户3通信。一旦代理1完成，则代理1就可以通过停顿和直接查看3345用户3来向用户3发信号。用户3又可以微笑并确认代理1 3350并轮换到3355。当用户3已经完成时，用户3可以停顿并且将注意力3360引导到可以进行另一轮换3365的代理1。以上描述仅仅是示例，并且用户3的指示可以采取允许代理1识别代理1的轮换的其它形式。用户3例如可以在交互期间通过言语提示或非言语提示来指示他们的轮换的结束。非言语提示可以包括例如微笑、眨眼、头部的移动、包括手臂、手和手指的身体的移动。同样，代理1的指示可以采取允许用户3识别到用户3的轮换的其它形式。代理1可以例如在交互期间通过言语提示或非言语提示指示他们轮换的结束。非言语提示可以包括例如微笑、眨眼、头部移动、包括手臂、手和手指的身体的移动。

注意力建模

代理注意力模型可以被实施为视野中的区域的显著性映射，其中，可见定位竞争注意力。更活跃的那些定位具有更多的显著性。显著性映射是示出每个定位(像素的)唯一质量的图像，且因此更活跃的定位具有更显著性。在该经具体化的代理中可以实施在人脑中活跃的几种类型的显著性。这些包括更新用户3或经具体化的代理1的每只眼睛或头部移动的视觉帧。其他显著性映射使用参考帧，无论头部和眼睛移动如何该参考帧都是稳定的。可以被映射的显著性特征包括在视场中存在的刺激的颜色或亮度或趣味性。可以创建关注期望或愿望的其他显著性映射，并且根据这些期望或愿望预测显著性映射上的显著定位可能在哪里。如在所具体化的代理1中实施的，这些显著性映射被组合，以导出显著性的聚集量度。

在一个实施例中，实施的注意力模型包括呈现不同类型的显著性目标的多个显著性映射。其中的聚集显著性映射是所使用的映射的加权和。可以改变各种显著性映射如何被加权。在一个示例中，可以如下使用权重，使得如果用户和经具体化的代理都关注对象，则对象(事物或人)的显著性增加。

Salience_gaze＝weightg1*embesedAgent_gaze_map+Weightg2*User_gaze_map+weightg3*(embededAgentgaze_map。*User_gaze_map)

Salience_point＝weightp1*embededAgent_point_map+weightp2*User_point_map+weightp3*(embededAgentpoint_map.*User_poit_map)

用于创建显著性映射的信息包括在上述会话交互中讨论的输入。还可以通过将诸如听觉和文本输入的非视觉输入映射到视觉映射空间来将这些输入应用于显著性映射。例如，为了映射指向对象的用户，系统可以计算用户指向的定位，并将该定位映射到视觉映射空间。如果输入是听觉的，则系统计算声音来自的定位并将该定位映射到视觉映射空间。这些指向和听觉映射与视觉映射相结合。在一个实施例中，注意力模型包括子映射(跟踪器)，即使在当前注意力下已经存在随后的转移，子映射也使得经具体化的代理能够保持跟踪先前已经被注意的对象。

图21示出了用于设置多个显著性映射的用户界面的屏幕截图。可以使用图21中所示的滑动器2110来改变这些映射的加权。滑动器改变默认加权。

在某些实施例中，来自不同源的多个视觉馈送都可以激活视觉特征映射，提供具有多个视觉馈送的呈现的经具体化的代理。每个场可用于计算控制视觉空间注意力的显著性映射。每个视觉馈送可与多个特征映射相关联，使相对于视觉馈送的其它区域更显著的显示视觉馈送的区域突出。例如，相机视觉馈送(采集与经具体化的代理1交互的用户3)和浏览器窗口视觉馈送(采集用户3和/或代理1与之交互的计算机浏览器)都激活视觉特征映射。可由代理自己的3D虚拟环境提供另一个视觉馈送。例如，从代理的视角，通过射线投射，可以向代理1提供与代理1具有其周围环境的视场相对应的2D平面。

可以实施类似人类的注意力模型，使得代理1在任何给定时间只能关注视觉馈送之一的方面。因此，在一个时刻选择两个或更多个映射上的单个显著区域用于注意：当涉及注意力切换时，两个或更多个视场可以被认为是具有两个部分的单个视场。可以将加权全部应用于视觉馈送，使得确定某些视觉馈送比其它视觉馈送更显著。

显著性映射可应用于言语提示，以帮助代理定位用户正参考的项目。例如，诸如“左”、“右”、“上”、“下”等关键字可映射到“言语提示”显著性映射，该“言语提示”显著性映射将视觉馈送的对应区域突出为显著性。言语提示显著性映射可以如上与其他显著性映射组合以促进共同注意力和交互。例如，如果用户3说：“您左边的按钮”，则言语提示显著性映射可以突出屏幕的左半部分。然后，这可以与检测按钮的对象显著性映射组合，突出在左边的作为最显著的按钮，且从而突出代理所注意到的按钮。

参考图22，示出了用多个视觉馈送实施的系统。该系统从两个视觉流3770、3775提取多个低层特征3780。然后，将中心环绕滤波器3740应用到每个映射，以导出特定于特征的显著性映射。从这些映射创建特征映射3725，并为特定特征3720创建映射的组合。例如，用户的面部或用户的周围物。然后根据各个显著性映射或特征映射创建组合的显著性映射3710。这些特定于特征的映射被组合在加权和中，以产生独立于特征的显著性映射3710。然后，系统应用“胜者全得”(WTA)操作，该操作选择显著性映射3710中最活跃的定位作为要注意的区域。除了相机馈送之外，声音馈送或其它馈送可馈送到系统中以创建特征映射3625、3725。在一个实施例中，轮换特征映射可以结合到系统中，使得轮换特征映射的关注点取决于谁轮换。该轮换映射在显著性映射中产生了与轮换相关的偏差。

交互的示例

图12示出了促进用户与网页交互的代理的屏幕截图。该网页包括共享数字内容，该共享数字内容包括几个菜单项目、搜索栏和导航按钮。相对于用户，代理1位于共享数字内容之前。代理1对共享数字内容5具有感知意识。因此，代理1可以参考或指向不同内容项目作为与用户交互的一部分。代理1可以与用户3进行对话以查明用户希望导航到下一个。代理1可以转向查看用户已经指示感兴趣的数字内容项目，并且触发到菜单内容项目所链接到的URL的导航。代理可以指向某个内容项目并在视觉上按压该内容项目，就好像它们正在点击项目一样。

图13示出了定位在共享数字内容5后面的代理1的屏幕截图。所示的示例是银行的网站，其示出用户可用的若干信用卡以供选择。代理1可以与用户会话并询问用户是否想要关于所显示的作为共享数字内容5的任何信用卡的更多信息。用户可以直接点击共享数字内容项目(信用卡)之一，因为它们是触发到进一步信息的链接的可点击HTML对象。或者，用户可以要求代理1提供关于信用卡之一的进一步的信息。代理1具有表示共享数字内容5的概念性对象的感知，并且因此可以从经由交互模块提供给代理1的信息查明用户感兴趣的是哪个信用卡。代理1可以触发表示该信用卡的概念性对象上的动作而不是用户点击信用卡，该动作又经由交互模块被转换为点击网站上的项目。由于信用卡是可点击的图像，代理1可以使用来自图像的像素信息来查明图像的颜色，并且因此可以理解用户3是否通过颜色来参考他们感兴趣的物品。图13B示出了一旦用户已经选择了数字内容项目的网页。代理1例如通过数字内容供应商数据库可以访问与数字内容项目有关的元数据，以告诉用户关于该内容项目的更多信息。另外，这样的信息可以在AVE中显示给用户(未示出)。

图14示出了通过交互式菜单(共享数字内容5)获取用户以帮助用户找到合适的信用卡的代理1。再次，用户可以直接点击在菜单项目上，或者用户可以与代理1会话，并且代理1可以代表用户点击在数字内容项目上。例如，代理1可以询问用户“您多久用一下您的卡呢？”用户可以读取三个显示的菜单选项之一：“始终”、“不时地”或“我不确定”。代理1将使用户3的话语与数字内容项目之一匹配，作为数字内容项目上的文本，作为内容项目的相应概念性对象的属性提供给代理1。用户可以说出与预定文本稍有不同的东西，诸如“我不知道”，而不是“我不确定”，并且代理1可以推断用户希望选择的选项。图14示出了已经选择的选项“我不确定”。代理1在对菜单项目进行触摸(对应于鼠标点击)的过程中读取“我陈述的全部量”。代理1正直接查看代理正在触摸的数字内容项目。触摸背景对象的代理1经由交互模块16触发对数字内容项目的点击。用户可以选择不按顺序浏览菜单，而是跳过第一组选项，例如告诉代理1他们想要低费用。代理1可以选择该选项，然后询问用户有关来自上一步骤的信息。

图15示出了代理1的屏幕截图序列，它促进用户与网站交互以帮助用户购买汽车。因此，代理1可以走到汽车并指向汽车的特征。如果汽车转动或改变位置，代理1可以继续指向汽车的相同方面。图15A示出了代理1正从左侧走到屏幕上。该网站包括顶部菜单，该顶部菜单包括数字内容4和虚拟展示室1780显示虚拟汽车1760。该虚拟展示室被配置为显示可购买项目的3D模型。因为这在代理1的虚拟环境中，用户3可能不能直接与虚拟展示室中的对象交互。尽管如此，用户3可以通过与代理1通信来与这样的对象间接交互，使得代理1操纵代理1的虚拟环境中的对象。例如，用户3可以要求代理1拾取项目、操纵项目、改变项目的颜色，或者转动项目，使得用户3可以从另一角度看到该项目。图15B示出了代理1在进入虚拟展示室之后面向用户3并且与用户3进行会话以找出用户3感兴趣的东西。图15C示出了代理1朝向虚拟汽车1750做姿势。由于代理1具有汽车与代理1以及屏幕的关系的位置的感知意识，所以代理1能够朝向汽车的虚拟空间坐标做姿势。当代理1位于包括D虚拟汽车的虚拟环境中时，代理1可以走向汽车并指向汽车的各种特征(由对象元数据定义到代理1，诸如特征和标签的坐标)。由于代理1和汽车都处于相同的3D虚拟环境中，代理1向汽车的移动适当地减小了屏幕上代理1的“现实世界”尺寸并增加了交互的现实性。图15E示出了代理1提出的选项的菜单2150，以询问用户3有关用户3的兴趣。图15F示出了代理1代表用户3选择菜单项目。代理1已经触摸了该项目，这触发了对相应数字内容项目的点击。图15F示出了到示出汽车的内部的图像的导航。现在用户的视图来自代理1的视角，并且代理1的手是可见的。

图16示出了依赖于用户反馈的非线性交互序列。图16A示出了代理1向用户显示两个购买选择X和Y。另一方面，图16B示出了在接收到来自用户的反馈之后，代理1轻柔地/暂时地将选项Y放在一边，这意味着用户具有对另一选项Y的偏好，然而并非100％肯定。在从用户接收到选项Y绝对不是用户想要的反馈之后，图16C示出代理1可以通过将选项扔到一边来移除该选项。图16D示出了具有预期表情的代理1，而代理1等待用户考虑他们是否希望返回项目Y。图16E示出了代理1将项目Y返回到屏幕。

代理可以促进用户学习如何使用第三方软件来执行特定任务。例如，在诸如photoshop的应用中，代理可以与用户会话并且示出如何通过与界面上的可控数字内容项目物理交互来导航应用的界面。可以向代理提供具有如何操作或导航用户界面的步骤的通用算法。代理可以包括任务的知识库，每个任务与动作的时间序列相关联，可以通过找到显著项目(例如符号或文本)、对该项目执行动作(例如点击)、然后进行到下一步骤来定义该知识库。当用户要求执行存储在代理的UI交互任务上的知识库中的动作时，代理可以控制人类输入设备(例如，鼠标/触摸输入)来执行这些步骤。

该代理可以促进用户做出用于在线购物的购买选择。该代理可以嵌入在电子商务平台中并且帮助引导用户通过项目。在一个实施例中，代理可以接收关于用户的配置文件的信息以引导交互。例如，用户可以具有从与电子商务系统的参与历史(例如，以前的购买)创建的配置文件。该用户的配置文件被存储在更广泛的推荐器系统中，并且该代理可以使用该推荐器系统来适当地向用户推荐项目。代理可以通过导航用户的电子商务UI来代表用户购买产品。通过代理查看用户的身体语言，同时言语确认继续进行购买，可以将意外或无意的购买最小化。例如，如果代理看到用户点头同时说“是，请购买它”，并且查看所讨论的产品，则代理可以确信它对用户的愿望的理解并且继续购买该项目。

该代理可以包括计算机程序，该计算机程序被配置为为终端用户计算设备(个人助理)的用户执行任务或服务。可以由代理代表用户执行的任务的示例可以包括：向用户指定的人进行电话呼叫、启动用户指定的应用、向用户指定的接收者发送用户指定的电子邮件或文本消息、播放用户指定的音乐、在用户日历上调度会议或其他事件、获得到用户指定定位的方向、获得与用户指定的体育事件相关联的得分、将用户指定的内容发布到社交媒体网站或微博服务、记录用户指定的提醒或笔记、获得天气报告、获得当前时间、在用户指定的时间设置警报、获得用户指定的公司的股票价格、找到附近的商业机构、执行互联网搜索等。

在一个实施例中，代理可以在活动中与用户玩耍或与用户进行协作。例如，代理和用户可以一起协作绘图。绘图本身可能在共享环境上。如果用户在共享空间上绘制诸如苹果的对象，则代理可以将该对象识别为苹果并谈论该苹果。或者它可以向苹果增加绘制线条或视觉特征，诸如将其着色为红色。在另一个实施例中，代理和用户可以在共享环境上交互以在一些其他活动中协作，诸如播放音乐。该共享环境可以包括虚拟乐器，诸如木琴。用户可以敲击木琴键，并且代理可以相应地对此做出反应。代理可以通知在其共享空间上移动的项目、识别并反应共享空间上的对象。

导航因特网、应用、操作系统或任何其它计算机系统可以由代理和用户共同驱动。访问站点的用户可以是搜索或浏览(搜索新的或有趣的东西)。代理1可以促进站点浏览并且将站点浏览转换为实时活动而不是基于查询的检索。在一个实施例中，代理使用交互式对话来帮助用户进行站点搜索。代理可以使用“在后端”的另一搜索工具(其不向用户显示)作为传统搜索引擎(诸如Google)的结果。在传统的推荐系统中，用户必须执行从浏览网页的空间到与搜索助手显式交互的智力“背景切换”。本文描述的经具体化的代理使得用户的浏览活动的思维流程不会由需要切换到独立的查询接口而中断。由于代理不断地观看浏览活动，所以代理的推荐会因为相关页面在用户的浏览活动中出现而是实时的。代理可以向用户示出如何在互联网网页上导航或执行动作。代理可能够“预览”未向用户显示的链接或链，并且因此警告用户关于作为“死端”的链接(看起来他们可能有兴趣读取链接文本或查看链接图像但结果并不是这样的链接)，或者花园路径是提供刚好足够的激励以保持跟随路径但最终导致死端的链接序列。在一个实施例中，可以向代理1提供一般站点语言的语法理解，并且可以在用户搜索在线信息方面帮助用户。用户可以要求代理向上或向下滚动、点击特定搜索链接、在浏览器中输入URL、返回到上一页或以其他方式导航。

代理可以帮助用户填写表单。如果代理有该用户的配置文件，则该代理可以自动填写该代理知道的有关该用户的详细信息。代理可能会向用户询问代理不确定的字段。在未成功输入表单的情况下(例如，用户已错过对密码的约束)，代理可能会从错误消息中标识出违反的约束，并要求用户对其进行更正。代理可以自动地导航到需要重新输入的字段和/或向其做姿势。

共享环境可用作用于代理1辅导用户3的画布，例如，代理1可要求用户3解决关于共享环境的数学方程并示出所有工作。代理1可以使用字符识别来感知用户写的数字和步骤。代理1可以诸如通过引用工作的不同行、清除错误或对错误加下划线或者向共享画布添加进一步的工作，以关于共享画布上的工作来进行对话并与用户交互。在实际主题中，代理可以帮助用户在虚拟或增强现实背景中学习。例如，为了促进医疗培训，代理1可以使用某人面前的工具，将工具传递给他们并让他们自己尝试。

优点

在人机交互中的早期工作突出了与“模型世界”交互的优点，在该计算设备接口内，对象和动作类似/反映现实世界中的对象和动作，这对于人类用户来说更直观。人工代理到用户界面的传统应用导致“魔幻世界”，在该魔幻世界中，世界由于隐藏手的工作而改变。通过实现由于可见的有帮助的手而世界改变的界面以及以有效的方式视觉地显示关于代理接收的输入(经由代理的注视方向/眼睛方向/身体语言)和代理的精神状态的信息，本文描述的实施例扩展人机交互和人工智能。用户现在可以视觉化导致界面操纵的、代理的思考过程和动作，而不是用户看到界面元素“自己移动”。用户可以直接观察代理的自主动作，并且代理可以观察界面中用户自主采取的动作。

直接在用户界面中而不是作为“背景”或“后端”操作的经具体化的代理增加了用户将感知软件像助理那样起作用的程度。如果用户将代理的动作感知为“我自己可以完成”的动作，则用户更愿意将代理概念化为助理角色。

在传统的命令行或菜单驱动界面中，用户执行输入、键入、系统接受输入、计算某个动作、显示结果，并等待下一个输入。当用户准备输入时，系统什么也不进行，且当系统运行时，用户在界面中什么也不进行。本文描述的实施例提供了可以独立地和并发地运行的代理。

本文描述的方法促进用户通过持续的和/或引导的人机交互过程来执行操作计算设备的任务。将自主代理的能力限制为可通过传统输入设备或方法所仿真的动作可促进代理引导用户，因为代理不能采取快捷方式。

本发明的实施例可以在旧有应用程序(被写为与现在通常过时的输入/输出设备和用户界面通信)和包括本文描述的经具体化的自主代理的用户界面之间有用地转换，使得与旧有程序相关联的逻辑和数据可以继续在新颖的交互背景中使用。

本文描述的实施例避免了在输出中预先记录的或预定义的动画和/或对话与运行时生成的期望行为之间的同步的需要。因此，不需要将固定长度的言语和/或非言语片段映射到运行时刻情况，并且在空间或时间上同步以适合可变和/或动态数字内容。不需要将言语和非言语行为同步作为包括驱动二者的神经行为模型的代理模拟。

参考经由计算机视觉的代理感知而描述的实施例可以利用DOM解析、计算机视觉和/或自然语言处理中的技术，来模拟在观看数字内容时发生的人工处理，以自动提取有用信息并与数字内容交互。代理能够向交互模块发送消息或请求，该交互模块具体化与被操作对象相关并兼容的动作。这些动作允许代理以抽象的方式控制所有类型的浏览器托管的内容并与之交互。因此，以能够保持对话知识与应用知识分离的方式来对用户-机器交互进行建模。该机会显著降低了将交互系统从应用域移动到新应用域的成本。通过代理的严格时间模型和体系结构实现了UI交互的实时性能和定时控制。代理对用户输入的实时响应在动作的按时执行期间将系统的每个部分的时延保持在最小值。

允许代理与模拟环境中的项目交互的优点在于，这创建了看起来更自然的交互，并使代理1在用户的眼睛中是活的。例如，代理与之交互的内容项目可以被模拟为具有质量和其他物理特性。如由数字内容供应商所定义的，由数字内容供应商提供的元素仍被本地渲染。

提供具有功能可见性的概念性对象允许代理感知该代理可用的动作，而不需要采取显著的认知处理/图像识别/推理，因此减少了计算处理能力和/或时间。使用交互模块的优点在于，它允许在不同背景或环境中的代理促进的交互的可缩放定制，并且使得计算机接口能够适应复杂度增加的技术。

解释

可以在任何合适的电子计算系统上使用所描述的方法和系统。根据下面描述的实施例，电子计算系统使用各种模块和引擎来利用本发明的方法。

该电子计算系统可以包括至少一个处理器、一个或多个存储器设备或用于连接到一个或多个存储器设备的接口、用于连接到外部设备以便使该系统能够接收来自一个或多个用户或外部系统的指令并对其进行操作的输入和输出接口、用于各个组件之间的内部和外部通信的数据总线，以及合适的电源。此外，电子计算系统可包括用于与外部和内部设备通信的一个或多个通信设备(有线或无线)，以及一个或多个输入/输出设备，诸如显示器、定点设备、键盘或打印设备。

该处理器被布置为执行作为程序指令存储在该存储器设备内的程序的步骤。程序指令使得能够执行如本文所述的执行本发明的各种方法。可以使用任何合适的软件编程语言和工具包(例如，基于C的言语和编译器)来开发或实施程序指令。此外，可以以任何合适的方式存储程序指令，使得它们可以被传送到存储器设备或由处理器读取，例如存储在计算机可读介质上。计算机可读介质可以是用于有形地存储程序指令的任何合适的介质，例如，固态存储器、磁带、光盘(CD-ROM或CD-R/W)、存储卡、闪存、光盘、磁盘或任何其他合适的计算机可读介质。

该电子计算系统被布置为与数据存储系统或设备(例如，外部数据存储系统或设备)通信以便检索相关数据。

应当理解，本文描述的系统包括被布置为执行本文描述的各种功能和方法的一个或多个元件。本文描述的实施例旨在向读者提供组成系统的元件的各种模块和/或引擎如何可以互连以使得能够实施功能的示例。此外，说明书的实施例以系统相关的细节解释了如何可以执行本文描述的方法的步骤。提供概念图以向读者指示各种数据元素如何在不同阶段由各种模块和/或引擎处理。

应当理解，可根据系统和用户要求相应地适应模块或引擎的布置和构造，以便可由与本文所述的模块或引擎不同的模块或引擎来执行各种功能，并且某些模块或引擎可被组合成单个模块或引擎。

应当理解，所描述的模块和/或引擎可以使用任何适当形式的技术来实施并提供有指令。例如，可以使用以任何合适的言语编写的任何合适的软件代码来实施或创建这些模块或引擎，其中，该代码然后被编译以产生可以在任何合适的计算系统上运行的可执行程序。可替代地，或者结合可执行程序，可以使用硬件、固件和软件的任何合适的混合来实施模块或引擎。例如，可以使用专用集成电路(ASIC)、片上系统(SoC)、现场可编程门阵列(FPGA)或任何其他合适的自适应或可编程处理设备来实施模块的部分。

可以使用专门编程为执行所描述的步骤的通用计算系统来实施本文描述的方法。或者，可以使用特定的电子计算机系统来实施本文所述的方法，诸如数据分类和视觉化计算机、数据库查询计算机、图形分析计算机、数据分析计算机、制造数据分析计算机、商业智能计算机、人工智能计算机系统等，其中，计算机已经特别适于对从与特定领域相关联的环境中采集的特定数据执行所述步骤。

提供具有功能可见性的概念性对象允许代理感知代理可用的动作，而无需采取显著的认知处理/图像识别/推理。

使用交互模块16的优点在于，它允许在不同背景或环境中的代理促进的交互的可缩放定制，并且使得计算机接口能够适应复杂度增加的技术。

发明内容

在一个方面，提供了一种用于在电子计算设备的终端用户显示设备上、对经具体化的人工代理与数字内容之间的交互视觉化的方法，该方法包括以下步骤：创建具有虚拟环境坐标的代理虚拟环境；在代理虚拟环境中模拟数字内容；在代理虚拟环境中模拟经具体化的人工代理；使经具体化的人工代理能够与所模拟的数字内容交互；以及在终端用户显示设备上显示经具体化的模拟代理与数字内容之间的交互。

在一个实施例中，虚拟环境是3D虚拟空间，并且虚拟环境坐标是3D坐标。可选地，交互是向数字内容项目移动或查看数字内容项目。可选地，该交互是向数字内容项目做姿势或者通过移动多关节效应器来触摸数字内容项目。可选地，使用逆运动学来模拟多关节效应器的移动。可选地，使用基于神经网络的关节位置到目标位置的映射来模拟多关节效应器的移动。

在另一方面，提供了一种用于经由经具体化的模拟代理与电子计算设备上的数字内容交互的方法，该方法包括以下步骤：在电子计算设备上的用户界面上向用户显示数字内容；创建具有虚拟环境坐标的代理虚拟环境；在代理虚拟环境中模拟数字内容；在代理虚拟环境中模拟经具体化的人工代理；使经具体化的人工代理能够与所模拟的数字内容交互；将交互转换成对用户界面上的数字内容的致动或操纵；以及通过将经具体化的人工代理叠加在数字内容上并在用户界面上显示数字内容和叠加的经具体化的人工代理来显示交互。

可选地，该虚拟环境为3D虚拟空间，且该虚拟环境坐标为3D坐标。可选地，在代理虚拟环境中将数字内容模拟为代理虚拟环境中的像素，每个像素具有代理虚拟环境中的坐标定位。可选地，所模拟的经具体化的交互是与数字内容相对应的像素的坐标与代理的身体之间的相交。可选地，转换所模拟的经具体化的交互包括：将经具体化的交互映射到输入设备事件。可选地，人类输入设备事件是鼠标事件、键盘事件或触摸屏事件。

在另一方面，提供了一种用于促进与电子计算设备的交互的系统，该系统包括：至少一个处理器设备，与该至少一个处理器通信的至少一个存储器设备；代理模拟器模块，其被布置为可由该处理器执行以模拟经具体化的代理；交互模块，其被布置为可由处理器执行以将数字内容转换为可由经具体化的代理感知的概念性对象，并使经具体化的代理能够与数字内容交互；渲染模块，其被布置为可由该处理器执行以渲染该数字内容、经具体化的代理以及该经具体化的代理与该数字内容的交互。

可选地，交互模块还被布置为将概念性对象上的经具体化的代理动作转换为对数字内容的改变。可选地，交互模块将概念性对象与呈现概念性对象相对于经具体化的代理的定位的坐标相关联。可选地，交互模块将概念性对象与对应的数字内容的一个或多个功能可见性相关联。可选地，计算设备是站点内容，并且交互模块是集成到站点内容中的JavaScript代码。在另一方面，提供了一种位于虚拟环境中的经具体化的代理，该虚拟环境创建在电子计算设备上，该经具体化的代理被编程为：接收来自现实世界环境的输入；接收来自虚拟环境的输入；以及根据来自现实世界环境和虚拟环境的输入而进行行为，其中，经由来自现实世界环境和虚拟环境两者的连续反馈回路，来接收来自现实世界环境和虚拟环境的、所接收的输入。

在另一方面，提供了一种在电子计算设备上实施的、用于模拟与用户的交互的经具体化的代理模拟器，该代理模拟器被编程为：接收用户输入；接收包括与显示给用户的数字内容有关的信息的数字内容输入；以及通过基于用户的自然语言声明和数字内容输入两者生成对用户的响应来模拟与用户的会话。

可选地，对用户的响应和/或输入是言语的。可选地，言语响应和/或输入是听觉的或文本的。可选地，对用户的响应和/或输入是视觉的。可选地，言语响应和/或输入是姿势或面部表情。

在另一方面，提供了一种用于促进与电子计算设备的用户交互的方法，该电子计算设备具有显示和输入装置、至少一个处理器和用于存储指令的存储器，该处理器被编程为：定义具有虚拟环境坐标的虚拟环境；确定相对于显示器的现实世界物理尺寸的坐标尺寸；在该虚拟环境中模拟经具体化的代理，该代理相对于该虚拟空间的位置由虚拟环境坐标定义；在该代理的虚拟环境中模拟一个或多个数字对象，该一个或多个数字对象相对于该虚拟环境的位置由虚拟环境坐标定义；使经具体化的代理使用关于该代理的虚拟环境坐标和该虚拟对象的虚拟环境坐标的信息能够与该一个或多个数字对象交互；以及在显示器上向用户显示代理与一个或多个数字对象之间的交互。

在另一方面，提供了一种用于提供具有模拟环境的经具体化的代理的方法，该模拟环境具有对来自该模拟环境外部的连续视觉输入的基本上实时的感知，该方法包括以下步骤：提供该经具体化的代理和/或模拟环境的编程定义与该连续视觉输入之间的接口；在代理的模拟的每个时间步处从模拟环境外部采集视觉输入，并且在每个时间步处将输入数据传送到经具体化的代理和/或模拟环境；以及将视觉输入输入到该代理的视觉系统中或在该代理的模拟环境内模拟该视觉输入。

在另一方面，提供了一种用于使模拟代理能够与用户界面交互的方法，包括以下步骤：将经由终端用户显示器可向用户显示的数字内容呈现给该模拟代理；将该人工代理的认知决定和/或身体移动转化为对控制该用户界面的人类输入设备的致动或操纵。

可选地，转换所模拟的经具体化的交互包括将人工代理和数字内容之间的经具体化的交互映射到输入设备事件。可选地，人类输入设备事件是鼠标事件、键盘事件或触摸屏事件。

在另一方面，提供了一种用于与人工代理交互的方法，该方法包括：在代理虚拟空间中模拟人工代理，通过在代理虚拟空间中模拟数字内容来呈现将被人工代理可感知的数字内容；在显示器上向用户显示人工代理虚拟空间和数字内容；从相机接收用户的图像；基于接收到的图像跟踪用户在显示器上的注视；以及基于至少包括用户的注视的用户输入，模拟人工代理、用户和数字内容之间的经具体化的交互。

可选地，使用用户眼睛角度和/或用户头部角度来跟踪用户注视。可选地，进一步包括跟踪该用户的眼睛移动，并且其中，该所模拟的经具体化的交互进一步基于该用户的眼睛移动。

可选地，使用用户眼角和/或用户头部角度来跟踪用户眼睛移动。可选地，用户输入包括言语输入。可选地，用户输入包括听觉或文本输入。可选地，用户输入包括触摸屏或鼠标移动。可选地，用户输入包括视觉输入。可选地，视觉输入是姿势或面部表情。可选地，姿势包括手臂、手或手指中的一者或多者的移动。可选地，人工代理、用户和数字内容之间的所模拟的经具体化的交互包括用户将注意力引导到代理虚拟空间的数字内容中的对象。

可选地，该方法包括跟踪人工代理的注视，并且其中，模拟经具体化的交互进一步基于应用于用户的注视和人工代理的注视的二元轮换模型。可选地，人工代理在交互期间通过尝试与用户的直接注视来指示它们的轮换的结束。可选地，当用户发起对该人工代理的直接注视时，该人工代理感知到该用户指示其轮换的结束。可选地，交互发生在虚拟现实环境中。可选地，该交互发生在增强现实环境中。

在另一方面，提供了一种用于在电子计算设备上实施的、模拟与用户的交互的经具体化的代理模拟器，该经具体化的代理模拟器被编程为：在代理虚拟空间中模拟人工代理、通过在代理虚拟空间中模拟数字内容来呈现将被人工代理可感知的数字内容；在显示器上向用户显示人工代理、人工代理虚拟空间和数字内容；从相机接收用户的图像；基于接收到的图像跟踪用户在显示器上的注视；以及基于至少包括用户的注视的用户输入，模拟人工代理、用户和数字内容之间的经具体化的交互。

可选地，使用用户眼睛角度和/或用户头部角度来跟踪用户的注视。可选地，进一步包括跟踪该用户的眼睛移动，并且其中，该所模拟的经具体化的交互进一步基于该用户的眼睛移动。可选地，使用用户眼睛角度和/或用户头部角度来跟踪用户眼睛移动。可选地，用户输入包括言语输入。可选地，用户输入包括听觉或文本输入。可选地，用户输入包括触摸屏或鼠标移动。可选地，用户输入包括视觉输入。可选地，视觉输入是姿势或面部表情。可选地，姿势包括手臂、手或手指中的一者或多者的移动。可选地，人工代理、用户和数字内容之间的所模拟的经具体化的交互包括：用户将注意力引导到代理虚拟空间的数字内容中的对象。可选地，该方法包括：跟踪人工代理的注视，并且其中，模拟经具体化的交互进一步基于应用于用户的和人工代理的注视的二元轮换模型。可选地，人工代理在交互期间通过尝试与用户的直接注视来指示它们的轮换的结束。可选地，当用户发起对该人工代理的直接注视时，该人工代理感知到该用户指示其轮换的结束。可选地，交互发生在虚拟现实背景中。可选地，该交互发生在增强现实环境中。

在另一方面，提供了一种用于与人工代理交互的方法，该方法包括：在代理虚拟空间中模拟人工代理，通过在代理虚拟空间中模拟数字内容来呈现将被人工代理可感知的数字内容；在显示器上向用户显示人工代理、人工代理虚拟空间和数字内容；从相机接收用户和用户的环境的图像；基于接收到的图像跟踪用户的注视；以及基于至少包括用户的注视的用户输入，模拟人工代理、用户、用户的环境和数字内容之间的经具体化的交互。

可选地，使用用户眼睛角度和/或用户头部角度来跟踪用户注视。可选地，进一步包括跟踪该用户的眼睛移动，并且其中，该所模拟的经具体化的交互进一步基于该用户的眼睛移动。可选地，使用用户眼睛角度和/或用户头部角度来跟踪用户眼睛移动。可选地，用户输入包括言语输入。可选地，用户输入包括听觉或文本输入。可选地，用户输入包括触摸屏或鼠标移动。可选地，用户输入包括视觉输入。可选地，视觉输入是姿势或面部表情。可选地，姿势包括手臂、手或手指中的一者或多者的移动。可选地，人工代理、用户、用户的环境和数字内容之间的模拟的经具体化的交互包括：用户将注意力引导到代理虚拟空间的数字内容中的对象或用户的环境中的对象。可选地，该方法包括跟踪人工代理的注视，并且其中，模拟经具体化的交互进一步基于应用于用户的和人工代理的注视的二元轮换模型。可选地，人工代理在交互期间通过尝试与用户的直接注视来指示它们的轮换的结束。可选地，当用户发起对该人工代理的直接注视时，该人工代理感知到该用户指示其轮换的结束。可选地，交互发生在虚拟现实环境中。可选地，该交互发生在增强现实环境中。

一种用于与人工代理交互的经具体化的代理模拟器，该方法包括：在代理虚拟空间中模拟人工代理，通过在代理虚拟空间中模拟数字内容来呈现将被人工代理可感知的数字内容；在显示器上向用户显示人工代理、人工代理虚拟空间和数字内容；从相机接收用户和用户的环境的图像；基于接收到的图像跟踪用户的注视；以及基于至少包括用户的注视的用户输入，模拟人工代理、用户、用户的环境和数字内容之间的经具体化的交互。

在另一方面：一种实施用于与人工代理交互的系统的方法，该方法包括：在代理虚拟空间中模拟人工代理，在显示器上向用户显示人工代理和人工代理虚拟空间；从相机接收用户的图像；跟踪用户的注意力；将注意力模型应用于用户的注意力并向人工代理提供输出；以及基于注意力模型的输出来模拟人工代理与用户之间经具体化的交互。

在另一方面，一种在电子计算设备上实施的、用于模拟与用户的交互的经具体化的代理模拟器，该经具体化的代理模拟器被编程为：在代理虚拟空间中模拟经具体化的代理，在显示器上向用户显示人工代理和经具体化的代理虚拟空间；从相机接收用户的图像；基于接收到的图像跟踪用户注意力；将注意力模型应用于用户的注意力并向经具体化的代理提供输出；以及基于注意力模型的输出来模拟经具体化的代理与用户之间的经具体化的交互。

可选地，注意力模型也适用于人工代理的注意力。可选地，该方法包括从该相机接收该用户的空间的图像。可选地，该方法包括通过在代理虚拟空间中模拟数字内容来呈现将被人工代理可感知的数字内容，该数字内容对于用户是可见的。可选地，跟踪用户注意力包括跟踪用户的注视。可选地，跟踪用户的注意力包括跟踪用户的眼睛移动。可选地，跟踪用户的注意力包括跟踪用户在显示器上的眼睛移动。可选地，该方法包括跟踪人工代理的注视，并且其中，注意力模型还应用于人工代理的注视。可选地，注意力模型包括显著性因子，并且由人工代理和用户共同关注的对象显著性增加。任选地，对象是人和/或物。可选地，该显著性因子包括基于该用户和该人工代理的显著性注视映射的加权显著性注视因子。可选地，该加权显著性注视因子被计算为：第一加权乘以该人工代理的注视映射加第二加权乘以该用户注视映射加第三加权乘以该人工代理的注视映射乘以该用户注视映射。可选地，显著性因子包括基于用户和人工代理的显著性点映射的加权显著性点因子。可选地，将加权显著性点映射因子计算为：第一加权乘以人工代理的点映射加上第二加权乘以用户点映射加上第三加权乘以人工代理的点映射乘以用户点映射。可选地，注意力模型还被应用于用户的眼睛移动、用户的动作、用户的环境中的对象以及用户的环境中的动作。可选地，对象是人和/或物。可选地，注意力模型也被应用于用户输入。可选地，用户输入包括听觉或文本输入。可选地，输入包括言语输入。可选地，用户输入包括触摸屏或用户鼠标移动。可选地，用户输入包括视觉输入。可选地，视觉输入是姿势或面部表情。可选地，姿势包括手臂、手或手指中的一者的移动。可选地，注意力模型还被应用于人工代理背景中的人工代理的动作和动作。可选地，使用用户眼角和/或用户头部角度来跟踪用户的眼睛移动和注视。可选地，人工代理、用户和数字内容之间的所模拟的经具体化的交互包括用户将注意力引导到代理虚拟空间的数字内容中的对象。可选地，该方法包括跟踪人工代理的注视，并且其中，模拟经具体化的交互还基于应用于用户的和人工代理的注视的二元轮换模型。可选地，人工代理在交互期间通过尝试与用户的直接注视来指示他们的轮换的结束。可选地，人工代理在交互期间通过言语提示指示他们轮换的结束。可选地，人工代理在交互期间通过非言语提示指示他们的轮换的结束。可选地，非言语提示包括微笑、眨眼、头部的移动、身体的移动(包括手臂、手和手指)。可选地，当用户发起对人工代理的直接注视时，人工代理在交互期间感知到用户指示他们的轮换结束。可选地，当用户使用言语提示时，人工代理感知到用户指示他们的轮换的结束。可选地，当用户使用非言语提示时，人工代理感知到用户指示他们的轮换的结束。可选地，非言语提示包括微笑、眨眼、头部的移动、身体的移动(包括手臂、手和手指)。可选地，交互发生在虚拟现实环境和/或增强现实环境中。可选地，人工代理在交互的至少一部分期间在显示器上不可见。

Claims

1.一种用于在电子计算设备的终端用户显示设备上、对经具体化的人工代理与数字内容之间的交互视觉化的方法，所述方法包括以下步骤：

创建具有虚拟环境坐标的代理虚拟环境；在所述代理虚拟环境中模拟所述数字内容；

在所述代理虚拟环境中模拟所述经具体化的人工代理；

使所述经具体化的人工代理能够与所模拟的数字内容交互；

以及在所述终端用户显示设备上显示所述经具体化的模拟代理与所述数字内容之间的所述交互。

2.根据权利要求1所述的方法，其中，所述虚拟环境是3D虚拟空间，并且所述虚拟环境坐标是3D坐标。

3.根据权利要求2所述的方法，其中，所述交互是包括以下各项的组中的一者或多者：向所述数字内容移动、查看所述数字内容、向数字内容做姿势、或通过移动多关节效应器来触摸所述数字内容项目。

4.根据权利要求3所述的方法，其中，在所述代理虚拟环境内的平面上模拟数字内容。

5.一种用于经由经具体化的人工代理与电子计算设备上的数字内容交互的方法，所述方法包括以下步骤：

在所述电子计算设备上的用户界面上向用户显示所述数字内容；

创建具有虚拟环境坐标的代理虚拟环境；

在所述代理虚拟环境中模拟所述数字内容；

在所述代理虚拟环境中模拟所述经具体化的人工代理；

使所述经具体化的人工代理能够与所模拟的数字内容交互；

将所述交互转换成对所述用户界面上的所述数字内容的致动或操纵；

以及通过将所述经具体化的人工代理与所述用户界面上的数字内容叠加、重叠和/或融合来显示所述交互。

6.根据权利要求5所述的方法，其中，所述数字内容在所述代理虚拟环境中被模拟为所述代理虚拟环境中的一个或多个像素，每个像素在所述代理虚拟环境中具有坐标定位。

7.根据权利要求6所述的方法，其中，所述交互是与数字内容相对应的像素的坐标与所述代理的身体之间的相交。

8.根据权利要求7所述的方法，其中，转换所模拟的经具体化的交互包括：将所述经具体化的交互映射到输入设备事件。

9.根据权利要求8所述的方法，其中，人类输入设备事件是包括以下的组中的一者或多者：鼠标事件、键盘事件或触摸屏事件。

10.一种用于促进与电子计算设备的交互的系统，所述系统包括：

至少一个处理器设备；

与所述至少一个处理器通信的至少一个存储器设备；

代理模拟器模块，被布置为能由所述处理器执行以模拟经具体化的代理；交互模块，被布置为能由所述处理器执行以将数字内容转换为能由所述经具体化的代理感知的概念性对象，并使所述经具体化的代理能够与所述数字内容交互；渲染模块，被布置为能由所述处理器执行以渲染所述数字内容、所述经具体化的代理以及所述经具体化的代理与所述数字内容的所述交互。

11.根据权利要求10所述的系统，其中，所述交互模块还被布置为将所述概念性对象上的经具体化的代理动作转换成对所述数字内容的改变。

12.根据权利要求11所述的系统，其中，所述交互模块将概念性对象与呈现所述概念性对象相对于所述经具体化的代理的定位的坐标相关联。

13.根据权利要求10至12中任一项所述的系统，其中，所述交互模块将概念性对象与对应的数字内容的一个或多个功能可见性相关联。

14.根据权利要求13所述的系统，其中，所述计算设备提供站点内容，并且所述交互模块是集成到所述站点内容中的JavaScript代码。

15.一种位于虚拟环境中的经具体化的代理，所述虚拟环境创建在电子计算设备上，所述经具体化的代理被编程为：

接收来自现实世界环境的输入；

接收来自所述虚拟环境的输入；

并且根据来自所述现实世界环境和所述虚拟环境的输入而进行行为，

其中，经由来自所述现实世界环境和所述虚拟环境两者的连续反馈回路，来实时接收来自所述现实世界环境和所述虚拟环境的、所接收的输入。