CN112204563A

CN112204563A - 用于基于用户通信的视觉场景构建的系统和方法

Info

Publication number: CN112204563A
Application number: CN201980026033.4A
Authority: CN
Inventors: J·尼尔森
Original assignee: De Mai Co ltd
Current assignee: De Mai Co ltd
Priority date: 2018-02-15
Filing date: 2019-02-15
Publication date: 2021-01-08
Also published as: EP3752958A1; EP3752958A4; US20190251716A1; WO2019161249A1

Abstract

本示教涉及一种用于对场景进行可视化的方法、系统、介质和实施方式。首先，接收具有对视觉场景的描述的输入。在输入上进行语言学处理，以获得输入的语义，语义于是被用于生成用于对视觉场景进行呈现的场景日志。场景日志具体规定以下中的至少一者：视觉场景的背景；将在视觉场景中出现的一个以上的实体/对象；至少一个参数，其与一个以上的实体/对象相关联，将被用于以和输入的语义一致的方式，在背景中对一个以上过的实体/对象进行可视化。于是，基于场景日志，通过根据至少一个参数对背景和一个以上的实体/对象进行可视化，对视觉场景进行呈现。

Description

用于基于用户通信的视觉场景构建的系统和方法

相关申请的交叉引用

本申请要求2018年2月15日提交的美国临时申请62/630,892的优先权，其内容全文并入此处作为参考。

本申请与2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0503025)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0461789)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0503026)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0461790)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0503027)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0461808)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0503028)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0461809)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0503029)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0461810)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0503030)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0461819)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0503031)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0461811)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0502960)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0502961)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0503035)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0461814)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0502963)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0502966)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0502964)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0502965)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0503032)、2019年2月15日提交的国际申请_________(代理人案卷号047437-0461820)、2019年2月15日提交的美国专利申请_________(代理人案卷号047437-0503017)有关，其全部内容并入此处作为参考。

技术领域

本示教一般涉及计算机。具体而言，本示教涉及计算机化的智能代理。

背景技术

由于互联网连接无处不在，带来人工智能技术的进步和基于互联网的通信的蓬勃发展，因此，计算机辅助的对话系统日渐普及。例如，越来越多的呼叫中心配置自动对话机器人来处理用户呼叫。酒店开始安装能够回答旅客或客人问题的多种售货亭。在线预订(无论是旅游住宿还是剧场票务等)也越来越频繁地用聊天机器人完成。近些年来，其他领域内的自动人机通信也变得越来越普遍。

基于不同领域中公知的会话模式，这样的传统计算机辅助对话系统通常用特定的问题和回答预先编程。不巧的是，人类会话者可能无法预测，有时不会遵从预先计划的对话模式。另外，在某些情况下，人类会话者可能在该过程中离题，继续固定的会话模式可能令人恼火或失去兴趣。当这种情况发生时，这种机器传统对话系统常常不能继续吸引人类会话者参与，故使人机对话或者中辍、将任务交给人类操作员，或者，人类会话者直接离开对话，而这是不希望看到的。

另外，传统的基于机器的对话系统常常并非设计为处理人的情绪因素，更不用说在与人类进行会话时将如何处理这种情绪因素考虑在内。例如，传统的机器对话系统常常不会发起会话，除非人启动系统或问某些问题。即使传统对话系统发起会话，它具有开始会话的固定方式，不会因人而异或是基于观察进行调整。因此，尽管它们被编程为忠实遵循预先设计的对话模式，它们通常不能就会话的动态发展做出行动以及进行自适应，以便使会话以能吸引人参与的方式进行。在许多情况下，当涉入对话的人明显心烦或感到不满时，传统的机器对话系统浑然不觉，还以使那人心烦的同种方式继续会话。这不仅使得会话不愉快地结束(机器对此还是不知情)，而且使那人在将来不愿意与任何基于机器的对话系统进行会话。

在某些应用中，为了判断如何有效进行下去，基于从人观察到的内容来执行人机对话线程是至为重要的。一个例子是教育相关的对话。当聊天机器人用于教孩子阅读时，必须监视孩子是否以正被施教的方式具有感知力，并持续处理以便有效进行。传统对话系统的另一限制是它们对背景的毫无意识。例如，传统的对话系统不具有这样的能力：观察会话的背景并即兴产生对话策略，从而吸引用户参与，并改善用户体验。

因此，存在对解决这些限制的方法和系统的需求。

发明内容

这里公开的示教涉及用于计算机化的智能代理的方法、系统和程序设计。

在一实例中，公开了一种在机器上实现的方法，该机器具有至少一个处理器、存储器和能够连接到网络的通信平台，该方法用于对场景进行可视化。首先，接收具有视觉场景描述的输入。在输入上进行语言学处理，以获得输入的语义，然后，其将被用于生成用于对视觉场景进行呈现的场景日志。场景日志具体规定视觉场景的背景、将要出现在视觉场景中的一个以上的实体/对象、至少一个参数中的至少一者，该参数与一个以上的实体/对象相关联，将被用于在背景中以与输入的语义一致的方式对一个以上的实体/对象进行可视化。通过根据至少一个参数对背景和一个以上的实体/对象进行可视化，视觉场景于是基于场景日志得到呈现。

在一不同的实例中，用于对场景进行可视化的系统。系统包含基于文本输入的场景理解单元和基于语义的视觉场景呈现单元。基于文本输入的场景理解单元被配置为，接收具有视觉场景描述的输入，执行输入的语言学处理以获得输入的语义，并基于输入的语义生成将被用于对视觉场景进行呈现的场景日志。所生成的场景日志包含视觉场景的背景、将要出现在视觉场景中的一个以上的实体/对象、以及至少一个参数中的至少一者，该参数与一个以上的实体/对象相关联，将被用于在背景中以与输入的语义一致的方式对一个以上的实体/对象进行可视化。基于语义的视觉场景呈现单元被配置为，通过根据至少一个参数对背景和一个以上的实体/对象进行可视化，基于场景日志对视觉场景进行呈现。

其他的概念涉及实现本示教的软件。根据此概念的软件产品包含至少一个机器可读的非暂时性介质以及由该介质承载的信息。由该介质承载的信息可以是可执行程序代码数据、与可执行程序代码相关联的参数和/或与用户、请求、内容或其它附加信息有关的信息。

在一实例中，机器可读的非暂时性有形介质上记录有用于对场景进行可视化的数据，其中，该介质在由机器读取时使得机器执行一系列的步骤。首先，接收具有视觉场景描述的输入。在输入上进行语言学处理，以获得输入的语义，然后，其将被用于生成用于对视觉场景进行呈现的场景日志。场景日志具体规定视觉场景的背景、将要出现在视觉场景中的一个以上的实体/对象、至少一个参数中的至少一者，该参数与一个以上的实体/对象相关联，将被用于在背景中以与输入的语义一致的方式对一个以上的实体/对象进行可视化。通过根据至少一个参数对背景和一个以上的实体/对象进行可视化，视觉场景于是基于场景日志得到呈现。

其他的优点和新特征将部分在下面的说明书中给出，部分将由本领域技术人员在检视下面的说明书和附图时明了或通过制造或运行实例来习得。本示教的优点可通过实践和应用下面讨论的详细实例中给出的方法、设备以及组合的多种实施形态来实现和获得。

附图说明

这里介绍的方法、系统和/或程序设计进一步以示例性实施例的方式描述。这些示例性实施例参照附图详细介绍。这些实施例是非限制性的示例性实施例，其中，贯穿几幅附图，类似的参考标号代表类似的结构，其中：

图1示出了根据本示教一实施例，用于促成操作用户装置的用户与连同用户交互引擎的代理装置之间的对话的网络环境；

图2A-2B示出了根据本示教一实施例，在对话过程中，在用户装置、代理装置和用户交互引擎之间的连接；

图3A示出了根据本示教一实施例，具有示例性类型的代理身体的代理装置的示例性结构；

图3B示出了根据本示教一实施例的示例性代理装置；

图4A示出了根据本示教多种实施例，用于自动伴侣的整体系统的示例性高层次系统图；

图4B示出了根据本示教一实施例，具有基于自动伴侣与用户之间的交互采取的路径的正在进行的对话的对话树的一部分；

图4C示出了根据本示教一实施例的示例性人类-代理装置交互和由自动伴侣执行的示例性处理；

图5示出了根据本示教一实施例，在自动对话伴侣的不同处理层之间的示例性多层处理和通信；

图6示出了根据本示教一实施例，用于基于人工智能的教育伴侣的示例性高层次系统框架；

图7示出了根据本示教的实施例，基于用户的言语呈现视觉场景的框架；

图8示出了根据本示教一实施例，基于用户的言语呈现的视觉场景的实例；

图9A示出了根据本示教一实施例，基于语义的线程场景日志的示例性构造；

图9B示出了根据本示教一实施例，场景日志的示例性组织和内容；

图10示出了根据本示教一实施例，基于语音输入的场景理解单元的示例性高层次系统图；

图11为根据本示教一实施例，基于语音输入的场景理解单元的示例性过程的流程图；

图12示出了根据本示教一实施例，基于语音输入的视觉场景呈现单元的示例性高层次系统图；

图13为根据本示教一实施例，基于语音输入的视觉场景呈现单元的示例性过程的流程图；

图14为示例性移动装置架构的示例性图，其可用于实现根据多种实施例实施本示教的特定系统；

图15为示例性计算装置架构的示例性图，其可用于实现根据多种实施例实施本示教的特定系统。

具体实施方式

在下面的具体介绍中，通过举例的方式，给出了多种具体细节，以便提供对相关示教的详尽理解。然而，本领域技术人员应当明了，本示教可以在没有这些细节的情况下实现。在其他的实例中，公知的方法、过程、部件和/或电路以相对较高的层次介绍而没有细节，从而避免不必要地模糊本示教的实施形态。

本示教目标在于解决传统的人机对话系统的不足之处，并提供使得更为有效且真实的人机对话成为可能的系统和方法。本示教将人工智能并入具有代理装置的自动伴侣，其与来自用户交互引擎的支柱支持(backbone support)配合，故使自动伴侣能够基于连续监视的指示对话周边情况的多模态数据来执行对话，自适应地推定对话参与者的心态/情绪/意图，并基于动态改变的信息/推定/背景信息来适应性地调整会话策略。

通过多个面向的自适应，包括但不限于会话的主题、用于进行会话的硬件/部件以及用于向人类会话者发送响应的表情/行为/姿态，根据本示教的自动伴侣能够对对话进行个性化。通过基于人类会话者对于对话的接受度有多高的观察来灵活地改变会话策略，自适应控制策略将使得会话更加真实且富有成效。根据本示教的对话系统可被配置为实现目标驱动的策略，包括动态配置被认为是最适合实现预期目的的硬件/软件部件。这样的最优化基于学习来进行，包括从以前的会话进行学习，以及通过在会话期间关于某些预期目标连续评估人类会话者的行为/反应，从正在进行的会话进行学习。为实现目标驱动策略而开发的路径可被确定为使人类会话者保持参与会话，即使在某些实例中，某些时刻的路径可能看起来偏离预期目标。

具体而言，本示教公开了一种用户交互引擎，其向代理装置提供支柱支持，以促成与人类会话者的更为真实且参与度更高的对话。图1示出了根据本示教一实施例的网络环境100，网络环境用于促成在操作用户装置的用户和与用户交互引擎协同的代理装置之间的对话。在图1中，示例性的网络环境100包含：一个以上的用户装置110，例如用户装置110-a、110-b、110-c和110-d；一个以上的代理装置160，例如代理装置160-a、……、160-b；用户交互引擎140；以及，用户信息数据库130，其中的每一个可以经由网络120彼此通信。在某些实施例中，网络120可对应于单个网络或者不同网络的组合。例如，网络120可以是局域网(“LAN”)、广域网(“WAN”)、公用网络、专用网络、公共交换电话网(“PSTN”)、互联网、内联网、蓝牙网络、无线网络、虚拟网络和/或其任何组合。在一实施例中，网络120也可包含多个网络接入点。例如，环境100可包含有线或无线接入点，例如但不限于基站或互联网交换点120-a、……、120-b。基站120-a和120-b可促成例如到/来自用户装置110和/或代理装置160的与联网框架100中的一个以上的其他部件在不同类型的网络上的通信。

用户装置(例如110-a)可以出于不同的类型，以促成操作用户装置的用户连接到网络120并发送/接收信号。这样的用户装置110-a可对应于任何合适类型的电子/计算装置，包括但不限于桌面计算机(110-d)、移动装置(110-a)、包含在运输工具(110-b)中的装置、……、移动计算机(110-c)，或为固定装置/计算机(110-d)。移动装置可包括但不限于移动电话、智能电话、个人显示装置、个人数字助理(“PDA”)、游戏机/装置、例如手表、Fibit、别针/胸针、耳机等的可穿戴装置。带有一装置的运输工具可包括汽车、卡车、摩托车、客船、轮船、火车或飞机。移动计算机可包括笔记本电脑、超级本、手持式装置等。固定装置/计算机可包括电视机、机顶盒、智能家居装置(例如冰箱、微波炉、洗衣机或干衣机、电子助理等)和/或智能配件(例如灯泡、电灯开关、电子相框等)。

代理装置(例如160-a、……、160-b中的任何一个)可对应于不同类型装置中的一个，该装置可与用户装置和/或用户交互引擎140通信。如下面更为详细地介绍的，每个代理装置可被看作自动伴侣装置，其在例如来自用户交互引擎140的支柱支持下与用户接口。这里介绍的代理装置可对应于机器人，其可以是游戏装置、玩具装置、指定的代理装置，例如旅游代理或天气代理，等等。这里公开的代理装置能够促成和/或帮助与操作用户装置的用户的交互。通过这样，代理装置可被配置为机器人，经由来自应用服务器130的后端支持，其能够控制其某些部件，例如，做出某些身体移动(例如头部)，表现出特定的面部表情(例如笑弯眼睛)，或以特定的嗓音或音调(例如兴奋的音调)说话以表现特定的情绪。

当用户装置(例如用户装置110-a)被连接到例如160-a的代理装置时(例如经由接触或无接触连接)，在例如110-a的用户装置上运行的客户端可以与自动伴侣(代理装置或用户交互引擎或二者)通信，以便使得操作用户装置的用户与代理装置之间的交互式对话成为可能。客户端可以在某些任务中独立动作，或者，可以由代理装置或用户交互引擎140远程控制。例如，为了响应来自用户的问题，代理装置或用户交互引擎140可以控制在用户装置上运行的客户端，以便向用户呈现响应的语音。在会话过程中，代理装置可包含一个以上的输入机制(例如照相机、麦克风、触摸屏、按钮等)，其允许代理装置捕获与用户或与会话相关联的本地环境有关的输入。这样的输入可帮助自动伴侣建立对会话周围的氛围(例如用户的移动，环境的声音)以及人类会话者心态(例如用户捡起球，这可能表示用户厌倦了)的理解，从而使得自动伴侣能够相应地反应，并以将保持用户感兴趣和参与的方式进行会话。

在所示的实施例中，用户交互引擎140可以是后端服务器，其可以是集中式的或分布式的。它被连接到代理装置和/或用户装置。它可被配置为向代理装置160提供支柱支持，并引导代理装置以个性化和定制化的方式执行会话。在某些实施例中，用户交互引擎140可接收来自所连接装置(代理装置或用户装置)的信息，分析这些信息，并通过向代理装置和/或用户装置发送指示来控制会话的流动。在某些实施例中，用户交互引擎140也可直接与用户装置通信，例如提供动态数据(例如，用于在用户装置上运行的客户端的控制信号，以呈现特定的响应)。

一般而言，用户交互引擎140可控制用户与代理装置之间的会话的流动和状态。各个会话的流动可以基于与会话相关联的不同类型的信息受到控制，例如，关于参与会话的用户的信息(例如来自用户信息数据库130)、会话历史、会话周边情况信息、和/或实时用户反馈。在某些实施例中，用户交互引擎140可以被配置为获得多种传感器输入(例如但不限于音频输入、图像输入、触觉输入和/或背景输入)，处理这些输入，阐述对人类会话者的理解，相应地基于这种理解生成响应，并控制代理装置和/或用户装置，以便基于响应进行会话。作为一说明性实例，用户交互引擎140可接收表征来自操作用户装置的用户的言语的音频数据，并生成响应(例如文本)，于是，该响应可以以计算机生成言语的形式作为对用户的响应被传送给用户。作为另一实例，用户交互引擎140也可响应于该言语生成一个以上的指示，其控制代理装置执行特定的动作或动作组。

如所示的，在人机对话过程中，用户作为对话中的人类会话者可通过网络120与代理装置或用户交互引擎140通信。这样的通信可涉及多种模态的数据，例如音频、视频、文本等。经由用户装置，用户可发送数据(例如请求、表征用户言语的音频信号、或用户周边的场景的视频)和/或接收数据(例如来自代理装置的文本或音频响应)。在某些实施例中，多种模态的用户数据在被代理装置或用户交互引擎140接收到时可被分析，以理解人类用户的语音或姿态，故使用户的情绪或意图可被推定并用于确定对用户的响应。

图2A示出了根据本示教一实施例，在对话过程中，在用户装置110-a、代理装置160-a和用户交互引擎140之间的特定连接。可以看到，任何两方之间的连接全部可以是双向的，如这里所讨论的。代理装置160-a可以与用户经由用户装置110-a接口，以便以双向通信执行对话。一方面，代理装置160-a可以由用户交互引擎140控制，以便向操作用户装置110-a的用户说出响应。另一方面，来自用户现场的输入，包括例如用户的言语或动作以及关于用户周边情况的信息，经由连接被提供给代理装置。代理装置160-a可被配置为处理这种输入，并动态调节其对用户的响应。例如，代理装置可被用户交互引擎140指示为在用户装置上呈现树。知道用户周围环境(基于来自用户装置的视觉信息)显示出绿色的树和草地，代理装置可以把将被呈现的树定制为繁茂的绿树。如果来自用户现场的场景显示正值冬季，代理装置可进行控制，以便用对于没有叶子的树的参数在用户装置上呈现树。作为另一实例，如果代理装置被指示为在用户装置上呈现鸭子，代理装置可从用户信息数据库130取得关于颜色偏好的信息，并在发送用于向用户装置呈现的指示之前生成以用户偏好颜色对鸭子进行定制的参数。

在某些实施例中，来自用户现场的这些输入以及其处理结果也可被发送到用户交互引擎140，用于促成用户交互引擎140更好地理解与对话相关联的具体情况，使得用户交互引擎140可确定对话的状态、用户的情绪/心态，并生成基于对话的具体情况以及对话的预期目的(例如用于教小孩英语词汇)的响应。例如，如果从用户装置接收的信息指示用户看上去厌倦并变得不耐烦，用户交互引擎140可判断为将对话的状态改变为用户感兴趣的话题(例如基于来自用户信息数据库130的信息)，以便继续使用户参与会话。

在某些实施例中，在用户装置上运行的客户端可以被配置为，能够处理从用户现场获取的不同模态的原始输入，并将处理的信息(例如原始输入的相关特征)发送到代理装置或用户交互引擎，以便进一步处理。这将减少通过网络传输的数据的量，并增强通信效率。类似地，在某些实施例中，代理装置也可被配置为能够处理来自用户装置的信息，并提取用于例如定制化目的的有用信息。尽管用户交互引擎140可控制对话的状态和流动控制，使得用户交互引擎140轻量级更好地改善了用户交互引擎140的规模(scale)。

图2B示出了与图2A所示相同的设置，且具有用户装置110-a的附加细节。如图所示，在用户和代理310之间的对话过程中，用户装置110-a可连续收集与用户及其周边情况有关的多模态传感器数据，其可被分析，以检测与对话有关的任何信息，并被用于以自适应的方式智能地控制对话。这可进一步增强用户体验或参与度。图2B示出了示例性的传感器，例如视频传感器230、音频传感器240、……、或触觉传感器250。用户装置也可发送文本数据，作为多模态传感器数据的一部分。这些传感器共同提供对话周边的背景信息，并可被用于由用户交互引擎140理解情况，以便管理对话。在某些实施例中，多模态传感器数据可首先在用户装置上被处理，不同模态的重要特征可被提取并发送到用户交互引擎140，故对话能以对背景的理解受到控制。在某些实施例中，原始多模态传感器数据可被直接发送到用户交互引擎140，用于处理。

由图2A-2B可见，代理装置可对应于具有不同部分(包括其头部210及其身体220)的机器人。尽管图2A-2B所示的代理装置显示为人形机器人，其可以以其他的形式被构建，例如鸭子、熊、兔子等。图3A示出了根据本示教一实施例，具有示例性类型的代理身体的代理装置的示例性结构。如所示的，代理装置可包括头和身体，头附着到身体。在某些实施例中，代理装置的头可具有附加的部分，例如面部、鼻子和嘴，它们中的一些可被控制为例如做出移动或表情。在某些实施例中，代理装置上的面部可对应于显示屏，显示屏上可呈现面部且该面部可以是人类的或动物的。这样显示的面部也可受到控制以表达情绪。

代理装置的身体部分也可对应于不同形态，例如鸭子、熊、兔子等。代理装置的身体可以是固定的、可动的或半可动的。具有固定身体的代理装置可对应于能放置在例如桌子的表面上的装置，从而与坐在桌边的人类用户进行面对面的会话。具有可动身体的代理装置可以对应于能够在例如桌面或地板的表面上到处移动的装置。这样的可动的身体可包括能在运动学上被控制以进行实体移动的部件。例如，代理身体可包括脚，其可被控制为在需要时在空间中移动。在某些实施例中，代理装置的身体可以是半可动的，即，有些部分可动，有些不可动。例如，具有鸭子外表的代理装置的身体上的尾巴可以是可动的，但鸭子不能在空间中移动。熊形身体代理装置也可具有可动的手臂，但熊只能坐在表面上。

图3B示出了根据本示教一实施例的示例性代理装置或自动伴侣160-a。自动伴侣160-a是使用语音和/或面部表情或身体姿态与人交互的装置。例如，自动伴侣160-a对应于具有不同部分的、电子操控(animatronic)的外围装置，包括头部310、眼部(照相机)320、具有激光器325和麦克风330的嘴部、扬声器340、具有伺服机构350的颈部、可用于无接触存在性检测的一个以上的磁体或其它部件360、以及对应于充电底座370的身体部分。在运行中，自动伴侣160-a可以连接到用户装置，其可包括经由网络连接的移动多功能装置(110-a)。一旦连接，自动伴侣160-a和用户装置经由例如语音、动作、姿态和/或经由用激光点指器的点指(pointing)而彼此交互。

自动伴侣160-a的其他示例性功能可以包括响应于用户响应的反应式表达，例如，经由显示在例如作为自动伴侣面部的一部分的屏幕上的交互式视频卡通角色(例如化身(avatar))。自动伴侣可使用照相机(320)来观察用户的存在性、面部表情、注视方向、周边情况等。电子操控实施例可以通过点指其包含照相机(320)的头(310)来“看”，使用其麦克风(340)来“听”，通过引导能够经由伺服机构(350)移动的头(310)的方向来“点指”。在某些实施例中，代理装置的头也可由例如用户交互系统140或由用户装置(110-a)的客户端经由激光器(325)来远程控制。如图3B所示示例性自动伴侣160-a也可被控制为经由扬声器(330)来“说话”。

图4A示出了根据本示教多种实施例，用于自动伴侣的整体系统的示例性高层次系统图。在此所示实施例中，整体系统可包含驻留在用户装置、代理装置和用户交互引擎140中的部件/功能模块。这里所述的整体系统包含多个处理层和分级结构，它们一起执行智能方式的人机交互。在所示的实施例中有5个层，包括用于前端应用以及前端多模态数据处理的层1、用于对话设定的描绘的层2、对话管理模块所驻留的层3、用于不同参与者(人、代理、装置等)的推定心态的层4、用于所谓效用(utility)的层5。不同的层可对应于不同等级的处理，从层1上的原始数据采集和处理到层5上的改变对话参加者的效用的处理。

术语“效用”由此定义为基于与对话历史相关联地检测到的状态识别的参与者的偏好。效用可以与对话中的参与者相关联，无论该参与者是人、自动伴侣还是其他的智能装置。用于特定参与者的效用可表征世界的不同状态，无论是实物的、虚拟的或者甚至是精神的。例如，状态可以表征为对话所沿在世界的复杂地图中穿行的特定路径。在不同的实例中，当前状态基于多个参与者之间的交互而演化为下一状态。状态也可以是与参与者有关的，即，当不同参与者参加交互时，由这种交互带来的状态可能发生变化。与参与者相关联的效用可被组织为偏好的分级结构，且这样的偏好分级结构可基于在会话过程中做出的参与者选择以及表露出的喜好而随时间演化。这样的偏好(其可被表征为从不同选项中做出的有顺序的选择序列)被称为效用。本示教公开了这样的方法和系统：通过该方法和系统，智能自动伴侣能够通过与人类会话者的对话来学习用户的效用。

在支持自动伴侣的整体系统中，层1中的前端应用以及前端多模态数据处理可驻留在用户装置和/或代理装置中。例如，照相机、麦克风、键盘、显示器、呈现器、扬声器、聊天泡泡、用户接口元件可以是用户装置的部件或功能模块。例如，可能有在用户装置上运行的应用或客户端，其可包括图4A所示外部应用接口(API)之前的功能。在某些实施例中，超出外部API的功能可以被考虑为后端系统，或驻留在用户交互引擎140中。在用户装置上运行的应用可取得来自用户装置的电路或传感器的多模态数据(音频、图像、视频、文字)，对多模态数据进行处理，以生成表征原始多模态数据的特征的文字或其他类型的信号(例如检测到的用户面孔等对象、语音理解结果)，并发送到系统的层2。

在层1中，多模态数据可以经由例如为照相机的传感器、麦克风、键盘、显示器、扬声器、聊天泡泡、呈现器或其他用户接口元件来获取。可对这样的多模态数据进行分析，以推定或推断能用于推断更高层次的特性(例如表情、角色(character)、手势、情绪、动作、注意力、意图等)的多种特征。这样的更高层次的特性可由层2上的处理单元获得，接着，经由图4A所示的内部API，例如，由更高层次的部件用于在更高的概念层次上智能地推断或推定与对话有关的附加信息。例如，在层2上获得的所推定的对话参加者的情绪、注意力或其它特性可用于推定参加者的心态。在某些实施例中，这种心态也可在层4上基于附加的信息来推定，例如，记录的周边环境或这种周边环境中的其他附加信息，例如声音。

推定的参与者的心态，无论是与人还是自动伴侣(机器)有关，可被层3的对话管理所依赖，以便确定，例如，如何进行与人类会话者的会话。每个对话如何逐步发展常常表征人类用户的偏好。这样的偏好可以动态地在对话过程中在效用(层5)上被捕获。如图4A所示，层5上的效用表征演化的状态，其指示参与者的演化的偏好，它们也可由层3上的对话管理用于决定进行交互的合适或智能的方式。

不同层之间的信息共享可以经由API实现。在图4A中所示的某些实施例中，层1和其他层之间的信息分享经由外部API，而层2-5之间的信息分享经由内部API。能够明了，这仅仅是一种设计上的选择，其他的实现方式也可以实现这里给出的示教。在某些实施例中，通过内部API，多种层(2-5)可访问由其他层产生或存储的信息，以支持处理。这样的信息可包括将被应用到对话的通用配置(例如代理装置的角色是化身、优选的嗓音或将为对话产生的虚拟环境，等等)、对话的当前状态、当前对话历史、已知的用户偏好、推定的用户意图/情绪/心态等等。在某些实施例中，可从外部数据库访问能经由内部API分享的某些信息。例如，可从例如开源数据库访问与代理装置(例如鸭子)的希望的角色有关的特定配置，其提供参数(例如，视觉上呈现鸭子的参数，和/或呈现来自鸭子的语音需要的参数)。

图4B示出了根据本示教的实施例的正在进行的对话的对话树的一部分，其具有基于自动伴侣和用户之间的交互取得的路径。在此所示实例中，(自动伴侣的)层3中的对话管理可预测多种路径，与用户的对话(或一般地，交互)可以以该路径进行。在此实例中，各个节点可代表对话的当前状态的点，且节点的各个分支可代表来自用户的可能的响应。如此实例所示，在节点1上，自动伴侣可面临三种分立的路径，其可取决于从用户检测到的响应来取得。如果用户用肯定性的响应来回应，对话树400可从节点1进行到节点2。在节点2上，响应于来自用户的肯定性响应，可以为自动伴侣生成响应，于是，响应可被呈现给用户，其可包括音频、视觉、文本、触觉或其任何组合。

在节点1上，如果用户负面地响应，用于此阶段的路径是从节点1到节点10。如果用户在节点1上用“一般”响应来回应(例如，不是负面的，但也不是正面的)，对话树400可进行到节点3，在节点3上，来自自动伴侣的响应可被呈现，可存在来自用户的三种分立的可能响应，“无响应”、“正面响应”、“负面响应”，分别对应于节点5、6、7。取决于关于在节点3上呈现的自动伴侣响应的、用户的实际响应，层3上的对话管理于是可相应地延续对话。例如，如果用户在节点3上用正面响应来回应，自动伴侣移动到在节点6上回应用户。类似地，取决于用户对自动伴侣在节点6上的响应的反应，用户可进一步用正确的回答来响应。在这种情况下，对话状态从节点6移动到节点8，等等。在此所示的实例中，这一阶段期间的对话状态从节点1移动到节点3、到节点6、并到节点8。节点1、3、6、8的遍历构成与自动伴侣和用户之间的底层会话一致的路径。如图4B所示，代表该对话的路径由连接节点1、3、6、8的实线表示，而在该对话过程中跳过的路径用虚线表示。

图4C示出了根据本示教一实施例，由自动伴侣执行的示例性人-代理装置交互和示例性处理。如图4C所示，可以进行不同层上的操作，且它们一起以协调的方式促成智能对话。在所示的实例中，代理装置可首先在402处询问用户“你今天好吗？”以发起对话。响应于402处的言语，用户可以在404处用言语“好”来回应。为了管理对话，自动伴侣可以在对话过程中致动不同的传感器，以便做出对用户以及周边环境的观察。例如，代理装置可获取关于用户所处周边环境的多模态数据。这样的多模态数据可包括音频、视觉或文本数据。例如，视觉数据可捕获用户的面部表情。视觉数据也可揭示会话场景周围的背景信息。例如，场景的图像可揭示存在篮球、桌子和椅子，这提供了关于环境的信息，并可在对话管理中被利用，以便增强用户的参与度。音频数据可不仅捕获用户的语音响应，还捕获其他的周边信息，例如响应的音调、用户说出回应的方式或者用户的口音。

基于所获取的多模态数据，分析可以由自动伴侣(例如由前端用户装置或由后端用户交互引擎140)进行，以评估用户的态度、情绪、心态和效用。例如，基于视觉数据分析，自动伴侣可检测到用户表现出悲哀、无笑容、用户语音缓慢且嗓音低沉。对对话中的用户状态的描绘可在层2上基于在层1上获取的多模态数据来进行。基于这样检测的观察，自动伴侣可以推断(在406上)用户对当前话题不是那么感兴趣且参与度不高。例如，对用户的情绪或精神状态的这样的推断可以在层4上基于对与用户相关联的多模态数据的描绘来进行。

为了响应用户的当前状态(参与度不高)，自动伴侣可判断为使用户振奋，以便使用户更好地参与。在此所示的实例中，自动伴侣可以通过在408处向用户说出问题“你想玩游戏吗？”来利用会话环境中可用的东西。这样的问题可以通过将文本转换为语音(例如，使用为用户个性化的定制嗓音)以音频形式作为语音给出。在这种情况下，用户可通过在410处说“好”来回应。基于连续获取的与用户有关的多模态数据，例如，经由层2的处理，可能观察到响应于玩游戏的邀请，用户的眼睛看上去左顾右盼，特别是，用户的眼睛可能注视篮球所在的地方。同时，自动伴侣也可观察到，一旦听到玩游戏的建议，用户的面部表情从“悲伤”变为“微笑”。基于这样观察到的用户的特性，自动伴侣可在412处推断为用户对篮球感兴趣。

根据所获取的新信息以及基于其的推断，自动伴侣可以决定利用环境中可用的篮球来使用户在对话中的参与度更高，同时仍又实现对用户的教育目的。在这种情况下，层3中的对话管理可对会话进行适应以谈论游戏，并利用用户注视房间里的篮球这一观察，使得对话对用户来说更加有趣，同时仍实现例如对用户进行教育的目标。在一示例性实施例中，自动伴侣生成响应，建议用户玩拼写游戏(在414处)，并让用户拼写单词“篮球”。

在给定自动伴侣的根据对用户和环境的观察的自适应对话策略的情况下，用户可做出响应，提供单词“篮球”的拼写(在416处)。可连续就用户在回答拼写问题时有多热情进行观察。基于例如在用户回答拼写问题时获取的多模态数据所判断，如果用户看起来以更为欢快的态度迅速响应，自动伴侣可以在418处推断为用户现在参与度更高。为了进一步鼓励用户积极参加对话，自动伴侣于是可生成正面响应“做得好！”，并指示将此响应用欢快、鼓励、积极的嗓音传送给用户。

图5示出了根据本示教的多种实施例，在以对话管理器510为中心的自动对话伴侣的不同处理层之间的示例性通信。图中的对话管理器510对应于层3中的对话管理的功能部件。对话管理器是自动伴侣的重要部分，且其管理对话。按照传统，对话管理器将用户的言语取作输入，并判断如何对用户做出响应。这在不考虑用户偏好、用户的心态/情绪/意图或对话的周边环境的情况下做出，也就是说，不为相关世界的不同的可用状态授予任何权重。缺少对周边世界的了解常常限制了人类用户和智能代理之间会话的参与度或感知的真实性。

在本示教的某些实施例中，充分运用与正在进行的对话有关的会话参与者的效用，以允许进行更为个性化、灵活且参与度更高的对话。这促进了智能代理扮演不同的角色，以便在不同的任务中更为有效，例如安排约会、预订旅行、订购设备和补给品、在线研究多种话题。当智能代理认识到用户的动态心态、情绪、意图和/或效用时，这使得代理能以更有目标且有效的方式使人类会话者参与对话。例如，当教育代理教孩子时，孩子的偏好(例如他喜欢的颜色)、观察到的情绪(例如，有时候孩子不想继续课程)、意图(例如，孩子将手伸向地板上的球，而不是专注于课程)都可允许教育代理灵活地将关注的主题调整到玩具，并可能调整继续与孩子会话的方式，以便给孩子休息时间，从而实现对孩子进行教育的整体目标。

作为另一实例，本示教可用于，通过问在给定从用户实时观察到的东西的情况下更为适合的问题，增强用户服务代理的服务，并因此实现改善的用户体验。这根植于如这里所公开的本示教的本质方面，通过开发学习和适应参加对话的参与者的偏好或心态的方法和手段，使得对话能够以参与度更高的方式进行。

对话管理器(DM)510是自动伴侣的核心部件。如图5所示，DM 510(层3)取得来自不同层的输入，包括来自层2的输入以及来自更高的抽象层的输入，例如，用于推定涉入对话的参与者的心态的层4，以及基于对话以及评估的其性能来学习效用/偏好的层5。如所示的，在层1上，从不同模态的传感器获取多模态信息，其被处理，以便获得例如对数据进行描绘的特征。这可包括视觉、音学和文本模态的信号处理。

这样的多模态信息可以在对话过程中由布置在用户装置(例如110-a)上的传感器获取。所获取的多模态信息可以与操作用户装置110-a的用户和/或对话场景周边情况有关。在某些实施例中，多模态信息也可在对话过程中由代理装置(例如160-a)获取。在某些实施例中，用户装置和代理装置二者上的传感器可获取相关信息。在某些实施例中，所获取的多模态信息在层1上受到处理，如图5所示，其可包括用户装置和代理装置二者。取决于情况和配置，各个装置上的层1处理可以不同。例如，如果用户装置110-a用于获取对话的周边信息，包括关于用户以及用户周边情况的信息，原始输入数据(例如文本、视觉或音频)可在用户装置上被处理，接着，处理得到的特征可被发送到层2，用于进一步的分析(在更高的抽象层上)。如果关于用户和对话环境的某些多模态信息由代理装置获取，这样获取的原始数据的处理也可由代理装置(图5未示出)处理，于是，从这样的原始数据中提取的特征可从代理装置被发送到层2(其可以位于用户交互引擎140中)。

层1也处理从自动对话伴侣到用户的响应的信息呈现。在某些实施例中，呈现由代理装置(例如160-a)执行，这种呈现的实例包括语音、表情(其可以是面部的)或执行的身体动作。例如，代理装置可将从用户交互引擎140接收的文本串(作为对用户的响应)呈现为语音，使得代理装置可以向用户说出响应。在某些实施例中，文本串可被发送到代理装置，并具有附加的呈现指示，例如音量、音调、音高等，其可用于以特定方式将文本串转换为与内容的言语对应的声波。在某些实施例中，将要传送给用户的响应也可包括动画(animation)，例如，用将要经由例如面部表情或身体动作(例如举起一只手臂等)传送的态度说出响应。在某些实施例中，代理可以被实现为用户装置上的应用。在这种情况下，来自自动对话伴侣的相应的呈现经由用户装置(例如110-a(图5未示出))实现。

多模态数据的处理得到的特征可在层2上进一步处理，以实现语言理解和/或多模态数据理解，包括视觉、文字及其任何组合。某些这样的理解可能针对单一模态，例如语音理解，有些可以针对基于集成的信息对参与对话的用户的周边情况的理解。这样的理解可以是实物的(例如，识别场景中的特定对象)、认知上的(例如识别出用户说了什么，或某个明显的声音，等等)或精神上的(例如特定的情绪，例如基于语音的音调、面部表情或用户姿态推定出的用户的压力)。

层2上生成的多模态数据理解可由DM 510用于判断如何响应。为了增强参与度和用户体验，DM 510也可基于来自层4的推定的用户心态和代理心态以及来自层5的参与对话的用户的效用来确定响应。涉入对话的参与者的心态可基于来自层2的信息(例如推定的用户情绪)以及对话的进展推定。在某些实施例中，用户和代理的心态可以在对话过程中动态推定，这样推定的心态于是可用于学习(与其他数据一起)用户的效用。所学习的效用代表用户在不同对话情境中的偏好，并基于历史对话及其结果而被推定。

在特定话题的各个对话中，对话管理器510将其对对话的控制基于相关的对话树，对话树可能与、或者可能不与话题相关联(例如，可引入闲聊，以增强参与度)。为了生成对话中对用户的响应，对话管理器510也可考虑附加的信息，例如用户的状态、对话场景的周边情况、用户的情绪、用户和代理的推定的心态、以及已知的用户偏好(效用)。

DM 510的输出对应于相应地确定的对用户的响应。为了将响应传送给用户，DM510也可以阐述传送响应的方式。响应被传送的形式可以基于来自多个源的信息来确定，例如，用户的情绪(例如，如果用户是不快乐的孩子，响应可以以温柔的嗓音呈现)，用户的效用(例如，用户可能偏好与其父母类似的某种口音)，或用户所处的周边环境(例如，嘈杂的地方，故响应需要以高音量传送)。DM 510可将所确定的响应与这些传送参数一起输出。

在某些实施例中，这样确定的响应的传送通过根据与响应相关联的多种参数来生成各个响应的可传送形式来实现。在一般情况下，响应以某些自然语言的语音的形式传送。响应也可以以与特定非语言表达耦合的语音传送，非语言表达作为所传送响应的一部分，例如为点头、摇头、眨眼或耸肩。可能有听觉上的但是非语言的其他形式的可传送响应模式，例如口哨。

为了传送响应，可传送的响应形式可以经由例如语言响应生成和/或行为响应生成来产生，如图5所示。出于其所确定的可传送形式的这种响应于是可由呈现器用于实际以其预期形式呈现响应。对于自然语言的可传送形式，响应的文本可用于，根据传送参数(例如音量、口音、风格等)，经由例如文本到语音技术来合成语音信号。对于将要以非语言形式(例如特定的表情)传送的任何响应或其部分，预期的非语言表达可以被翻译成为(例如经由动画)能用于控制代理装置(自动伴侣的有形体现)的特定部分的控制信号，从而执行特定的机械运动，以便传送响应的非语言表达，例如点头、耸肩或吹口哨。在某些实施例中，为了传送响应，特定的软件部件可被调用，以便呈现代理装置的不同的面部表情。响应的这种演绎也可由代理同时进行(例如，用开玩笑的嗓音说出响应，并在代理的脸上浮现大大的笑容)。

图6示出了根据本示教的多种实施例，用于基于人工智能的教育型伴侣的示例性高层次系统图。在此所示实施例中，存在五个处理层次，即装置层、处理层、论证层、教学或施教层以及教师层。装置层包含传感器(例如麦克风和照相机)，或者媒体传送装置(例如伺服机构)，其用于移动例如扬声器或机器人的身体部分，从而传送对话内容。处理层包含多种处理部件，其目的在于处理不同类型的信号，包括输入和输出信号。

在输入侧，处理层可包括语音处理模块，用于基于从音频传感器(麦克风)获得的音频信号来进行例如语音识别，以便理解在说什么，从而确定如何响应。音频信号也可被识别，以便生成用于进一步分析的文本信息。来自音频传感器的音频信号也可被情绪识别处理模块使用。情绪识别模块可以被设计为，基于来自照相机的视觉信息和同步的音频信息，识别参与者的多种情绪。例如，快乐的情绪常常可伴有笑脸和特定的听觉线索。作为情绪指示的一部分，经由语音识别获得的文本信息也可由情绪识别模块用于推定所涉及的情绪。

在处理层的输出侧，当特定的响应策略被确定时，这样的策略可被翻译成为将由自动伴侣做的具体动作，以便对另一参与者做出响应。这样的动作可以通过传送某种音频响应或经由特定姿态表达特定情绪或态度来进行。当响应以音频被传送时，具有需要被说出的词语的文本由文本到语音模块进行处理，以便产生音频信号，于是，这样的音频信号被发送到扬声器，以便呈现作为响应的语音。在某些实施例中，基于文本生成的语音可以根据其他的参数进行，例如，可用于以特定音调或嗓音对语音生成进行控制的参数。如果响应将作为实体动作被传送，例如，在自动伴侣上实现的身体移动，则将要采用的动作也可以是将用于生成这样的身体移动的指示。例如，处理层可包含根据某种指示(符号)来移动自动伴侣的头部(例如点头、摇头或头部的其他运动)的模块。为了遵从移动头部的指示，基于该指示，用于移动头部的模块可生成电信号，并发送到伺服机构，以便实体控制头部运动。

第三层是论证层，其用于基于分析的传感器数据来执行高层次的论证。来自语音识别的文本或推定的情绪(或其他描绘)可被发送到推断程序，该程序可用于，基于从第二层接收的信息，推断多种高层次概念，例如意图、心态、偏好。推断的高层次概念于是可由基于效用的计划模块使用，在给定在教学层上定义的施教计划和当前用户状态的情况下，该模块设计出在对话中做出响应的计划。计划的响应于是可被翻译成将被执行以便传送计划的响应的动作。该动作于是被动作生成器进一步处理，以便具体指向不同的媒体平台，从而实现智能响应。

教学层和教师层都涉及所公开的教育型应用。教师层包含关于设计用于不同主题的课程表的活动。基于设计的课程表，教学层包含课程表调度器，其基于所设计的课程表来调度课程，基于课程表调度，问题设置模块可安排将基于特定的课程表调度而被提供的特定的问题设置。这样的问题设置可由论证层的模块用于辅助推断用户的反应，于是，基于效用和推断的心理状态来相应地规划响应。

在某些对话应用中，语音或文本输入可被用于创建如语音输入所述的场景。例如，用户可说出句子或键入某些文本，其带有对场景的特定描述，于是，计算机系统响应于所说的或键入的文本，对输入(口述的或文本的)进行分析，理解其中表达的语义，并创建与语义一致的视觉场景。视觉场景中出现什么或视觉场景中呈现什么对应于用户所说或所键入的内容。例如，在用户机器对话线程中，用户可以口述地或通过键入来描述场景，例如“五只鹅正在跑过草地”。这种描述中，背景是草地，可能有树或栅栏围绕，主语是鹅，动作是这些鹅跑过草地。基于对在说/传达什么的这种语义理解，可以通过存在草地以及将五只鹅呈现为看上去正在跑过草地的方式呈现视觉场景。

本示教公开了基于输入的语义来呈现视觉场景的方法、系统和实施方式，输入可以是语音输入或文本输入。图7示出了根据本示教的实施例，基于来自用户的文本输入，呈现视觉场景的框架700。在所示的实施例中，文本输入可对应于键入的文本或来自用户的言语，并可被提供为相应地创建视觉场景的基础。当输入为听觉形式时，通过语音处理，其可以首先被处理并转换为文本形式。如图所示，框架700包含基于文本输入的场景语义理解单元710和基于语义的视觉场景呈现单元730。基于输入，基于文本输入的场景语义理解单元710处理输入，进行语言学分析，以理解输入中明确或隐含地表达的多种语义，生成基于语义的线程场景日志，并将之存储在存储器720中。这样的场景日志包含各个场景的场景表征，各个场景的条目可描述不同实体之间的语义关系，以便使得符合输入705的描述的场景的可视化成为可能。根据基于语义的线程场景日志720，基于语义的视觉场景呈现单元730呈现视觉场景，该场景是与提供输入705的用户的用意一致的。

图8示出了根据本示教一实施例，基于来自用户的输入呈现视觉场景730的实例。如图所示，用户提供输入705，其可以直接以文本或简单地说出描述场景的句子。在此实例中，输入具有三个句子：(1)“迈克在踢球，”(2)“太阳照在迈克身上，”(3)“珍妮在放风筝，”以及(4)“珍妮也在看迈克玩足球。”从这些输入的句子(可能经由语音处理从言语变换得到)，创建的视觉场景730包含呈现的多种实体，例如作为背景的野外场景(因为输入暗含着在室外，从而玩足球和放风筝)、男孩(迈克)、足球(因为输入说有人在玩足球)、女孩(珍妮)、风筝(因为输入说有人在放风筝)。

所呈现的实体在空间上根据输入705的语义布置。例如，男孩和足球隔开特定的距离，因为输入说迈克在踢足球。风筝在图像中与天空对应的空间中，因为假设风筝飞得高。女孩还处在与男孩隔开的某个位置，因为她不仅在放风筝，而且看着男孩玩足球。场景也可被呈现为满足不同实体间特定的功能关系。例如，输入的句子“太阳照在迈克身上”可以被处理为呈现迈克的某些部位(部分头发，部分脸，一只鞋)可被呈现为与迈克的其他部位相比更亮，以便显示阳光从所呈现天空的一个一致的方向照射。

视觉场景中可视化的实体也可被呈现为满足由输入705暗示的其他判据。例如，在某些情况下，实体的特定特质可能需要以这样的方式呈现：其必须与某些其他实体匹配，以便满足输入的语义。例如，由于输入说“迈克在踢足球，”球可能需要呈现为处在半空中(例如不是在地面水平上)，男孩可能需要以一条腿抬高(因为他在踢)且指向被踢的球的方向的方式呈现。也就是说，男孩的一个特质(腿)需要与某些其他实体或其特质匹配，以便满足所表达语义的要求。

回到图7，基于文本输入的场景语义理解单元710将要分析输入705，并生成基于语义的线程场景日志720。在某些实施例中，场景日志720可以基于对话线程来组织，在每个对话线程中，可能存在在不同输入指示下呈现的多个场景。关于每个场景的指示可以来自参与与自动对话伴侣的对话的用户，或者来自自动对话伴侣，其基于例如参与与之对话的用户的兴趣或对话内容生成指示。例如，如果在对话过程中，参与对话的用户说了他确实喜欢某个东西(例如在沙滩上打排球)并表现出分神，自动对话伴侣可决定通过生成呈现具有在沙滩上运动的人的沙滩场景来使用户放松，以便继续吸引用户参与。一旦用户平静且放松，自动对话伴侣于是可通过回恢复初始规划的场景(例如有数学题的黑板)回到对话的主题，例如关于数学的教育项目。因此，在同一对话期间，场景可基于指示动态改变，与同一对话相关联的不同场景可以在基于线程的日志中组织。

图9A示出了根据本示教一实施例，基于语义的线程场景日志720的示例性构造。如图所示，在此所示构造中，基于语义的线程场景日志720可包括基于线程组织的线程场景日志，例如线程1场景日志，线程2场景日志，……，线程N场景日志。对于每个线程，可以有多个场景，其中的每一个被表征为与时间帧对应的场景日志。例如，对于对话线程2，其场景日志可包括在不同时间帧上与场景2的场景日志对应的多个场景，或标注为场景2(1)日志(在线程2中在时间帧1期间用于场景的场景日志)、场景2(2)日志(在线程2中在时间帧2期间用于场景的场景日志)、……、场景2(k)(在线程2中在时间帧k期间用于场景的场景日志)。

图9B示出了根据本示教一实施例，在基于语义的线程场景日志720中，用于特定场景的日志的示例性组织和内容。如所示的，场景的此示例性日志(场景i(j)日志)包含将要被呈现的场景的多个部分的描述，包括场景背景、场景中出现的实体、相关语义和关系的描述。例如，背景可以被描述为多个日常场景中的一个，例如公园。例如，在图8中，由于场景关于特定户外活动(包括玩足球和风筝)描述，所选择的背景是具有草地和阳光天空的场景。实体可包含人、物体(桌子)、……以及动物。作为另外的实例，如果输入说“大卫正在他的卧室里玩乐高游戏，”于是，基于这种输入确定的背景可以是卧室设定。

场景日志也可包括将在场景中呈现的实体。这些实体可以在输入中明确提及名字，或者，在某些情况下是隐含的。例如，基于图8中的输入705所明确需要的实体包括男孩、女孩、球、风筝。但场景还可能需要包括其他实体。例如，由于输入需要“太阳照在迈克身上，”可能暗示着天空中必须有阳光，且不能全部是灰色的。另外，由于太阳必须照在迈克身上，尽管太阳并不需要被呈现，来自太阳的光隐含需要在将与迈克交界的方向呈现。

关系可包括空间、功能、背景和语义关系。空间关系可涉及将在场景中呈现的实体应当如何在空间上布置以便使得输入中描述的行为成为可能的描述，例如，呈现男孩、球、女孩、风筝的位置需要被设置，故使它们相对于图8所示背景中的地面和天空支持例如踢球和放风筝的行为。功能关系可包括不同的实体可能需要以这种方式呈现：它们能实现如输入所述的功能角色。例如，如果输入要求“太阳照在迈克身上，”则阳光和迈克的呈现需要以这样的方式进行：显示例如天空较亮的部分需要在场景中与迈克也较亮的部分一致的一侧。

在某些情况下，输入可具体规定特定的背景信息，其也可能需要场景以满足不同实体之间背景关系的方式呈现。例如，在图8所示的输入中，说了“珍妮也在看迈克玩足球。”在这种情况下，珍妮不仅需要被呈现为与玩风筝有关，还需要面向迈克以便满足她也在看迈克的背景关系。在某些实施例中，输入的具体语义也可通过协调不同实体的不同部分的呈现，扮演关于如何呈现视觉场景的角色，以便满足输入705中表达的语义。如这里所讨论的，当输入说“迈克在踢足球”时，这一输入的语义要求迈克的一只脚需要被呈现，使得其与足球的方向匹配。

图10示出了根据本示教一实施例，基于文本输入的场景语义理解单元710的示例性高层次系统图。这一示例性实施例包括能用于处理文本输入或是听觉输入(言语)的部件。示例性的基于文本输入的场景语义理解单元710包含音频信号处理单元1000、语言理解单元1010和分析文本信息(来自输入或从言语识别的)并识别与呈现对应视觉场景有关的多种类型语义信息的多种部件。例如，在此所示的实施例中，这些部件包括场景信息理解单元1030、实体识别单元1040、语义理解单元1050、空间关系识别单元1060、功能关系识别单元1070、特质匹配确定器1080。

如这里所讨论的，输入705可以是键入的文本或表征口头描述场景的言语的听觉信号。对于表征言语的听觉信号，音频信号处理单元1000处理音频信号，以便基于词汇表1005来识别例如所说的单词。所识别的单词构成识别的文本串，并被发送到语言理解单元1010，用于基于语言模型1015的语言理解。当输入705对应于键入的文本时，这样输入的文本可被直接发送到语言理解单元1010。基于语言模型1015，语言理解单元1010可提取在句法上不同的部分，例如主语、动词、直接宾语、间接宾语、形容词、副词、名字、场所、时间等。这样提取的在句法上不同的部分可作为语言处理结果存储在1020中，并可被其他处理单元用于进一步理解底层输入语义的不同方面。

语义理解单元1050可被设置为基于存储在1020中的语言处理结果和存储在知识数据库1025中的信息，理解输入的语义。例如，由图8所示的示例性输入705，语义理解单元1050可下结论为场景为户外(因为玩足球、放风筝的语言)，并有着阳光(由于太阳照着某人的要求)，存在涉入的不同实体，它们可以以某些方式相关联，且这些实体可以进行可能对彼此有影响的特定的活动(例如踢足球)，等等。这样的语义于是可被其他部件进一步使用，以提取可能影响呈现的特定类型的信息。

实体识别单元1040被设置为识别任何文本中所述及的实体，包括人(名字)、动物、物体(球)等，以及需要在视觉场景中呈现的。语言模型1015可提供文字串中不同类型的实体的定义，并可被实体识别单元1040用于识别给定输入中的实体。空间关系识别单元1060被设置为识别能从输入中基于语义推断的所识别实体之间的任何空间关系。使用图8所示的实例，给定输入的语义要求迈克踢球，空间关系识别单元1060可推断为这两个实体需要在空间上间隔开。类似地，基于输入的同样的语义理解，功能关系识别单元1070可推断为，当迈克被呈现时，他的一只脚需要被呈现为提起，并指向所呈现的足球的方向。其他的空间和功能关系也可被呈现，例如，阳光和迈克之间的空间布置，因为输入要求阳光照在迈克身上。

背景关系识别单元1030可基于输入推断视觉场景的多种背景。例如，由输入“迈克在踢足球”，背景关系识别单元1030可推断为将要呈现的背景是户外背景。另外，由“太阳照在迈克身上”，可以推断为是白天且无雨的场景。特质匹配确定器1080也可依赖于来自1020的语言处理结果和来自1025的知识，以推断将要呈现的实体的特质需要如何匹配以满足输入的语义。采用图8所示的实例，由于输入要求“珍妮也在看迈克玩足球，”特质匹配确定器1080可推断为珍妮必须被呈现为面向迈克，即，珍妮的脸和身体的特质需要匹配或定向到迈克被呈现的方向。一旦基于输入的语义被推断，与如何如给定输入所述的那样对场景进行可视化有关的这样的参数于是被存储在基于语义的线程场景日志720中，其将被如图7所示基于语义的视觉场景呈现单元730使用。

图11为根据本示教一实施例，基于文本输入的场景语义理解单元710的示例性过程的流程图。在1110处，接收输入705，或者以音频形式，或者以文本形式。如果它是音频形式，音频信号处理单元1000分析音频信号，以便基于词汇表1005来识别所说的单词。来自音频处理单元1000或直接来自输入705的单词串基于语言模型1015被分析，以便在1120处进行语音识别，例如从单词串中识别多种句法成分，并将语言处理结果存储在1020中。基于语言处理结果，实体识别单元1040在1130处识别输入中存在的实体，并对这样检测的实体进行分类。语义理解单元1050在1140处分析语言处理结果，以解释输入的语义。

类似地，基于语言处理结果，背景信息理解单元1030在1150处提取相关背景信息，并确定将被可视化的场景的背景。对于识别的实体，空间关系识别单元1060在1160处基于输入的语义以及存储在知识数据库1025中的知识来确定场景中不同实体之间的空间关系。除了场景中涉及的实体的空间布置之外，功能关系识别单元1050在1170处识别需要存在的不同实体之间的功能关系，以便使输入的语义可视化。根据输入的这样检测的语义、实体、关系于是用于在1190处生成与输入相关联的场景日志，其于是被保存在基于语义的线程场景日志存储器720中。

一旦基于语义的线程场景日志被存储，其可被基于语义的视觉场景呈现单元730用于呈现场景。如这里讨论的，在某些实施例中，对于每个对话线程，场景可以在对话过程中改变，每个场景可以与时间帧相关联，使得呈现单元730可以遵守对于指定的时间段呈现各个场景。在其他的实施例中，可能在场景改变前并不知道线程中各个场景的持续的时间帧。例如，取决于对话的发展，参与对话场景的用户或者自动对话伴侣可以决定基于会话的动态来改变场景。在这种情况下，如图7所示，基于文本输入的场景语义理解单元710可向基于语义的视觉场景呈现单元730发送场景改变触发信号740，使得呈现单元730可进行到访问基于语义的线程场景日志720，得到表征对话线程的最近场景的日志。

为了呈现视觉场景，基于语义的视觉场景呈现单元730可访问表征场景的场景日志，并相应地对场景进行可视化。图12示出了根据本示教一实施例，基于语义的视觉场景呈现单元730的示例性高层次系统图。在此所示的实施例中，基于语义的视觉场景呈现单元730可首先根据基于语义的线程场景日志720来确定和设置视觉场景的背景和将要出现在场景中的实体。在出现在场景中的所有东西(主体、客体、项目、背景)被确定的情况下，基于语义的视觉场景呈现单元730于是可基于输入的语义来确定将要呈现的东西中的每一个应当如何被呈现。这可包括在场景中在哪里安置不同的实体/项目，关于各个实体/项目在呈现过程中需要满足何种条件，在实体之间需要保持的关系，以及，为了传递所输入的语义，需要如何关于不同实体调节特征。

为了确定将要包含在场景中的实体/项目/背景，基于语义的视觉场景呈现单元730包括基于语义的背景确定器1210、实体/对象确定器1220、实体/外观确定器1230。基于语义的背景确定器1210可访问720中的相关场景日志，并从背景场景库1215中选择用于呈现的合适的背景场景。例如，采用图8所示的实例，如果从输入的语义知道背景需要是有着草地(为了玩足球)和某些天空(为了放风筝)的晴朗的(太阳需要照在实体上)户外(玩足球和放风筝都需要在户外)场景，基于语义的背景确定器1210可从1215中的多个户外场景中选择与输入的语义一致的一个。例如，尽管可能有具有晴空以及草地的多个户外场景，有些可能有太多树，其对放风筝并不适宜。

实体/对象确定器1220可被设置为，从1225中的实体模型，为所要求的实体选择合适的角色。例如基于图8所示的输入，可以有四个实体/对象，例如迈克、珍妮、足球和风筝。对于这些实体/对象中的每一个，基于输入705的语义，实体/对象确定器1220可选择用于呈现的具体实体/对象模型。例如，名字“迈克”表示实体是男人/男孩。类似的选择可基于名字“珍妮”确定，即女孩/女人应被选择为呈现“珍妮”的模型。为了进一步对选择应为男人还是男孩或女人还是女孩消除歧义，可依赖于附加的背景信息或特定假设。例如，如果自动对话伴侣正在与已经知道是儿童的用户对话，则选择可以是为“迈克”选择男孩，为“珍妮”选择女孩。以类似的方式，对象“足球”和“风筝”可从实体/对象模型1225中选择。

背景信息或用户信息可用于由实体外观确定器1230进一步细化将要用于对实体/对象的外观进行呈现的参数。如图所示，实体外观确定器1230可访问来自用户配置文件数据库1235的信息，以确定例如各个实体/对象的具体特性或特征。例如，如果已经知道参与对话的用户是有着蓝眼睛、红T恤的金发白种男孩(例如，在对话过程中由自动对话伴侣观察到)，这些特征可用于呈现表征“迈克”的实体。类似地，如果已经知道迈克喜欢特定类型的足球，这些信息可从用户配置文件中取得并用于呈现足球。在某些实施例中，基于语义的背景确定器1210所选择的背景也可包括特定的对象，例如天空、云朵、树或花，这样的实体/对象也可根据基于所分析的输入705的语义从实体/对象模型1225选择的特定的特征来呈现。例如，对于天空，可以有不同的呈现，有些阴沉、有些晴朗、有些下雨、有些下雪，等等。与背景中的实体/对象有关地呈现参数的选择也可基于输入的语义来做出。

如这里所讨论的，场景中实体/对象的呈现也可能需要基于多种从输入语义中推定的关系受到控制。如图8所示，角色迈克和珍妮可能需要以特定的空间方式呈现，从而满足与“珍妮也在看迈克玩足球”有关的语义。例如，珍妮需要被呈现为面向迈克，以便能“看”迈克玩。另外，由于输入说迈克正在踢足球，迈克和足球也可能需要以特定的方式呈现，以反映所描述的。

为了呈现满足语义的场景，基于语义的视觉场景呈现单元730进一步包含空间布置参数确定器1240、功能部分参数确定器1250、特质匹配参数确定器1260。这三个部件把将在场景中出现的实体/对象(由1220确定)及其外观(由1230确定)取作输入，并确定不同实体/对象的姿态、定向、特征和协调后的特征匹配。如上面所讨论的，天空中阳光的方向需要以照在实体迈克身上的方式呈现，如输入所要求的，迈克的一条腿需要以和足球位置匹配的方向和程度抬起(以便踢球)，珍妮需要被呈现为以特定的距离面向迈克，等等。为了确定这样的多种参数，确定器1240-1260访问720(如图9B所示)中关于输入中描述的多种关系(空间、功能和背景)以及实体/对象的场景日志信息，生成关于各个实体/对象的呈现参数/规格，并将这样的呈现参数/规格发送到视觉场景呈现单元1270。某些呈现参数/规格可以基于角色运动特征模型1245确定。例如，如果迈克将要被呈现为踢足球，规格可以为，体现迈克的实体将要以特定的角度和特定的高度抬起腿，且该高度可以与他所踢的球的高度一致。如果知道附加的信息，例如参与对话的用户是左撇子，则进一步的规格可能是抬起的腿是左腿。当腿是左腿时，将要在场景中呈现的足球相对于迈克的位置也可能需要相应地调整。呈现实体需要的方式和将用于实现所想要的呈现的参数之间的相关关系可以在不同的模型数据库中提供，例如空间关系呈现模型存储器1280-1、功能关系呈现模型存储器1280-2和特质匹配呈现模型存储器1280-3，如图12所示。

一旦用于各个实体/对象的(来自1230-1260)和用于场景背景的规格和呈现参数(来自基于语义的的背景确定器1210)被提供给视觉场景呈现单元1270，视觉场景的呈现根据按照输入705的语义确定的规格/特征基于图形呈现模型1275进行。图13为根据本示教一实施例，基于语义的视觉场景呈现单元730的示例性过程的流程图。在运行中，当被触发为呈现视觉场景时，在1310处访问相关的的线程场景日志。基于相关的场景日志，基于语义的背景确定器1210在1320处基于输入的语义来选择用于该场景的背景。实体/对象确定器1220在1330处确定将要在场景中出现的实体/对象，实体/对象外观确定器1230确定与将要在场景中呈现的实体/对象的外观相关联的参数。

为了确定将要在场景中呈现的实体/对象的放置和视觉特性，与之有关的附加语义在1340处被部件1240-1260分析。基于对输入705的相关语义的理解，空间布置参数确定器1240在1350处确定与将要在场景中呈现的实体/对象的空间放置有关的参数。这样的参数可以具体规定各个实体/对象的位置，以及其他的对应参数，例如实体/对象的定向(正面，侧面，等等)、姿态(跑着或坐着)、高度等等。类似地，功能部分参数确定器1250在1360处确定可用于呈现不同实体/对象以满足语义要求的任何呈现参数，例如将一个实体(迈克)的左腿抬高到某个高度、指向场景中另一对象(足球)的方向。另外，特质匹配参数确定器1260在1370处确定不同实体的特定特征的匹配，以满足语义的特定方面，例如，用将与站在地上的另一实体(迈克)的正面交界的光束，将天空的右上部分(一个实体/对象的特征)呈现为更亮。

采用所选择的背景场景和出现在背景中的实体/对象，视觉场景呈现单元1270于是进行到在1380处根据例如特定图形呈现模型1275基于多种确定的呈现参数呈现视觉场景。由于背景、实体/对象和相关联的呈现参数是基于所分析的输入705的语义所确定的，如此呈现的视觉场景在语义上与输入705一致，其中，输入705可以以语音形式或文本形式提供。基于这里公开的本示教，视觉场景可以基于动态提供的输入705来呈现，输入705可以由自动对话伴侣基于会话的动态或由参与人机对话的用户自适应地生成。生成和呈现适合于情况的视觉场景的能力可以改善用户的参与度，并增强用户体验。

图14为示例性移动装置架构的示意图，该架构可用于根据多种实施例实现实施本示教的特定系统。在此实例中，实现本示教的用户装置对应于移动装置1400，其包括但不限于智能电话、平板电脑、音乐播放器、手持游戏机、全球定位系统(GPS)接收器、可穿戴计算装置(例如眼镜、腕表等)或其它任何外形因素。移动装置1400可包括一个以上的中央处理单元(CPU)1440、一个以上的图形处理单元(GPU)1430、显示器1420、内存1460、诸如无线通信模块的通信平台1410、存储器1490以及一个以上的输入/输出(I/O)装置1440。任何其他合适的部件，包括但不限于系统总线或控制器(未示出)，也可包含在移动装置1400中。如图14所示，移动操作系统1470(例如iOS、Android、Windows Phone等)以及一个以上的应用1480可从存储器1490被装载到内存1460中，以便由CPU 1440执行。应用1480可包括浏览器或任何其他合适的移动app，用于管理移动装置1400上的会话系统。用户交互可以经由I/O装置1440实现，并经由网络120被提供给应用客户端。

为了实现本公开中介绍的多种模块、单元及其功能，计算机硬件平台可用作用于这里介绍的一个或多于一个元件的硬件平台。硬件元件、操作系统和这种计算机的编程语言在性质上是传统的，且假设本领域技术人员足够熟悉它们，以便使这些技术适应于这里介绍的本示教。具有用户接口元件的计算机可用于实现个人计算机(PC)或其他类型的工作站或终端装置，但是，如果合适地编程的话，计算机也可作为服务器运行。相信本领域技术人员熟悉这种计算机设备的结构、编程和一般运行，因此，附图可能是不言自明的。

图15为示例性计算装置架构的示意图，该架构可用于根据多种实施例实现实施本示教的特定系统。实现本示教的这种特定系统具有硬件平台的功能框图，该硬件平台包括用户接口元件。计算机可以是通用计算机或专用计算机。二者都能用于实施用于本示教的特定系统。这种计算机1500可用于实现如这里所介绍的会话或对话管理系统的任何部件。例如，会话管理系统可以在例如计算机1500的计算机上实现，经由其硬件、软件程序、固件或其组合。尽管为方便起见示出了仅仅一个这样的计算机，与这里介绍的会话管理系统有关的计算机功能可以以分布式方式在若干个类似的平台上实现，从而分散处理负荷。

例如，计算机1500包括与连接于其上的网络相连接的COM端口1550，以促进数据通信。计算机1500还包括中央处理单元(CPU)1520，其采用一个或多于一个处理器的形式，用于执行程序指令。示例性计算机平台包括：内部通信总线1510；不同形式的程序存储器和数据存储器(例如盘1570、只读存储器(ROM)1530或随机访问存储器(RAM)1540)，用于将要由计算机1500处理和/或进行通信的多种数据文件以及将由CPU 1520执行的可能的程序指令。计算机1500还包括I/O部件1560，其支持在计算机和这里的其他部件(例如用户接口元件1580)之间的输入/输出流。计算机1500也可经由网络通信接收编程和数据。

因此，如上面所概述的对话管理方法和/或其他过程的实施形态可以在程序中实现。本技术的程序方面可被看作典型地出于可执行代码和/或相关数据的形式的“产品”或“制品”，该可执行代码和/或相关数据被承载在一种机器可读介质上或在其中实现。有形非暂时性“存储器”类型介质包括任何或全部存储器或其他的用于计算机、处理器等的存储器或其相关模块，例如多种半导体存储器、带驱动器、盘驱动器等，其可在任何时候提供用于软件编程的存储。

所有或部分软件有时可通过网络(例如互联网或多种其他电信网络)传送。例如，这种传送可使软件从一台计算机或处理器向另一台(例如与会话管理有关)的载入成为可能。因此，可承载软件元件的另一类型的介质包括光、电和电磁波，例如通过本地装置之间的物理接口、通过有线和光固定网络、通过多种空中链路使用。承载这种波的物理元件(例如有线或无线链路，光链路等)也被看作承载软件的介质。如这里所使用的，除了限制为有形的“存储”介质，例如计算机或机器“可读介质”的术语指参与向处理器提供指令以便执行的任何介质。

因此，机器可读介质可采用多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光或磁盘，例如任何计算机等等之中的任何存储装置，其可用于实现附图所示的系统或其任何部件。易失性存储介质包括动态存储器，例如这种计算机平台的主存储器。有形传输介质包括：同轴电缆、铜线和光纤，其包括构成计算机系统内的总线的导线。载波传输介质可采用电或电磁信号或者是声或光波(例如在射频(RF)和红外(IR)数据通信期间生成的那些)的形式。计算机可读介质的一般形式因此包括例如软盘、可折叠盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光介质、穿孔卡片纸带、具有孔的图案的任何其他物理存储介质、RAM、PROM和EPROM、闪速EPROM、任何其他的存储器芯片或插装盒、传输数据或指令的载波、传送这样的载波的链路或电缆、或计算机可从之读取编程代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可以涉入将一个或多于一个的指令的一个或多于一个的序列承载到物理处理器，以便执行。

本领域技术人员将会明了，本示教适用于多种修改和/或增强。例如，尽管上面介绍的多种部件的实现可以在硬件装置中实现，其还可实现为仅仅使用软件的解决方案，例如安装在已有的服务器上。另外，这里所公开的欺骗性网络检测技术也实现为固件、固件/软件组合、固件/硬件组合或是硬件/固件/软件组合。

尽管上面已经介绍了本示教和/或其他实例，将会明了，可对之做出多种修改，且这里公开的主题可以以多种形式和实例实现，且本示教可以在多种应用中应用，这里仅仅介绍了其中的一些。所附权利要求旨在要求落入本示教真实范围内的任何以及全部应用、修改和变型。

Claims

1.一种用于对场景进行可视化的、在至少一个机器上实现的方法，该机器包含至少一个处理器、存储器和能够连接到网络的通信平台，该方法包含：

接收具有视觉场景的描述的输入；

进行对输入的语言学处理，以获得输入的语义；

基于输入的语义，生成将用于呈现视觉场景的场景日志，其中，场景日志具体规定下列中的至少一者：

视觉场景的背景，

将要在视觉场景中出现的一个以上的实体/对象，以及

与所述一个以上的实体/对象相关联的至少一个参数，其将被用于以与输入的语义一致的方式在背景中对所述一个以上的实体/对象进行可视化；以及

根据所述至少一个参数，通过对背景以及所述一个以上的实体/对象进行可视化，基于场景日志呈现视觉场景。

2.权利要求1的方法，其中，输入是言语和文本中的至少一者。

3.权利要求2的方法，其中，进行输入的语言学处理的步骤包含：

基于词汇表识别输入中的多个单词；

根据语言模型，基于所述多个单词，生成语言处理结果；以及

基于语言处理结果，识别输入的语义。

4.权利要求1的方法，其中，所述至少一个参数包括空间参数、功能参数、背景参数和语义参数中的至少一者。

5.权利要求4的方法，其中，与实体/对象相关联的空间参数具体规定背景中实体/对象的位姿、实体/对象的定向以及实体/对象相对于另一实体/对象的空间相关性中的至少一者。

6.权利要求4的方法，其中，与实体/对象相关联的功能参数具体规定基于输入的语义确定的实体/对象的功能以及由于实体/对象的功能导致的另一实体/对象的相关联的视觉特征。

7.权利要求4的方法，其中，与实体/对象相关联的语义参数具体规定与实体/对象相关联的第一视觉特征以及与不同的实体/对象相关联的第二视觉特征，其中，第一和第二特征基于语义是匹配的。

8.一种机器可读的非暂时性介质，其上记录有用于对场景进行可视化的信息，其中，该信息在被机器读取时，使得机器执行：

接收具有视觉场景的描述的输入；

进行对输入的语言学处理，以获得输入的语义；

视觉场景的背景，

将要在视觉场景中出现的一个以上的实体/对象，以及

9.权利要求8的介质，其中，输入是言语和文本中的至少一者。

10.权利要求9的介质，其中，进行输入的语言学处理的步骤包含：

基于词汇表识别输入中的多个单词；

基于语言处理结果，识别输入的语义。

11.权利要求8的介质，其中，所述至少一个参数包括空间参数、功能参数、背景参数和语义参数中的至少一者。

12.权利要求11的介质，其中，与实体/对象相关联的空间参数具体规定背景中实体/对象的位姿、实体/对象的定向以及实体/对象相对于另一实体/对象的空间相关性中的至少一者。

13.权利要求11的介质，其中，与实体/对象相关联的功能参数具体规定基于输入的语义确定的实体/对象的功能以及由于实体/对象的功能导致的另一实体/对象的相关联的视觉特征。

14.权利要求4的介质，其中，与实体/对象相关联的语义参数具体规定与实体/对象相关联的第一视觉特征以及与不同的实体/对象相关联的第二视觉特征，其中，第一和第二特征基于语义是匹配的。

15.一种用于对场景进行可视化的系统，包含：

基于文本输入的场景理解单元，其被配置为，

接收具有视觉场景的描述的输入，

进行对输入的语言学处理，以获得输入的语义，以及

视觉场景的背景，

将要在视觉场景中出现的一个以上的实体/对象，以及

基于语义的视觉场景呈现单元，其被配置为，根据所述至少一个参数，通过对背景以及所述一个以上的实体/对象进行可视化，基于场景日志呈现视觉场景。

16.权利要求15的系统，其中，输入是言语和文本中的至少一者。

17.权利要求16的系统，其中，基于文本输入的场景语义理解单元包含：

信号处理单元，其被配置为，基于词汇表识别输入中的多个单词；

语言理解单元，其被配置为，根据语言模型，基于所述多个单词，生成语言处理结果；以及

语义理解单元，其被配置为，基于语言处理结果，识别输入的语义。

18.权利要求1的系统，其中，所述至少一个参数包括空间参数、功能参数、背景参数和语义参数中的至少一者。

19.权利要求18的系统，其中，与实体/对象相关联的空间参数具体规定背景中实体/对象的位姿、实体/对象的定向以及实体/对象相对于另一实体/对象的空间相关性中的至少一者。

20.权利要求18的系统，其中，与实体/对象相关联的功能参数具体规定基于输入的语义确定的实体/对象的功能以及由于实体/对象的功能导致的另一实体/对象的相关联的视觉特征。

21.权利要求18的系统，其中，与实体/对象相关联的语义参数具体规定与实体/对象相关联的第一视觉特征以及与不同的实体/对象相关联的第二视觉特征，其中，第一和第二特征基于语义是匹配的。