CN112262024A - 用于增强数字体验的动态机器人配置的系统和方法 - Google Patents

用于增强数字体验的动态机器人配置的系统和方法 Download PDF

Info

Publication number
CN112262024A
CN112262024A CN201880092446.8A CN201880092446A CN112262024A CN 112262024 A CN112262024 A CN 112262024A CN 201880092446 A CN201880092446 A CN 201880092446A CN 112262024 A CN112262024 A CN 112262024A
Authority
CN
China
Prior art keywords
user
conversation
profile
configuration
electronic animal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880092446.8A
Other languages
English (en)
Other versions
CN112262024B (zh
Inventor
J·尼尔森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DMAI Guangzhou Co Ltd
Original Assignee
De Mai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by De Mai Co ltd filed Critical De Mai Co ltd
Publication of CN112262024A publication Critical patent/CN112262024A/zh
Application granted granted Critical
Publication of CN112262024B publication Critical patent/CN112262024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • B25J11/001Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means with emotions simulating means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Robotics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Toys (AREA)

Abstract

本示教涉及用于配置电子动物装置的方法、系统、介质和实施方式。接收关于在用户和电子动物装置之间的对话中展现的用户表现的信息,其中,电子动物装置根据配置进行与用户的对话。基于关于用户表现的信息,评估配置关于用户的有效性,且其用于对至少一个模型进行机器学习,该模型于是用于调节配置,以生成由电子动物装置用于继续对话的更新的配置。

Description

用于增强数字体验的动态机器人配置的系统和方法
相关申请的交叉引用
本申请要求2018年2月15日提交的美国临时申请62/630,909的优先权,其内容全文并入此处作为参考。
本申请与2018年12月27日提交的美国专利申请_________(代理人案卷号047437-0502424)、2018年12月27日提交的国际申请_________(代理人案卷号047437-0461769)、2018年12月27日提交的美国专利申请_________(代理人案卷号047437-0502426)、2018年12月27日提交的国际申请_________(代理人案卷号047437-0461770)、2018年12月27日提交的美国专利申请_________(代理人案卷号047437-0502427)、2018年12月27日提交的国际申请_________(代理人案卷号047437-0461772)、2018年12月27日提交的美国专利申请_________(代理人案卷号047437-0502428)、2018年12月27日提交的国际申请_________(代理人案卷号047437-0461773)、2018年12月27日提交的美国专利申请_________(代理人案卷号047437-0502429)、2018年12月27日提交的国际申请_________(代理人案卷号047437-0461774)、2018年12月27日提交的美国专利申请_________(代理人案卷号047437-0502430)、2018年12月27日提交的国际申请_________(代理人案卷号047437-0461776)、2018年12月27日提交的美国专利申请_________(代理人案卷号047437-0502431)、2018年12月27日提交的国际申请_________(代理人案卷号047437-0461777)、2018年12月27日提交的美国专利申请_________(代理人案卷号047437-0502432)、2018年12月27日提交的国际申请_________(代理人案卷号047437-0461778)、2018年12月27日提交的美国专利申请_________(代理人案卷号047437-0502547)、2018年12月27日提交的美国专利申请_________(代理人案卷号047437-0502549)、2018年12月27日提交的国际申请_________(代理人案卷号047437-0461817)、2018年12月27日提交的美国专利申请_________(代理人案卷号047437-0502551)、2018年12月27日提交的国际申请_________(代理人案卷号047437-0461818)有关,其全部内容并入此处作为参考。
技术领域
本示教一般涉及人机通信。具体而言,本示教涉及自适应的人机通信。
背景技术
由于互联网连接无处不在,带来人工智能技术的进步和基于互联网的通信的蓬勃发展,因此,计算机辅助的对话系统日渐普及。例如,越来越多的呼叫中心配置自动对话机器人来处理用户呼叫。酒店开始安装能够回答旅客或客人问题的多种售货亭。在线预订(无论是旅游住宿还是剧场票务等)也越来越频繁地用聊天机器人完成。近些年来,其他领域内的自动人机通信也变得越来越普遍。
基于不同领域中公知的会话模式,这样的传统计算机辅助对话系统通常用特定的问题和回答预先编程。不巧的是,人类会话者可能无法预测,有时不会遵从预先计划的对话模式。另外,在某些情况下,人类会话者可能在该过程中离题,继续固定的会话模式可能令人恼火或失去兴趣。当这种情况发生时,这种机器传统对话系统常常不能继续吸引人类会话者参与,故使人机对话或者中辍、将任务交给人类操作员,或者,人类会话者直接离开对话,而这是不希望看到的。
另外,传统的基于机器的对话系统常常并非设计为处理人的情绪因素,更不用说在与人类进行会话时将如何处理这种情绪因素考虑在内。例如,传统的机器对话系统常常不会发起会话,除非人启动系统或问某些问题。即使传统对话系统发起会话,它具有开始会话的固定方式,不会因人而异或是基于观察进行调整。因此,尽管它们被编程为忠实遵循预先设计的对话模式,它们通常不能就会话的动态发展做出行动以及进行自适应,以便使会话以能吸引人参与的方式进行。在许多情况下,当涉入对话的人明显心烦或感到不满时,传统的机器对话系统浑然不觉,还以使那人心烦的同种方式继续会话。这不仅使得会话不愉快地结束(机器对此还是不知情),而且使那人在将来不愿意与任何基于机器的对话系统进行会话。
在某些应用中,为了判断如何有效进行下去,基于从人观察到的内容来执行人机对话线程是至为重要的。一个例子是教育相关的对话。当聊天机器人用于教孩子阅读时,必须监视孩子是否以正被施教的方式具有感知力,并持续处理以便有效进行。传统对话系统的另一限制是它们对背景的毫无意识。例如,传统的对话系统不具有这样的能力:观察会话的背景并即兴产生对话策略,从而吸引用户参与,并改善用户体验。
因此,存在对解决这些限制的方法和系统的需求。
发明内容
这里公开的示教涉及用于人机通信的方法、系统和程序设计。具体而言,本示教涉及用于自适应人机通信的方法、系统和程序设计。
在一实例中,公开了一种在机器上实现的方法,该机器具有至少一个处理器、存储器和能够连接到网络的通信平台,该方法用于配置电子动物(animatronic)装置。接收关于用户在用户与电子动物装置之间的对话中展现的表现(performance)的信息,其中,该电子动物根据配置进行与用户的对话。基于关于用户表现的信息,评估配置关于用户的有效性,且其被用于对至少一个模型进行机器学习,于是,该模型被用于调节配置,以由生成电子动物装置用于继续对话的更新的配置。
在一不同的实例中,公开了一种用于配置电子动物装置的系统,其包含表现信息分析器、学习引擎和基于模型的信息更新器。表现信息分析器被配置为获得关于在用户与电子动物装置之间的对话中展现的、用户的表现的信息,并基于关于用户表现的信息来评估配置关于用户的有效性,其中,电子动物根据配置进行与用户的对话。学习引擎被配置为用于根据所评估的有效性对至少一个模型进行机器学习(该模型是基于根据历史数据的学习在先前建立的),并基于来自机器学习的结果更新至少一个模型,以便自适应地更新至少一个模型。基于模型的信息更新器被配置为,基于自适应地更新的至少一个模型来调节配置,以便生成更新的配置,用于由电子动物装置用于继续对话。
其他的概念涉及实现本示教的软件。根据此概念的软件产品包含至少一个机器可读的非暂时性介质以及由该介质承载的信息。由该介质承载的信息可以是可执行程序代码数据、与可执行程序代码相关联的参数和/或与用户、请求、内容或其它附加信息有关的信息。
在一实例中,机器可读的非暂时性有形介质上记录有用于配置电子动物装置的数据,其中,该介质在由机器读取时使得机器执行一系列的步骤。接收关于用户在用户与电子动物装置之间的对话中展现的表现的信息,其中,该电子动物根据配置进行与用户的对话。基于关于用户表现的信息,关于用户评估配置的有效性,且其被用于对至少一个模型的机器学习,该模型于是被用于调节配置,以生成由电子动物装置用于继续对话的更新的配置。
其他的优点和新特征将部分在下面的说明书中给出,部分将由本领域技术人员在检视下面的说明书和附图时明了或通过制造或运行实例来习得。本示教的优点可通过实践和应用下面讨论的详细实例中给出的方法、设备以及组合的多种实施形态来实现和获得。
附图说明
这里介绍的方法、系统和/或程序设计进一步以示例性实施例的方式描述。这些示例性实施例参照附图详细介绍。这些实施例是非限制性的示例性实施例,其中,贯穿几幅附图,类似的参考标号代表类似的结构,其中:
图1示出了根据本示教一实施例,用于促成操作用户装置的用户与连同用户交互引擎的代理装置之间的对话的网络环境;
图2A-2B示出了根据本示教一实施例,在对话过程中,在用户装置、代理装置和用户交互引擎之间的连接;
图3A示出了根据本示教一实施例,具有示例性类型的代理身体的代理装置的示例性结构;
图3B示出了根据本示教一实施例的示例性代理装置;
图4A示出了根据本示教多种实施例,用于自动伴侣的整体系统的示例性高层次系统图;
图4B示出了根据本示教一实施例,具有基于自动伴侣与用户之间的交互采取的路径的正在进行的对话的对话树的一部分;
图4C示出了根据本示教一实施例的示例性人类-代理装置交互和由自动伴侣执行的示例性处理;
图5示出了根据本示教一实施例,在自动对话伴侣的不同处理层之间的示例性多层处理和通信;
图6示出了根据本示教一实施例,用于基于人工智能的教育伴侣的示例性高层次系统框架;
图7示出了根据本示教一实施例,可被自适应地配置的自动对话伴侣的不同方面;
图8示出了根据本示教一实施例,自动对话伴侣的示例性高层次系统图;
图9为根据本示教一实施例,自动对话伴侣的示例性过程的流程图;
图10A-10E示出了根据本示教一实施例,自动对话伴侣的多种可选择的头部;
图11A-11C示出了根据本示教一实施例的自动对话伴侣,其具有可配置的头部和使得可选择的头部配置成为可能的示例性实体机制;
图12A-12B示出了根据本示教一实施例,基于接近性(proximity)检测的头部致动的概念;
图12C示出了根据本示教一实施例,可被配置为检测用户的接近性的自动对话伴侣的示例性手段;
图12D示出了根据本示教一实施例,用于检测用户的接近性的存在性检测器的示例性高层次系统图;
图13A示出了根据本示教一实施例,机器人头部配置单元的示例性高层次系统图;
图13B为根据本示教一实施例,机器人头部配置单元的示例性过程的流程图;
图14A示出了根据本示教一实施例,机器人配置文件的示例性方面;
图14B示出了根据本示教一实施例,在配置文件中具体规定的示例性类型的参数,用于实现具有特定形象(persona)的自动对话伴侣角色;
图15A示出了根据本示教一实施例,配置文件配置单元的示例性高层次系统图;
图15B示出了根据本示教一实施例,配置文件配置单元的示例性过程的流程图;
图16A示出了根据本示教一实施例,基于传感器信息的配置文件选择器的示例性高层次系统图;
图16B为根据本示教一实施例,基于传感器信息的配置文件选择器的示例性过程的流程图;
图17A示出了根据本示教一实施例,能用于驱动自动对话伴侣的示例性类型的项目(program);
图17B示出了根据本示教一实施例,基于来自对话的反馈,在项目驱动和非项目驱动会话之间自适应切换的概念;
图18A示出了根据本示教一实施例,项目配置单元的示例性高层次系统图;
图18B示出了根据本示教一实施例,项目配置单元的示例性过程的流程图;
图19A示出了根据本示教一实施例,交互控制器的示例性高层次系统图;
图19B示出了根据本示教一实施例,示例性机器人状态转换图;
图19C为根据本示教一实施例,交互控制器的示例性过程的流程图;
图20A示出了根据本示教一实施例,自适应学习引擎的示例性高层次系统图;
图20B示出了根据本示教一实施例,自适应学习引擎的示例性过程的流程图;
图21示出了移动装置的架构,其可用于实现包含本示教的特定系统;以及
图22示出了计算机的架构,其可用于实现包含本示教的特定系统。
具体实施方式
在下面的具体介绍中,通过举例的方式,给出了多种具体细节,以便提供对相关示教的详尽理解。然而,本领域技术人员应当明了,本示教可以在没有这些细节的情况下实现,或在具有与设计选择或实施变型的不同细节的情况下实现。在其他的实例中,公知的方法、过程、部件和/或硬件/软件/固件以相对较高的层次介绍而没有细节,从而避免不必要地模糊本示教的实施形态。
本示教目标在于解决传统的人机对话系统的不足之处,并提供使得更为有效且真实的人机对话成为可能的系统和方法。本示教将人工智能并入具有代理装置的自动伴侣,其与来自用户交互引擎的支柱支持(backbone support)配合,故使自动伴侣能够基于连续监视的指示对话周边情况的多模态数据来执行对话,自适应地推定对话参与者的心态/情绪/意图,并基于动态改变的信息/推定/背景信息来适应性地调整会话策略。
通过多个面向的自适应,包括但不限于会话的主题、用于进行会话的硬件/部件以及用于向人类会话者发送响应的表情/行为/姿态,根据本示教的自动伴侣能够对对话进行个性化。通过基于人类会话者对于对话的接受度有多高的观察来灵活地改变会话策略,自适应控制策略将使得会话更加真实且富有成效。根据本示教的对话系统可被配置为实现目标驱动的策略,包括动态配置被认为是最适合实现预期目的的硬件/软件部件。这样的最优化基于学习来进行,包括从以前的会话进行学习,以及通过在会话期间关于某些预期目标连续评估人类会话者的行为/反应,从正在进行的会话进行学习。为实现目标驱动策略而开发的路径可被确定为使人类会话者保持参与会话,即使在某些实例中,某些时刻的路径可能看起来偏离预期目标。
具体而言,本示教涉及通过适应于在对话场景中检测到的以及从过去的经验学习的,动态配置机器人代理。这包括,在检测到用户在机器人代理的附近时,致动机器人代理的电子动物头部。于是,基于在附近存在的用户,自适应地确定多种配置参数。这样的配置参数包括但不限于,用于与用户交流的机器人头部(例如鹅头、猴子头、兔子头或鸭子头)、所说语言、语音的口音、语音的风格(女孩嗓音、男孩嗓音、高音高的成年女性嗓音、低沉的男性嗓音,等等)、……、和/或驱动对话的项目(例如特定的教育主题(例如数学))。多种机器人运行参数的这样的自适应配置可基于根据来自以前的对话和正在进行的对话的观察建立的机器学习的模型。
图1示出了根据本示教一实施例的网络环境100,网络环境用于促成在操作用户装置的用户和与用户交互引擎协同的代理装置之间的对话。在图1中,示例性的网络环境100包含:一个以上的用户装置110,例如用户装置110-a、110-b、110-c和110-d;一个以上的代理装置160,例如代理装置160-a、……、160-b;用户交互引擎140;以及,用户信息数据库130,其中的每一个可以经由网络120彼此通信。在某些实施例中,网络120可对应于单个网络或者不同网络的组合。例如,网络120可以是局域网(“LAN”)、广域网(“WAN”)、公用网络、专用网络、公共交换电话网(“PSTN”)、互联网、内联网、蓝牙网络、无线网络、虚拟网络和/或其任何组合。在一实施例中,网络120也可包含多个网络接入点。例如,环境100可包含有线或无线接入点,例如但不限于基站或互联网交换点120-a、……、120-b。基站120-a和120-b可促成例如到/来自用户装置110和/或代理装置160的与联网框架100中的一个以上的其他部件在不同类型的网络上的通信。
用户装置(例如110-a)可以出于不同的类型,以促成操作用户装置的用户连接到网络120并发送/接收信号。这样的用户装置110-a可对应于任何合适类型的电子/计算装置,包括但不限于移动装置(110-a)、包含在运输工具(110-b)中的装置、……、移动计算机(110-c),或为固定装置/计算机(110-d)。移动装置可包括但不限于移动电话、智能电话、个人显示装置、个人数字助理(“PDA”)、游戏机/装置、例如手表、Fibit、别针/胸针、耳机等的可穿戴装置。带有一装置的运输工具可包括汽车、卡车、摩托车、客船、轮船、火车或飞机。移动计算机可包括笔记本电脑、超级本、手持式装置等。固定装置/计算机可包括电视机、机顶盒、智能家居装置(例如冰箱、微波炉、洗衣机或干衣机、电子助理等)和/或智能配件(例如灯泡、电灯开关、电子相框等)。
代理装置(例如160-a、……、160-b中的任何一个)可对应于不同类型装置中的一个,该装置可与用户装置和/或用户交互引擎140通信。如下面更为详细地介绍的,每个代理装置可被看作自动伴侣装置,其在例如来自用户交互引擎140的支柱支持下与用户接口。这里介绍的代理装置可对应于机器人,其可以是游戏装置、玩具装置、指定的代理装置,例如旅游代理或天气代理,等等。这里公开的代理装置能够促成和/或帮助与操作用户装置的用户的交互。通过这样,代理装置可被配置为机器人,经由来自用户交互引擎140的后端支持,其能够控制其某些部件,例如,做出某些身体移动(例如头部),表现出特定的面部表情(例如笑弯眼睛),或以特定的嗓音或音调(例如兴奋的音调)说话以表现特定的情绪。
当用户装置(例如用户装置110-a)被连接到例如160-a的代理装置时(例如经由接触或无接触连接),在例如110-a的用户装置上运行的客户端可以与自动伴侣(代理装置或用户交互引擎或二者)通信,以便使得操作用户装置的用户与代理装置之间的交互式对话成为可能。客户端可以在某些任务中独立动作,或者,可以由代理装置或用户交互引擎140远程控制。例如,为了响应来自用户的问题,代理装置或用户交互引擎140可以控制在用户装置上运行的客户端,以便向用户呈现响应的语音。在会话过程中,代理装置可包含一个以上的输入机制(例如照相机、麦克风、触摸屏、按钮等),其允许代理装置捕获与用户或与会话相关联的本地环境有关的输入。这样的输入可帮助自动伴侣建立对会话周围的氛围(例如用户的移动,环境的声音)以及人类会话者心态(例如用户捡起球,这可能表示用户厌倦了)的理解,从而使得自动伴侣能够相应地反应,并以将保持用户感兴趣和参与的方式进行会话。
在所示的实施例中,用户交互引擎140可以是后端服务器,其可以是集中式的或分布式的。它被连接到代理装置和/或用户装置。它可被配置为向代理装置160提供支柱支持,并引导代理装置以个性化和定制化的方式执行会话。在某些实施例中,用户交互引擎140可接收来自所连接装置(代理装置或用户装置)的信息,分析这些信息,并通过向代理装置和/或用户装置发送指示来控制会话的流动。在某些实施例中,用户交互引擎140也可直接与用户装置通信,例如提供动态数据(例如,用于在用户装置上运行的客户端的控制信号,以呈现特定的响应)。
一般而言,用户交互引擎140可控制用户与代理装置之间的会话的流动和状态。各个会话的流动可以基于与会话相关联的不同类型的信息受到控制,例如,关于参与会话的用户的信息(例如来自用户信息数据库130)、会话历史、与会话有关的信息、和/或实时用户反馈。在某些实施例中,用户交互引擎140可以被配置为获得多种传感器输入(例如但不限于音频输入、图像输入、触觉输入和/或背景输入),处理这些输入,阐述对人类会话者的理解,相应地基于这种理解生成响应,并控制代理装置和/或用户装置,以便基于响应进行会话。作为一说明性实例,用户交互引擎140可接收表征来自操作用户装置的用户的言语的音频数据,并生成响应(例如文本),于是,该响应可以以计算机生成言语的形式作为对用户的响应被传送给用户。作为另一实例,用户交互引擎140也可响应于该言语生成一个以上的指示,其控制代理装置执行特定的动作或动作组。
如所示的,在人机对话过程中,用户作为对话中的人类会话者可通过网络120与代理装置或用户交互引擎140通信。这样的通信可涉及多种模态的数据,例如音频、视频、文本等。经由用户装置,用户可发送数据(例如请求、表征用户言语的音频信号、或用户周边的场景的视频)和/或接收数据(例如来自代理装置的文本或音频响应)。在某些实施例中,多种模态的用户数据在被代理装置或用户交互引擎140接收到时可被分析,以理解人类用户的语音或姿态,故使用户的情绪或意图可被推定并用于确定对用户的响应。
图2A示出了根据本示教一实施例,在对话过程中,在用户装置110-a、代理装置160-a和用户交互引擎140之间的特定连接。可以看到,任何两方之间的连接全部可以是双向的,如这里所讨论的。代理装置160-a可以与用户经由用户装置110-a接口,以便以双向方式执行对话。一方面,代理装置160-a可以由用户交互引擎140控制,以便向操作用户装置110-a的用户说出响应。另一方面,来自用户现场的输入,包括例如用户的言语或动作以及关于用户周边情况的信息,经由连接被提供给代理装置。代理装置160-a可被配置为处理这种输入,并动态调节其对用户的响应。例如,代理装置可被用户交互引擎140指示为在用户装置上呈现树。知道用户周围环境(基于来自用户装置的视觉信息)显示出绿色的树和草地,代理装置可以把将被呈现的树定制为繁茂的绿树。如果来自用户现场的场景显示正值冬季,代理装置可进行控制,以便用对于没有叶子的树的参数在用户装置上呈现树。作为另一实例,如果代理装置被指示为在用户装置上呈现鸭子,代理装置可从用户信息数据库130取得关于颜色偏好的信息,并在发送用于向用户装置呈现的指示之前生成以用户偏好颜色对鸭子进行定制的参数。
在某些实施例中,来自用户现场的这些输入以及其处理结果也可被发送到用户交互引擎140,用于促成用户交互引擎140更好地理解与对话相关联的具体情况,使得用户交互引擎140可确定对话的状态、用户的情绪/心态,并生成基于对话的具体情况以及对话的预期目的(例如用于教小孩英语词汇)的响应。例如,如果从用户装置接收的信息指示用户看上去厌倦并变得不耐烦,用户交互引擎140可判断为将对话的状态改变为用户感兴趣的话题(例如基于来自用户信息数据库130的信息),以便继续使用户参与会话。
在某些实施例中,在用户装置上运行的客户端可以被配置为,能够处理从用户现场获取的不同模态的原始输入,并将处理的信息(例如原始输入的相关特征)发送到代理装置或用户交互引擎,以便进一步处理。这将减少通过网络传输的数据的量,并增强通信效率。类似地,在某些实施例中,代理装置也可被配置为能够处理来自用户装置的信息,并提取用于例如定制化目的的有用信息。尽管用户交互引擎140可控制对话的状态和流动控制,使得用户交互引擎140轻量级更好地改善了用户交互引擎140的规模(scale)。
图2B示出了与图2A所示相同的设置,且具有用户装置110-a的附加细节。如图所示,在用户和代理310之间的对话过程中,用户装置110-a可连续收集与用户及其周边情况有关的多模态传感器数据,其可被分析,以检测与对话有关的任何信息,并被用于以自适应的方式智能地控制对话。这可进一步增强用户体验或参与度。图2B示出了示例性的传感器,例如视频传感器230、音频传感器240、……、或触觉传感器250。用户装置也可发送文本数据,作为多模态传感器数据的一部分。这些传感器共同提供对话周边的背景信息,并可被用于由用户交互系统140理解情况,以便管理对话。在某些实施例中,多模态传感器数据可首先在用户装置上被处理,不同模态的重要特征可被提取并发送到用户交互系统140,故对话能以对背景的理解受到控制。在某些实施例中,原始多模态传感器数据可被直接发送到用户交互系统140,用于处理。
由图2A-2B所示,代理装置可对应于具有不同部分(包括其头部210及其身体220)的机器人。尽管图2A-2B所示的代理装置显示为人形机器人,其可以以其他的形式被构建,例如鸭子、熊、兔子等。图3A示出了根据本示教一实施例,具有示例性类型的代理身体的代理装置的示例性结构。如所示的,代理装置可包括头和身体,头附着到身体。在某些实施例中,代理装置的头可具有附加的部分,例如面部、鼻子和嘴,它们中的一些可被控制为例如做出移动或表情。在某些实施例中,代理装置上的面部可对应于显示屏,显示屏上可呈现面部且该面部可以是人类的或动物的。这样显示的面部也可受到控制以表达情绪。
代理装置的身体部分也可对应于不同形态,例如鸭子、熊、兔子等。代理装置的身体可以是固定的、可动的或半可动的。具有固定身体的代理装置可对应于能放置在例如桌子的表面上的装置,从而与坐在桌边的人类用户进行面对面的会话。具有可动身体的代理装置可以对应于能够在例如桌面或地板的表面上到处移动的装置。这样的可动的身体可包括能在运动学上被控制以进行实体移动的部件。例如,代理身体可包括脚,其可被控制为在需要时在空间中移动。在某些实施例中,代理装置的身体可以是半可动的,即,有些部分可动,有些不可动。例如,具有鸭子外表的代理装置的身体上的尾巴可以是可动的,但鸭子不能在空间中移动。熊形身体代理装置也可具有可动的手臂,但熊只能坐在表面上。
图3B示出了根据本示教一实施例的示例性代理装置或自动伴侣160-a。自动伴侣160-a是使用语音和/或面部表情或身体姿态与人交互的装置。例如,自动伴侣160-a对应于具有不同部分的、电子操控(animatronic)的外围装置,包括头部310、眼部(照相机)320、具有激光器325和麦克风330的嘴部、扬声器340、具有伺服机构350的颈部、可用于无接触存在性检测的一个以上的磁体或其它部件360、以及对应于充电底座370的身体部分。在运行中,自动伴侣160-a可以连接到用户装置,其可包括经由网络连接的移动多功能装置(110-a)。一旦连接,自动伴侣160-a和用户装置经由例如语音、动作、姿态和/或经由用激光点指器的点指(pointing)而彼此交互。
自动伴侣160-a的其他示例性功能可以包括响应于用户响应的反应式表达,例如,经由显示在例如作为自动伴侣面部的一部分的屏幕上的交互式视频卡通角色(例如化身(avatar))。自动伴侣可使用照相机(320)来观察用户的存在性、面部表情、注视方向、周边情况等。电子操控实施例可以通过点指其包含照相机(320)的头(310)来“看”,使用其麦克风(340)来“听”,通过引导能够经由伺服机构(350)移动的头(310)的方向来“点指”。在某些实施例中,代理装置的头也可由例如用户交互系统140或由用户装置(110-a)的客户端经由激光器(325)来远程控制。如图3B所示示例性自动伴侣160-a也可被控制为经由扬声器(330)来“说话”。
图4A示出了根据本示教多种实施例,用于自动伴侣的整体系统的示例性高层次系统图。在此所示实施例中,整体系统可包含驻留在用户装置、代理装置和用户交互引擎140中的部件/功能模块。这里所述的整体系统包含多个处理层和分级结构,它们一起执行智能方式的人机交互。在所示的实施例中有5个层,包括用于前端应用以及前端多模态数据处理的层1、用于对话设定的描绘的层2、对话管理模块所驻留的层3、用于不同参与者(人、代理、装置等)的推定心态的层4、用于所谓效用(utility)的层5。不同的层可对应于不同等级的处理,从层1上的原始数据采集和处理到层5上的改变对话参加者的效用的处理。
术语“效用”由此定义为基于与对话历史相关联地检测到的状态识别的参与者的偏好。效用可以与对话中的参与者相关联,无论该参与者是人、自动伴侣还是其他的智能装置。用于特定参与者的效用可表征世界的不同状态,无论是实物的、虚拟的或者甚至是精神的。例如,状态可以表征为对话所沿在世界的复杂地图中穿行的特定路径。在不同的实例中,当前状态基于多个参与者之间的交互而演化为下一状态。状态也可以是与参与者有关的,即,当不同参与者参加交互时,由这种交互带来的状态可能发生变化。与参与者相关联的效用可被组织为偏好的分级结构,且这样的偏好分级结构可基于在会话过程中做出的参与者选择以及表露出的喜好而随时间演化。这样的偏好(其可被表征为从不同选项中做出的有顺序的选择序列)被称为效用。本示教公开了这样的方法和系统:通过该方法和系统,智能自动伴侣能够通过与人类会话者的对话来学习用户的效用。
在支持自动伴侣的整体系统中,层1中的前端应用以及前端多模态数据处理可驻留在用户装置和/或代理装置中。例如,照相机、麦克风、键盘、显示器、呈现器、扬声器、聊天泡泡、用户接口元件可以是用户装置的部件或功能模块。例如,可能有在用户装置上运行的应用或客户端,其可包括图4A所示外部应用接口(API)之前的功能。在某些实施例中,超出外部API的功能可以被考虑为后端系统,或驻留在用户交互引擎140中。在用户装置上运行的应用可取得来自用户装置的电路或传感器的多模态数据(音频、图像、视频、文字),对多模态数据进行处理,以生成表征原始多模态数据的特征的文字或其他类型的信号(例如检测到的用户面孔等对象、语音理解结果),并发送到系统的层2。
在层1中,多模态数据可以经由例如为照相机的传感器、麦克风、键盘、显示器、扬声器、聊天泡泡、呈现器或其他用户接口元件来获取。可对这样的多模态数据进行分析,以推定或推断能用于推断更高层次的特性(例如表情、角色(character)、手势、情绪、动作、注意力、意图等)的多种特征。这样的更高层次的特性可由层2上的处理单元获得,接着,经由图4A所示的内部API,例如,由更高层次的部件用于在更高的概念层次上智能地推断或推定与对话有关的附加信息。例如,在层2上获得的所推定的对话参加者的情绪、注意力或其它特性可用于推定参加者的心态。在某些实施例中,这种心态也可在层4上基于附加的信息来推定,例如,记录的周边环境或这种周边环境中的其他附加信息,例如声音。
推定的参与者的心态,无论是与人还是自动伴侣(机器)有关,可被层3的对话管理所依赖,以便确定,例如,如何进行与人类会话者的会话。每个对话如何逐步发展常常表征人类用户的偏好。这样的偏好可以动态地在对话过程中在效用(层5)上被捕获。如图4A所示,层5上的效用表征演化的状态,其指示参与者的演化的偏好,它们也可由层3上的对话管理用于决定进行交互的合适或智能的方式。
不同层之间的信息共享可以经由API实现。在图4A中所示的某些实施例中,层1和其他层之间的信息分享经由外部API,而层2-5之间的信息分享经由内部API。能够明了,这仅仅是一种设计上的选择,其他的实现方式也可以实现这里给出的示教。在某些实施例中,通过内部API,多种层(2-5)可访问由其他层产生或存储的信息,以支持处理。这样的信息可包括将被应用到对话的通用配置(例如代理装置的角色是化身、优选的嗓音或将为对话产生的虚拟环境,等等)、对话的当前状态、当前对话历史、已知的用户偏好、推定的用户意图/情绪/心态等等。在某些实施例中,可从外部数据库访问能经由内部API分享的某些信息。例如,可从例如开源数据库访问与代理装置(例如鸭子)的希望的角色有关的特定配置,其提供参数(例如,视觉上呈现鸭子的参数,和/或呈现来自鸭子的语音需要的参数)。
图4B示出了根据本示教的实施例的正在进行的对话的对话树的一部分,其具有基于自动伴侣和用户之间的交互取得的路径。在此所示实例中,(自动伴侣的)层3中的对话管理可预测多种路径,与用户的对话(或一般地,交互)可以以该路径进行。在此实例中,各个节点可代表对话的当前状态的点,且节点的各个分支可代表来自用户的可能的响应。如此实例所示,在节点1上,自动伴侣可具有三种分立的路径,其可取决于从用户检测到的响应来取得。如果用户用肯定性的响应来回应,对话树400可从节点1进行到节点2。在节点2上,响应于来自用户的肯定性响应,可以为自动伴侣生成响应,于是,响应可被呈现给用户,其可包括音频、视觉、文本、触觉或其任何组合。
在节点1上,如果用户负面地响应,用于此阶段的路径是从节点1到节点10。如果用户在节点1上用“一般”响应来回应(例如,不是负面的,但也不是正面的),对话树400可进行到节点3,在节点3上,来自自动伴侣的响应可被呈现,可存在来自用户的三种分立的可能响应,“无响应”、“正面响应”、“负面响应”,分别对应于节点5、6、7。取决于关于在节点3上呈现的自动伴侣响应的、用户的实际响应,层3上的对话管理于是可相应地延续对话。例如,如果用户在节点3上用正面响应来回应,自动伴侣移动到在节点6上回应用户。类似地,取决于用户对自动伴侣在节点6上的响应的反应,用户可进一步用正确的回答来响应。在这种情况下,对话状态从节点6移动到节点8,等等。在此所示的实例中,这一阶段期间的对话状态从节点1移动到节点3、到节点6、并到节点8。节点1、3、6、8的遍历构成与自动伴侣和用户之间的底层会话一致的路径。如图4B所示,代表该对话的路径由连接节点1、3、6、8的实线表示,而在该对话过程中跳过的路径用虚线表示。
图4C示出了根据本示教一实施例,由自动伴侣执行的示例性人-代理装置交互和示例性处理。如图4C所示,可以进行不同层上的操作,且它们一起以协调的方式促成智能对话。在所示的实例中,代理装置可首先在402处询问用户“你今天好吗?”以发起对话。响应于402处的言语,用户可以在404处用言语“好”来回应。为了管理对话,自动伴侣可以在对话过程中致动不同的传感器,以便做出对用户以及周边环境的观察。例如,代理装置可获取关于用户所处周边环境的多模态数据。这样的多模态数据可包括音频、视觉或文本数据。例如,视觉数据可捕获用户的面部表情。视觉数据也可揭示会话场景周围的背景信息。例如,场景的图像可揭示存在篮球、桌子和椅子,这提供了关于环境的信息,并可在对话管理中被利用,以便增强用户的参与度。音频数据可不仅捕获用户的语音响应,还捕获其他的周边信息,例如响应的音调、用户说出回应的方式或者用户的口音。
基于所获取的多模态数据,分析可以由自动伴侣(例如由前端用户装置或由后端用户交互引擎140)进行,以评估用户的态度、情绪、心态和效用。例如,基于视觉数据分析,自动伴侣可检测到用户表现出悲哀、无笑容、用户语音缓慢且嗓音低沉。对对话中的用户状态的描绘可在层2上基于在层1上获取的多模态数据来进行。基于这样检测的观察,自动伴侣可以推断(在406上)用户对当前话题不是那么感兴趣且参与度不高。例如,对用户的情绪或精神状态的这样的推断可以在层4上基于对与用户相关联的多模态数据的描绘来进行。
为了响应用户的当前状态(参与度不高),自动伴侣可判断为使用户振奋,以便使用户更好地参与。在此所示的实例中,自动伴侣可以通过在408处向用户说出问题“你想玩游戏吗?”来利用会话环境中可用的东西。这样的问题可以通过将文本转换为语音(例如,使用为用户个性化的定制嗓音)以音频形式作为语音给出。在这种情况下,用户可通过在410处说“好”来回应。基于连续获取的与用户有关的多模态数据,例如,经由层2的处理,可能观察到响应于玩游戏的邀请,用户的眼睛看上去左顾右盼,特别是,用户的眼睛可能注视篮球所在的地方。同时,自动伴侣也可观察到,一旦听到玩游戏的建议,用户的面部表情从“悲伤”变为“微笑”。基于这样观察到的用户的特性,自动伴侣可在412处推断为用户对篮球感兴趣。
根据所获取的新信息及其推断,自动伴侣可以决定利用环境中可用的篮球来使用户在对话中的参与度更高,同时仍又实现对用户的教育目的。在这种情况下,层3中的对话管理可对会话进行适应以谈论游戏,并利用用户注视房间里的篮球这一观察,使得对话对用户来说更加有趣,同时仍实现例如对用户进行教育的目标。在一示例性实施例中,自动伴侣生成响应,建议用户玩拼写游戏(在414处),并让用户拼写单词“篮球”。
在给定自动伴侣的根据对用户和环境的观察的自适应对话策略的情况下,用户可做出响应,提供单词“篮球”的拼写(在416处)。可连续就用户在回答拼写问题时有多热情进行观察。基于例如在用户回答拼写问题时获取的多模态数据所判断,如果用户看起来以更为欢快的态度迅速响应,自动伴侣可以在418处推断为用户现在参与度更高。为了进一步鼓励用户积极参加对话,自动伴侣于是可生成正面响应“做得好!”,并指示将此响应用欢快、鼓励、积极的嗓音传送给用户。
图5示出了根据本示教的多种实施例,在以对话管理器510为中心的自动对话伴侣的不同处理层之间的示例性通信。图中的对话管理器510对应于层3中的对话管理的功能部件。对话管理器是自动伴侣的重要部分,且其管理对话。按照传统,对话管理器将用户的言语取作输入,并判断如何对用户做出响应。这在不考虑用户偏好、用户的心态/情绪/意图或对话的周边环境的情况下做出,也就是说,不为相关世界的不同的可用状态授予任何权重。缺少对周边世界的了解常常限制了人类用户和智能代理之间会话的参与度或感知的真实性。
在本示教的某些实施例中,充分运用与正在进行的对话有关的会话参与者的效用,以允许进行更为个性化、灵活且参与度更高的对话。这促进了智能代理扮演不同的角色,以便在不同的任务中更为有效,例如安排约会、预订旅行、订购设备和补给品、在线研究多种话题。当智能代理认识到用户的动态心态、情绪、意图和/或效用时,这使得代理能以更有目标且有效的方式使人类会话者参与对话。例如,当教育代理教孩子时,孩子的偏好(例如他喜欢的颜色)、观察到的情绪(例如,有时候孩子不想继续课程)、意图(例如,孩子将手伸向地板上的球,而不是专注于课程)都可允许教育代理灵活地将关注的主题调整到玩具,并可能调整继续与孩子会话的方式,以便给孩子休息时间,从而实现对孩子进行教育的整体目标。
作为另一实例,本示教可用于,通过问在给定从用户实时观察到的东西的情况下更为适合的问题,增强用户服务代理的服务,并因此实现改善的用户体验。这根植于如这里所公开的本示教的本质方面,通过开发学习和适应参加对话的参与者的偏好或心态的方法和手段,使得对话能够以参与度更高的方式进行。
对话管理器(DM)510是自动伴侣的核心部件。如图5所示,DM 510(层3)取得来自不同层的输入,包括来自层2的输入以及来自更高的抽象层的输入,例如,用于来自层4的推定心态,以及来自层5的效用/偏好。如所示的,在层1上,从不同模态的传感器获取多模态信息,其被处理,以便获得例如对数据进行描绘的特征。这可包括视觉、听觉和文本模态的信号处理。
多模态数据的处理得到的特征可在层2上进一步处理,以实现语言理解和/或多模态数据理解,包括视觉、文字及其任何组合。某些这样的理解可能针对单一模态,例如语音理解,有些可以针对基于集成的信息对参与对话的用户的周边情况的理解。这样的理解可以是实物的(例如,识别场景中的特定对象)、认知上的(例如识别出用户说了什么,或某个明显的声音,等等)或精神上的(例如特定的情绪,例如基于语音的音调、面部表情或用户姿态推定出的用户的压力)。
层2上生成的模态数据理解可由DM 510用于判断如何响应。为了增强参与度和用户体验,DM 510也可基于来自层4的推定用户心态以及来自层5的参与对话的用户的效用来确定响应。DM 510的输出对应于相应地确定的对用户的响应。为了将响应传送给用户,DM510也可以阐述传送响应的方式。响应被传送的形式可以基于来自多个源的信息来确定,例如,用户的情绪(例如,如果用户是不快乐的孩子,响应可以以温柔的嗓音呈现),用户的效用(例如,用户可能偏好与其父母类似的某种口音),或用户所处的周边环境(例如,嘈杂的地方,故响应需要以高音量传送)。DM 510可将所确定的响应与这些传送参数一起输出。
在某些实施例中,这样确定的响应的传送通过根据与响应相关联的多种参数来生成各个响应的可传送形式来实现。在一般情况下,响应以某些自然语言的语音的形式传送。响应也可以以与特定非语言表达耦合的语音传送,非语言表达作为所传送响应的一部分,例如为点头、摇头、眨眼或耸肩。可能有听觉上的但是非语言的其他形式的可传送响应模式,例如口哨。
为了传送响应,可传送的响应形式可以经由例如语言响应生成和/或行为响应生成来产生,如图5所示。出于其所确定的可传送形式的这种响应于是可由呈现器用于实际以其预期形式呈现响应。对于自然语言的可传送形式,响应的文本可用于,根据传送参数(例如音量、口音、风格等),经由例如文本到语音技术来合成语音信号。对于将要以非语言形式(例如特定的表情)传送的任何响应或其部分,预期的非语言表达可以被翻译成为(例如经由动画)能用于控制代理装置(自动伴侣的有形体现)的特定部分的控制信号,从而执行特定的机械运动,以便传送响应的非语言表达,例如点头、耸肩或吹口哨。在某些实施例中,为了传送响应,特定的软件部件可被调用,以便呈现代理装置的不同的面部表情。响应的这种演绎也可由代理同时进行(例如,用开玩笑的嗓音说出响应,并在代理的脸上浮现大大的笑容)。
图6示出了根据本示教的多种实施例,用于基于人工智能的教育型伴侣的示例性高层次系统图。在此所示实施例中,存在五个处理层次,即装置层、处理层、论证层、教学或施教层以及教师层。装置层包含传感器(例如麦克风和照相机),或者媒体传送装置(例如伺服机构),其用于移动例如扬声器或机器人的身体部分,从而传送对话内容。处理层包含多种处理部件,其目的在于处理不同类型的信号,包括输入和输出信号。
在输入侧,处理层可包括语音处理模块,用于基于从音频传感器(麦克风)获得的音频信号来进行例如语音识别,以便理解在说什么,从而确定如何响应。音频信号也可被识别,以便生成用于进一步分析的文本信息。来自音频传感器的音频信号也可被情绪识别处理模块使用。情绪识别模块可以被设计为,基于来自照相机的视觉信息和同步的音频信息,识别参与者的多种情绪。例如,快乐的情绪常常可伴有笑脸和特定的听觉线索。作为情绪指示的一部分,经由语音识别获得的文本信息也可由情绪识别模块用于推定所涉及的情绪。
在处理层的输出侧,当特定的响应策略被确定时,这样的策略可被翻译成为将由自动伴侣做的具体动作,以便对另一参与者做出响应。这样的动作可以通过传送某种音频响应或经由特定姿态表达特定情绪或态度来进行。当响应以音频被传送时,具有需要被说出的词语的文本由文本到语音模块进行处理,以便产生音频信号,于是,这样的音频信号被发送到扬声器,以便呈现作为响应的语音。在某些实施例中,基于文本生成的语音可以根据其他的参数进行,例如,可用于以特定音调或嗓音对语音生成进行控制的参数。如果响应将作为实体动作被传送,例如,在自动伴侣上实现的身体移动,则将要采用的动作也可以是将用于生成这样的身体移动的指示。例如,处理层可包含根据某种指示(符号)来移动自动伴侣的头部(例如点头、摇头或头部的其他运动)的模块。为了遵从移动头部的指示,基于该指示,用于移动头部的模块可生成电信号,并发送到伺服机构,以便实体控制头部运动。
第三层是论证层,其用于基于分析的传感器数据来执行高层次的论证。来自语音识别的文本或推定的情绪(或其他描绘)可被发送到推断程序,该程序可用于,基于从第二层接收的信息,推断多种高层次概念,例如意图、心态、偏好。推断的高层次概念于是可由基于效用的计划模块使用,在给定在教学层上定义的施教计划和当前用户状态的情况下,该模块设计出在对话中做出响应的计划。计划的响应于是可被翻译成将被执行以便传送计划的响应的动作。该动作于是被动作生成器进一步处理,以便具体指向不同的媒体平台,从而实现智能响应。
教学层和教师层都涉及所公开的教育型应用。教师层包含关于设计用于不同主题的课程表的活动。基于设计的课程表,教学层包含课程表调度器,其基于所设计的课程表来调度课程,基于课程表调度,问题设置模块可安排将基于特定的课程表调度而被提供的特定的问题设置。这样的问题设置可由论证层的模块用于辅助推断用户的反应,于是,基于效用和推断的心理状态来相应地规划响应。
至此所给出的公开涉及自动伴侣的总体框架。与本示教涉及自适应配置自动伴侣硬件及软件部件的不同方面有关的细节在下面参照另外的附图讨论。
图7示出了根据本示教一实施例,可被自适应地配置的自动对话伴侣的不同方面。如图所示,对于可动态配置的自动对话代理,附着的头部可被动态配置,包括仅仅在用户在靠近的范围内被检测到时致动机器人头部,并有选择地致动对于在附近检测到的用户来说适合的头部。一旦机器人头部被选择,具有能用于控制机器人头部的参数的配置文件也可被动态配置。例如,机器人头部可以用对于女性用户选择的配置文件配置,该配置文件具有例如与有着高音高嗓音、英国口音和平均语速的女性语音对应的参数。可为男性配置不同的配置文件,其具有能用于生成有着低音高和美国口音的男性嗓音的参数。
除了语音风格,自动对话伴侣的机器人头部还可以被动态配置为在向用户传达响应时具有表情。例如,当用户正确地回答了几个问题时,自动对话伴侣可以被控制为不仅说“好极了”,还呈现微笑表情。这样的表情可以在显示屏上呈现,显示屏可代表机器人头部的面部。在另一实例中,机器人的特定情绪可以经由机器人特定部件的实体移动来表达。例如,机器人可具有手臂,使得通过挥动手臂之一,可呈现兴奋的表情。取决于对会话的评估,表情可以在对话过程中连续被配置。
用户和自动对话伴侣之间的对话可以由项目驱动,项目也可基于观察到的情况被动态配置。例如,为了发起对话,自动对话伴侣可确定用于用户的特定项目,例如,由于孩子(用户)的父母先前为用户注册了项目,用于一年级数学的项目被选择。这样的项目将会驱动对话代理和孩子之间的会话。这样的会话与项目有关,因此,可被称为任务相关的会话。然而,在会话过程中,自动对话伴侣可能检测到会话进展不佳且孩子可能对附近的玩具分心。为了增强参与度和用户体验,自动对话伴侣可从选择的项目离题,并与用户谈论不在原始预期项目中的主题(例如玩具)。保持用户参与需要的这种离题需要从任务相关的会话(项目)切换到非任务相关的会话(不同的项目)。用意是继续吸引用户参与,使得在某个点上,会话能从非任务相关的主题切换回到任务相关的主题。
在对话期间自适应地调节主题可以是基于自适应学习的,自适应学习被应用到先前的会话以及正在进行的会话。例如,如果先前会话数据的机器学习经由学习的模型显示当孩子在学什么且变得不满时,临时切换话题而不是继续强加更为有效。这样学习的模型可用于决定何时动态地重新配置在进行中的项目。
图8示出了根据本示教一实施例,自动对话伴侣800的示例性高层次系统图。图8所示的示例性自动对话伴侣800包含动态配置图7所示的机器人的多种方面的部件。能够明了,自动对话伴侣800可包含用于附加的功能的其他部件,即使它们未在图8中示出。
可以看到,自动对话伴侣800包含用户存在性检测器805(用于检测接近自动对话伴侣的用户的存在性,以便致动机器人)、机器人头部配置单元810(用于基于用户自适应地配置机器人的头部)、具有多个配置文件(其可被动态配置为与机器人头部相关联)的可用的机器人头部820(用于自适应选择各个机器人头部)、配置文件配置单元830(用于动态地将配置文件与所选择的机器人头部关联)、项目配置单元840(用于动态地将项目与所选择的机器人头部关联)、交互控制器850(用于基于动态配置的机器人头部,并由动态配置的配置文件和程序驱动,进行与用户的对话)、交互分析器855(用于连续分析用户和周边情况)、表现评估单元860(用于在对话过程中动态确定用户的表现,以便为其他部件提供自适应地相应重新配置的基础)以及自适应学习引擎865(用于从对话中学习)。
图9为根据本示教一实施例,自动对话伴侣800的示例性过程的流程图。在运行中,当用户接近自动对话伴侣800时,用户存在性检测器805在910处检测用户并致动机器人头部配置单元810。为了为用户选择合适的机器人头部,机器人头部配置单元810在920处访问与用户相关联的已知信息,例如用户的身份(其可由用户存在性检测器805检测)、用户的特性(例如五岁大的男孩)、用户的偏好(例如喜爱泰迪熊)。根据与用户有关的信息,机器人头部配置单元810在930处从多个可选择的机器人头部中选择机器人头部,并将之配置为将用于与用户交流的机器人的头部。图10A-10E示出了根据本示教一实施例,自动对话伴侣的多种可选择的头部。如图所示,能为用户动态配置的机器人头部可包括但不限于10A中的鸭子头、10B中的熊头、……、10C中的猪头、10D中的男人(或男孩)头、10E中的女人(或女孩)头。例如,如果已经知道用户喜爱泰迪熊,与熊对应的机器人头可被选择。
在某些实施例中,可被选择的可以是可在机器人身体上致动的头。图11A-11C示出了根据本示教一实施例的自动对话伴侣,其具有可被选择的头以及使得可选择头配置成为可能的示例性实体机制。具体而言,图11A示出了用于自动对话伴侣的实体框架,其可支持可选择头配置。在此框架中,存在由两个矩形表面形成的支架,其代表自动对话伴侣的身体以及用作能安装机器人头部的头部支撑物的脖子。图11B示出了安装在对话伴侣上的鸭子头,其具有安装在支撑结构上的翅膀。图11C示出了实体框架中的示例性实体部件,其使得它所支撑的自动对话伴侣的操作成为可能。如图所示,身体的前面板可用于,在用户处于与自动对话伴侣的对话线程时,放置(用户的)装置。前面板可具有检测用户装置的存在性并致动机器人的传感器。在实体框架的脖子支撑部分上,可存在不同的实体部件,以使得不同的操作成为可能。例如,可以有:USB线缆,其使得信息存储成为可能;照相机,其可被安装在脖子部分上,以允许机器人的头部观看;照相机线缆,其使得由照相机获取的视觉信息可被发送到其他地方(例如发送到用户交互系统140,用于后端处理);或者,伺服机构,其可被控制,以便移动头部。附加机构可被配置,以便由框架容纳(host)多种可选择的机器人头部,并在每次选择被做出时致动所选择的一个。可以明了,这里讨论的用于自动对话伴侣的实体框架仅仅是说明性的,不对这里讨论的本示教的范围构成限制。
采用所选择的机器人头部,将被用于控制对话的运行的特定配置文件也可基于已知的和/或关于用户所观察到的被配置。例如,如果已知(例如从先前的对话)在以英国口音的安慰嗓音对用户说话时用户做的更好(例如因为用户的母亲这样说话),这种信息可被应用,以便用将语音风格规定为具有英国口音的安慰嗓音的配置文件来配置所选择的机器人头部。这通过在940处为用户确定个性化的机器人头部配置文件的配置文件配置单元930实现。
类似地,基于用户信息(例如身份、先前已知的信息和偏好),项目配置单元840在950处为用户确定个性化的项目。这样的判断可以基于例如用户注册的项目、用户的年龄信息或关于用户的其他已知信息。所选择的项目将被用于驱动与用户的会话。例如,如果用户先前在数学俱乐部中注册了五年级的数学项目,数学俱乐部中的自动对话伴侣可具有各个用户已经注册了哪个项目的记录以及关于用户在哪里从上一个对话线程与项目对抗(asopposed to)的记录。这样的信息可在同一用户下一次出现在俱乐部中时被使用,以便使自动对话伴侣能从中断的地方恢复,并继续项目。
基于所选择的机器人头部、机器人配置文件和项目,交互控制器850通过在960处控制机器人用由所配置项目驱动的内容与用户交互,进行与用户的对话。为了使得运行参数的动态调节成为可能,交互分析器855收集关于用户和对话环境的传感器数据,并在970处分析关于这种人机交互的数据。传感器数据可出于多种模态,例如音频、视觉、文本或甚至是触觉域。这种传感器数据可被用户装置获取,其中,用户经由用户装置与机器人交互。这种传感器数据也可被机器人代理(未示出)获取,特别是在机器人代理处于同一地理位置时。收集传感器数据以便分析是为了使得自动对话伴侣800中的表现评估单元860在980处评估用户(或机器人代理)的表现。基于所检测的交互数据对表现的评估于是可由自适应学习引擎865用于在990处从对话进行学习。
从对话学习的东西可构成对自动对话伴侣的多种方面的自适应配置的基础。例如,如果用于年轻男孩的初始配置文件是使用安慰的嗓音,但在对话期间认识到(经由学习)男孩不注意对他说了什么(例如没有把头转向机器人,也不回答任何问题),这样学习的信息可被用于反馈到配置文件配置单元830,以便将配置文件改为更为严肃且更洪亮的嗓音,以获得孩子的注意。类似地,在这种情况下,初始配置的项目也可被重新配置,以便引入某些可能吸引用户参与的话题(例如,当观察到男孩已经在玩玩具时,谈论男孩附近的玩具)。在这种情况下,所学习的关于男孩正在屋子里玩玩具而不注意对他说了什么的知识可被馈送到项目配置单元840。采用这种反馈,配置文件配置单元830和/或项目配置单元840于是可在995处调节配置,以便适应所观察到的情况。
图12A-12B示出了根据本示教一实施例,基于接近性检测的头部致动的概念。图12A示出了处于不活动模式的自动对话伴侣,其中,机器人的头垂下,即并非处在直立位置。其还示出了持有用户装置的用户正在接近自动对话伴侣。图12B示出,一旦用户装置足够接近自动对话伴侣,机器人头部自动直立,因为其检测到用户(或用户装置)在附近。为了确定自动对话伴侣的机器人头部何时将被直立或致动,存在检测用户装置的接近性的不同方式。图12C示出了根据本示教一实施例,自动对话伴侣可以用于检测用户的接近性的示例性手段。如图所示的,接近性检测可经由无接触装置或接触式装置。例如,无接触检测可经由近场通信(NFC)、蓝牙、Zigbee、射频识别(RFID)、磁体或Wi-Fi来进行。在某些实施例中,装置可使用内置入IEEE 802.11标准的接收信号强度指示器(RSSI)来检测不同参与者的接近性。
在某些实施例中,接近性的无接触检测可以通过检测特定的事件来实现(事件驱动)。例如,这种无接触检测可以经由照相机、红外线和/或接收该区域中的听觉信息的麦克风。例如,听觉传感器可允许音频事件(例如用户说了什么)的检测,或者,视觉传感器(例如视频记录器或照相机)可使得视觉事件(例如观察到有人走向自动对话伴侣)的检测成为可能。在某些实施例中,这样的事件可以是在代理装置上执行的某种动作。例如,用户可接近代理装置,并将他/她的装置放在代理装置上(见图12A和12B)。在这种情况下,存在性检测器805可检测这样的放置事件,并基于此推断接近性。
在某些实施例中,基于接触的接近性检测可通过检测实体连接来实现,实体连接经由例如触摸、插入令牌(token)或其他类型的电气连接(例如通用串行总线(USB)或经由导线、线缆或连接器)来建立。例如,代理装置可以在用户将USB插入代理装置时被触发。在这种情况下,存在性检测器805检测USB插入事件。
在某些实施例中,两个装置(代理装置和用户装置)可通过通信信道建立关于彼此的接近性。在某些实施例中,由磁强计和/或加速度计生成的信号可被用于检测装置(例如用户装置)是否被实体放置到另一个装置(例如代理装置)。在这些实施例中,装置A可具有磁体。例如,代理装置可以是支架的一部分(如图12B所示)或磁性车载支架的一部分。在此实例中,当用户装置被放在代理装置上或靠近代理装置时,磁场中的变化可使得放置或接近的检测成为可能。因此,如图12B所示,代理装置被触发,机器人的头部被致动(直立)以开始对话线程。类似地,经由这种手段,代理装置也可检测未放置事件。来自加速度计的信号可对事件消除歧义(例如,关于事件本身或检测到磁场变化后特定时间段内的移动)。在某些实施例中,关于两个装置检测接近性。在其他的实施例中,关于更多装置的接近性也可实现。例如,一个装置可能能够基本上同时地检测关于两个以上的其他装置的接近性。
图12D示出了根据本示教一实施例,存在性检测器805的示例性高层次系统图。在此所示的实施例中,存在性检测器805包含无接触接近性检测器1220、实体接近性检测器1230、事件驱动的接近性检测器1240、电气接近性检测器1250。为了支持检测用户接近性的不同运行模式,存在性检测器805在其中配置多种传感器1210。在某些实施例中,存在性检测805也可包含检测配置1270,其可具体规定哪个或哪些模式被配置为运行。在某些情况下,配置1270可为配置的存在性检测器具体规定特定的运行模式。例如,如果自动自动对话伴侣被安装在拥挤嘈杂的地方(例如酒店大堂),因为更难在这样的环境中做事件驱动的接近性检测,配置1270可被设置为使用磁体或NFC方法来检测接近性。
在某些实施例中,存在性检测可检测两个装置在实体上彼此接近。例如,接近性可以在两个装置(一个是代表自动对话伴侣的代理装置,另一个是用户装置)在实体上位于彼此的特定范围内时检测到。该范围可以为毫米、厘米、几十厘米或几米的数量级(例如,当使用磁体法时)。在某些实施例中,接近性可在两个装置实体上相互接触时检测到。在某些实施例中,存在性检测器805也可被配置为检测两个装置在彼此的特定范围之外。
基于所配置的运行模式和所配置的传感器1210,检测器1220-1250中的任何一个一旦被配置为运行,可连续保持开启,用于检测目的。例如,接近性事件检测器1240可被配置为,基于例如由听觉和视觉传感器获取的音频和视频/图像信息,连续听取或观察什么在附近的环境中。各个检测器可检测用户与其相应的指定装置的接近性,来自不同检测器的检测结果于是可被发送到接近性检测合并器1260,例如,基于某种集成模型,接近性检测合并器1260于是可将来自不同检测器的结果进行合并,以便生成集成检测信号。这样的信号表示用户在附近的存在,且因此触发自动对话伴侣。
在某些实施例中,存在性检测器805可以以某种方式对检测到的用户接近性发出信号。例如,存在性检测器805可指示接近性,或者,可不指示接近性。在对检测到的用户接近性发信号时,存在性检测器805可以经由光、声、触感/触觉指示和/或通过任何其他传感手段来进行。在某些实施例中,当检测到接近性时,被检测用户的用户装置也可被配置为指示与自动对话伴侣的接近性。例如,当检测到接近性时,自动对话伴侣可向用户装置上运行的应用发送信号,指示它向用户发出例如与代理装置的对话线程将要开始的信号。
如图8所示,一旦用户的存在性被检测到,存在性检测器805调用机器人头部配置单元810、配置文件配置单元830、项目配置单元840。机器人头部配置单元810将会基于与用户有关的信息,从如图10A-10E所示的多个机器人头部(820)中选择机器人头部。配置文件配置单元830将配置用于所选择的对于检测到的用户合适的机器人头部的配置文件(例如,指示机器人的语音风格的配置文件),项目配置单元840将会关于在该区域内检测到的用户来选择驱动自动对话伴侣与用户之间对话的合适的项目。
图13A示出了根据本示教一实施例,机器人头部配置单元810的示例性高层次系统图。在此所示的实施例中,机器人头部配置单元810包含基于偏好的头部选择器1310、基于配置文件的选择器1320以及头部配置器1330。在图8中看到,机器人头部配置单元810取得来自多个来源的输入,以便对机器人头部进行配置。根据本示教,机器人头部基于不同类型的动态信息来选择。可以考虑在区域中检测到的用户的偏好。可以考虑与各个机器人头部相关联的配置文件。例如,鸭子机器人头部可具有这样的配置文件:其规定它是用于儿童而不是成年人。在某些实施例中,机器人头部的选择也可基于为由配置文件配置单元830观察到的用户动态配置的配置文件。例如,如果用户被观察到处于哀伤的心情,配置文件配置单元830可配置用于使用户振奋起来的快乐嗓音的配置文件。在这种情况下,可能需要使头部的选择保持一致。
为了适应不同的考虑,机器人头部配置单元810可接收来自不同来源的输入。如所示的,其接收来自默认设置815的默认设置信息、来自用户数据库130的用户偏好、来自配置文件配置单元830的配置文件配置、来自项目配置单元840的项目配置。当不存在能用于确定机器人头部选择的其他信息时,默认设置可被使用。基于来自不同来源的信息,机器人头部将被配置为被致动(用特定的动态配置的配置文件),用于实现与用户的对话。
图13B为根据本示教一实施例,机器人头部配置单元810的示例性过程的流程图。基于偏好的头部选择器1310在1340处接收来自用户数据库130的用户偏好信息,并在1350处基于用户的偏好选择机器人头部。可能已经知道用户偏好兔子头,且这样的信息将被用于选择机器人头部。同时,选择也可基于为用户配置的优选配置文件来做出。这通过基于配置文件的选择器1320而实现。例如,如果用户看上去悲伤,具有快乐嗓音的配置文件可被配置,与该配置文件一致的机器人头部可被选择。在1360处,基于配置文件的选择器1320接收与为用户配置的配置文件有关的信息(例如来自配置文件配置单元830),并在1370处相应地选择机器人头部。为了根据将要应用于对话的项目来集成不同的选择,头部配置器1330在1380处接收项目配置信息和由基于偏好的头部选择器1310以及基于配置文件的选择器1320做出的选择,并在1390处,通过对基于偏好以及配置文件的选择进行集成,生成机器人头部配置。这样的配置并入了配置文件配置和项目配置,并可由交互控制器850用于进行与用户的对话。
基于配置文件的选择器1320基于配置文件配置来运行,配置文件配置由配置文件配置单元830生成,其基于如图8所示存储在存储器835中的可选择的配置文件,选择用于当前用户的特定配置文件。存储在835中的可选择的配置文件可以是预先确定的一组配置文件,其可以基于例如这样的配置文件在对话中使用时的表现评估而随着时间被更新。可选择的配置文件可在一开始被设置为针对具有一组预期情绪的、特定的预期角色。图14A示出了根据本示教一实施例,机器人配置文件的示例性方面。如这里所讨论的,用于自动对话伴侣的所选择的机器人头部的配置文件是代理装置(自动对话伴侣的一部分)实现对话的不同的方式,包括如何动作、如何说话、带有何种表情。这种交流风格参数可以与自动对话伴侣的底层角色、角色的作用、……以及代理装置将要向用户投射的形象有关或由之决定。
如图14A所示,835中存储的配置文件可以包含用于多种类型的角色的配置文件,每个以不同的形象运行。例如,可以为不同类型的角色(例如人类或非人类角色)设置不同的配置文件。人类角色可对应于这样的人:其可以为孩子(可以是男孩或者女孩)或成年人(可以是男性或者女性)。角色也可包含非人类的动作者,例如化身、……、鸭子或图10所示的任何动物角色。各个角色配置文件可以与将在对话过程中由角色向用户投射的特定形象相关联。每个角色可以与一个以上的可用形象相关联,例如和蔼角色、……快乐角色、鼓励角色的形象。这种配置文件可以基于不同维度的描绘来编索引。在某些实施例中,附加的特性也可被包括在内,以便使得更宽范围的可选择配置文件成为可能。例如,除了角色和形象的组合以外,职业也可以是可在定义配置文件时与角色以及形象一起使用的一个维度。
尽管配置文件可基于不同维度的特性的组合来编索引,如这里所讨论的,为了对与各个配置文件相关联的预期特性进行实例化,配置文件可包括针对对话的不同方面的多种精确的规格(specifications),以便实现底层角色的形象。例如,如果配置文件是为了使代理装置像具有快乐形象的男孩一样动作,需要提供多种运行参数,以便控制代理装置以将之投射为快乐男孩的方式动作。
图14B示出了根据本示教一实施例,参数的示例性类型,参数可在配置文件中具体规定,以便实现有特定形象的角色。如图所示,为了允许自动对话伴侣实现具有特定形象的角色,配置文件可具体规定代理的嗓音、面部表情……、和/或语音风格的参数。代理的嗓音可被控制为孩子或成年人的嗓音。对于孩子角色,其可关于是有男孩还是女孩嗓音而被进一步具体规定。对于成年人角色,可以具体规定为实现女性或是男性的嗓音。对于每种具体规定的嗓音,可以存在预先编程的一组参数,其可用于生成例如,对于代理装置从文本响应转换的语音信号。
除了可基于角色确定的嗓音以外,其他的参数也可与将被实现的形象有关地具体规定。例如,面部表情和语音风格可被控制,以便在与用户交互时传达代理的特定所选形象。配置文件中规定的参数将被用于由自动对话伴侣呈现由代理装置“说出”的响应的语音和/或将在与代理面部对应的显示屏上呈现的表情。例如,配置文件中具体规定的参数可指示代理将使用哪种语言、说出响应的音高、代理说话的速度、……、或代理说话的音调。配置文件也可以用规范并入与面部表情(例如笑容、兴奋或悲伤)有关的参数,该规范可用于呈现这些表情。配置文件存储器835可存储具有角色和形象的不同组合的配置文件,使得配置文件配置单元830可根据知道的关于用户的信息来做出选择。
在某些实施例中,835中存储的配置文件也可根据配置文件适合表达的情绪来分类。例如,某些配置文件可被分类为适于悲伤并需要振奋起来的用户。有些配置文件可被分类为适合用于不满的用户。采用这样的分类,还可以有与角色和形象的不同组合对应的多个配置文件,例如,如果被分类为适合与不满的孩子交互的一类配置文件可包括与具有快乐嗓音的黄色鸭子头、具有温和安慰嗓音的粉色兔子头等等对应的配置文件,因此,当面对不满的儿童用户时,可基于例如用户偏好(例如已经知道孩子喜爱兔子),从与情绪“不满”相关联的类中的多个配置文件中选择合适的配置文件。
图15A示出了根据本示教一实施例,配置文件配置单元830的示例性高层次系统图。在此所示的实施例中,配置文件配置单元830包含基于用户信息的配置文件选择器1510、基于传感器信息的配置文件选择器1520、配置文件配置集成器1550。在此示例性实施例中,配置文件配置单元830允许基于来自不同来源的信息选择配置文件,并对不同的选择(如果有)进行合并,以便联合得到用于所检测用户的合适的配置文件。图15B为根据本示教一实施例,配置文件配置单元830的示例性过程的流程图。基于用户信息的配置文件选择器1510在1505处接收用户信息,例如,用户身份,例如年龄、性别和偏好等的个人信息。基于所接收的用户信息,基于用户信息的配置文件选择器1510可在1515处基于与用户有关的信息确定备选配置文件。例如,如果用户是已知羞涩且偏好与讲话温和的人说话的学步儿童,被分类为适合以温和嗓音与羞涩儿童交互的配置文件可被选择。这样的选择可使用存储在基于偏好的配置文件档案1530中的信息来做出,1530可存储基于不同的用户偏好分组的所有配置文件。例如,可能有用于羞涩且且偏好与讲话温和的人交流的孩子的配置文件。
在某些实施例中,配置文件配置单元830也可基于不同的判据来选择备选配置文件,例如用户的当前对话设置,包括用户的状态、用户周边的情况、场景中的声音等等。例如,对当前对话设置的评估可以基于经由不同的传感器从对话场景中获取的传感器信息。基于传感器信息的配置文件选择器1520在1525处接收从用户的周边获取的传感器数据,并在1535处分析这样的传感器数据。在某些实施例中,所接收的传感器数据出于多种模态,提供例如图像/视频、声音(包括语音或环境声音)、文本或甚至是触觉信息。对这样的信息进行分析可能是用于理解与配置文件选择有关的情况。例如,经由传感器数据,可以观察到儿童用户在哭,且房间里的桌子上有玩具鸭子。这样的情况可影响配置文件的选择。例如,如果用户通常洪亮且快乐,通常,普通的配置可能足够,但是,现在用户在哭,因此,该情况需要有着安慰或抚慰嗓音和微笑面容的配置文件。在这种情况下,基于传感器信息的配置文件选择器1520可在1545中基于例如存储在1540中的基于情绪的配置文件排名来确定选择具有安慰、抚慰嗓音的配置文件。如这里所讨论的,配置文件可以基于情绪来分类,即,对于每种情绪,可以有与之关联的一个以上的配置文件。在此实例中,如果男孩用户的情绪是悲伤(即一种情绪),备选配置文件可以从被分类为处理“悲伤”情绪的一个以上的配置文件中选择,例如基于配置文件的排名。也就是说,排名可指示配置文件有多适合处理一情绪。这样的排名可由自适应学习引擎865(见图8)根据对不同对话的表现的评估进行更新。例如,如果配置文件被联系到情绪“悲伤”,但在表现上,根据来自表现评估单元860的评估,该配置文件在被配置时看起来没有缓解用户的“悲伤”的次数的百分比。在这种情况下,自适应学习引擎865可从评估中学习,并提供调节配置文件/情绪排名的反馈。
在某些情况下,由基于用户信息的配置文件选择器1510做出的选择可不同于由基于传感器信息的配置文件1520所做的。在此情况下,配置文件配置集成器1550可以或者对选择进行合并,或者基于附加信息将备选配置文件中的一个选择为所配置的配置文件。在某些实施例中,这样的附加信息可包括表现分析或配置文件/情绪排名。当配置文件配置集成器1550在1555处接收到表现分析结果和/或当前配置文件/情绪排名信息时,其在1565处将来自1510和1520的选择集成,并在1575处生成对于涉入当前对话的用户的配置文件配置。在某些实施例中,集成可以是选择备选配置文件中的一个。在某些实施例中,集成可以为合并(例如混合)来自两个备选配置文件的参数,以便为用户创建新配置文件。
如图15所示,根据本示教,为了获得适合于当前用户的配置文件,配置文件配置单元830中的基于传感器信息的配置文件选择器1520被用于选择这样的配置文件:给定来自捕捉用户状态以及对话环境周边情况的传感器的输入,其被认为是适合用于用户的。这是为了将配置文件选择适应于对话的动态情况,故自动对话伴侣可增强用户的参与度。图16A示出了根据本示教一实施例,基于传感器信息的配置文件选择器1520的示例性高层次系统图。在此所示的实施例中,基于传感器信息的配置文件选择器1520被配置为,基于过程多模态传感器输入(例如视觉和音频输入),推定用户的状态和对话的环境。其他模态的输入也可被用于相同的目的(尽管图16A未示出)。例如,触觉信息可被获取并用于推定用户的移动。如果存在,文本信息也可被用于促进对对话环境的理解。
如图16A所示,在示例性实施例中,基于传感器信息的配置文件选择器1520包含对象识别器1600、表情检测器1610、用户情绪推定器1625、用户意图推定器1640、音频信号处理器1630、对话周边情况推定器1620、基于对话设置的配置文件选择器1650。根据本示教,用户的状态可包含用户的情绪状态和推定的用户意图,其可以基于例如用户的面部表情、用户的听觉表情(可以是语言的,或仅仅是用户发出的某种声音)推定。意图可在某些情况下基于推定的情绪来推定。例如,当用户看起来非常兴奋,连续谈论他刚刚玩而且赢的游戏时,可以推定为短时间内用户无意开始关于数学的对话。在这种情况下,可为代理装置选择临时项目,以便与用户继续聊一小会儿他/她的胜利,用于该会话的配置文件可被选择为以快乐且兴奋的音调传递会话。
对话环境推定对于配置文件的选择也可能是重要的。例如,如果会话环境推定器1620经由例如音频信号检测到环境嘈杂,这种信息可被用于选择这样的配置文件:其规定使用欢快且洪亮的嗓音传递语音,故使用户能够听到。另外,在推定用户的情绪状态时,来自对话环境推定器1620的这样的检测结果也可被情绪推定器1625和/或用户意图推定器1640在推定用户情绪状态时考虑。例如,如果环境嘈杂,即使用户可能大声,可能由于用户必须大声说话以便使其他人听见,而不一定是因为用户心烦。
图16B为根据本示教一实施例,基于传感器信息的配置文件选择器1620的示例性过程的流程图。在1602中,接收多模态传感器数据,且其被多种部件进一步用于检测相关信息,例如,在1612处,对象识别器1600从视频输入数据检测对话场景中存在的多种对象,例如用户的面部。基于检测到的用户面部,表情检测器1610可进一步基于经由机器学习学到的合适的模型来检测用户的表情。同时,其他的检测到的对象,例如椅子、桌子、桌上的计算机、椅子上的玩具鸭子,可被发送到对话环境推定器1620,以评估例如环境的性质。
为了评估用户的状态和对话环境,基于传感器信息的配置文件选择器1520也可考虑在对话环境中获取的音频数据。音频信号处理器1630可在1622处分析来自环境的音频信号,并在1632处从音频数据中检测语音(用户的)和/或环境声音(例如背景中的警笛)。基于由对象识别器1600检测的视觉对象和/或由音频信号处理器1630检测的音频事件,对话环境推定器1620在1642处推定环境的性质。例如,如果检测到椅子、桌子和计算机在对话场景中存在(由对象组织器1600)且检测到警笛的声音(由音频信号处理器1630),对话环境推定器1620可推定为对话环境是某个城市中的办公室。
为了将配置文件的选择适应于用户状态,用户情绪推定器1625在1652处基于例如用户的表情(经由面部的视觉表情,或经由音频(例如说什么或做出某种表达性的声音))推定用户的情绪。在某些实施例中,用户的情绪也可基于关于用户所处的环境的相关信息来推定。如这里所讨论的,例如,尽管当用户在安静环境中大声说话时用户可被推定为烦恼,当语音在嘈杂环境中说出时,用户可以不被认为在烦恼。基于推定的情绪、语音和环境,于是,用户意图推定器1640可在1662处推定用户的意图。在用户状态和环境被推定之后,基于对话设置的配置文件选择器1650在1672处选择被认为在当前对话环境中适合于用户的配置文件。如这里所讨论的,对话设置包括在对话环境中观察的多种条件,例如用户的状态、环境中存在的对象、环境的特性(例如有多嘈杂)等等。
可以使配置文件配置在对话过程中自适应。例如,可能已经知道儿童用户偏好温和安慰的女性嗓音,且配置文件被选择为能够以温和安慰的女性嗓音传递语音。在对话过程中,可能观察到用户没有听和遵守指示,且因此表现不好。在这种情况下,对进行的交互进行即时分析(见图8的交互分析器855和表现评估单元860),自动伴侣可学习不佳的表现。这样的表现信息可被发送到自适应学习引擎865,其可基于经由根据过去的数据的机器学习生成的模型判断为需要更为坚定的嗓音,以便唤起用户的注意。在这种情况下,自适应学习引擎865可调用配置文件配置单元830来调节配置文件的选择。这在图15A中示出,其中,配置文件配置集成器1550将表现分析信息考虑在内,于是可对配置文件选择进行调节。
如图15A所示,在判断如何配置或生成配置文件时,配置文件配置集成器1550也可将配置文件/情绪排名信息考虑在内。如这里所讨论的,每个配置文件可被分类为对于展现出不同情绪的用户合适或相关。对于每种情绪,配置文件有多合适处理处于该情绪状态的用户可被反映在其配置文件/情绪排名分数中。这样的分数也可用于由配置文件配置集成器1550用于确定为用户配置哪个配置文件。
除了选择与机器人头部选择一起的合适的配置文件之外,自动对话伴侣也可自适应地配置将用于驱动与用户的会话的项目。如图8所示,项目配置单元840将基于当前对话设置(包括用户是谁、用户的状态如何、环境是什么),自适应地配置项目。图17A示出了根据本示教一实施例,能被自动对话伴侣用于驱动与用户的会话的示例性类型的项目。项目与主题或话题有关,如图17A所示,其可以与教育、健康、……娱乐、运动等有关。在每个话题上,可以有更为精细地分类的话题,例如,教育可包括关于语言、数学……、物理的子话题。尽管图17A示出了相对较少的话题,其他背景下使用的内容分类树可在这里采用,取决于自动对话伴侣配备了什么。
如这里所讨论的,出现在对话环境中的用户可触发自动对话伴侣的致动。当这一点发生时,可能有几种可能性。例如,用户可能是就某些主题(例如数学课)预先注册的用户。在这种情况下,将被配置为开始与用户的对话的默认项目可能对应于预先注册了什么。依据在前一对话期间项目在哪里结束,默认项目可以受到调节。例如,如果用户与自动对话伴侣注册了五年级数学项目且最后的会话讲了几何学中的三角形主题,则当前会话可以在进行到讲矩形之前用对三角形的回顾开始。在这种情境下,所选择的项目用于驱动面向任务的会话,而涉及的任务与项目将要实现的目标有关。例如,与五年级数学项目有关的面向任务的会话是在目的在于教用户学习五年级数学的项目中完成不同的任务。
在不同的情况下,出现在场景中的用户可能对自动伴侣来说是新的。在这种情况下,所选择的项目可对应于为开始与新用户的会话而设计的。对于被配置为教儿童的自动伴侣,这样的发起项目可被设计为问用户多种问题,以理解例如用户的年龄、年级、用户舒适的数学水平等,以便帮助用户注册在感兴趣主题方面适宜的项目。
在某些情况下,尽管项目可在最初被选择为驱动面向任务的对话,最初选择的项目可能需要被切换出去,以便继续使用户参与。在这种情况下,替代性的项目或会话可被自适应地选择,以便进行与用户的非面向任务的会话。例如,用户可能预先注册了五年级数学项目,故而当用户被检测到时,五年级数学项目被配置为驱动面向任务的会话。然而,在会话过程中,可能观察到用户对自动伴侣的参与度不高。在这种情况下,自动伴侣可临时挂起最初选择的程序并将话题切换到与用户谈论非面向任务的主题(例如,其可基于用户的喜好或用户可能感兴趣的在场景中存在的东西来确定)。自动伴侣可继续观察用户,一直到观察到参与。在这种情况下,对话可以切换回到原始配置的项目,并使用户重新专注于面向任务的会话。这在图17B中示出,其显示出,根据本示教一实施例,基于来自对话的反馈,在项目驱动和非项目驱动的会话之间的自适应切换的概念。
图18A示出了根据本示教一实施例,项目配置单元840的示例性高层次系统图。在此所示的实施例中,项目配置单元840包含基于用户注册的项目选择器1810、基于传感器信息的项目选择器1820以及项目调节器1850。基于用户注册的项目选择器基于用户的注册状态来选择项目。如果用户是注册用户,其可以从用户/项目数据库1870中选择项目。如果用户没有注册,其可以选择用于新用户的特殊项目。基于传感器信息的项目选择器1820被配置为基于从用户和周边观察到的来自适应地选择项目。项目调节器1850被配置为,基于来自选择器1810和1820的一个或两个选择,做出关于程序为何的最终选择或判断。
图18B为根据本示教一实施例,项目配置单元840的示例性过程的流程图。在运行中,在1805处接收到用户信息时,基于用户注册的项目选择器1810在1815处检查用户是否为预先注册的用户。如1825处所判断的,如果用户不是预先注册的用户,发起项目被配置为开始会话。如这里所讨论的,这样的发起项目可被设计为向用户问多种问题,以便实现特定的目的,例如使用户注册项目。
如果用户为注册用户(这可以从用户注册信息存储器1830验证),基于用户注册的项目选择器可访问存储在用户/项目数据库1870中的信息,以便在1845处验证用户已经注册的程序。这得到基于用户注册项目的所选择的项目。如图18A所示,基于对用户状态和/或对话环境周边情况的观察,项目配置单元840也自适应地确定被认为此时适合用于用户的项目。为了做到这一点,基于由用户装置和/或代理装置获取的多模态传感器数据,基于传感器信息的项目选择器1820在1855处推定用户状态和对话环境。基于推定的用户状态和/或对话环境,基于传感器信息的项目选择器1820在1865处自适应地选择项目。如这里所讨论的,基于推定用户状态和/或周边信息选择的这样的项目可以是面向任务的项目或非面向任务的项目(例如当观察到用户并非在忙于它时)。如果是面向任务的项目,它可以与基于用户注册信息选择的项目一致。如果不是面向任务的项目(例如基于传感器信息的项目选择器1820判断为谈论场景中的鸭子玩具,以便使用户振奋起来,从而继续吸引用户参与),由基于传感器信息的项目选择器1820所选择的项目或话题可以与基于注册选择的不同。在这种情况下,不同可通过项目调节器1850来解决。
一旦选择器1810和1820做出关于项目的相应选择,项目调节器1850于是可在1875处基于演进(progression)计划生成最终项目选择,自动对话伴侣使用该计划来进行对话。在某些实施例中,项目调节器1850可依赖于项目演进模型1860来集成或解决来自选择器1810和1820的所选择项目的不同。当来自选择器1810和1820的选择一致(或相同)时,项目调节器1850可不需要对任何不同进行调停。当存在不同的选择时,项目调节器1850可能需要解决不同。在某些实施例中,项目演进模型1860可被用于解决这些不同。例如,模型1860可对应于规定不同的所选择项目之间的优先权的规则。例如,可以规定来自选择器1820的选择具有与来自选择器1810的选择器相比更高的优先权。这可以基于选择器1820考虑用户和环境的动态,而选择器1810不考虑。在某些实施例中,这样的优先级设置也可取决于与由选择器1820获得的选择相关联的某种推定的置信。项目演进模型1860可规定,来自1820的选择在推定用户状态的置信高于特定水平时取更高的优先级。如果置信低于特定水平,项目演进模型1860可规定项目调节器1850可以用基于注册做出的选择进行。
在某些实施例中,项目调节器1850可合并不同的选择,而不是用一个取代另一个。合并两个所选项目的方案也可在项目演进模型1860中规定。例如,在来自1820的选择的置信并非具有所要求的水平时,项目演进模型1860可规定将两个程序集成,通过例如基于时间调度来交织来自每个项目的内容。例如,两个项目中的每一个可对于相应地规定的时间段(例如第一个项目15分钟,第二个项目5分钟)交替演进。如果基于用户注册的选择是五年级数学,且基于传感器信息的选择是谈论乐高游戏,这种合并的项目将会允许自动对话伴侣测试用户,于是,基于观察到的表现来做出未来的调节。这可以在致力于特定项目之前提供观察用户表现的宽限期。
项目调节器1850也可被配置为,在1885处基于关于对话过程中的表现做出的观察,自适应地调节项目。如这里所讨论的,对话的交互信息被连续监视(见图8),由交互分析器855进行分析,用户的表现由表现评估单元860评估。表现评估信息被发送到项目配置单元840,并由项目调节器1850用于确定如何将项目适应于所观察到的情况。在某些实施例中,当表现满足特定的条件(例如表现太过低下)时,项目调节器1850可触发基于传感器信息的项目选择器1820,以便分析连续收集的传感器信息,从而理解动态用户状态和周边情况,并根据所观察的情况来选择项目。例如,如果用户看起来不满且表现不好,基于传感器信息的项目选择器1820可切换掉当前的项目并选择临时的项目,例如,可引入消遣或谈论用户感兴趣的东西,以便吸引用户继续参与。这样的新选择的项目于是可被发送到项目调节器1850,其于是可基于项目演进模型1860来调节项目。通过这种方式,用于驱动与用户的对话的项目可自适应性地得到调节,以便增强用户体验和参与度。
由图8可见,一旦配置文件和项目均被配置文件配置单元830和项目配置单元840分别为所选择的机器人头部配置,交互控制器850于是进行到控制在代理装置和用户之间的对话。在对话期间,交互控制器850使用配置的项目来驱动会话,于是,控制所选择的机器人头部,以便以所配置的配置文件指示的方式传递对话中的各个响应。图19A示出了根据本示教一实施例,交互控制器850的示例性高层次系统图。在此所示的实施例中,交互控制器850包含响应生成器1900、响应控制信号生成器1910、响应传递单元1920、状态更新器1930、多模态数据接收器1960和交互数据生成器1970。这些部件协同工作,以便基于所配置的项目和配置文件对与用户的交流进行控制。交互控制器850也可基于对话的演进来控制机器人头部状态转换。
图19B示出了根据本示教一实施例,示例性机器人状态转换图。在此所示的转换图中,机器人可以以四种不同的状态运行,例如,关闭状态、活动状态、待机状态和不活动状态。当代理装置(或机器人)处于关闭状态时,这可以表示代理装置没有开启。当代理装置处于活动状态时,其可以积极参与正在进行的对话。当代理装置处于待机状态时,可能意味着代理装置没有积极参与对话,但仍涉入对话,并等待来自用户的响应。当代理装置处于不活动状态时,可能表示代理装置开启但当前没有参与对话。
在不同状态之间的转换可以是双向的,可以使两个状态之间任何方向的转换成为可能。取决于应用需要,以特定方向在两个状态之间的转换可以受到条件制约。例如,从不活动状态转换到待机状态可能在用户在附近被检测出时触发。从待机状态转换到活动状态可能以对于附近的用户完成机器人头部选择、配置文件/项目配置为条件。从活动状态到待机状态的转换可以在用户不响应代理装置问的问题达预定的时间段时或在检测到用户已经离开该区域时进行。在待机状态下,代理装置可能仍然处于对与正在进行的对话有关的全部信息进行跟踪的设置中,因此,当用户响应或返回时,代理装置能迅速从对话中断的地方恢复,并继续进行。
如果处于不活动状态的代理装置可变得不参与对话(其导致转换),从待机状态到不活动状态的转换可能需要满足不同条件。例如,如果用户没有对代理装置向他/她说的任何话做出响应达延续的时间段(例如0.5小时),代理装置可被置入不活动状态,其中,代理装置不参与任何对话且不保留来自先前的对话的任何信息。在某种意义上,处于不活动状态的代理装置可以处于睡眠模式。在某些情况下,代理装置可从其他三种状态的任何一种被置入关闭状态,例如,当代理装置的电源开关被关闭(手动地或电子地)时。
图19C为根据本示教一实施例,交互控制器850的示例性过程的流程图。在运行中,对话被在附近检测到用户触发,或被正在进行的对话中来自用户的响应触发。这样的触发信号可导致交互控制器850进行到如下所述的运行。在1915处接收到触发信号时,取决于正在进行的对话的状态,响应生成器1910可进行到调用状态更新器1930以进行代理装置的状态转换(如果显得有必要的话)。如图所示,每个可选择的机器人头部与当前状态相关联并被存储在档案1950中。如果触发信号是外部控制指令,例如,当用户在附近的区域中被检测到时发送自存在性检测器805(见图8),状态更新器1930可在1925处将为用户选择的机器人头部的状态从例如不活动状态更新为待机状态(或活动状态)。如果触发信号是基于用户响应的,取决于代理装置(或机器人头部)的当前状态,可能不需要状态转换。例如,如果代理装置已经处于活动状态,然后,接收到用户的响应,在这种情况下,不需要状态转换。
无论由外部控制信号还是用户响应触发,响应发生器1910也可进行到在1935处基于所配置的项目(项目指示会话如何流动)确定代理的响应。这样的代理响应可以是当代理装置将要发起对话时向用户说的初始问候,或为对用户刚刚所说的内容的响应(用户的响应)。所生成的代理响应可涉及一种以上模态的动作。在某些实施例中,代理的响应可以是简单的将要经由例如文本到语音进行的“口头”响应。在某些实施例中,口头响应可以结合表情进行,表情可以经由面部特征操纵(例如在面部呈现大大的笑容)和/或经由代理装置特定部分的某些实体移动(例如挥动手臂表达例如兴奋)来传递。
为了控制代理装置(或所选择的机器人头部)来根据所配置的配置文件传递所生成的代理响应,响应生成器1910调用响应控制信号生成器1910,其在1945处访问关于被选择为与用户会话的机器人头部的信息及其相关联的配置文件,该配置文件指示向用户“说话”的方式。如这里所讨论的,所配置的配置文件可规定将用于控制语音将如何被传递的参数(安慰的嗓音,英国口音,低的音高,较慢的语速,等等)或代理装置将以何种表情呈现(例如,如何在位于代理装置面部的显示屏上呈现代理装置的面部表情)。基于所配置的配置文件,响应控制信号生成器1910于是可在1955处生成合适的控制信号,其将被用于在代理装置上实现配置文件中的特性。例如,为了控制机器人头部慢慢说话,控制信号可包括参数,该参数用于控制如何将文本(将要说的响应)转换具有要求的速度的语音。为了控制代理装置具有微笑面容,控制信号可包含将用于在代理的面部呈现笑容(例如弯弯的眼睛)的参数。
由响应控制信号生成器1910生成的控制信号于是可被响应传递单元1920用于在1965处基于控制信号以一种以上的模态向用户传递响应,如这里所讨论的。在响应被传递之后,多模态数据接收器1960在1975处接收来自用户现场的反馈。这种反馈可包含一种以上模态的信息,例如音频、视觉、文本或甚至是触觉。这种多模态数据可被布置在用户装置或者代理装置上的传感器获取。为了允许自动对话伴侣具有自适应性,在对话过程中获取的、这样接收的多模态数据被发送到交互数据生成器1970,于是,其生成与用户和代理装置之间的交互有关的数据,并在1985处发送到交互分析器855(见图8)。如这里讨论的,交互分析器855和表现评估单元860于是可基于实时获取的一个以上模态的传感器数据,基于交互反馈来评估用户的表现,然后,经由配置文件配置单元830和项目配置单元840使得对配置文件和/或项目的自适应调节成为可能。
在促成自动对话伴侣的自适应行为时,自适应学习引擎865(见图8)可从交互及其表现中学习,以便为例如改善参与度和用户体验目的,使得配置文件/项目的自适应调节成为可能。图20A示出了根据本示教一实施例,自适应学习引擎865的示例性高层次系统图。在此所示的实施例中,自适应学习引擎865包含表现信息分析器2000、用户情绪推定器2040、情绪/配置文件关联器2030、学习引擎2010、配置文件/项目更新器2020、情绪/配置文件排名单元2050。图20B为根据本示教一实施例,自适应学习引擎865的示例性过程的流程图。
在运行中,自适应学习引擎865接收与用户和自动对话伴侣之间的交互有关的数据。这种数据可在每个正在进行的对话期间被实时获取,并表征不同的人机交互的品质、表现和结果,其可用于学习如何改善未来的人机交互。所学习的经验(其可由自适应更新的模型表征)于是可用于自适应地调节可在人机交互过程中应用的多种可配置参数。例如,这种可配置参数可以与如何选择可选择机器人头部(例如,什么类型的情境可使用什么类型的机器人头部来改善用户体验)、用户情绪和适合用于这种情绪的配置文件的相关性(例如什么嗓音对处于特定情绪状态的特定用户更好)、项目可以如何交替演进以便在特定情况下增强表现等等有关。
在图20B所示的示例性流程中,当表现信息分析器2000接收到表现评估结果时(例如来自图8的表现评估单元860),其在2005处分析接收的信息。当用户情绪推定器2040接收到在对话场景中获取的多模态传感器数据(与用户和/或对话场景有关)时,其在2015处基于例如从对话场景获取的多模态传感器数据和特定的情绪推定模型2047来推定当前用户的情绪。在某些实施例中,用户情绪推定器2040也可接收推定的用户情绪,例如由交互分析器855(见图8)推定的。分析的表现信息(由表现信息分析器2000)和推定的用户情绪(由用户情绪推定器2040或由交互分析器855)于是被发送到情绪/配置文件关联器2030,用于更新情绪/配置文件相关性。
如这里所讨论的,配置文件可被分类为不同的组,每个组可与特定的情绪相关。与一情绪关联的同一组中的配置文件可对应于这样的配置文件:其在用于与处于该种情绪状态的用户交流时可能有效,且用于该情绪的该组中的各个配置文件可具有关联的排名,排名可代表此配置文件在应用于处理处于该情绪状态的用户时有多有效的品质量度。因此,情绪/配置文件相关性是能用于在给定推定用户情绪状态的情况下选择配置文件的指标。
对话过程中观察到的用户的表现可以表示关于用户的情绪状态当前在对话中应用的配置文件的有效性。因此,在对话过程(其中,特定的配置文件用于处理用户的特定情绪状态)中获取的表现信息可被用于动态评估配置文件关于用户情绪状态的有效性。对配置文件关于情绪的有效性的这样的评估于是可用于自适应地更新配置文件与所讨论的情绪之间的相关性的排名。
因此,在接收到对通过在与具有推定用户情绪(来自2040)的用户的对话中应用配置文件得到的表现分析结果(来自2000)时,情绪/配置文件关联器2030可在2025处,基于例如某种相关性模型2037(如图20A所示),推定所用配置文件和用户的情绪状态之间的相关性。这样推定的相关性于是用于在2035处由情绪/配置文件排名单元2050关于配置文件和情绪的配对来确定排名。如这里所讨论的,配置文件和情绪的配对的排名表示配置文件在被代理装置用于与处于该情绪状态的用户交互时有多合适。因此,相关性程度越高,推定的排名可能越高。情绪/配置文件排名单元2050可将其推定基于排名推定模型2027。在某些情况下,配置文件和情绪的配对可能已经以先前推定的排名分数存在。在这种情况下,连续收集的表现数据和用户的情绪状态可被用于在2025处自适应地更新在配置文件和情绪之间的配对的排名。如先前讨论的,这种情绪/配置文件排名可用于选择用于对代理装置进行配置的合适的配置文件。
除了推定配置文件关于情绪的相关性和排名以外,动态收集的信息(包括表现信息以及多模态传感器数据)也可由学习引擎2010用于在2045处学习或更新例如多种模型2017。基于自适应地学习的模型2017,基于模型的信息更新器2020于是可在2055处更新多种配置信息,配置文件配置单元830和项目配置单元840依赖于该配置信息对代理装置进行配置。例如,基于学习得到的模型2017,基于情绪的项目配置1840、基于偏好的配置文件档案1530和情绪/配置文件排名1540可被自适应地调节。
图21示出了移动装置的架构,其可用于实现部分或全部地实施本示教的特定系统。在此实例中,用户装置(内容和广告在其上呈现并被交互)是移动装置2100,其包括但不限于智能电话、平板电脑、音乐播放器、手持游戏机、全球定位系统(GPS)接收器、可穿戴计算装置(例如眼镜、腕表等)或其它任何外形因素。此实例中的移动装置2100包括一个以上的中央处理单元(CPU)2140、一个以上的图形处理单元(GPU)2130、显示器2120、内存2160、诸如无线通信模块的通信平台2110、存储器2190以及一个以上的输入/输出(I/O)装置2150。任何其他合适的部件,包括但不限于系统总线或控制器(未示出),也可包含在移动装置2100中。如图21所示,移动操作系统2170(例如iOS、Android、Windows Phone等)以及一个以上的应用2180可从存储器2190被装载到内存2160中,以便由CPU 2140执行。应用2180可包括浏览器或任何其他合适的移动app,用于在移动装置2100上接收和呈现内容流和广告。与移动装置2100的通信可以经由I/O装置2150实现。
为了实现本公开中介绍的多种模块、单元及其功能,计算机硬件平台可用作用于这里介绍的一个或多于一个元件的硬件平台。硬件元件、操作系统和这种计算机的编程语言在性质上是传统的,且假设本领域技术人员足够熟悉它们,以便使这些技术适应于这里公开的查询到广告的匹配。具有用户接口元件的计算机可用于实现个人计算机(PC)或其他类型的工作站或终端装置,但是,如果合适地编程的话,计算机也可作为服务器运行。相信本领域技术人员熟悉这种计算机设备的结构、编程和一般运行,因此,附图可能是不言自明的。
图22示出了计算装置架构,其可用于实现实施本示教的特定系统。实现本示教的这种特定系统具有硬件平台的功能框图,该硬件平台包括用户接口元件。计算机可以是通用计算机或专用计算机。二者都能用于实施用于本示教的特定系统。这种计算机2200可用于实现如这里所介绍的本示教的任何部件。例如,基于情绪的广告选择引擎2270可以在例如计算机2200的计算机上实现,经由其硬件、软件程序、固件或其组合。尽管为方便起见示出了仅仅一个这样的计算机,与这里介绍的本示教有关的计算机功能可以以分布式方式在若干个类似的平台上实现,从而分散处理负荷。
例如,计算机2200包括与连接于其上的网络相连接的COM端口2250,以促进数据通信。计算机2200还包括中央处理单元(CPU)2220,其采用一个或多于一个处理器的形式,用于执行程序指令。示例性计算机平台包括:内部通信总线2210;不同形式的程序存储器和数据存储器(例如盘2270、只读存储器(ROM)2230或随机访问存储器(RAM)2240),用于将要由计算机2200处理和/或进行通信的多种数据文件以及将由CPU 2220执行的可能的程序指令。计算机2200还包括I/O部件2260,其支持在计算机和这里的其他部件(例如用户接口元件2280)之间的输入/输出流。计算机2200也可经由网络通信接收编程和数据。
因此,如上面所概述的增强广告服务方法和/或其他过程的实施形态可以在程序中实现。本技术的程序方面可被看作典型地出于可执行代码和/或相关数据的形式的“产品”或“制品”,该可执行代码和/或相关数据被承载在一种机器可读介质上或在其中实现。有形非暂时性“存储器”类型介质包括任何或全部存储器或其他的用于计算机、处理器等的存储器或其相关模块,例如多种半导体存储器、带驱动器、盘驱动器等,其可在任何时候提供用于软件编程的存储。
所有或部分软件有时可通过网络(例如互联网或多种其他电信网络)传送。例如,这种传送可使软件从一台计算机或处理器向另一台(例如,从搜索引擎操作者或其它系统的管理服务器或主机,到实现与查询/广告匹配有关的计算环境或类似功能的计算环境或其它系统的硬件平台)的载入成为可能。因此,可承载软件元件的另一类型的介质包括光、电和电磁波,例如通过本地装置之间的物理接口、通过有线和光固定网络、通过多种空中链路使用。承载这种波的物理元件(例如有线或无线链路,光链路等)也被看作承载软件的介质。如这里所使用的,除了限制为有形的“存储”介质,例如计算机或机器“可读介质”的术语指参与向处理器提供指令以便执行的任何介质。
因此,机器可读介质可采用多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光或磁盘,例如任何计算机等等之中的任何存储装置,其可用于实现附图所示的系统或其任何部件。易失性存储介质包括动态存储器,例如这种计算机平台的主存储器。有形传输介质包括:同轴电缆、铜线和光纤,其包括构成计算机系统内的总线的导线。载波传输介质可采用电或电磁信号或者是声或光波(例如在射频(RF)和红外(IR)数据通信期间生成的那些)的形式。计算机可读介质的一般形式因此包括例如软盘、可折叠盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光介质、穿孔卡片纸带、具有孔的图案的任何其他物理存储介质、RAM、PROM和EPROM、闪速EPROM、任何其他的存储器芯片或插装盒、传输数据或指令的载波、传送这样的载波的链路或电缆、或计算机可从之读取编程代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可以涉入将一个或多于一个的指令的一个或多于一个的序列承载到物理处理器,以便执行。
本领域技术人员将会明了,本示教适用于多种修改和/或增强。例如,尽管上面介绍的多种部件的实现可以在硬件装置中实现,其还可实现为仅仅使用软件的解决方案,例如安装在已有的服务器上。另外,这里所公开的基于用户挑选的本地广告增强广告服务也实现为固件、固件/软件组合、固件/硬件组合或是硬件/固件/软件组合。
尽管上面已经介绍了本示教和/或其他实例,将会明了,可对之做出多种修改,且这里公开的主题可以以多种形式和实例实现,且本示教可以在多种应用中应用,这里仅仅介绍了其中的一些。所附权利要求旨在要求落入本示教真实范围内的任何以及全部应用、修改和变型。

Claims (18)

1.一种用于配置电子动物的、在机器上实现的方法,该机器包含至少一个处理器、存储器和能够连接到网络的通信平台,该方法包含:
获得关于在用户与电子动物装置之间的对话中展现出的用户表现的信息,其中,电子动物根据配置进行与用户的对话;以及
基于关于用户表现的信息,评估配置关于用户的有效性;
根据评估的有效性,对至少一个模型进行机器学习,其中,模型是根据基于历史数据的学习在以前建立的;
基于来自机器学习的结果,更新所述至少一个模型,以便生成自适应地更新的至少一个模型;
基于自适应地更新的至少一个模型,对配置进行调节,以便生成将由电子动物装置用于继续对话的、更新后的配置。
2.权利要求1的方法,其中,配置包含下列中的至少一者:
电子动物装置用于驱动与用户的对话的项目;以及
电子动物装置用于在对话期间控制电子动物装置与用户交流的方式的配置文件。
3.权利要求2的方法,其中,评估步骤包含:
判断用户的表现是否满足项目的要求;
基于用户表现,判断用户是否对对话的内容具有感知,其中,对话由电子动物装置以配置文件指示的方式向用户传达。
4.权利要求2的方法,还包含:
接收从对话的场景获取的传感器数据;
基于传感器数据,推定用户的情绪;以及
更新配置文件关于用户的情绪的排名,其中,配置文件关于情绪的排名用于在用户处于特定情绪状态时,选择用于电子动物装置的配置文件。
5.权利要求2的方法,其中,调节配置的步骤包含,在用户表现没有满足项目的要求时修改项目,以改善用户的参与度。
6.权利要求2的方法,其中,调节配置的步骤包含,如果用户对对话的内容没有感知,改变配置文件,其中,对话由电子动物装置以配置文件指示的方式向用户传达。
7.一种机器可读的非暂时性介质,其上记录有用于配置电子动物装置的信息,其中,该信息在被机器读取时,使得机器执行:
获得关于在用户与电子动物装置之间的对话中展现出的用户表现的信息,其中,电子动物根据配置进行与用户的对话;以及
基于关于用户表现的信息,评估配置关于用户的有效性;
根据评估的有效性,对至少一个模型进行机器学习,其中,模型是根据基于历史数据的学习在以前建立的;
基于来自机器学习的结果,更新所述至少一个模型,以便生成自适应地更新的至少一个模型;
基于自适应地更新的至少一个模型,对配置进行调节,以便生成将由电子动物装置用于继续对话的、更新后的配置。
8.权利要求7的介质,其中,配置包含下列中的至少一者:
电子动物装置用于驱动与用户的对话的项目;以及
电子动物装置用于在对话期间控制电子动物装置与用户交流的方式的配置文件。
9.权利要求8的介质,其中,评估步骤包含:
判断用户的表现是否满足项目的要求;
基于用户表现,判断用户是否对对话的内容具有感知,其中,对话由电子动物装置以配置文件指示的方式向用户传达。
10.权利要求8的介质,其中,信息在被机器读取时,还使机器执行:
接收从对话的场景获取的传感器数据;
基于传感器数据,推定用户的情绪;以及
更新配置文件关于用户的情绪的排名,其中,配置文件关于情绪的排名用于在用户处于特定情绪状态时,选择用于电子动物装置的配置文件。
11.权利要求8的介质,其中,调节配置的步骤包含,在用户表现没有满足项目的要求时修改项目,以改善用户的参与度。
12.权利要求8的介质,其中,调节配置的步骤包含,如果用户对对话的内容没有感知,改变配置文件,其中,对话由电子动物装置以配置文件指示的方式向用户传达。
13.一种用于配置电子动物装置的系统,该系统包含:
表现信息分析器,其被配置为:
获得关于在用户与电子动物装置之间的对话中展现出的用户表现的信息,其中,电子动物根据配置进行与用户的对话,以及
基于关于用户表现的信息,评估配置关于用户的有效性;
学习引擎,其被配置为:
根据评估的有效性,对至少一个模型进行机器学习,其中,模型是根据基于历史数据的学习在以前建立的,以及
基于来自机器学习的结果,更新所述至少一个模型,以便生成自适应地更新的至少一个模型;以及
基于模型的信息更新器,其被配置为,基于自适应地更新的至少一个模型,对配置进行调节,以便生成将由电子动物装置用于继续对话的、更新后的配置。
14.权利要求13的系统,其中,配置包含下列中的至少一者:
电子动物装置用于驱动与用户的对话的项目;以及
电子动物装置用于在对话期间控制电子动物装置与用户交流的方式的配置文件。
15.权利要求14的系统,其中,评估步骤包含:
判断用户的表现是否满足项目的要求;
基于用户表现,判断用户是否对对话的内容具有感知,其中,对话由电子动物装置以配置文件指示的方式向用户传达。
16.权利要求2的系统,还包含:
用户情绪推定器,其被配置为:
接收从对话的场景获取的传感器数据,以及
基于传感器数据,推定用户的情绪;以及
情绪/配置文件排名单元,其被配置为,更新配置文件关于用户的情绪的排名,其中,配置文件关于情绪的排名用于在用户处于特定情绪状态时,选择用于电子动物装置的配置文件。
17.权利要求14的系统,其中,基于模型的信息更新器通过下述来调节配置:在用户表现没有满足项目的要求时修改项目,以改善用户的参与度。
18.权利要求14的系统,其中,基于模型的信息更新器通过下述来调节配置:如果用户对对话的内容没有感知,改变配置文件,其中,对话由电子动物装置以配置文件指示的方式向用户传达。
CN201880092446.8A 2018-02-15 2018-12-27 用于增强数字体验的动态机器人配置的系统和方法 Active CN112262024B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862630909P 2018-02-15 2018-02-15
US62/630,909 2018-02-15
PCT/US2018/067684 WO2019160611A1 (en) 2018-02-15 2018-12-27 System and method for dynamic robot configuration for enhanced digital experiences

Publications (2)

Publication Number Publication Date
CN112262024A true CN112262024A (zh) 2021-01-22
CN112262024B CN112262024B (zh) 2024-05-03

Family

ID=67540724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880092446.8A Active CN112262024B (zh) 2018-02-15 2018-12-27 用于增强数字体验的动态机器人配置的系统和方法

Country Status (4)

Country Link
US (2) US10967508B2 (zh)
EP (1) EP3756188A4 (zh)
CN (1) CN112262024B (zh)
WO (1) WO2019160611A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129657A (zh) * 2021-03-30 2021-07-16 杭州湘豫科技有限公司 一种交互型话题分析系统及其使用方法
US11940170B2 (en) * 2014-11-07 2024-03-26 Sony Corporation Control system, control method, and storage medium

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019160613A1 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for dynamic program configuration
EP3810374B1 (en) * 2018-06-19 2022-06-01 BAE SYSTEMS plc Workbench system
US11301629B2 (en) * 2019-08-21 2022-04-12 International Business Machines Corporation Interleaved conversation concept flow enhancement
WO2021096382A2 (ru) * 2019-11-15 2021-05-20 Федеральное Государственное Автономное Образовательное Учреждение Высшего Образования "Московский Физико-Технический Институт" (Национальный Исследовательский Университет) (Мфти) Способ и система управления диалоговым агентом в канале взаимодействия с пользователем
US20220207426A1 (en) * 2020-04-27 2022-06-30 Embodied, Inc. Method of semi-supervised data collection and machine learning leveraging distributed computing devices
US20220051098A1 (en) * 2020-08-17 2022-02-17 Myka Llc Voice activated, machine learning system for iterative and contemporaneous recipe preparation and recordation
WO2023031941A1 (en) * 2021-09-05 2023-03-09 Xoltar Inc. Artificial conversation experience
WO2024173701A1 (en) * 2023-02-15 2024-08-22 Interwoven Worlds Inc. Systems and methods for management of virtual agents

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663219A (zh) * 2014-04-17 2017-05-10 软银机器人欧洲公司 处理与机器人的对话的方法和系统
US20170228520A1 (en) * 2016-02-08 2017-08-10 Catalia Health Inc. Method and system for patient engagement
CN107053191A (zh) * 2016-12-31 2017-08-18 华为技术有限公司 一种机器人,服务器及人机互动方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7238079B2 (en) * 2003-01-14 2007-07-03 Disney Enterprise, Inc. Animatronic supported walking system
US20080080456A1 (en) * 2006-09-29 2008-04-03 Williams Jeffrey B Method and Apparatus for Wireless Coordination of Tasks and Active Narrative Characterizations
US20130343640A1 (en) * 2012-06-21 2013-12-26 Rethink Robotics, Inc. Vision-guided robots and methods of training them
US9381426B1 (en) * 2013-03-15 2016-07-05 University Of Central Florida Research Foundation, Inc. Semi-automated digital puppetry control
JPWO2016068262A1 (ja) * 2014-10-29 2017-08-10 京セラ株式会社 コミュニケーションロボット
CN114584660A (zh) * 2016-06-13 2022-06-03 谷歌有限责任公司 向人类操作员的升级
US10403273B2 (en) 2016-09-09 2019-09-03 Oath Inc. Method and system for facilitating a guided dialog between a user and a conversational agent
US20180104813A1 (en) * 2016-10-18 2018-04-19 Soshee LLC Animatronic feedback based upon social media activity
US10789948B1 (en) * 2017-03-29 2020-09-29 Amazon Technologies, Inc. Accessory for a voice controlled device for output of supplementary content
US10360908B2 (en) 2017-04-19 2019-07-23 International Business Machines Corporation Recommending a dialog act using model-based textual analysis
US10453454B2 (en) 2017-10-26 2019-10-22 Hitachi, Ltd. Dialog system with self-learning natural language understanding
US20190189259A1 (en) * 2017-12-20 2019-06-20 Gary Wayne Clark Systems and methods for generating an optimized patient treatment experience
WO2019133680A1 (en) * 2017-12-29 2019-07-04 DMAI, Inc. System and method for detecting physical proximity between devices
WO2019133689A1 (en) * 2017-12-29 2019-07-04 DMAI, Inc. System and method for selective animatronic peripheral response for human machine dialogue
US20190209935A1 (en) * 2018-01-05 2019-07-11 American Family Life Assurance Company Of Columbus Animatronic toy
KR20190096875A (ko) * 2019-07-31 2019-08-20 엘지전자 주식회사 로봇 및 그의 제어 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663219A (zh) * 2014-04-17 2017-05-10 软银机器人欧洲公司 处理与机器人的对话的方法和系统
US20170228520A1 (en) * 2016-02-08 2017-08-10 Catalia Health Inc. Method and system for patient engagement
CN107053191A (zh) * 2016-12-31 2017-08-18 华为技术有限公司 一种机器人,服务器及人机互动方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11940170B2 (en) * 2014-11-07 2024-03-26 Sony Corporation Control system, control method, and storage medium
CN113129657A (zh) * 2021-03-30 2021-07-16 杭州湘豫科技有限公司 一种交互型话题分析系统及其使用方法

Also Published As

Publication number Publication date
WO2019160611A1 (en) 2019-08-22
EP3756188A4 (en) 2022-02-23
US20210205987A1 (en) 2021-07-08
EP3756188A1 (en) 2020-12-30
US20190248004A1 (en) 2019-08-15
CN112262024B (zh) 2024-05-03
US10967508B2 (en) 2021-04-06

Similar Documents

Publication Publication Date Title
US11504856B2 (en) System and method for selective animatronic peripheral response for human machine dialogue
CN112262024B (zh) 用于增强数字体验的动态机器人配置的系统和方法
CN111801730B (zh) 用于人工智能驱动的自动伴侣的系统和方法
US11024294B2 (en) System and method for dialogue management
US11468885B2 (en) System and method for conversational agent via adaptive caching of dialogue tree
US10994421B2 (en) System and method for dynamic robot profile configurations based on user interactions
CN112074899A (zh) 基于多模态传感输入的人机对话的智能发起的系统和方法
CN112204564A (zh) 经由基于集成音频和视觉的语音识别进行语音理解的系统和方法
US11003860B2 (en) System and method for learning preferences in dialogue personalization
US20190202061A1 (en) System and method for detecting physical proximity between devices
US20220241977A1 (en) System and method for dynamic program configuration
US20190251716A1 (en) System and method for visual scene construction based on user communication
US20190251966A1 (en) System and method for prediction based preemptive generation of dialogue content
WO2021003471A1 (en) System and method for adaptive dialogue management across real and augmented reality
CN112204565A (zh) 用于基于视觉背景无关语法模型推断场景的系统和方法
CN114303151A (zh) 经由使用组合神经网络的场景建模进行自适应对话的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045276

Country of ref document: HK

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230925

Address after: 16th Floor, No. 37 Jinlong Road, Nansha District, Guangzhou City, Guangdong Province

Applicant after: DMAI (GUANGZHOU) Co.,Ltd.

Address before: California, USA

Applicant before: De Mai Co.,Ltd.

GR01 Patent grant
GR01 Patent grant