CN108886532A

CN108886532A - 用于操作个人代理的装置和方法

Info

Publication number: CN108886532A
Application number: CN201680076699.7A
Authority: CN
Inventors: 西蒙·J·吉布斯; 安东尼·利奥特; 于宋
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-01-14
Filing date: 2016-09-08
Publication date: 2018-11-23
Anticipated expiration: 2036-09-08
Also published as: CN108886532B; US10664741B2; KR20170085422A; US20170206095A1; EP3381175B1; WO2017122900A1; EP3381175A4; EP3381175A1

Abstract

在一方面，将描述一种用于操作虚拟代理的方法。获取交互情境。基于获取到的交互情境来确定代理状态。所述代理状态指示所述虚拟代理的活动。基于获取到的交互情境、所确定的代理状态和/或所述虚拟代理的人格来更新所述虚拟代理的情绪。选择一个或更多个行为。每个行为涉及或指示所述虚拟代理的外观的变化或音频的生成。各个实施例涉及被配置成实现上述操作中的一个或更多个的设备、服务器、软件和系统。

Description

用于操作个人代理的装置和方法

技术领域

本发明的实施例一般地涉及用于虚拟代理的技术，更具体地涉及由动画形式表示的和/或具有模拟人格的虚拟代理。

背景技术

各种科技公司已经努力改善和简化电子设备与人之间的交互。例如，一些电子设备包括虚拟代理。在各种应用中，虚拟代理模拟能够使用例如口语或自然语言界面与人进行交流的人或实体。虚拟代理的一些示例包括由Microsoft Corporation创建的和由Apple Inc.创建的两个虚拟代理都是能够在诸如个人计算机或移动电话机的设备上执行的软件应用。例如，人能够使用设备上的麦克风来询问关于天气或体育比赛得分的简单问题。然后该应用能够使用口语进行回复，在屏幕上提供超链接或显示信息。

发明内容

问题的解决方案

一个或更多个示例性实施例提供了一种操作虚拟代理的方法。所述方法包括：获取交互情境，所述交互情境包括通信情境、目标信息、情况信息和人员信息中的至少一个；基于获取到的交互情境来确定代理状态，所述代理状态指示所述代理的活动；基于获取到的交互情境、所确定的代理状态和所述虚拟代理的人格来更新所述虚拟代理的情绪；以及基于获取到的交互情境和所述虚拟代理的更新后的情绪来选择一个或更多个行为，其中每个行为涉及对所述虚拟代理的外观的调整或音频的生成。

发明的有益效果

根据本发明的实施例，一种方法通过基于交互情境、代理状态和虚拟代理的人格中的至少一个选择虚拟代理的一个或更多个行为来操作虚拟代理。

附图说明

通过参考以下结合附图的描述可以最好地理解本发明及其优点，在附图中：

图1是根据本发明的特定实施例的用于操作虚拟代理的系统的框图。

图2是根据本发明的特定实施例的虚拟代理系统的框图。

图3是例示了根据本发明的特定实施例的用于操作虚拟代理的方法的流程图。

图4是例示了根据本发明的特定实施例的用于生成行为调度表的方法的流程图。

图5是根据本发明的特定实施例的行为类型和行为的表格。

图6是根据本发明的特定实施例的行为标签类型和标签的表格。

图7是根据本发明的特定实施例的虚拟代理设备的框图。

图8是根据本发明的特定实施例的虚拟代理设备的框图。

最佳实施方式

根据示例性实施例的一个方面，提供了一种操作虚拟代理的方法，所述方法包括：获取交互情境，所述交互情境包括通信情境、目标信息、情况信息和人员信息中的至少一个；基于获取到的交互情境来确定代理状态，所述代理状态指示所述代理的活动；基于获取到的交互情境、所确定的代理状态和所述虚拟代理的人格来更新所述虚拟代理的情绪；以及基于获取到的交互情境和所述虚拟代理的更新后的情绪来选择一个或更多个行为，其中每个行为涉及对所述虚拟代理的外观的调整或音频的生成。

所述方法还可以包括通过感测设备周围的环境来确定交互情境。

所述方法还可以包括：显示可视地表示所述虚拟代理的虚拟代理模型；以及在所述虚拟代理模型处呈现所述一个或更多个行为，所述一个或更多个行为改变所述虚拟代理模型的外观。

由于第二虚拟代理的不同人格，相同的交互情境可以对所述第二虚拟代理的情绪具有不同的影响。

每个行为可以与一个或更多个标签相关联，每个标签与活动、情绪、心情和人格中的至少一个相关联。

所述人格可以不基于所述交互情境而被调整。

所述人格可以由用户调整。

所述方法还可以包括基于所述交互情境、所述代理状态和所述虚拟代理的人格来更新所述虚拟代理的心情，其中所述心情被配置成响应于所述交互情境比所述情绪更慢地变化。

所述情绪可以包括一个或更多个情绪参数，并且其中所述心情基于所述情绪参数在预定时间段的滑动平均。

所述方法还可以包括：获取包括多个预定义行为的行为全集；获取包括多个预定义规则的规则集，每个规则与选择符和触发相关联，所述触发是与特定交互情境、情绪和代理状态中的一个或更多个相匹配的条件，其中所述选择符是用于搜索所述行为全集的搜索标准；以及当获取到的交互情境、更新后的情绪和所确定的代理状态中的至少一个与所述规则集中的规则的触发相匹配时，基于与匹配的触发和规则相关联的选择符来选择所述一个或更多个行为。

所述方法还可以包括：基于所述选择符和更新后的情绪来挑选一个或更多个候选行为；确定两个或更多个所述候选行为冲突；以及基于优先级指示符来选择冲突的候选行为之一以实现。

在冲突的候选行为涉及调整由所述虚拟代理模拟的身体的相同部分时所述候选行为可能冲突。

所述方法还可以包括以每秒多个帧来呈现所述虚拟代理；以及在逐帧的基础上执行所述方法。

所述交互情境可以使用两个或更多个传感器设备的网络来获取。

所述虚拟代理可以由三维的图形模型来表示。

根据另一个示例性实施例的一个方面，提供了一种非暂时性计算机可读介质，所述非暂时性计算机可读介质上记录有使得设备执行操作虚拟代理的方法的程序，所述方法包括：获取交互情境，所述交互情境包括通信情境、目标信息、情况信息和人员信息中的至少一个；基于获取到的交互情境来确定代理状态，所述代理状态指示所述代理的活动；基于获取到的交互情境、所确定的代理状态和所述虚拟代理的人格来更新所述虚拟代理的情绪；以及基于获取到的交互情境和所述虚拟代理的更新后的情绪来选择一个或更多个行为，其中每个行为涉及对所述虚拟代理的外观的调整或音频的生成。

根据另一个示例性实施例的一个方面，提供了一种设备，所述设备包括：至少一个处理器；以及包括计算机可读存储介质的存储电路，所述计算机可读存储介质被配置成以有形的形式存储计算机代码，其中所述计算机代码在由所述至少一个处理器执行时使得所述设备：获取交互情境，所述交互情境包括通信情境、目标信息、情况信息和人员信息中的至少一个；基于获取到的交互情境来确定代理状态，所述代理状态指示所述代理的活动；基于获取到的交互情境、所确定的代理状态和所述虚拟代理的人格来更新所述虚拟代理的情绪；以及基于获取到的交互情境和更新后的情绪来选择一个或更多个行为，其中每个行为涉及对所述虚拟代理的外观的调整或音频的生成。

所述设备还可以包括：包括一个或更多个传感器的传感器单元，其中所述交互情境至少部分地基于从所述传感器单元接收到的传感器数据。

所述设备还可以包括被配置成接收音频信息的麦克风，其中所述交互情境至少部分地基于使用所述麦克风接收到的所述音频信息。

所述设备可以是冰箱、膝上型计算机、计算机、平板电脑、电话机、手表、眼镜和虚拟现实设备中的一种。

具体实施方式

本发明涉及用于操作虚拟代理的技术。如背景技术中所述，存在能够回答基本问题或提供信息的各种个人助理。然而，这样的个人助理具有局限性。例如，有些个人助理依靠有限的情境信息来制定它们的响应，例如它们的响应可能完全基于用户提出的问题。与人类不同，它们通常不会考虑视觉信息或对话的整个情境。

另外，一些个人助理在视觉上没有吸引力。它们可能没有物理形式，或者可能仅由符号或闪烁点简单地表示。对于有些应用，希望具有实际上采用了相关可视形式的虚拟代理，例如，做出适用于当前情境的表情或姿势的虚拟代理模型。

对于有些应用，还希望个人助理具有模拟的人格和/或情绪。也就是说，如果个人助理似乎具有实际的人格，即不完全依据当前情境或对话的长期的特质或趋向，则与个人助理的交谈可能更具交互性和吸引力。

本发明的各种实现解决了一个或更多个上述问题。首先参考图1，将描述根据本发明的特定实施例的用于操作虚拟代理的系统100。该系统包括使用一个或更多个网络108彼此通信的多个虚拟代理设备104和服务器110。应当理解，服务器110的使用是可选的，并且在一些应用中，在一个或更多个虚拟代理设备104处可以修改、消除和/或实现服务器110的任何功能和特征。

任何适当的网络108都可以用于连接设备104和服务器110。在各个实施例中，网络108涉及但不限于基于CDMA、GSM、互联网的蜂窝网络或任何其他适当的协议或任何其他通信网络。

在该示例中，用户正在与包括冰箱、电视机、电话机和/或智能手表的设备104进行交互。在其他实施例中，用户可以与任何数目的不同设备进行交互，例如虚拟现实设备、智能眼镜、平板电脑、计算机、膝上型计算机等等。

在该特定示例中，虚拟代理是部分地在每个设备上运行的软件应用。每个设备对表示虚拟代理的视觉模型或形式进行显示，而在一些实施例中，一个或更多个设备不显示模型，而是支持虚拟代理的其他方面(例如，数据处理、环境感测等)。在一些实施例中，虚拟代理由三维图形或脸部来表示，而在其他实施例中它由二维形式表示。

每个设备包括一个或更多个传感器(例如，麦克风、相机)和/或用于确定用户周围情境的其他技术。例如，他们能够检测用户正在做什么或持有什么、他/她出现的方式和/或用户在说什么。基于由设备确定的情境，虚拟代理能够制定对用户的回复。例如，用户可以提出问题，并且代理能够提供答案和/或显示信息。

如稍后将在本申请中更加详细讨论的，虚拟代理具有模拟的人格、情绪和/或心情。有时，其响应受到模拟人格的影响，并不完全取决于当前情境或用户刚刚问了什么。结果，虚拟代理能够看起来更像人类，即它似乎具有不仅仅反映当前情境的独立倾向和态度。这能够帮助促进虚拟代理与用户之间更自然、更逼真的对话。

虚拟代理还使用其可视化形式来做出姿势或生成表情。这种视觉效果基于用户与代理之间的交互的情境和内容、传感器数据、虚拟代理的情绪和/或模拟人格。例如，考虑一个示例，其中虚拟代理由具有脸部和身体的类似于人的形式表示。如果用户提出挑衅或批评意见，虚拟代理可能会皱眉。如果虚拟代理确定它将做出的陈述会给用户带来麻烦，那么虚拟代理可能会向下看、不安或者看起来很紧张，就像人类一样。

虚拟代理的表情、情绪、心情、姿势和/或回复可以基于在各种设备之间共享传感器数据和信息。例如，每个设备可以共享与用户的交互历史(例如，冰箱可以存储关于最近的食品购买或消费模式的信息，智能手机可以存储关于呼叫者的信息，膝上型计算机可以存储关于观看过的电影或者进行过的搜索等)。每个设备还可以包括检测用户周围的情境的不同方面的传感器、相机和/或麦克风。设备能够使用网络来共享这些信息，使得虚拟代理能够在制定对用户的响应时考虑到所有的共享信息。下面将更详细地描述虚拟代理的各种示例实现、其人格和情绪、情境的感测以及代理响应/行为的调度。

本文所提及的术语“虚拟代理”包括适于生成、操作、控制和显示对人、人格、身体或实体的模拟的任何硬件或软件。如该申请所描述的，虚拟代理可以包括虚拟代理模型并由其表示。

本文所提及的术语“虚拟代理模型”包括表示虚拟代理的任何可见模型或形式。在一些实施例中，虚拟代理模型是被呈现以生成虚拟代理的图像的三维模型，不过它也可以是二维模型。虚拟代理模型可以采取任何适当的形式，例如脸部、人体、动物等。使用任何适当的显示器或投影技术来显示虚拟代理模型，例如虚拟现实设备、显示屏幕、平板电脑或智能手机的屏幕等。在一些实施例中，虚拟代理模型被物理上有形的形式(例如，机器人)代替或补充。通常，虚拟代理模型能够移动或用动画来执行姿势或动作。

本文所提及的术语“代理人格”包括帮助模拟虚拟代理的人格的任何硬件或软件。可以使用任何适当的人格模型。在一些实施例中，例如，代理人格包括一个或更多个人格成分，每个人格成分表示了不同的人格特质或特性，例如经验的开放性、责任心、外向性、随和性、情绪稳定性等。在各个实施例中，每个人格成分与指示该特质/特性的强度的人格参数相关联。例如，示例代理人格可以包括在0到1的标度上参数为0.8的外向性成分(人格成分)，其指示虚拟代理应当模拟高度外向的人格(在该示例中，0指示完全没有人格特质，而1指示人格特质的最高可能量)。

本文所提及的术语“代理情绪”包括帮助模拟虚拟代理的情绪状态的任何硬件或软件。可以使用任何适当的情绪模型。在一些实施例中，例如，代理情绪包括一个或更多个情绪成分，每个情绪成分表示不同的情绪特质或特性，例如正激励(positiveactivation)、负激励(negative activation)、愉快、惊吓、优势、愤怒、厌恶、恐惧、高兴、悲伤、惊奇等等。在各个实施例中，每个情绪成分与指示该特质/特性的强度的情绪参数相关联。例如，示例代理情绪可以包括在0到1的标度上参数为0.8的高兴成分(情绪成分)，其指示虚拟代理应当模拟非常高兴(0指示完全没有情绪特质，而1指示情绪特质的最高可能量)。

本文所提及的术语“代理心情”包括帮助模拟虚拟代理心情的任何硬件或软件。可以使用任何适当的心情模型。在一些实施例中，例如，代理心情包括一个或更多个心情成分，每个心情成分表示不同的心情特质或特性，例如投入、同意、放松等。在各个实现中，每个心情成分包括指示该特质或特性的强度的心情参数。例如，示例代理心情可以包括在0到1的标度上参数为0.8的同意(心情成分)，其指示虚拟代理应当模拟非常愉悦的心情。(0指示完全没有心情特质，而1指示心情特质的最高可能量)。

应当认识到，不是每个虚拟代理都需要代理情绪或代理心情。代理人格、情绪或心情也可能彼此相关和/或相互依赖。在一些实施例中，例如，代理人格不会变化和/或仅在由用户专门和直接调整时才变化。在各种实现方式中，代理情绪比代理心情更快地变化。

另外，代理心情的变化可能部分基于代理情绪。在一些实施例中，例如，代理心情至少部分基于代理情绪的滑动平均(moving average)。(换言之，在各个实施例中，这意味着代理心情的一个、一些或全部成分参数基于代理情绪的一个、一些或全部成分参数的滑动平均)。滑动平均是在预定的时间段计算出的。因此，尽管响应于特定的用户动作的代理情绪可能变化很大，但是响应于相同动作的代理心情往往变化很小。

本文所提及的术语“行为”包括虚拟代理中的任何可观察的变化，即，虚拟代理模型中的视觉变化或音频变化(例如，模拟语音或声音的生成)。在各个实施例中，代理行为包括由虚拟代理模型执行的姿势和表情，例如皱眉、眨眼、微笑、说话时嘴唇的移动等。例如，当虚拟代理通过播放录音或音频文件来生成口语而模拟语音时，行为还包括说话动作。一些行为涉及音频和视觉元素两者，例如，使模型上的嘴唇移动并且与从虚拟代理设备104上的扬声器发出的语音同步。

在各个实现方式中，每个行为包括一个或更多个参数或与一个或更多个参数相关联(但是这并不是必须的)。每个参数指示行为的对应特征/特性的力度、强度、程度或量。参数可以指示各种不同的特征/特性，包括但不限于所实现行为的速度、行为的持续时间、行为的程度(例如，行为中所涉及的动作的范围)等。在各个实施例中，参数由数字、值、级别、矢量或标度来表示(例如，0到1的标度，其中0指示行为的特征的最小实现，而1指示特征的非常有力的实现)。使用一个简单的示例，如果行为是虚拟代理模型的微笑并且与0到1的参数范围相关联，则参数值0.1意味着该行为是嘴唇移动最小的非常简短的微笑，而参数值为1.0意味着该行为是涉及到嘴唇更实质性的移动的更持久的微笑。

本文所提及的术语“交互情境”包括感测到的或检测到的用户附近的环境、物体或实体的特性、条件或参数。交互情境包括但不限于以下定义的通信情境、目标信息、情况信息和/或人员信息。在各个实施例中，通过分析传感器数据(例如，诸如捕获到的用户的视频或图像、其他人和/或用户的周围环境的视觉数据，诸如捕获到的用户的语音的音频数据等等)来获得交互情境。

本文所提及的术语“通信情境”包括可听语音的任何特性、模式或特征。例如，这种语音可以是由虚拟代理的用户或附近的其他人说出的。通信情境可以涉及语音的任何特征或特性，包括表层文本(surface text)、语义、一般的语音行为/趋向(例如，同意、不同意、问题、通知、建议、警告、赞成批评、确认等)、功能语音单元(例如，肯定、对比、量化、强调等)和行为提示(例如，词重音、音素时序等)。

本文所提及的术语“目标信息”包括虚拟代理附近的物体、虚拟代理设备(例如，图1中的设备104)和/或用户的任何特性。任何适当的物体都可以是目标情境的一部分，包括人、椅子、桌子、车辆、计算机等。目标信息可以涉及物体的任何特性，诸如其位置。

本文所提及的术语“人员信息”包括在虚拟代理设备附近检测到的一个或更多个人的任何特质、特性和/或风格。人员信息包括但不限于人的身份(例如，关于人的他们的姓名和任何已知历史)、人的身体位置、目光信息、目光跟踪、检测到的人的表情、检测到的人的姿势、基于图像的姿态和姿势分析、声调/重音、语音信息、检测到的人的情绪或心情等。

本文所提及的术语“代理状态”包括代理的(当前)活动、情绪、心情和/或人格。代理活动是虚拟代理模型和/或虚拟代理正在模拟或执行的活动或行为。例如，虚拟代理可以“思考”(例如，处理传感器数据或交互情境数据)、“说话”(例如，播放模仿来自代理的语音的合成语音表达)或“收听”(例如，代理未说话而是从用户处捕获音频语音数据)。在各个实施例中，代理状态还包括代理情绪、人格和/或心情的(当前)状态。在一些实现方式中，代理状态包括过去的行为、活动或操作的历史。

接下来参考图2，将描述根据本发明的特定实施例的用于操作虚拟代理的虚拟代理系统200。系统200包括虚拟代理设备104和服务器110。有时，系统200在本文中简称为虚拟代理。虚拟代理设备104和服务器110可以是图1中所例示的设备和服务器。

虚拟代理设备104是被配置为支持虚拟代理的一个或更多个功能的任何适当的计算设备。例如，虚拟代理可以是任何适当的计算设备，包括但不限于智能手机、智能眼镜、虚拟现实设备/护目镜、冰箱、家用电器、膝上型计算机、计算机、平板电脑等。设备可以具有图1或图7中所例示的设备104的任何特性。在所例示的实施例中，虚拟代理设备104包括显示屏幕/技术，其被配置成显示并用动画绘制虚拟代理的模型。

在该示例中，虚拟代理设备104包括麦克风、相机和一个或更多个其他类型的传感器。可以使用任何类型的传感器，例如光传感器、运动传感器、温度传感器、湿度传感器等。麦克风被配置成检测、获取和/或捕获音频数据(例如，用户的语音、音乐或背景中的声音等)。相机被配置成获取任何适当的视觉数据，即虚拟代理设备周围的环境、物体或人的视频和/或图像。麦克风、相机和传感器收集音频、视觉和其他类型的感测数据(本文统称为传感器数据)并将传感器数据提供给设备中的模块。

设备104包括多个模块，该多个模块包括了传感器分析模块205、人格/情绪/心情模块(PEM模块210)、行为规划模块215和呈现模块220。在各个实施例中，每个模块包括如下所述执行其相应功能所需的任何适当的硬件或软件。

传感器分析模块205是被配置成获取并分析从麦克风、相机和/或其他传感器接收到的传感器数据的任何硬件或软件。在各个实施例中，模块205与情境分析模块225共享分析数据的任务，在该示例中，情境分析模块225位于服务器110处，尽管其也可以位于另一设备(例如，虚拟代理设备104)中。在一些条件下，在将音频/视觉/传感器数据发送到服务器110以进行进一步处理之前，希望对其进行一些预处理。

可以以各种方式对传感器数据进行分析和处理。例如，考虑相机在虚拟代理处捕获用户微笑的图像或视频的示例。设备104可以对视频数据进行分析和处理，而不是将整个视频发送给服务器110进行分析。在一些实施例中，例如，传感器分析模块205识别用户脸部中的特征点，即当脸部表情变化时以不同方式移动的脸部中的点。这些特征点的示例包括嘴角处的点或眉毛上的点。在该示例中，传感器分析模块205分析视频以确定当用户微笑时一个或更多个特征点移动了多少，然后将指示特征点移动的数据发送给服务器110(例如，情境分析模块225)。与传输视频/图像本身相比，这种方法通常消耗更少的带宽。可以在传感器分析模块205处进行对视觉/音频/传感器数据的任何适当类型的预处理。或者，可以替代地在远程服务器110上(例如，在分析模块225处)进行大部分或全部处理。

PEM模块210是被设置为存储和更新代理人格、心情和情绪的任何硬件或软件。在一些实施例中，例如，虚拟代理系统200使用传感器分析模块205、情境分析模块225、语音到文本模块230、麦克风、相机和/或其他传感器来检测特定事件、特性、特质或态度(例如，用户的微笑、来自用户的愉快对话、批评、用户方面的否定态度、其他视觉的或感测到的事件或条件、情境等)。基于这样的反馈，PEM模块210可以更新心情和/或情绪。

在各个实施例中，基于交互情境或事件不对人格进行更新，而在其他实施例中，重复的事件能够随着时间而逐渐调整人格。举例来说，在一些应用中，人格由与虚拟代理/虚拟代理模型交互的用户来配置。在其他应用中，人格是默认设置或预定义的。人格也可以被调整成模仿已知的人物/人(例如，已知的娱乐人物、著名的历史人物、知名的虚构人物等)。人格还可以基于由虚拟代理提供的服务的类型或性质。在各个实施例中，基于用户与虚拟代理交互的方式的变化来调整人格，例如调整人格以适应用户的偏好。在其他实施例中，人格由特定应用以编程方式来选择。例如，特定的培训/教育应用可以调整人格，以便帮助用户了解如何处理不同的社交交互场景。另外，在各种实现方式中，基于情境(例如，交互情境)即时调整人格。稍后结合图3中所例示的方法来描述由PEM模块执行的一些示例操作。

行为规划模块215是被配置成选择、调度和帮助实现一个或更多个行为的任何硬件或软件。行为可以涉及虚拟代理模型中的任何类型的视觉变化、表情或姿势。例如，行为可以包括生动的耸肩、表示虚拟代理的脸部模型中的微笑、皱眉或蹙额。行为还可以涉及音频信息，例如由虚拟代理“说出”的词。基于传感器数据、情绪、交互情境和/或其他事件/条件，行为规划模块215被配置成按优先顺序排列和/或选择一个或更多个行为。然后将选项发送给呈现模块220，使得能够使用虚拟代理模型来实现这些选项。稍后将结合图4来描述行为规划模块的示例操作。

呈现模块220是被配置成显示直观地表示虚拟代理的虚拟代理模型的任何硬件或软件。举例而言，呈现模块可以显示表示虚拟代理的脸部、人、替身或其他人物的二维或三维模型。呈现模块还被配置成在虚拟代理模型处实现视觉变化或行为，例如耸肩、微笑等。

呈现模块220从行为规划模块接收指示应当在虚拟代理模型处实现的一个或更多个行为的行为数据。行为数据还可以指示时序信息，即指示何时应该呈现每个行为的信息。然后呈现模块基于接收到的行为数据来呈现行为。虚拟代理模型和行为可以使用任何已知的呈现或图形技术(例如，3D图形引擎、视频显示屏幕、虚拟现实显示技术、图形处理单元(GPU)等)得到呈现。

虚拟代理设备104通过网络108与服务器110联接。如前所述，(例如，通过麦克风、相机和传感器)在虚拟代理设备104处接收传感器数据。传感器分析模块可以(例如，在传感器分析模块205处)处理一些传感器数据。然后，虚拟代理设备104通过网络108将传感器数据发送给服务器110。

在各个实施例中，服务器110被配置成执行各种数据处理任务以帮助减轻虚拟代理设备上的处理负担。另外，服务器110可以存储在虚拟代理设备104处存储的数据和/或模块的副本，使得其他设备可以与服务器110连接并访问虚拟代理数据。然而，应当注意的是，服务器110执行的任何操作可以替代地在虚拟代理设备104处执行(反之亦然)。在所例示的实施例中，服务器110包括情境分析模块225、语音到文本模块230、自然语言处理器(NLP)/对话生成模块235和文本到语音模块240。

情境分析模块225被配置成对从虚拟代理设备104(例如，传感器分析模块205)接收的传感器数据进行分析。基于该分析，模块225确定将来可以通知虚拟代理行为或行动的方式的特征、模式、趋向或特性。换言之，情境分析模块225使用传感器数据来确定交互情境，该交互情境包括如前所定义的通信情境、情况信息、目标信息和人员信息中的一个或更多个。

考虑一个用户正从他的卧室对虚拟代理说话的示例。相机在用户说话时获取用户的表情和周围环境的视频/图像。麦克风获取用户的词和语音。各种其他传感器可以检测房间中的温度或光线水平或用户周围环境的其他特征。虚拟代理设备14将该传感器数据传送到服务器110，在服务器110由情境分析模块225对该传感器数据进行处理。

情境分析模块225可以使用任何适当的科技或技术来识别特征或特质(例如，交互情境)。在一些实施例中，例如，情境分析模块对脸部的视频或图像进行分析以确定用户的面部运动、目光和表情的变化。基于检测到的运动，模块225可以确定用户的心情或情绪。情境分析模块225还可以基于周围环境的图像(例如，床指示了卧室、水槽或冰箱指示了厨房)来识别例如用户在哪。在一些实施例中，情境分析模块225将传感器数据提取成一个或更多个特性、特质和条件，例如，用户感到悲伤、用户感到高兴、用户处于寒冷温度、用户在卧室、在学校或在厨房、用户与朋友在一起或单独一个人等等。然后情境分析模块225视情况将所确定的这些特性、特质和条件(即，交互情境)发送给虚拟代理设备104(例如，规划模块215和PEM模块210)、NLP/对话模块235和/或其他模块/设备。

在该示例中，情境分析模块225将任何语音相关的数据(例如，由麦克风捕获的语音数据)传递给语音到文本模块230。语音到文本模块230被配置成将语音转换成文本，使得它可以很容易地被分析和/或解释。然后语音到文本模块230将文本发送给NLP/对话生成模块235。在一些实施例中，语音到文本模块230被合并到情境分析模块225中。

NLP/对话生成模块235被配置为生成稍后将由虚拟代理说出的脚本。脚本基于(例如，如由情境分析模块225所确定的)传感器数据、交互情境和/或检测到的(例如，如由语音到文本模块230所确定的)语音。换言之，NLP/对话生成模块235生成表示了虚拟代理将响应于由虚拟代理检测到的事件或条件而会说什么的脚本。举个简单的示例，如果虚拟代理已经从视觉分析检测到用户感到悲伤并且进一步“听到”用户说出的指示用户担心的词，则NLP/对话生成模块235可以生成合适的脚本，诸如“你感觉好吗？你看起来被一些事所困扰了。”

NLP/对话生成模块235将其脚本发送给文本到语音模块240。文本到语音模块240被配置成将脚本转换成音频消息/声音，例如模拟的语音或录音。这些词可以以任何适当的音频数据格式进行存储。NLP/对话生成235模块可以使用任何适当的文本到语音技术来执行转换。在各个实施例中，模块235基于交互情境来调整语音特性或设置(例如，强调、重音、语速、模糊、清晰等)。

文本到语音模块240将上述音频数据发送给行为规划模块215。行为规划模块还可以从情境分析模块225接收附加的交互情境数据。另外，行为规划模块215可以访问存储在PEM模块210处的数据。基于所接收/访问的数据，行为规划模块215被配置成在虚拟代理模型中呈现适当的视觉变化。例如，如果行为规划模块215从NLP/对话生成模块235接收到语音数据，则模块215可以使虚拟代理模型的嘴唇与说出的语音一起移动。在另一个示例中，如果从情境分析模块225接收到的交互情境数据指示用户具有特定心情或情绪状态(例如，紧张、开心、悲伤等)，则行为规划模块215可以调度与这种情绪相关联的行为(例如，眼睛的紧张眨眼、微笑、皱眉等)。

接下来参考图3，将描述根据本发明的特定实施例的用于操作虚拟代理的方法。该方法可以使用图2所例示的虚拟代理系统200来执行。

首先，在步骤305，虚拟代理设备104获取传感器数据。这可以以任何适当的方式执行。在一些实施例中，例如，虚拟代理设备104包括各种传感器，诸如相机、麦克风或其他类型的传感器。该设备获取视觉数据(例如，视频或图像)、音频数据(例如，语音记录、录制的声音等)和任何其他适当的传感器数据(例如，在周围环境中感测到的任何参数、条件或特性，诸如亮度、运动、RF信号等)。

尽管该示例涉及单个虚拟代理设备，但应当理解的是，传感器数据可以由多个设备同时进行收集，然后收集到的数据可以经由网络108共享或者被引导至特定设备104和/或服务器110。考虑一个用户在起居室中并且与智能手机上显示的虚拟代理进行交互的示例。起居室内还有包括了相机和麦克风的电视机。电视机和智能手机二者都可以收集用户周围区域的传感器数据。例如，电视机可以具有与智能手机不同的视角和视野，并且因此可以捕获不同物体和背景的图像。如下所述，由设备收集的传感器数据被共享(例如，通过网络108发送给主虚拟代理设备，其可以是智能手机或电视机)和/或被发送到服务器110以做进一步处理。

在步骤310，虚拟代理设备104将传感器数据发送给服务器110。更具体地，在该示例中，虚拟代理设备104将传感器数据发送给情境分析模块225以做进一步处理。(应当注意的是，该步骤是可选的。例如，在各个实施例中，在虚拟代理设备104处没有服务器和/或情境分析模块225。因此，可能不需要如上所述发送传感器数据)。如前所述，虚拟代理设备104(例如，使用传感器分析模块205)可以如先前所讨论的在发送一些传感器数据之前对其进行预处理。

在步骤315，服务器110或虚拟代理设备104(例如，情境分析模块225)基于对传感器数据的分析来获得交互情境。如该申请的定义部分所述，交互情境可以包括各种类型的信息，包括但不限于通信情境、目标信息、情况信息和人员信息。以下描述用于获取这些类型的信息中的每一种的示例操作。

在各个实施例中，服务器获取目标信息。也就是说，情境分析模块225可以对传感器数据(例如，由相机捕获的图像和视频数据)进行分析以识别用户附近的物体。然后模块225可以确定物体的性质和位置。考虑一个虚拟代理设备104上的相机已经捕获了用户及其周围环境的视频或图像的示例。基于对这些数据的分析，情境分析模块225确定用户名为Joseph Smith并且具有服务器和/或虚拟设备可访问的关联账户配置文件。另外，用户坐在椅子上，在沙发的三英尺范围内，并且拿着一杯某种液体。Joseph附近还站着另一个人。

在各个实施例中，服务器110还获取人员信息。也就是说，情境分析模块225分析传感器数据(例如，由相机捕获的图像和视频数据)并确定任何感测到的人的特性，例如他们的身份、位置、目光信息、语音信息、情绪或心情。考虑上面的示例，其中用户Joseph Smith和另一个人的图像/视频被捕获。基于这些数据，情境分析模块225确定用户正在专注地注视虚拟代理模型/虚拟代理设备并且正在与虚拟代理说话。它进一步确定另一个人正将目光移开。另外，对用户的脸部的分析指示用户在微笑，因此情境分析模块225确定JosephSmith很高兴。应当注意的是，用于检测/跟踪移动、眼睛转动、眼睑/眉毛移动、目光、姿势和面部表情的任何已知技术或算法都可以用于确定人员信息。

在各个实施例中，服务器110还获取情况信息。也就是说，情境分析模块225分析传感器数据(例如，由麦克风捕获的音频数据、由相机捕获的图像/视频数据等)并确定本地环境或情况的特性(例如，是用户在室内或室外，他/她在家中、在起居室中、在购物、在车中、用户当前参与的活动等)。考虑一个麦克风正在拾取环境声音并且相机正在捕捉用户周围环境的图像的示例。基于对声音的分析，情境分析模块225可以确定用户处于事故车辆中，或者在户外在繁忙的街道或商场中。基于对图像的分析，情境分析模块225可以确定用户正在玩高尔夫球(因为图像指示用户握着并挥动高尔夫球杆)或正在喝咖啡(因为图像指示用户正在使用标有一家知名咖啡公司的名字的杯子引用)。

在各个实施例中，服务器110还获取通信情境。也就是说，服务器110(例如，情境分析模块225、语音到文本模块230、NLP/对话生成模块235)对传感器数据(例如，由麦克风捕获的音频数据)进行分析以确定对话或用户的语音的特性。举例来说，可以分析用户的语音以确定其是否指示特定的态度或感觉(例如，高兴、悲伤、同意、问题等)。另外，可以分析语音以确定其他趋向或特性，诸如语调、口音、词重音和音素时序。

在步骤320，服务器110或虚拟代理设备104确定代理状态。也就是说，服务器110确定虚拟代理当前参与什么样的活动。另外，在一些实施例中，服务器110获取指示代理的当前心情、情绪或人格的数据。

在一些实现方式中，针对虚拟代理预先定义了多种可能的活动类别，并且服务器110在步骤320确定哪个类别对应于虚拟代理的当前状态。可能的类别包括但不限于“思考”(例如，虚拟代理设备104或服务器110当前参与处理传感器数据或其他数据)、“收听”(例如，虚拟代理设备104正在记录来自用户的语音数据和/或虚拟代理模型当前具有指示其处于收听模式的姿势或表情)以及“说话”(例如，虚拟代理设备104正在播放语音消息/记录和/或虚拟代理模型用动画模拟嘴唇移动和/或语音的其他指示)。另一种可能的类别是“空闲”(例如，虚拟代理设备104或服务器110正在响应的没有(高优先级)事件或用户动作)。

在步骤325，PEM模块更新虚拟代理的情绪或心情。在各个实施例中，更新是基于(例如，如由情境分析模块225和/或服务器110确定的)交互情境、代理状态和/或代理的人格来进行的。服务器110可以基于各种变量来调整这些参数，这些变量包括但不限于用户动作、感知到的物体或周围环境中的条件、交互情境、虚拟代理的当前活动、用户的表情或姿势等。

可以使用各种技术和算法来调整代理情绪。例如，考虑一个特定虚拟代理的情绪成分包括惊讶、快乐和悲伤的示例。在各个实施例中，如果情境分析模块225基于传感器数据确定了用户正在微笑或者正在说关于虚拟代理的好处，则悲伤成分的悲伤参数可能降低而幸福成分的幸福参数可能上升。类似地，如果情境分析模块225确定发生了突然的、令人惊讶的事件(例如，相机检测到用户掉落并打碎了杯子，或者另一个人突然冲向虚拟代理设备104的相机)，则惊讶成分可能会向上调整。服务器110可以将任何类型的交互情境、事件、现象或特性与任何适当的情绪成分的调整相关联。

一些实现方式涉及调整与心情不同的情绪。在各种设计中，虚拟代理试图真实地模拟真实人类的情绪起伏和波动。也就是说，人类对紧急事件可能会有相当快的情绪反应。另外，人类也受到心情的影响，心情可能不仅仅由最近的事件形成，而是可能通过长期发生的事件形成。例如，即使在他和她周围发生有趣或好玩的事件，但是由于过去长时间暴露于悲伤或令人失望的事件中，他也可能处于悲伤的心情。

以类似的方式，代理心情可能会以与代理情绪不同的方式和/或速率变化。在一些实现方式中，例如，代理心情是基于在一段时间内的代理情绪的变化。例如，代理心情可以基于一个或更多个情绪分量的参数值在预定时间段的滑动平均。使用简单的示例，考虑具有表示同意的心情成分的虚拟代理。该虚拟代理还具有表示正激励、愉快和高兴的情绪成分。在该示例中，同意心情成分的参数值(例如，从0-1的值)基于正激励、愉快和高兴成分的参数值(例如，每一个也具有从0-1的值)在30分钟时段内的平均值。因此，即使情绪成分在极高点和极低点之间跳跃，即在一天当中迅速增加和减少(这可能意味着令人非常平静的和非常激动的事件一个接一个地发生)，心情成分可能不会变化很多和/或具有中等水平的参数值。

另外，在各种实现方式中，情绪和/或心情的调整基于代理人格。在一些设计中，代理人格旨在模拟实际人类的实际人格，实际人格一般不会变化或变化非常缓慢。换句话说，它不断地使虚拟代理以一致的方式倾向于某些类型的反应和响应。这能够使虚拟代理更像人类，因为它似乎具有特定趋向或倾向，而不是无论用户给出的请求是什么，都按逻辑来做出反应。

考虑下面的简单示例。PEM模块210存储包括各种成分的人格。这些成分表现出诸如责任心、外向性、随和以及神经质等特质。每个成分还具有指示了对应特质的强度的从0-1的参数值。因此，如果外向性值为1，则虚拟代理将倾向于表现得像一个非常外向的人；如果虚拟代理的外向性值为0，则虚拟代理将以非常胆小和内向的方式行事。

人格能够影响事件和条件对虚拟代理的情绪和心情的影响。例如，假设虚拟代理具有表示愤怒的情绪成分。目前，它处于低水平(例如，在0-1的参数标度上为0.1)。用户在虚拟代理“说话”时(即，代理状态的类别，其指示虚拟代理正在模仿讲话并播放语音消息/录音)中断了虚拟代理。如果代理人格具有的神经质的值很高(例如，神经质参数＝1)，则情绪成分(愤怒)可能会飞涨(例如，从0.1到0.9)。然而，如果代理人格具有的神经质的值很低(例如，神经质参数＝0.5)，则情绪成分可能仅略微增加(例如，从0.1增加到0.5)。如稍后将在本申请中讨论的，代理情绪变化的差异可能会导致由虚拟代理实现的行为的对应差异。举例来说，在前一种情况下，虚拟代理模型可能表现出愤怒的表情或姿势，而在后一种情况下，虚拟代理模型可能仅仅稍微耸动或更快地眨眼。

代理人格本身可能是永久的、半永久的或可调整的。例如，在一些实现方式中，人格是永久固定的。在其他实施例中，用户具有调整人格的特定选项。也就是说，用户能够使用特定的用户界面来专门设置人格成分的参数值。然而，仍然不基于日常事件或条件(例如，交互情境)来调整代理人格。在其他设计中，代理人格受交互情境、代理情绪的变化和/或其他事件的影响，但是随时间仅缓慢变化，例如以与心情类似的方式，但是在更长的时间段内，诸如一个月、六个月或一年。

在另一些其他实施例中，基于代理提供的服务的类型或代理所扮演的角色的类型来预定义代理人格(例如，旨在模拟酒店帮助服务的代理的人格可能与旨在充当虚拟朋友或同伴的代理的人格不同)。虚拟代理及其人格可以针对各种角色/任务进行量身定制，包括但不限于个人代理/助理、个人同伴、著名历史人物或虚构人物、残疾人/老年人助手、虚拟现实向导、管家、助教、儿童指导、医疗代理、服务中心助理等。

在一些实现方式中，虚拟代理的当前活动(即，代理状态)能够影响虚拟代理的情绪、心情或甚至人格如何受特定事件或用户动作的影响。例如，考虑一个虚拟代理处于“交谈”中的示例，即正在播放语音消息/录音以模拟虚拟代理的语音的代理状态类别，并且虚拟代理模型以模仿语音和移动嘴唇的方式绘制动画。如果此时用户说话，从而中断虚拟代理，那么对于代理的响应、心情或情绪的影响可能不同于当虚拟代理处于“思考”或“收听”模式时用户说话的情况。例如，代理心情或情绪可能变得比其他情况更消极，并且代理的口头反应可能指示出更强烈的忧虑或恼怒。

在步骤330，服务器110或虚拟代理设备104(例如，行为规划模块215)选择要实现的一个或更多个行为。该选择可以基于各种因素，包括但不限于交互情境和当前代理情绪。稍后在本申请中接合图4描述实现该步骤的更详细的示例。

虚拟代理可以实现各种不同的行为。行为可以包括引起虚拟代理模型的动画和/或视觉外观的变化的各种类型的动作。图5中例示了可能类型的行为类型和行为的示例列表。行为类型包括头部姿势、面部姿态、声音行为、上脸部姿态、下脸部姿态等。每个行为类型可以包括任何数目的相关联的行为。头部姿态行为类型可以包括例如虚拟代理模型的头部稍微向左或向右倾斜的行为。该列表还包括声音响应和有声姿态(vocal gestures)。这些类型的行为的示例分别包括来自涉及语言和词的虚拟代理的口头响应以及包括音频成分但不涉及语言或词的非声音响应(例如，打哈欠、咳嗽等)。在图5中列出的示例行为(例如，微笑、眨眼、咀嚼等)通常是指可以通过动画/移动虚拟代理模型来模拟的动作。应当理解的是，图5中的列表旨在是示例性的而非限制性的。例如，在一些实施例中，列表可以包含更多的行为，例如，如果虚拟代理模型是全身模型而不是头部模型，则可能有许多涉及身体动作的行为，例如步行、指向、挥手、坐、站等。

可以以各种方式选择适当的行为。在一些实施例中，例如，每个行为与一个或更多个标签相关联。标签是指与行为相关联的并且有助于确定是否应当实现该行为的特性、术语或概念。标签类型和标签的示例图表在图6中示出。标签类型的一些示例包括活动(例如，代理状态)、环境(例如，交互情境的特定特性)、代理情绪(例如，可能具有相关联的参数要求/阈值的情绪成分)、代理心情(例如，可能具有相关联的参数要求/阈值的心情成分)和人格(例如，可能具有相关联的参数要求/阈值的人格成分)。

这些标签可以用来确定要实现哪些行为。在各个实施例中，行为规划模块获取指示了(例如，如在步骤305-320中所确定的)交互情境、代理状态、代理情绪、代理心情和代理人格的虚拟代理数据。然后行为规划模块将各种行为的标签与获取到的虚拟代理数据进行匹配。例如，考虑与标签“用户出现在虚拟代理设备前面”(目标信息)、“注视虚拟代理的用户”(人员信息)、“虚拟代理正在收听”(代理状态)、“表示高兴的代理情绪成分大于0.5”(具有情绪参数要求的代理情绪)相关联的行为“微笑”。如果当前的交互情境、代理状态和情绪/心情/人格(如在图3的步骤315-325中所确定的)满足上述所有条件，则行为规划模块215将确定已找到匹配，并将选择“微笑”行为以在虚拟代理模型处实现。

由行为规划模块215执行的行为选择可以基于来自虚拟代理系统200中的任何其他适当的模块的输入。例如，从情境分析模块225接收交互情境数据并且用于帮助所选择的适当的行为。NLP/对话生成模块235和文本到语音模块240可以向行为规划模块提供输入，该输入指示口头响应是必要的。语音的内容可能影响行为的实现和性质(例如，嘴唇必须移动以匹配词，口头响应可以包括在虚拟代理模型处触发另一种类型的姿势或动画的特定内容，如微笑、眨眼、头部倾斜等)。

行为规划模块215可以为每个行为定义一个或更多个参数，其影响行为如何实现以及行为如何出现在虚拟代理模型上。例如，考虑一个涉及在虚拟代理模型上生成微笑的示例行为。该微笑行为依次可以与程度参数和持续时间参数相关联。在该示例中，每个参数是介于0和1之间的值。程度参数定义微笑的幅度(例如，0意味着自然的表情，0.1是嘴唇移动非常有限的或极小的微笑，1意味着具有最大可能的嘴唇/嘴移动的非常大的微笑)。持续时间参数指示微笑持续多长时间(例如，0.1意味着非常简短的微笑，1意味着持续时间非常长的微笑)。行为规划模块可以基于(例如，如在步骤315-325中所确定的)交互情境、代理状态或情绪来确定针对特定行为的参数。

一旦选择了一组适当的行为来实现，服务器110或虚拟代理设备104就将所选择的行为(及其相关参数，如果有的话)传送给虚拟代理设备处的呈现模块220。在步骤335，呈现模块220呈现了所选择的行为。也就是说，由所选择的行为指示的任何姿势、动画、移动或表情都是在虚拟代理模型处实现的，以便用户或查看虚拟代理模型的任何人都能看到它。另外，虚拟代理设备104被配置成生成与任何所选择的行为相关联的语音消息或其他可听声音(例如，口头响应、咳嗽、笑声、鼾声等)。通过虚拟代理设备104处的扬声器来播放这种声音。

接下来参考图4，将描述根据本发明的特定实施例的用于选择和调度行为的方法400。该方法400可以由行为规划模块215、服务器110和/或虚拟代理设备104执行。在一些实施例中，方法400可以作为图3的步骤330的一部分来执行。

在步骤405，行为规划模块215开始用于更新现有的行为调度表和/或生成当前/即将到来的帧的新的行为调度表的过程。行为调度表可以被理解为用于实现一个或更多个帧的一个或更多个行为的调度表。行为调度表指示每个行为的执行顺序和/或每个行为持续多长时间。

在一些实现方式中，行为调度表以逐帧的方式被更新，即方法400以逐帧的方式进行重复。(在一些应用中，虚拟代理模型以每秒三十、六十或更多帧来显示和绘制动画)。在其他实施例中，行为的选择和调度也可能没那么频繁(例如，每2、4或6帧)。

在步骤410，行为规划模块215确定是否需要新的调度表。该确定可以基于各种因素。例如，特定的行为调度表可能已经在运行，因此对即将到来的帧不需要实现任何行为。另一方面，如果有新事件发生(例如，用户刚刚完成提问)，则可能需要立即更新调度表，以便虚拟代理能够响应新事件。例如，引起行为调度表的更新的触发可以是交互情境中的任何变化。如果不需要新的行为调度表，则方法400进行到步骤475。也就是说，继续遵循现有的调度表。如果需要更新行为调度表，则该方法进行到步骤415。

在步骤415，行为规划模块215确定行为调度和规划是否已经在进行。也就是说，服务器110和/或虚拟代理设备104的处理资源可能已经被占用。如果是这种情况，则行为调度表的更新被延迟并且该方法进行到步骤470。也就是说，行为规划模块215完成其正在处理的任务和行为调度并重复方法400。如果系统资源对于该调度表的更新是可用的，则该方法进行到步骤420。

在步骤420，行为规划模块215获取或访问行为全集，该行为全集是预定义行为集合。每个行为指示由虚拟代理/模型执行的特定动作，例如，虚拟代理模型中的视觉变化、姿势或表情和/或口头消息或响应。如图5所示，行为规划模块215可以将多种可能的行为整理成不同的类型。

在步骤425，行为规划模块215获取或访问一个或更多个规则。每个规则都有助于指示何时应当实现行为以及在什么条件下实现行为。在各个实施例中，规则是包括触发、选择符和/或优先级指示符的任何适当的数据或数据结构。在各个实施例中，可以有任何数目的规则，例如可能有帮助预定义虚拟代理将如何针对许多不同类型的情况做出反应或响应的几十、几百或更多的规则。

该触发指示要应用规则所必须满足的条件。该条件可以涉及任何适当的条件、事件或特性，例如，如图3的步骤315-325中所确定的代理情绪、代理心情、代理人格、代理状态、交互情境等。例如，触发的示例可以是：1)虚拟代理处于“收听”模式(代理状态)；2)虚拟代理的高兴成分在0到1的标度上具有大于0.5的相关参数值(情绪成分)；以及3)用户必须直视虚拟代理/虚拟代理模型并与之交谈(交互情境)。

当满足触发条件时，选择符指示应当选择(可能)实现的哪些行为或哪些类型的行为。换言之，选择符定义了用于行为全集的选择或搜索标准。在一些实施例中，选择符指定了用于识别适当行为的标签(例如，如先前结合图3的步骤330所描述的)。例如，示例选择符可以指示，如果满足触发条件，则应当执行/考虑执行具有指示“极其高兴”的标签的所有行为(在该示例中，“极其高兴”是指表示高兴的情绪成分的相关强度参数在0到1的标度上大于0.8)。

优先级指示符指示使用规则所选择的行为的重要性。例如，如果基于两个不同规则(例如，需要嘴唇移动的两个行为，诸如微笑和与讲话相关的嘴唇移动)选择了两个冲突的行为，则能够使用规则的优先级指示符来确定实际上应当由虚拟代理/模型执行的行为。

在步骤430，行为规划模块215选择具有与当前交互情境或其他正在进行的事件/条件相匹配的行为触发的规则。也就是说，规则的选择基于(例如，如图3的步骤315中获取到的)交互情境、(例如，如图3的步骤320中所确定的)代理状态、(例如，如在图3的步骤325中更新后的)人格/心情/情绪和/或其他参数/条件。

在步骤435，基于与所选择的规则相关联的选择符，行为规划模块215选择一个或更多个候选行为。如下所述，候选行为是虚拟代理模型/虚拟代理考虑要执行的、但由于与其他行为的冲突或出于其他原因而仍然不能执行的行为。

在步骤440，行为规划模块215确定与候选行为相关的时序和优先级问题。也就是说，行为规划模块215确定可以执行不同候选行为的顺序和/或特定帧。在这个阶段，行为规划模块215还确定不同行为的优先级(例如，基于它们的相关联的优先级指示符)。

作为以上步骤的结果，行为规划模块215可以确定两个以上的候选行为冲突。举例来说，两个不同的规则可能导致选择两个不同的候选行为，这两个候选行为需要同时绘制动画或同时控制虚拟代理模型中的相同身体部位。行为规划模块215可以基于优先级指示符或其他因素来确定一个行为优先于另一个行为而另一个冲突候选行为不能被执行和/或被丢弃。使用上述示例，如果一个行为涉及动画绘制嘴唇以模拟对来自用户的问题的响应，而另一个冲突行为涉及模拟微笑，则行为规划模块215可以优先考虑并执行前者而不是后者，因为可能认为对用户的问题的直接口头响应比生成微笑更重要。或者，行为规划215可以确定微笑应当紧接在语音动画之前或之后。

在步骤450，一旦已经解决了冲突，行为规划模块215就会合并非冲突的候选行为以形成新的行为调度表。换言之，行为规划模块215基于优先级和时序考虑而从候选行为中选择操作行为(即，实际将执行的行为)。在各个实施例中，新的行为调度表针对一个或更多个帧指示了虚拟代理模型/虚拟代理何时将执行每个操作行为。

在步骤460，行为规划模块215确定当前是否正在运行调度表。例如，基于先前的调度表，可以针对即将到来的一个或更多个帧，虚拟代理模型被绘制动画为微笑、大笑、说话或执行其他姿势。如果当前没有调度表正在运行，则该方法进行到步骤470并开始新的调度表。

如果当前正在运行先前创建的行为调度表，则该方法进行到步骤465，在该步骤中行为规划模块215可选地将过渡行为添加到新的行为调度表。过渡行为是允许从先前的行为调度表更自然地过渡到新的行为调度表的任何行为。例如，考虑一个执行使虚拟代理模拟大笑的先前的行为调度表的示例。然后，发生了需要新的行为调度表的事件，该新的行为调度表指示虚拟代理应以口头方式响应该事件。如果虚拟代理模型突然立即从大笑状态转变为说话状态，这可能会有些奇怪。因此，行为规划模块可以包括加入到新的行为调度表中的一些过渡行为以使过渡变得容易，即，指示大笑动画逐渐消失的动画，在说话开始之前中断大笑动画的惊讶表情等。一旦过渡行为被添加到新的行为调度表中，该方法即进行到步骤470。

在步骤470，行为规划模块215启动新的行为调度表。在各个实施例中，行为规划模块215将行为调度表发送给虚拟代理设备104，使得其能够在虚拟代理设备处实现。在步骤475，呈现模块/虚拟代理设备基于行为调度表生成一个或更多个新的帧(例如，如结合图3的步骤330所讨论的)。新的帧把虚拟代理模型绘制成动画，使得虚拟代理模型执行行为调度表中所标识的行为。然后新的帧被显示在虚拟代理设备104处。

响应于各种类型的条件和事件，能够使用上述方法生成各种行为。考虑下面涉及微表情的示例。微表情是由虚拟代理/模型执行的持续时间很短的行为或表情的类型。例如，它们能够模拟紧张、忧虑(例如，快速眨眼、轻微抽动嘴或眉毛等)或其他类型的情绪反应，无论是积极的还是消极的。

考虑具有相关联的触发和选择符的示例微表情规则(例如，步骤420和425)。在该示例中，虚拟代理还包括表示虚拟代理的模拟压力或惊吓水平的情绪成分“惊吓”。它由值在0到1范围内的参数表示(例如，0是绝对不存在压力/惊吓，1是惊吓/压力的最大量)。如果惊吓成分在特定时间段内(例如，3帧、10秒等等)变化超过0.5，则满足触发规则。应当注意的是，在本实施例中，如先前所讨论的，基于虚拟代理的人格可以或多或少容易地满足触发，因为诸如惊吓之类的情绪的变化程度还可以基于人格，例如具有低神经质人格成分的虚拟代理可以(即，特定事件对其惊吓成分/参数的影响更小)比具有较高神经质人格成分因素的虚拟代理受到更少的“压力”。

微表情规则的选择符指示如果满足上述触发，则应当考虑执行特定类型的行为(面部姿态)。也就是说，行为规划模块将仅搜索面部姿态类型的行为(例如，如图5所示)。示例性面部姿态行为包括惊讶表情、扬眉、抿嘴等。每个行为与一个或更多个标签相关联或包括一个或更多个标签(例如，如结合步骤420所讨论的)。每个标签与例如事件、动作、交互情境、代理状态和/或情绪/心情/人格等的特定条件或多个条件相匹配。选择符还指示如果满足触发，则行为规划模块可以选择与面部姿态类型和当前交互情境、代理状态/PEM和/或当前条件相匹配的候选行为(例如，如在图4的步骤435和图3的步骤315-325中所讨论的)。

微表情规则的上述特征使得各种灵活的虚拟代理能够响应于一系列不同条件。例如，考虑虚拟代理受到用户批评和被用户中断的情况(交互情境)，导致高兴(情绪)急剧下降而惊吓(情绪)增加。(这些动作和反应可以在图3的步骤315-325中确定)。因此，满足触发(例如，步骤430)，并且行为规划模块在所有面部姿态行为中搜索与上述交互情境和情绪相匹配的标签(例如，步骤435)。找到导致眼睑变窄的适当的匹配行为，这指示了愤怒或沮丧。另一方面，微观表情规则也可能由用户掉落并打碎玻璃(交互情境)触发的，这会使虚拟代理“惊讶”或“惊吓”，导致惊吓(情绪)急剧增加。然而，由于先前用户与虚拟代理之间的会话是公平且令人愉快的，即虚拟代理的高兴情绪成分很高，所以虚拟代理通常很高兴。在该情况下，由于满足了触发，所以行为规划模块搜索具有与当前交互情境和情绪相匹配的标签的行为。因此，选择了导致虚拟代理惊讶地睁大它们眼睛的行为。然而，因为指示消极态度的行为(例如，眯眼)与虚拟代理的当前情绪不匹配，所以该行为未被选择或实现。

上述示例微表情规则还指示了各种规则和参数如何能够与相关行为的实现相关联。在上述示例中，微表情规则还要求(1)任何所选择的行为被实现的持续时长都非常短(例如，50-100毫秒)，以及(2)所选择的行为的强度可以不同，如由相关参数(例如，从0到1的矢量或标度，其中0指示该表情的非常弱的版本，而1是该表情的非常极端的版本)所表示的。力度/强度参数可以是基于任何适当的事件、条件或特性(例如，交互情境、代理状态、人格/情绪/心情等)的。

可以随着特定行为的实现而对规则进行微调控制。例如，每个行为(例如，微笑)可以与指示行为的强度或程度(例如，与嘴唇移动较大的大笑相对的小而快的微笑)的参数(例如，从0到1.0的标度)相关联。虽然对于不同规则的选择符可能涉及调用相同的行为，但是对于一个规则的选择符可能触发或要求低强度的行为(例如，其关联参数为较低值的行为)，而对于另一个规则的选择符可能会触发高强度的行为(例如，其关联参数在更高水平的行为)。

接下来参考图7，将描述根据本发明的特定实施例的虚拟代理设备700。虚拟代理设备700例如可以是图1和图2的设备104或任何适当的计算设备。在一些实施例中，虚拟代理设备是智能手机、虚拟现实设备、智能眼镜、智能手表、计算机、膝上型计算机、厨房用具、冰箱、电视机、游戏机等。虚拟代理设备700包括具有一个或更多个处理器的处理器单元705、传感器单元735、存储单元710、网络接口单元715、显示单元720和音频系统730。

存储单元710是适于存储数据或可执行计算机代码的任何硬件或软件。存储单元710可以包括但不限于硬盘驱动器、闪存驱动器、非易失性存储器、易失性存储器或任何其他类型的计算机可读存储介质。在本申请中描述的用于虚拟代理设备700的任何操作、方法和/或模块/组件(例如，如图3所示)可以以可执行计算机代码或指令的形式存储在存储单元710中。处理器单元705执行计算机代码或指令使得虚拟代理设备700或与设备700联接的适当设备执行任何前述操作或方法。

网络接口单元715包括适于使虚拟代理设备700能够与外部设备通信的任何硬件或软件。在各个实施例中，例如，虚拟代理设备使用网络接口单元715将传感器数据发送给服务器110(例如，如结合图2所讨论的)。虚拟代理设备700还可以与网络中的其他设备共享传感器数据和/或从其他设备获取传感器数据。另外，虚拟代理设备700可以从服务器110接收指令、行为调度表或其他数据(例如，如结合图3的步骤330所讨论的)。网络接口单元715被配置成使用任何适当的网络(例如，LAN、互联网等)或通信协议(例如，蓝牙、WiFi、NFC、IEEE 802.15.4、IEEE 802.11等)来发送数据和接收数据。

传感器单元735包括适于感测设备周围的环境的任何硬件或软件。传感器单元可以包括但不限于麦克风、相机或任何适当类型的传感器(例如，运动传感器、光传感器、深度传感器、温度传感器、用于检测RF信号的传感器等)。传感器单元用于收集传感器数据，该传感器数据可以被发送给传感器分析模块205和/或服务器110以做进一步处理(例如，如结合图3的步骤305和310所讨论的)。

显示单元720是适于显示虚拟代理模型的任何硬件或软件。在一些实施例中，显示单元720包括但不限于图形处理单元、视频显示屏幕、3D图形引擎等。显示单元被配置成对表示虚拟代理的虚拟代理模型进行显示(例如，如结合图3的步骤335所描述的)。显示单元720还被配置成基于行为调度表将虚拟代理模型的特征绘制成动画(例如，如结合图4的步骤470和475所讨论的)。显示单元720可以包括任何显示技术，例如，触敏(电容)屏幕、电子墨水显示器、LCD或OLED显示器或任何其他适当的显示技术。

在一些实施例中，虚拟代理模型采用有形的物理形式并且不限于显示在屏幕上。举例来说，在各种实现方式中，虚拟代理由机器人表示。机器人可以包括模仿人类、动物或其他生物/人物/实体的对应部位的脸部、肢体、身体或任何其他身体部位。本文所描述的任何行为可以在机器人处执行并且因此可以引起视觉变化和/或需要机器人的肢体、面部特征或其他元件的移动，例如微笑行为能够使机器人面部上的嘴唇机械地和/或物理地移动以模拟人的微笑。

音频系统730是适于生成任何类型的音频(例如，音频消息、语音记录、口语或语言、音乐、音调、声音等)的任何硬件或软件。在各个实施例中，音频系统包括扬声器、文本到语音软件等。音频系统730被配置成帮助生成作为在虚拟代理处实现的行为的一部分的任何音频(例如，如结合图2和图3所讨论的)。

接下来参考图8，将描述根据本发明的特定实施例的服务器800。服务器800例如可以是图1和图2的服务器110。图1、图2和图8中的服务器可以表示单个服务器或两个以上的服务器的网络。服务器800包括具有一个或更多个处理器的处理器单元805、存储单元810和网络接口单元815。

存储单元810是适于存储数据或可执行计算机代码的任何硬件或软件。存储单元810可以包括但不限于硬盘驱动器、闪存驱动器、非易失性存储器、易失性存储器或任何其他类型的计算机可读存储介质。在本申请中描述的用于服务器800的任何操作、方法和/或模块/组件(例如，图1-图3)可以以可执行计算机代码或指令的形式存储在存储单元810中。处理器单元805执行的计算机代码或指令使得服务器800或与服务器800联接的适当设备执行任何前述操作或方法。

网络接口单元815包括适于使服务器800能够与外部设备通信的任何硬件或软件。在各个实施例中，例如，服务器800使用网络接口单元815从虚拟代理设备104接收传感器数据(例如，如结合图2所讨论的)。服务器800还使用网络接口单元815将行为调度表或其他数据发送给虚拟代理设备104，例如，如结合图3的步骤330所讨论的。网络接口单元815被配置成使用任何适当的网络(例如，LAN、互联网等)或通信协议(例如，蓝牙、WiFi、NFC、IEEE802.15.4、IEEE 802.11等)发送数据和接收数据。

在上面的一些示例中，我们指的是特定的服务器或虚拟代理设备。然而，应当理解的是，服务器的操作可以替代地由多于一个的服务器或虚拟代理设备来执行。而且，可以由虚拟代理设备来执行服务器的操作/特征，反之亦然。

尽管仅详细描述了本发明的一些实施例，但是应当认识到，在不脱离本发明的精神或范围的情况下，本发明可以以许多其他形式实现。例如，本申请和附图描述了执行特定操作的各种方法。应当理解，在一些实施例中，这些操作/步骤中的一个或更多个可以被修改、重新排序和/或删除。另外，诸如图2、图7和图8的一些附图描述了包含各种组件/模块的设备/系统。应当注意的是，在一些实施例中，这些组件中的一个或更多个可以合并在一起。在其他实施例中，一个或更多个组件可以被分成更多数目的组件。一个组件的特征可以被转移到另一个组件和/或被适当地修改。每个设备可以具有超出对应附图中所示的附加组件。被示出为特定对象的一部分的特定模块或设备可以替代地例如通过有线或无线连接与该对象联接。因此，本实施例应当被认为是说明性的而非限制性的，并且本发明不限于本文给出的细节。

Claims

1.一种操作虚拟代理的方法，所述方法包括：

获取交互情境，所述交互情境包括通信情境、目标信息、情况信息和人员信息中的至少一个；

基于获取到的交互情境来确定代理状态，所述代理状态指示所述代理的活动；

基于获取到的交互情境、所确定的代理状态和所述虚拟代理的人格来更新所述虚拟代理的情绪；以及

基于获取到的交互情境和所述虚拟代理的更新后的情绪来选择一个或更多个行为，其中每个行为涉及对所述虚拟代理的外观的调整或音频的生成。

2.根据权利要求1所述的方法，所述方法还包括：

通过感测设备周围的环境来确定所述交互情境。

3.根据权利要求1所述的方法，所述方法还包括：

显示可视地表示所述虚拟代理的虚拟代理模型；以及

在所述虚拟代理模型处呈现所述一个或更多个行为，所述一个或更多个行为改变所述虚拟代理模型的外观。

4.根据权利要求1所述的方法，其中由于第二虚拟代理的不同人格，相同的交互情境对所述第二虚拟代理的情绪具有不同的影响。

5.根据权利要求1所述的方法，其中每个行为与一个或更多个标签相关联，每个标签与活动、情绪、心情和人格中的至少一个相关联。

6.根据权利要求1所述的方法，其中所述人格不基于所述交互情境而被调整。

7.根据权利要求1所述的方法，其中所述人格是可由用户调整的。

8.根据权利要求1所述的方法，所述方法还包括：

基于所述交互情境、所述代理状态和所述虚拟代理的人格来更新所述虚拟代理的心情，其中所述情绪包括一个或更多个情绪参数，并且其中所述心情基于所述情绪参数在预定时间段的滑动平均。

9.根据权利要求1所述的方法，所述方法还包括：

获取包括多个预定义行为的行为全集；

获取包括多个预定义规则的规则集，每个规则与选择符和触发相关联，所述触发是与特定交互情境、情绪和代理状态中的一个或更多个相匹配的条件，其中所述选择符是用于搜索所述行为全集的搜索标准；以及

当获取到的交互情境、更新后的情绪和所确定的代理状态中的至少一个与所述规则集中的规则的触发相匹配时，基于与匹配的所述触发和规则相关联的所述选择符来选择所述一个或更多个行为。

10.根据权利要求9所述的方法，所述方法还包括：

基于所述选择符和更新后的情绪来挑选一个或更多个候选行为；

确定两个或更多个所述候选行为冲突；以及

基于优先级指示符来选择冲突的所述候选行为之一以实现。

11.根据权利要求10所述的方法，其中在冲突的候选行为涉及调整由所述虚拟代理模拟的身体的相同部分时，所述候选行为冲突。

12.根据权利要求1所述的方法，所述方法还包括：

以每秒多个帧来呈现所述虚拟代理；以及

在逐帧的基础上执行所述方法。

13.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质上包括有用于实现根据权利要求1所述的方法的程序。

14.一种设备，所述设备包括：

至少一个处理器；以及

包括计算机可读存储介质的存储电路，所述计算机可读存储介质被配置成以有形的形式存储计算机代码，其中所述计算机代码在由所述至少一个处理器执行时使得所述设备：

基于获取到的交互情境和更新后的情绪来选择一个或更多个行为，其中每个行为涉及对所述虚拟代理的外观的调整或音频的生成。

15.根据权利要求14所述的设备，还包括：

包括一个或更多个传感器的传感器单元，其中所述交互情境至少部分地基于从所述传感器单元接收到的传感器数据。