CN105144286A

CN105144286A - 用于交互的虚拟人物对话的系统和方法

Info

Publication number: CN105144286A
Application number: CN201480022536.1A
Authority: CN
Inventors: 奥伦·M·雅各布; 马丁·雷迪; 卢卡斯·R·A·艾夫斯; 罗伯特·G·坡德斯塔
Original assignee: ToyTalk Inc
Current assignee: PullString Inc
Priority date: 2013-03-14
Filing date: 2014-03-07
Publication date: 2015-12-09
Also published as: SG11201507641WA; WO2014159037A1; US20140278403A1; CA2906320A1; AU2014241373A1; BR112015024561A2; MX2015013070A; EP2973550A4; KR20160011620A; EP2973550A1

Abstract

多个公开的实施例是关于基于对话的人机交互的系统和方法。在一些实施例中，所述系统包括多个交互场景。用户可以访问每个场景并参与相关于与活跃场景关联的活动的虚拟人物的对话。在某些实施例中，中心服务器可以容纳与虚拟人物语音关联的多种波形，并且能动态地将所述波形传递给与人工智能操作相连的用户设备。在其他的实施例中，人物的语音通过使用文语转换系统被生成。

Description

用于交互的虚拟人物对话的系统和方法

相关申请交叉引用

本申请要求2013年3月14日提交的美国申请号13/829,925的优先权，其通过引用被全部合并于此。

技术领域

多个已公开的实施例关注于基于对话的人机交互的系统和方法。

背景技术

人机交互(HCI)包含人与机器间的交互，重点在于计算机科学、认知科学、界面设计和其他领域的交叉。人工智能(AI)是另一发展中的学科，其包括允许计算机系统有机地应答用户输入的适应性行为。尽管AI可能通过提供虚拟人物与用户进行交互被用于增强HCI，但如果该AI不可信任，则该交互可能似乎对该用户而言是稳定和仿真的。这在AI未能解释关于交互的上下文要素和在与用户交互时未能维持“逼真的”的人物角色时尤其如此。尽管是很好的人人交互的方法，但由于对话的上下文和固有地模糊的特性，对话可能对AI系统而言尤其成问题。即使是更容易接受无生命人物为有生命实体的儿童，也能够在对话的AI变得与人机交互内容无关时识别出。通过人机交互教导和吸引儿童将是非常令人满意的，但必须克服无生命和前后无知的AI行为的障碍。

因此，存在向用户、尤其是年轻用户，提供有效的人机交互的系统和方法的需要，其适应交谈对话的挑战。

发明内容

某些实施例设想了一种使用户参与与虚拟人物对话的方法，所述方法包括：接收来自用户的音频输入，所述音频输入包括语音；获取所述语音的文本描述；基于所述文本描述确定应答音频输出；和引发虚拟人物使用所确定的应答音频输出发言。

在一些实施例中，所述方法进一步包括接收包括来自用户的语音的多种音频输入，所述多种音频输入与一个或多个虚拟人物的多种发言输出相关联。在一些实施例中，所述多种音频输入包括由一个或多个虚拟人物提出的问题的答案。在一些实施例中，所述多种音频输入包括文字叙述且所述一个或多个虚拟人物的多种发言输出包括即兴讲述或对所述叙述的评论。在一些实施例中，所述多种音频输入包括在关于话题的对话中的陈述。在一些实施例中，所述获取所述语音的文本描述包括将所述音频输入传输至专用的语音处理服务。在一些实施例中，其中所述接收音频输入包括确定是否执行一个的“自动声音活动监测”、“按住说话”、“轻击说话”或“轻击说话伴随静默监测”操作。在一些实施例中，所述方法进一步包括更改图标以反映所确定的音频输入操作。在一些实施例中，所述确定应答音频输出包括确定用户个性化元数据。在一些实施例中，所述方法进一步包括获取与所述应答音频输出相关联的音素元数据以用于动画化一些人物的面部特征的目的。在一些实施例中，所述方法进一步包括审视来自所述用户的多种回复并基于所述审视执行更多的字符间的对话而非用户-字符的对话。在一些实施例中，所述方法进一步包括将优先次序元数据与所述虚拟人物的每个潜在的应答相关联并使用这些优先次序元数据使得可能的应答在其他应答之前被输出。在一些实施例中，所述引发虚拟人物使用所确定的应答语音输出发言包括引发所述虚拟人物提议使用用户设备拍摄照片。在一些实施例中，所述的方法进一步包括使用用户设备引发用户拍摄照片；和发送所述照片至社交网络的一个或多个用户。

某些实施例设想了一种使用户可视化参与与虚拟人物的对话的方法，包括：检索与交互场景相关联的多个组件，所述交互场景由用户选择；配置所述多个组件的至少一个代表所述场景中的虚拟人物；和传输所述多个组件的至少一些至用户设备。

在一些实施例中，所述方法进一步包括检索与用户关联的个性化元数据并基于所述个性化元数据更改所述多个组件的至少一个。在一些实施例中，所述检索多个组件包括从数据库检索多个语音波形。

部分实施例设想了一种使用户参与与虚拟人物对话的计算机系统，所述系统包括：显示器；处理器；通讯端口；包含指令的存储器，其中所述指令被配置为引发所述处理器进行：接收来自用户的音频输入，所述音频输入包括语音；获取所述语音的文本描述；基于所述文本描述确定应答音频输出；和引发虚拟人物使用所确定的应答音频输出发言。

在一些实施例中，所述接收音频输入包括确定是否执行一个的“自动声音活动监测”、“按住说话”、“轻击说话”或“轻击说话伴随静默监测”操作。在一些实施例中，所述指令进一步被配置为引发所述处理器更改图标以反映所确定的操作。在一些实施例中，确定应答音频输出包括确定用户个性化元数据。在一些实施例中，所述指令进一步被配置以引发所述处理器获取与所述应答音频输出相关联的音素元数据以用于动画化一些人物的面部特征的目的。在一些实施例中，所述指令进一步被配置以引发所述处理器审视来自所述用户的多种回复并基于所述审视执行更多的字符间的对话而非用户-字符的对话。在一些实施例中，所述指令进一步被配置为引发所述处理器将优先次序元数据与所述虚拟人物的每个潜在的应答相关联并使用这些优先次序元数据使得可能的应答在其他应答之前被输出。在一些实施例中，引发虚拟人物使用所确定的应答音频输出发言包括引发所述虚拟人物提议使用用户设备拍摄照片。

部分实施例设想了一种使用户参与与虚拟人物对话的计算机系统，所述计算机系统包括：接收来自用户的音频输入的装置，所述音频输入包括语音；确定所述语音的描述的装置；基于所述描述确定应答音频输出的装置；和引发虚拟人物使用所确定的应答音频输出发言的装置。

在一些实施例中所述音频输入接收装置包括麦克风、数据包接收模块、WiFi接收器、蜂窝网络接收器、以太网连接器、无线电接收器、本地连接器或者便携式存储器装置的接口中的一个。在一些实施例中，所述确定所述语音的描述的装置包括专用语音处理服务器的连接器、自然语言处理程序、语音识别系统、隐马尔可夫模型或贝叶斯分类器中的一个。在一些实施例中，所述确定应答音频输出的装置包括人工智能引擎、机器学习分类器、决策树、状态转换图、马尔可夫模型或贝叶斯分类器中的一个。在一些实施例中，所述虚拟人物语音装置包括扬声器、移动装置上的扬声器的连接器、与用户设备通信的WiFi发射器、数据包传输模块、与用户设备通信的蜂窝网络发射器、与用户设备通信的以太网连接器、与用户设备通信的无线电发射器或与用户设备通信的本地连接器中的一个。

附图说明

在附图的图示中以示例的方式而不是限定性的方式示出本发明的一个或多个实施例，其中相似附图标记表示类似的元素。

图1示出了可实施于某些实施例的系统中的各组件的框图。

图2示出了可在某些实施例中使用的虚拟环境中的多个交互场景间的拓扑关系。

图3示出了可实施于某些实施例的虚拟环境中的主场景的图形用户界面(GUI)的示例截图。

图4示出了可实施于某些实施例的虚拟环境中的“炉边谈话场景”GUI的示例截图。

图5示出了可实施于某些实施例的虚拟环境中的“对抗场景”GUI的示例截图。

图6示出了可实施于某些实施例的虚拟环境中的“游戏竞赛场景”GUI的示例截图。

图7示出了可实施于某些实施例的虚拟环境中的“讲故事场景”GUI的示例截图。

图8是可实施于某些实施例的描述虚拟环境中的用户交互过程中某些步骤的流程图。

图9是可实施于某些实施例的描述基于组件的内容管理和传输过程中某些步骤的流程图。

图10示出了可实施于某些实施例的组件创造和管理系统GUI的示例截图。

图11是可实施于某些实施例的描述动态AI对话管理过程中的某些步骤的流程图。

图12是可实施于某些实施例的描述挫折管理过程中某些步骤的流程图。

图13是可实施于某些实施例的描述语音接收过程中某些步骤的流程图。

图14示出了可实施于某些实施例的社交资源分享GUI的示例截图。

图15示出了可实施于某些实施例的图14中社交资源分享GUI中的信息草拟工具的示例截图。

图16是可实施于某些实施例的社交图像捕获捕获过程中某些步骤的流程图。

图17示出了可实施于某些公开的实施例的计算机系统中的组件的框图。

具体实施例

下文中的说明书和附图是示例性的而不应视为限制的解释。大量的具体细节被阐述以提供对本发明的彻底理解。但是，在某些情况下，公知的细节并未被阐述以避免使本说明书模糊。对本公开中一个或一实施例的参考可以是，但并不一定是对相同实施例的参考；并且这种参考表示至少一个的实施例。

本说明书中对“一个实施例”或“一实施例”的参考是指结合实施例描述的特定特征、结构或特性被包含在本公开的至少一个实施例中。在本说明书中的多处出现的短语“在一个实施例中”并不一定都指向同一实施例，也不一定是与其他实施例互相排斥的单独的或可选择的实施例。此外，各种特征可能在一些实施例中出现而并未在其他实施例中出现。类似地，各种要求可能在一些实施例中出现而并未在其他实施例中出现。

本说明书中所使用的术语通常具有本领域、在本公开的内容中，和在每个术语被使用的具体内容中的一般含义。用于描述本公开的某些术语在下文或说明书的其它地方进行了讨论，用以对有关本公开的描述的实践者提供附加的指导。为方便起见，某些术语可突出显示，例如使用斜体和/或引号。采用突出显示并不影响术语的范围和含义；术语的范围和含义在相同的上下文中是相同的，而不论其是否被突出显示。应当理解，同一情形可采用多于一种的方式来阐述。

因此，替代的语言和同义词可用于任何一个或多个本文所讨论的术语，也不是任何具体意义都基于术语是否在文中被详细阐述或讨论而被设置。对于某些术语的同义词已被提供。对于一个或多个同义词的记载并不排除对其它同义词的使用。在本说明书中任何地方的示例使用，包括本文所讨论的任何术语的示例，仅是例证性的，而并非意图进一步限制本公开或任何所例证术语的范围和含义。同样，本公开并不限于在本说明书中所给定的各种实施例。

在并非意图进一步限制本公开的范围的情况下，在下文给出了根据本公开的实施例的器械、装置、方法及其相关效果的示例。注意的是，标题或子标题可在示例中使用以方便读者，这绝非限制本公开的范围。除非另有规定，本文所用的所有技术和科学术语都具有本公开所属领域的普通技术人员通常理解的相同含义。在存在冲突的情况下，本文(包括定义)将占支配地位。

系统概述

某些公开实施例关注于基于对话的人机交互的系统和方法。在一些实施例中，系统包括虚拟环境中的多个交互场景。用户可以访问每个场景并参与相关于与活跃场景关联的活动的与虚拟人物的对话。在某些实施例中，中心服务器可容纳与虚拟人物语音关联的多种波形，并且能动态地将波形传递给与人工智能操作相连的用户设备。在一些实施例中，当来自服务器的波形不可用于检索或者对检索而言是很低效的时候，人物的语音通过使用文语转换工具被生成。

图1示出了可实施于某些实施例的系统中的各组件的框图。在一些实施例中，主机服务器系统101可执行各种被公开的特征且可通过网络108a-b与用户设备110a-b通信。在一些实施例中，网络108a-b是相同的网络且可以是任何公知的网络，例如互联网、局域网、本地WiFi自组网络等。在一些实施例中，所述网络包括从蜂窝塔107a-b和用户设备110a-b的传输。用户们112a-b可在其各自的设备上使用用户界面109a-b与本地应用互动。在一些实施例中，用户可通过本地应用与服务器101通信。本地应用可以是独立软件程序，或以最小的专门化的本地处理的方式从服务器101呈现信息，例如互联网浏览器。

服务器101可能包括多个软件、固件，和/或硬件模块以实施各个所公开的过程。例如，服务器可能包括多个系统工具102，例如动态链接库，以执行各种功能。存储元数据103的数据库和存储语音数据104和动画数据105的数据库也可能被包括在内。在一些实施例中，服务器101可能还包括缓存106以促进对来自用户设备110a-b的资源请求的更高效的应答次数。

在某些实施例中，服务器101可作为主机向用户设备110a-b提供资源，以使得设备可生成与用户在虚拟环境中交互的虚拟人物。在一些实施例中，虚拟环境的操作可分布在用户设备110a-b和服务器101之间。例如，在一些实施例中，虚拟环境和/或AI逻辑可在服务器101上运行，以及用户设备可仅请求足够的信息以显示结果。在其他的实施例中，虚拟环境和/或AI逻辑可主要在用户设备110a-b上运行并仅与服务器不定期地通信以获取新的资源。

虚拟环境拓扑

图2示出了可在某些实施例中使用的虚拟环境中的多个交互场景间的拓扑关系。在此示例中，有三个交互场景A、B、C201a-c用户可从其开始交互会话的主场景201d。在一些实施例中，场景可包括房子中的“房间”或游戏竞赛中的不同“游戏”。每个交互场景可显示独特的内容且可包含与其他场景通用的元素和一些独特的元素。用户可不受限制地从一些场景转换，如在转换202c-e的情况下。但是，一些转换可能是不定向的，例如从场景A201a到场景B201b的转换202b和从场景C201c到场景A201a的转换202a。在一些实施例中，用户通过口令或口头表示对虚拟人物提议的同意在场景间进行转换。

在一些实施例中，用户可被要求遵从交互回到主场景201d，以使得对话A1逻辑可被重新初始化并配置用于新场景。

虚拟环境示例

图3示出了可实施于某些实施例的虚拟环境中的主场景的图形用户界面(GUI)300的示例截图。在一些实施例中，GUI可出现在界面109a-b上，例如移动电话的显示屏、移动电话或桌面设备的触摸屏。如在本示例中所示，GUI300可包括虚拟人物的第一描写301a和第二描写301b，菜单栏302，其具有用户图形304a、独立静态或实时用户视频304b和语音界面303。

菜单302可描绘虚拟环境所有场景间的通用元素，以向用户提供虚拟和功能性的连续性。语音界面303可被用于应答来自虚拟人物301a-b的询问。例如，在一些实施例中，用户可触摸界面303以激活麦克风以接收他们的应答。在其他实施例中，当用户选择一些其他输入设备时，界面303可点亮或以其他方式指示活跃状态。在一些实施例中，当录音被系统发起时，界面303可自动点亮。

在一些实施例中，实时用户视频304b当用户使用用户设备时描绘实时或接近实时的用户图像，其可能使用与用户设备通信的照相机而获得。如图3所示，用户的描绘可被系统修改，例如通过覆盖面部毛发、假发、帽子、耳饰等在实时视频图像上。所述覆盖可响应发生在虚拟环境中的活动和/或通过与虚拟人物的对话被生成。例如，在交互包含角色扮演中，如在海盗冒险中包括用户，用户图像可被覆盖有海盗帽、骷髅头和骨头、或者类似的与该交互有密切关系的资源。在一些实施例中，用户图形304a是用户的静态图像。在应用设置期间，系统可拍摄用户的图像并存储该图像作为“标准”或“默认”图像以显示为用户图形304a。但是，如本文中更详细的描述，在一些实施例中用户可选择让带有覆盖图像的他们的图像代替用户图形304a。在一些实施例中，用户可主动地替换用户图形304a。

在一些实施例中，交互可能包括一个或多个虚拟人物的建议或邀请，以用于用户激活由用户设备对其照片的拍摄，或用于系统自动拍摄用户的图片。例如在发起海盗交互后和在第一次显示带有海盗帽的用户后，虚拟人物可评论用户的外貌并提出使用位于用户设备上的照相机捕获捕获用户的图像。如果用户回复确认，然后系统可捕获捕获图像并存储图像或使用图像以永久地或在海盗交互的一部分中代替用户图形304a。在一些实施例中，相同或相应的图形可被覆盖在虚拟人物的图像上。

如本文中更详细的描述，虚拟人物301a-b可执行各种动画，以指示其正在发言以及与场景中的其他元素互动。

图4示出了可实施于某些实施例的虚拟环境中的“炉边谈话场景”GUI400的示例截图。背景403中的元素可向用户指示其当前所在的是哪个场景。在此例中，用户的图像401，可能是使用位于用户设备的照相机获得的实时图像，可被使用。虚拟人物，如虚拟人物301b，可通过交互向用户提出问题且用户可使用语音界面303应答。文本框402可被用于指示该对话的主题和性质(例如，学校)。

图5示出了可实施于某些实施例的虚拟环境中的“对抗场景”GUI500的示例截图。在本实施例中，尽管虚拟人物在GUI500中是不可见的，该系统可仍然提出问题(可能用虚拟人物的声音)并接收来自用户的应答和陈述。在此场景中，滚动页眉504a可被用于指示有关于该对话的上下文信息。在此例中，元素501中所描绘的用户参与到了与相对的图像503中所描绘的海盗的智慧争斗中。文本框502a-b可被用于表明系统所提出的问题并可能由用户给出的或预计由用户给出的回应。

图6示出了可实施于某些实施例的在虚拟环境中的“游戏竞赛场景”GUI的示例截图。在此场景中，虚拟人物301b可开展游戏竞赛，其中用户为竞争者。虚拟人物301b可向用户提出问题。预计的回答可在文本框602a-c中显示。虚拟人物301c可能是不同于虚拟人物301b的虚拟人物，或者为同一人物的单独地动画实例。虚拟人物301c可被用于向用户提出问题。标题屏幕603可被用于指示竞赛的种类。用户图像可被实时或接近实时地显示于区域601。

图7示出了可实施于某些实施例的虚拟环境中的“讲故事场景”GUI700的示例截图。在此场景中，图形用户界面700可被分为文本区域701和图形区域702。虚拟人物301a-b可叙述和/或角色扮演故事的一部分，当每个区域701、702被更新时。虚拟人物301a-b可参与与另一人物的对话且可定期地与用户交谈，可能作为角色扮演过程中的一部分，在其中用户作为故事中的一个角色。在一些实施例中，用户阅读区域701中的文本，虚拟人物301a-b基于故事的一部分或用户的阅读即兴演讲或评论。

用户交互

图8是可实施于某些实施例的描述虚拟环境中的用户交互过程中的某些步骤的流程图。在步骤801，系统可向用户呈现主场景，如图3中所描绘的场景。在步骤802，系统可接收用户对交互场景的选择(如口头选择)。在一些实例中，输入可包括触摸或图形图标的滑动，但在其他实例中输入可以是用户的口头应答，如对来自虚拟人物问询的应答。在步骤803，系统可向用户呈现所选择的交互场景。

在步骤804，系统可基于标准使用户参与到对话序列。该标准可包括此前与用户的对话和基于社交信息或以往与用户的交互所生成的统计数据库。在步骤805，系统可确定用户是否希望重复关于所选场景的活动。例如，虚拟人物可询问用户的偏好。如用户做出选择，可能为口头地或通过触觉输入，以继续同样的活动，系统可使用同此前同样的标准重复该活动，或在步骤806可修改标准以反映此前对话历史。

可选择地，如果用户不希望重复该活动，系统可通过与虚拟人物的交互再次确定用户是否希望在步骤807退出。如果用户不希望退出系统则在步骤802再次确定用户希望进入哪一个交互场景。在步骤802，在进入主场景之前或之后，系统同样可基于此前与用户的对话和用户的个人特征修改标准。在一些实施例中，用户使用地图界面以在场景间转换。

在一些实施例中，内容可被标记，从而其只在符合某些标准时被使用。这可允许系统为用户提供定制的内容。标准的示例字段可包括以下：重复-当人物正重复某事物时使用的可选择的应答；仅一次-使用该应答仅一次，如从不重复；年龄-只有用户的年龄落入特定的范围时使用该应答；性别-只有当用户的性别为男性或女性时使用该应答；日期-只有当当前日期符合特定日期时使用该应答；时间-只有当当前时间落入时间范围时使用该应答；前一次活动-当此前活动符合特定活动时使用该应答；游戏分钟-当用户超出了给定的游戏分钟数时使用该应答；区域-当用户被定位于给定的地理区域时使用该应答；前一次进行使用-当用户未使用该服务达到给定的天数时使用该应答；等等。虚拟人物使用的应答可被系统打上时间戳并记录，以使得AI引擎将避免在未来给出重复的应答。用户可与用户账户关联以促进其个人信息的存储。

标准可同样源自分析。在一些实施例中，系统记录在对话会话期间发生的所有重要的事件的统计数据。这些统计可被记录到服务器并可被集合以提供规模化的关于用户如何与该服务交互的分析。这可被用于推动内容的更新或改变内容的优先次序。例如，分析可以辨别用户较另一活动更偏爱某一活动，允许更多的参与内容更快地向未来的用户呈现。在一些实施例中，内容的重新优先排序可基于规模化的来自用户的数据记录自动发生。

此外，通过以往对话的分析，写作组可洞察到主题，其需要更多地写作，因为他们频繁地发生。自然地，一些内容可以表现出比其他内容更有趣。系统可能想要在早期使用最好的内容以抓住用户的兴趣和注意力。AI或设计者可相应地用高、中或低优先级标记内容。在一些实施例中，AI引擎可能更喜欢传递被标记为比其他内容更高优先级的内容。

组件管理

图9是可实施于某些实施例的描述基于组件的内容管理和传输过程900中的某些步骤的流程图。在图3-7中的各个实例场景中各种元素如文本框305、402、502a-b、602a-c，标题屏幕603、用户图像401、501、601和虚拟人物301a-c，可被系统视为组件。组件可能指的是在场景中可能出现或被使用的资源或者资源的集合。例如，组件可包括：图像-可能带有阿尔法透明的图层；用户视频订阅-显示设备的照相机的输出，在一些实施例中带有面部追踪以保持照相机对准用户；人物动画-使用3D几何图形或2D图像显示动画的虚拟人物；文本查看器-显示状态文本或来自虚拟人物的最后问题的综述；渐进文本显示-用以随着虚拟人物发言而显示文字；基于图像的动画-显示基于图像的模仿动画，例如闪光灯、移动的照片，或组件间的转换；等等。

在进入场景后或进入场景前，系统可决定哪个组件有关于该交互体验。然后服务器101可提供具有上述组件的用户设备110a-b，或预测的组件的部分以被本地缓存以在交互期间使用。AI引擎在服务器101上操作的地方，服务器101可确定将哪个组件发送给用户设备110a-b。在实施例中，AI引擎在用户设备110a-b上操作的地方，用户设备可确定向服务器请求哪个组件。在每个实例中，在一些实施例中，AI引擎将仅使尚未被本地缓存在用户设备110a-b上的组件被传输。

参考进程900，在步骤901，系统可能从与服务器101或用户设备通信的数据库检索用户特征。在步骤902，系统可检索与交互场景相关联的组件。在步骤903，系统可确定组件个性化元数据。例如，系统可能使用上文所述的标准确定虚拟人物行为和对话的参数，或确定与部分组件相关联的图像。

在步骤905，系统可开始交互会话905。在交互会话期间，在步骤906系统可记录交互统计数据。在交互会话期间，在步骤907或者随着用户会话总结908，在步骤909，系统可报告该交互统计数据。

图10示出了可实施于某些实施例的组件创造和管理系统GUI1000的示例截图。在此示例界面中，设计者可创造类别列表1002，其中一些在多个场景中通用，而其他的，例如“炉边谈话”1004是特别场景所独有的。在每个类别中，设计者可指定组件1003和对话元素1005及两者间的交互。在一些实施例中，设计者可指出对话元素和组件间的关系，且可指出哪个优先的命令组件应被选择、传输、优先化和与其交互。各种工具1001可被用于编辑和设计对话和组件交互，其可能具有文本编辑或文字处理程序软件通用的元素(如拼写检查、文本格式等)。使用GUI1000，设计者可通过组件选择指导对话交互。例如，通过指定回答602a-c的组件，系统可提高用户将用这些词中的某一个进行应答的可能性。

资源预测

图11是可实施于某些实施例描述动态AI对话管理过程中的某些步骤的流程图。在步骤1101，系统可预测可能发生在用户与一个或多个虚拟人物间，或在其对话为非确定性的虚拟人物间的可能的对话路径。在步骤1102，系统可从数据库检索N语音波形并将其本地缓存在服务器系统101或用户设备110a-b。在步骤1103，系统可从数据库检索与N语音波形相对应的元数据并将其本地缓存在服务器系统101或用户设备110a-b。在步骤1104，系统可通知本地缓存的该语音波形和动画的元数据的AI引擎并使用动画元数据动画化虚拟人物。通过这种方式，该AI引擎可预计在将提供给用户的内容选择中的网络延迟和/或资源可用性。

在一些实施例中，动画可由与该波形关联的音素元数据驱动。例如，时间戳可被用于将某些动画，如下巴和嘴唇运动，与波形的相应点进行关联。通过这种方式，虚拟人物的动画可动态地适用于由系统选择的波形。在一些实施例中，该“音素元数据”可能包括与已存在的虚拟人物动画混合的补偿。该音素元数据可在资源创造过程中自动被创造或它可明确地由动画师或音频工程师生成。在波形由文语转换过程生成中，系统可连接元素形成一系列音素动画元数据以产生与所生成的波形相关联的音素动画元数据。

挫折管理

图十二是可实施于某些实施例的描述挫折管理过程中的某些步骤的流程图。在步骤1201系统监控对话记录。在一些实施例中，系统可监控对话的先存记录。在一些实施例中，系统可监控当前对话正在进行的记录。作为监控的一部分，系统可识别用户的应答作为挫折的指示并相应地标记应答。

在步骤1202，系统可确定是否挫折标记的应答超过了临界值或如果应答达到了评估用户挫折等级的标准。在用户的应答指示挫折中，系统可开始步骤1203，并通知AI引擎关于用户的挫折。作为应答，在步骤1204，AI引擎可调整虚拟人物间的交互参数以缓和挫折。例如，并非更多地在应答中吸引用户，该人物可能更喜欢与彼此交互或自动将交互的流程指向被确定为更有益于吸引用户的情形。

语音接收

图13是可实施于某些实施例的描述语音接收过程1300中的某些步骤的流程图。在步骤1301，系统可确定所预期的用户的应答的字符。在一些实施例中，应答的字符可基于虚拟人物立即地在先陈述和问询被确定。

在步骤1302，系统可确定“按住说话”功能是否适当。如果是，系统可在步骤1305呈现“按住说话”图标，并在步骤1306执行“按住说话”操作。该“按住说话”按钮可作为语音界面303的修改或接近其出现。在一些实施例中，没有图标被呈现(如步骤1305被跳过)，系统在步骤1306使用已有的图标执行“按住说话”操作。该“按住说话”操作可包括一过程，在当虚拟人物最初等待应答时，用户设备的麦克风处的录音凭其被禁用。在选择按钮后，如语音界面303，用户设备的麦克风处的录音可被启用且用户可响应涉及该虚拟人物的对话。用户可继续按住(如物理上的触摸或否则提供触觉输入)该图标直到其完成提供其应答并可稍后松开图标以完成录音。

在步骤1303，系统可确定“轻击说话”功能是否适当。如果是，系统可在步骤1307呈现“轻击说话”图标，并在步骤1308执行“轻击说话”操作。该“轻击说话”按钮可作为语音界面303的修改或接近其出现。在一些实施例中，没有图标被呈现(如步骤1307被跳过)，系统在步骤1308使用已有的图标执行“轻击说话”操作。该“轻击说话”操作可包括一过程，在当虚拟人物最初等待应答时，用户设备的麦克风处的录音凭其被禁用。在选择按钮后，如语音界面303，用户设备的麦克风处的录音可被启用且用户可响应涉及该虚拟人物的对话。随着其应答的完成，用户可再次选择图标，可能是与最初选择同样的图标以完成录音，且在一些实施例中禁用麦克风。

在步骤1304，系统可确定“轻击说话伴随静默监测”功能是否适当。如果是，系统可在步骤1309呈现“轻击说话伴随静默监测”图标，并在步骤1310执行“轻击说话伴随静默监测”操作。该“轻击说话伴随静默监测”按钮可作为语音界面303的修改或接近其出现。在一些实施例中，没有图标被呈现(如步骤1309被跳过)，系统在步骤1310使用已有的图标执行“轻击说话伴随静默监测”操作。该“轻击说话伴随静默监测”操作可包括一过程，在当虚拟人物最初等待应答时，用户设备的麦克风凭其被录音凭其被禁用。在选择按钮后，如语音界面303，用户设备的麦克风处的录音可被启用且用户可响应涉及该虚拟人物的对话。随着其应答的完成，除非主动地禁用麦克风，用户可能陷入沉默。系统可侦测到随后的沉默并在某时间临界值已过时停止录音。在一些实施例中，沉默可能通过测量录音的频谱的能量而被侦测到。

如果系统不能确定“按住说话”、“轻击说话”或“轻击说话伴随静默监测”的任何一个是合适的，系统可执行“自动声音活动监测”操作。在“自动声音活动监测”中，系统可在用户设备上激活麦克风1311，如果其尚未被激活。在步骤1312，系统可进而分析所录音频的频率和功率以确定语音是否为当前的。如果语音不是当前的且超出某一时间临界值，系统可结束录音。

社交资源消息传送

图14示出了可实施于某些实施例中的社交资源分享GUI的示例截图。在此实施例中，评论者，如该用户或该用户的亲友，可被呈现与多个虚拟人物交互期间捕获捕获的一系列图像1401。例如，一些图像已被用户自愿地请求并可描绘多种资源覆盖在用户的图像上，如帽子和/或面部毛发。在一些实施例中，多个图像1401还包括在多个交互中多个时刻自动拍摄的用户图像。相册控制1402和1403可被用于从不同的图像集合中选择，可能为用户参与的不同情节所整理的图像。

图15示出了可实施于某些实施例的图14的社交资源分享GUI中的信息草拟工具的示例截图1500。随着用于分享的图像的选择，系统可呈现弹出式显示器1501。显示器1501可包括所选择图像的放大版1502和用于接收文本输入的区域1503。用于选择一个或多个信息媒介的输入1505，如Facebook、Myspace、Twitter等，也可被提供。用户可在区域1503插入评论文本。通过选择分享图标1504，用户可与由输入1505所确定的社区分享图像和评论文本。在一些实施例中，信息草拟工具由儿童用户的父母使用。

图16是可实施于某些实施例的社交图片捕获捕获过程中的某些步骤的流程图。在步骤1601，系统可确定图像捕获与对话相关。例如，随着涉及用户图形304b(或图像401、501等)上覆盖某些资源的角色扮演序列的启动，系统可被锁定以鼓励用户捕获其覆盖有资源的图像。在步骤1602，随着在用户图像上资源的覆盖，系统可在步骤1603提议用户参与图像捕获。该提议可由虚拟环境中的虚拟人物之一做出。在步骤1604，如用户可能通过口头应答同意，系统可在步骤1605捕获用户图像。然后系统可在步骤1606存储该图像并在步骤1607呈现所捕获的图像以供该用户或其他人检查，如用户的母亲或其他家庭成员。如果该图像在步骤1608检查时被接受，系统可在步骤1609传输所被捕获的图像至所选社交网络以分享。

计算机系统概述

如上所述，多个实施例包括了多个步骤和操作。这些步骤和操作中的多种可被执行于硬件组件或被实现于机器可执行指令中，其可用于引发以所述指令进行编程的通用的或专用的处理器执行这些步骤。可选择地，这些步骤可由硬件、软件和/或固件的组合执行。同样地，图17是可被用于多个实施例的计算机系统1700的示例。多个已公开特征可被定位于计算机系统1700上。根据本实例，该计算机系统包括总线1705、至少一个处理器1710、至少一个通信端口1715、主存储器1720、可移动存储介质1725，只读存储器1730和大容量存储器1735。

处理器1710可为任何已知的处理器，如，但不限于或处理器，或处理器，或线处理器。通信端口1715可为任何用于与基于拨号连接的调制解调器使用的RS-232端口、10/100以太网端口或使用铜缆或光纤的千兆位端口。通信端口1715可基于网络选择，如局域网(LAN)，广域网(WAN)，或计算机系统1700所连接至的其他网络。

主存储器1720可以是随机访问存储器(RAM)，或任何其它在本领域中公知的动态存储设备。只读存储器1730可以是任何静态存储设备，例如可编程只读存储器(PROM)芯片，用于存储静态信息诸如用于处理器1710的指令。

大容量存储器1735可以被用于存储信息和指令。例如，也可以使用硬盘等家族的SCSI驱动器、光盘、磁盘阵列如RAID，如Adaptec家族的RAID驱动器，或者任何其它的大容量存储设备。

总线1705将处理器1710与其它内存、存储设备和通信模块通信耦合。总线1705可以是基于PCI/PCI-X或基于SCSI的系统总线，取决于所使用的存储设备。

可移动存储介质1725可以是任何类型的外部硬盘驱动器、软盘驱动器、Zip驱动器，只读光盘驱动器(CD-ROM)、可复写式光盘机(CD-RW)，或数字只读光盘存储器(DVD-ROM)。

以上描述的组件意在举例说明某些类型的可能性。上述实施例决不应当限制本发明的范围，因为它们仅是示例性实施例。

虽然本发明的一个或多个实施例的详细描述已经在上面给出，各种替换、修改和等同物对于本领域技术人员而言将是显而易见的，而不会脱离本发明的精神。例如，尽管上面描述的实施例涉及特定的特征，本发明的范围还包括具有特征和表现形式的不同组合的实施例，而没有包括所有已描述的特征。因此，本发明的范围旨在涵盖所有这样的替换、修改和落在权利要求范围之内的变化，以及所有的等同物。因此，以上描述不应被视为限制本发明。

附注

虽然计算机可读介质术语在一个实施例中显示为单一的介质，但属于“计算机可读介质”应当被认为包括存储一组或多组指令的单个介质或多个介质(例如集中式或分布式数据库，和/或相关的缓存和服务器)。术语“计算机可读介质”还应当被认为包括能够存储、编码或承载一组指令的任何介质，该组指令能够由机器执行，并且使得机器执行本实施例的方法中的任何一个或多个方法。因此，术语“计算机可读存储介质”应当被认为包括但不限于固态存储器、光学介质、磁性介质、能够存储一组指令的任何介质，该组指令用于由机器执行，并且使得机器执行本公开技术和创新的方法中的任何一个或多个方法。

该计算机可以是，包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板电脑、笔记本电脑、机顶盒(STB)、个人数字助理(PDA)、移动电话、iPhone、iPad、处理器、电话、网页应用、网络路由器、交换机或桥接器、或者能够执行指定要被机器采取的动作的一组指令(顺序或者以其它方式)的任何机器。

通常，实现发明实施例的程序可能被实现为操作系统的部分或特有应用、组件、程序、对象、模块或指令序列，称之为“程序”。计算机程序在不同时期的不同计算机存储设备中通常包括一个或多个指令集，当由计算机中的一个或多个处理单元或处理器进行读取和执行时，程序使得计算机实现操作以执行包括本公开文本多个方面的要素。

此外，尽管实施例在完全运行的计算机和计算机系统的内容中已描述，但多个实施例能够以多个形式作为程序产品分发，本公开平等地应用，不管用于实际影响分发的计算机可读媒介的特定类型。

除非说明书和权利要求书明确要求，否则，词语“包括”以及类似的词解释为包容性的，不同于排外的或者详尽的意义，也就是说，是“包括但不限于”的意思。在此处使用的术语“连接”、“耦合”或其他这类的变化，是指两个或更多元素之间直接或间接的连接或耦合，要素之间的耦合联接可以是物理的，逻辑的，或者两者组合。另外，在本申请书中使用的词语“在此”、“以上”、“以下”以及类似的词语，是将本申请作为一个整体而不是本申请的特定部分。根据上下文内容，在上述详细的说明书中使用单数或复数的单词，可能也分别包括复数或单数。词语“或者”，关于一个列表的一个或多个项目，包含这个单词以下的所有皆是：列表中的任何项目，列表中的所有项目，以及列表中的项目的任一组合。

本发明实施例的上述详细描述不是穷尽或限制了上述发明内容的精确形式。本发明的特定实施例以及示例是为了说明目的，不同的同等的修改，对于本领域技术人员是显而易见时，可能依然属于本发明的范围。例如，当进程或块以一个给定的顺序呈现，可选的实施例可能以不同顺序的步骤实行例程，或者具有不同顺序的块的运行系统。一些进程或块可能会被删除，移动，增加，细分，组合，和/或修改以提供替代或变形。这些进程或块的每个可能以不同方式实现。同样，当进程或块有时出现以串联执行时，这些进程或块可能替代以并行执行，或者以不同时间执行。而且此处任何标注的特定数字仅仅是举例：其他实现可能采用不同值或范围。

本发明在此提供的内容可能适用于其他系统，不仅仅是在此描述的系统。上述不同实施例的元素和操作可以组合成进一步的实施例。

任何专利和申请以及上述其他参考，包括可能被列出在附随的归档文件，是通过引用的方式合并于此。如果需要的话，本发明可修改以适用上述系统，功能，以及不同参考的概念，来提供本发明的进一步实施例。

可以根据上述详细说明对本发明进行修改。当上述说明描述了本发明的特定实施例并描述了预期的最佳方式时，无论上述内容有多详细，操作方法可以以很多方式来实现。虽然仍包含在本发明的主题中，本系统的细节在实施细节上可能有非常大的不同。如上所述，当描述特定特征或本发明的内容时，使用的特定术语不应该隐含该术语在这里被重新定义，来限定与该术语相应的特定特征或本发明内容。通常，在下述权利要求中使用的术语不能将本发明限定为本说明书中公开的特定实施例，除非上述详细描述部分明确定义了该术语。因此，本发明的实际范围不仅包括公开的实施例，还包括所有等同运用或实现本发明的权利要求的方式。

Claims

1.一种使用户参与与虚拟人物对话的方法，所述方法包括：

接收来自用户的音频输入，所述音频输入包括语音；

获取所述语音的文本描述；

基于所述文本描述确定应答音频输出；和

引发虚拟人物使用所确定的应答音频输出发言。

2.如权利要求1所述的方法，还包括：

接收包括来自用户的语音的多种音频输入，所述多种音频输入与一个或多个虚拟人物的多种发言输出相关联。

3.如权利要求2所述的方法，其中所述多种音频输入包括由一个或多个虚拟人物提出的问题的答案。

4.如权利要求2所述的方法，其中所述多种音频输入包括文字叙述且所述一个或多个虚拟人物的多种发言输出包括即兴讲述或对所述叙述的评论。

5.如权利要求2所述的方法，其中所述多种音频输入包括在关于话题的对话中的陈述。

6.如权利要求1所述的方法，其中所述获取所述语音的文本描述包括将所述音频输入传输至专用的语音处理服务。

7.如权利要求1所述的方法，其中所述接收音频输入包括确定是否执行一个的“自动声音活动监测”、“按住说话”、“轻击说话”或“轻击说话伴随静默监测”操作。

8.如权利要求7所述的方法，进一步包括更改图标以反映所确定的音频输入操作。

9.如权利要求1所述的方法，其中所述确定应答音频输出包括确定用户个性化元数据。

10.如权利要求1所述的方法，所述方法进一步包括获取与所述应答音频输出相关联的音素元数据以用于动画化一些人物的面部特征的目的。

11.如权利要求1所述的方法，进一步包括审视来自所述用户的多种回复并基于所述审视执行更多的字符间的对话而非用户-字符的对话。

12.如权利要求1所述的方法，进一步包括将优先次序元数据与所述虚拟人物的每个潜在的应答相关联并使用这些优先次序元数据使得可能的应答在其他应答之前被输出。

13.如权利要求1所述的方法，其中所述引发虚拟人物使用所确定的应答语音输出发言包括引发所述虚拟人物提议使用用户设备拍摄照片。

14.如权利要求1所述的方法，进一步包括：

使用用户设备引发用户拍摄照片；和

发送所述照片至社交网络的一个或多个用户。

15.一种使用户可视化参与与虚拟人物的对话的方法，包括：

检索与交互场景相关联的多个组件，所述交互场景由用户选择；

配置所述多个组件的至少一个代表所述场景中的虚拟人物；和

传输所述多个组件的至少一些至用户设备。

16.如权利要求15所述的方法，进一步包括检索与用户关联的个性化元数据并基于所述个性化元数据更改所述多个组件的至少一个。

17.如权利要求15所述的方法，其中所述检索多个组件包括从数据库检索多个语音波形。

18.一种使用户参与与虚拟人物对话的计算机系统，所述系统包括：

显示器；

处理器；

通讯端口；

包含指令的存储器，其中所述指令被配置为引发所述处理器进行：

接收来自用户的音频输入，所述音频输入包括语音；

获取所述语音的文本描述；

基于所述文本描述确定应答音频输出；和

引发虚拟人物使用所确定的应答音频输出发言。

19.如权利要求18所述的计算机系统，其中所述接收音频输入包括确定是否执行一个的“自动声音活动监测”、“按住说话”、“轻击说话”或“轻击说话伴随静默监测”操作。

20.如权利要求19所述的计算机系统，所述指令进一步被配置为引发所述处理器更改图标以反映所确定的操作。

21.如权利要求18所述的计算机系统，其中确定应答音频输出包括确定用户个性化元数据。

22.如权利要求18所述的计算机系统，所述指令进一步被配置以引发所述处理器获取与所述应答音频输出相关联的音素元数据以用于动画化一些人物的面部特征的目的。

23.如权利要求18所述的计算机系统，所述指令进一步被配置以引发所述处理器审视来自所述用户的多种回复并基于所述审视执行更多的字符间的对话而非用户-字符的对话。

24.如权利要求18所述的计算机系统，所述指令进一步被配置为引发所述处理器将优先次序元数据与所述虚拟人物的每个潜在的应答相关联并使用这些优先次序元数据使得可能的应答在其他应答之前被输出。

25.如权利要求18所述的计算机系统，其中所述引发虚拟人物使用所确定的应答音频输出发言包括引发所述虚拟人物提议使用用户设备拍摄照片。

26.一种使用户参与与虚拟人物对话的计算机系统，所述计算机系统包括：

接收来自用户的音频输入的装置，所述音频输入包括语音；

确定所述语音的描述的装置；

基于所述描述确定应答音频输出的装置；和

引发虚拟人物使用所确定的应答音频输出发言的装置。

27.如权利要求26所述的计算机系统，其中所述音频输入接收装置包括麦克风、数据包接收模块、WiFi接收器、蜂窝网络接收器、以太网连接器、无线电接收器、本地连接器或者便携式存储器装置的接口中的一个。

28.如权利要求26所述的计算机系统，其中所述确定所述语音的描述的装置包括专用语音处理服务器的连接器、自然语言处理程序，语音识别系统、隐马尔可夫模型或贝叶斯分类器中的一个。

29.如权利要求26所述的计算机系统，其中所述确定应答音频输出的装置包括人工智能引擎、机器学习分类器、决策树、状态转换图、马尔可夫模型或贝叶斯分类器中的一个。

30.如权利要求26所述的计算机系统，其中所述虚拟人物语音装置包括扬声器、移动装置上的扬声器的连接器、与用户设备通信的WiFi发射器、数据包传输模块、与用户设备通信的蜂窝网络发射器、与用户设备通信的以太网连接器、与用户设备通信的无线电发射器或与用户设备通信的本地连接器中的一个。