CN111275158A

CN111275158A - 用于生成并且显示电子化身的方法和设备

Info

Publication number: CN111275158A
Application number: CN201911219145.XA
Authority: CN
Inventors: D.迈斯特; P.R.温斯利
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-12-04
Filing date: 2019-12-03
Publication date: 2020-06-12
Also published as: US20200175739A1; EP3664425A1

Abstract

提供了用于生成并且显示电子化身的方法和设备。一种感知情境的图形化身系统包括提示捕获组件和用户设备。提示捕获组件包括被配置为生成人类代理的代理视频数据的视觉提示捕获单元，以及被配置为处理代理视频数据以生成对应于人类代理的视觉提示的视觉提示数据的视觉提示编码器。用户设备被配置为接收视觉提示数据。用户设备包括：（i）化身渲染单元，其被配置为修改图形化身，使得图形化身的视觉提示对应于人类代理的视觉提示，以及（ii）显示屏，其被配置为显示经修改的图形化身。与接收并且在用户设备的显示器上显示代理视频数据相比，所述系统提高了用以传达代理的视觉提示的效率。

Description

用于生成并且显示电子化身的方法和设备

技术领域

本公开涉及电子化身的领域，并且特别地，涉及在用户设备上生成并且显示电子化身。

背景技术

电子化身是人或者虚拟生物的图形表示和/或表现。当图片或者动画与在线角色相关联时，用户在数字世界中遇到化身。在线角色可以是另一个人的在线角色，或者可以是虚拟的人或者虚拟助理（诸如客户服务计算机程序）的在线角色。

典型地，电子化身是情境无感知的（contextually unaware）。也就是说，不管其中出现化身的情境如何，典型的电子化身都具有相同的外观。例如，在客户服务环境中，化身可以包括对于示出开心、微笑和愉快举止的静态人脸的表示，以反映化身背后的人或者程序的愿意帮助的态度。然而，在医疗保健环境中，化身可以包括对于示出严肃、担忧和威严举止的人脸的表示，以反映情况的严肃性和化身背后的人或者程序。

在真实世界的场景中，典型的电子化身的情境无感知性变得明显。例如，在某些情况下，客户服务代理讨论诸如拒绝客户的信用卡之类的严肃事项。在这种情况下，对于客户服务电子化身而言维持微笑和开心的表情是情境不适当和/或不敏感的。类似地，在一些实例中，医疗专业人员传递令人振奋的消息，但是电子化身维持不变的严肃外观，这与通信会话的情境不相适应。

基于上述，基于情况的情境对电子化身的表示进行改进是合期望的，以改进用户体验。

发明内容

根据本公开的示例性实施例，一种感知情境的图形化身系统包括提示（cue）捕获组件和用户设备。提示捕获组件包括被配置为生成人类代理的代理视频数据的视觉提示捕获单元，以及被配置为处理代理视频数据以生成对应于人类代理的视觉提示的视觉提示数据的视觉提示编码器。用户设备被配置为接收视觉提示数据，并且包括：（i）化身渲染单元，其被配置为基于视觉提示数据修改图形化身，使得图形化身的视觉提示对应于人类代理的视觉提示，以及（ii）显示屏，其被配置为显示经修改的图形化身，以便传达人类代理的视觉提示。与接收并且在用户设备的显示屏上显示代理视频数据相比，该图形化身系统提高了用以传达人类代理的视觉提示的效率。

根据本公开的另一个示例性实施例，一种在用户设备上生成并且显示感知情境的图形化身的方法包括：利用提示捕获组件捕获人类代理的代理视频数据；以及利用提示捕获组件的视觉提示编码器对所捕获的代理视频数据进行编码，以生成与人类代理的视觉提示相对应的视觉提示数据。该方法进一步包括：将视觉提示数据从提示捕获组件传送到用户设备，而不将所捕获的代理视频数据传送到用户设备；以及利用用户设备的化身渲染单元基于所传送的视觉提示数据修改图形化身，使得图形化身的视觉提示对应于人类代理的视觉提示。该方法还包括：将经修改的图形化身显示在用户设备的显示屏上，以便将人类代理的视觉提示传达给用户设备的用户；以及使用经修改的图形化身将人类代理的视觉提示传达给用户，而不将所捕获的代理视频数据传送到用户设备，从而与接收并且在用户设备的显示屏上显示代理视频数据相比，提高了用以传达人类代理的视觉提示的效率。

附图说明

通过参照以下详细描述和附图，上述特征和优点以及其他特征和优点对于本领域普通技术人员来说应当变得更加容易清楚，附图中：

图1是感知情境的图形化身系统的框图，所述图形化身系统包括提示捕获组件和被配置为显示化身的用户设备；

图2图示了具有正常表情的图1的化身；

图3图示了具有开心表情的图1的化身；

图4图示了具有威严表情的图1的化身；

图5是图1的提示捕获组件的框图；

图6是由图1的提示捕获组件生成的视觉提示数据的框图；

图7是图1的用户设备的框图；

图8是图示操作图1的化身系统的示例性方法的流程图；

图9是图示图1的化身的左眉毛的各种定位和配置的示图；

图10是图示图1的化身的左眼的各种定位和配置的示图；以及

图11是图示图1的化身的嘴部的各种定位和配置的示图。

具体实施方式

出于促进对本公开的原理的理解的目的，现在将参考在附图中图示并且在以下书面说明书中描述的实施例。应理解的是，并不因此有限制本公开的范围的意图。应进一步理解的是，本公开包括对图示的实施例的任何变更和修改，并且包括如本公开所涉及领域的技术人员通常将想到的本公开原理的另外应用。

在随附描述中公开了本公开的各方面。在不离开本公开的精神或者范围的情况下，可以设计本公开的替代实施例及其等同物。应当指出的是，本文关于“一个实施例”、“实施例”和“示例性实施例”等的任何讨论指示所描述的实施例可以包括特定的特征、结构或者特性，并且这样的特定特征、结构或者特性可以不必被包括在每个实施例中。另外，对前述内容的引用不必包括对相同实施例的引用。最后，无论是否明确描述，本领域的普通技术人员将容易领会的是，给定实施例的特定特征、结构或者特性中的每一个可以与本文讨论的任何其他实施例的那些特征、结构或者特性相结合或组合地利用。

出于本公开的目的，短语“A和/或B”意味着（A）、（B）、或者（A和B）。出于本公开的目的，短语“A、B、和/或C”意味着（A）、（B）、（C）、（A和B）、（A和C）、（B和C）、或者（A、B和C）。

如关于本公开的实施例所使用的术语“包括”、“包含”和“具有”等是同义词。

如在图1中所示出的那样，感知情境的图形化身系统100包括被配置为通过电子网络112传送电子数据的提示捕获组件104和用户设备108。用户设备108被配置为显示图形电子化身120，所述图形电子化身120具有基于操作提示捕获组件104的人类代理124的所检测到的视觉提示、表情、以及情绪而实时改变的外观。例如，响应于代理124展现出“正常”表情，化身120展现出“正常”表情。如果代理124将她的表情改变为“开心”表情，那么化身120的表情实时自动改变为对应的“开心”表情。化身120的外观上的改变是通过向用户设备108发送与代理124的表情和情绪相关的数据（即，视觉提示数据184，图5）而不是向用户设备108发送代理124的图像数据（即，代理视频数据180，图5）来高效地完成的。视觉提示数据184在传送期间与若是代理视频数据180的情况相比使用显著地更少的网络带宽。因此，化身系统100是用于生成化身120的数据高效系统，所述化身120具有基于用户128和远程代理124之间的交互的改变的情境而实时改变的外观。化身系统100的另一个好处是不向用户设备108的用户128示出代理124的部分。因此，化身系统100与包括代理124的视频并且要求代理124符合着装规范和外观要求的以往的系统相比是更容易并且更成本有效的。此外，在至少一个实施例中，为用户设备108的每个用户128呈现与针对该特定公司或者品牌的选择相一致的相同化身120，由此确保公司的标准和要求得到满足。

在下面描述了化身系统100的每个元件连同操作化身系统100的方法800（图8）。

参照图2、图3、以及图4，示例性化身120被示出为以“卡通”风格的女人的颈部和头部。在图示的实施例中，化身120是具有各种视觉提示122的3D动画模型，所述视觉提示122包括头发126、眉毛130、眼睛134、鼻子138、嘴部142、以及头部146。在其他实施例中，化身120是2D动画模型、弯曲的2D视频、或者经人工智能（“AI”）变更的视频。经AI变更的视频看起来是例如人说出对话的真实视频片段（video footage），但是实际上是由诸如提示捕获组件104之类的AI生成的经修改的视频片段。如本文公开的那样，基于代理124和用户128之间的交互情境来改变、操纵、和/或“动画化”化身120。图2中的化身120展现出正常、基本、和/或默认的表情，其适用于至少开始其中使用化身系统100的大多数通信会话。然而，如在图3中所示出的那样，化身120展现出开心和兴奋的表情，其中眉毛130、眼睛134和嘴部142的形状已经改变，以传达当前的情境。如在图4中所示出的那样，化身120展现出威严或者严肃的表情，其中眉毛130、眼睛134和嘴部142的形状已经再次改变，以传达当前的情境。如在下面描述的那样，化身120不限制于图2至图4的三个示例性表情/情绪。化身120的典型情绪和表情包括开心、担忧、恐惧、悲伤、兴奋、沮丧和哀悼等。

取决于实施例和应用，可以在用户设备108上以全色、所选择的颜色、灰度、或者黑白来渲染化身120。可以以照片写实风格或者以简单的抽象或者卡通风格来渲染化身120。此外，在化身系统100的其他实施例中，化身120具有不同的类型，诸如男人、动物、儿童、幼儿、婴儿、和/或具有能够表达人类情绪和表情的类人（human-like）特征的非人卡通或者角色。化身系统100可以基于检测到的情境实时改变化身120的类型。

参照图5，提示捕获组件104包括视觉提示捕获单元140、音频捕获单元144、输入设备148、音频输出单元152、显示屏156、网络适配器160、以及存储器164，它们均可操作地连接到控制器168。在一个实施例中，视觉提示捕获单元140具有相机172和视觉提示编码器176。相机172被配置为捕获/生成对应于操作提示捕获组件104的代理124的图像的代理视频数据180。代理视频数据180被存储在存储器164中。相机172是数码相机或者任何类型的相机，其被配置为生成要被存储为代理视频数据180的电子图像数据。

视觉提示捕获单元140的视觉提示编码器176被配置为处理代理视频数据180和代理音频数据220以生成对应于代理124的视觉提示182并且控制化身120的外观的视觉提示数据184。视觉提示数据184由化身系统100使用，以使化身120的（多个）表情、（多个）姿势、姿态、嘴部移动、以及其他视觉提示122与代理124的（多个）表情、（多个）姿势、姿态、嘴部移动、以及其他视觉提示182相匹配，所述匹配以使化身120的外观（包括嘴部移动）与音频数据220同步的方式进行。视觉提示数据184不包括代理视频数据180，并且与代理视频数据180不同。视觉提示数据184不包括代理124的图像数据，并且不能用于生成代理124的图像数据。

如在图6中所示出的那样，存储在提示捕获组件104的存储器164中的视觉提示数据184包括与化身120的视觉提示122中的每一个相关的数据，所述视觉提示122可适配为与人类代理124的所检测到的视觉提示182相对应。例如，视觉提示数据184包括化身120的头发数据188、眉毛数据192、眼睛数据196、嘴部数据200、鼻子数据204、头部数据208、以及姿势数据212。视觉提示捕获单元140捕获代理视频数据180，并且使用编码器176将数据180编码为视觉提示数据184。视觉提示数据184包括基于化身120的复杂性和适配性可组织成在图6中所示出的数据类别中的至少一些的数据。

例如，视觉提示数据184的头发数据188确定化身120的头发126的风格、定位和颜色。眉毛数据192确定化身120的眉毛130的角度、大小、定位和颜色。每个眉毛130是单独可控的，并且在图9中以多个定位和角度示出了示例性眉毛130。眼睛数据196确定化身120的眼睛134的角度、大小、定位、颜色、眼睑状态和瞳孔。每只眼睛134是单独可控的。眼睛数据196的眼睛定位数据确定每只眼睛134相对于化身120的其他特征和视觉提示122的定位。眼睛数据196的眼睑数据用于使化身120在适当的情况下看起来眨动她的眼睑149或者闭合她的眼睑149。眼睛数据196的眼睛瞳孔数据通过控制瞳孔150（图10）的定位来确定化身120看起来正在看的方向。眼睛数据196的眼睛大小数据确定眼睛134关于化身120的其他特征和视觉提示122的总体大小。眼睛数据196的眼睛颜色数据确定眼睛的各种部分的颜色，所述部分包括虹膜154（图10）、瞳孔150、和巩膜158（图10）。在图10中以多个定位和角度示出了示例性眼睛134。

视觉提示数据184的嘴部数据200确定化身120的嘴部142的角度、大小、定位、颜色，以及牙齿162（图3）、嘴唇166（图3）、和舌头170（图3）的外观。嘴部数据200的嘴部角度数据确定嘴部142的角度。嘴部数据200的嘴部大小数据确定嘴部142关于化身120的其他特征和视觉提示122的大小。嘴部数据200的嘴部定位数据确定嘴部142相对于化身120的其他特征和视觉提示122的定位。嘴部数据200的嘴部颜色数据确定化身120的嘴部142的各种部分的颜色。嘴部数据200的牙齿数据确定牙齿162的外观、颜色和定位。嘴部数据200的嘴唇数据确定嘴唇166的外观、颜色和定位。嘴部数据200的舌头数据确定舌头170的外观、颜色和定位。在图11中以多个定位和角度示出了化身120的示例性嘴部142。可以基于嘴部数据200以张开定位、闭合定位并且以各种形状示出嘴部142。

嘴部数据200还基于代理124的音素，所述音素是用于形成口语单词的声音。音素典型地具有某些对应的嘴部定位。嘴部数据200被配置为基于由代理124说出的音素来定位嘴部142的各种可配置部分，使得化身120的嘴部142看起来与代理124说出的每个音素同步地移动。

如在下面描述的那样，姿势数据212确定化身120的手部姿势和面部姿势的存在和外观。

鼻子数据204确定化身120的鼻子138的大小、定位和颜色。鼻子数据204还可以将化身120控制为具有正常的鼻子138以及在伴随一些人类表情时的“皱的”鼻子138。

头部数据208确定头部146的大小、定位和颜色。头部数据208将化身120控制为具有正常的前额以及在伴随一些人类表情时的“皱的”前额。

再次参照图5，音频捕获单元144包括麦克风216，并且被配置为基于由代理124发出的声音来生成/记录代理音频数据220。例如，麦克风216检测到代理124正在讲话，并且存储对应于由代理124发出的语音的代理音频数据220。将麦克风216提供成被配置为生成数字音频数据的任何类型的麦克风。麦克风216可以被安装在由代理124佩戴的耳机上。音频捕获单元144记录来自代理124的音频。

输入设备148典型地被配置成由代理124用于将诸如文本和数字之类的数据输入到提示捕获组件104中的鼠标和键盘。输入设备148包括任何其他/附加的计算机外围设备。在一些实施例中，提示捕获组件104不包括输入设备148。

提示捕获组件104的音频输出单元152被配置为向代理发出声音。典型地，音频输出单元152包括扬声器224，所述扬声器224被配置为基于从用户设备108传送到提示捕获组件104的用户音频数据268（图7）来发出声音。因此，音频输出单元152使得代理124能够基本上实时地听到由用户128发出和说出的声音。扬声器224可以被安装在由代理佩戴的耳机上。在一些实施例中，提示捕获组件104不包括音频输出单元152。

提示捕获组件104的显示屏156被配置为在提示捕获组件104的操作期间向代理124显示数据。显示屏156可以被配置成计算机显示器。在一些实施例中，提示捕获组件104不包括显示屏156。

网络适配器160被可操作地连接到电子网络112，并且被配置为从电子网络112接收数据并且向电子网络112传送数据。在一个实施例中，网络适配器160包括被配置为无线传送和接收数据的无线传送器/接收器228。在另一个实施例中，传送器/接收器228包括到电子网络112的有线连接。

参照图5，提示捕获组件104的存储器164是电子数据存储单元，其在本文也被称为非暂态计算机可读介质。存储器164被配置为存储代理视频数据180、视觉提示数据184、代理音频数据220以及与化身系统100相关联的任何其他电子数据。

提示捕获组件104的控制器168被配置为执行用于控制视觉提示捕获单元140、音频捕获单元152、输入设备148、音频输出单元152、显示屏156、网络适配器160、以及存储器164的程序指令。控制器168被配置成微处理器、处理器或者任何其他类型的电子控制芯片。

参照图7，用户设备108典型地远离提示捕获组件104定位，并且通过电子网络112的方式可操作地连接到提示捕获组件104。在一个实施例中，用户设备108是客运车辆，诸如典型的轿车。在另一个实施例中，用户设备108是运载乘客的自主车辆，并且是部分或者完全自主的。也就是说，用户设备108可以是具有从级别0到级别5中的任何自主级别的车辆。在另外的实施例中，用户设备108是车辆中的显示器。用户设备108可以由用户128所拥有，由用户128租用，或者仅由用户128临时访问（即，共享用户设备108）。在又一个实施例中，用户设备108是智能手机、智能手表、个人计算机、平板计算机等。

用户设备108包括化身渲染单元230、音频捕获单元234、输入设备238、音频输出单元242、显示屏246、网络适配器250、以及存储器254，它们均可操作地连接到控制器258。渲染单元230被配置为基于由提示捕获组件104生成的视觉提示数据184来修改化身120，使得化身120的视觉提示122对应于代理124的视觉提示182。具体地，渲染单元230基于视觉提示数据184改变/修改化身数据256，以生成适用于在用户设备108的显示屏246上进行渲染的经修改的化身数据260。例如，如果视觉提示数据184指示代理124已经相对于她的鼻子向上移动了她的左眉毛，则渲染单元230修改化身数据256，使得化身120的左眉毛130相对于鼻子138向上移动。因此，渲染单元230处理视觉提示数据184，以将化身120的表情/举止/视觉提示122实时适配为与代理124的表情/举止/视觉提示182相对应。

用户设备108的音频捕获单元234包括麦克风264，并且被配置为基于由用户128发出的声音生成用户音频数据268。例如，麦克风264检测到用户128正在说话/讲话，并且存储对应于由用户128发出的语音的用户音频数据268。将麦克风264提供成被配置为生成数字音频数据的任何类型的麦克风。在一些实施例中，用户设备108不包括音频捕获单元234。

在图7中，用户设备108的示例性输入设备238被配置成覆盖在显示屏246上的触摸屏。输入设备238使得用户128能够将数据输入到用户设备108中。输入设备238还可以包括麦克风264，使得用户设备108被配置为接收口头或者口语用户输入。在其他实施例中，输入设备238包括按钮、开关、键盘、和/或用于接收用户输入的任何其他适合的设备。在一些实施例中，用户设备108不包括输入设备238。

用户设备108的音频输出单元242被配置为向用户128发出声音。典型地，音频输出单元242包括扬声器272，所述扬声器272被配置为基于从提示捕获组件104传送到用户设备108的代理音频数据220（图5）来发出声音。因此，音频输出单元242使得用户128能够听到由代理124发出的声音。

用户设备108的显示屏246被配置为在用户设备108的操作期间向用户128显示数据。化身120被显示在显示屏246上。在一个实施例中，显示屏246是被包括在车辆（诸如自主车辆或者用户引导车辆）的信息娱乐系统中的液晶平板彩色显示器。在特定的实施例中，显示屏246作为非用户驾驶的共享自主车辆的控制系统的一部分而被包括。在另一个实施例中，显示屏246被包括在用户128的个人电子设备（诸如智能手机或者平板计算机）中。在其他实施例中，显示屏246是黑白显示屏和/或电子墨水显示屏。

用户设备108的网络适配器250被可操作地连接到电子网络112，并且被配置为从电子网络112接收数据以及向电子网络112传送数据。在一个实施例中，网络适配器250包括被配置为无线传送和接收数据的无线传送器/接收器276。在另一个实施例中，传送器/接收器276包括到电子网络112的有线连接。

参照图7，用户设备108的存储器254是电子数据存储单元，其在本文也被称为非暂态计算机可读介质。存储器254被配置为存储化身数据256、已经根据视觉提示数据184修改的经修改的化身数据260、用户音频数据268、以及来自提示捕获组件104的传输的代理音频数据220。存储器254还可以存储与化身系统100相关联的任何其他电子数据。例如，在视觉提示数据184被提示捕获组件104生成并且通过电子网络112的方式被传送到用户设备108之后，存储器254存储视觉提示数据184。

用户设备108的控制器258被配置为执行用于控制化身渲染单元230、音频捕获单元234、输入设备238、音频输出单元242、显示屏246、网络适配器250、以及存储器254的程序指令。控制器258被配置成微处理器、处理器或者任何其他类型的电子控制芯片。此外，控制器258对化身渲染单元230和音频输出单元242之间的同步进行管理，以便使代理音频数据220与化身120的移动同步。

在操作中并且参照图8的流程图，化身系统100被配置为实现用于生成和显示感知情境的图形化身120的方法800。如在框804中所示出的那样，方法800包括发起通信会话。通信会话由用户128或者代理124发起。用户128和代理124可以与彼此相距任何距离，只要每方能够使用电子网络112发送和接收电子数据即可。

当期望通信会话时，用户128使用输入设备238向用户设备108输入对应的命令，所述命令引起用户设备108通过电子网络112的方式向提示捕获组件104发送会话请求信号。人类代理124接受会话请求，以在用户设备108和提示捕获组件104之间形成用户128和代理124可以通过其通信的数据链路。附加地或者替代地，当代理124使用输入设备148向提示捕获组件104输入对应的命令时，通信会话建立，所述命令引起提示捕获组件104通过电子网络112的方式向用户设备108发送会话请求信号。用户128接受会话请求，以在用户设备108和提示捕获组件104之间形成数据链路。在一些实施例中，诸如在紧急情况下，代理124能够在没有来自用户128的任何动作、输入、同意、或者确认的情况下与用户设备108建立通信会话和数据链路。

当通信会话建立时，化身120典型地被显示在用户设备108的显示屏246上，并且代理124和用户128能够利用全双工数据传送进行口头通信。如在图2中所示出的那样，在会话的开始处，典型地以基本格式显示化身120。在基本格式（其在本文也被称为默认格式和中性格式）中，不使用视觉提示数据184修改化身120。

接下来，在图8的框808中，提示捕获组件104生成代理视频数据180和代理音频数据220。具体地，在关于人类代理124的脸部来训练相机172的情况下，相机172生成代理视频数据180，并且控制器168将代理视频数据180存储在存储器164中。在一个实施例中，代理视频数据180以大约每秒二兆比特（2Mbps）到大约每秒二十兆比特（20Mbps）的比特速率被存储到存储器164。代理视频数据180以任何期望的电子视频格式被保存到存储器164。此外，代理视频数据180在被删除之前在预定的时间段内被保存到存储器164。用于保存代理视频数据180的预定时间段是从五秒到八小时。

相机172典型地被定位成捕获与化身120的可适配视觉提示122相对应的代理124的视频。因此，例如，如果嘴部142是化身120的仅有的可适配的视觉提示122，则仅有代理124的嘴部被包括在代理视频数据180的帧中。然而，如果化身120的视觉提示122包括头发126、眉毛130、眼睛134、鼻子138、和嘴部142，则代理124的头发、眉毛、眼睛、鼻子、以及嘴部被包括在代理视频数据180的帧中。

在通信会话期间，代理音频数据220以压缩文件格式（有损或者无损）被存储到存储器164。示例性格式包括FLAC、MP3和OGG，并且可以使用任何其他文件格式。

接下来，在图8的框812中，视觉提示捕获单元140的编码器176处理代理视频数据180，以基于目前由人类代理124响应于与用户128的通信会话的情境而展现出的表情和情绪来生成视觉提示数据184。编码过程包括使用计算机视觉程序等来自动标识代理视频数据180中人类代理124的视觉提示182。典型地，编码过程仅标识由化身120可适配的代理124的视觉提示182。例如，如果化身120包括可适配的眉毛130和眼睛134，但是不包括可适配的鼻子138，则视觉提示捕获单元140通过生成仅对应于人类代理124的眉毛和眼睛而没有人类代理124的鼻子的视觉提示数据184来节省资源并且高效地操作。

视觉提示数据124包括与化身120的视觉提示122中的至少一些相关的信息，所述视觉提示122是基于通信会话的情境和代理124的目前外观可适配的。如由保存在图6的视觉提示数据中的视觉提示122的列表所标识的那样，在图2至图4中所示出的化身120包括可适配的视觉提示122，包括头发126、眉毛130、眼睛134、鼻子138、嘴部142、头部146、眼睑149、瞳孔150、牙齿162、嘴唇166、以及舌头170。在处理代理视频数据180中，提示捕获组件104针对这些视觉提示122的全部或者子集生成视觉提示数据184。

在示例中，编码器176处理代理视频数据180，并且确定人类代理124具有棕色眉毛并且代理124的左眉毛从第一时间处的第一定位移动到第二时间处的第二定位。对应的视觉提示数据184可以包括例如以下信息：

左眉毛颜色 = 褐色；

在时间1处的左眉毛定位 = 22，35；

在时间1处的左眉毛角度 = 10°；

在时间2处的左眉毛定位 = 22，45；

在时间2处的左眉毛角度 = 10°。

在上面示出的视觉提示数据184用于确定化身120的左眉毛130在两个不同的时间段处的颜色、位置和角度。眉毛130的定位相对于原点（诸如鼻子138）以笛卡尔格式。眉毛130（以及任何其他视觉提示122）的定位可以以相对于任何所选择的点的任何适合的格式提供。由编码器176针对化身120的每个其他视觉提示122生成类似的视觉提示数据184。

在另一个实施例中，代替于生成针对视觉提示122中的每一个的数据，编码器176仅利用一个或多个数据点来“概述”代理124的情绪状态或者表情。例如，编码器176可以确定代理124正展现出总体上“开心”的表情。然后编码器176生成诸如“化身状态=开心”的视觉提示数据184。视觉提示数据184引起化身120具有“开心”的表情，该表情可以或者可以不精确地对应于代理124的外观。该方法甚至进一步减少使化身120感知情境所要求的网络带宽。其他“概述的”表情和情绪包括惊讶、担忧、恐惧、悲伤、和兴奋。

除了基于代理124的面部表情来确定视觉提示数据184之外，视觉提示数据184还可以基于代理124的各种姿势、肢体语言移动和其他非口头通信提示来确定。例如，在处理代理视频数据180中，编码器176被配置为确定代理124何时点头诸如来同意用户128或者确认用户128正在说什么。对应于代理124的点头和代理124的其他头部移动的数据被存储为视觉提示数据184。此外，编码器176确定代理124何时不同意或者不赞同地摇头，并且生成对应的视觉提示数据184。如在下面描述的那样，视觉提示数据184引起化身120展现出与由代理124所展现出的相同和/或类似的姿势和肢体语言。

编码器176还标识代理视频数据180中由代理124做出的手部或者手臂姿势。例如，如果代理124做出“好的”手部姿势，则编码器176生成引起化身120展现出与由代理124所展现出的姿势相同和/或类似的姿势的对应视觉提示数据184。由编码器176可检测的示例性手部姿势包括：利用代理124的一只手或多只手指向特定的方向；利用代理124的手触摸代理124的脸部；利用代理124的手来调整代理124的头发；利用代理124的手做出“竖起拇指”或者“拇指朝下”；挥舞出“你好”或者“再见”；以及举起代理124的手臂。

视觉提示数据184在大小方面比代理视频数据180小若干个数量级。在一个示例中，视觉提示数据184被以大约每秒0.25千字节（0.25kB/秒）的对应代理视频数据180到大约每秒1.0千字节（1kB/秒）的对应代理视频数据180的速率保存到存储器164。

接下来，如在框816中所示出的那样，视觉提示数据184和代理音频数据220从提示捕获组件104被发送到用户设备108，使得用户设备108可以将化身120适配并且改变为对应于人类代理124的情绪和表情，以及对应于通信会话的情境。使用电子网络112将视觉提示数据184连同代理音频数据220一起从提示捕获组件104传输到用户设备108。将视觉提示数据184从提示捕获组件104传送到用户设备108远比将代理视频数据180从提示捕获组件104传送到用户设备108更高效。此外，由于视觉提示数据184和代理音频数据220的小的总体大小，可以通过电网络112在数据传送中有极少的实际滞后或者延迟的情况下将视觉提示数据184和代理音频数据180从提示捕获组件104实时流传送到用户设备108。

在方法800的框820中，基于所接收的视觉提示数据184实时修改化身120的视觉提示122。具体地，在接收到视觉提示数据184之后，用户设备108的控制器258修改、变更或者更新化身数据256以形成经修改的化身数据260。经修改的化身数据260以与代理124的当前表情和情绪相对应的配置来表示化身120。

例如，在第一时间段中，代理124展现出第一面部表情，并且视觉提示数据184对应于第一面部表情。当基于第一时间段的视觉提示数据184修改化身数据256时，经修改的图形化身120展现出第一面部表情。然后在第二时间段期间，视觉提示数据184对应于由代理124做出的与第一面部表情不同的第二面部表情。当基于第二时间段的视觉提示数据184修改化身数据256时，经修改的图形化身120展现出第二面部表情。在该示例中，人类代理124基于人类代理124和用户128之间的对话情境从第一面部表情改变为第二面部表情，并且如显示在显示屏246上的经修改的图形化身120将对话的情境传达给用户128。

修改化身120的视觉提示122使得化身120能够通过对化身120的视觉提示122进行移动、重塑、和重新定位而具有任何人类表情。参照图9，在相对于具有原点的坐标系的七个定位中示出了化身120的左眉毛130。视觉提示数据184控制眉毛130的定位和角度，并且使得眉毛130能够被移动到与代理的左眉毛的定位相对应的定位。三个水平布置的眉毛130被示出为具有不同的水平定位，并且具有相同的角度。四个竖向堆叠的眉毛130具有不同的竖向定位和不同的角度定位。眉毛130的颜色也是由视觉提示数据184来确定的。

在图10中，在相对于具有原点的坐标系的多个定位中示出了化身的左眼134的不同实施例。眼睛134a典型地用于传达开心的表情。眼睛134b典型地用于传达正常的表情。眼睛134c典型地用于传达威严的表情。在化身120的一些实施例中，视觉提示数据184确定眼睑149和瞳孔150的定位和大小。此外，在一些实施例中，视觉提示数据184确定虹膜154的颜色。

在图11中，在相对于坐标系的多个定位中示出了化身的嘴部142的不同实施例。嘴部142a典型地用于传达开心的表情。嘴部142b典型地用于传达正常的表情。嘴部142c典型地用于传达威严的表情。在化身120的一些实施例中，视觉提示数据184确定牙齿162和舌头170的定位和大小。

基于视觉提示数据184修改化身120的嘴部142引起化身120对代理124的语音模式进行模仿，并且使得化身120对于用户128而言看起来更“逼真”。例如，某些语音模式具有可检测为视觉提示数据184的对应嘴部定位，包括张开的嘴部、闭合的嘴部、和撅起的嘴唇（仅举几例）。基于视觉提示数据184，化身120被配置为具有与代理124相同的嘴部配置。作为结果，与如果用户128仅仅听到代理124的声音或者如果用户128查看静态的化身相比，用户128可以更是如此地与化身120联结并且信任化身120。

在图8的流程图的框824中，在用户设备108的控制器258形成经修改的化身数据260之后，控制器258将显示器246配置为以对应于经修改的化身数据260的配置来显示化身120。以代理124的对应面部移动、表情、和姿势来基本上实时地显示化身120。化身120实时地改变使得用户除了来自代理音频数据220的音频提示之外还能够利用视觉提示来理解通信会话的情境。

在图2至图4中示出了基于视觉提示数据184修改的示例性化身120。在图2中的化身120的视觉提示122已经被移动、调整、布置、和/或修改为具有大体上中性或者默认的外观或者表情。如果代理124不是特别表情丰富的，那么化身120可以在通信会话的持续时间内保持在图2中所示出的化身120的一般配置中。

图3中的化身120的视觉提示122已经被移动、调整、布置、和/或修改为具有大体上开心的外观或者表情。在通信会话期间，如果代理124微笑，则她的嘴部、眼睛和眉毛将会移动。这些移动被记录在代理视频数据180中，并且被编码器176检测为视觉提示数据184。视觉提示数据184由用户设备108的控制器258处理，以生成对应的经修改的化身数据260。经修改的化身数据260导致显示屏246上的化身120的外观基于代理124的当前面部表情和通信会话的情境而实时改变。

图4中的化身120的视觉提示122已经被移动、调整、布置、和/或修改为具有大体上威严的外观或者表情。例如，在通信会话期间，如果代理124必须在事故现场处向用户128发布重要的安全命令，那么她的面部特征将自然地移动到严肃且严厉的定位。这些移动被记录在代理视频数据180中，并且被编码器176检测为视觉提示数据184。视觉提示数据184由用户设备108的控制器258处理，以生成对应的经修改的化身数据260。经修改的化身数据260导致显示屏246上的化身120的外观基于代理124的当前面部表情和通信会话的情境而实时改变。

在上述方法800中，用户设备108可以是共享的自主车辆，并且代理124可以向车辆的用户128提供协助。因此，化身系统100将车辆配置为具有智能的驾驶舱和客舱。例如，在通信会话期间，代理124可以通过改变车辆客舱的温度、将车辆的音乐播放器切换到某些音乐选择、适配车辆的驾驶风格、以及改变由车辆采取的目的地或者路线来提供舒适的协助。代理124还可以通过支持危急的健康情况、在碰撞之后通知当局、如果车辆中有火灾则采取适当的动作、以及如果共享车辆的用户之间有冲突则采取适当的动作来在通信会话期间向用户128提供紧急协助。代理124还可以在标准操作或者故障模式期间为用户128提供引导或者指令，例如在抛锚或者车辆的其他故障之后进入客舱或者更换车辆（即，用户设备）。代理124还可以警示用户128空气质量问题或者事项以及在车辆内部丢失或者遗忘的物品。此外，在通信会话期间，代理124还可以协助用户128理解和使用自主车辆的特征。

更进一步地，化身系统100使得代理124能够进行共享自主车辆远程检查。在远程检查中，传感器数据从用户设备108（即，车辆）被发送到提示捕获组件104，以指示车辆中是否有人抽烟了，车辆中是否有过多的湿气或者灰尘，以及车辆是否已被破坏。远程检查还可以包括将用户设备108的视频数据从用户设备108传送到提示捕获组件104。视频数据可以是共享自主车辆的驾驶舱的视频数据，以使得代理124能够标识车辆的问题或者事项。基于远程检查，代理124如果得到许可则可以使车辆停止服务，或者为车辆提供电子指令以将它自己驾驶到维修设施。

在另一个实施例中，化身系统100被配置为个性化用户设备108的用户体验。例如，在通信会话期间，代理124可以确定用户的移动提供商和社交媒体偏好。然后代理124可以定制用户设备108的显示屏，以对应于用户的偏好。还可以基于如在通信会话期间由代理124确定的用户的偏好，在显示屏246上示出适当的基于位置的广告和媒体。

化身系统100是对计算机功能性的改进。化身系统100改进用户108在与远程方（即，代理124）的对话期间用以理解情境细节和其他非口头提示的方式。具体地，化身系统100改进用以将面部表情和视觉提示作为数字数据通过电子网络112传送到用户设备108的方式。如在上面指出的那样，代理视频数据180包括代理124的面部表情和视觉提示182。代理视频数据180可以被传送到用户设备108并且被显示在显示屏246上。然而，非常大的文件大小使得代理视频数据180的传送低效、昂贵、并且复杂。结果是，除非在用户设备108和提示捕获组件104之间建立非常稳定并且高速的连接，否则视频流是不连贯并且成碎片的，使得与代理124的通信困难并且不方便。视觉提示数据184在大小方面比代理视频数据180小若干个数量级，并且传达相同的情绪和情境信息。因此，视觉提示数据184可以被高效、廉价并且简单地传送。化身120被平滑地渲染，并且无缝地且没有不连续性或者碎片地过渡到不同的视觉提示配置。结果是化身系统100的功能性得到改进，这是因为与传送代理视频数据180相比，化身120仅使用一小部分资源来传达代理124的情绪和情境信息。

在化身系统100的其他实施例中，代替于将代理音频数据220传送到用户设备108，用户设备108被配置为输出诸如来自虚拟助理的电子声音。在该实施例中，代理124使用输入设备148来将文本数据键入到提示捕获组件104中。文本数据从提示捕获组件104被传送到用户设备108，并且存储在存储器254中并由控制器258运行的文本到语音程序将文本数据转换成由音频输出单元242输出的音频。与传送代理音频数据220相比，这样的实施例具有进一步减少在通信会话期间传送到用户设备108的电子数据量的优点。

在其他实施例中，代替于3D卡通风格的化身120，化身120是人类的照片写实渲染或者人类的“视觉克隆”。类似地，在其他实施例中，化身120包括全身或者上身（躯干）。此外，化身120可以被显示在显示屏246上、在对应于通信会话情境的所选择的背景图像前面。例如，在协助设置中，背景可以是平静或者放松的图像，并且在紧急设置中，背景可以是明亮并且引人注目的。更进一步地，在一些实施例中，将化身120增强到真实场景中。

如在上面描述的那样，在用户设备108的显示屏246上的化身120的外观至少部分地基于从代理视频数据180生成的视觉提示数据184。在化身系统100的另一个实施例中，视觉提示数据184至少部分地从代理音频数据220生成。在该实施例中，编码器176处理代理音频数据220，以确定当前由代理124展现出的一种情绪或多种情绪，并且然后生成对应的视觉提示数据184。例如，编码器176根据代理的声音的语调来确定代理124是开心的或者兴奋的。然后编码器176生成视觉提示数据184，所述视觉提示数据184引起化身120具有开心或者兴奋的表情。在确定视觉提示数据184中，对代理音频数据220的处理也可以对代理视频数据180的处理进行补充，使得视觉提示数据184是基于代理视频数据180和代理音频数据220这两者生成的。

虽然已经在附图和前面的描述中详细地图示和描述了本公开，但是应当将其在性质上视为说明性的而不是限制性的。应理解的是，仅已呈现了优选实施例，并且期望保护落入本公开精神之内的所有改变、修改和另外的应用。

Claims

1.一种感知情境的图形化身系统，包括：

提示捕获组件，包括：被配置为生成人类代理的代理视频数据的视觉提示捕获单元，以及被配置为处理代理视频数据以生成对应于人类代理的视觉提示的视觉提示数据的视觉提示编码器；以及

用户设备，被配置为接收视觉提示数据，用户设备包括：（i）化身渲染单元，其被配置为基于视觉提示数据修改图形化身，使得图形化身的视觉提示对应于人类代理的视觉提示，以及（ii）显示屏，其被配置为显示经修改的图形化身，以便传达人类代理的视觉提示，

其中与接收并且在用户设备的显示屏上显示代理视频数据相比，所述图形化身系统提高了用以传达人类代理的视觉提示的效率。

2.如权利要求1所述的感知情境的图形化身系统，其中：

提示捕获组件进一步包括被配置为生成代理视频数据的相机和被配置为将人类代理的音频记录为代理音频数据的音频捕获单元，

用户设备被配置为接收代理音频数据，并且

用户设备进一步包括扬声器，所述扬声器被配置为基于代理音频数据生成音频。

3.如权利要求1所述的感知情境的图形化身系统，其中：

提示捕获组件进一步包括第一网络适配器，所述第一网络适配器被配置为通过电子网络的方式传送视觉提示数据，并且

用户设备进一步包括第二网络适配器，所述第二网络适配器被配置为从电子网络接收所传送的视觉提示数据。

4.如权利要求3所述的感知情境的图形化身系统，其中：

通过电子网络的方式传送代理视频数据使用第一网络带宽，

通过电子网络的方式传送视觉提示数据使用第二网络带宽，并且

第二网络带宽比第一网络带宽小。

5.如权利要求1所述的感知情境的图形化身系统，其中不将代理视频数据传送到用户设备。

6.如权利要求5所述的感知情境的图形化身系统，其中提示捕获组件包括存储器，所述存储器被配置为存储代理视频数据和视觉提示数据。

7.如权利要求1所述的感知情境的图形化身系统，其中视觉提示数据包括眉毛数据、眼睛数据、以及嘴部数据中的至少一种。

8.如权利要求7所述的感知情境的图形化身系统，其中：

眼睛数据包括眼睛定位数据、眼睛大小数据、瞳孔数据、以及眼睛颜色数据，并且嘴部数据包括嘴唇数据、舌头数据、以及牙齿数据。

9.如权利要求1所述的感知情境的图形化身系统，其中：

在第一时间段期间的视觉提示数据对应于由人类代理做出的第一面部表情，

在第二时间段期间的视觉提示数据对应于由人类代理做出的第二面部表情，

经修改的图形化身基于第一时间段的视觉提示数据展现出第一面部表情，

经修改的图形化身基于第二时间段的视觉提示数据展现出第二面部表情，并且

第一面部表情与第二面部表情不同。

10.如权利要求9所述的感知情境的图形化身系统，其中：

人类代理基于人类代理和用户设备的用户之间的通信会话的情境而从第一面部表情改变到第二面部表情，并且

如显示在显示屏上的经修改的图形化身向用户传达通信会话的情境。

11.如权利要求1所述的感知情境的图形化身系统，其中用户设备被配置成自主车辆。

12.一种在用户设备上生成并且显示感知情境的图形化身的方法，所述方法包括：

利用提示捕获组件捕获人类代理的代理视频数据；

利用提示捕获组件的视觉提示编码器来对所捕获的代理视频数据进行编码，以生成对应于人类代理的视觉提示的视觉提示数据；

将视觉提示数据从提示捕获组件传送到用户设备，而不将所捕获的代理视频数据传送到用户设备；

利用用户设备的化身渲染单元基于所传送的视觉提示数据来修改图形化身，使得图形化身的视觉提示对应于人类代理的视觉提示；

在用户设备的显示屏上显示经修改的图形化身，以便向用户设备的用户传达人类代理的视觉提示；以及

使用经修改的图形化身将人类代理的视觉提示传达给用户，而不将所捕获的代理视频数据传送到用户设备，从而与接收并且在用户设备的显示屏上显示所捕获的代理视频数据相比，提高了用以传达人类代理的视觉提示的效率。

13.根据权利要求12所述的方法，进一步包括：

利用提示捕获组件的音频捕获单元来记录人类代理的代理音频数据；

将所记录的代理音频数据从提示捕获组件传送到用户设备；以及

利用用户设备的扬声器发出对应于所传送的代理音频数据的音频。

14.根据权利要求13所述的方法，进一步包括：

利用用户设备的麦克风记录用户的用户音频数据；

将所记录的用户音频数据从用户设备传送到提示捕获组件；以及

利用提示捕获组件的扬声器发出对应于所传送的用户音频数据的音频。

15.根据权利要求12所述的方法，进一步包括：

在第一时间段期间生成对应于由人类代理做出的第一面部表情的视觉提示数据；

在第二时间段期间生成对应于由人类代理做出的第二面部表情的视觉提示数据；

基于第一时间段的视觉提示数据修改图形化身以展现出第一面部表情；以及

基于第二时间段的视觉提示数据修改图形化身以展现出第二面部表情，

其中第一面部表情与第二面部表情不同。

16.根据权利要求12所述的方法，进一步包括：

在人类代理做出姿势时生成视觉提示数据；

基于生成的视觉提示数据修改图形化身，以展现出所述姿势；以及

在用户设备的显示屏上显示展现出所述姿势的经修改的图形化身。

17.根据权利要求12所述的方法，其中：

利用提示捕获组件的第一网络适配器通过电子网络的方式传送视觉提示数据；以及

利用用户设备的第二网络适配器接收所传送的视觉提示数据。