CN101854510B

CN101854510B - 提供可视队列的姿势的解释

Info

Publication number: CN101854510B
Application number: CN200910211660.3A
Authority: CN
Inventors: K·L·巴莱特; V·L·艾勒斯; M·米哈祖丁; D·雅兹贝克
Original assignee: Avaya Technology LLC
Current assignee: Avaya Technology LLC
Priority date: 2009-04-01
Filing date: 2009-09-29
Publication date: 2015-01-21
Anticipated expiration: 2029-09-29
Also published as: DE102009043277B4; US20100257462A1; JP2010246085A; JP5548418B2; CN101854510A; GB2469355B; DE102009043277A1; GB0917010D0; GB2469355A

Abstract

本发明提供系统、设备以及方法，用于获取、分析、以及分享通信会话参与者之间的姿势信息。本发明特别适用于在视频通信会话中使用，其中参与者可能想要知道他们的姿势传达给其他参与者的指示。本发明同样可以运用在非视频通信会话中，以将姿势信息以及其他可视指示分享给其他参与者，否则他们不能看到说话/发出动作的参与者。

Description

提供可视队列的姿势的解释

技术领域

本发明一般涉及通信系统，尤其涉及在视频通信中可视队列的检索和利用。

背景技术

在不同文化背景的人们之间经常存在交流隔阂。特别在视频会议期间，一个通信会话的参与者可能不会意识到他们的体态动作/面部姿势正被通信会话的其他参与者以某种方式进行解释。这种意识的普遍缺乏可能是由于该参与者没有意识到他做出了某些姿势或可能是由于该参与者不懂得他们做的特定姿势在另一种文化背景中是怎样解释的。

尽管一般的姿势识别已经取得进展，但是大部分现有的解决方案都有某些局限。例如，美国专利6804396提供了用于识别由移动对象做出的姿势的系统，其整个内容并入到这里作为参考。该系统包括用于检测声音的声音检测器、用于捕捉移动对象的图像的一个或多个图像感应器、用于从由所述一个或多个图像感应器所捕捉的图像识别人的人识别器，以及姿势识别器，其当人的语音被所述声音检测器识别出时启动以识别人的姿势。然而，专利US6804396中的该姿势识别的解决方案相对简单并且在捕捉到姿势信息之后没有非常有效地利用该。

发明内容

因此，需要一种视频会议解决方案，其为一个或多个参与者提供姿势检测和解释并且将这些解释信息向其他参与者和做出动作的参与者发送。尤其需要分发该信息以帮助其他人正确地解释姿势，并且给动作发出者提供用于使他们了解自己姿势和动作的机制。

由本发明的各种实施例和配置解决了这些和其他需求。因此，本发明的一个方面是提供一种消除文化背景和/或交流隔阂的机制，尤其是关于检测并且解释在视频会议上传达的姿势。例如：一个澳大利亚人也许要和日本主管视频通话。众所周知，日本人的面部表情有所不同，所以该日本主管的面部表情也许会展示一些不被该澳大利亚人所领悟的东西，这是因为他们不习惯以那些面部表情蕴含某种意思。本发明的实施例提出了解决这个问题的机制。

根据本发明的至少一些实施例，提供了一种方法。该方法一般包括：

当第一参与者与至少第二个参与者进行通信会话时，接收第一参与者的视频输入；

分析第一参与者的视频输入以分析姿势信息；以及

给进行通信会话的至少一个参与者提供该姿势信息。

尽管该姿势识别机制已经可用了一段时间，但是认为从姿势识别中获得的信息从未被利用来改善人与人的交流。特别地，利用姿势信息来改善电话呼叫、视频呼叫、即时消息通讯、文本消息等期间的通信并没有得到充分的运用。表情符号已在文本通信中使用，其允许用户打出或选择代表他们大致心情的符号，但是并没有从对用户的实际姿势的分析中接收该信息。因此，本发明提供一种在通信会话中利用姿势信息的解决方案。

因此，本发明的一个方面是在通信会话中为一个或多个参与者分析姿势信息。

本发明的另一个方面是为该通信会话的参与者分发这些信息。该信息可以与未发出动作的参与者共享，也可以与发出动作的参与者共享，发出动作的参与者的姿势被分析。

本发明的另一个方面是确定在通信会话参与者之间的通信或潜在的文化背景差异，使得姿势信息在提供给这些参与者之前就能够被正确解释。此外，解释信息能够作为反馈信息提供给发出动作的参与者，从而允许发出动作的参与者自己了解到他们的姿势以及这些姿势可能会给其他通信会话的参与者产生什么影响。

这里用到的术语“自动”及其变体指的是执行该过程或操作时没有有形的人为输入的任意过程或操作。然而，即使执行该过程或操作使用了在过程或操作之前接收的有形的或无形的人为输入，过程或操作也可以是自动的。如果这些输入影响到这一过程或操作的执行，人为输入则被认为是实质的。允许过程或操作执行的人为输入被认为不是“实质的”。

这里用到的术语“计算机可读介质”指的是任意有形的存储和/或传输介质，其参与了将指令提供给处理器来执行的过程。这样的介质可以为多种类型，包括但不限于非易失性介质、易失性介质以及传输介质。例如：非易失性介质包括NVRAM，或磁盘或光盘。易失性介质包括动态内存，例如主内存。计算机可读介质的一般形式包括例如软盘、韧盘、硬盘、磁带或其他任意磁性介质、磁光介质、CD-ROM、其他任意光介质、穿孔卡片、纸带、其他任意带有孔形式的物理介质、RAM、PROM、EPROM、FLASH-EPROM、固态介质如存储卡、其他任意存储芯片或存储盒、如后面描述到的载波、或其他计算机能读出的介质。贴附于电子邮件的数据文件或其他自持信息档案文件或系列档案文件被认为是相当于有形存储介质的分布式介质。当计算机可读介质配置为数据库时，可以理解的是该数据库可以为任意类型的数据库，例如关系、层次、面向对象等诸如此类的。因此，本发明被认为包括有形存储介质或分布式存储介质以及相当于或继承先前技术的介质，本发明的执行软件存储在其中。

在这里使用的术语“确定”、“计算”以及“估计”及其变体，可以互用并且包括任意类型的方法、过程、数学运算或技术。

这里使用的术语“模块”指的是任意现有的或后来发展的硬件、软件、固件、人工智能、模糊逻辑或能够执行与那个要素相关的功能的硬件与软件的结合。同时，尽管本发明根据示例性实施例描述，但是应该理解本发明的每个方面可以单独要求权利。

本发明的发明内容部分已经预先提出了本发明一些方面的介绍。但该发明内容既不是本发明及其各种实施例的总概，也不是穷举。它既不是意图确定本发明的关键要素也不是想要描绘本发明的范围，而是以简单的形式呈现选定的概念，为下面呈现的更详细描述做引导。可以理解，本发明的其他实施例可能单独或结合使用一个或多个上面阐述或随后详述的特征。

附图说明

图1为描述了根据本发明至少一些实施例的通信系统的框图；

图2为描述了根据本发明至少一些实施例的通信系统的框图；

图3为描述了根据本发明至少一些实施例采用的数据结构的框图；以及

图4为描述了根据本发明至少一些实施例的通信方法的流程图；

具体实施方式

通过结合示例性的通信系统，本发明将在下面得到说明。虽然使用例如使用服务器和/或数据库的系统会更合适，但本发明并不限于使用于任何类型的通信系统或系统元件的配置。本领域技术人员将认识到这里公开的技术可以用于任何用来监视或报告通信会话(例如视频会议、文本消息、电话、电子邮件等)参与者解释的通信应用。

本发明的示例性系统和方法同样可以关于通信软件、模块以及相关联的通信硬件进行描述。然而，为了避免不必要地使本发明晦涩，下面的描述略过了众所周知的结构、网络组件以及设备，这些也许在以框图形式示出，也许众所周知或者另外被简介。

出于解释的目的，阐述了许多细节以帮助对本发明的整体理解。但应该理解，除了这里阐述的细节之外，本发明还可以以多种方式实施。

此外，虽然这里描述的示例性实施例示出了该系统配置的各种组件，但是应该理解该系统的各种组件可以放置到分布式网络，例如通信网络和/或互联网的远程部分，或者专用安全的、不安全的和/或加密系统内。因此，可以理解的是，该系统的组件可以结合为一个或多个设备，例如企业服务器、PBX，或者被配置在分布式网络的特定节点上，例如模拟和/或数字网络。从下面描述中将会懂得，以及出于计算效率的原因，该系统的组件可以设置在分布式网络内的任意位置而不影响系统运行。例如，各种组件可以位于本地服务器上、一个或多个用户的场所，或者一些它们的结合。类似地，该系统的一个或多个功能部分可以分布在服务器、网关、PBX和/或相关联的通信设备之间。

首先参考图1，描述了根据本发明至少一些实施例的示例性通信系统100。根据本发明至少一个实施例，通信系统100可以包括一个或多个通信设备108，通信设备108可以通过通信网络104彼此通信。通信设备108可以为任意类型的现有通信或处理设备，例如个人计算机、手提电脑、平板电脑、个人数字助理(PDA)、手机、智能手机、电话或者它们的结合。一般地，每个通信设备108可以适配来支持与其他通信设备108的视频、音频、文本和/或其他数据的通信。

通信网络104可以包括任意类型的信息传输介质并且可以使用任意类型的协议在终端之间传输消息。通信网络104可以包括有线和/或无线的通信技术。通信网络104的一个例子为互联网，其由IP网络构成，IP网络由分布在全世界的许多计算机和其他通信设备，这些通过许多电话系统和其他装置进行连接。通信网络104的另一些例子包括但不限于标准普通老式电话系统(POTS)、综合业务数字网(ISDN)、公共交换电话网络(PSTN)、局域网(LAN)、广域网(WAN)、会话初始协议(SIP)网络，以及其他任意类型的本领域现有的包交换或电路交换网络。此外，可以理解通信网络104不需要局限于任意一种网络类型，而是可以包括许多不同的网络和/或网络类型。

通信系统100也可以包括会议服务器112。会议服务器112可以被提供以进行多方通信会话。例如，会议服务器112可以包括会议桥或混合器，其可以由两个或更多个通信设备108访问。举例来说，通信设备108的用户可以通过拨打到由会议服务器112支持的预定号码来请求会议服务器112的服务。如果请求，用户也可以提供口令或参与者代号。一旦用户已经被会议服务器112验证，那么可以允许用户将他们的通信设备108连接到其他同样被会议服务器112验证的通信设备108。

除了包含一般的会议组件，会议服务器112还可以包括用于分析，解释，和/或将参与者的姿势分发到通信会话中的组件。更具体地，会议服务器112可以包括姿势监视模块和/或行为提示模块，其允许服务器112分析通信会话中各个参与者的姿势并且执行与姿势监视模块和/或行为提示模块的功能性一致的其它任务。会议服务器112可以被用来为通过会议服务器112通信的参与者分析、解释和/或发送姿势信息。

可替换的，没有使用该会议服务器112的通信会话参与者(例如，不需要通过会议服务器112路由选择媒体的点对点通信会话或其他类型通信会话的参与者)可以被允许将姿势信息发送到会议服务器112，在这里姿势信息可以被分析、解释和/或在其他识别出的参与者之间分发。在这个特定的实施例中，即使没有为通信设备108提供设备来分析、解释和/或分发姿势信息也仍然能够利用会议服务器112从本发明的实施例中受益。

现在参考图2，根据本发明的至少一些实施例，示例性的通信设备108将被描述。通信设备108可以包括一个或多个通信应用204，至少其中的一个包括姿势监视模块208。姿势监视模块208可以包括一系列存储在计算机可读介质上的指令，其由处理器执行(没有描述)。姿势模块208可以负责捕捉通信设备208用户的图像，通常为视频帧的形式。当该用户正在与其他用户进行通信会话时(例如：当通信设备108通过通信网络104与至少一个其他通信设备108建立连接时)，姿势监视模块208可用来分析用户的图像信息。在分析图像信息期间，姿势监视模块208可以解释该姿势以获得某些姿势信息。从姿势监视模块208可以获得的姿势信息的类型包括但不限于一般情绪信息(例如：快乐、伤心、发怒、不耐烦、困惑、感兴趣等)以及具体的非言辞通信(例如：通过身体语言和/或面部动作而不是通过口头或打字分享的消息)。

姿势监视模块208可以特别适于通信设备108用户的文化背景。例如，如果通信设备108的用户为澳大利亚人，那么姿势监视模块208可以适于分析某种以澳大利亚为中心的姿势的图像信息。同样地，如果通信设备108的用户为德国人，那么姿势监视模块208可以适于分析姿势的不同子集的图像信息。

姿势监视模块208采用的姿势识别算法类型可以改变并且可以依赖于通信设备108的处理能力。姿势监视模块208可以采用的算法的各种实例描述在一个或多个美国专利5594810，6072494，6256400，6393136以及6804396中，每个都以他们的全部内容作为参考并入到这里。姿势监视模块208采用的算法可以包括分析用户的面部动作、手部动作、身体动作等的算法。这些信息可以与发出动作的参与者的特别文化背景相联系。

通信应用204也可以适于为发出动作的参与者解释/翻译姿势信息以符合其他参与者的文化背景。通信应用204可以包括行为提示模块216，其适于执行解释/翻译姿势信息以及与通信会话的参与者分享这些信息。换句话说，姿势监视模块208可以适用于捕捉图像信息并且从这些图像信息确定姿势信息，然后行为提示模块216可以适用于将姿势信息从发出动作的参与者的文化背景翻译到另一个通信会话参与者所属的文化背景。通过参考参与者数据存储器212辅助翻译，数据存储212保存了发出动作的参与者相关联的文化背景相关的信息。参与者数据存储器212还可以包含与其他通信会话参与者相关联的文化背景相关的信息。保存在参与者数据存储器212中的信息可以在通信会话的初始化中进行建立并且可以被每个参与者获得，从他们关联的通信设备、和/或从包含这些信息的企业数据库中获得。

举例来说，行为提示模块216能够将一个文化背景中的姿势信息的意思映射为另一个文化背景中的姿势信息的意思。这在当发出动作的参与者和视/听参与者所属文化背景明显不同时特别有用。在这些情况下，每个参与者可能没有意识到他们的姿势传递了某种意思给其他参与者。本发明可以利用行为提示模块216来确定特定姿势可能具有的多种意思并且将这些意思与一个、两个、小群或所有参与者共享。这样，发出动作的参与者可以知道他们发送给他们听众的非语言通信并且这些听众可以知道这些非语言通信本来要传达的意思。

根据本发明的至少一些实施例，可以由行为提示模块216自动获得姿势信息的解释。可替换的，或作为补充，行为提示模块216可以适于询问发出动作的参与者以确定他们在通信会话中是否知道他们的非言词消息和/或他们是否想要传送这样的消息(或其他消息)到通信会话的其他参与者。例如，如果发出动作的参与者正在以他们的姿势显示他们愤怒的方式动作，行为提示模块216可以识别出这些姿势以及这种姿势的可能意思。然后行为提示模块216可以询问发出动作的参与者他们是否想要散布该信息到其他参与者或发出动作的参与者是否有任何其他信息想要传送到其他参与者。如果用户的回答肯定他们想要分享这样的信息，那么姿势监视模块208初始识别的姿势信息可以与其他参与者分享。如果发出动作的参与者改变了要与其他参与者分享的消息，那么姿势监视模块208可以根据发出动作的参与者的输入改变与其他参与者分享的姿势信息。

除了包含用于分析、解释和/或在通信会话参与者之间分享姿势信息的模块，通信应用204还包括通信协议220，其由通信应用204使用以通过通信网络104使能够与其他通信设备108通信。

通信设备108可以进一步包括用户输入224、用户输出228、网络接口232、操作系统236以及电源240。操作系统236一般为低层应用，其能够能够导航和使用驻留在通信设备108上的通信应用204以及其他应用。

电源240可以对应于诸如电池或类似物的内置电源。可替换地，或作为补充，电源240可以包括电源转换器，其适于将从电源插座接收的交流电转换为可以被通信设备108所使用的直流电。

网络接口232可以包括但不限于网络接口卡、调制解调器、有线电话端口、串行或并行数据端口、射频广播收发器、USB端口或其他有线或无线的通信网络接口。

用户输入224可以包括，例如：与屏幕或其他位置编码器结合的键盘、数字键区以及指点设备(例如，鼠标、触摸盘、滚球等)。此外，用户输入224可以包括用于捕捉用户的图像的机构。更具体的，用户输入224可以包括镜头或一些其他类型的视频捕捉设备，其适用于捕捉用户的一系列图像。这些信息可以作为对姿势监视模块208的输入而被提供。

用户输出设备228的实例包括字母数字显示器、液晶显示器(LCD)，发光二极管(LED)、等离子显示器、阴极射线管(CRT)屏幕、鸣铃器和/或指示灯。根据本发明的至少一些实施例，可以提供结合了用户输入/输出的设备，比如触摸屏设备。

现在参考图3，描述了根据本发明至少一些实施例的示例性数据结构300。数据结构300可以包括用于存储在分析和解释姿势信息时使用的信息的多个数据字段。数据结构300可以保存在数据存储器212上或任何其他数据存储区域，比如企业数据库。数据结构300可以在通信会话期间或更长时间内保存。例如，数据结构300的一些部分可以在通信会话结束后保存。

数据结构300中可以包括的字段类型包括但不限于设备标识符字段304、用户标识符字段308、用户信息字段312、姿势历史字段316、当前姿势解释字段320以及翻译信息字段324。设备标识符字段304和用户标识符字段308可以分别用于存储设备标识信息和用户标识信息。设备标识符字段304中存储的设备标识符的例子可以包括：互联网协议(IP)地址、介质访问控制(MAC)地址、通用资源标识符(URI)、电话号码、分机或任何其他用于标识通信设备108的机制。同样地，用户标识符可以包括与特定通信设备108关联的用户名字。如本领域技术人员意识到的，多个用户可以与单个通信设备108相关联(例如，在会议呼叫期间，一个会议通信设备108位于存在多个参与者的房间中)。

对于在用户标识符字段308中标识的每个用户，该用户信息可以存储在用户信息字段312中。更具体的，如果用户与一个或多个文化背景关联，那么该信息会保存在用户信息字段312中。例如，用户信息字段312可以为每个用户存储文化背景信息并且进一步可包括用于在通信会话中的用户之间翻译姿势信息的信息。

姿势历史字段316可以包括关于通信会话参与者的先前姿势的信息。该历史姿势信息可以被利用来为特定用户识别以后的姿势。此外，历史姿势信息可以包括对由行为提示模块216生成的询问的用户回应。所有这些信息对于分析该用户的未来姿势信息以及确定是否有必要对他们的姿势信息进行解释都可以是有用的。

当前姿势信息字段320可以包括涉及到对用户动作的当前分析的信息。更具体地，当前姿势信息字段320可以存储在通信会话期间从姿势监视模块208获取的分析结果。

翻译信息字段324可以包括与对用户动作的当前分析相关的翻译信息。此外，翻译信息字段324可以包括用于将姿势信息的意思从一个文化背景映射为另一个文化背景的信息。这样，翻译信息字段324可以存储在通信会话期间从行为提示模块216获得的解释结果和行为提示模块216所使用以获得这些翻译信息的信息。

现在参考图4，将根据本发明的至少一些实施例描述示例性的通信方法。该方法可以在两个或更多个通过通信网络104彼此通信的参与者之间的任意通信会话中采用。例如，通信会话可以包括电话会议或视频会议，其中通信设备108通过通信网络104建立彼此之间的语音/数据通道。作为另一个例子，通信会话可以包括基于文本的通信会话(例如，基于电子邮件的通信会话、即时消息(IM)会话、短消息(SMS)会话等等)，其中一个用户通过通信网络104发送文本消息到另一个用户。图4中示出的通信方法实例的初始为生成文本消息，从而触发对来自发送用户的姿势信息的采样、分析以及可能的解释，并且在消息被发送到目标接收者之前就在该消息中包含这样的姿势信息。

在通信会话期间(或于基于文本的通信会话期间准备基于文本的信息期间)(步骤404)，该通信方法由捕捉来自发出动作的参与者的图像和/或音频信息开始。捕捉的图像和/或音频信息的性质和数量取决于参与者之间的文化背景差异。作为一个例子，如果文化背景差异显著，例如日本参与者和加拿大参与者之间，可能需要捕捉更多的姿势信息，这是因为需要更多的解释，反之，如果文化背景差异较少，例如美国参与者和加拿大参与者之间，可能不需要这么多的解释并且因此可能不必要捕捉这么多的图像和/或音频信息。

在捕捉了来自发出动作的参与者的合适数量和种类的信息之后，该方法继续执行姿势信息监视模块208，分析接收到的信息以分析姿势信息(步骤408)。姿势信息监视模块208可以从特定一组数据中获取多于一个类型的姿势信息。例如，姿势信息监视模块208可以确定发出动作的参与者正在传送特定的表情(例如，困惑)和非言辞信息(例如，“我没有明白，请再说一次”)。因此，两种类型的姿势信息都可以关联到被捕捉的信息和发出动作的参与者。

然后，姿势信息可以传递到行为提示模块216，在这里姿势信息被解释(步骤412)。做出的解释可以根据通信会话参与者之间的文化背景差异而改变。因此，如果通信会话包括三个或更多个各自属于不同文化背景的参与者，那么行为提示模块216可以准备姿势信息的两个或更多个解释。

姿势信息的解释以及可能的原始的姿势信息，然后可以提供给其他的通信会话参与者(步骤416)。通过将这些信息包括到消息本身中或通过与消息分开地发送这些信息，这些信息可以与其他用户共享。这些解释信息然后通过其他参与者的通信设备108被提供给其他参与者。这些信息可以以可听和/或可视的形式提供。举例来说，这些信息可以通过耳语页(whisper page)或一些其他的单独的通信信道提供给其他参与者。作为另一个例子，这些信息可以通过显示姿势信息和/或其解释的图标和/或文本消息提供给其他参与者。

同样地，姿势信息的解释可以提供回给发出动作的参与者(步骤420)。这让发出动作的参与者明白已经与其他参与者分享的解释信息。此外，该反馈让发出动作的参与者确定他们正传达的东西是否为他们想要非言辞地传达的或他们是否偶然传达了他们不想要传达的东西。反馈信息可以与提供这些信息给其他参与者类似的形式而作为可听和/或可视的消息提供。

该方法可以继续执行直到通信会话结束。然而，本领域技术人员可以理解，从一个通信会话中获得的姿势信息可以存储并用在后来的通信会话中。例如，参与者的文化背景信息可以保存在通讯日志中，这样在后来的通信会话期间，它可以被姿势监视模块208和/或行为提示模块216存取。

虽然上述流程已经以特定的事件顺序描述，但是应该理解该顺序可以改变而不会在本质上影响本发明的运行。此外，在该示例性实施例中，并不需要严格的事件顺序。这里示出的该示例性技术并不局限于具体示出的实施例，而是同样可以用于其他示例性实施例，并且每个描述的特征都可以单独地或分开地出现在权利要求中。

本发明的系统、方法、协议可以被专用计算机实现，专用计算机作为已描述的通信装置、可编程微处理器或微控制器以及外围集成电路元件、ASIC或其他集成电路、数字信号处理器、硬连线电子电路或例如离散元件电路的逻辑电路、诸如PLD、PLA、FPGA、PAL的可编程逻辑设备、诸如电话的通信设备、任意类似装置等的补充或替代。一般地，任何能够实现能够依次实现这里示出的方法的状态机的设备都可以用来实现根据本发明的各种通信方法、协议和技术。

此外，公开的方法可以容易地在使用对象或面向对象的软件开发环境的软件中实现，该软件开发环境提供可以被各种计算机或工作站平台使用可移动的源代码。可替换的，该公开的系统可以部分或全部地在使用标准逻辑电路或VLSI设计的硬件中实现。使用软件还是硬件来实现根据本发明的系统取决于该系统要求的速度和/或效率、特殊功能、使用的特殊软件或硬件系统或微处理器或微型计算机系统。这里示出的通信系统、方法和协议可以很容易地由该应用领域的普通技术人员通过这里提供的功能描述以及结合计算机和通信领域一般的基本知识，使用任何现有的或随后开发的系统或结构、设备和/或软件，在硬件或软件中实现。

此外，该公开的方法可以很容易地由软件实现，该软件可以存储在存储介质中，并在已编程的带有协作的处理器和内存的通用计算机、专用计算机、微处理器等上执行。在这些实例中，本发明的系统和方法可以作为诸如applet、JAVA或CGI脚本的嵌入到个人计算机上的程序、作为位于服务器或计算工作站上的资源、作为嵌入到专用通信系统或系统组件上的程序等来实现。该系统同样可以通过物理结合系统和/或方法到软件和/或硬件系统中实现，例如通信设备或系统的硬件和/或软件系统。

因此，很显然的是，根据本发明提供的系统、设备和方法可使得通信功能设备彼此通信并且建立共享功能。虽然本发明已经结合许多实施例进行了描述，但是显然，对该应用领域普通技术人员来说，许多替换、修改或变形是显而易见的。因此，这些替换、修改、等同和变形将包含在本发明的精神和范围之内。

Claims

1.一种用于在视频通信中提供姿势信息的方法，包括：

当第一参与者与至少第二参与者进行通信会话时，接收第一参与者的视频输入；

分析第一参与者的视频输入以分析姿势信息，其中该姿势信息包含含义；

选择至少一个非言辞消息，其中所述至少一个非言辞消息表示所述姿势信息的所述含义；

将所述姿势信息与所述至少一个非言辞消息相关联；

向所述第一参与者询问他们是否想要与第二参与者共享所述至少一个非言辞消息；以及

响应于接收到对所述询问的肯定答复，将所述至少一个非言辞消息提供给所述第二参与者。

2.如权利要求1的方法，进一步包括：

解释该姿势信息以识别所述至少一个非言辞消息，所述解释基于至少第二参与者的已知文化背景；

将该姿势信息的解释与该姿势信息相关联；

将该姿势信息的解释提供给所述第一参与者；以及

其中，通过与第一参与者关联的图形用户界面以及可听机构中的至少一个将该姿势信息的解释提供给该第一参与者。

3.如权利要求2的方法，其中解释步骤包括：

确定与该至少第二参与者相关联的文化背景；

将从视频输入接收到的姿势信息映射至针对与该至少第二参与者相关联的文化背景的选择的姿势信息；以及

其中该姿势信息的解释包括该映射信息和该选择的姿势信息。

4.如权利要求2的方法，进一步包括：

基于所述第一参与者的已知文化背景确定该姿势信息的可能含义；

将该姿势信息的可能含义与该姿势信息相关联；

将该姿势信息以及该姿势信息的可能含义提供给至少第二参与者；

其中，确定该姿势信息的可能含义包括：

确定与该第一参与者相关联的文化背景；

将从视频输入接收到的姿势信息映射至针对与该第一参与者相关联的文化背景的选择的姿势信息；以及

5.一种通信设备，包括：

用户输入，可操作以在与至少第二参与者的通信会话期间捕捉第一参与者的视频图像；以及

姿势监视模块，可操作以分析第一参与者的所捕捉到的视频图像以分析姿势信息，其中该姿势信息包含含义；和

行为提示模块，被配置为选择至少一个非言辞消息，其中所述至少一个非言辞消息表示所述姿势信息的所述含义，将所述姿势信息与所述至少一个非言辞消息相关联，向所述第一参与者询问他们是否想要与第二参与者共享所述至少一个非言辞消息，以及响应于从第一参与者接收到对所述询问的肯定答复，指示所述姿势监视模式在所述通信会话期间将所述至少一个非言辞消息提供给所述第二参与者。

6.如权利要求5的通信设备，其中所述行为提示模块进一步可操作以解释该姿势信息以识别所述至少一个非言辞消息，所述解释基于至少第二参与者的已知文化背景，并且其中所述行为提示模块进一步被配置为将该姿势信息的解释与该姿势信息相关联；

并且所述通信设备进一步包括用户输出，可操作以将该姿势信息以及该姿势信息的解释提供给该第一参与者；以及

其中，该用户输出包括图形用户界面，其中所述询问是基于文本的询问，其中所述至少一个非言辞消息包括基于文本的消息，并且其中所述通信会话包括基于文本的通信会话。

7.如权利要求6的通信设备，进一步包括参与者数据存储器，其中该行为提示模块可操作以参考该参与者数据存储器以确定与该至少第二参与者相关联的文化背景，并且然后将从视频图像接收到的姿势信息映射至针对与该至少第二参与者相关联的文化背景的选择的姿势信息，并且然后将该映射信息和该选择的姿势信息包括到该姿势信息的解释中。

8.如权利要求5的通信设备，其中所述行为提示模块进一步被配置为基于第一参与者的已知文化背景确定该姿势信息的可能含义，将该姿势信息的可能含义与该姿势信息相关联，并且然后在所述至少一个非言辞消息中提供姿势信息以及该姿势信息的可能含义。

9.如权利要求8的通信设备，包括参与者数据存储器，其中该行为提示模块可操作以参考该参与者数据存储器以确定与该第一参与者相关联的文化背景，将从视频输入接收到的姿势信息映射至针对与该第一参与者相关联的文化背景的选择的姿势信息，然后将该映射信息和该选择的姿势信息包括到所述至少一个非言辞消息中。

10.如权利要求9的通信设备，其中所述询问和所述至少一个非言辞消息包括基于文本的消息。