CN112348734B

CN112348734B - 使用ai引导操纵的视频优化交互结果

Info

Publication number: CN112348734B
Application number: CN202010788167.4A
Authority: CN
Inventors: V·C·马图拉; P·Y·德奥勒; S·乔普德卡; S·V·德沙姆卡
Original assignee: Avaya Inc
Current assignee: Avaya Inc
Priority date: 2019-08-08
Filing date: 2020-08-07
Publication date: 2024-04-05
Anticipated expiration: 2040-08-07
Also published as: US11182595B2; CN112348734A; EP3772850A1; US20210042508A1

Abstract

本发明涉及使用AI引导操纵的视频优化交互结果。对人类的视频图像的实时修改允许对视频进行修改，使得可以改变主体人的表情。如果客户服务代理显示适当的面部表情，例如提供特定的情绪状态，则客户服务代理可以具有与客户更成功的交互。通过确定适当的面部表情以及与客户服务代理当的前表情的任何偏差，可以确定并应用对客户服务代理的视频图像的修改。结果，代理可以没有最适合成功解决交互目的的面部表情，以向客户呈现最适合的面部表情。

Description

使用AI引导操纵的视频优化交互结果

技术领域

本发明总体上涉及用于视频图像处理的系统和方法，尤其涉及更改视频图像中的人类的表情。

背景技术

客户服务代理的视频图像提供了让客户看到代理的能力，并且可以促进他们之间的更好交互以解决特定问题。已经知道的是，人类的举止(包括面部表情)会积极或消极地影响交互的结果。当前，对代理进行辅导和培训以提供适当的面部表情，从而驱动交互的可能最佳结果——他们是否知道要做什么，以及他们是否心情良好。培训、通话之前的辅导以及“通话中”的实时提示/辅导可能会有所帮助，但它们仍然依赖于代理将这些指示转换为适当的面部表情的能力。虽然可以使用可被编程为提供期望的准确面部表情的头像(avatar)，但是头像不传达真人的个人形象。当客户与代理的头像交互时，交互可能无法提供客户看到代理的期望益处。

发明内容

人们利用视觉来接收关于我们与之交互的其他人的非语音信息。如果一个人的话语与他们的表情不匹配，则此人可能会被认为是不值得信任的或不真诚的。由于不幸的事件错过了航班的旅行者可能会与代理联系以重新预订他们的旅行。如果代理尽管提供了安慰和理解的话，但仍在微笑或表情中性，则客户可能会得出结论：这些话仅仅是说说而已，这些话背后没有任何的诚意。相反，如果代理的表情是惊讶或担忧之一，所说的话可能会被赋予更多的诚意。然而，如果合适，相冲突的说话内容和表情可能并不总是导致负面的看法，例如，微笑着说“对不起，但请别担心，我会让您登上下一趟航班”的代理可能获得被感觉为友好和支持性的益处，以及消除非常有可能对旅行者造成压力的情景。但是，表情可能只是程度的问题。咧嘴大笑可能被感觉为被旅行者的困境逗乐，或者被相机未捕捉到的有趣事物分散了注意力，但稍微微笑可能被更好地感觉为让人感到放心和友好。然而，如果表情最初是惊喜/担忧之一，然后是轻轻微笑，那么这将提供最佳效果，因为客户会了解到代理对客户陷入的这个情况感到同情。

通过本发明的各种实施例和配置满足了这些和其他需求。取决于特定配置，本发明可以提供许多优点。这些和其他优点将从本文包含的本发明的公开内容显而易见。

在一个实施例中，提供了面部变换技术(FTT)以操纵呈现给观看视频的客户或其他方的代理面部的视频图像，从而改善客户感知并改善交互的结果。

在另一个实施例中，提供了人类标记和/或机器观察，以在交互期间进行观察，从而注意代理何时使用特定表情(例如，微笑、眉弓、关心的注视等)，以及通话的状态和情景(例如，主题、交互时间、语音中的情感、情感轨迹、已交换或将要交换的信息)和交互或交互的子阶段的结果，以创建/修改培训数据库。然后，使用机器学习来识别在通话的状态和/或情景下最好的结果和相关联的表情，以确定表情的最佳实践，以便优化未来的交互。在另一个实施例中，提供了一种实时的系统，该系统使用机器学习确定的最佳实践和/或其他输入来在交互期间操纵视频流中的代理面部，以便更改或进一步确保交互的结果。

在另一个实施例中，可以将交互配对并提供不同的视频修改，并且对交互的结果进行评估以进一步优化交互并识别哪些修改是成功的和/或某些修改在什么时候是成功的。

在另一个实施例中，可以记录实际的代理表情和人工覆盖，例如在质量管理和审查过程中使用。在另一个实施例中，可以应用诸如颜色代码之类的代码以便容易对质量管理记录(例如表示何时使用或不使用某种操纵的记录)进行分类。

在一个实施例中，公开了一种用于在视频图像中提供与情境匹配的表情的系统，该系统包括：通信接口，被配置为接收经由网络与客户进行交互的人类代理的视频图像，所述客户使用客户通信设备；具有可访问存储器的处理器；数据存储装置，被配置为维护所述处理器可访问的数据记录；以及所述处理器被配置为：接收所述人类代理的视频图像；确定所述人类代理的期望的面部表情；将所述人类代理的视频图像修改为包含所述期望的面部表情；以及向所述客户通信设备呈现所述人类代理的经修改的视频图像。

在另一实施例中，公开了一种方法，其包括：接收经由网络与客户进行交互的人类代理的视频图像，所述客户使用客户通信设备；确定所述人类代理的期望的面部表情；将所述人类代理的视频图像修改为包含所述期望的面部表情；以及向所述客户通信设备呈现所述人类代理的经修改的视频图像。

在另一个实施例中，公开了一种系统，其包括：用于接收与客户经由网络进行交互的人类代理的视频图像的单元，所述客户通过相关联的客户通信设备；用于确定所述人类代理的期望的面部表情的单元，其中所述期望的面部表情是根据与所述交互的属性和具有该属性的过往交互的成功结果而选择的；用于将所述人类代理的视频图像修改为包含所述期望的面部表情的单元；以及用于向所述客户通信设备呈现所述人类代理的经修改的视频图像的单元。

短语“至少一个”、“一个或多个”、“或”和“和/或”是在操作中既连接又拆分的开放式表达。例如，表述“A、B和C中的至少一个”、“A、B或C中的至少一个”、“A、B和C中的一个或多个”、“A、B或C中的一个或多个”、“A、B和/或C”以及“A、B或C”均意味着仅A、仅B、仅C、A和B一起、A和C一起、B和C一起或者A、B和C一起。

术语“一个”实体是指该实体的一个或多个。由此，术语“一个”、“一个或多个”和“至少一个”在本文中可以互换使用。还应当注意的是，术语“包括”、“包含”和“具有”可以互换使用。

如本文中所使用的，术语“自动”及其变型是指通常连续或半连续的、当处理或操作被执行时无需实质性的人类输入就完成的任何处理或操作。但是，即使处理或操作的执行使用了实质性或非实质性的人类输入，如果该输入是在执行处理或操作之前接收到的，那么该处理或操作也可以是自动的。如果人类输入影响处理或操作将如何执行，那么这种输入被认为是实质性的。同意处理或操作的执行的人类输入不被认为是“实质性的”。

本公开的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或者组合软件和硬件方面的实施例的形式，这些在本文中全都可以一般地称为“电路”、“模块”或“系统”。可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。

计算机可读存储介质可以是例如但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或者前述的任意合适组合。计算机可读存储介质的更具体的示例(非穷举列表)将包括以下：具有一根或多根导线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备，或者前述的任意合适组合。在本文档的上下文中，计算机可读存储介质可以是可包含或存储由指令执行系统、装置或设备使用或与其结合使用的程序的任何有形、非瞬态介质。

计算机可读信号介质可以包括含有计算机可读程序代码的传播数据信号(例如，在基带中或者作为载波一部分)。这种传播信号可以采用多种形式中的任意一种，包括但不限于电磁信号、光信号或其任意合适组合。计算机可读信号介质还可以是非计算机可读存储介质并且可以传送、传播或传输由指令执行系统、装置或设备使用或者与其结合使用的程序的任何计算机可读介质。计算机可读介质上包含的程序代码可以使用任何适当的介质来发送，包括但不限于无线、有线、光缆、RF等，或者前述的任意合适组合。

如本文所使用的，术语“确定”、“计算”及其变型可互换地使用，并且包括任何类型的方法、处理、数学运算或技术。

如本文所使用的，术语“单元”将根据35U.S.C.第112(f)节和/或第112节第6段给予其最宽泛可能的解释。因而，包含术语“单元”的权利要求应覆盖本文阐述的所有结构、材料或动作及其所有等同物。另外，结构、材料或动作及其等同物应包括发明内容、附图说明、具体实施方式、说明书摘要和权利要求本身中描述的所有内容。

前面是提供对本发明的一些方面的理解的本发明的简化总结。这个总结既不是对本发明及其各种实施例的广泛的概述也不是穷举的概述。本发明既不旨在识别本发明的关键或决定性要素，也不旨在描绘本发明的范围，而是以简化的形式呈现本发明的选定概念作为对以下呈现的更详细描述的介绍。如将认识到的，本发明的其它实施例有可能单独或组合地使用一个或多个上面阐述或下面详细描述的特征。而且，虽然本公开是以示例性实施例的形式呈现的，但应当认识到的是，本公开的各个方面可以分别要求保护。

附图说明

本公开结合以下附图描述的：

图1描绘了根据本公开的实施例的第一系统；

图2描绘了根据本公开的实施例的视频图像操纵；

图3描绘了根据本公开的实施例的第二系统；

图4描绘了根据本公开的实施例的第一数据结构；

图5描绘了根据本公开的实施例的第二数据结构；

图6描绘了根据本公开的实施例的过程；以及

图7描绘了根据本公开的实施例的第三系统。

具体实施方式

随后的描述仅提供实施例，并且不旨在限制权利要求的范围、适用性或配置。更确切地说，随后的描述将为本领域技术人员提供用于实现实施例的可行描述。应该理解的是，在不脱离所附权利要求的精神和范围的情况下，可以对要素的功能和布置进行各种改变。

当以复数使用时，对包括要素编号而没有子要素标识符(当图中存在子要素标识符时)的描述的任何引用意图指具有相同要素编号的任何两个或更多个要素。当以单数形式进行这种引用时，旨在引用具有相同要素编号的要素之一而不限于具体的一个要素。本文中对相反的任何明确使用或提供进一步的资格或标识应优先。

本公开的示例性系统和方法还将针对分析软件、模块和相关联的分析硬件来描述。但是，为了避免不必要地模糊本公开，以下描述省略了众所周知的结构、部件和设备，其可以在附图中以简化的形式省略或示出或以其它方式概括。

如本文所使用的，术语“视频”或“视频图像”是指在一段时间内捕获的图像。更具体地，视频图像包括在图像的第二部分之前捕获的图像的第一部分，以便捕获运动或场景中的其他变化，而不管运动或场景中的变化是否发生。视频图像可以包括完整的帧或帧的部分(例如，隔行扫描或逐行扫描的部分)的形式的时间相关部分。视频图像的进一步区别在于用于将捕获的图像转换为文件以便存储和/或传输的编码。视频编码的示例包括但不限于AVI和MPEG-4，。

出于解释的目的，阐述了许多细节以便提供对本公开的透彻理解。但是，应该理解，本公开可以以超出本文阐述的具体细节的各种方式实施。

现在参考图1，根据本公开的至少一些实施例讨论通信系统100。通信系统100可以是分布式系统，并且在一些实施例中，包括将一个或多个通信设备108连接到工作分配机制116的通信网络104，工作分配机制116可以由管理联络中心102的企业拥有和操作，其中多个资源112是分布式的，以处置来自客户通信设备108的传入工作项(以联络的形式)。

联络中心102可以以各种方式实施为通过一个或多个资源112接收和/或发送消息，这些消息可以是工作项以及工作项的处理和管理(例如，调度、分配、路由、生成、计费、接收、监视、查看)或与工作项以及工作项的处理和管理相关联。工作项一般是针对处理资源112生成和/或接收的请求，该请求被实施为以电子和/或电磁方式传送的消息或其部分。联络中心102可以包括比所示更多或更少的部件和/或提供比所示更多或更少的服务。指示联络中心102的边界可以是物理边界(例如，建筑物、校园，等等)、合法边界(例如，公司、企业，等等)和/或逻辑边界(例如，对于联络中心102的客户，是用于向客户提供服务的资源112)。

此外，所示出的联络中心102的边界可以如图所示或者，在其它实施例中，包括与所示出的更改和/或更多和/或更少的部件。例如，在其它实施例中，资源112、客户数据库118和/或其它部件中的一个或多个可以经由通信网络104连接到路由引擎132，诸如当这些部件经由公共网络(例如，互联网)连接时。在另一个实施例中，通信网络104可以是至少部分公共网络(例如，VPN)的私有利用；至少部分地位于联络中心102内的专用网络；或者可以用于提供本文所述的部件的电子通信的私有和公共网络的混合。此外，应当认识到，被示为在外部的部件(诸如社交媒体服务器130和/或其它外部数据源134)可以物理上和/或逻辑上在联络中心102内，但出于其它目的仍被视为在外部。例如，联络中心102可以操作社交媒体服务器130(例如，可操作为从客户和/或资源112接收用户消息的网站)作为经由客户的客户通信设备108与客户交互的一种手段。

客户通信设备108被实施为在联络中心102的外部，因为它们处于其各自的用户或客户的更直接控制之下。但是，可以提供实施例，其中一个或多个客户通信设备108在物理上和/或逻辑上位于联络中心102内并且仍然被认为是在联络中心102的外部，诸如当客户在电话亭使用客户通信设备108并且附连到在联络中心102内或由联络中心102控制的联络中心102的专用网络(例如，到电话亭的WiFi连接，等等)。

应当认识到，联络中心102的描述提供了至少一个实施例，其中可以更容易地理解以下实施例而不限制这种实施例。在不脱离本文描述的任何实施例的范围并且不限制实施例或权利要求的范围的情况下，可以进一步更改、添加和/或减少联络中心102，除非明确规定。

此外，联络中心102可以结合和/或利用社交媒体网站130，并且/或者其它外部数据源134可以用于为资源112提供接收和/或检索联络信息并连接到联络中心102的客户的一种手段。其它外部数据源134可以包括诸如服务局、第三方数据提供商(例如，信用代理商、公共和/或私有记录等)之类的数据源。客户可以利用他们各自的客户通信设备108来利用社交媒体服务器130发送/接收通信。

根据本公开的至少一些实施例，通信网络104可以包括任何类型的已知通信介质或通信介质集合，并且可以使用任何类型的协议来在端点之间传输电子消息。通信网络104可以包括有线和/或无线通信技术。互联网是通信网络104的示例，其构成由通过许多电话系统和其它手段连接的许多计算机、计算网络和位于世界各地的其它通信设备组成的互联网协议(IP)网络。通信网络104的其它示例包括但不限于标准普通老式电话系统(POTS)、综合业务数字网(ISDN)、公共交换电话网(PSTN)、局域网(LAN)、广域网络(WAN)、会话发起协议(SIP)网络、IP语音(VoIP)网络、蜂窝网络以及本领域中已知的任何其它类型的分组交换或电路交换网络。此外，可以认识到，通信网络104不需要限于任何一种网络类型，而是可以包括许多不同的网络和/或网络类型。作为一个示例，可以利用本公开的实施例来提高基于网格的联络中心102的效率。在授予Steiner的美国专利公开No.2010/0296417中更全面地描述了基于栅格的联络中心102的示例，其全部内容通过引用并入本文。而且，通信网络104可以包括多种不同的通信介质，诸如同轴电缆、铜缆/电线、光纤电缆、用于发送/接收无线消息的天线，以及它们的组合。

通信设备108可以与客户通信设备对应。根据本公开的至少一些实施例，客户可以利用他们的通信设备108来发起工作项。例示性的工作项包括但不限于指向联络中心102并在联络中心102处接收的联络、指向服务器农场(例如、服务器集合)并在服务器农场处接收的网页请求、媒体请求、应用请求(例如，对远程应用服务器(诸如SIP应用服务器)上的应用资源位置的请求)等。工作项可以是通过通信网络104发送的消息或消息集合的形式。例如，工作项可以作为电话呼叫、分组或分组集合(例如，通过IP网络发送的IP分组)、电子邮件消息、即时消息、SMS消息、传真及其组合来发送。在一些实施例中，通信可以不必针对工作分配机制116，而是可以在通信网络104中的某个其它服务器(诸如社交媒体服务器130)上，在那里，工作分配机制116收集通信并生成关于所收集的通信的工作项。这种收集的通信的示例包括由工作分配机制116从社交媒体网络或服务器130收集的社交媒体通信。用于收集社交媒体通信并基于其生成工作项的示例性体系架构分别在2010年3月20日、2010年2月17日和2010年2月17日提交的美国专利申请No.12/784,369、12/706,942和12/707,277中得到描述，这些申请的全部内容都通过引用并入本文。

工作项的格式可以取决于通信设备108的能力和通信的格式。特别地，工作项是与为在联络中心102(以及更具体而言，工作分配机制116)处接收的通信提供服务有关的待执行工作在联络中心102内的逻辑表示。可以在工作分配机制116、连接到工作分配机制116的交换机或服务器等处接收和维护通信，直到资源112被分配给表示那个通信的工作项。在这个时候，工作分配机制116将工作项传递到路由引擎132以使发起了通信的通信设备108与所分配的资源112连接。

虽然路由引擎132被描绘为与工作分配机制116分离，但是路由引擎132可以被结合到工作分配机制116中，或者其功能可以由工作分配引擎120执行。

根据本公开的至少一些实施例，通信设备108可以包括任何类型的已知通信装备或通信装备集合。合适的通信设备108的示例包括但不限于个人计算机、膝上型计算机、个人数字助理(PDA)、蜂窝电话、智能电话、电话或其组合。一般而言，每个通信设备108可以适于支持与其它通信设备108和处理资源112的视频、音频、文本和/或数据通信。通信设备108用于与其它通信设备108或处理资源112通信的介质类型可以取决于通信设备108上可用的通信应用。

根据本公开的至少一些实施例，经由工作分配机制116和路由引擎132的联合努力将工作项送往处理资源112的集合。资源112可以是完全自动化的资源(例如，交互式语音响应(IVR)单元、微处理器、服务器等)，利用通信设备的人类资源(例如，利用计算机、电话、膝上型计算机等的人类代理等)，或联络中心102中已知使用的任何其它资源。

如上面所讨论的，工作分配机制116和资源112可以由联络中心102格式的公共实体拥有和操作。在一些实施例中，工作分配机制116可以由多个企业管理，每个企业具有连接到工作分配机制116的其自己的专用资源112。

在一些实施例中，工作分配机制116包括工作分配引擎120，工作分配引擎120使得工作分配机制116能够做出对于工作项的智能路由决策。在一些实施例中，工作分配引擎120被配置为在无队列的联络中心102中管理和做出工作分配决策，如美国专利申请序列No.12/882,950中所述的那样，其全部内容通过引用并入本文。在其它实施例中，工作分配引擎120可以被配置为在传统的基于队列(或基于技能)的联络中心102中执行工作分配决策。

工作分配引擎120及其各种部件可以驻留在工作分配机制116中或者在多个不同的服务器或处理设备中。在一些实施例中，可以采用基于云的计算体系架构，由此工作分配机制116的一个或多个部件在云或网络中可用，使得它们可以是多个不同用户之间的共享资源。工作分配机制116可以访问客户数据库118，诸如为了检索联络中心102已知的客户的记录、简档、购买历史、先前的工作项和/或其它方面。可以响应于工作项和/或处理工作项的资源112的输入来更新客户数据库118。

应当认识到，除了完全在本地的实施例之外，联络中心102的一个或多个部件可以全部或部分(例如，混合)地在基于云的体系架构中实现。在一个实施例中，客户通信设备108经由完全由基于云的服务提供商托管的部件连接到资源112之一，其中处理和数据存储元件可以专用于联络中心102的运营商或者在多个服务提供商客户之间共享或分布，其中一个服务提供商客户是联络中心102。

在一个实施例中，消息由客户通信设备108生成并经由通信网络104在工作分配机制116处被接收。由联络中心102诸如在工作分配机制116处接收的消息一般在本文中被称为“联络信息”。路由引擎132将联络信息路由到资源112中的至少一个以便处理。

图2描绘了根据本公开的实施例的视频图像操纵200。在一个实施例中，原始视频图像202包括在与客户(诸如使用体现为呈现视频图像的客户通信设备108的客户)的交互期间由照相机捕获的人类代理的图像。如将针对随后的实施例更全面地讨论的，处理器接收原始视频图像202，并且在确定原始视频图像202中呈现的人类代理的表情与期望的表情之间不匹配后，对原始视频图像202应用修改，以使其成为修改的视频图像204，修改的视频图像204经由客户的客户通信设备108向客户呈现人类代理的图像，并且原始视频图像202不被提供给客户通信设备108。

由于注意力分散(例如，思考午餐)、身体上的限制、培训不当、与客户的任务误解或其他原因，诸如代理的人类可能没有提供期望的面部表情。当使用视频时，这可能会令人反感，并减少了交互获得成功结果的机会。如果向客户呈现具有已为了增加交互成功(这可能是与交互相关联的工作项的原因)而确定的表情的代理的图像，则这可以改善交互的结果。

操纵实时的视频图像(例如原始视频图像202)成为修改的视频图像204的系统和方法现在更加广泛可用。当在具有配备足够处理能力的处理器、存储器和带宽的计算系统上使用时，操纵静态图像的有点老的技术可以操纵视频图像的各个帧以创建期望的经操纵的图像。在一个实施例中，当期望操纵时，诸如通过以电子的方式向图像应用标记210(例如，点)，对人类代理的面部进行映射，则具有由标记210识别的顶点的多边形的几何形状可以被更改，并且原始视频图像202的在该多边形中的图像部分可以被调整(例如，拉伸、缩小等)，以填充修改后的多边形的图像，并成为修改的视频图像204的至少一部分。例如，多边形206A被整形为多边形206B，并且原始图像202的在多边形206A内捕获的部分被修改为填充多边形206B。

操纵人类代理的面部的图像可以考虑图像的某些或全部期望的改变。也可以应用对代理的面部的改变。例如，可以添加微笑线208。附加地或替代地，图形元素可以被去除，诸如当代理在微笑时(例如，具有微笑线)，并且修改的图像将使该代理显得更严肃，并且去除了微笑线，等等。这种图形元素可以被存储为图像，诸如提供许多要映射到多边形(例如多边形206A)的面部表情和/或通过算法确定的操纵(例如，需要将多边形206A修改为多边形206B，有选择地施加阴影以创建微笑线208，等等)的代理的静态图像或视频图像。对于人类代理和客户通信设备108之间的交互，可以至少部分地通过客户通信设备108的可用带宽和/或属性来做出对特定操纵技术的选择。例如，如果客户正在低分辨率屏幕(例如，蜂窝电话)上观看视频，则可以省略更细微的表情变化，因此呈现给客户的分辨率由于小屏幕尺寸或包含在低带宽视频中的数据而可能无法呈现这种细微的图像成分。相比之下，使用高分辨率/高带宽连接的客户可能被呈现包含对于原始视频图像202的更多操纵的修改图像204。

图3描绘了根据本公开的实施例的系统300。在一个实施例中，客户302和人类代理310进行至少包括人类代理310的实时视频图像的交互。当进一步体现为人类正在利用代理通信设备306时，人类代理310可以体现为资源112。交互还可以包括来自人类代理310、客户302或这两者的音频(例如，语音)、文本消息、电子邮件、共同浏览等。人类代理310具有当前的面部表情。服务器304包括具有存储器的至少一个处理器，并且进一步包括或诸如经由通信接口访问数据存储库314。服务器304可以经由代理通信设备306的照相机308接收实时视频图像，并监视客户302与人类代理310之间的交互。服务器304可以确定人类代理310的期望的面部表情。期望的面部表情可以包括被确定为指示期望的情绪状态的面部表情，该期望的情绪状态先前已经被识别为导致成功完成交互的更大可能性。例如，服务器304可以确定期望的面部表情包括微笑。如果服务器304确定不存在不匹配(例如，人类代理310在微笑并且期望的面部表情也是微笑)，则服务器304可以提供视频图像320中呈现的人类代理310的未修改的原始图像。但是，如果服务器304确定在人类代理310的面部表情与期望的面部表情之间存在不匹配，则服务器304可以访问数据结构316并选择替换图像318。

本领域普通技术人员应该理解，为了使实施例更容易理解并且避免不必要地使附图和说明书复杂化，包括替换图像318的数据结构316被例示为具有图形上不同的面部表情。诸如针对每个期望的面部表情，数据结构316可以包括许多记录，例如替换图像318，其可以进一步体现为计算机可读数据结构和/或对图像或其部分的算法修改，包括但不限于映射到人类代理310的图像的一部分的多边形标识符和/或应用于映射到人类代理310的面部的多边形的操纵、要添加和/或去除的图形元素(例如，微笑线)、用于重新定位与多边形顶点相关联的标记的向量和/或其他图形图像操作数据/指令。结果，服务器304可以选择期望的面部表情并将替换图像318应用于人工代理310的实时图像，以使得将呈现的人工代理310的视频图像320如操纵的那样具有至少部分由替代图像318确定的面部表情。

图4描绘了根据本公开的实施例的数据结构400。在一个实施例中，服务器304的至少一个处理器利用数据结构400来确定人类代理310的期望的面部表情，诸如当已知整体面部表情并且已知特定的程度或级别时。服务器304可以确定特定的级别402适合于先前选择的面部表情404以及从中选择的记录406之一。数据结构400包括记录406，其标识和/或包括对于期望的面部表情的特定图像操纵。例如，随后可以诸如在数据结构316内识别二级皱眉(FR2)，以访问导致提供这种面部表情作为呈现的视频图像320所需的特定图像操纵。

并非每个面部表情都是等同的，即使在相同类型的面部表情内。例如，一种微笑可能是友好的表情，而当发生有趣的事情时，另一种微笑可能是适当的，就像其他情绪也是如此。作为另一个示例，客户302可以与人类代理310进行交互，并且服务器304确定人类代理310的期望的面部表情是皱眉，诸如为了在得知客户302在航班飞行中丢失了包裹之后表示对于同情客户302的悲伤。但是，如果客户302指示该包括仅包含少量旧衣服，则一个级别的皱眉可能是适当的，而如果客户302指示该袋子包含非常昂贵的相机，则适当地皱眉。因此，数据结构316可以包括用于特定的期望的面部表情的各种程度或级别的数据结构。

图5描绘了根据本公开的实施例的数据结构500。人类学习什么面部表情是合适的以及不合适的。这种确定通常是高度直观的并且难以量化的。例如，可以将微笑视为友好或贬低(例如正被嘲笑)。人类可能希望同情另一个人，因此表现出与另一个人的情绪相关联的面部表情。然而，相反的情绪和相关联的面部表情可以提供保障、权威或与特定交互相关联的其他状态。例如，可以向丢失包裹的旅行者呈现微笑的代理，他说：“这很容易，我们会照顾好”，以便提供旅行者的印象是：该问题将得到成功解决并且代理能够协助解决。

另外，在一个实施例中，数据结构500包括与主题504和期望的情绪反应502相关联的数据记录506。例如，服务器304的处理器可以确定客户302与人类代理310之间的交互包括“主题属性2”(例如，航班食物)。服务器304可以进一步确定期望的情绪反应包括“理解”。例如，诸如从数据结构316中选择惊讶等级1(SP1)并将其应用于人类代理310的图像。附加地或替代地，可以利用客户302的属性来确定特定的期望的面部表情和/或其程度。例如，客户302可以是高表现力的并且与也具有高表现力的人类代理相处得好。因此，可以选择特定的图像操纵或图像操纵的级别。相反，客户302可能对具有高表现力的代理感到不适，因此，提供不同的图像操纵或图像操纵的级别。这样的差异可以具体地仅仅或部分地基于客户302的文化、性别、地理、年龄、受教育程度、职业和/或其他属性，或者在特定的人群内。

在另一个实施例中，可以提供机器学习以确定特定的期望的面部表情。例如，服务器304可以为当前没有提供期望的面部表情的人类代理310选择替代的期望的面部表情。如果客户302和人工代理310之间的交互的结果是成功的，则对替代的期望的面部表情应用权重，以使其被更频繁地被选择或变为期望的面部表情。

图6描绘了根据本公开的实施例的过程600。在一个实施例中，至少一个处理器，例如服务器304和/或代理通信设备306的处理器，被配置为执行体现为用于执行的机器可读指令的过程600。过程600开始，并且可选步骤602访问客户属性。例如，特定客户302可能更喜欢高表现力的代理或者属于更喜欢高表现力的代理的人群。步骤604访问代理的实时视频，例如通过照相机308访问，从而提供人类代理310在与客户302进行交互时的实时图像。接下来，步骤608分析该交互的主题。步骤608可以由代理单独执行，诸如通过指示客户希望解决的主题，由客户单独执行，诸如在发起与代理的交互之前通过交互语音响应(IVR)的输入或其他输入，和/或通过监视交互中提供的关键字或词组。

接下来，步骤610确定代理要提供的期望的印象。例如，可能先前已经确定：对于特定的客户和/或主题，代理应该做出特定的印象，例如权威、同情、尊重、友好等，以改善成功解决交互的前景。然后，步骤612根据期望的印象选择期望的面部表情，并在步骤614中选择代理的当前表情。

附加地或可替代地，步骤614可以利用自然语言识别(NPL)应用机器学习来分析情景的情感并相应地覆盖代理的表情。例如，如果确定了期望的印象和表情，但是情境的情感需要完全不同的表情，那么情境的情感将优先于先前确定的印象和表情。

测试618确定代理的当前表情是否与期望的面部表情匹配。如果确定测试618是肯定的，则步骤620将代理的未修改图像提供给客户。如果确定测试618是否定的，则步骤622将修改应用于代理的面部表情，并将代理的经修改的图像提供给客户。处理600然后可以继续回到步骤608以分析随后的主题，或者如果交互完成，过程600可以结束。

图7描绘了根据本公开的实施例的第三系统。在一个实施例中，代理通信设备306和/或服务器304可以全部或部分地体现为包括各种部件以及与其它部件和/或系统的连接的设备702。这些部件以各种方式体现，并且可以包括处理器704。处理器704可以体现为单个电子微处理器或多处理器设备(例如，多核)，其中具有诸如控制单元、输入/输出单元、算术逻辑单元、寄存器、主存储器和/或访问诸如经由总线714接收的信息(例如，数据、指令等)、执行指令并再次例如经由总线714输出数据的其他部件。

除了处理器704的部件之外，设备702可以利用存储器706和/或数据存储装置708来存储可访问数据，诸如指令、值等。通信接口710促进与部件的通信，诸如经由总线714的处理器704与不可经由总线714访问的部件。通信接口710可以体现为网络端口、卡、电缆或其他配置的硬件设备。附加地或替代地，输入/输出接口712连接到一个或多个接口部件，以接收和/或呈现去往和/或来自人类和/或电子设备的信息(例如指令、数据、值等)。可以连接到输入/输出接口712的输入/输出设备730的示例包括但不限于键盘、鼠标、轨迹球、打印机、显示器、传感器、开关、继电器等。在另一个实施例中，通信接口710可以包括输入/输出接口712或被其包括。通信接口710可被配置为直接与联网部件通信或利用一个或多个网络，例如网络720和/或网络724。

通信网络104可以全部或部分地体现为网络720。网络720可以是有线网络(例如，以太网)、无线(例如，WiFi、蓝牙、蜂窝网络等)网络或它们的组合，并使得设备702能够与网络部件722通信。

附加地或可替代地，可以利用一个或多个其他网络。例如，网络724可以代表第二网络，该第二网络可以促进与设备702所利用的部件的通信。例如，网络724可以是联络中心102的内部网络，其中的部件与可连接到包括可能不那么受信任的公共网络(例如互联网)的网络720的联网部件722相比受信任(或至少更受信任)。附连到网络724的部件可以包括存储器726、数据存储装置728、输入/输出设备730和/或处理器704可访问的其他部件。例如，存储器726和/或数据存储装置728可以完全或处于特定任务或目的而补充或取代存储器706和/或数据存储装置708。例如，存储器726和/或数据存储装置728可以是外部数据存储库(例如，服务器农场、阵列、“云”等)，并允许设备702和/或其他设备访问上面的数据。类似地，处理器704可以经由输入/输出接口712和/或经由通信接口710直接地、经由网络724、仅经由网络720(未示出)或经由网络724和720来访问输入/输出设备730。

应当理解，计算机可读数据可以由各种部件发送、接收、存储、处理和呈现。还应当理解，示出的部件可以控制其他部件，无论是否在本文中或以其他方式示出。例如，一个输入/输出设备730可以是路由器、交换机、端口或其他通信部件，使得处理器704的特定输出启用(或禁用)可以与网络720和/或网络724相关联的输入/输出设备730，以允许(或禁止)网络720和/或网络724上的两个或更多个节点之间的通信。例如，使用特定的客户通信设备108，可以启用(或禁用)一个特定的客户与特定的联网部件722和/或特定的资源112之间的连接。类似地，可以启用(或禁用)特定联网部件722和/或资源112与其他特定联网部件进行通信部件722和/或资源112，在某些实施例中包括设备702，反之亦然。本领域的普通技术人员将理解，作为本文所述的那些通信设备的附加或替代，还可以利用其他通信设备而不背离实施例的范围。

在前面的描述中，出于例示的目的，以特定次序描述了方法。应当认识到，在替代实施例中，可以以与所描述的次序不同的次序来执行方法，而不脱离实施例的范围。还应当认识到，上述方法可以作为由硬件部件(例如，电路系统)执行的算法来执行，该硬件部件旨在执行本文所述的一种或多种算法或其部分。在另一个实施例中，硬件部件可以包括通用微处理器(例如，CPU、GPU)，其首先被转换成专用微处理器。然后，已经在其中加载了编码信号的专用微处理器使得现在专用的微处理器维护机器可读指令，以使得微处理器能够读取并执行从本文所述的算法和/或其它指令得出的机器可读指令集。用于执行(一个或多个)算法或其部分的机器可读指令不是无限制的，而是利用微处理器已知的有限指令集。可以在微处理器中将机器可读指令编码为信号产生部件中的信号或值，并且在一个或多个实施例中包括存储器电路中的电压、开关电路的配置和/或通过特定逻辑门电路的选择性使用。附加地或可替代地，机器可读指令可以是微处理器可访问的，并且在介质或设备中被编码为磁场、电压值、电荷值、反射/非反射部分和/或物理标记。

在另一个实施例中，微处理器还包括单个微处理器、多核处理器、多个微处理器、分布式处理系统(例如，(一个或多个)阵列、(一个或多个)刀片、(一个或多个)服务器农场、“云”、(一个或多个)多用途处理器阵列、(一个或多个)集群等)和/或可以与执行其它处理操作的微处理器共置一处。任何一个或多个微处理器都可以集成到单个处理设备(例如，计算机、服务器、刀片等)中，或者全部或部分位于通过通信链路(例如，总线、网络、背板等，或其多个)连接的离散部件中。

通用微处理器的示例可以包括中央处理单元(CPU)，其具有在指令寄存器(或其它保持指令的电路系统)中编码的数据值或包括存储器位置的数据值，存储器位置又包括用作指令的值。存储器位置还可以包括在CPU外部的存储器位置。这种在CPU外部的部件可以实施为现场可编程门阵列(FPGA)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、随机存取存储器(RAM)、总线可访问的存储装置、网络可访问的存储装置等中的一种或多种。

这些机器可执行指令可以存储在一个或多个机器可读介质上，诸如CD-ROM或其它类型的光盘、软盘、ROM、RAM、EPROM、EEPROM、磁卡或光卡、闪存或其它适于存储电子指令的机器可读介质的类型。可替代地，可以通过硬件和软件的组合来执行这些方法。

在另一个实施例中，微处理器可以是处理硬件部件的系统或集合，诸如客户端设备上的微处理器和服务器上的微处理器、具有其各自的微处理器的设备集合，或共享或远程处理服务(例如，“基于云”的微处理器)。微处理器的系统可以包括处理任务的特定于任务的分配和/或共享或分布式处理任务。在又一个实施例中，微处理器可以执行软件以提供服务，以模拟一个或多个不同的微处理器。因此，由第一硬件部件集合组成的第一微处理器可以虚拟地提供第二微处理器的服务，其中与第一微处理器相关联的硬件可以使用与第二微处理器相关联的指令集来操作。

虽然机器可执行指令可以在特定机器(例如，个人计算机、移动计算设备、膝上型计算机等)本地存储和执行，但是应当认识到，数据和/或指令的存储和/或指令的至少一部分的执行可以经由到远程数据存储和/或处理设备或设备集合(通常称为“云”)的连接性来提供，但可以包括公共、私有、专用、共享和/或其它服务局、计算服务和/或“服务器农场”。

本文描述的微处理器的示例可以包括但不限于以下当中的至少一个：800和801、具有4G LTE集成和64位计算的610和615、具有64位体系架构的/>A7微处理器、/>M7运动协微处理器、/>系列微处理器、/>Core^TM系列微处理器、/>系列处理器、/>Atom^TM系列处理器、Intel系列处理器、/>i5-4670K和i7-4770K 22nm Haswell、i5-3570K 22nm Ivy Bridge、/>FX^TM系列微处理器、/>FX-4300、FX-6300和FX-8350 32nm Vishera、/>Kaveri微处理器、TexasJacinto C6000^TM汽车信息娱乐微处理器、Texas/>OMAP^TM汽车等级移动微处理器、/>Cortex^TM-M微处理器、/>Cortex-A和ARM926EJ-S^TM微处理器、其它行业等同的处理器，并且可以使用任何已知的或将来开发的标准、指令集、库和/或体系架构执行计算功能。

本文讨论的任何步骤、功能和操作可以连续且自动地执行。

已经结合通信系统和用于监视、增强和修饰通信和消息的部件和方法描述了本发明的示例性系统和方法。但是，为了避免不必要地模糊本发明，前面的描述省略了许多已知的结构和设备。这种省略不应当被解释为对要求保护的发明的范围的限制。为了提供对本发明的理解，阐述了具体细节。但是，应当认识到的是，本发明可以以超出本文阐述的具体细节的各种方式来实践。

此外，虽然本文例示的示例性实施例示出了并置的系统的各种部件，但是系统的某些部件可以远程地位于分布式网络(诸如LAN和/或互联网)的远处部分，或者位于专用系统内。因此，应当认识到，系统的部件或其部分(例如，微处理器、存储器/存储装置、接口等)可以组合成一个或多个设备(诸如服务器、计算机、计算设备、终端、“云”或其它分布式处理)，或并置在分布式网络(诸如模拟和/或数字电信网络、分组交换网络或电路交换网络)的特定节点上。在另一个实施例中，部件可以物理地或逻辑地分布在多个部件上(例如，微处理器可以包括一个部件上的第一微处理器和另一部件上的第二微处理器，每个微处理器执行共享任务的一部分和/或所分配的任务)。从前面的描述中将认识到，并且出于计算效率的原因，可以将系统的部件布置在部件的分布式网络内的任何位置而不影响系统的操作。例如，各种部件可以位于交换机(诸如PBX和媒体服务器)、网关中、在一个或多个通信设备中、在一个或多个用户的室内，或其某种组合。类似地，系统的一个或多个功能部分可以分布在(一个或多个)电信设备和相关联的计算设备之间。

此外，应当认识到，连接要素的各种链路可以是有线或无线链路或其任意组合，或者任何其它已知的或以后开发的能够向连接的要素或从连接的要素供给和/或传送数据的(一个或多个)要素。这些有线或无线链路也可以是安全链路，并且可以能够传送加密信息。例如，用作链路的传输介质可以是用于电信号的任何合适的载体，包括同轴电缆、铜线和光纤，并且可以采取声波或光波的形式，诸如在无线电波和红外数据通信中生成的那些。

而且，虽然已经关于事件的特定序列讨论和例示了流程图，但应当认识到，可以在不实质性地影响本公开的操作的情况下对这个序列进行改变、添加和省略。

可以使用本发明的许多变化和修改。有可能提供本发明的一些特征而不提供其它特征。

在又一个实施例中，本发明的系统和方法可以结合专用计算机、经编程的微处理器或微控制器和(一个或多个)外围集成电路元件、ASIC或其它集成电路、数字信号微处理器、诸如分立元件电路之类的硬连线电子或逻辑电路、诸如PLD、PLA、FPGA、PAL之类的可编程逻辑设备或门阵列、专用计算机、任何可比较的装置等来实现。一般而言，能够实现本文例示的方法的任何(一个或多个)设备或装置可以用于实现本发明的各个方面。可以用于本发明的示例性硬件包括计算机、手持设备、电话(例如，蜂窝式、启用互联网的、数字、模拟、混合及其它)以及本领域中已知的其它硬件。这些设备中的一些包括微处理器(例如，单个或多个微处理器)、存储器、非易失性存储装置、输入设备和输出设备。此外，还可以构建包括但不限于分布式处理或部件/对象分布式处理、并行处理或虚拟机处理的替代软件实现来实现本文描述的方法。

在又一个实施例中，所公开的方法可以容易地结合使用对象或面向对象软件开发环境的软件来实现，该对象或面向对象软件开发环境提供可以在各种计算机或工作站平台上使用的便携式源代码。可替代地，所公开的系统可以使用标准逻辑电路或VLSI设计部分地或完全地用硬件来实现。使用软件还是硬件来实现根据本发明的系统取决于系统的速度和/或效率要求、特定功能以及正使用的特定软件或硬件系统或者微处理器或微计算机系统。

在又一个实施例中，所公开的方法可以部分地用可在存储介质上存储、在编程的通用计算机上利用控制器和存储器、专用计算机、微处理器等的协作执行的软件来实现。在这些情况下，本发明的系统和方法可以被实现为嵌入在个人计算机上的程序(诸如applet、或CGI脚本)，作为驻留在服务器或计算机工作站上的资源，作为嵌入在专用测量系统中的例程、系统部件，等等。该系统还可以通过将系统和/或方法物理地结合到软件和/或硬件系统中来实现。

本文中包括软件的实施例由一个或多个微处理器执行或存储以供后续执行，并作为可执行代码被执行。选择可执行代码以执行包括特定实施例的指令。执行的指令是从微处理器理解的离散原生指令集中选择的受约束的指令集，并且在执行之前将其提交给微处理器可访问的存储器。在另一个实施例中，在由一个或多个微处理器执行之前，人类可读的“源代码”软件首先被转换成系统软件，以包括从平台的原生指令集中选择的特定于平台(例如，计算机、微处理器、数据库等)的指令集。

虽然本发明描述了参考特定标准和协议在实施例中实现的部件和功能，但是本发明不限于这些标准和协议。本文未提及的其它类似的标准和协议是存在的并且被认为包括在本发明中。而且，本文提及的标准和协议以及本文未提及的其它类似的标准和协议周期性地被具有基本相同功能的更快或更有效的等同物所取代。具有相同功能的这种替换标准和协议被认为是本发明中包括的等同物。

本发明在各种实施例、配置和方面(包括各种实施例、子组合及其子集)中包括基本上如本文所描绘和描述的部件、方法、处理、系统和/或设备。在理解本公开之后，本领域技术人员将理解如何实现和使用本发明。在各种实施例、配置和方面中，本发明包括在没有在本文中或在各种实施例、配置或其方面中未描绘和/或描述的项目的情况下，包括在没有已经在先前的设备或处理中使用的这种项目的情况下，提供设备和处理，例如用于改善性能、实现易用性和/或降低实现的成本。

已经出于例示和描述的目的呈现了本发明的前述讨论。前述内容并非旨在将本发明限制到本文公开的一种或多种形式。在例如前述的具体实施方式中，出于组织本公开的目的，本发明的各种特征在一个或多个实施例、配置或方面中被组合在一起。本发明的实施例、配置或方面的特征可以在除以上讨论的那些之外的替代实施例、配置或方面中组合。这种公开方法不应当被解释为反映所要求保护的发明需要比每个权利要求中明确阐述的更多特征的意图。相反，如以下权利要求所反映的，创造性方面在于少于单个前述公开的实施例、配置或方面的所有特征。因此，下面的权利要求在此结合到本具体实施方式中，每项权利要求本身作为本发明的单独的优选实施例。

而且，虽然本发明的描述已经包括对一个或多个实施例、配置或方面以及某些变化和修改的描述，但是其它变化、组合和修改也在本发明的范围内，例如在理解本公开之后可以是在本领域技术人员的技能和知识范围内。旨在获得在允许的程度上包括替代实施例、配置或方面的权利，包括那些要求保护的替代、可互换和/或等同结构、功能、范围或步骤，无论这些替代、可互换和/或等同结构、功能、范围或步骤是否在本文中被公开，并且不意在公然贡献任何可专利的主题。

Claims

1.一种用于在视频图像中提供情境匹配的表情的系统，包括：

通信接口，被配置为接收经由网络与客户进行交互的人类代理的视频图像，所述客户使用客户通信设备；

具有可访问存储器的处理器；

数据存储装置，被配置为维护所述处理器可访问的数据记录；以及

所述处理器被配置为：

接收所述人类代理的视频图像；

确定所述人类代理的当前的面部表情；

确定所述人类代理的期望的面部表情，所述期望的面部表情指示先前已经被识别为导致成功完成交互的更大可能性的期望的情绪状态；

响应于确定所述当前的面部表情与所述期望的面部表情不匹配，将所述人类代理的视频图像修改为包含所述期望的面部表情；以及

向所述客户通信设备呈现所述人类代理的经修改的视频图像。

2.如权利要求1所述的系统，其中，确定所述人类代理的期望的面部表情包括访问所述数据记录中具有与所述交互的主题匹配的主题的记录，并且其中所述记录标识所述期望的面部表情。

3.如权利要求1所述的系统，其中，确定所述人类代理的期望的面部表情包括访问所述客户的当前客户属性和所述数据记录中具有与所述当前客户属性匹配的已存储的客户属性的记录，并且其中，所述记录标识所述期望的面部表情。

4.如权利要求1所述的系统，其中，确定所述人类代理的期望的面部表情包括访问所述数据记录中具有与所述交互的主题匹配的人类代理属性的期望的客户表情的记录，并且其中，所述记录标识所述期望的表情。

5.如权利要求1所述的系统，其中，所述处理器将所述人类代理的视频图像修改为包括所述期望的面部表情，包括：根据所述数据存储装置中维护的更改数据，对所述人类代理的视频图像的多边形映射部分应用更改。

6.如权利要求1所述的系统，其中，所述处理器在确定当前的面部表情和期望的面部表情以相同表情的不匹配程度提供相同表情后确定当前的面部表情与期望的面部表情不匹配。

7.根据权利要求1所述的系统，还包括：

所述处理器在所述数据存储装置中存储所述交互的成功标记以及所述人类代理的期望的面部表情或当前的面部表情中的相关联的至少一个；以及

其中，所述处理器确定所述人类代理的期望的面部表情包括确定具有存储在数据存储装置中的成功标记的所述人类代理的期望的面部表情或当前的面部表情中的所述至少一个。

8.一种用于在视频图像中提供情境匹配的表情的方法，包括：

接收经由网络与客户进行交互的人类代理的视频图像，所述客户使用客户通信设备；

确定所述人类代理的当前的面部表情；

9.如权利要求8所述的方法，其中，确定所述人类代理的期望的面部表情进一步包括以下中的至少一项：(a)访问数据存储装置中具有与所述交互的主题匹配的主题的记录，并且其中所述记录标识所述期望的面部表情；(b)访问所述客户的当前客户属性和数据存储装置中具有与所述当前客户属性匹配的已存储的客户属性的记录；或者访问数据记录中具有与所述交互的主题匹配的人类代理属性的期望的客户表情的记录，并且其中所述记录标识所述期望的面部表情。