CN111918015A

CN111918015A - 基于人工智能确定的面部情绪的视频通话路由和管理

Info

Publication number: CN111918015A
Application number: CN202010375846.9A
Authority: CN
Inventors: G·卡迪; T·莫兰
Original assignee: Avaya Inc
Current assignee: Avaya Inc
Priority date: 2019-05-07
Filing date: 2020-05-07
Publication date: 2020-11-10
Anticipated expiration: 2040-05-07
Also published as: EP3737079A1; CN111918015B; EP3737079B1; US20200358900A1; JP7001738B2; JP2020184763A; US11102353B2

Abstract

本发明公开了基于人工智能确定的面部情绪的视频通话路由和管理。客户的通信端点与联络中心代理的通信端点之间的视频通话的视频流被接收。视频通话的视频流被实时地处理以产生实时情绪转录。实时情绪转录基于视频通话的视频流中出现的非言语表达(例如，面部表情)跟踪多个单独的情绪。例如，客户和联络中心代理两者的不同情绪可以在实时情绪转录中跟踪。实时情绪转录与至少一个以前的视频通话的情绪转录进行比较，以确定视频通话在联络中心中是否应当以不同的方式被处置。响应于确定视频通话在联络中心中应当以不同的方式被处置，确定动作以改变视频通话在联络中心中如何被管理。

Description

基于人工智能确定的面部情绪的视频通话路由和管理

背景技术

理解我们正在交流的某人的感受是与该人构建关系的非常重要的一部分。理解一个人感受如何的过程是随时间进行的，并且在许多情况下来自能够理解另一个人给出的非言语‘暗示’。这些非言语‘暗示’中的一些难以检测，甚至随着时间的推移也难以检测。另外，一些非言语‘暗示’通过人可能不可检测，即使当人们知道要寻找什么时。例如，2011年5月David Matsumoto和Hyi Swang Hwang在Psychological Science Agenda上的“Readingfacial expressions of emotion”(https://www.apa.org/science/about/psa/2011/05/ facial-expressions.aspx)讨论了所谓的微表情(micro-expression)，该文章通过引用整体并入本文。微表情“是在几分之一秒、有时快到1/30秒中在面部出现和消失的表情…它们发生得如此之快以致于大多数人不能实时地看见或察觉”(参见同上)。

在联络中心中，甚至更难以注意到这些非言语‘暗示’。例如，联络中心代理可能正在与客户第一次交谈，这可能涉及文化差异等。另外，由于成帧速率、压缩比、有限带宽、拥塞(即，丢失分组)等，在没有检测微妙的微表情的视频处理器的辅助下，微表情可能完全不可检测。联络中心代理无法理解客户的情绪状态的非言语“暗示”可以导致客户不满意增加、通话时间增加、收入损失、员工不满意、联络中心效率较低等。

发明内容

这些以及其它需求通过本公开的各种实施例和配置来解决。客户的通信端点与联络中心代理的通信端点之间的视频通话的视频流被接收。视频通话的视频流被实时地处理以产生实时情绪转录(transcript)。实时情绪转录基于视频通话的视频流中出现的非言语表达(non-verbal expression)(例如，面部表情)跟踪多个单独的情绪。例如，客户和联络中心代理两者的不同情绪可以在实时情绪转录中跟踪。实时情绪转录与至少一个以前的视频通话的情绪转录进行比较，以确定视频通话在联络中心中是否应当以不同的方式被处置(handle)。响应于确定该视频通话在联络中心中是否应当以不同的方式被处置，确定动作以改变视频通话在联络中心中如何被管理。例如，视频通话在联络中心中可以被重路由到联络中心队列、另一个联络中心代理或监管员(supervisor)的通信端点等。

短语“至少一个”、“一个或多个”、“或者”以及“和/或”是在操作中既是联合的也是分离的开放式表达。例如，表达“A、B和C中的至少一个”、“A、B或C中的至少一个”、“A、B和C中的一个或多个”、“A、B或C中的一个或多个”、“A、B和/或C”以及“A、B或C”中的每一个意指单独A、单独B、单独C、A和B一起、A和C一起、B和C一起，或者A、B和C一起。

术语“一”或“一个”实体指的是一个或多个该实体。这样，术语“一”(或“一个”)、“一个或多个”以及“至少一个”在本文中可以可互换地使用。还应当注意，术语“包括”、“包含”以及“具有”可以可互换地使用。

本文中所使用的术语“自动”及其变型指的是任何过程或操作，该过程或操作一般是连续的或半连续的，并且在过程或操作被执行时在没有实质的人工输入的情况下完成。然而，如果输入在过程或操作的执行之前被接收到，则过程或操作可以是自动的，即使过程或操作的执行使用实质或非实质的人工输入。如果人工输入影响过程或操作将如何被执行，则这样的输入被认为是实质的。同意过程或操作的执行的人工输入不被认为是“实质的”。

本公开的方面可以采用完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或者组合软件和硬件方面的实施例(在本文中一般可以全部被称为“电路”、“模块”或“系统”)的形式。一种或多种计算机可读介质的任何组合可以被利用。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。

计算机可读存储介质可以是例如，但不限于，电子的、磁的、光学的、电磁的、红外的或半导体的系统、装置或设备，或者前面的任何合适组合。计算机可读存储介质的更多具体示例(非穷尽列举)将包括以下：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光学存储设备、磁存储设备，或者前面的任何合适组合。在本文档的上下文中，计算机可读存储介质可以是可包含或存储由或者结合指令执行系统、装置或设备使用的程序的任何有形介质。

计算机可读信号介质可以包括例如在基带中或者作为载波的一部分的传播的数据信号(其中包含有计算机可读程序代码)。这样的传播信号可以采取各种各样的形式(包括，但不限于，电磁的、光学的、或它们的任何合适组合)中的任何一种。计算机可读信号介质可以是任何计算机可读介质，该计算机可读介质不是计算机可读存储介质并且可以传达、传播或传输程序以由或者结合指令执行系统、装置或设备使用。包含在计算机可读介质上的程序代码可以使用任何适当的介质(包括但不限于无线、有线线路、光纤电缆、RF等、或者前面的任何合适组合)来传输。

本文中所使用的术语“确定”、“计算”和“运算”、以及它们的变型可互换地使用，并且包括任何类型的方法、过程、数学运算或技术。

本文中所使用的术语“手段”应当根据35U.S.C.第112(f)部分和/或第112部分第6段来给予其最广泛的可能解释。因此，含有术语“手段”的权利要求应当覆盖本文中阐述的所有结构、材料或动作、及其全部等同物。此外，结构、材料或动作及其等同物应当包括发明内容、附图说明、具体实施方式、摘要和权利要求自身中描述的所有那些。

本文中以及权利要求中所定义的术语“客户”可以是与联络中心、通信系统和/或与另一方进行视频通话的任何人。

如本文中以及权利要求中所描述的，术语视频通话的“重路由”可以是或者可包括视频通话的连接特性改变的任何情景。重路由包括将另一个通信端点加入到视频通话、媒体的改变(例如，从视频通话到仅音频通话)、将语音通话路由到另一个设备或元件(例如，联络中心队列、交互式语音应答(IVR)、另一个代理通信端点、另一个联络中心等)、将视频通话置为保持、将视频通话静音等。所有以上类型的重路由可以自动地完成。

前面是简化的发明内容以提供本公开的一些方面的理解。这个发明内容既不是本公开及其各种实施例的广泛性概述，也不是穷尽性概述。它既不是旨在认定本公开的关键或紧要的要素，也不是旨在划定本公开的范围，而是要以简化的形式呈现本公开的选择的概念，作为对以下呈现的更详细的描述的介绍。如将意识到的，本公开的其它实施例单独地或组合地利用以上阐述的或者以下详细描述的特征中的一个或多个是可能的。而且，虽然本公开从示例性实施例的角度呈现，但是应当意识到，本公开的各个方面可以单独地请求保护。

附图说明

图1是用于基于检测视频通话的视频流中的面部情绪的实时视频处理来管理视频通话的第一说明性系统的框图。

图2是示出客户与联络中心代理之间的视频通话的实时情绪转录的示例性用户界面。

图3是示出显示给监管员的客户与联络中心代理之间的视频通话的实时情绪转录的示例性用户界面。

图4是用于基于面部情绪检测来管理视频通话的过程的流程图。

图5是用于将实时情绪转录与先前的语音通话的情绪转录进行比较的过程的流程图。

具体实施方式

图1是用于基于检测视频通话的视频流中的面部情绪的实时视频处理来管理视频通话的第一说明性系统100的框图。第一说明性系统100包括通信端点101A-101N、网络110、联络中心120、代理通信端点130A-130N和监管员通信端点132。另外，图1示出了客户105A-105N、联络中心代理131A-131N和监管员133。

通信端点101A-101N可以是或者可包括支持视频通信并且可以在网络110上通信的任何通信端点设备，诸如个人计算机(PC)、视频电话、视频系统、蜂窝电话、个人数字助理(PDA)、平板设备、笔记本设备、智能电话等。通信端点101A-101N是通信会话结束的设备。通信端点101A-101N不是诸如通信管理器121或路由器的在网络中促进和/或中继通信会话的网络元件。如图1中所示，任何数量的通信端点101A-101N可以连接到网络110。

通信端点101A包括微处理器102A、相机103A和显示器104A。尽管为了方便起见未示出，通信端点101B-101N也包括微处理器102、相机103和显示器104。

微处理器102A可以是或者可包括任何硬件处理器，诸如数字信号处理器(DSP)、微控制器、多核处理器、专用处理器等。

相机103A可以是或者可包括可以被用于捕获视频流的任何硬件元件。相机103A包括发送视频通话的视频流的视频应用。

网络110可以是或者可包括可以发送和接收电子通信的通信装备的任何集合，诸如因特网、广域网(WAN)、局域网(LAN)、IP语音网络(VoIP)、公共交换电话网络(PSTN)、分组交换网络、电路交换网络、蜂窝网络、这些网络的组合等。网络110可以使用各种电子协议，诸如以太网、因特网协议(IP)、会话发起协议(SIP)、综合业务数字网络(ISDN)、视频协议等。因此，网络110是被配置为经由分组和/或电路交换通信来传载消息的电子通信网络。

联络中心120可以是或者可包括可以管理并路由去往和来自通信端点101A-101N、代理通信端点130A-130N和监管员通信端点132的通信的任何联络中心120。联络中心120可以管理并路由各种类型的通信，诸如视频通话、音频通话、即时消息、电子邮件、文本消息、虚拟现实通话、多媒体通话等。

联络中心120包括通信管理器121、联络中心队列122、交互式语音应答(IVR)系统123、视频信号处理器124、视频通话管理模块125和历史情绪转录数据库126。通信管理器121可以是或者可包括与可以路由并管理联络中心120中的通信的软件耦合的任何硬件，诸如专用小交换机(PBX)、会话管理器、交换机、代理服务器等。通信管理器121可以管理并路由各种类型的通信，诸如语音通话、视频通话、即时消息通话、电子邮件、文本消息等。

联络中心队列122是保持一个或多个通信/通话的计算机构造。联络中心队列122可以保持相同类型的通信或者不同类型的通信(例如，语音和视频通话)。联络中心队列122可以支持特定类型的服务、特定产品、专业知识水平(例如，对特定产品或服务的前线支持/后线支持)等。

IVR系统123可以是或者可包括与可以提供与客户105的语音或者视频/语音交互的软件耦合的任何硬件。IVR系统123允许客户105被引导到各种联络中心队列122/代理通信端点130A-130N。

视频信号处理器124可以是或者可包括与可以处理视频流(例如，实时视频流)的软件耦合的任何硬件，诸如数字信号处理器、多核处理器、专用处理器等。视频信号处理器124处理实时视频流(例如，通信端点101A与代理通信端点130A之间)，以对任何数量的参与者识别视频流中的非言语表达(例如，正在微笑的参与者)。视频流可以是具有三个或更多个客户105/联络中心代理131/监管员133的视频会议通话。视频信号处理器124可以在客户105被连接到非人类实体时处理客户105的视频流。例如，视频信号处理器124可以在客户105正在与IVR系统123(在这个实例中为视频IVR系统123)交互或者正在在联络中心队列122中等待的同时识别非言语表达。

视频信号处理器124对视频通话中的参与者中的一些或全部识别视频流内的非言语表达。非言语表达可以对所有类型的情绪(诸如愤怒、蔑视、厌恶、恐惧、喜悦、悲伤、惊讶等)进行检测。行为科学家的调查研究已证实，对于跨全世界的文化同意基本上相同的面部表情被用于表达以下七种情绪存在强有力的证据：愤怒、蔑视、厌恶、恐惧、喜悦、悲伤和惊讶。还已表明，天生没有视力的个人产生与视力正常的个人相同的面部表情。情绪状态自然地发生达1/2秒至大约4秒，并且被称为宏表情(macro-expression)。

行为科学家的另一个重要发现是微表情。微表情是在几分之一秒中在面部突然出现或消失的面部表情。通常，微表情发生达大约1/30秒的持续时间，并且可能甚至是正在观察面部表情的某人不可观测到的。一些科学家相信，这样的微表情不能由个人直接控制。还有可能的是，微表情可以揭示无意识的情绪状态或者个人希望隐藏的情绪状态。视频信号处理器124可以检测宏表情和微表情二者，该宏表情和微表情都是非言语表达的形式。

基于视频流中的检测到的非言语表达，视频信号处理器124产生一个或多个实时情绪转录。实时情绪转录跟踪个人情绪，以对视频通话中的个人参与者(例如，客户105)形成一组情绪。视频信号处理器124可以对视频通话中的每个参与者(或者对参与者的子集)产生单独的实时情绪转录。

视频通话管理模块125与视频信号处理器124/通信管理器121联合地工作。视频通话管理模块125与产生的实时情绪转录联合地使用定义的规则以实时地管理视频通话的各个方面。视频通话管理模块125还可以包括人工智能(AI)模块，该人工智能(AI)模块可以通过使用存储在历史情绪转录数据库126中的先前的视频通话的情绪转录来随着时间的推移学习如何更好地管理视频通话。

历史情绪转录数据库126可以是或者可包括任何类型的数据库，诸如关系数据库、文件系统、目录服务、面向对象的数据库等。历史情绪转录数据库126被用于存储来自先前的视频通话的情绪转录，这些情绪转录可以由视频通话管理模块125检索以帮助决策如何更好地管理现场实时视频通话。

代理通信端点130A-130N可以是允许联络中心代理131A-131N在视频通话中交互的任何通信设备。代理通信端点130A-130N可以是通信端点101。

监管员通信端点132是由监管员133使用以管理联络中心120中的视频通话的通信端点101。监管员133可以使用监管员通信端点132以监视视频通话、加入视频通话、查看统计等。

尽管图1在联络中心120中示出了视频信号处理器124/视频通话管理模块125，但是在另一个实施例中，视频信号处理器124/视频通话管理模块125可以分布在联络中心120与一个或多个通信端点101/130之间。

在另一个实施例中，视频信号处理器124/视频通话管理模块125可以在非联络中心环境中工作。例如，视频信号处理器124/视频通话管理模块125可以位于服务器上或者通信端点101中。替代地，视频信号处理器124/视频通话管理模块125可以分布在通信端点101与非联络中心元件(诸如通信系统)之间。

图2是示出客户105与联络中心代理131之间的视频通话的实时情绪转录210/211的示例性用户界面200。说明性地，通信端点101A-101N、联络中心120、通信管理器121、联络中心队列122、IVR系统123、视频信号处理器124、视频通话管理模块125、历史情绪转录数据库126、代理通信端点130A-130N和监管员通信端点132是存储程序控制的实体，诸如计算机或微处理器，其通过执行存储在诸如存储器(即，计算机内存、硬盘等)的计算机可读存储介质中的程序指令来执行图2-5的方法和本文所描述的过程。尽管图2-5中描述的方法以特定的次序示出，但是本领域技术人员将认识到，图2-5中的步骤可以以不同的次序来实现和/或在多线程的环境中实现。而且，各个步骤可以基于实现来省略或添加。

用户界面200是经由代理通信端点130显示给联络中心代理131的示例性用户界面。用户界面200可以实时地显示，使得联络中心代理131不仅知道他/她的情绪状态，而且还知道客户105的情绪状态。用户界面200包括现场实时视频通话的实时客户情绪转录210和实时代理情绪转录211。在这个示例中，实时客户情绪转录210/实时代理情绪转录211仅示出了(七种中的)四种情绪：愤怒、悲伤、惊讶和喜悦。然而，实时客户情绪转录210/实时代理情绪转录211可以示出任何数量的情绪。如果视频通话包括多个客户105，则用户界面200可以示出视频通话上的每个客户105的实时客户情绪转录210。

实时客户情绪转录210/实时代理情绪转录211示出了整个视频通话的实时转录210/211。然而，在其它实施例中，实时客户情绪转录210/实时代理情绪转录211可以是(例如，最近五分钟的)滚动的转录。

在一个实施例中，仅实时客户情绪转录210或实时代理情绪转录211中的一个可以被同时示出。例如，联络中心代理131可以仅看见实时客户情绪转录210。

图3是示出显示给监管员133的客户105与联络中心代理131之间的视频通话的实时情绪转录210/211的示例性用户界面300。然而，在一个实施例中，用户界面300可以显示给联络中心代理131。用户界面300包括实时客户情绪转录210和实时代理情绪转录211。用户界面300可以基于各种准则显示给监管员133。例如，当视频通话被转移到监管员133时、当监管员133加入视频通话时、当监管员133想要监视视频通话的实时情绪转录210/211时等，用户界面300可以显示给监管员133。

实时客户情绪转录210还包括变化点标记312A和312B。另外，实时代理情绪转录211包括变化点标记312C。变化点标记312识别实时视频通话中客户105和/或联络中心代理131已具有情绪状态(正面(positive)/负面(negative))的变化的点。变化点标记312A识别客户的惊讶情绪已改变的位置。变化点标记312B识别客户的愤怒情绪已增加到特定水平的位置。变化点标记312C识别联络中心代理的惊讶情绪已显著改变的位置。

视频通话管理模块125可以使用各种规则以确定何时在用户界面300中示出变化点标记312。例如，变化点标记312可以在特定情绪已达到特定水平时示出。视频通话管理模块125可以使用先前的情绪转录(另外地或者与规则分开地)以确定何时示出变化点标记132。例如，如果联络中心代理131很少示出先前的视频通话的代理情绪转录中的惊讶情绪的变化，则实时代理情绪转录211中的惊讶情绪的急剧变化可以是用于产生变化点标记312C的手段。

监管员133可以选择变化点标记312A-312C中的一个(例如，通过点击变化点标记312)。例如，如步骤313中所示，监管员133已选择变化点标记312C。变化点标记312C的选择使实时视频通话的文本转录的一部分在文本转录窗口315中显示给监管员133(例如，在联络中心代理131的惊讶情绪达到顶峰前的最后两分钟)。监管员133然后可以使用前进/后退按钮314在现场视频通话的文本转录中向前和向后滚动。

图4是用于基于面部情绪检测来管理视频通话的过程的流程图。过程在步骤400中开始。通信管理器121在步骤402中确定在步骤402中是否已建立视频通话(或会议视频通话)。如果在步骤402中尚未建立视频通话，则重复步骤402的过程。

否则，如果在步骤402中已建立视频通话，则视频信号处理器124在步骤404中处理视频流，以开始产生实时情绪转录210/211。例如，视频信号处理器124可以基于机器学习算法(诸如K均值聚类联合随机邻域嵌入)产生实时客户情绪转录210和实时代理情绪转录211，这些机器学习算法可以被训练以基于宏表情/微表情识别情绪。

替代地，在步骤404中仅单个情绪转录210/211可以被产生。例如，仅实时客户情绪转录210可以被产生，因为客户105已仅与IVR系统123进行交互，或者因为规则仅规定产生实时客户情绪转录210。

在一个实施例中，组合的实时情绪转录可以在步骤404中产生。组合的实时情绪转录是视频通话中的两个或更多个参与者的组合的情绪转录。例如，组合的情绪转录可以是实时情绪转录210/211的组合。

实时情绪转录210/211和/或组合的情绪转录使用宏表情和/或微表情来产生。如以上在背景技术部分中所讨论的，微表情在没有微处理器的辅助下通过人可能不可检测。这是由于极短的持续时间和/或由于与捕获视频流和跨网络110发送视频流相关联的问题。在一个实施例中，来自其它源的情绪信息可以被捕获并且用作另外的输入，以产生实时情绪转录210/211和/或组合的情绪转录。例如，手势可以被检测，语音情绪可以被检测等，以帮助增强实时情绪转录210/211和/或组合的情绪转录。

通信管理器121在步骤406中确定视频通话是否已结束。如果在步骤406中视频通话已结束，则过程返回到步骤402。否则，如果在步骤406中视频通话尚未结束，则视频信号处理器124在步骤408中确定在视频流中是否存在足够的视频来产生实时情绪转录210/211和/或组合的实时情绪转录。例如，视频信号处理器124可能需要短的时间段，以便识别视频流中的宏表情/微表情，以便产生实时情绪转录210/211和/或组合的实时情绪转录。确定是否存在足够的视频所需要的时间可以基于各种规则。

如果在视频流中不存在足够的视频来产生实时情绪转录210/211和/或组合的实时情绪转录，则过程返回到步骤404。否则，如果在步骤408中存在足够的视频来产生实时情绪转录210/211和/或组合的实时情绪转录，则视频通话管理模块125在步骤410中将实时情绪转录210/211和/或组合的实时情绪转录与以前的视频通话的情绪转录进行比较。

视频通话管理模块125可以以各种方式将实时情绪转录210/211和/或组合的实时情绪转录与以前的视频通话的情绪转录进行比较。例如，视频通话管理模块125可以将实时客户情绪转录210与先前的视频通话中的不同客户105的客户情绪转录进行比较。视频通话管理模块125可以将实时客户情绪转录210与同一客户105的以前的客户情绪转录进行比较。

在步骤410中视频通话管理模块125可以将实时的组合的情绪转录与先前的视频通话的组合的情绪转录进行比较。在步骤410中视频通话管理模块125可以将多个情绪转录彼此进行比较。例如，视频通话管理模块125可以将实时客户情绪转录210与先前的客户情绪转录进行比较，连同将实时代理情绪转录211与先前的代理情绪转录进行比较。

步骤410的比较可以基于比较特定类型的视频通话。例如，情绪转录的比较可以针对与由联络中心120提供的服务相关联、与联络中心队列122相关联、与支持的产品相关联、与联络中心代理131的技能(例如，较高技能水平)相关联等的视频通话。

视频通话管理模块125基于步骤410的比较在步骤412中确定视频通话是否需要以不同的方式被处置。例如，如果实时客户情绪转录210具有与先前的客户情绪转录(其中客户105通常挂断先前的视频通话)类似的模式(例如，客户105正在表现出高程度的愤怒和悲伤，连同低程度的喜悦)，则视频通话管理模块125可以确定向联络中心代理131提供反馈、转移视频通话(例如，转移到在情绪上没有以相同方式做出反应的不同代理)、将监管员加入到视频通话等。如果实时客户情绪转录210具有与先前的通话的客户情绪转录(其中接收到正面反馈)类似的模式，则在步骤412中视频通话管理模块125可以决定不以不同的方式处置视频通话。例如，如果识别的先前的视频通话的实时客户情绪转录表明客户105很可能是高兴的，则在步骤412中视频通话管理模块125可以决定不以不同的方式管理视频通话。

视频通话管理模块125可以以各种方式确定情绪转录之间的类似模式。例如，可以使用方差(例如，个人情绪在10％内)。方差可以是正在被跟踪的多个情绪之间的组合方差。

如果在步骤412中视频通话将不以不同的方式被处置，则过程前往步骤404。否则，如果在步骤412中视频通话将以不同的方式被处置，则在步骤414中视频通话管理模块125改变视频通话在联络中心120中如何被管理。视频通话可以以各种方式被管理。例如，视频通话可以通过将监管员通信端点132加入到视频通话、将视频通话路由到第二联络中心代理131的第二通信端点101、将视频通话路由到交互式语音应答(IVR)系统123、将视频通话路由到联络中心队列122、将视频通话路由到第二联络中心120、将视频通话置为保持或静音、改变视频通话的媒体等来被重路由。视频通话可以通过向联络中心代理131发送消息、对实时客户情绪转录210和/或实时代理情绪转录211进行标示并存储在数据库中等来被管理。在步骤414中视频通话被管理之后，过程前往步骤404。

图5是用于将实时情绪转录210/211与先前的语音通话的情绪转录进行比较的过程的流程图。图5的过程是图4的步骤410/412的示例性实施例。在步骤408中确定是否存在足够的视频来产生实时情绪转录之后，在步骤500中视频通话管理模块125获得实时客户情绪转录210和实时代理情绪转录211。视频通话管理模块125在步骤502中将实时情绪转录210/211与先前的视频通话的情绪转录进行比较。实时情绪转录210/211的比较可以仅比较实时的视频通话和/或先前的视频通话的一部分。例如，如果实时的视频通话仅3分钟长，则实时情绪转录210/211可以与具有多于或少于3分钟的持续时间的先前的视频通话进行比较。

先前的视频通话可以是与相同的客户105/相同的联络中心代理131、与相同的客户105/不同的联络中心代理131、与不同的客户105/相同的联络中心代理131、与不同的客户105/不同的联络中心代理131等。另外，诸如时间(例如，日时间、周时间)、视频通话类型(针对特定产品的通话)等其它因素可以是步骤502的比较中使用的因素。

在步骤504中实时情绪转录210/211被比较以识别先前的视频通话的匹配情绪转录。例如，视频通话管理模块125可以将视频通话的实时客户情绪转录210和实时代理情绪转录211与联络中心120中的先前的视频通话的最近100个客户情绪转录/代理情绪转录进行比较，以识别具有类似特性的一个或多个先前的视频通话。例如，视频通话管理模块125可以搜遍最近100个先前的视频通话，以查看是否存在与实时情绪转录210/211类似的模式。

视频通话管理模块125在步骤506中确定类似的先前的视频通话的结果。例如，如果视频通话管理模块125从100个先前的视频通话中识别出具有类似的客户情绪转录/代理情绪转录的3个先前的视频通话，则视频通话管理模块125然后确定这3个先前的视频通话是具有正面的结果还是负面的结果。正面或负面的结果可以基于识别的先前通话的均值。正面/负面的结果可以基于各种因素，诸如进行调查、产品的购买、没有购买产品、客户105挂断、客户105变得愤怒、视频通话花费时间比正常长、视频通话花费时间比正常少、识别的先前通话的监管员评价等。例如，如果3个识别的先前的视频通话中的每一个持续比平均通话时间长3到4倍的时间而客户105没有购买产品，则那些先前的通话的结果可以根据规则被识别为负面的结果。如果在步骤506中先前的视频通话的结果是正面的(实时的视频通话不需要以不同的方式被管理)，则过程前往步骤404。否则，如果在步骤506中先前的视频通话的结果是负面的(实时的视频通话需要以不同的方式被管理)，则过程前往步骤414。

以上过程是在联络中心120环境中描述的。然而，以上描述不限于联络中心120环境，而是可以用于任何视频通话。例如，情绪转录可以在将视频通话路由到用户的通信系统中使用。

本文中描述的处理器的示例可以包括，但不限于，

800和801、具有4G LTE集成和64位计算的

610和615、具有64位架构的

A7处理器、

M7运动协处理器、

系列、

Core^TM处理器族、

处理器族、

Atom^TM处理器族、Intel

处理器族、

i5-4670K和i7-4770K 22nm Haswell、

i5-3570K 22nm Ivy Bridge、

FX^TM处理器族、

FX-4300，FX-6300和FX-8350 32nm Vishera、

Kaveri处理器、Texas

Jacinto C6000^TM汽车信息娱乐处理器、Texas

OMAP^TM汽车级移动处理器、

Cortex^TM-M处理器、

Cortex-A和ARM926EJ-S^TM处理器、其它行业等同的处理器中的至少一个，并且可以使用任何已知的或将来开发的标准、指令集、库和/或架构来执行计算功能。

本文中讨论的步骤、功能和操作中的任何一个可以连续地和自动地执行。

然而，为了避免不必要地模糊本公开，前面的描述省略了众多已知的结构和设备。这种省略不应被理解为对请求保护的公开的范围的限制。具体细节被阐述以提供本公开的理解。然而，应当意识到，本公开可以以超出本文中阐述的具体细节的各种各样的方式来实施。

而且，虽然本文中说明的示例性实施例示出了系统的并置的各种组件，但是系统的某些组件可以位于远处、分布式网络(诸如LAN和/或因特网)的远端部分处、或者专用系统内。因此，应当意识到，系统的组件可以被组合到一个或多个设备或者并置在分布式网络(诸如模拟和/或数字电信网络、分组交换网络或电路交换网络)的特定节点上。出于计算效率的原因并且从前面的描述将意识到，系统的组件可以布置在组件的分布式网络内的任何位置，而不影响系统的操作。例如，各种组件可以位于交换机(诸如PBX)和媒体服务器、网关中、一个或多个通信设备中、一个或多个用户的所在地、或者它们的某种组合。类似地，系统的一个或多个功能部分可以分布在电信设备与相关联的计算设备之间。

而且，应当意识到，连接元件的各种链路可以是有线的或无线的链路、或者它们的任何组合、或者能够向和从连接的元件供给和/或传达数据的任何其它已知的或后来开发的元件。这些有线的或无线的链路也可以是安全的链路并且能够传达加密的信息。用作链路的传输媒介例如可以是用于电信号的任何合适的载体(包括同轴电缆、铜线和光纤)，并且可以采用声波或光波的形式(诸如在无线电波和红外数据通信期间产生的那些)。

此外，虽然流程图已关于特定的事件序列进行讨论和说明，但是应当意识到，在不实质地影响本公开的操作的情况下可以发生对该序列的改变、添加和省略。

本公开的众多变型和修改可以被使用。将能够提供本公开的一些特征，而不提供其它特征。

在还另一个实施例中，本公开的系统和方法可以结合专用计算机、编程的微处理器或微控制器以及外围集成电路元件、ASIC或其它集成电路、数字信号处理器、硬连线电子或逻辑电路(诸如分立元件电路)、可编程逻辑器件或门阵列(诸如PLD、PLA、FPGA、PAL)、专用计算机、任何可比较的手段等实现。一般而言，能够实现本文中说明的方法的任何设备或手段可以被用于实现本公开的各个方面。可以用于本公开的示例性硬件包括计算机、手持式设备、电话(例如，蜂窝的、支持因特网的、数字的、模拟的、混合的以及其它)、以及本领域已知的其它硬件。这些设备中的一些包括处理器(例如，单个或多个微处理器)、存储器、非易失性存储装置、输入设备和输出设备。而且，替代的软件实现(包括，但不限于，分布式处理或组件/对象分布式处理、并行处理或虚拟机处理)也可以被构造以实现本文中描述的方法。

在还另一个实施例中，公开的方法可以结合使用对象或面向对象的软件开发环境(其提供可以在各种各样的计算机或工作站平台上使用的可移植的源代码)的软件容易地实现。替代地，公开的系统可以使用标准逻辑电路或VLSI设计以硬件部分地或全部地实现。是软件还是硬件被用于实现根据本公开的系统取决于系统的速度和/或效率要求、特定功能、以及正被利用的特定软件或硬件系统或者微处理器或微计算机系统。

在还另一个实施例中，公开的方法可以以软件部分地实现，该软件可以存储在存储介质上，在具有控制器和存储器的协作的编程的通用计算机、专用计算机、微处理器等上执行。在这些情况下，本公开的系统和方法可以作为嵌入在个人计算机上的程序(诸如小程序(applet)、

或CGI脚本)、作为驻留在服务器或计算机工作站上的资源、作为嵌入在专用测量系统、系统组件等中的例程实现。系统也可以通过将系统和/或方法物理地融合到软件和/或硬件系统中来实现。

尽管本公开参考特定的标准和协议描述了实施例中实现的功能和组件，但是本公开不限于这样的标准和协议。本文中未提到的其它类似的标准和协议是存在的并且被认为包括在本公开中。而且，本文中提到的标准和协议以及本文中未提到的其它类似的标准和协议周期性地被具有本质上相同的功能的更快或更有效的等同物取代。具有相同的功能的这样的替换标准和协议被认为是包括在本公开中的等同物。

本公开在各种实施例、配置和方面中包括基本上如本文中描绘和描述的组件、方法、过程、系统和/或装置，包括各种实施例、子组合以及它们的子集。本领域技术人员在理解本公开之后将理解如何制造和使用本文中公开的系统和方法。本公开在各种实施例、配置和方面中包括在没有在本文中或本文的各种实施例、配置或方面中未描绘和/或描述的项目的情况下(包括在没有可能已用于先前的设备或过程中(例如，用于改善性能、实现便利和/或降低实现的成本)的这样的项目的情况下)提供设备和过程。

本公开的前面的讨论已出于说明和描述的目的而给出。前面的内容并非旨在将本公开限制于本文中公开的一种形式或多种形式。例如在前面的具体实施方式部分，本公开的各种特征出于简化本公开的目的而在一个或多个实施例、配置或方面中聚集在一起。本公开的实施例、配置或方面的特征可以在除了以上讨论的那些之外的替代实施例、配置或方面中组合。本公开的这种方法不应被解释为反映了请求保护的公开要求比每个权利要求中明确记载的特征多的特征的意图。相反，如以下权利要求所反映的，发明的方面在于少于单个前面公开的实施例、配置或方面的所有特征。因此，以下权利要求由此并入这个具体实施方式部分中，其中每个权利要求独自代表本公开的单独的优选实施例。

而且，尽管本公开的描述已包括一个或多个实施例、配置或方面以及某些变型和修改的描述，但是在理解本公开之后，其它变型、组合和修改在本公开的范围内，例如，可以在本领域技术人员的技能和知识内。旨在获得包括允许的程度内的替代实施例、配置或方面(包括对请求保护的那些的替代、互换和/或等同的结构、功能、范围或步骤)的权利，无论这样的替代、互换和/或等同的结构、功能、范围或步骤是否在本文中公开，并且无意公开捐献任何可专利的主题。

Claims

1.一种第一联络中心，包括：

微处理器；以及

计算机可读介质，与所述微处理器耦合并且包括微处理器可读且可执行的指令，所述微处理器可读且可执行的指令在由所述微处理器执行时使所述微处理器：

接收客户的通信端点与第一联络中心代理的第一通信端点之间的实时视频通话的视频流；

实时地处理所述实时视频通话的视频流以产生第一实时情绪转录，其中所述第一实时情绪转录基于所述实时视频通话的视频流中出现的多个非言语表达跟踪多个单独的情绪；

将所述第一实时情绪转录与至少一个以前的视频通话的第二情绪转录进行比较，以确定所述实时视频通话在所述第一联络中心中是否应当以不同的方式被处置；以及

响应于确定所述实时视频通话在所述第一联络中心中应当以不同的方式被处置，确定改变所述实时视频通话在所述第一联络中心中如何被管理的动作。

2.根据权利要求1所述的第一联络中心，其中所述多个非言语表达包括至少一个微表情，所述微表情在没有所述微处理器的辅助下不能通过人视觉地检测到。

3.根据权利要求1所述的第一联络中心，其中改变所述实时视频通话如何被管理的所述动作包括在所述第一联络中心中重路由所述实时视频通话，并且其中在所述第一联络中心中重路由所述实时视频通话包括以下中的至少一个：将监管员通信端点加入到所述实时视频通话、将所述实时视频通话路由到交互式语音应答(IVR)系统、将所述实时视频通话路由到第二联络中心代理的第二通信端点、将所述实时视频通话路由到联络中心队列、将所述实时视频通话路由到第二联络中心、将所述实时视频通话置为保持、将所述实时视频通话静音、以及将所述实时视频通话改变为不同的媒体类型。

4.根据权利要求1所述的第一联络中心，其中所述第一实时情绪转录包括第一实时客户情绪转录和第一实时代理情绪转录，其中所述第二情绪转录包括多个先前的视频通话的多个先前的客户情绪转录和多个先前的代理情绪转录，并且其中将所述第一实时情绪转录与所述第二情绪转录进行比较包括识别所述多个先前的视频通话中的至少一个先前的视频通话，所述至少一个先前的视频通话具有与所述第一实时客户情绪转录类似的客户情绪转录以及与所述第一实时代理情绪转录类似的代理情绪转录。

5.根据权利要求1所述的第一联络中心，其中所述第一实时情绪转录包括第一实时客户情绪转录，其中所述第二情绪转录包括第二客户情绪转录，并且其中所述第一实时客户情绪转录和所述第二客户情绪转录是针对同一客户的；并且其中所述第一实时情绪转录和所述第二情绪转录是与特定类型的实时视频通话相关联的转录，并且其中所述特定类型的实时视频通话与以下中的至少一个相关联：支持的类型的服务、联络中心队列、支持的产品、以及代理技能水平。

6.根据权利要求1所述的第一联络中心，其中所述第一实时情绪转录包括第一实时客户情绪转录和第一实时代理情绪转录，其中所述实时视频通话被转移到监管员通信端点或者被监管员通信端点加入，并且其中所述微处理器可读且可执行的指令还使所述微处理器：

产生所述第一实时客户情绪转录和所述第一实时代理情绪转录中的至少一个，以用于显示在所述第一联络中心代理的所述第一通信端点上；

产生所述第一实时客户情绪转录和所述第一实时代理情绪转录，以用于显示在所述监管员通信端点上；

识别所述多个跟踪的单独的情绪中的各个情绪的一个或多个变化点；

产生在所述第一实时客户情绪转录和所述第一实时代理情绪转录中的至少一个上识别所述一个或多个变化点的标记，以用于显示在所述监管员通信端点上；

接收对所述标记中的一个的选择；以及

产生所述实时视频通话的与所述标记中的所述一个的所述选择的一个相关联的一部分的文本转录，以用于显示在所述监管员通信端点上。

7.根据权利要求1所述的联络中心，其中所述第一实时情绪转录是所述实时视频通话中的所有参与者的组合的情绪转录，并且其中所述第二情绪转录是所述至少一个以前的通话中的所有参与者的组合的情绪转录。

8.一种方法，包括：

由第一联络中心中的微处理器接收客户的通信端点与第一联络中心代理的第一通信端点之间的实时视频通话的视频流；

由所述微处理器实时地处理所述实时视频通话的视频流以产生第一实时情绪转录，其中所述第一实时情绪转录基于所述实时视频通话的视频流中出现的多个非言语表达跟踪多个单独的情绪；

由所述微处理器将所述第一实时情绪转录与至少一个以前的视频通话的第二情绪转录进行比较，以确定所述实时视频通话在所述第一联络中心中是否应当以不同的方式被处置；以及

响应于确定所述实时视频通话在所述第一联络中心中应当以不同的方式被处置，由所述微处理器确定改变所述实时视频通话在所述第一联络中心中如何被管理的动作。

9.根据权利要求8所述的方法，

其中所述多个非言语表达包括至少一个微表情，所述微表情在没有所述微处理器的辅助下不能通过人视觉地检测到；

其中改变所述实时视频通话如何被管理的所述动作包括在所述第一联络中心中重路由所述实时视频通话，并且其中在所述第一联络中心中重路由所述实时视频通话包括以下中的至少一个：将监管员通信端点加入到所述实时视频通话、将所述实时视频通话路由到交互式语音应答(IVR)系统、将所述实时视频通话路由到第二联络中心代理的第二通信端点、将所述实时视频通话路由到联络中心队列、将所述实时视频通话路由到第二联络中心、将所述实时视频通话置为保持、将所述实时视频通话静音、以及将所述实时视频通话改变为不同的媒体类型；

其中所述第一实时情绪转录包括第一实时客户情绪转录和第一实时代理情绪转录，其中所述第二情绪转录包括多个先前的视频通话的多个先前的客户情绪转录和多个先前的代理情绪转录，并且其中将所述第一实时情绪转录与所述第二情绪转录进行比较包括识别所述多个先前的视频通话中的至少一个先前的视频通话，所述至少一个先前的视频通话具有与所述第一实时客户情绪转录类似的客户情绪转录以及与所述第一实时代理情绪转录类似的代理情绪转录；并且

还包括：产生所述第一实时客户情绪转录和所述第一实时代理情绪转录中的至少一个，以用于显示在所述第一联络中心代理的所述第一通信端点上；

其中在所述第一联络中心中重路由所述实时视频通话还至少包括转移到所述监管员通信端点或者所述监管员通信端点的加入；并且其中所述实时视频通话被转移到所述监管员通信端点或者被所述监管员通信端点加入，并且

还包括：产生所述第一实时客户情绪转录和所述第一实时代理情绪转录，以用于显示在所述监管员通信端点上；识别所述多个跟踪的单独的情绪中的各个情绪的一个或多个变化点；产生在所述第一实时客户情绪转录和所述第一实时代理情绪转录中的至少一个上识别所述一个或多个变化点的标记，以用于显示在所述监管员通信端点上；以及接收对所述标记中的一个的选择；产生所述实时视频通话的与所述标记中的所述一个的所述选择的一个相关联的一部分的文本转录，以用于显示在所述监管员通信端点上。

10.一种系统，包括：

微处理器；以及

接收第一通信端点与第二通信端点之间的实时视频通话的视频流；

将所述第一实时情绪转录与至少一个以前的视频通话的第二情绪转录进行比较，以确定所述实时视频通话是否应当以不同的方式被处置；以及

响应于确定所述实时视频通话应当以不同的方式被处置，在计算机网络中重路由所述实时视频通话。