CN109391836B

CN109391836B - 用附加信息补充媒体流

Info

Publication number: CN109391836B
Application number: CN201810017027.XA
Authority: CN
Inventors: K·V·维卡塔纳戈拉维
Original assignee: Oracle International Corp
Current assignee: Oracle International Corp
Priority date: 2017-08-02
Filing date: 2018-01-09
Publication date: 2023-04-07
Anticipated expiration: 2038-01-09
Also published as: US20190042852A1; CN109391836A; US10558861B2

Abstract

操作包括提取和呈现与从源设备发送到目标设备的媒体流相关联的数据。媒体流可以包括由源设备显示的视频帧的流。在源设备上执行的屏幕共享应用可以捕获视频帧的流。屏幕共享应用可以将视频帧的流发送到在目标设备上执行的目标应用。当媒体流从源设备被接收时，目标设备(或中间设备)分析媒体流。目标设备可以执行模式匹配，以从媒体流中提取包括文本、图像和音频剪辑的信息。目标设备可以呈现提取出的信息或者使用提取出的信息来执行诸如填写表格之类的任务。

Description

用附加信息补充媒体流

技术领域

本公开涉及数据提取和处理。特别地，本公开涉及用基于从媒体流提取的数据的信息来补充媒体流。

权益要求

本申请要求于2017年8月2日提交的美国非临时申请No.15/667,434的权益和优先权，该申请通过引用并入本文。

背景技术

屏幕共享涉及在一个或多个其它屏幕上显示在第一屏幕上显示的内容的全部或部分。屏幕共享可以包括显示用户动作，诸如鼠标的移动或在屏幕上键入的内容。屏幕共享还可以涉及将第一屏幕的控制权交给另一个设备，诸如通过放弃对鼠标的控制。屏幕共享通常用于视频会议、培训和客户服务应用。

客户服务代理可以通过基于视频的屏幕共享应用与客户交谈。在这种交谈期间，客户可以呈现其屏幕的视图，其屏幕包含对解决客户的请求有用的信息。客户服务代理可以将其注意力从桌面共享应用切换到搜索将使用从读取屏幕获得的信息用于诸如研究或记录的目的的在线工具。

文本识别(也称为文本提取或光学字符识别(OCR))是将键入或手写的字符转换为机器编码的文本。文本识别通常用来处理经扫描的文档，或者使文档可被计算机搜索。有几种文本识别的方法，诸如基于像素的、基于密度的和固定位置的文本提取。

本节中描述的方法是可以追求的方法，但不一定是先前已经构想或追求的方法。因此，除非另有说明，否则不应当假定本节中描述的任何方法仅仅因为它们被纳入本节中就符合作为现有技术。

附图说明

在附图的各个图中，实施例是作为示例而不是作为限制进行图示的。应当注意的是，本公开中对“一个”实施例的引用不一定是指相同的实施例，并且它们意味着至少一个。在附图中：

图1图示了根据一个或多个实施例的、从源设备到目标设备的媒体流；

图2图示了根据一个或多个实施例的、用于提取和呈现数据的系统；

图3A图示了根据一个或多个实施例的、用于提取和呈现数据的示例操作集合；

图3B图示了根据一个或多个实施例的、用于基于手势的数据选择的示例操作集合；

图3C图示了根据一个或多个实施例的、用于填充数据字段的示例操作集合；

图3D图示了根据一个或多个实施例的、用于基于策略的数据选择的示例操作集合；

图4A图示了根据一个或多个实施例的示例源应用用户界面；

图4B图示了根据一个或多个实施例的示例模板图像；

图4C图示了根据一个或多个实施例的示例目标应用用户界面；

图5图示了根据一个或多个实施例的系统的框图。

具体实施方式

在以下描述中，为了说明的目的，阐述了许多具体细节以便提供透彻的理解。可以在没有这些具体细节的情况下实践一个或多个实施例。在一个实施例中描述的特征可以与在不同的实施例中描述的特征组合。在一些示例中，众所周知的结构和设备参考框图形式描述，以避免不必要地模糊本发明。

1.一般概述

2.信息补充系统

3.提取和呈现数据

A.用于提取和呈现数据的操作

B.手势的使用

C.填充数据字段

D.基于策略的数据呈现或存储

E.评估代理性能

4.示例实施例–客户和代理屏幕共享

5.杂项；扩展

6.硬件概述

1.一般概述

一个或多个实施例包括提取和呈现与从源设备发送到目标设备的媒体流相关联的数据。媒体流可以包括由源设备显示的视频帧的流。在源设备上执行的屏幕共享应用可以捕获视频帧的流。屏幕共享应用可以将视频帧流发送到在目标设备上执行的目标应用。可替代地或附加地，媒体流可以包括从源设备发送到目标设备的音频帧的流。当从源设备接收到媒体流时，目标设备(或中间设备)分析媒体流。目标设备可以执行模式匹配，以从媒体流中提取包括文本、图像和音频剪辑的信息。目标设备可以呈现所提取的信息或者使用所提取的信息来执行诸如填写表格之类的任务。所提取的信息可以由目标设备实时地与媒体流同时呈现。

一个或多个实施例包括基于用户手势从媒体流中选择用于提取或呈现的数据。在屏幕共享会话期间，源设备或者目标设备的用户可以关于屏幕共享内容的子集进行手势操作。作为示例，用户可以使用鼠标指针指向屏幕共享内容的一部分。作为另一个示例，用户可以通过用手指触摸触摸屏界面来圈出屏幕共享内容的一部分。系统可以分析手势，以识别通过手势引用的内容。响应于识别出由手势引用的内容，系统可以从媒体流中选择要提取或用于呈现给用户的内容。系统可以选择要与媒体流相关联地存储的内容。

本说明书中描述和/或权利要求中阐述的一个或多个实施例可以不包括在这个“一般概述”部分中。

2.信息补充系统

图1图示了根据一个或多个实施例的媒体流传输系统100。媒体流传输系统100将媒体流106从源设备102发送到目标设备108。在一个或多个实施例中，媒体流传输系统100可以包括比图1中所示的部件更多或更少的部件。图1中所示的部件可以在彼此本地或彼此远离。图1中所示的彼此可以在软件和/或硬件中实现。每个部件可以分布在多个应用和/或机器上。多个部件可以被组合到一个应用和/或机器中。关于一个部件描述的操作可以替代地由另一个部件执行。

在一个或多个实施例中，媒体流106是从源设备102发送到目标设备108的数据流。数据可以包括视频、图像、音频和/或文本。媒体流106可以包括在源设备102上显示的帧。例如，源设备可以由客户操作。客户正在与操作目标设备的客户服务代理进行交互。源设备上显示的帧被发送到目标设备并在目标设备上显示。这些帧在目标设备上显示，以帮助客户服务代理协助客户。作为另一个示例，源设备用户与目标设备用户共享由源设备捕获的视频。源设备的用户可以通过视频共享应用来共享实况视频流。

在一个或多个实施例中，源设备102是在其上创建和/或管理媒体流的设备。源设备102可以是能够创建和/或管理媒体流的任何设备，诸如计算机、智能手机或平板电脑。源设备102包括发送媒体流的功能。源设备102可以将媒体流106发送到服务器。服务器可以将媒体流106发送到目标设备108。可替代地，源设备102可以将媒体流106直接发送到目标设备108。

在实施例中，源设备102执行源应用104。源应用104是生成包括媒体流106的内容的应用。源应用104可以捕获由源设备102显示的帧，作为媒体流。作为示例，客户可以使用web浏览应用导航到网站。客户还可以通过例如在网站上执行搜索来与网站内容交互。源应用104可以捕捉包括与用户与网站内容的交互对应的视频帧的视频流。

源应用104可以接收由不同于源应用104的外部屏幕捕获应用捕获的媒体流。源应用104或外部屏幕捕获应用可以捕获视频帧、屏幕截图和/或手势，以创建媒体流。可替代地或附加地，源应用104可以记录视频并发送包括视频的媒体流。

在一个或多个实施例中，源应用界面105是显示信息并接受输入的用户界面。源应用界面105可以由源应用104实现，如图1中所示。可替代地或附加地，在源应用104内示出的源应用界面105可以替代地由不同于源应用104的分开的应用来实现。

源应用界面105可以包括图形用户界面(GUI)。GUI可以包括按钮、字段、复选框、下拉菜单和其它图形部件。用户可以与GUI的图形部件交互，以获得信息或提供输入。用户与源应用界面105的交互可以包括手势。作为示例，用户可以经由源应用界面105指向或突出显示GUI的元素。如果源设备是触摸屏设备，那么用户可以触摸触摸屏设备，以经由源应用界面提供输入。作为示例，源应用界面可以显示记录的集合。用户可以用手指圈出特定记录的显示。用户和源应用界面105之间的交互(包括手势)可以作为媒体流106被捕获。

在一个或多个实施例中，目标设备108是被配置为用于接收和显示媒体流106的设备。目标设备108可以是能够接收和显示媒体流的任何设备，诸如计算机、智能手机或平板电脑。目标设备108包括目标应用110。

在一个或多个实施例中，目标应用110是用于呈现媒体流106的应用。目标应用可以接收媒体流并将媒体流显示给目标应用界面112。例如，目标应用110可以在接收到媒体流106时呈现包括视频和音频的媒体流106。

在一个或多个实施例中，目标应用界面112是显示信息的用户界面。特别地，目标应用界面112显示媒体流106。目标应用界面112可以由目标应用110实现，如图1中所示。可替代地或附加地，在目标应用110内示出的目标应用界面112可以替代地由不同于目标应用110的分开的应用来实现。

图2图示了根据一个或多个实施例的、用于从媒体流提取和呈现数据的系统200。如以上关于图1所描述的，系统200包括源设备102、源应用104、目标设备108和目标应用110。该系统还包括呈现引擎222和知识库240。在一个或多个实施例中，系统200可以包括比图2所示的部件更多或更少的部件。图2中所示的部件2可以在彼此本地或彼此远离。图2中所示的部件可以在软件和/或硬件中实现。每个部件可以分布在多个应用和/或机器上。多个部件可以被组合到一个应用和/或机器中。关于一个部件描述的操作可以替代地由另一个部件执行。

在一个或多个实施例中，呈现引擎222包括被配置为生成呈现数据的硬件和/或软件。呈现数据包括可以由在目标设备108上执行的目标应用110与媒体流一起显示的数据。如下所述，呈现数据可以至少部分基于媒体流106来生成。

呈现引擎222可以独立于目标应用110或作为目标应用110的部件执行。呈现引擎222可以是目标设备108的本机应用。可替代地，呈现引擎222可以是在与目标设备分开的服务器上执行的应用。呈现引擎222可以利用被示为呈现引擎222的部件的UI控制器224、数据提取器226和数据分类器228。部件中的一个或多个可以被实现为与呈现引擎222通信的外部部件。

呈现引擎222可以被实现为源应用104和目标应用110之间的中间实体，如图2中所示。当被实现为中间实体时，呈现引擎222从源应用104接收媒体流106，并将媒体流106的至少一部分转发到目标应用。此外，呈现引擎222可以确定并向目标应用110发送与媒体流相关联的附加信息。因而，目标应用可以从呈现引擎222既接收呈现数据又接收媒体流。

呈现引擎222可以作为源应用104和目标应用110之间的中间部件而被带外(未示出)而不是带内实现。当呈现引擎222被带外实现时，呈现引擎222和目标应用110都从源应用104接收媒体流106。呈现引擎222可以确定呈现数据并将其向目标应用110发送。因而，目标应用110可以接收(a)来自呈现引擎222的呈现数据和(b)来自源应用102的媒体流，而不经过呈现引擎222。

在实施例中，数据提取器226包括用于从媒体流106提取数据的软件和/或硬件。数据提取器226可以使用文本或图像识别技术来分析图像(诸如来自视频的帧)。数据提取器226可以从媒体流提取文本、音频和/或静止图像。数据提取器226可以分析与媒体流相关联的元数据，以提取诸如位置或互联网协议(IP)地址之类的信息。

在实施例中，数据分类器228包括用于分类由数据提取器226提取的数据的软件和/或硬件。数据分类器228可以确定从媒体流提取的数据的数据类型。例如，数据分类器228可以基于提取的数字的显示格式(例如，XXX-XX-XXX)将数字的集合分类为社会安全号。数据分类器228可以基于与提取上下文相关联的元数据对提取的数据进行分类。作为示例，数据分类器228可以获得银行网站的元数据。元数据识别银行网站的网页的x和y坐标，其与银行账号对应。当数据分类器228获得从网页的x和y坐标提取的文本时，数据分类器228基于元数据确定文本与银行账号对应。数据分类器228将该文本存储为银行账号字段的值。

在实施例中，知识库240(在本文中也被称为“数据库”)包括用于数据管理和/或故障排除的一个或多个系统。知识库240可以包括与相应公司或任务相关联的多个数据储存库。作为示例，知识库240可以包括保险公司的数据。具体而言，知识库240可以包括存储客户数据的客户管理系统。知识库240还可以包括存储策略数据的保险商系统。

知识库240可以通信耦合到呈现引擎222。呈现引擎222可以向知识库240发送信息和/或请求，并从知识库240接收信息。可替代地或附加地，知识库可以是呈现引擎222本地的信息的数据库。

在实施例中，UI控制器224包括生成呈现数据的功能。呈现数据可以包括由数据提取器226提取的数据或基于所提取的数据从知识库240获得的附加数据。UI控制器224可以向知识库240提交查询。UI控制器可以接收响应于向知识库240提交查询的信息。UI控制器225可以在将接收的数据包括在呈现数据中之前总结和/或处理接收的数据。作为示例，UI控制器查询知识库，以接收与预留号码相关联的所有可用信息。UI控制器选择接收的信息的子集作为要被发送到目标应用110的呈现数据。

UI控制器可以修改从源应用104接收的媒体流106，以包括呈现数据。例如，UI控制器可以修改媒体流，以在媒体上叠加文本，使得词语出现在视频上。可替代地或附加地，UI控制器可以将呈现数据发送到目标应用110，以与媒体流106相邻地显示呈现数据。作为示例，目标应用界面212可以与媒体流106相邻地显示包括呈现数据的文本框。

在实施例中，具有呈现数据230的媒体流被从呈现引擎222发送到目标应用110。媒体流和呈现数据可以在单个叠加流中被发送。可替代地或附加地，媒体流和呈现数据可以在分开的流中发送。媒体流和呈现数据可以同时或异步发送。

在实施例中，目标应用界面212包括图1中的目标应用界面112的能力。此外，目标应用界面212包括结合媒体流显示呈现数据的功能。目标应用界面可以在弹出窗口中显示文本、在媒体流上叠加文本、或者在与媒体流相邻的文本框中呈现文本。

3.提取和显示数据

A.用于提取和呈现数据的操作

图3A-3D图示了根据一个或多个实施例的、用于提取和呈现数据的示例操作集合。图3A-3D中所示的一个或多个操作可以被修改、重新布置或完全省略。因而，图3A-3D中所示的操作的特定顺序不应当被解释为限制一个或多个实施例的范围。

现在参考图3A，在实施例中，呈现引擎获得从源应用流传输到目标应用的媒体(操作302)。如上所述，媒体流可以与由源应用呈现的媒体帧的流对应。呈现引擎可以在媒体流被发送到目标应用时接收媒体流的副本，而不影响媒体流到目标应用的发送。可替代地，呈现引擎可以从源应用获得媒体流，并将媒体流的至少一部分发送到目标应用。

在实施例中，UI控制器识别与媒体流相关联的上下文(操作304)。具体而言，UI控制器可以识别要由数据分类器使用的上下文，以分类从媒体流提取的数据。UI控制器可以基于媒体流本身内的文本或图像来确定与媒体流相关联的上下文。

UI控制器可以确定与媒体流相关联的软件环境或应用。作为示例，媒体流可以包括用户与应用的交互的屏幕共享。UI控制器可以确定媒体流包括具有用于银行Big M的徽标的帧。基于对银行Big M的徽标的检测，UI控制器确定媒体流包括用于Big M的客户的web界面的显示。UI控制器还可以从用于Big M的客户的web界面中识别在每个视频帧中显示的特定网页。

UI控制器可以确定与媒体流相关联的物理环境信息。作为示例，UI控制器可以识别与媒体流相关联的位置。例如，媒体流可以包括用户鲍勃在访问中国长城期间的自制视频。UI控制器可以基于媒体流内的视频帧执行图像搜索。基于图像搜索，UI控制器可以确定媒体流包括中国长城的视频。

UI控制器可以基于与媒体流相关联的元数据来确定上下文。例如，媒体流包括用户与网页交互的视频。与媒体流一起接收的元数据识别网页的统一资源定位符(URL)。UI控制器使用网页的URL来确定媒体流与和特定在线市场Amaze对应的客户端应用相关联。

UI控制器可以基于与媒体流相关联的所存储的模板来确定上下文。作为示例，媒体流确定媒体流涉及特定的网上银行界面。UI控制器识别所存储的与该网上银行界面对应的模板。所存储的模板识别用于该特定网上银行界面的每个部分的上下文。所存储的模板可以识别例如该特定网上银行界面内的账号的x和y位置。所存储的模板可以识别与客户信息对应的帧和与系统可以忽略的广告对应的帧。

在实施例中，当媒体被流传输时，数据提取器从媒体中提取数据(操作306)。数据提取器可以使用诸如基于像素的、基于密度的或固定位置的文本提取之类的技术从媒体流提取文本数据。数据提取器可以使用由UI控制器识别的所存储的模板来选择要捕获的数据。作为示例，媒体流包括用户浏览网站的屏幕共享。用于网站的特定网页的模板指示在该网页上有保险索赔号。保险索赔号垂直跨越像素100-500，以100像素的水平宽度从水平像素位置0开始。数据提取器使用固定位置提取来提取媒体流的帧的指定部分中的保险索赔号。数据提取器可以连续地从一系列帧中实时提取与用户的网站导航对应的文本数据。

可替代地或附加地，数据提取器可以从媒体流中提取图像数据和/或音频数据。数据提取器可以使用图像识别技术(例如，面部识别)从一系列视频帧中提取图像的子集。数据提取器可以使用音频识别技术从媒体流中提取音频数据。作为示例，数据提取器使用音乐识别技术从媒体流中提取歌曲。作为另一个示例，数据提取器使用语音识别技术提取由客户在解释问题的同时使用源设备说出的词的集合。

在实施例中，数据分类器对提取出的数据进行分类(操作308)。对数据进行分类可以包括确定数据与特定字段、属性或者信息集合对应。作为示例，分类器可以确定提取出的数字的集合与银行账号对应。数据分类器可以将图像分类为与特定位置对应。

在实施例中，数据分类器基于与媒体流相关联的上下文来分类数据。例如，UI控制器确定媒体流是中国长城的用户的自制视频。数据分类器可以使用上下文(中国长城)对媒体流的视频帧内的图像进行分类。数据分类器可以将图像与中国长城的不同部分的已知图像进行比较。基于比较，数据分类器可以将图像分类为与中国长城的特定部分对应。

作为另一个示例，数据分类器可以基于与媒体流相关联的元数据对数据进行分类。作为示例，模板指定保险索赔号位于特定网页上的特定x和y像素坐标处。数据分类器确定数字5879766位于特定网页上特定x和y像素坐标处。因而，数据分类器将5879766分类为保险索赔号。

系统可以将提取出的文本的一些或全部转换为向量。例如，系统可以从食物定购应用的屏幕提取文本、对文本进行分类，并将相关数据输入到以下数据向量中：

<客户，约翰·史密斯><餐馆，Joe的披萨><订单号，675479>。

在实施例中，UI控制器基于提取出的数据和/或上下文的至少一部分来查询数据库，以获取在媒体流的外部并与其相关联的信息(操作310)。UI控制器可以使用从媒体流提取的文本对数据库执行查询，以获得与媒体流相关联的外部信息。作为示例，客户和代理正在讨论客户购买产品的问题。客户的屏幕经由屏幕共享应用与代理共享。客户的屏幕显示订单号，但不显示有关客户购买的详细信息。屏幕共享在发送到呈现引擎的媒体流中被捕获。订单号是从媒体流中提取的。UI控制器使用订单号在外部数据库中执行搜索，以获取关于客户订单的详细信息。UI控制器检索该详细信息，包括与客户订单对应的产品的估计运送日期。

UI控制器可以选择从媒体流提取的数据的一部分来执行数据库查询。UI控制器可以基于与媒体流相关联的上下文或元数据来选择数据的一部分来执行数据库查询。UI控制器可以基于手势来选择数据的一部分，如下面参考图3B所描述的。

在实施例中，呈现引擎基于提取出的数据和/或外部信息来生成呈现数据(操作312)，以与媒体流一起显示(操作314)。呈现引擎可以选择提取出的文本的一些或全部来呈现。呈现引擎可以用从数据库检索出的外部信息来补充提取出的数据，或者仅显示外部信息。

作为示例，客户正在执行银行的移动应用。该应用正在客户的屏幕上显示包括多个交易的银行账户对账单。银行代理接收包括客户与应用交互的媒体流。呈现引擎基于从媒体流提取的文本识别多个交易中的每一个。客户通过口头提及执行一个特定交易的特定日期向银行代理询问关于该个特定交易。系统分析媒体流，以检测客户口头提及的日期。系统基于客户提及的日期从客户屏幕上显示的多个交易中识别出特定交易。与该特定交易相关的呈现数据被确定并选择，以呈现给银行代理。呈现数据可以包括例如交易日期(显示在客户的屏幕上)、与特定交易相关联的卖主(显示在客户的屏幕上)以及与特定交易相关联的卖主的电话号码(通过查询数据库获得)。

作为示例，系统正在发送在旧金山度假的视频。呈现引擎选择从视频中提取的文本“渔人码头”，以便与视频一起呈现。呈现引擎还会选择描述渔人码头的段落，以在视频旁边呈现。描述渔人码头的段落是通过查询用于渔人码头的描述的数据库而获得的。

呈现引擎可以基于媒体流中界面的有序序列来确定呈现数据。媒体流中出现一系列屏幕的次序可以对确定呈现数据有重要意义。例如，源应用的用户在尝试玩视频游戏时遇到了错误。媒体流包括用户玩视频游戏的视频、错误屏幕以及源应用重启的视频。呈现引擎确定包括代码“7899989079”的错误屏幕紧接在视频游戏示出角色从悬崖跳下之后。呈现引擎选择将在游戏中角色从悬崖跳下与提取出的错误代码相关联的错误相关联的呈现数据。

呈现引擎可以将媒体流与呈现数据一起发送到目标应用以供呈现。可替代地或附加地，呈现引擎可以显示媒体流与呈现数据。呈现引擎可以存储媒体流中的一些或全部与呈现数据一起存储或者发送以用于存储。

在实施例中，目标应用(和/或呈现引擎)呈现媒体流与呈现数据。目标应用可以在媒体流上显示呈现数据(例如，作为标题文字)。作为示例，目标应用显示一系列由客户查看的屏幕。目标应用显示叠加在屏幕上的文本，包括用于客户服务代理的故障排除信息。可替代地或附加地，目标应用可以将呈现数据呈现在媒体流的旁边。例如，目标应用可以呈现客户观看的一系列屏幕，同时在边栏中显示对客户服务代理有用的信息。

系统可以通过将呈现数据发送到目标设备来在目标设备上显示呈现数据。呈现引擎可以生成呈现数据并将呈现数据发送到目标设备以供目标设备呈现。呈现引擎可能用文本数据使得从源设备接收的媒体流过载。使媒体流过载生成单个流用于传输到目标设备。可替代地或附加地，系统可以通过显示呈现数据来在目标设备上显示呈现数据。

在实施例中，如果没有从媒体流中提取数据，那么目标应用呈现没有呈现数据的媒体。作为示例，如果没有从媒体流中提取出有关数据，那么呈现引擎可以将媒体流直接发送到目标应用以供呈现，而不添加任何呈现数据。

B.手势的使用

在实施例中，呈现引擎使用与源应用相关联的手势来分析提取出的数据。图3B图示了用于基于手势的上下文确定的示例操作集合。

在实施例中，UI控制器检测与源应用相关联的手势(操作320)。手势可以是例如由鼠标引导的指针的运动、手指轻扫(swipe)或触笔轻扫。源设备的用户可以手势强调屏幕共享内容的子集。作为示例，用户可以使用鼠标指针来指向由源应用显示的词。作为另一个示例，用户可以用手指轻扫触摸屏界面，以指示在屏幕上显示的两个或更多个词之间的关联。

在实施例中，UI控制器识别与手势相关联的提取出的数据的子集(操作322)。UI控制器可以将手势的位置和/或移动与来自帧上的对应位置的数据进行比较。作为示例，UI控制器确定用户指向网页上的“Overdue”一词。UI控制器将词“Overdue”识别为与用户相关。

在实施例中，呈现引擎使用与手势相关联的提取出的数据的子集(操作324)。呈现引擎可以使用与手势相关联的提取出的数据的子集来确定提交给知识库的查询(如在图3A的操作310中)。作为示例，用户在屏幕上圈出约会的时间。呈现引擎确定用户对约会时间感兴趣。呈现引擎构造关于约会时间的查询，以发送到知识库。可替代地或附加地，呈现引擎可以选择与手势相关联的提取出的数据的子集以供呈现。例如，在确定用户圈出约会时间时，呈现引擎向源设备显示包括以下文本的弹出框：“客户对该约会时间感兴趣”。

呈现引擎可以基于用户手势来确定提取出的数据的一个或多个子集之间的连接。作为示例，用户在她的航班日期和她的火车旅行的日期之间做出手势。呈现引擎确定对应的查询应当既包括航班日期又包括火车旅行日期。

C.填充数据字段

图3C图示了根据一个或多个实施例的、用于填充数据字段的示例操作集合。在解决客户问题时，可以将搜索提交给外部系统，或者可以提交票据以供进一步调查索赔。搜索、票据提交或其它过程可能需要填写表格。

在实施例中，UI控制器识别要填充的数据字段(操作330)。数据字段可以通过代理可见的UI呈现，以进行填充。作为示例，UI控制器生成要在升级保险索赔中使用的数据字段，以经由目标应用界面显示。可替代地或附加地，可以将数据字段直接呈现给UI控制器进行填充，即，通过第三方应用的暴露的API来呈现。UI控制器可以查询应用，以检索可用字段或可用字段的子集。例如，UI控制器可轮询索赔管理应用以查找要填充的可用数据字段。

在实施例中，UI控制器确定提取出的数据的子集是否匹配要填充的数据字段(操作332)。UI控制器可以分析与提取出的数据相关联的分类，以确定提取出的数据的子集是否匹配特定的数据字段。例如，呈现引擎已经生成数据向量：<患者，John Doe><医生，LSkywalker><索赔号，1234453534>。要填充的数据字段是[索赔号：_________________]。因为与提取出的数据相关联的分类“索赔号”与表单字段所请求的数据匹配，所以UI控制器确定提取出的数据1234453534与要填充的数据字段匹配。

在实施例中，如果提取出的数据的子集匹配要被填充的数据字段，那么UI控制器选择提取出的数据的子集用于呈现和/或数据库查询(操作334)。在填充用户可见的表单的同时，UI控制器可以选择提取出的数据的子集以经由目标应用呈现。作为示例，代理的UI显示一系列由代理填写的表单。UI控制器选择提取出的数据的子集，以用提取出的文本的子集填充表单，同时经由用户可见的表单向代理呈现提取出的数据的子集。可替代地或附加地，UI控制器可以选择提取出的数据的子集用于后端数据库查询，而不呈现提取出的数据的子集。例如，UI控制器将10个选择的文本串发送到旅行应用的10个相应字段，以提交旅行预订请求。

在实施例中，如果提取出的数据的子集与要填充的数据字段不匹配，那么UI控制器不选择提取出的数据的该子集用于呈现和/或数据库查询(操作336)。UI控制器可以丢弃与要填充的数据字段不匹配的提取出的数据。可替代地或者附加地，UI控制器可以使用与要填充的数据字段不匹配的提取出的数据。作为示例，UI控制器可以显示数据，这对于代理而言是有用的，但是对于表单填写是不需要的。作为另一个示例，系统可以存储所有提取出的数据用于后续分析。

D.基于策略的数据呈现或存储

图3D图示了根据一个或多个实施例的、用于确定用于数据呈现或存储的策略的示例操作集合。

在实施例中，系统呈现和/或存储媒体流的至少子集。作为示例，系统呈现并记录媒体流与呈现数据，包括由客户查看的一系列屏幕。根据策略，系统可以存储或避免存储所记录的视频流中的一些或全部。例如，一些信息可能不适合存储。客户服务公司可以有不存储任何银行账号的策略。

在实施例中，呈现引擎确定用于数据提取的策略(操作340)。特定的系统或应用可以有确立哪些数据应当被提取、存储或显示的适当策略。例如，银行可以有不能显示或存储完整的社会安全号的策略。呈现引擎可以查询数据库，以检索所存储的策略。可替代地或附加地，呈现引擎可以基于缺省来确定适当的策略。例如，如果没有适当的策略，那么呈现引擎避免保存标记为“机密”的医疗记录。

在实施例中，呈现引擎依据数据提取策略来确定提取出的数据的子集是否应当被存储或呈现(操作342)。呈现引擎可以将提取出的数据的子集与数据提取策略进行比较。呈现引擎可以使用提取出的数据和/或与提取的数据相关联的元数据的分类来执行比较。例如，号码456789012被分类为社会安全号。适当的策略禁止存储社会安全号。基于分类，呈现引擎依据数据提取策略确定不应当存储该号码。

在实施例中，如果依据数据提取策略应当存储或呈现提取出的数据的子集，那么呈现引擎存储或呈现提取出的数据的该子集(操作344)。呈现引擎可以基于指定应当存储所考虑的提取出的数据的类型的策略来存储或呈现提取出的数据的子集。可替代地或附加地，呈现引擎可以存储或呈现提取出的数据的子集，除非数据提取策略特别禁止存储或呈现那种类型的数据。

在实施例中，如果依据数据提取策略不应当存储或呈现提取出的数据的子集，那么呈现引擎不存储或呈现提取出的数据的该子集(操作346)。呈现引擎可以避免存储提取出的数据的被策略限制的子集。呈现引擎可以从选择用于呈现的数据中省略提取出的数据的该子集。呈现引擎可以不选择提取出的数据的子集进行呈现。例如，呈现引擎选择除客户名称之外的所有提取出的词。在存储和/或呈现视频流之前，呈现引擎可以根据数据存储策略对呈现数据的部分进行审查。例如，选择社会安全号进行呈现。根据策略，社会安全号的前五位数字在视频流被存储之前进行编辑。

E.评估代理性能

在实施例中，系统通过分析呈现数据来评估代理性能。

在实施例中，系统向代理显示包括客户屏幕以及呈现数据的媒体流。代理正在帮助客户解决问题。代理指导客户导航通过一系列屏幕，以解决问题。

在实施例中，系统测量代理的表现。系统可以基于解决问题所花费的时间来测量代理的表现。例如，代理正在帮助客户解决在线零售商网页上的问题。系统监视媒体流和呈现数据被发送到代理的时间，5分钟。系统确定5分钟低于解决在线零售商网页上的问题的平均时间。系统确定代理表现是令人满意的。

可替代地或附加地，系统可以基于被导航通过以解决问题的多个屏幕来测量代理表现。例如，在代理的指导下，客户导航通过7个屏幕。系统确定代理表现不足，因为该特定问题可以通过导航通过2个屏幕来解决。

4.示例实施例–客户和代理商屏幕共享

在实施例中，客户正在与客户服务代理共享他的屏幕，以解决保险索赔的问题。屏幕共享作为媒体流被发送。系统从媒体流中提取并呈现数据，以帮助代理高效地解决问题。

图4A图示了根据一个或多个实施例的示例源应用用户界面。图4A中所示的屏幕402示出了经由医疗保险Web应用显示给客户的界面。如在源应用用户界面上显示的帧作为媒体流被发送到代理。数据提取器在媒体流被发送到代理时实时地提取数据。

图4B图示了根据一个或多个实施例的示例模板图像410。数据分类器使用模板图像410来分类提取出的文本。当媒体流被发送到代理时，系统实时分类提取出的文本。使用识别所查看的网页的数据流中的元数据，系统定位对应的模板图像410。数据分类器使用模板图像410对提取出的文本数据进行分类。数据分类器比较捕获的图像与模板图像。在每个图像的右上角，两个图像都包括文字“的索赔”，前面分别是“John Doe”和“患者”。因而，数据分类器确定患者是John Doe。在患者名字的下方，两个图像都包括文本“出诊”，后面分别是“L.Skywalker”和“医生名字”。因而，数据分类器确定医生名字是L.Skywalker。数据分类器还通过比较这两个图像来分类索赔号和服务日期。数据分类器返回以下分类数据的向量：<患者，John Doe><医生，L Skywalker><索赔号，1234252566><服务日期：12/05/2016>。

图4C图示了根据一个或多个实施例的示例目标应用界面420。向代理显示的屏幕包括由客户看到并作为媒体流发送的屏幕402。当客户导航通过网络应用时，屏幕402被实时更新。除了显示给客户的屏幕402之外，包括问题概要404和搜索窗口小部件406的附加信息被显示给代理。

目标应用界面显示问题摘要404。问题摘要404中的信息作为呈现数据被发送到目标应用。问题摘要中的信息是在客户确立需要帮助的请求时获得的。客户从下拉菜单中指定问题。目标应用界面显示如由客户指定的问题摘要404。

目标应用界面还显示包括搜索窗口小部件406的边栏。搜索窗口小部件406显示由系统生成的显示数据。搜索窗口小部件406(a)呈现给代理而不是客户，(b)显示在屏幕上而不需要代理输入任何内容。

搜索窗口小部件406显示由系统从后台医疗保健处理系统检索出的信息。医疗保健处理系统与客户和代理正在用来进行通信的系统是分开的。医疗保健处理系统通过云订阅进行访问。搜索UI窗口小部件向代理示出由客户识别出的帐单不符是由于编码错误408所致。目标信息界面将从数据库检索的数据显示到搜索窗口小部件，从而使代理能够通知客户存在与无效代码有关的问题。

5.杂项；扩展

实施例针对具有一个或多个设备的系统，设备包括硬件处理器并且被配置为执行本文描述的和/或下面权利要求中任何一项所述的任何操作。

在实施例中，非瞬态计算机可读存储介质包括指令，当指令由一个或多个硬件处理器执行时，使得执行本文描述的和/或权利要求中任何一项所述的任何操作。

根据一个或多个实施例，已经可以使用本文描述的特征和功能的任何组合。在前面的说明书中，已经参考因实现而异的许多具体细节描述了实施例。因此，说明书和附图应当被认为是说明性的而不是限制性的。本发明的范围的唯一且排他的指标以及申请人预期作为本发明的范围的内容是从本申请中发出的权利要求集合的字面和等同范围，以这种权利要求发出的具体形式，包括任何后续的更正。

6.硬件概述

根据一个实施例，本文所描述的技术由一个或多个专用计算设备来实现。专用计算设备可以是硬连线的以执行技术，或者可以包括诸如被永久性地编程以执行技术的一个或多个专用集成电路(ASIC)、现场可编程门阵列(FPGA)或网络处理单元(NPU)的数字电子设备，或者可以包括编程为根据固件、存储器、其它存储装置或组合中的程序指令执行技术的一个或多个通用硬件处理器。这些专用计算设备还可以将定制的硬接线逻辑、ASIC、FPGA或NPU与定制的编程组合来实现技术。专用计算设备可以是台式计算机系统、便携式计算机系统、手持式设备、联网设备或结合硬连线和/或程序逻辑来实现技术的任何其它设备。

例如，图5是图示可以在其上实现本发明的实施例的计算机系统500的框图。计算机系统500包括总线502或用于传送信息的其它通信机制，以及与总线502耦合用于处理信息的硬件处理器504。硬件处理器504可以是例如通用微处理器。计算机系统500还包括耦合到总线502用于存储信息和要由处理器504执行的指令的主存储器506，诸如随机存取存储器(RAM)或其它动态存储设备。主存储器506也可以用于在要由处理器504执行的指令执行期间存储临时变量或其它中间信息。当这些指令被存储在处理器504可访问的非暂态存储介质中时，它们使计算机系统500成为被定制以执行指令中指定的操作的专用机器。

计算机系统500还包括耦合到总线502用于存储静态信息和用于处理器504的指令的只读存储器(ROM)508或其它静态存储设备。提供了诸如磁盘或光盘的存储设备510，并且存储设备510被耦合到总线502，用于存储信息和指令。

计算机系统500可以经由总线502耦合到显示器512，诸如阴极射线管(CRT)，用于向计算机用户显示信息。输入设备514(其包括字母数字和其它键)被耦合到总线502，用于将信息和命令选择传送到处理器504。另一种类型的用户输入设备是光标控件516，诸如鼠标、轨迹球、或光标方向键，用于向处理器504传送方向信息和命令选择并且用于控制光标在显示器512上的移动。这种输入设备通常具有在两个轴(第一轴(例如，x)和第二轴(例如，y))中的两个自由度，以允许设备在平面中指定位置。

计算机系统500可以使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实现本文描述的技术，这些定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑与计算机系统结合使计算机系统500成为或将计算机系统500编程为专用机器。根据一个实施例，本文的技术由计算机系统500响应于处理器504执行主存储器506中包含的一条或多条指令的一个或多个序列而执行。这些指令可以从另一个存储介质(诸如存储设备510)读取到主存储器506中。包含在主存储器506中的指令序列的执行使处理器504执行本文描述的处理步骤。在替代实施例中，可以使用硬连线电路系统代替软件指令或与软件指令组合使用。

如本文所使用的术语“存储介质”是指存储使机器以特定方式操作的数据和/或指令的任何非瞬态介质。这种存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘，诸如存储设备510。易失性介质包括动态存储器，诸如主存储器506。存储介质的常见形式包括例如软盘、柔性盘、硬盘、固态驱动器、磁带或任何其它磁性数据存储介质、CD-ROM、任何其它光学数据存储介质、具有孔模式的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其它存储器芯片或盒带、内容可寻址存储器(CAM)和三元内容可寻址存储器(TCAM)。

存储介质与传输介质不同但可以与传输介质结合使用。传输介质参与在存储介质之间传输信息。例如，传输介质包括同轴电缆、铜线和光纤，包括包含总线502的电线。传输介质还可以采取声波或光波的形式，诸如在无线电波和红外线数据通信期间生成的那些波。

各种形式的介质可以涉及将一条或多条指令的一个或多个序列携带到处理器504以供执行。例如，指令最初可以在远程计算机的磁盘或固态驱动器上携带。远程计算机可以将指令加载到其动态存储器中，并且使用调制解调器经电话线发送指令。计算机系统500本地的调制解调器可以接收电话线上的数据，并且使用红外线发射器将数据转换为红外线信号。红外线探测器可以接收在红外线信号中携带的数据，并且适当的电路系统可以将数据放在总线502上。总线502将数据携带到主存储器506，处理器504从该主存储器506检索并执行指令。由主存储器506接收到的指令可以可选地在被处理器504执行之前或执行之后存储在存储设备510上。

计算机系统500还包括耦合到总线502的通信接口518。通信接口518提供耦合到网络链路520的双向数据通信，其中网络链路520连接到本地网络522。例如，通信接口518可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器、或向对应类型的电话线提供数据通信连接的调制解调器。作为另一个示例，通信接口518可以是提供到兼容的局域网(LAN)的数据通信连接的LAN卡。也可以实现无线链路。在任何这种实现中，通信接口518都发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。

网络链路520通常通过一个或多个网络向其它数据设备提供数据通信。例如，网络链路520可以通过本地网络522提供到主计算机524或到由互联网服务提供商(ISP)526操作的数据设备的连接。ISP 526又通过现在通常称为“互联网”528的世界范围的分组数据通信网络提供数据通信服务。本地网络522和互联网528都使用携带数字数据流的电信号、电磁信号或光信号。通过各种网络的信号以及在网络链路520上并且通过通信接口518的信号是传输介质的示例形式，其中信息将数字数据携带到计算机系统500或者携带来自计算机系统500的数字数据。

计算机系统500可以通过(一个或多个)网络、网络链路520和通信接口518发送消息和接收数据，包括程序代码。在互联网示例中，服务器530可以通过互联网528、ISP 526、本地网络522和通信接口518传送对应用程序的请求代码。

接收到的代码可以在其被接收到时由处理器504执行，和/或存储在存储设备510或其它非易失性存储器中以供以后执行。

在前面的说明书中，已经参考因实现而异的许多具体细节描述了实施例。因此，说明书和附图应当被认为是说明性的而不是限制性的。本发明的范围的唯一且排他的指标以及申请人预期作为本发明的范围的内容是从本申请中发出的权利要求集合的字面和等同范围，以这种权利要求发出的具体形式，包括任何后续的更正。

Claims

1.一种包括指令的非暂态计算机可读介质，所述指令在由一个或多个硬件处理器执行时使得执行包括以下的操作：

在通信会话期间获得从源设备流传输到目标设备的媒体，所述媒体包括音频流或视频流中的至少一个；

与媒体从源设备流传输到目标设备的同时：

当媒体从源设备流传输到目标设备时，从媒体中提取文本数据；

基于关于流传输的媒体的一部分的与源设备的用户界面的用户交互来获得用户手势；

选择对应于与所述用户手势相关联的流传输的媒体的所述部分的从媒体中提取出的文本数据的子集；以及

使作为目标设备上的呈现数据的根据所述用户手势选择的文本数据的所述子集的显示与目标设备上的媒体的至少一部分的显示同时进行。

2.如权利要求1所述的介质，其中所述操作还包括：

将提取出的文本数据存储到多个向量；

其中所述多个向量在媒体被流传输时被累积；并且

基于累积的所述多个向量生成呈现数据。

3.如权利要求1所述的介质，其中使呈现数据在目标设备上显示包括以下一个或多个：

将呈现数据发送到目标设备；或者

在目标设备上显示呈现数据。

4.如权利要求1所述的介质，其中所述操作还包括：基于表征与源设备相关联的用户应用的元数据选择提取出的文本数据的所述子集，以确定呈现数据。

5.如权利要求1所述的介质，其中所述操作还包括：

根据数据存储策略，确定提取出的文本数据是否要被存储，并且只有在根据数据存储策略要存储提取出的文本数据的情况下，才存储提取出的文本数据。

6.如权利要求1所述的介质，其中所述操作还包括：

在应用界面中向代理人显示呈现数据，用于辅助代理人解决经由媒体呈现的问题；以及

基于解决问题所花费的时间来测量代理人的表现。

7.如权利要求1所述的介质，其中所述操作还包括：

将提取出的文本数据与标识符相关联；

基于所述标识符来查询数据库，以获得附加信息；以及

使目标设备上的附加信息的显示与呈现数据的显示同时进行。

8.如权利要求1所述的介质，其中所述操作还包括：

确定源设备的位置；

至少基于与源设备相关联的位置来查询数据库，以获得与媒体相关联的附加信息；以及

9.如权利要求1所述的介质，其中所述操作还包括：

确定媒体中界面的有序序列；以及

基于界面的有序序列来确定呈现数据。

10.如权利要求1所述的介质，其中所述操作还包括：记录操作的序列，包括呈现数据的显示和目标设备的用户的动作。

11.如权利要求1所述的介质，其中所述操作还包括：在存储包括呈现数据的视频流之前，根据数据存储策略审查呈现数据的部分。

12.如权利要求1所述的介质，其中所述用户手势包括以下一个或多个：

关于媒体的所述部分的由鼠标引导的指针的运动；

关于媒体的所述部分的由手指轻扫引导的指针的运动；

关于媒体的所述部分的由触笔轻扫引导的指针的运动。

13.如权利要求1所述的介质，其中所述操作还包括：使用文本数据的所述子集确定提交给知识库的查询。

14.如权利要求1所述的介质，其中所述操作还包括：使用文本数据的所述子集显示与文本数据的所述子集相关联的弹出框。

15.一种由包括硬件处理器的至少一个设备执行的方法，所述方法包括：

与媒体从源设备流传输到目标设备的同时：

16.如权利要求15所述的方法，其中所述方法还包括：

将提取出的文本数据存储到多个向量；

其中所述多个向量在媒体被流传输时被累积；并且

基于累积的所述多个向量生成呈现数据。

17.如权利要求15所述的方法，其中使呈现数据在目标设备上显示包括以下一个或多个：

将呈现数据发送到目标设备；或者

在目标设备上显示呈现数据。

18.如权利要求15所述的方法，其中所述方法还包括：基于表征与源设备相关联的用户应用的元数据选择提取出的文本数据的所述子集，以确定呈现数据。

19.如权利要求15所述的方法，其中所述方法还包括：

20.如权利要求15所述的方法，其中所述方法还包括：

基于解决问题所花费的时间来测量代理人的表现。

21.如权利要求15所述的方法，其中所述方法还包括：

将提取出的文本数据与标识符相关联；

基于所述标识符来查询数据库，以获得附加信息；以及

22.如权利要求15所述的方法，其中所述方法还包括：

确定源设备的位置；

23.如权利要求15所述的方法，其中所述方法还包括：

确定媒体中界面的有序序列；以及

基于界面的有序序列来确定呈现数据。

24.如权利要求15所述的方法，其中所述方法还包括：记录操作的序列，包括呈现数据的显示和目标设备的用户的动作。

25.如权利要求15所述的方法，其中所述方法还包括：在存储包括呈现数据的视频流之前，根据数据存储策略审查呈现数据的部分。

26.如权利要求15所述的方法，其中所述用户手势包括以下一个或多个：

关于媒体的所述部分的由鼠标引导的指针的运动；

关于媒体的所述部分的由手指轻扫引导的指针的运动；

关于媒体的所述部分的由触笔轻扫引导的指针的运动。

27.如权利要求15所述的方法，其中所述方法还包括：使用文本数据的所述子集确定提交给知识库的查询。

28.如权利要求15所述的方法，其中所述方法还包括：使用文本数据的所述子集显示与文本数据的所述子集相关联的弹出框。

29.一种系统，包括：

至少一个设备，包括硬件处理器；

所述系统被配置为执行如权利要求15-28中任一项所述的方法。

30.一种包括指令的非暂态计算机可读介质，所述指令在由一个或多个硬件处理器执行时使得执行包括以下的操作：

与媒体从源设备流传输到目标设备的同时：

在应用界面中向代理人显示根据所述用户手势选择的文本数据的所述子集，用于辅助代理人解决经由媒体呈现的问题；以及

基于解决问题所花费的时间来测量代理人的表现。