CN105580384B

CN105580384B - 触摸屏上显示的可操作内容

Info

Publication number: CN105580384B
Application number: CN201480053251.4A
Authority: CN
Inventors: 白鹏; J·杜; 霍强; L·孙
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-09-27
Filing date: 2014-09-24
Publication date: 2018-07-31
Anticipated expiration: 2034-09-24
Also published as: WO2015048047A1; TW201523426A; US20160210040A1; EP3050312A1; KR20160061349A; KR20220000953A; US11003349B2; KR102238809B1; US9329692B2; US20150095855A1; US10191650B2; KR20210040196A; KR102447607B1; CN105580384A; KR102347398B1; EP3050312B1; US20190114072A1

Abstract

一些实施方式可以在触摸屏显示器上呈现包括视频的媒体文件。可以检测在触摸屏显示器上执行的用户手势。该用户手势可以包括下面中的一种：点击手势、滑动手势、或者“点击并按住以及在按住同时进行拖动”的手势。可以确定由用户手势所选定的文本。可以至少部分地基于由用户手势所选定的文本自动地执行一个或多个后续动作。

Description

触摸屏上显示的可操作内容

背景技术

当用户观看诸如视频文件、流视频、文档、网页等等之类的媒体文件时，用户可能期望获得关于该媒体文件所显示的文本的信息。例如，正在观看对技术主题的呈现(presentation)的用户，可能期望获得与该呈现的作者之一或者与该技术主题相关联的信息。用户可以暂停对该媒体文件的观看，打开网络浏览器，导航到搜索引擎，使用作者的名字或者该技术主题中的关键词来执行搜索，查看结果，并选择在结果中显示的一个或多个链接以获得更多的信息。在用户获得该信息之后，用户可以继续观看该媒体文件。每当用户期望获得关于由媒体文件所显示的文本的信息时，用户都可以反复地暂停对该媒体文件的观看。但是，每当用户期望获得关于媒体文件所显示的文本的信息时都反复地暂停对该媒体文件的观看可能是耗时的，并且/或者可能中断经由该媒体文件所呈现的材料的流。

发明内容

提供本概要部分以便用简化的形式介绍将在以下的详细描述中进一步描述的概念选择。本概要部分并不是旨在标识本发明的关键特征或本质特征，也不是要用来确定或者限制所要求保护的主题的范围。

一些实施方式可以在触摸屏显示器上呈现包括视频的媒体文件。可以检测在触摸屏显示器上执行的用户手势。该用户手势可以包括下面中的一种：点击(tap)手势、滑动(swipe)手势、或者点击并按住(hold)以及在按住同时进行拖动的手势。可以确定由用户手势所选定的文本。可以至少部分地基于由用户手势所选定的文本，自动地执行一个或多个后续动作。

附图说明

参照附图描述了具体实施方式。在这些附图中，附图标记的最左数位标识该附图识别第一次出现时的附图。不同附图中的相同附图标记指示相似或相同的项。

图1是根据一些实施方式，包括后续动作模块的示例性架构。

图2是根据一些实施方式，具有用于示出接收点击手势的触摸屏显示器用户界面的示例性计算设备。

图3是根据一些实施方式，具有用于示出接收滑动手势的触摸屏显示器用户界面的示例性计算设备。

图4是根据一些实施方式，具有用于示出接收“点击并按住”手势的触摸屏显示器用户界面的示例性计算设备。

图5是根据一些实施方式，包括检测点击手势或者滑动手势的示例性过程的流程图。

图6是根据一些实施方式，包括检测“点击并按住”手势的示例性过程的流程图。

图7是根据一些实施方式的示例性计算设备和环境的框图。

具体实施方式

如上文所讨论的，每当用户期望获得关于媒体文件所显示的文本的信息时都反复地暂停对该媒体文件的观看，可能是耗时的，并且/或者可能中断经由该媒体文件所呈现的材料的流。本文所描述的系统和技术可以使得能够：响应于在对包括文本的媒体进行显示的触摸屏上检测到用户手势，自动地执行不同的动作。用户手势可以使用诸如下面的手势来选择由媒体所显示的文本：点击触摸屏的一部分(其中显示有词语)；滑动触摸屏的一部分(其中显示有两个或更多词语)；或者点击并按住触摸屏的第一部分，随后在触摸屏的第二部分上拖动(同时按住)。后一手势还可以称为：点击并按住，以及在按住的同时进行拖动。可以使用各种技术来执行本文所描述的手势，所述各种技术包括：使用用户的肢体的至少一部分(例如，指尖)，使用选择工具(例如，手写笔)，使用多触摸(例如，指尖和拇指，或者两个指尖)手势、非触摸手势(例如，诸如Microsoft的之类的相机所识别的手势)、触摸加语音命令(例如，触摸一个词语，随后说“搜索”或“翻译”)、另一种类型的输入机制、或者上述技术的任意组合。

用户可以在具有触摸屏显示器的计算设备上观看媒体文件。例如，该计算设备可以包括台式计算机、膝上计算机、平板计算机、移动电话、游戏设备、媒体回放设备或者其它类型的计算设备。该媒体文件可以是视频(例如，视频文件或者流视频)、音频文件(其使得显示文本(例如，与该音频文件相关联的信息，比如标题、艺术家信息、歌词等等)、文档、图像文件(例如，图片、照片或者计算机生成的图像)、网络浏览器显示的页面、另一种类型的媒体文件或者其任意组合。用户可以在与触摸屏上的一个位置(其中文本被媒体文件显示在该位置)近似对应的位置，在该触摸屏上执行用户手势。

点击手势指的是向触摸屏的一部分施加一段预定时间的压力(例如，在200和800毫秒之间)。滑动手势指的是从触摸屏的起始位置到结束位置施加压力。“点击并按住以及在按住同时进行拖动”的手势，指的是在起始位置处施加一段预定时间的压力，同时继续施加压力，将压力的位置移动到触摸屏的结束位置。对于显示多个帧或页面的媒体文件来说，“点击并按住以及在按住同时进行拖动”的手势可覆盖多个帧或页面。例如，在起始位置点击并按住，可造成视频回放被暂停。在继续施加压力的同时(例如，在按住的同时)，将压力的位置拖动(例如，移动)到结束位置可造成暂停的媒体前进(例如，视频可前进到一个或多个接下来的帧，或者文档可前进到一个或多个接下来的页面)。以此方式，“点击并按住以及在按住同时进行拖动”的手势可以从可使用多个视频帧、多个文档页等等被显示的媒体文件中选择文本。当正在显示包括文本的视频时，“点击并按住以及在按住同时进行拖动”的手势可跨越(span)视频的一个以上的帧，以从一个以上的视频帧中选择文本。当正在显示具有多个文本页面的文档时，“点击并按住以及在按住同时进行拖动”的手势可跨越文档的一个以上的页面，以从该文档的一个以上的页面中选择文本。

响应于检测到用户手势(例如，点击、滑动或者点击并按住以及在按住同时进行拖动)，可以对一个或多个屏幕进行捕获，以在执行该手势时捕获在触摸屏上显示的媒体文件的一部分。例如，当显示文档时，在执行用户手势时所显示的文本可以被捕获到。再举一个例子，当显示视频时，可以使用帧抓取器来捕获该视频的一个或多个帧。

可以确定与用户手势相关联的位置信息。例如，对于点击手势而言，可以确定触摸屏上的与点击手势相关联的坐标(例如，x和y坐标)。对于滑动手势而言，可以确定与滑动手势相关联的起始坐标和结束坐标。对于“点击并按住以及在按住同时进行拖动”的手势而言，可以确定对于每一个帧、页面或者其它类型的显示单元的起始坐标和结束坐标。如果在执行用户手势时，正在显示包括时间信息的视频文件、音频文件或其它类型的文件，则除了位置信息之外还可以确定与该用户手势相关联的时间信息(例如，时间戳或时间码)。例如，当在触摸屏显示器上显示视频文件时，执行了点击手势或者滑动手势，则可以确定与该用户手势相关联的位置信息和时间信息。为了说明，该时间信息可以包括与用户手势相关联的起始时间(例如，第一时间码，标识发起该用户手势的时间)、与用户手势相关联的结束时间(例如，第二时间码，标识结束该用户手势的时间)、与用户手势相关联的另一种类型的时间信息、或者上述各项的任意组合。

可以通过使用高效的用户意图引导文本提取算法，基于与用户手势相关联的位置信息，来从(一个或多个)屏幕捕获中提取文本图像补丁。所提取的文本图像可以使用光学字符识别(OCR)或者类似的文本提取技术来确定所选定的文本。例如，响应于点击手势，可以从屏幕捕获中提取词语。所提取的词语可以对应于：在触摸屏上执行点击手势的位置处或者附近进行显示的媒体文件的文本。响应于滑动手势，可以从屏幕捕获中提取一个或多个词语。所提取的词语可以对应于：在触摸屏上执行滑动手势的位置处或者附近进行显示的媒体文件的文本的部分。响应于“点击并按住以及在按住同时进行拖动”的手势，可以从一个或多个屏幕捕获中提取一个或多个词语。所提取的词语可以对应于：在触摸屏上执行“点击并按住以及在按住同时进行拖动”的手势的位置处或者附近进行显示的媒体文件的文本的部分。

在已从(一个或多个)屏幕捕获中提取一个或多个词语之后，可以自动地执行一个或多个动作(例如，不经人工干预)。可以自动地执行的动作可以包括：将所选定的文本从第一语言翻译成第二语言，执行互联网搜索，执行特定网址的搜索，等等。响应于触摸屏上的用户手势而自动执行的动作，可以基于与所选定的文本相关联的上下文(例如，位于所选定的文本之前和/或之后的文本、从中获得该媒体的网站或者服务器、该媒体的作者或创作者等等)、用户偏好、缺省动作组或者上述任意组合来确定。例如，缺省动作组可以包括：使用所选定的文本来执行搜索。再举一个例子，用户偏好可以指定包括下面各项的一组动作：将所选定的文本翻译成目标语言、显示经翻译的文本、以及使用经翻译的文本来执行搜索。

自动地执行的动作的结果，可以在正在显示媒体文件的视窗中或者在第二视窗中显示。第二视窗可以在显示媒体文件的视窗旁边进行显示，也可以作为弹出窗(例如，覆盖在显示该媒体的视窗之上)显示。例如，可以在覆盖在显示该媒体的视窗之上的弹出窗中，显示所选定的文本的翻译以及使用经翻译的文本进行的互联网搜索的结果。再举一个例子，可以在第一弹出窗中显示所选定的文本的翻译，并且在第二弹出窗中显示使用经翻译的文本进行的互联网搜索的结果。

在一些情况下，可以使用两个交互模型。当在用户正在观看媒体内容(例如，视频文件、音频文件、文档等等)的同时有用户手势被接收到时，可以使用第一交互模型。当用户在观看媒体内容的同时执行用户手势时，则可以执行一个或多个缺省动作，并且可以在第二视窗(例如，弹出窗)中显示这些缺省动作的结果。对于当在观看第二视窗中的缺省动作的结果的同时接收到的用户手势，可以使用第二交互模型。例如，第一交互模型可以包括：将所选定的文本从源语言翻译成目标语言，并使用经翻译的文本来执行搜索。第二交互模型可以包括：使用所选定的文本来执行搜索。在该例子中，对所选定的文本的翻译是以在第一交互模型中而不是在第二交互模型中执行的。第一交互模型和第二交互模型可以使用用户简档、用户偏好文件或者类似的用户特定定制技术来指定。

因此，当观看媒体文件时，用户可以输入手势，以使得(1)从该媒体文件的一部分中提取文本，(2)使用所提取的文本来自动地执行一个或多个动作。用户手势可以包括例如点击手势、滑动手势、以及“点击并按住以及在按住同时进行拖动”。响应于用户手势而自动执行的动作可以包括例如：对所选定的文本进行翻译、使用所选定的文本执行搜索等等。例如，正在观看技术呈现(例如，视频、一组幻灯片、文档、网页等等)的用户可以对技术词语或短语进行点击或者滑动，以获得与该技术词语或短语相关联的另外的信息。再举一个例子，正在观看该技术呈现的用户可以点击或者滑动作者的名字，以获得与该作者相关联的另外的信息。

示例性架构

图1是根据一些实施方式的包括后续动作模块的示例性架构100。架构100包括使用网络106来耦合到一个或多个服务器104的计算设备102。

服务器104可以提供各种基于网络的服务，例如，用于搜索互联网的搜索服务、用于将词语、短语或者语句从源语言翻译成目标语言的翻译服务等等。网络106可以包括有线和/或无线网络。有线网络可以使用各种各样的协议和标准，例如下面中的一种或多种：以太网、电缆传输数据服务接口规范(DOCSIS)、数字用户线(DSL)等等。无线网络可以使用各种各样的协议和标准，例如下面中的一种或多种：码分多址(CDMA)、全球移动通信系统(GSM)、WiFi(例如，802.11)等等。

计算设备102可以是台式计算机、膝上型计算机、平板计算机、媒体回放设备、移动电话设备、另一种类型的计算设备或者上述各项的任意组合。计算设备102可以包括一个或多个处理器108、触摸屏显示器110和存储器112。存储器112可以用于存储由处理器108可执行的用以执行各种功能的指令。可以根据这些指令所执行的功能，将这些指令分组成模块。例如，存储器可以包括媒体回放模块114、屏幕捕获模块116、输入处理程序模块118、文本提取模块120、文本识别模块122、上下文确定模块124、用户偏好126和后续动作模块128。

媒体回放模块114能够呈现(例如，播放或显示)不同类型的媒体，其包括视频文件、音频文件、文档(例如，具有遵循的格式、便携式文档格式(PDF)、富文本格式(RTF)、网络浏览器显示的页面或者其它文档格式)、以及其它类型的媒体文件。在媒体文件130的回放期间，媒体回放模块114可以显示该媒体文件130中包括的文本或者与该媒体文件130相关联的文本。例如，当播放视频文件时，媒体回放模块114可以显示文本(在该视频文件包括文本时，文本例如该视频文件的标题或者该视频文件的作者)。再举一个例子，当播放音频文件时，媒体回放模块114可以显示文本，例如：该音频文件的名称、包括该音频文件的专辑的名称、与该音频文件相关联的音乐家的名称、与该音频文件相关联的歌词、与该音频文件相关联的其它文本、或者上述各项的任意组合。所显示的文本的至少一部分可以包括在该音频文件中，也可以由媒体回放模块114从服务器104中的一个获取的。媒体文件130可以是存储器112中存储的文件，也可以是穿过网络106从服务器104中的一个进行流传输的文件。

当呈现媒体文件130时，屏幕捕获模块116可以捕获由媒体回放模块114显示在触摸屏显示器110上的媒体内容的屏幕快照。显示的媒体内容可以包括文本。例如，屏幕捕获模块116可以创建一个或多个屏幕捕获132。捕获模块116捕获显示的媒体内容的方式，可以根据媒体文件130的类型来变化。例如，当媒体文件130是视频文件时，屏幕捕获模块116可以使用帧抓取技术来捕获该视频的一个或多个帧。再举一个例子，当媒体文件130是文档时，屏幕捕获模块116可以使用屏幕捕获技术，来捕获来自所显示的文档的内容的一个或多个屏幕。

输入处理程序(input handler)模块118可以接收用户输入134，用户输入134包括由用户在触摸屏显示器110上做出的手势。输入处理程序模块118可以检测并且识别在用户输入134中包括的手势。例如，输入处理程序模块118可以检测并且识别用户手势136，其中该用户手势136是使用触摸屏显示器110的输入。响应于检测到用户手势136，输入处理程序模块118可以指示屏幕捕获模块116捕获由媒体回放模块114呈现在触摸屏显示器110上的来自该媒体文件130的一部分的屏幕捕获132。

输入处理程序模块118可以创建历史文件138，其包括关于接收到什么用户手势以及接收到这些用户手势的时间的信息。例如，输入处理程序模块118可以创建针对每一个用户与各个媒体文件的交互的历史文件。下面将更详细地描述历史文件138。

输入处理程序模块118可以确定与各个用户手势136相关联的位置数据140。例如，当用户手势136是点击手势时，位置数据140可以标识在触摸屏显示器110上检测到用户手势136的位置(例如，x和y坐标)。当用户手势136是滑动手势时，位置数据140可以标识在触摸屏显示器110上检测到用户手势136的起始位置和结束位置。当用户手势136是点击并按住以及在按住同时进行拖动的手势时，位置数据140可以标识与该用户手势136相关联的媒体文件130的每一个帧(或页面)的在触摸屏显示器110上的起始位置和结束位置。

文本提取模块120可以从屏幕捕获132中提取文本，作为所提取的文本图像142。例如，文本提取模块120可以使用用户意图引导文本提取算法(user-intention guided textextraction algorithm)，来从屏幕捕获132中创建所提取的文本图像142。文本提取模块120可以将屏幕捕获132和用户手势136作为文本区域的输入和输出位置和边界框，文本区域可以包括用户所选定的文本、意图文本(例如，基于用户手势来确定用户意图，并基于用户意图来选择文本)和上下文文本。对于点击并按住以及在按住同时进行拖动的手势而言，文本提取模块120可以从图像中提取多行的文本，其包括跨越视频的多个帧或者文档的多个页面的文本。

可以使用组件树(其中每一个节点表示一个极值区域(例如，一种流行类型的图像表示方法))来设计高效的用户意图引导文本提取算法，以自动地提取文本。替代地或者另外地，除了独立地考虑组件树的每一个节点之外，还可以使用诸如该树的结构信息、文本行信息和用户意图之类的其它信息，来修剪该组件树的非文本节点。例如，当检测到用户手势时，可以将该图像重新设定大小。可以通过假定白色背景上的黑色文本和黑色背景上的白色文本，来从已重新设定大小的图像中构建两个组件树。这两个组件树可以单独地进行修剪。可以通过将各个树中的幸存节点(例如，在修剪过程中幸存的节点)进行组合，来计算文本的边界框。可以将来自两个组件树的结果进行比较，选择更佳的一个作为输出。修剪可以包括：使用对比度和几何信息进行修剪，以及使用用户意图和文本行信息进行修剪。可以使用修剪步骤来修剪尽可能多的明显非文本区域。

文本识别模块122可以将所提取的文本图像142作为输入，并且使用OCR来生成所选定的文本144。文本识别模块122可以使位置数据140与屏幕捕获132相互关联，以识别用户所选定的文本(例如，所选定的文本144)。例如，可以使位置数据140与屏幕捕获132相互关联，以识别所提取的文本142的一部分，其中该部分与通过用户手势136所选定的该显示的媒体文件的部分相对应。为了说明起见，屏幕捕获132可以包括文本，该文本来自于视频的帧或者来自于文档的页面。所提取的文本142可以包括与来自视频的帧或者文档的页面的文本相对应的词语。文本识别模块122可以使用位置数据140来从所提取的文本142中，识别所选定的文本144(例如，通过用户手势136所选定的在触摸屏显示器110上显示的文本)。

由于所选定的文本144可被后续动作模块128用来执行一个或多个后续动作，因此所选定的文本144还可以称为可操作内容(actionable content)。后续动作模块128可以基于各种信息来执行后续动作。例如，每一个用户可以(例如，在用户简档中)指定用户偏好126，后者用于标识响应于特定的用户手势而要执行的一组特定的动作。为了说明起见，用户偏好126可以指定：针对于特定的用户，响应于点击手势，将执行第一组的动作，响应于滑动手势，将执行第二组的动作，响应于点击并按住以及在按住同时进行拖动的手势，将执行第三组的动作。

上下文确定模块124可以通过检查所提取的文本142中与所选定的文本144邻近的词语，来确定所选定的文本144的上下文146。例如，后续模块128可以确定所选定的文本144是常用词语，指示上下文确定模块124确定用户意图，基于用户意图来确定上下文146，并基于所选定的文本144和上下文146来执行后续动作。为了说明起见，当在观看关于主题“神经网络”的呈现时，用户可以执行点击手势来选择词语“网络”。后续模块128可以确定所选定的文本144(例如，“网络”)是常用词语，指示上下文确定模块124确定上下文146(例如，“神经”)，并基于所选定的文本144和上下文146(例如，“神经”和“网络”)来执行后续动作。再举一个例子，该呈现的作者可以显示成“Geoffrey Hinton”。用户可以执行点击手势以选择词语“Geoffrey”。后续模块128可以确定所选定的文本144(例如，“Geoffrey”)是常见的名字，指示上下文确定模块124来确定上下文146(例如，“Hinton”)，并基于所选定的文本144和上下文146(例如，“Geoffrey”和“Hinton”)来执行后续动作。在一些情况下，后续模块128可以基于上下文146来修改所选定的文本144，并基于经修改的所选定的文本144来执行后续动作。

如果用户不具有用户偏好126的相关联集，并且后续模块128确定不需要对与所选定的文本144相关联的上下文146进行确定，则后续模块128可以执行一个或多个缺省动作148。因此，后续动作模块128可以基于下面中的一项或多项来确定将要执行的后续动作150：所选定的文本144、上下文146、用户偏好126或者缺省动作148。

在确定后续动作150之后，后续动作模块128可以执行后续动作150中的一个或多个，显示执行后续动作150的结果152。后续动作150可以包括由计算设备102执行的动作、由服务器104执行的动作、或二者。例如，后续动作可以包括：使用计算设备102的存储器112中存储的字典来翻译所选定的文本144，随后向以服务器104中的一个服务器104做主机的搜索引擎发送经翻译的文本。结果152可以包括经翻译的文本，以及来自搜索引擎的搜索结果。再举一个例子，后续动作可以包括：使用以服务器104中的一个服务器104做主机的翻译服务来翻译所选定的文本144，从该翻译服务接收经翻译的文本，随后向以服务器104中的一个服务器104做主机的搜索引擎发送经翻译的文本。结果152可以包括经翻译的文本和搜索结果。再举一个例子，结果152可以包括：使用文本转语音发生器来对所选定的文本的一个或多个进行发音。该文本转语音发生器可以是计算设备102的一个模块，或者是以服务器104中的一个服务器104做主机的服务。

可以以各种方式来显示结果152。例如，可以在弹出窗中显示结果152，其中该弹出窗与呈现媒体文件130的视窗的至少一部分交叠。可以在与呈现媒体文件130的相同视窗中显示结果152。可以在第一视窗中呈现媒体文件130，在与第一视窗相邻(例如，之上、之下、之右或者之左)的第二视窗中显示结果152。如何向用户显示结果152可以通过用户偏好126来指定，或者通过缺省显示指令集来指定。

用户可以以与媒体文件130进行交互相似的方式，与结果152进行交互。例如，结果152可以包括搜索结果，搜索结果包含通过选择通用资源定位符(URL)来进行观看(例如，流式传输)的视频文件。响应于选择了视频文件的URL，媒体回放模块114可以发起与该URL相关联的视频文件的呈现。用户可以输入另外的用户手势来选择另外的文本，使得执行另外的后续动作，以及显示另外的结果等等。再举一个例子，用户可以输入用户手势，以选择结果152中的词语或短语，使得执行另外的后续动作，以及显示另外的结果等等。

输入处理程序模块118可以将用户手势136和与用户手势136相关联的信息记录在历史文件138中。例如，当媒体文件130是视频文件或者音频文件时，输入处理程序模块118可以记录用户手势136、位置数据140、以及标识接收到该用户手势136时的媒体文件130中的时间位置的时间戳。输入处理程序模块118可以记录在结果152上执行的第一组的用户手势、在执行第一组的用户手势的结果上执行的第二组的用户手势、等等。在输入用户手势136时，历史文件138可以帮助用户在媒体文件的回放期间定位时间位置。媒体回放模块114可以显示视频时间轴，其标识由用户输入的每一个用户手势，以使用户能够快速地定位媒体文件130的呈现。可以针对每一个用户和/或每一个会话，单独地存储历史文件。用户可以基于每一个媒体文件的所选定的文本，搜索遍历相应历史文件的内容的索引。每一个历史文件138都可以包括高亮显示的信息和/或注释。例如，当用户观看在线课程(例如，视频和/或文档)时，用户可以使媒体文件130中的关键词高亮显示，和/或向关键词增加注释。用户可以使用用户手势来选择用于高亮显示和/或注释的关键词。由于将高亮显示信息和/或注释一起存储在历史文件中，因此用户可以搜索高亮显示的文本和/或注释，找到相应的视频以及先前执行的动作的信息(例如，自动执行的后续动作和/或用户执行的动作)。

因此，选择媒体文件显示的文本的一部分的用户手势，可造成自动地执行一个或多个后续动作(例如，不经人工干预)。例如，用户可以使用媒体回放模块114来观看媒体文件130。用户可以在触摸屏显示器110上执行用户手势136。响应于检测到用户手势136，可以确定用户手势136的位置数据140，并且可以创建一个或多个屏幕捕获132。可以从屏幕捕获132中提取得到所提取的文本142。可以使用屏幕捕获132和位置数据140来识别所选定的文本144。在一些情况下，可以确定所选定的文本144的上下文146，和/或可以确定与用户相关联的用户偏好126。可以基于下面中的一项或多项，来执行后续动作150：所选定的文本144、上下文146、用户偏好126或者缺省动作148。可以在触摸屏显示器110上，自动地显示后续动作150的结果152。以此方式，当观看媒体文件时，用户可以在触摸屏上执行用户手势，造成自动地执行各种动作，并自动地显示结果。例如，观看技术呈现(例如，视频或文档)的用户，可以使用用户手势来选择该技术呈现所显示的不同的词语或短语。响应于该用户手势，可以执行各种动作，并自动地向用户显示结果。例如，用户可以自动地获得响应于该用户手势的翻译和/或搜索结果。

图2是根据一些实施方式，具有用于示出接收点击手势的触摸屏显示器用户界面的示例性计算设备200。可以提供媒体播放器界面202，以使用户能够观看诸如媒体文件130之类的媒体文件。

响应于用户在触摸屏显示器110上执行点击手势204，计算设备102可以确定所选定的文本144。例如，在图2中，用户可以在词语“Geoffrey”的至少一部分处或者附近，执行点击手势204。响应于检测到点击手势204，计算设备102可以识别所选定的文本144。例如，计算设备102可以确定与点击手势204相关联的位置数据，并执行屏幕捕获。计算设备102可以从屏幕捕获中提取文本(例如，使用OCR)，基于位置数据和所提取的文本来确定所选定的文本144。

计算设备102可以基于所选定的文本144来执行一个或多个动作，并且在视窗208中提供结果152。例如，结果152可以包括与所选定的文本144相对应的翻译210、基于所选定的文本144和/或翻译210的搜索结果212和/或来自于任何其它后续动作的结果。

在一些情况下，可以使用两个交互模型。当用户正在观看媒体文件130的同时有用户手势被接收到时，可以使用第一交互模型。当用户在观看媒体文件130的同时执行用户手势时，则可以执行一个或多个缺省动作，并在视窗208中显示这些缺省动作的结果。对于在视窗208中观看这些缺省动作的结果的同时接收到的用户手势，可以使用第二交互模型。例如，第一交互模型可以包括：将所选定的文本从源语言翻译成目标语言，并使用经翻译的文本来执行搜索。第二交互模型可以包括：使用所选定的文本来执行搜索。在该例子中，对所选定的文本的翻译是在第一交互模型中而不是在第二交互模型中执行的。第一交互模型和第二交互模型可以使用用户简档、用户偏好文件或者类似的用户特定定制技术来指定。

因此，响应于点击手势204，计算设备可以自动地选择词语(例如，“Geoffrey”)作为选定的文本144。计算设备102可以使用所选定的文本144，自动地执行一个或多个后续动作。计算设备102可以自动地在视窗208中显示后续动作的结果152。

图3是根据一些实施方式，具有用于示出接收滑动手势的触摸屏显示器用户界面的示例性计算设备300。响应于用户在触摸屏显示器110上执行滑动手势302，计算设备102可以确定所选定的文本144。例如，在图3中，用户可以在短语“Geoffrey Hinton”的至少一部分处或者附近，执行滑动手势302。

响应于检测到滑动手势302，计算设备102可以识别所选定的文本144。例如，计算设备102可以确定与滑动手势302相关联的位置数据(例如，起始位置和结束位置)，并执行屏幕捕获。例如，如果媒体文件130包括视频数据，则视频捕捉器模块可以捕获该视频数据的一个或多个帧。计算设备102可以从屏幕捕获中提取文本(例如，使用OCR)，基于位置数据和所提取的文本来确定所选定的文本144。

计算设备102可以基于所选定的文本144来执行一个或多个动作，并且在视窗208中提供结果152。例如，结果152可以包括与所选定的文本144相对应的翻译、基于所选定的文本144和/或翻译的搜索结果，和/或来自于任何其它后续动作的结果。

如先前所提及的，可以使用两个交互模型。当用户正在观看媒体文件130的同时有用户手势被接收到时，可以使用第一交互模型。当用户在观看媒体文件130的同时执行用户手势时，则可以执行一个或多个缺省动作，并在视窗208中显示这些缺省动作的结果。对于在视窗208中观看这些缺省动作的结果的同时接收到的用户手势，可以使用第二交互模型。

因此，响应于滑动手势302，计算设备可以自动地将短语(例如，“GeoffreyHinton”)作为所选定的文本144而选择。计算设备102可以使用所选定的文本144，自动地执行一个或多个后续动作。计算设备102可以自动地在视窗208中显示后续动作的结果152。

图4是根据一些实施方式，具有用于示出接收“点击并按住”的手势的触摸屏显示器用户界面的示例性计算设备400。响应于用户在触摸屏显示器110上执行“点击并按住”的手势402，计算设备102可以确定所选定的文本144。例如，在图4中，用户可以在词语“Fully”的至少一部分处或者附近，执行“点击并按住”的手势402。响应于检测到“点击并按住”的手势402，在一些情况下，计算设备102可以暂停媒体文件130的回放(或者显示)，以使用户能够选择在多个帧(或多个页面)中显示的文本。

计算设备102可以等待一段预定的时间来接收“在按住同时进行拖动”的手势404。如果在预定的一段时间之内用户没有输入“在按住同时进行拖动”的手势404，则计算设备102可以将“点击并按住”的手势402当作点击手势204对待。如果用户在预定的一段时间之内输入了“在按住同时进行拖动”的手势404，则计算设备102可以使对该媒体文件130的呈现“提前”(advance)(例如，显示另外的页面或者回放另外的帧)，直到“在按住同时进行拖动”的手势404停止为止(例如，直到用户将“按住”松开为止)。

计算设备102可以确定与“点击并按住”的手势402以及“在按住同时进行拖动”的手势404相关联的位置数据(例如，一个或多个起始位置和结束位置)。计算设备102可以捕获媒体文件130的一个或多个屏幕捕获。例如，如果计算设备102在按住同时进行拖动的手势404期间，对媒体文件130的呈现进行了提前，则计算设备102可以捕获多个屏幕的屏幕快照。所述多个屏幕捕获可以包括：发生“点击并按住”的手势402时的初始屏幕，以及另外的屏幕，直到并且包括：其中“在按住同时进行拖动”的手势404结束(例如，“拖动”停止或者“按住”被松开)的最后屏幕。计算设备102可以从屏幕捕获中提取文本(例如，使用OCR)，并且基于手势402和404的位置数据和所提取的文本来确定所选定的文本144。

因此，响应于手势402和404，计算设备可以自动地将多个词语(例如，“FullyRecurrent Networks”)作为所选定的文本144而选择。在一些情况下，所选定的文本144可以跨越多个屏幕(例如，一个视频的多个帧、一个文档的多个页面等等)。计算设备102可以使用所选定的文本144，自动地执行一个或多个后续动作。计算设备102可以在视窗208中自动地显示后续动作的结果152。

示例性过程

在图5、6和7的流程图中，每一个框表示可以在硬件、软件或者其组合中实现的一个或多个操作。在软件的背景下，这些框表示计算机可执行指令，当这些计算机可执行指令被一个或多个处理器执行时，使得处理器执行所记载的操作。通常，计算机可执行指令包括用于执行特定的功能或者实现特定的抽象数据类型的例程、程序、对象、模块、组件、数据结构等等。描述这些框的顺序并不是要被解释成限制性的，可以以任何顺序和/或并行地组合任意数量的所描述的操作，以实现这些过程。为便于讨论起见，参照如上所述的架构100、200、300和400来描述了过程500、600和700，但其它模型、框架、系统和环境也可以实现这些过程。

图5是根据一些实施方式，包括检测点击手势或者滑动手势的示例性过程500的流程图。处理500可以(但不必须)由图1、2、3或4的计算设备102来执行。

在502，可以检测用户手势(例如，点击手势或滑动手势)。例如，在图1中，输入处理程序模块118可以检测用户手势136。用户手势136可以包括图2的点击手势204或者图3的滑动手势302。

在504，可以创建在显示器上显示的媒体文件的一部分的屏幕捕获。例如，在图1中，响应于检测到用户手势136，输入处理程序模块118可以指示屏幕捕获模块116创建屏幕捕获132，屏幕捕获132将在触摸屏显示器110上显示的媒体文件130的至少一部分捕获。

在506，可以确定与该点击手势或者滑动手势相关联的位置数据。例如，在图1中，输入处理程序118可以确定与用户手势136相关联的位置数据140。对于图2的点击手势204而言，位置数据140可以包括在触摸屏110上发生点击手势204的位置的x和y坐标。对于图3的滑动手势302而言，位置数据140可以包括该滑动手势302在触摸屏110上的位置的起始坐标和结束坐标。

在508，可以从屏幕捕获中提取文本，并且可以使用位置数据来确定所选定的文本。例如，在图1中，文本提取模块120可以使用OCR来从屏幕捕获132中创建所提取的文本142。文本识别模块122可以通过使位置数据140与屏幕捕获132和所提取的文本142相互关联，来确定所选定的文本144。

在510，可以确定用户偏好。例如，在图1中，后续动作模块128可以使用用户偏好126来确定用户的偏好。

在512，可以确定与所选定的文本相关联的上下文。例如，在图1中，可以通过检查与所选定的文本144紧密相邻的词语，根据所提取的文本142来确定与所选定的文本144相关联的上下文146。

在514，可以自动地执行一个或多个后续动作。在516，可以显示执行所述一个或多个后续动作的结果。例如，在图1中，后续动作模块128可以自动地执行后续动作150，并且自动地显示结果152。可以基于下面中的一项或多项，来选择后续动作150：所选定的文本144、上下文146、缺省动作148或者用户偏好126。

如果用户在观看结果时执行了用户手势，则该过程可以转回到502。例如，用户可以执行用户手势，以从所显示的结果中选择文本。计算设备102可以检测用户手势，执行屏幕捕获，从所捕获的屏幕中提取文本，确定与用户手势相关联的位置数据，以及使位置数据与所提取的文本相互关联，以确定所选定的文本。计算设备可以使用所选定的文本来执行一个或多个另外的后续动作，以及显示执行这些另外的动作的另外结果。用户可以在观看这些另外的结果的同时执行另一个用户手势，等等，其导致嵌套层级的后续动作和结果。

因此，在媒体文件的呈现期间，用户手势可造成媒体文件所显示的文本(例如，词语或短语)被选择。可以使用所选定的文本来自动地执行各种动作，并自动地向用户显示结果。以此方式，用户可以容易地获得关于在媒体文件的呈现期间显示的词语或短语的其它信息。

图6是根据一些实施方式，包括检测“点击并按住”的手势的示例性过程600的流程图。过程600可以(但不必须)由图1、2、3或4的计算设备102来执行。

在602，可以在媒体文件的呈现期间，检测“点击并按住”的手势。例如，在图1中，输入处理程序模块118可以检测包括用户手势136的用户输入134。用户手势136可以包括图4的“点击并按住”的手势402。

在604，可以暂停媒体文件的呈现(例如，回放)。在606，可以捕获初始屏幕。例如，在图1中，响应于确定该用户手势136是“点击并按住”的手势(例如，图4的“点击并按住”的手势402)，输入处理程序模块118可以指示媒体回放模块114暂停媒体文件130的回放。输入处理程序模块118可以指示屏幕捕获模块116捕获发生“点击并按住”的手势时的初始屏幕。

在608，可以检测另外的用户输入(例如，“在按住同时进行拖动”的手势)。在610，可以捕获另外的屏幕。例如，在图1中，输入处理程序模块118可以检测到用户手势136包括“在按住同时进行拖动”的手势404。作为响应，输入处理程序模块118可以指示媒体回放模块114呈现该媒体文件130的另外部分，直到“在按住同时进行拖动”的手势完成为止(例如，直到“拖动”停止或者“按住”被松开为止)。当媒体回放模块114呈现媒体文件130的另外部分时，输入处理程序模块118可以指示屏幕捕获模块116捕获另外的屏幕，直到“在按住同时进行拖动”的手势完成为止。

在612，可以从屏幕捕获中提取文本，并且可以确定位置数据。在614，可以基于屏幕捕获和位置数据来确定所选定的文本。例如，在图1中，文本提取模块120可以从捕获的屏幕(例如，初始屏幕和另外的屏幕)中提取文本。输入处理程序模块118可以确定与“点击并按住”的手势和“在按住同时进行拖动”的手势相关联的位置数据140。文本识别模块122可以基于下面中的一项或多项，来确定所选定的文本144：屏幕捕获132、位置数据140或者所提取的文本142。

在616，可以确定与所选定的文本相关联的上下文。在一些情况下，例如，当所选定的文本144是模糊的或者常见出现的词语时，上下文确定模块124可以确定上下文146。上下文146可以包括所提取的文本142的一个或多个部分，例如，所选定的文本144附近的部分。

在618，可以自动地执行一个或多个后续动作。在620，可以显示这些后续动作的结果。例如，在图1中，后续动作模块128可以自动地执行后续动作150，并且可以自动地显示结果152。可以基于下面中的一项或多项，来选择后续动作150：所选定的文本144、上下文146、缺省动作148或者用户偏好126。

如果用户在观看结果时执行了用户手势，则该过程可以转回到602。例如，用户可以执行用户手势，以从所显示的结果中选择文本。计算设备102可以检测用户手势，执行屏幕捕获，从所捕获的屏幕中提取文本，确定与用户手势相关联的位置数据，以及使位置数据与所提取的文本相互关联，以确定所选定的文本。计算设备可以使用所选定的文本来执行一个或多个另外的后续动作，显示执行这些另外的动作的另外结果。用户可以在观看这些另外的结果时执行另一个用户手势，等等，其导致嵌套层级(nestedlevels)的后续动作和结果。

因此，在媒体文件的呈现期间，用户手势可造成媒体文件所显示的文本(例如，短语)被选择。该短语可以跨越媒体文件的多个页面(或帧)。可以使用所选定的文本来自动地执行各种动作，并且可以自动地向用户显示结果。以此方式，用户可以容易地获得关于在媒体文件的呈现期间显示的短语的另外的信息。

示例性计算设备和环境

图7示出了可以用于实现本文所描述的模块和功能的计算设备700和环境的示例性配置。例如，计算设备700可以表示计算设备102或者服务器104中的一个或多个。计算设备700可以包括一个或多个处理器702、存储器704、一个或多个通信接口706、显示器设备708(例如，图1的触摸屏显示器110)、其它输入/输出(I/O)设备710和一个或多个大容量存储设备712，这些部件能够经由系统总线714或其它适当的连接来彼此之间进行通信。

处理器702可以包括单一处理单元或者多个处理单元，所有这些处理单元都可以包括单一或多个计算单元或多个内核。处理器702可以实现成一个或多个微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。具体而言，处理器702可以被配置为获取并执行存储器704、大容量存储设备712或者其它计算机可读介质中存储的计算机可读指令。

存储器704和大容量存储设备712是用于存储由处理器702执行以实现上面所描述的各种功能的指令的计算机存储介质的例子。例如，存储器704通常可包括易失性存储器和非易失性存储器(如，RAM、ROM等等)。此外，大容量存储设备712通常可包括硬盘驱动器、固态盘驱动器、移动介质(其包括外部驱动器和可移动驱动器)、存储卡、闪存、软盘、光盘(如，CD、DVD)、存储阵列、连接有网络的存储、存储局域网等等。本文将存储器704和大容量存储设备712统一地称为存储器或计算机存储介质，其可以是能够将计算机可读、处理器可执行的程序指令存储成计算机程序代码的介质，其中处理器702可以将该计算机程序代码执行成配置为执行本文的实施方式中所描述的操作和功能的机器。

此外，计算设备700还可以包括用于经由网络、直接连接等等，与其它设备交换数据的一个或多个通信接口706，如上所述。通信接口706可以有助于实现各种各样的网络和协议类型中的通信，其中所述网络和协议类型包括有线网络(如，LAN、电缆等等)和无线网络(如，WLAN、蜂窝、卫星等等)、互联网等等。此外，通信接口706还可以提供与诸如存储阵列、连接有网络的存储、存储局域网等等中的外部存储(没有示出)的通信。

在一些实施方式中，可以包括诸如监视器之类的显示器设备708，以便向用户显示信息和图像。其它I/O设备710可以是从用户接收各种输入和向用户提供各种输出的设备，其可以包括键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。

存储器704可以包括用于根据本文所描述的实施方式，响应于在媒体文件的呈现期间接收的用户手势，而自动执行后续动作的模块和组件。在所示出的例子中，存储器704包括媒体回放模块114、屏幕捕获模块116、输入处理程序模块118、文本提取模块120、文本识别模块122、上下文确定模块124和后续动作模块128。

此外，存储器704还可以包括本文所描述的其它数据和数据结构，比如，媒体文件130、用户输入134、用户偏好126和结果152。此外，存储器704还可以包括一个或多个其它模块716，例如，操作系统、驱动程序、通信软件等等。此外，存储器704还可以包括其它数据718，比如，当执行上面所描述的功能时存储的数据，以及其它模块716所使用的数据。

本文所描述的示例系统和计算设备仅仅是适合于某些实施方式的例子，其并不是旨在对于可以实现本文所描述的处理、部件和特征的环境、架构和框架的用途或功能的保护范围建议任何限制。因此，本文的实施方式可结合众多环境或架构来操作，可以实现在通用或特殊用途计算系统中，或者实现在具有处理能力的其它设备中。通常，参照附图所描述的功能中的任何一个，可以使用软件、硬件(例如，固定逻辑电路)或者这些实施方式的组合来实现。如本文所使用的术语“模块”、“机制”或“组件”通常表示可以配置为实现规定的功能的软件、硬件、或者软件和硬件的组合。例如，在软件实施方式的情况下，术语“模块”、“机制”或“组件”可以表示当其在一个处理设备或一些处理设备(如，CPU或处理器)上执行时，执行指定的任务或操作的程序代码(和/或声明类型的指令)。程序代码可以存储在一个或多个计算机可读存储器设备或者其它计算机存储设备中。因此，本文描述的过程、组件和模块可以通过计算机程序产品来实现。

如本文所使用的，“计算机可读介质”包括计算机存储介质，但不包括通信介质。计算机存储介质包括以任何方法或技术实现的，用于存储诸如计算机可读指令、数据结构、程序模块或其它数据之类的信息的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于：随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程ROM(EEPROM)、闪存或其它存储器技术、光盘(CD-ROM)、数字多用途盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备、或者可以用于存储由计算设备进行访问的信息的任何其它非传输介质。

相比而言，通信介质可以包含计算机可读指令、数据结构、程序模块、或者调制的数据信号(如，载波)中的其它数据。如本文所定义的，计算机存储介质并不包括通信介质。

此外，本公开提供了如附图中所描述和示出的各种示例性实施方式。但是，本公开并不限于本文所描述和示出的实施方式，而可以扩展到其它实施方式，如本领域普通技术人员所已知或者即将知道的。说明书中对于“一个实施方式”、“该实施方式”、“这些实施方式”或者“一些实施方式”的引用，意味着所描述的特定特征、结构或者特性包括在至少一个实施方式中，这些短语在说明书的各个地方的出现并非必须全部都指的是同一个实施方式。

结论

虽然以特定于结构特征和/或方法行动的语言，描述了本发明的主题，但所附权利要求书中定义的主题并不限于上面所描述的特定特征或行动。相反，上面所描述的特定特征和行动只是作为实现权利要求书的示例性形式而公开。本公开内容旨在覆盖所公开实现的任何和全部调整或变型，并且所附的权利要求书不应被解释为受限于说明书中所公开的特定实施方式。

Claims

1.一种方法，包括：

在配置有指令的一个或多个处理器的控制下执行行动，所述指令可由所述一个或多个处理器执行，所述行动包括：

发起媒体文件在触摸屏显示器上的呈现，所述媒体文件包括视频；

检测在所述触摸屏显示器上执行的用户手势；

确定由所述用户手势所选定的文本，其中，响应于确定所述用户手势包括点击并按住以及在按住同时进行拖动的手势，所选定的文本包括跨越一个以上的视频帧的多个词语；

至少部分地基于由所述用户手势所选定的文本，确定用户意图；

基于所述用户意图，确定与由所述用户手势所选定的文本相关联的上下文，所述上下文包括在所述视频中捕获的另外的文本，其中所述另外的文本与由所述用户手势所选定的文本相关联；以及

至少部分地基于由所述用户手势所选定的文本并且至少部分地基于所述上下文，自动地执行一个或多个后续动作。

2.如权利要求1所述的方法，其中，确定由所述用户手势所选定的文本，包括：

基于所述媒体文件的至少一部分，创建一个或多个屏幕捕获；

从所述一个或多个屏幕捕获中提取文本以创建所提取的文本；

确定与所述用户手势相关联的位置数据；以及

基于使所提取的文本与所述位置数据相互关联，来确定由所述用户手势所选定的文本。

3.如权利要求1所述的方法，还包括以下至少之一：

确定一个或多个用户偏好，并且基于所述一个或多个用户偏好来选择所述一个或多个后续动作；以及

确定一个或多个缺省动作，并且基于所述一个或多个缺省动作来选择所述一个或多个后续动作。

4.如权利要求1所述的方法，其中，所述一个或多个后续动作包括：

向搜索引擎提交包括所述文本或翻译文本的搜索查询，其中，所述翻译文本是通过将由所述用户手势所选定的文本从源语言翻译成目标语言而创建的。

5.一个或多个计算机可读介质，其存储有由一个或多个处理器可执行以执行行动的指令，所述行动包括：

在触摸屏显示器上显示视频文件的一个或多个部分；

通过所述触摸屏显示器接收包括用户手势的输入；

基于所述用户手势识别所述视频文件中的所选定的文本，其中，响应于确定所述用户手势包括点击并按住以及在按住同时进行拖动的手势，所选定的文本包括跨越所述视频文件的一个以上帧的多个词语；

基于所述用户意图，确定与由所述用户手势所选定的文本相关联的上下文，所述上下文包括在所述视频文件中捕获的另外的文本，其中所述另外的文本与由所述用户手势所选定的文本相关联；以及

至少部分地基于所选定的文本并且至少部分地基于所述上下文，自动地执行至少一个后续动作。

6.如权利要求5中所述的一个或多个计算机可读介质，还包括：

在弹出窗中显示源自于自动地执行所述至少一个后续动作的结果，其中所述弹出窗与在所述触摸屏显示器上显示的所述视频文件的一个或多个部分至少部分地交叠。

7.一种计算设备，包括：

触摸屏显示器；

一个或多个处理器；以及

存储有指令的一个或多个计算机可读存储介质，其中所述指令由所述一个或多个处理器可执行以执行行动，所述行动包括：

播放包括视频的媒体文件；

当所述视频在播放时，检测在所述触摸屏显示器上执行的用户手势，其中所述用户手势包括下列之一：点击手势、滑动手势、或者点击并按住以及在按住同时进行拖动的手势；

基于所述用户手势在所述视频的一个以上的帧中识别所选定的文本，其中，响应于确定所述用户手势包括点击并按住以及在按住同时进行拖动的手势，所选定的文本包括跨越一个以上的帧的多个词语；

基于位于所选定的文本的预定距离内的另外的文本，确定与所选定的文本相关联的上下文；

至少部分地基于所述另外的文本，修改所选定的文本以创建经修改的文本；以及

基于所述经修改的文本，自动地执行后续动作。

8.如权利要求7中所述的计算设备，其中，基于所述用户手势在所述视频的一个以上的所述帧中识别所选定的文本，包括：

确定与所述用户手势相关联的位置数据，其中所述位置数据识别所述用户手势相对于所述触摸屏显示器的位置；

使用光学字符识别，从所述视频的一个以上的所述帧中提取文本以创建所提取的文本；以及

使所提取的文本与所述位置数据相互关联，以识别所选定的文本。

9.如权利要求7中所述的计算设备，其中，所述行动还包括：

显示通过基于所述经修改的文本而自动地执行所述后续动作所引起的结果；

接收选择所述结果的一部分的另外的用户手势；

基于所述结果的所述一部分执行另外的后续动作；以及

显示通过执行所述另外的后续动作所引起的另外的结果。