CN110731085A

CN110731085A - 检测和响应交互式视频内容的展示

Info

Publication number: CN110731085A
Application number: CN201880038769.9A
Authority: CN
Inventors: 杜威·浩·李; 沙尚克·C·麦钱特; 马库斯·K·克莱莫
Original assignee: Grasnot Corp
Current assignee: Liuke Co.,Ltd.
Priority date: 2017-06-12
Filing date: 2018-05-11
Publication date: 2020-01-24
Anticipated expiration: 2038-05-11
Also published as: EP3639522A4; US11936467B2; EP3912698A1; EP3912698B1; JP6937978B2; JP2020523871A; EP3639522B1; WO2018231393A1; US10972203B2; EP3639522A1; KR102350420B1; US10972204B2; KR20190141019A; US20180359040A1; US20180359041A1; US20210184779A1; KR20210044317A; CN110731085B; KR102242225B1

Abstract

计算系统获得由视频呈现设备正在展示的视频内容的指纹，该指纹包括表示预建立的视频片段的第一部分和表示动态定义的视频片段的第二部分。在获得查询指纹的同时，计算系统(a)检测查询指纹的第一部分与表示预建立的视频片段的参考指纹之间的匹配，(b)基于该匹配的检测，识别正在展示的视频内容，(c)在识别出正在展示的视频内容之后，将经训练的神经网络应用于查询指纹的至少第二部分，并且(d)基于神经网络的应用检测到所识别的视频内容的展示继续。并且响应于至少检测到所识别的视频内容的展示继续，计算系统随后采取相关联的动作。

Description

检测和响应交互式视频内容的展示

相关申请的交叉引用

本申请要求于2017年6月12日提交的美国专利申请No.15/620,440的优先权，在此通过引入将其整体并入本文。

背景技术

典型的视频呈现设备操作以接收表示视频内容的数字视频流，并将视频内容展示在显示器上以供一个或更多个用户观看。这样的设备的示例包括但不限于电视、计算机监视器、头戴式显示器、平板电脑、智能电话、手表、照相机、投影系统等。

在许多情况下，视频呈现设备可以与能够选择性地提供用于展示的多种视频内容中的任何视频内容的视频源通信，并且视频呈现设备能够被布置为接收和展示所选择的视频内容。例如，视频呈现设备能够与接收器、播放器、控制台、计算机和/或被配置为输出用户所选择的视频内容的远程服务器耦接或通信连接，并且视频呈现设备能够配置为接收由视频源正在输出的视频内容，并将视频内容实时呈现在显示器上以供观看。

一些视频内容能够为至少部分地“交互式”，其中向其呈现视频内容的用户与正在展示的内容进行交互，并且该内容基于该用户交互而动态变化。非限制性地，交互式视频内容的示例是视频游戏，其中用户(玩游戏的人)对游戏如何进行以及因此随着时间推移游戏的视频内容将如何至少具有一定的控制。例如，通过与游戏控制台、远程服务器或其他游戏视频内容源的交互，用户可以控制视频内容，其与实现或未能实现游戏目标、获得或失去游戏中的物件、游戏内的虚拟定向、和/或游戏中一个或更多个化身或对象的移动或其他动作相关，以及其他多种可能性。因此，交互式视频内容能够根据用户的输入实时变化，并且每次播放时都可能有很大不同。

这种用户交互以及对正在展示的视频内容的影响能够与用户对播放视频内容的基本机制的控制相区别，其中用户的交互对基础视频内容本身没有影响。例如，诸如游戏控制台或远程服务器的视频源可允许用户控制诸如播放、暂停、停止、快进或快退之类的功能。但是，与控制例如视频游戏的故事和进程的实时用户交互相反，这些控制功能不会影响基础视频内容，因此不会被视为交互式。

进一步地，包括这种交互式或动态定义的内容的视频内容也可以不时包括某些预先建立的或静态定义的视频片段，它们在展示时不会基于用户交互而变化。例如，视频游戏通常包含作为游戏级别之间的过渡而自动播放的预建立的“过场动画”(例如电影制作的视频片段)以及其他预建立的视频片段，例如启动场景、关闭场景等等。尽管用户可以对何时播放这些预建立的视频片段具有一定的控制，例如当用户成功完成视频游戏中的游戏级别时，预建立的视频片段的内容在预建立的视频片段正在展示时不会基于用户交互而变化。

发明内容

当视频呈现设备接收并展示视频内容时，视频呈现设备可能不具有正在展示的视频内容身份的指示。将视频内容提供给视频呈现设备的视频源(例如本地播放器或远程服务器)可以具有此类信息。但是从那个视频源接收视频内容的视频呈现设备可能没有这样的信息。

例如，如果计算机监视器与视频游戏控制台连接并且用户与游戏控制台交互以选择要玩的特定视频游戏，则游戏控制台可以指示正在玩哪个游戏，并因此指示哪个游戏的视频内容正在输出以供展示。但是计算机监视器可能仅接收和展示由游戏控制台所提供的视频内容，并且可能不指示正在呈现的该视频内容是视频游戏，更不用说正在玩哪个视频游戏以及因此地计算机监视器正在显示哪个视频游戏的内容了。

然而，由于各种原因，确定视频呈现设备正在展示的视频内容的身份可能是有用的。进一步地，在没有从视频源接收正在呈现视频内容的报告的情况下、并且可能在没有任何视频源或其提供者的参与的情况下这样做可能是有用的。例如，对于视频呈现设备本身和/或与视频呈现设备合作的网络服务器，根据对视频内容本身在展示时的评估来识别视频呈现设备正在展示的视频内容可能是有用的。

已经对正在展示的视频内容的身份的了解，视频呈现设备或其他实体能够以编程方式执行一个或更多个有用动作，诸如特定于所识别的视频内容的动作。例如，实体能够记录视频呈现设备正在呈现所识别的视频内容的事实，作为分析系统或内容分级的一部分以测量特定视频内容的呈现程度。可替代地，实体能够通过触发补充视频内容的呈现来响应正在呈现的特定视频内容，例如弹出广告或与被识别内容有关的其他信息，或者基于视频内容是所识别的视频内容的其他方式。

举例来说，在确定正在展示的视频内容是特定的视频游戏时，实体能够呈现提供与该视频游戏有关的虚拟或实体商品或服务的弹出广告。进一步地，实体能够确定游戏的呈现在过场动画之间持续多长时间，并基于该持续时间能够触发补充内容的呈现。例如，如果持续时间为阈值长，则实体能够基于用户似乎正在挣扎而触发游戏玩法帮助的呈现，例如用于实现游戏目标的提示或其他提示。其他示例也是可能的。

为了在实践中促进这一点，当视频呈现设备正在展示视频内容时，视频呈现设备能够生成正在展示的视频内容上的数字指纹并将其提供给计算系统。并且当计算系统获得该指纹时，计算系统能够将该指纹与对于已知视频内容项所预先建立的参考指纹数据进行比较。从理论上讲，如果计算系统由此确定正在展示的视频内容的指纹与已知视频内容项的参考指纹匹配，则服务器能够由此得出由视频呈现设备正在展示的视频内容是该已知视频内容项，并且该计算系统能够响应地采取上述动作。

然而，不幸的是，该过程会对于诸如视频游戏之类的交互式视频内容能够存在问题。如上所解释，交互式视频内容能够基于用户交互而动态变化并且因此每次其被呈现时都有所不同。结果，建立参考指纹数据作为在任何给定时间识别正在展示的交互式视频内容的可靠比较点可能是不切实际的。

另一方面，如上所述，诸如视频游戏之类的交互式视频内容也可以包含一些预建立的或静态定义的视频片段(例如过场动画等)，并且那些预建立的视频片段在展示时不会基于用户交互而动态变化。进一步地，诸如给定视频游戏的给定视频内容项中的预建立的视频片段可以对该视频内容项是唯一的(例如，不包含在其他视频内容项中)。因此在寻址交互式视频内容时，将指纹对比的重点放在此类预建立的视频片段上能够为有用的。

例如，当计算系统获得视频呈现设备正在展示的视频内容的数字指纹时，该计算系统能够将该指纹与分别与特定视频内容项(例如特定的视频游戏)相对应的各种预建立的视频片段的参考指纹进行比较。在确定由视频呈现设备正在展示的视频内容的指纹与特定预建立的视频片段的参考指纹相匹配时，计算系统能够由此推断视频呈现设备正在展示的视频内容是参考数据与该特定预建立的视频片段相关的视频内容项。

一旦计算系统由此确定视频呈现设备正在展示的视频内容的身份，则可以在预建立的视频片段结束之后，视频呈现设备继续展示所识别的视频内容。例如，对于视频游戏，所讨论的可为在所识别的过场动画结束后，正在展示的视频内容是否继续为与该过场动画相关联的视频游戏。进一步地，所讨论的能够为所识别的视频内容在预建立的视频片段实例之间的展示持续多长时间，例如被识别的视频游戏的互动游戏在过场动画等之间持续多长时间。

然而，在这里再次由于视频内容的交互性而引起了困难。即，一旦预建立的视频片段结束并且视频内容转变为在展示期间会基于用户交互而动态变化的交互式内容，仅使用指纹匹配作为基础以确定正在展示的视频内容是否继续为所识别的视频内容将再次变得困难或不切实际。

为了帮助解决这个困难，根据本公开，计算系统能够利用神经网络或其他机器学习算法，该神经网络或其他机器学习算法是基于所讨论的交互式视频内容的播出的许多实例而被训练的。例如，考虑到视频游戏，基于实际玩游戏的许多实例的数字指纹(例如众多在线游戏视频的数字指纹等)能够训练神经网络。尽管每次玩游戏时给定游戏的交互式视频内容可有所不同，但在游戏实例之间可存在足够的相似性，可以训练神经网络来识别游戏并在所述游戏和其他游戏之间、和/或至少在游戏和非游戏视频内容之间进行分类或区分。

因此，当计算系统获得了表示由视频呈现设备正在展示的视频内容的数字指纹时，该计算系统能够如上所述应用指纹匹配过程，且从而能够基于与已知的视频内容相关联的预先建立的视频片段相匹配的指纹匹配来识别视频内容。并且随着计算系统继续获得由视频呈现设备正在展示的视频内容的数字指纹，该计算系统随后能够将神经网络应用到视频内容的至少动态定义部分，从而能够检测到由视频呈现设备正在展示的视频内容继续为所识别的视频内容。有利地，计算系统随后能够响应地采取诸如如上所述的动作。

因此，在一个方面，本文所公开的是一种检测和响应视频呈现设备对视频内容的展示的方法，其中，视频内容包括(i)在展示期间不基于用户交互而变化的预建立的视频片段，以及(ii)在展示期间基于用户交互而变化的动态定义的视频片段。

根据该方法，计算系统获得在展示期间实时生成的查询指纹作为正在展示的视频内容的表示，其中查询指纹包括表示预建立的视频片段的第一部分和表示动态定义的视频片段的第二部分。进一步地，在获得查询指纹的同时，计算系统执行以下操作(a)检测查询指纹的第一部分与表示预建立的视频片段的参考指纹之间的匹配，(b)基于对匹配的检测，识别正在展示的视频内容，(c)在识别正在展示的视频内容之后，将经训练的神经网络应用于查询指纹的至少第二部分，并且(d)基于神经网络的应用检测所识别的视频内容的展示继续。并且再进一步地，响应于至少检测到所识别的视频内容的展示继续，计算系统随后采取与所识别的视频内容相关联的动作。

另外，在另一方面，公开了一种检测和响应视频游戏玩法的方法，其中，在视频显示单元上实时展示视频游戏，并且其中视频游戏包括：(i)在展示期间不基于用户交互而变化的过场动画视频片段以及(ii)在展示期间基于用户交互而变化的交互式视频片段。

根据该方法，计算系统获得在展示期间实时生成的查询指纹，作为正在玩的视频游戏的表示，其中查询指纹包括(i)表示第一过场动画视频片段的第一部分和(ii)表示第一交互式视频片段的第二部分。进一步地，计算系统检测到查询指纹的第一部分与表示第一过场动画视频片段的参考指纹之间的匹配，并基于所检测到的匹配由计算系统识别正在展示的视频游戏。并且在识别出正在展示的视频内容之后，计算系统将经训练的神经网络应用于查询指纹的至少第二部分，以检测正在展示的视频内容继续为所识别的视频游戏。并且再进一步地，响应于至少检测到正在展示的视频内容继续为所识别的视频游戏，计算系统使补充内容进行呈现。

另外，公开了一种包括了网络通信接口、处理单元、非暂时性数据存储器和程序指令的计算系统，该程序指令存储在非暂时性数据存储器中并且可由处理单元执行以执行用于检测和响应视频呈现设备对视频内容的展示的操作，其中，视频内容依次包括(i)在展示期间不基于用户交互而变化的预建立的视频片段，以及(ii)在展示期间基于用户交互而变化的动态定义的视频片段。

由计算系统执行的操作能够类似于上述操作。例如，操作能够包括经由网络通信接口从视频呈现设备接收在展示期间实时生成的查询指纹作为正在展示的视频内容的表示，其中，查询指纹依次包括(i)表示预建立的视频片段的第一部分和(ii)表示动态定义的视频片段的第二部分。进一步地，操作能够包括检测查询指纹的第一部分和表示预建立的视频片段的参考指纹之间的匹配，并且基于所检测到的匹配，识别正在展示的视频内容。并且操作能够包括，在识别出正在展示的视频内容之后，将机器学习算法应用到查询指纹的至少第二部分，以检测正在展示的视频内容继续为所识别的视频内容。并且再进一步地，操作能够包括响应于至少检测到正在展示的视频内容继续为所识别的视频内容，而使用户设备展示补充内容。

通过阅读以下详细描述并在适当的情况下参考附图，这些以及其他方面、优点和替代方案对于本领域普通技术人员将变得显而易见。进一步地，应该理解，在此发明内容和以下内容中所提供的描述旨在仅通过示例而非限制的方式来说明本发明。

附图说明

图1是各种所公开的原理能够被应用在其中的示例系统的简化框图。

图2是示例网络布置的简化框图，其中视频呈现设备与网络平台通信以促进实现各种所公开的原理。

图3是示出了包括一个或更多个动态定义的部分和一个或更多个预建立的部分的视频内容的示例的时序图。

图4是描绘了能够根据本公开而执行的操作的图。

图5是描绘了能够根据本公开而执行的操作的另一图。

图6是示例计算系统的简化框图。

图7是示例视频呈现设备的简化框图。

具体实施方式

参照附图，图1是各种所公开的原理能够被应用在其中的示例系统的简化框图。然而，将理解本文所描述的这种和其他布置和过程能够采取各种其他形式。例如，元素和操作能够被重新排序、分布、复制、组合、省略、添加或以其他方式修改。进一步地，将理解本文描述为由一个或更多个实体所执行的功能能够由那些实体和/或表示那些实体通过硬件、固件和/或软件(例如由一个或更多个执行程序指令等的处理单元)来实现。

如图1所示，该示例系统包括视频呈现设备12，该视频呈现设备与一个或更多个视频源14通信连接，并配置为从视频源接收视频内容并且展示视频内容以供用户16观看。

在表示性的实施方式中，视频呈现设备12能够是计算机监视器、电视或其他配置为在显示器等上接收和展示视频内容的设备。这样，视频呈现设备12能够包括用于接收视频内容的一个或更多个视频输入端口(例如，HDMI、DVI、分量视频、复合视频、VGA和/或其他有线或无线输入端口)、用于呈现视频内容的显示面板(例如，OLED、LE、LCD、等离子和/或其他面板)、以及用于在视频内容经由所选的视频输入端口到达时呈现视频内容且用于在显示器上输出所展示的视频内容以便向用户16呈现的一个或更多个处理组件(例如，视频处理器)。

然后，视频源14能够包括各种视频组件中的任何一个，这些视频组件被配置为提供适合于视频呈现设备12接收和显示的视频内容，并接收和响应来自用户16的输入以控制诸如用于交互式定义视频内容的视频内容的输出。如图所示，视频源能够包括一个或更多个本地视频源组件18和一个或更多个远程视频源组件20，其中的任何一个都能够配置为生成和输出，或接收和转发，通过视频呈现设备12所展示的视频内容。此外，至少一个本地视频源组件18可以位于用户16附近或以其他方式与用户16通信，并且配备为接收用户输入以控制视频内容输出。

举例来说，视频源14能够包括视频游戏控制台，该视频游戏控制台通过HDMI电缆或其他有线或无线机制与视频呈现设备12本地连接。这样的控制台可以是专用计算机，其被设计为通过执行DVD、CD、内部存储器、网络源等中的游戏软件以促进交互式视频游戏。这样，控制台能够接收选择、提供或指定要玩的视频游戏的用户输入，然后当控制台执行游戏并将相关联的视频内容传递给视频呈现设备以展示时，控制台能够接收用户输入从而可动态控制游戏如何进行且因此动态定义要传递的视频内容。

可替代地，视频源14能够包括与视频呈现设备本地连接的通用计算机(例如，台式或便携式计算机)，并且能够包括与本地计算机处于网络通信的远程游戏服务器。在这种布置中，本地计算机能够提供用户界面，也许是通用浏览器界面，通过该用户界面用户能够与游戏服务器进行交互，并且本地计算机能够配置为从游戏服务器接收视频内容并将视频内容传递到视频呈现设备以展示。通过本地计算机的用户界面，用户能够因此选择或以其他方式指定要玩的视频游戏，并且能够控制游戏如何进行且因此控制视频服务器通过视频呈现设备所呈现的视频内容。

仍然可替代地，视频源14能够采取其他形式，不必限制于视频游戏源。例如，视频源能够包括电视调谐器，例如有线电视或卫星机顶盒，该电视调谐器与视频呈现设备本地连接，并配置为接收用户对电视频道的选择并响应地调谐到该频道并将电视频道的视频内容传递给视频呈现设备以展示。并且视频源能够包括数字视频记录器/播放器，其能够类似地接收用户对要播放的视频内容的选择，并且能够响应地将所选视频内容传递到视频呈现设备以展示。此外，视频源能够包括音频/视频接收器或其他这样的设备，使得用户能够选择视频源以提供视频内容并且从所选源接收视频并将该视频转发到视频呈现设备以展示。其他示例也是可能的。

如上所述，当视频呈现设备接收并展示视频内容时，视频呈现设备可以不具有该视频内容的身份的指示。相反，可以简单地配置视频呈现设备以从视频源被动地接收视频内容作为视频流并展示所接收到的视频内容。然而，根据本公开，视频呈现设备可以与网络平台通信并且可以与网络平台一起工作以促进对正在呈现的视频内容的识别，并因此促进如上所述的有用的特定于内容的动作。(可替代地，网络平台的功能可以作为视频呈现设备的一部分提供，或与视频呈现设备本地相关联的提供。)

图2示出了示例网络布置，其中视频呈现设备12与诸如互联网的网络平台22经由网络24通信。在实践中，视频呈现设备12可以作为客户所在地的局域网(LAN)上的一个节点，其中视频呈现设备在LAN上具有分配的互联网协议(IP)地址，并且LAN在互联网上具有IP地址。进一步地，网络平台22可以包括同样可以通过因特网上的IP地址进行访问的服务器。

通过这种布置，视频呈现设备可以经由互联网发起、并与平台进行IP通信，以在展示视频内容时向平台实时提供视频内容的数字指纹，并且平台可以在数字指纹到达时不断对其进行评估以识别视频内容，并响应性地触发特定于内容的动作。

为了在实践中促进这一点，视频呈现设备12或另一实体能够配置为以生成由视频呈现设备正在展示的视频内容的数字指纹，并将该数字指纹传输到平台22进行分析。

例如，如图2所示，视频呈现设备能够包括指纹生成器26，其能够被配置为生成由视频呈现设备正在展示的视频内容的数字指纹。这样的指纹生成器能够配置为在视频呈现设备正在接收视频内容时、和/或在视频呈现设备正在处理视频内容以进行呈现时生成视频内容的数字指纹。这样，指纹生成器能够接收到达视频呈现设备和/或由视频呈现设备处理以进行呈现的视频内容的副本作为输入，并应用现在已知或以后开发的任何媒体指纹识别过程来生成视频内容的数字指纹。

无限制地，示例数字指纹识别过程能够在每个视频帧基础上应用，并且能够包括建立亮度和/或其他视频特征的表示。例如，对于给定的视频帧，指纹生成器能够以编程的方式将帧划分为网格，而指纹生成器能够测量每个网格单元的帧的亮度，并生成具有表示了相应的网格单元的亮度或表示了某些定义的网格单元对的亮度之间的加权差等的每个位或一系列位的比特串。进一步地，指纹生成器能够连续地应用该过程以随时间流逝而生成数字指纹作为指纹的序列(例如，作为指纹流)。例如，指纹生成器能够周期性地或在另一定义的基础上将该过程应用于每个帧、每个关键帧，其中每个帧的比特串定义数字指纹和/或具有在滑动窗口的基础上定义了数字指纹的这样的比特串或其他表示值的指定的散列、组合或系列。同样能够使用其他数字指纹识别过程。

在实践中，视频呈现设备12可以配置为以编程方式建立与平台22的通信会话(例如TCP套接字)，并在该会话中将正在展示的视频内容的数字指纹(在本文中称为“查询指纹”)传输到平台。例如，视频呈现设备可以被配置为周期性地或不时地向平台传送携带由视频呈现设备展示的视频内容的最新帧，帧序列或视频内容的其他部分的数字指纹的消息。并且当视频内容正由视频呈现设备展示时，该平台由此可以很大程度上实时地接收用于分析的数字指纹。

可替代地，视频呈现设备能够传送到平台，并且平台因此能够在持续的基础上或其他基础上接收关于正由视频呈现设备所展示的视频内容的各种数据以使得平台本身或其他实体来生成正由视频呈现设备展示的视频内容的查询指纹。例如，视频呈现设备能够将正由视频呈现设备展示的视频内容的部分传输到平台，诸如视频内容的各个帧(例如快照)或其他片段。并且该平台能够应用指纹生成器来生成视频内容的数字指纹以进行分析。

与上面的讨论一致，在这种布置下的平台能够评估正由视频呈现设备展示的视频内容的查询指纹，从而识别正在展示的视频内容并响应地采取特定于内容的动作。

如上所述，该过程能够解决正在展示的视频内容包括预建立的视频内容和交互式视频内容的组合的情景。例如，该过程能够解决正在展示的视频内容是包括以下内容的视频游戏的情况：(i)当正在展示时不基于用户交互而变化的一个或更多个预建立的视频片段，例如过场动画等，以及(ii)当正在展示时基于用户交互而变化的一个或更多个动态定义的视频片段，例如进行中的游戏播放视频内容。

图3是示出了能够如何构造这种视频内容的示例的时序图。如图3所示，视频内容包括交替的动态定义和预建立的视频片段。具体而言，视频内容包括从时间T₁到时间T₂的第一动态定义的视频片段、从时间T₂到时间T₃的第一预建立的视频片段32、从时间T₂到时间T₃的第二动态定义的视频片段34、以及从时间T₃到时间T₄的第二个预建立的视频片段36。

如果该示例视频内容是特定的视频游戏，例如，第一和第二动态定义的视频片段30、34能够是各个游戏级别的交互式视频内容，其中视频内容是基于在玩游戏时的用户交互而动态定义的(例如，基于用户在玩游戏期间所做的选择)。并且第一和第二预建立的视频片段32、36能够是视频游戏特有的静态定义的电影过场动画，并在用户在玩游戏的级别之间转换时呈现给用户，或者能够是其它针对视频游戏的预建立的视频片段。

与上面的讨论一致，网络平台22能够配置为，通过检测正在展示的视频内容的指纹与已知与特定视频内容项(例如，特定视频游戏)相对应的预建立的视频片段的指纹相匹配而应用指纹匹配过程以便识别正在呈现的视频内容。进一步地，该平台能够配置为应用经训练的神经网络以便确定正在展示的视频内容仍然为所识别的视频内容，作为触发相关联的动作的基础。

在示例实施方式中，平台能够包括如图2所示的单独但互通的服务器或其他模块。即，平台能够包括具有用于与视频呈现设备通信的面向外的IP地址的代理服务器38、用于执行指纹匹配过程以识别正在展示的视频内容的指纹匹配服务器40、以及用于应用经训练的神经网络来确定正在展示的视频内容仍然为所识别的视频内容的神经网络服务器42来根据该视频内容的继续展示而促进对动作进行触发。这些服务器能够作为LAN上的节点或者能够以通信方式连接在一起。

通过这种布置，代理服务器38能够从视频呈现设备接收正由视频呈现设备展示的视频内容的查询指纹，并且由于查询指纹的到来，能够将查询指纹转发给指纹匹配服务器40进行分析。

当指纹匹配服务器40接收查询指纹时，该指纹匹配服务器随后能够(例如，以快速周期性)连续比较查询指纹与已知其每个出现在相应的视频内容项中的预先建立的视频片段的参考指纹以查找指纹匹配。并且在检测到这样的匹配时，指纹匹配服务器40能够得出结论，正在展示的视频内容包括其指纹匹配的预建立的视频片段，并且因此能够将正在展示的视频内容识别为已知包括该预建立的视频片段的视频内容项。例如，通过检测已知出现在特定视频游戏中的过场动画的指纹匹配，指纹匹配服务器能够推断出正在展示的视频内容是该特定视频游戏。

为了将查询指纹流与参考指纹进行比较，服务器能够将指纹的对应部分彼此进行比较以确定这些部分是精确匹配还是在限定的公差内。例如，以每帧为基础或以另一所需速率，服务器能够计算指纹之间的最大偏差并确定最大偏差是否在预定的公差内。此外，如果指纹是二进制的，则其能够为布尔确定或能够包括计算汉明距离(作为指纹中相应的比特位置之间的失配计数)，并且如果指纹是更复杂的值，例如十进制值或向量(例如，每个视频帧区域的灰度值)，这能够涉及确定值或向量之间的距离。许多其他示例也是可能的。

一旦指纹匹配服务器检测到关于预建立的视频片段的指纹匹配的开始，并且因此识别出正在展示的视频内容，则指纹匹配服务器能够向代理服务器38发出信号以指示所确定的视频内容的身份(例如，正在展示的视频游戏的名称)，或许还有所检测到的预建立的视频片段的唯一识别符(例如，过场动画识别符)。此外，指纹匹配服务器能够继续将输入的查询指纹与参考指纹数据进行比较，以确定检测到的关于预建立的视频片段的指纹匹配何时结束，然后搜索关于下一个预建立的视频片段的指纹匹配，以此类推。

当指纹匹配服务器从其指纹分析确定检测到的指纹匹配已结束时，其能够说明视频呈现设备已完成对相关联的预建立的视频片段的展示。此时所讨论的可为视频呈现设备是否继续展示所识别的视频内容以及可能持续多长时间。例如，如果被识别的视频内容是特定的视频游戏，并且指纹匹配服务器检测到关于该视频游戏的过场动画的指纹匹配结束，则所讨论的可为视频呈现设备是否继续展示所识别的视频游戏(相对于展示其他一些视频内容)，以及所识别的视频游戏的展示在下一个过场动画发生之前持续多长时间。

如上所述，在连续视频内容不是另一段预建立的视频片段而是动态定义的视频片段(例如，交互式用户游戏)的情况下该问题难以解决。

为了解决这个问题，指纹匹配服务器能够向代理服务器发送信号以指示指纹匹配服务器已经检测到过场动画的结束，然后代理服务器能够响应地调用神经网络服务器42的辅助。即，随着代理服务器继续接收视频呈现设备正在展示的视频内容的查询指纹，代理服务器能够将查询指纹转发给神经网络服务器并能够指示神经网络服务器，以开始以有助于指示视频呈现设备正在展示的视频内容是否继续为所识别的视频内容的方式对查询指纹进行分类。

响应于来自代理服务器的信号，神经网络服务器能够通过神经网络来馈送到达的查询指纹，该神经网络已经被训练以对具有期望的粒度级别的数字指纹进行分类。(可替代地，神经网络服务器能够定期从代理服务器接收到达的查询指纹，并且能够与指纹匹配服务器的分析并行地应用此分析以帮助识别正在展示的视频内容。)

举例来说，如果所识别的视频内容是特定的视频游戏，则神经网络服务器能够应用经训练以区分视频游戏内容和非视频游戏内容的的神经网络。例如，神经网络能够基于输入数据进行训练，该输入数据包括(i)动态定义的视频游戏内容的许多数字指纹，以及(ii)电视内容或其他非视频游戏内容的许多数字指纹。通过该训练，神经网络能够学习指示了视频游戏内容的视频内容特征和指示了非视频游戏内容的视频内容特征，并且神经网络因此能够学习将视频游戏内容与非视频游戏内容区别开。

将这样的经训练的神经网络应用于表示视频呈现设备正在展示的视频内容的查询指纹，神经网络服务器因此能够确定视频呈现设备正在展示的视频内容是否仍然为视频游戏内容并且能够相应地向代理服务器发送信号。

如果神经网络由此确定了视频呈现设备正在展示的视频内容是视频游戏，则在将视频内容识别为特定视频游戏的情况下，给出的合理结论是视频呈现设备正在呈现的视频游戏仍然是所识别的视频游戏。因此，此时的合理结论是用户正在继续玩所识别的视频游戏。而如果且当神经网络确定了视频呈现设备正在展示的视频内容不是视频游戏时，则得出合理的结论是视频呈现设备正在展示的视频内容不再是所识别的视频游戏，且因此用户已停止玩所识别的视频游戏。

可替代地或附加地，神经网络服务器能够应用经训练的神经网络以在特定视频游戏之间和/或在其他种类的交互式视频内容之间更细致地区分。例如，神经网络能够基于输入数据而被训练，该输入数据包括分别针对各种特定视频游戏中的每一个，分别来自玩特定视频游戏的实例的动态定义的视频游戏内容的许多数字指纹。通过该训练，神经网络能够学习特定视频游戏特有的视频内容特征，并且神经网络因此能够学习将一个视频游戏与另一个视频游戏区分开。

在那种情况下，基于对表示视频呈现设备正在展示的视频内容的查询指纹的神经网络分析，例如与另一视频游戏或其他交互式视频内容相比，神经网络服务器能够确定视频呈现设备正在展示的视频内容是否仍然是特定的识别的视频游戏。并且神经网络服务器能够相应地向代理服务器发信号以指示视频呈现设备正在展示的视频内容是否仍然为所识别的视频内容。

利用这种更细粒度的神经网络的实施方式，能够通过名称或其他识别符来指定各种视频内容项(例如，特定的视频游戏)中的每一个，并且神经网络能够在其分类中引用该识别符。一旦代理服务器从指纹匹配服务器获悉视频呈现设备正在展示的视频内容的身份，则代理服务器能够随后通知视频内容识别符的神经网络服务器，并且神经网络服务器能够响应地应用其神经网络来确定具有该识别符的视频内容是否仍然是由视频呈现设备所呈现的视频内容，并能够相应地报告回至代理服务器。

在该过程中，神经网络服务器所应用的神经网络能够采用多种形式中的任何一种。举例来说，神经网络能够为使用长短期记忆(LSTM)架构的递归深层神经网络，其操作在Hochreiter等人的“Long Short-Term Memory”Neural Computation 9(8)：1735-1780，1997，http：//deeplearning.cs.cmu.edu/pdfs/Hochreiter97_lstm.pdf.中进行了描述。可替代地，同样能够应用其他形式的神经网络(例如，门控递归单元神经网络、卷积神经网络以及现在已知或以后开发的神经网络)。

图3示出了该过程如何利用表示了示例视频片段30-36的输入数字指纹来进行。在此，网络平台22将收到表示正在展示的视频内容的查询指纹，且因此查询指纹能够依次包括表示了动态定义的视频片段30的第一部分、表示了预建立的视频片段32的第二部分、表示了动态定义的视频片段34的第三部分、表示了预建立的视频片段36的第四部分。

与上面的讨论一致，由于平台接收到该查询指纹，代理服务器能够将查询指纹转发给指纹匹配服务器，并且指纹匹配服务器能够不断地将查询指纹与表示了与已知视频内容项相对应的各种预建立的视频片段的参考指纹进行比较。因此，在时间T₂(在时间T_A)之后不久，指纹匹配服务器能够检测到与特定已知视频游戏相对应的预建立的视频片段的参考指纹的匹配，因此支持了以下结论：正在展示的视频内容是该特定的视频游戏。并且指纹匹配服务器能够将此发现报告给代理服务器。

当指纹匹配服务器随后继续评估输入的查询指纹时，在时间T₃(在时间T_B)之后不久，指纹匹配服务器能够随后检测到由于预建立的视频片段结束而导致的失配，并且能够将此报告给代理服务器。响应于该失配并因此响应于预建立的视频片段的结束，代理服务器能够随后开始将输入的数字指纹转发到神经网络服务器(如果代理服务器尚未这样做)，并且能够向神经网络服务器发信号通知所确定的视频内容的身份。

作为响应，当查询指纹到达时，神经网络服务器能够随后将经训练的神经网络应用于查询指纹以对查询指纹进行分类，且因此确定查询指纹是否仍然表示所识别的视频内容。例如，如果所识别的视频内容是特定的视频游戏，则神经网络服务器能够连续地将神经网络应用于到达的查询指纹，以确定查询指纹是否继续一般地表示视频游戏内容和/或确定指纹是否继续表示特定识别的视频游戏。而且神经网络服务器可以将其发现结果报告给代理服务器，也许也可以不断地报告给代理服务器。

同时，由于指纹匹配服务器继续将输入的查询指纹与参考指纹进行比较，在时间T₄(在时间T_C)之后不久，指纹匹配服务器能够检测到与另一个预建立的视频片段的参考指纹的匹配，并且能够将该发现报告给代理服务器，该另一个预建立的视频片段也与所识别的视频游戏相对应。由于与预建立的视频片段的匹配表示动态定义的视频片段34的结束，因此代理服务器能够随后中止将数字指纹转发至神经网络服务器，并能够向神经网络服务器发送信号以停止应用神经网络。

然后，该过程能够迭代地继续，其中指纹匹配服务器再次检测到与检测到的预建立的视频片段的指纹的匹配结束并响应地向代理服务器发送信号，代理服务器响应地向神经网络服务器发送信号，并且神经网络服务器响应地应用神经网络来确定视频呈现设备正在展示的视频内容是否仍然为所识别的视频内容。

如上所述，该过程假设指纹匹配服务器能够访问各个预建立的视频片段的参考指纹，每个建立的视频片段都与已知视频内容项相对应，并且该神经网络服务器配置有基于各种已知视频内容项进行训练的神经网络。为了在实践中促进该过程，网络平台22能够进一步包括预配置服务器44，该预配置服务器能够与指纹匹配服务器40和神经网络服务器42互通以帮助建立参考指纹并训练神经网络。

关于视频游戏，预配置服务器能够获得视频游戏玩法的实际实例的大量视频记录，并且能够生成那些视频记录的数字指纹以用于生成预建立的视频片段(例如，过场动画等)的参考指纹，并用于训练一个或更多个神经网络。

预配置服务器能够以各种方式获得视频游戏玩法的实际实例的这些记录。记录的有用来源之一是例如在线“Let’s Play”(LP)视频和其他播放视频，通常可以在如Twitch和YouTube等网站上访问。这些播放视频记录了玩游戏的实际实例，有时使用脚本旁白进行编辑并且有时是即时捕获的玩游戏的原始记录。

在示例实施方式中，预配置服务器能够配置为自动搜索并生成这些播放视频的数字指纹。举例来说，网络平台的管理员能够输入各种已知视频游戏的预配置服务器名称，并且预配置服务器能够在诸如Twitch和YouTube的网站自动搜索命名视频游戏的播放视频。当预配置服务器找到此类视频时，预配置服务器随后能够自动播放视频(例如，接收视频的流式视频表示，从而应用上述指纹生成器以生成视频的相应的数字指纹。预配置服务器能够随后保存与视频游戏的名称相关的所得数字指纹。

提供有游戏玩法的实际实例的这些数字指纹，预配置服务器能够随后以编程方式评估数字指纹以识别表示预建立的视频片段的指纹片段。例如，通过评估特定视频游戏的玩法的多个实例的指纹，预配置服务器能够识别指纹片段，该指纹片段在该视频游戏的玩法的每个实例中反复出现、或者在该视频游戏的玩法的每个实例中至少出现一次。给定诸如过场动画的预建立的视频片段的静态性，预配置服务器能够因此认为这种反复出现的指纹片段表示视频游戏的预建立的视频片段。因此，预配置服务器能够将那些指纹片段存储为表示了预建立的视频片段的参考指纹，所述参考指纹与所讨论的视频游戏的已知身份相关联并可能与预建立的视频片段的识别符相关联。并且预配置服务器能够使参考指纹数据可用于指纹匹配服务器，以如上所述用于识别正由视频呈现设备所呈现的视频内容。

可替代地，预配置服务器能够以其他方式获得与已知视频内容项相关的预建立的视频片段的参考指纹。例如，人能够观看各种视频游戏的视频记录，并且能够手动识别预建立的视频片段(例如，提供其开始和停止时间)，并指示预配置服务器生成那些被识别的视频片段的参考指纹。其他示例同样是可能的。

进一步地，预配置服务器能够将视频游戏玩法的实际实例的数字指纹提供给神经网络服务器，以供神经网络服务器用来训练一个或更多个神经网络。预配置服务器能够为神经网络服务器提供每个此类记录的完整数字指纹，以及每个记录的视频游戏身份。或者预配置服务器能够根据那些指纹片段(不是被认为表示预建立的视频片段的片段)分离出表示了记录的动态定义片段的指纹片段，并且配置服务器能够将这些指纹片段与每个记录的视频游戏身份一起提供给神经网络服务器。

另外，为了使神经网络服务器能够训练神经网络以区分视频游戏内容和非视频游戏内容，预配置服务器还能够获得非视频游戏内容的数字指纹，例如电视内容。例如，预配置服务器和/或其他相关联的服务器能够包括具有用于接收电视内容的各种频道的调谐器的一个或更多个电视收看台，并且能够使用如上所述的指纹生成器来生成该电视内容的数字指纹。预配置服务器随后能够将非视频游戏内容的这些数字指纹提供给神经网络服务器，以用于训练如上所述的一个或更多个神经网络。

根据本公开，如上所述，网络平台能够配置为响应于确定视频呈现设备正在展示的视频内容的身份而采取动作，并且可能具体地响应于检测到视频呈现设备的阈值持续时间而继续展示所识别的视频内容项。

举例来说，一旦代理服务器获悉视频呈现设备正在展示的视频内容的身份(例如，视频呈现设备正在展示的特定视频游戏的身份)，则代理服务器或相关联的实体能够记录该视频内容的呈现有关的等级数据。例如，代理服务器能够记录视频呈现设备正在呈现所识别的视频内容的事实，例如通过添加正在呈现的所识别的视频内容的计数或其他统计信息，作为指示视频内容被呈现的程度的数据。进一步地，代理服务器能够按视频呈现设备(作为设备特定的观看分析)和相关联的人口统计信息来记录此类数据。

作为另一个示例，一旦代理服务器获悉视频呈现设备正在展示的视频内容的身份，则代理服务器或相关联的实体可以使视频呈现设备或另一用户设备呈现补充内容，或许与所识别的视频内容相关联的内容。例如，代理服务器能够使视频呈现设备或另一用户设备呈现弹出广告，其鉴于所识别的视频内容(例如，附加游戏等级或其他游戏内容)，提供感兴趣的虚拟内容或实物商品、或者提供帮助或其他可能感兴趣的信息。具体地，代理服务器能够向视频呈现设备或其他用户设备发送携带这样的补充内容的消息，该消息带有指示，视频呈现设备或其他用户设备将通过将补充内容叠加在所呈现的视频内容之上(在显示器的角落或边缘处)来响应该指示，以供用户查看或以其他方式向用户呈现补充内容。

作为其特定示例，如上所述，代理服务器能够确定视频呈现设备在视频内容的预建立的视频片段的实例之间继续展示所识别的视频内容多长时间，并且能够根据所确定的持续时间而采取动作。例如，代理服务器能够确定被识别的视频游戏的交互式视频片段在该视频游戏的过场动画之间持续多长时间，可能表明用户已经尝试达到下一级别的游戏多长时间，以及能够根据该持续时间采取动作。如果所确定的持续时间是阈值长(并且仍在进行中)，如图3所示在时间T_D处，则代理服务器能够响应地使视频呈现设备向用户提供帮助内容，例如以用户似乎在挣扎为由而提供游戏提示。而如果确定的持续时间短于阈值，则代理服务器能够由于用户似乎是专家玩家而使视频呈现设备向用户呈现购买更高游戏等级等的提议。

这种对预建立的视频片段之间的持续时间的评估能够特定于所识别的视频内容，其中基于对播放所识别的视频内容的实际实例的历史统计分析来建立一个或更多个持续时间阈值。实际上，预配置服务器或另一实体能够开发这种阈值。例如，对于特定的视频游戏，预配置服务器能够评估该视频游戏中特定过场动画之间的持续时间，在该视频游戏(例如，播放记录等)的玩法的许多实例中的每一个，并且能够平均那些持续时间或者汇总持续时间数据以建立可被认为是在过场动画之间的典型持续时间。并且预配置服务器能够向代理服务器提供指示了那些持续时间的数据(以及过场动画的识别符)，以用作阈值来确定在给定的视频游戏的玩法实例中的这些过场动画之间的持续时间是阈值长或阈值短。其他实施方式同样是可能的。

接下来的图4是与上面的讨论一致的示例方法的图，该方法用于检测和响应视频呈现设备对视频内容的展示，其中视频内容包括(i)在展示期间不基于用户交互而变化的预建立的视频片段(ii)在展示期间基于用户互动而变化的动态定义的视频片段。

如图4所示，在框40处，该方法包括计算系统获得(例如，接收或建立)在展示期间实时生成的查询指纹作为正在展示的视频内容的表示，其中查询指纹包括表示预建立的视频片段的第一部分和表示动态定义的视频片段的第二部分。进一步地，在与框40同时示出的框42处，计算系统检测查询指纹的第一部分与表示预建立的视频片段的参考指纹之间的匹配，(b)基于该匹配的检测，识别正在展示的视频内容，(c)在识别出正在展示的视频内容之后，将经训练的神经网络应用于查询指纹的至少第二部分，并且(d)基于神经网络的应用检测所识别的视频内容的展示继续。进而，在框44处，响应于至少检测到所识别的视频内容的展示继续，计算系统采取特定于所识别的视频内容的动作。

与上面的讨论一致，该方法中的视频内容能够包括视频游戏内容，并且识别正在展示的视频内容的动作能够包括确定正在展示的特定视频游戏的身份。进一步地，检测所识别的视频内容的展示继续的动作能够包括检测视频呈现设备正在展示的视频内容继续为视频游戏内容和/或检测正在展示的视频内容继续为特定的所识别的视频游戏。并且再进一步地，采取特定于所识别的视频内容的行动能够包括使补充内容的呈现包括对于附加视频游戏内容的提议。

如上进一步所述，该方法能够另外包括计算系统检测到所检测到的匹配的结束(关于预建立的视频片段)，在这种情况下，应用经训练的神经网络的动作能够响应于至少检测到所检测的匹配的结束。

另外，该方法能够包括计算系统基于将经训练的神经网络应用于查询指纹的至少第二部分来确定视频内容的动态定义部分的展示已经持续了至少阈值持续时间。并且特定于所识别的视频内容而采取动作的动作能够包括使补充内容进行呈现。此外，呈现补充内容的动作能够进一步响应于确定视频内容的动态定义部分的展示至少持续了阈值持续时间的动作。例如，视频内容的动态定义部分能够包括交互式视频游戏内容，并且使补充内容的呈现进一步响应于视频内容的动态定义部分的动作已经持续了至少阈值持续时间可以包括使视频游戏帮助内容进行呈现。

进一步地，预建立的视频片段能够被标记为第一预建立的视频片段，并且该视频内容能够包括在展示期间也不基于用户交互而变化的第二预建立的视频片段，其中查询指纹包括表示第二预建立的视频片段的第三部分。并且在该情况下，基于将经训练的神经网络应用于查询指纹的至少第二部分，确定视频内容中动态定义部分的展示已持续了至少阈值持续时间的动作能够包括检测从展示第一预建立的视频片段直到展示第二预建立的视频片段的阈值长持续时间。

此外，该匹配能够被标记为第一匹配，并且该方法能够另外包括计算系统检测查询指纹的第三部分与表示第二预建立的视频片段的参考指纹之间的第二匹配，并且基于对第二匹配的检测，停止将经训练的神经网络应用于查询指纹。

另外，与上面的讨论一致，计算系统经由网络与视频呈现设备通信，并且计算系统获得在展示期间实时生成的查询指纹以作为正在展示的视频内容的表示的动作能够包括，计算系统经由网络从视频呈现设备接收在视频内容的展示期间由视频呈现设备实时生成的查询指纹的传输(例如，连续传输或顺序传输)。

进一步地，如上所述，该方法能够另外包括基于对视频游戏玩法的各种实例的计算机分析来建立包括参考指纹和经训练的神经网络的参考数据组。例如，该方法能够涉及从公共分组交换网络中自动搜索和下载(例如，接收流播出)视频游戏玩法的各种实例中的至少一些(例如播放视频)，并对下载的(例如，流式)视频游戏玩法的实例进行计算机分析。

图5是描绘了与上面讨论一致的用于检测和响应于视频游戏的玩法的方法的下一图，其中在视频显示单元(例如，视频呈现设备或相关联的单元)上实时展示视频游戏，并且其中视频游戏包括(i)在展示期间不基于用户交互而变化的过场动画视频片段，以及(ii)在展示期间不基于用户交互而变化的交互式视频片段。

如图5所示，在框50处，该方法包括计算系统获得在展示期间实时生成的查询指纹作为正在播放的视频游戏的表示，其中查询指纹包括(i)表示第一过场动画视频片段的第一部分，以及(ii)表示第一交互式视频片段的第二部分。并且该方法包括能够在获得查询指纹的同时进行的后续的框。具体地，在框52处，该方法包括计算系统检测查询指纹的第一部分与表示第一过场动画视频片段的参考指纹之间的匹配并且，基于所检测到的匹配，由计算系统识别正在展示的视频游戏。在框54处，该方法包括，在识别正在展示的视频内容之后，本方法包括计算系统将经训练的神经网络应用于查询指纹的至少第二部分，以检测正在展示的视频内容继续为所识别的游戏。并且在框56处，响应于至少检测到正在展示的视频内容继续为所识别的视频游戏，该方法包括通过计算系统使补充内容进行呈现。

如上进一步所述，该方法还能够包括计算系统检测所检测到的匹配的结束，并且能够响应于至少检测到匹配的结束而应用经训练的神经网络。进一步地，该方法还能够包括计算系统基于将经训练的神经网络应用于查询指纹的至少第二部分来确定第一交互式视频片段已经持续了至少阈值持续时间，补充内容的呈现能够进一步响应于确定视频内容的交互式部分持续了至少阈值持续时间，并且补充内容能够包括视频游戏帮助内容。

接下来图6是根据本公开可操作的示例计算系统的简化框图。该计算系统能够被实现为以上所讨论的网络平台22和/或一个或更多个其他实体(可能包括视频呈现设备)。如图6所示，示例系统包括网络通信接口60、处理单元62、非暂时性数据存储器64、其中的任何一个或全部能够集成在一起，或者如图所示，通过系统总线、网络或其他连接机制66以通信方式连接在一起。

网络通信接口60能够包括一个或更多个物理网络连接机制以促进在诸如上述的网络24的网络上的通信，和/或用于与一个或更多个其他本地或远程实体进行直接或网络通信。这样，网络通信接口能够包括无线的或有线的以太网接口或其他类型的网络接口，用于进行IP通信和/或其他类型的网络通信。

然后处理单元62能够包括一个或更多个通用处理器(例如，微处理器)和/或一个或更多个专用处理器(例如，应用专用集成电路)。非暂时性数据存储器64能够包括一个或更多个易失性和/或非易失性存储组件，例如光存储、磁存储或闪存。

如图所示，数据存储器64然后存储程序指令68，该程序指令能够由处理单元62执行以执行本文所描述的各种操作来检测和响应视频呈现设备对于视频内容的呈现，其中视频内容依次包括(i)在展示期间不基于用户交互而变化的视频片段，以及(ii)在展示期间基于用户交互而变化的动态定义的视频片段。

如上所述，例如，操作随后能够包括经由网络通信接口从视频呈现设备接收在展示期间实时生成的查询指纹作为视频内容的表示，其中查询指纹依次包括(i)表示预建立的视频片段的第一部分和(ii)表示动态定义的视频片段的第二部分。进一步地，操作能够包括检测查询指纹的第一部分与表示预建立的视频片段的参考指纹之间的匹配，并且基于所检测到的匹配识别正在展示的视频内容。然后操作能够包括：在识别正在展示的视频内容之后，将经训练的神经网络应用于查询指纹的至少第二部分以检测正在展示的视频内容继续为所识别的视频内容，并至少响应于检测到正在展示的视频内容继续为所识别的视频内容，从而使用户设备呈现补充内容。

上述各种特征也能够在这种情况下被应用。例如，视频内容能够包括视频游戏内容，预建立的视频片段能够包括过场动画视频片段，并且动态定义的视频片段能够包括交互式游戏视频片段。并且在该情况下，操作还能够包括基于将经训练的神经网络应用于查询指纹的至少第二部分来确定交互式游戏视频片段已经持续了至少阈值持续时间，使得用户设备展示补充内容能够进一步响应于确定交互式游戏视频片段已经持续了至少阈值持续时间，并且补充内容能够包括视频游戏帮助内容。

最后，图7是根据本公开的可操作的示例视频呈现设备的简化框图。与上面的讨论一致，此视频呈现设备能够采用多种形式。例如，其能够为电视机、计算机监视器或其他用于接收和展示视频内容的设备。

如图7所示，示例视频呈现设备包括视频输入接口70、视频展示接口72、网络通信接口74、处理单元76和非暂时性数据存储器78，其中的任何一个或全部能够通过系统总线、网络或其他连接机制80集成在一起，或者如图所示，通过通信方式连接在一起。

视频输入接口70能够包括用于接收由视频呈现设备所呈现的视频内容的物理通信接口。这样，媒体输入接口能够包括用于与视频源建立通信并从该视频源以模拟或数字形式接收视频内容的一个或更多个有线和/或无线接口。例如，视频输入接口能够为上述一个或更多个接口、以及其他可能性。

视频展示接口72随后能够包括一个或更多个组件以促进对所接收的视频内容的呈现。举例来说，视频显示接口能够包括显示面板以及一个或更多个视频显示驱动器或用于处理所接收到的视频内容以促进视频内容呈现在显示面板上的其他组件。

网络通信接口74能够包括物理网络连接机制以促进在诸如上述网络24的网络上的通信，和/或用于与一个或更多个其他本地或远程实体进行直接或网络通信。这样，网络通信接口能够包括用于进行IP通信和/或其他类型的网络通信的无线或有线以太网接口或其他类型的网络接口。

处理单元76能够包括一个或更多个通用处理器(例如，微处理器)和/或一个或更多个专用处理器(例如，专用集成电路)。并且非暂时性数据存储器78能够包括一个或更多个易失性和/或非易失性存储组件，例如光存储、磁存储或闪存。进一步地如图所示，数据存储器78存储能够由处理单元76执行以执行此处所描述的各种操作的程序指令82。例如，基于对在视频输入接口70处接收到的和/或在视频呈现接口正被处理的媒体内容的分析，能够执行程序指令以在持续的基础上通过视频呈现设备生成正在展示的视频内容的指纹，并持续提供所生成的指纹以促进本文所述的频道识别。

值得注意的是，尽管以上讨论提供了使用神经网络来确定视频呈现设备正在展示的视频内容继续为所识别的视频内容，但是同样能够使用其他种类的机器学习算法以实现此目的。例如，能够使用模板匹配过程。模板匹配能够包括对特定于给定视频内容项的视频帧序列或其他模式的视频帧(可能为非连续的)进行识别。模板匹配服务器能够因此应用训练过程，其中其评估交互式视频内容的参考指纹以识别一个或更多个这样模式的每个视频内容项。并且模板匹配服务器随后通过检测查询指纹包括训练过程已与特定视频内容项相关联的模式来对输入的查询指纹进行分类。同样能够使用其他机器学习过程。

上面已经描述了示例性实施例。然而，本领域技术人员将理解，可以在不脱离本发明的真实范围和精神的情况下对这些实施例进行改变和修改。

Claims

1.一种检测和响应视频呈现设备对视频内容的展示的方法，其中，所述视频内容包括：(i)在展示期间不基于用户交互而变化的预建立的视频片段，以及(ii)在展示期间基于用户交互而变化的动态定义的视频片段，所述方法包括：

由计算系统获得在展示期间实时生成的查询指纹，作为正在展示的视频内容的表示，其中所述查询指纹包括表示所述预建立的视频片段的第一部分和表示所述动态定义的视频片段的第二部分；

在获得所述查询指纹的同时，所述计算系统执行以下操作：(a)检测所述查询指纹的第一部分与表示预建立的视频片段的参考指纹之间的匹配，(b)基于对匹配的检测，识别正在展示的视频内容，(c)在识别正在展示的视频内容之后，将经训练的神经网络应用于查询指纹的至少第二部分，并且(d)基于神经网络的应用，检测所识别的视频内容的展示继续；并且

响应于至少检测到所识别的视频内容的展示继续，所述计算系统采取特定于所识别的视频内容的动作。

2.根据权利要求1所述的方法，其中，所述视频内容包括视频游戏内容。

3.根据权利要求2所述的方法，其中，检测所识别的视频内容的展示继续包括：检测所述视频呈现设备正在展示的视频内容继续为视频游戏内容。

4.根据权利要求2所述的方法，其中，识别正在展示的视频内容包括：确定正在展示的特定视频游戏的身份，并且其中检测所识别的视频内容的展示继续包括检测正在展示的视频内容继续为所述特定视频游戏。

5.根据权利要求2所述的方法，其中，采取特定于所识别的视频内容的动作包括使补充内容的呈现包括对于附加视频游戏内容的提议。

6.根据权利要求1所述的方法，还包括：

由计算系统检测所检测到的匹配的结束，

其中，响应于至少检测到所检测的匹配的结束，由所述计算系统应用经训练的神经网络。

7.根据权利要求1所述的方法，还包括：

由计算系统基于将经训练的神经网络应用于查询指纹的至少第二部分，来确定视频内容的动态定义部分的展示已经持续了至少阈值持续时间，

其中，采取特定于所识别的视频内容的动作包括使补充内容进行呈现，并且

其中，使补充内容进行呈现还响应于确定所述视频内容的动态定义部分的展示已持续了至少阈值持续时间。

8.根据权利要求7所述的方法，

其中，视频内容的动态定义部分包括交互式视频游戏内容，并且

其中，使补充内容进行呈现还响应于所述视频内容的动态定义部分已持续了至少阈值持续时间包括使视频游戏帮助内容呈现。

9.根据权利要求7所述的方法，其中，预建立的视频片段是第一预建立的视频片段，其中视频内容包括在展示期间也不基于用户交互而变化的第二预建立的视频片段，并且其中查询指纹包括表示所述第二预建立的视频片段的第三部分，并且

其中，由计算系统基于将经训练的神经网络应用于所述查询指纹的至少第二部分，来确定所述视频内容的动态定义部分的展示至少持续了阈值持续时间包括：检测从展示所述第一预建立的视频片段直到展示所述第二预建立的视频片段的阈值长持续时间。

10.根据权利要求9所述的方法，其中，所述匹配是第一匹配，所述方法还包括：

由计算系统检测查询指纹的第三部分与表示所述第二预建立的视频片段的参考指纹之间的第二匹配，并且基于对所述第二匹配的检测，由所述计算系统停止将经训练的神经网络应用于所述查询指纹。

11.根据权利要求1所述的方法，其中，所述计算系统经由网络与视频呈现设备通信，其中由计算系统获得在展示期间实时生成的查询指纹，作为正在展示的视频内容的表示包括：由计算系统经由网络从所述视频呈现设备接收在所述视频内容的展示期间由所述视频呈现设备实时生成的查询指纹的传输。

12.根据权利要求1所述的方法，还包括：

基于对视频游戏玩法的各种实例的计算机化分析，来建立包括参考指纹和经训练的神经网络的参考数据组。

13.根据权利要求12所述的方法，还包括：

从公共分组交换网络中自动地搜索和下载视频游戏玩法的各种实例中的至少一些，并且

对下载的视频游戏玩法的各种实例进行计算机化分析。

14.根据权利要求13所述的方法，其中，所述视频游戏玩法的各种实例包括播放视频。

15.根据权利要求1所述的方法，其中，所述神经网络包括长短期记忆神经网络。

16.一种检测和响应视频游戏玩法的方法，其中，在视频显示单元上实时展示视频游戏，并且其中所述视频游戏包括：(i)在展示期间不基于用户交互而变化的过场动画视频片段以及(ii)在展示期间基于用户交互而变化的交互式视频片段，所述方法包括：

由计算系统获得在展示期间实时生成的查询指纹，作为正在玩的视频游戏的表示，其中所述查询指纹包括(i)表示第一过场动画视频片段的第一部分和(ii)表示第一交互式视频片段的第二部分；

由计算系统检测所述查询指纹的第一部分与表示所述第一过场动画视频片段的参考指纹之间的匹配，并基于所检测到的匹配由计算系统识别正在展示的视频游戏；

在计算系统识别出正在展示的视频内容之后，由所述计算系统将经训练的神经网络应用于所述查询指纹的至少第二部分，以检测正在展示的视频内容继续为所识别的视频游戏；并且

响应于至少检测到正在展示的视频内容继续为所识别的视频游戏，通过计算系统使补充内容进行呈现。

17.根据权利要求16所述的方法，还包括：

由计算系统检测所检测的匹配的结束，

18.根据权利要求16所述的方法，还包括：

基于将经训练的神经网络应用于查询指纹的至少第二部分，由计算系统确定第一交互式视频片段已持续了至少阈值持续时间，

其中，使补充内容进行呈现还响应于确定视频内容的交互式部分已持续了至少阈值持续时间，并且

其中，所述补充内容包括视频游戏帮助内容。

19.一种计算系统，包括：

网络通信接口；

处理单元；

非暂时性数据存储器；以及

存储在所述非暂时性数据存储器中并且能够由所述处理单元执行的程序指令，以执行用于检测和响应视频呈现设备对视频内容的展示的操作，其中所述视频内容依次包括(i)在展示期间不基于用户交互而变化的预建立的视频片段，以及(ii)在展示期间基于用户交互而变化的动态定义的视频片段，其中，所述操作包括：

经由所述网络通信接口从所述视频呈现设备接收在展示期间实时生成的查询指纹作为正在展示的视频内容的表示，其中所述查询指纹依次包括(i)表示预建立的视频片段的第一部分和(ii)表示动态定义的视频片段的第二部分，

检测所述查询指纹的第一部分和表示预建立的视频片段的参考指纹之间的匹配，并且基于所检测到的匹配，识别正在展示的视频内容，

在识别出正在展示的视频内容之后，将机器学习算法应用到所述查询指纹的至少第二部分，以检测正在展示的视频内容继续为所识别的视频内容，并且

响应于至少检测到正在展示的视频内容继续为所识别的视频内容，使用户设备展示补充内容。

20.根据权利要求19所述的计算系统，其中，视频内容包括视频游戏内容，其中预建立的视频片段包括过场动画视频片段，其中动态定义的视频片段包括交互式游戏视频片段，并且其中所述操作还包括：

基于将经训练的神经网络应用于所述查询指纹的至少第二部分来确定交互式游戏视频片段已持续了至少阈值持续时间，

其中，使所述用户设备展示补充内容还响应于确定交互式游戏视频片段已持续了至少阈值持续时间，并且

其中所述补充内容包括视频游戏帮助内容。