CN114556331A

CN114556331A - 少镜头时间动作定位的新框架

Info

Publication number: CN114556331A
Application number: CN202080072195.4A
Authority: CN
Inventors: 淦创; 谭铭; 张阳; 王大阔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-10-23
Filing date: 2020-10-14
Publication date: 2022-05-27
Also published as: JP7457436B2; WO2021079233A1; US20220012527A1; GB202206486D0; US11727686B2; US11164039B2; US20210124987A1; DE112020004229T5; GB2604071A; JP2023500037A; GB2604071B

Abstract

提供了促进基于图形卷积网络的少镜头时间动作定位的系统和技术。图组件可以生成对时间动作分类的支持集建模的图。图的节点可以对应于支持集中的相应时间动作分类。图的边可对应于相应时间动作分类之间的相似性。卷积组件可以对图执行卷积，从而使得图的节点输出指示相应时间动作分类和待分类动作之间的匹配水平的相应匹配分数。实例化组件可以基于表示待分类动作的提议特征向量将相应输入向量输入到节点中。相应时间动作分类可以对应于相应示例特征向量，并且相应输入向量可以是相应示例特征向量和所提议的特征向量的级联。

Description

少镜头时间动作定位的新框架

背景技术

本公开涉及机器视觉中的动作定位，并且更具体地，涉及基于图形卷积网络的少镜头时间动作定位。时间动作定位涉及接收未修剪视频、定位(例如，标识其开始和停止时间)未修剪视频中显示的动作、以及对该动作进行分类(例如，将该动作标识为跑步、跳跃、投掷等等)。常规时间动作定位技术需要大量训练数据，这可能非常耗时且获取成本非常高。少镜头时间动作定位通过学习如何仅基于几个(例如，少数)示例对动作进行分类来解决这个问题。大多数现有的少镜头时间动作定位系统利用模型不可知元学习(MAML)框架。其他现有的少镜头时间动作定位系统利用学习序列匹配网络。在任何情况下，能够以比现有少镜头时间动作定位系统/技术更高的准确度/精度实现少镜头时间动作定位的系统/技术是有利的。

发明内容

以下给出一个概述以提供对本发明的一个或多个实施例的基本理解。本概述并不旨在标识关键或重要的元素，或描绘特定实施例的任何范围或权利要求的任何范围。其唯一的目的是以简化的形式呈现概念，作为稍后呈现的更详细描述的序言。在本文所描述的一个或多个实施方式中，描述了有助于基于图形卷积网络的少镜头时间动作定位的设备、系统、计算机实现的方法、装置和/或计算机程序产品。

根据一个或多个实施例，提供了一种系统。该系统可以包括存储器，该存储器可以存储计算机可执行部件。该系统可以进一步包括处理器，该处理器可以可操作地耦合到存储器并且可以执行存储在存储器中的计算机可执行组件。在不同实施例中，计算机可执行组件可包括可生成图的图组件。在各种情况下，该图可以对时间动作分类的支持集进行建模。在一个或多个方面中，图的节点可以对应于支持集中的相应的时间动作分类。在各个方面，图的边可对应于相应时间动作分类之间的相似性。在不同实施例中，计算机可执行组件可进一步包括卷积组件，其可对图执行卷积。在各种情况下，卷积之后的图的节点可以输出相应的匹配分数。在不同情况下，相应匹配分数可以指示相应时间动作分类和待分类动作之间的匹配水平。在一个或多个实施例中，计算机可执行组件还可以包括可以向节点输入相应输入向量的实例化组件。在各种情况下，各个输入矢量可以基于表示待分类动作的提议特征向量。在一个或多个实施例中，相应的时间动作分类可以对应于相应的示例特征向量，并且相应的输入向量可以是相应的示例特征向量与表示待分类的动作的所提议的特征向量的级联。在一个或多个实施例中，可以基于显示相应时间动作分类的范例的相应单镜头支持视频经由第一门控循环单元产生相应示例特征向量。在各种情况下，可以基于显示待分类动作的未修剪输入视频经由第二门控循环单元生成所提议议的特征向量。在一个或多个实施例中，可以基于相应时间动作分类的相应示例特征向量之间的余弦相似性来计算相似性。

根据一个或多个实施例，上述系统可以实现为计算机实施的方法。所述计算机实现的方法可以包括：由可操作地耦合到处理器的设备生成所述图，所述图对所述时间动作分类的支持集进行建模；以及由所述设备对所述图执行卷积以便输出相应的匹配分数。

根据一个或多个实施例，上述系统可以实现为用于促进少镜头时间动作定位的计算机程序产品。该计算机程序产品可以包括计算机可读存储介质，该计算机可读存储介质具有与其体现的程序指令。程序指令可以由处理组件执行，这可以使处理组件生成对时间动作分类的支持集建模的图并且对图执行卷积。

要求保护的创新主题的一个或多个实施例可以产生比现有的少镜头时间动作定位系统/技术更准确/精确的结果。如上所述，现有的少镜头时间动作定位系统/技术利用MAML框架或学习序列匹配网络。虽然这种系统/技术可以促进少镜头时间动作定位，但是它们将要被分类的提议特征与支持集中的示例特征独立地进行比较(例如，将提议特征与跑步范例进行比较，将提议特征与跳跃范例进行比较，将提议特征与投掷范例进行比较，等等)。这样的系统/技术未能考虑支持集中的示例/范例之间的关系(例如，跑步范例与跳跃范例之间的关系、跳跃范例与投掷范例之间的关系、投掷范例与跑步范例之间的关系等等)。要求保护的创新主题的不同实施例可以利用这些支持集内关系来提高少镜头时间动作定位的功效。具体地，所要求保护的创新主题的一个或多个实施例可以生成对一个支持集建模的一个图形。支持集可以包括一个或多个单镜头支持视频片段(或在一些实施例中，支持图像)，其中每个单镜头支持视频片段展示对应/各自的时间动作分类的范例。例如，支持集可以具有显示人跑步的示例(例如，跑步时间动作分类)的第一单镜头支持视频片段、显示人跳跃的示例(例如，跳跃时间动作分类)的第二单镜头支持视频片段、显示人投掷对象的示例(例如，投掷时间动作分类)的第三单镜头支持视频片段等等。图的节点可以分别对应于支持集中的时间动作分类(例如，第一节点对应于跑步分类，第二节点对应于跳跃分类，第三节点对应于投掷分类，等等)。图的边可以对应于时间动作分类之间的相似性(例如，第一节点和第二节点之间的边可以对应于跑步分类和跳跃分类之间的相似性值，第二节点和第三节点之间的边可以对应于跳跃分类和投掷分类之间的相似性值，第一节点和第三节点之间的边可以对应于跑步分类和投掷分类之间的相似性值，等等)。在各个实施例中，相似性可以基于表示相应动作分类的范例的向量之间的余弦相似性值。然后可以经由经训练的图形卷积网络在图形上执行卷积以传递消息，这可以使得每个节点输出匹配分数。每个节点的匹配分数可以指示对应于该节点的动作分类和要被分类的动作(例如，在未修剪输入视频中显示的动作)之间的匹配级别。在不同情况下，可以确定具有最高匹配分数的动作分类来对动作进行分类。如通过平均精确度(mAP)测量的实验结果表明经由图形卷积网络促进少镜头时间动作定位对同一数据集产生比现有少镜头时间动作定位系统/技术显著更高的准确度/精确度。

总之，要求保护的创新主题的各种实施例可以利用支持集中的各示例之间的关系，以便提高少镜头时间动作定位的功效。通过将支持集建模为图形并且经由训练的图形卷积网络来卷积图形，要求保护的创新主题的各种实施方式可以产生比现有的少数时间动作定位系统/技术更精确/精确的时间动作定位结果。

附图说明

现在将参考附图仅通过示例的方式来描述本发明的实施例，在附图中：

图1示出了根据本文描述的一个或多个实施方式的通过图形卷积网络促进少镜头时间动作定位的示例性、非限制性系统的框图。

图2示出了根据本文描述的一个或多个实施方式的包括示例特征向量的示例非限制性系统的框图，该特征向量促进通过图形卷积网络的少量时间动作定位。

图3示出根据本文描述的一个或多个实施方式的包括所提议的特征向量的示例性、非限制性系统的框图，该特征向量有助于通过图形卷积网络的少量时间动作定位。

图4示出了根据本文所描述的一个或多个实施方式的包括通过图形卷积网络促进少镜头时间动作定位的图形的示例非限制性系统的框图。

图5示出了根据本文所描述的一个或多个实施方式的通过图谱卷积网络促进少镜头时间动作定位的示例性、非限制性图谱的示图。

图6示出了根据本文所述的一个或多个实施方式的包括输入向量的示例非限制性系统的框图，该输入向量通过图形卷积网络促进少镜头时间动作定位。

图7示出了根据本文描述的一个或多个实施方式的包括通过图卷积网络促进少镜头时间动作定位的输入级联的示例非限制性图的示图。

图8示出了根据本文描述的一个或多个实施方式的包括图形卷积网络的示例非限制性系统的框图，该图形卷积网络经由图形卷积网络有助于少镜头时间动作定位。

图9示出了根据本文描述的一个或多个实施方式的通过图卷积网络促进少镜头时间动作定位的示例非限制性卷积图的示图。

图10示出了根据本文描述的一个或多个实施方式的通过图形卷积网络促进少镜头时间动作定位的示例性、非限制性系统的高级框图。

图11示出根据本文描述的一个或多个实施方式的通过图形卷积网络的少量时间动作定位的示例非限制性结果的表。

图12示出了根据本文描述的一个或多个实施方式的促进通过图谱卷积网络的少量时间动作定位的示例性、非限制性计算机实现的方法的流程图。

图13示出了根据本文描述的一个或多个实施方式的包括通过图卷积网络促进少镜头时间动作定位的输入向量的示例非限制性计算机实现的方法的流程图。

图14示出了根据本文描述的一个或多个实施方式的包括通过图卷积网络促进少镜头时间动作定位的输入级联的示例性、非限制性计算机实现的方法的流程图。

图15示出根据本文描述的一种或多种实施方式的包括通过图卷积网络促进少镜头时间动作定位的门控循环单元的示例性、非限制性计算机实现的方法的流程图。

图16示出其中可促进本文所述的一个或多个实施例的示例非限制性操作环境的框图。

具体实施方式

以下详细说明仅是说明性的并且不旨在限制实施例和/或实施例的应用或使用。此外，无意受前述背景或摘要部分或详细说明部分中提供的任何明示或暗示信息的约束。

现在参考附图描述一个或多个实施例，其中相同的附图标记在全文中用于指代相同的元件。在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对一个或多个实施例的更透彻理解。然而，明显的是，在各种情况下，可以在没有这些具体细节的情况下实践一个或多个实施例。

时间动作定位是机器学习和/或机器视觉的分支，涉及接收未修剪输入视频(例如，视频片段)、定位(例如，识别与未修剪输入视频中显示的动作相关联的开始时间和停止时间)、以及对动作进行分类(例如，确定该动作展现出人、动物、和/或其他实体跑步、跳跃、投掷物体、游泳、打排球、攀树、吃食物、驾驶车辆、睡眠、看电影、演奏乐器、大笑、哭、打架、跌倒、以其他方式从事某些已确定的活动和/或不活动，等等)。通常，时间动作定位需要大量训练数据，收集起来可能是耗时且昂贵的。少镜头时间动作定位通过学习来仅基于几个示例(因此得名)对动作进行分类来解决这个问题。现有的少镜头时间动作定位技术利用MAML框架或学习序列匹配网络。在任一情况下，所提议的动作独立地与动作范例进行比较。本发明要求保护的发明人首先要认识到，通过考虑动作范例本身之间的关系，可以实现少镜头时间动作定位的改进的准确度/精度。要求保护的创新主题的不同实施例通过将支持组建模为图形并且通过训练的图形卷积网络对该图形进行卷积来实现这一点。

本文中描述的实施方式包括促进基于图形卷积网络的少镜头时间动作定位的系统、计算机实现的方法、装置和/或计算机程序产品。在一个或多个实施例中，支持集可以包括分别对应于一个或多个时间动作分类的一个或多个单镜头支持视频。例如，单镜头支持视频可以是短视频片段，其中每个短视频片段显示对应的/相应的时间动作分类的示例(例如，演示人跑步的第一片段、演示人跳跃的第二片段、演示人投掷物体的第三片段等等)。在不同情况下，每个单镜头支持视频(以及因此每个时间动作分类)可以对应于由门控循环单元基于单镜头支持视频生成的示例特征向量(例如，表示跑步分类的第一向量、表示跳跃分类的第二向量、表示投掷分类的第三向量等)。在各个方面，可以生成对支持集建模的图形。图的节点可以分别对应于时间动作分类(例如，第一节点对应于跑步分类，第二节点对应于跳跃分类，第三节点对应于投掷分类，等等)。图的边可对应于相应时间动作分类之间的相似性(例如，跑步节点和跳跃节点之间的边可对应于跑步分类和跳跃分类之间的相似性，跳跃节点和投掷节点之间的边可对应于跳跃跳跃分类和投掷分类之间的相似性，跑步节点和投掷节点之间的边可对应于跑步分类和投掷分类之间的相似性，等等)。在不同实施例中，相似性可以基于示例特征向量的余弦相似性来计算(例如，跑步分类和跳跃分类之间的相似性可以是跑步向量和跳跃向量之间的余弦相似性，跳跃分类和投掷分类之间的相似性可以是跳跃向量和投掷向量之间的余弦相似性，跑步分类和投掷分类之间的相似性可以是跑步向量和投掷向量之间的余弦相似性，等等)。在不同情况下，可以接收未修剪输入视频，并且可以在未修剪输入视频内定位待分类的动作(例如，可以确定待分类的动作的未修剪输入视频的开始时间和未修剪输入视频的停止时间)。可以由门控循环单元基于未修剪输入视频生成表示待分类动作的所提议的特征向量。在不同实施例中，可以通过将所提议的特征向量与各自的示例特征向量的每一个连接(例如，将所提议的特征向量与跑步的向量连接、将所提议的特征向量与跳跃向量连接、将所提议的特征向量与投掷向量连接等)来形成各自的连接。各级联可被输入到各节点中，并且图可被卷积(例如，通过经训练的图卷积网络)，使得卷积图的节点可输出匹配分数。每个节点的匹配分数可以对应于在对应于该节点的时间动作分类和要被分类的动作(例如，在未修剪输入视频中显示的动作)之间的匹配水平。在各种情况下，可以确定动作属于对应于最高匹配分数的时间动作分类。

要求保护的创新主题的不同实施例可以用于使用硬件和/或软件来解决本质上技术性很强的问题(例如，促进基于图形卷积网络的少镜头时间动作定位)、不是抽象的并且不能作为人类的心理行为集合来执行的问题。进一步，所执行的处理中的一些处理可以由专用计算机(例如，图生成器、余弦相似性计算器、训练的图卷积网络等)执行，以用于执行与少镜头时间动作定位有关的定义任务(例如，生成对时间动作分类的支持集建模的图、将待分类的动作的所提议特征向量与分别对应于时间动作分类的示例特征向量串接到图的节点中、通过将支持集中的时间动作分类之间的相似性考虑在内来对图进行卷积以便对动作进行分类，等等)。在不同实施例中，可以采用要求保护的创新主题来解决通过技术、计算机网络、互联网等的进步而产生的新问题。在各个方面，通过使用图对示例动作的支持集进行建模，以便考虑每个示例动作之间的相似性，要求保护的创新主题可以向少镜头时间动作定位领域提供技术改进。通过利用示例动作之间的关系/相似性，要求保护的创新主题的不同实施例可以提供比常规系统更准确/精确的少镜头时间动作定位。因此，这种基于图形卷积网络的少量时间动作定位构成了现有技术中的具体和切实的技术改进。

图1示出了根据本文描述的一个或多个实施方式的示例非限制性系统100的框图，该系统可以通过图形卷积网络促进少镜头时间动作定位。如图所示，少镜头时间动作定位系统102可通过利用支持视频集104对输入视频106执行少镜头时间动作定位。

在不同实施例中，输入视频106可以是任何长度的未修剪视频(例如，商业广告、商业信息、15分钟互联网片段、全长度视频特征、情景喜剧、安全摄像机镜头、身体-摄像机镜头、短跑摄像机镜头等)。在不同实施例中，输入视频106可以被预先记录。在各个其他实施例中，输入视频106可以是实时流传输(或几乎实时流传输)的视频(例如，来自安全相机的实况视频馈送、来自无人机或其他自动车辆的实况视频馈送、来自新闻记者的实况视频馈送、来自智能电话或其他移动设备的实况视频馈送等)。在不同情况下，输入视频106可以包含在输入视频106内具有定义的开始时间和停止时间的一个或多个视频片段(例如，片段1可以在时间t₀开始并且在时间t₁结束，片段2可以在时间t₁开始并且在时间t₂结束，...，片段M可以在时间t_M-1开始并且在时间t_M结束，如图1中所示，其中M可以是任何正整数)。在不同情况下，输入视频106内的一个或多个视频片段可对应于待分类的动作。例如，输入视频106可以描绘参与感兴趣的某个活动(和/或不活动)的人、动物、和/或其他实体，其中，感兴趣的活动在输入视频106的记录时间线中的时间t_x-1处开始并且在时间t_x处结束，其中x∈[0，M]。在这种情况下，输入视频106中的片段x(在图1中未显示)可以是基本上仅仅描述显示该感兴趣的活动的输入视频106的一部分的视频。如以下详细解释的，这种感兴趣的活动可以通过要求保护的创新主题的一个或多个实施例通过图形卷积网络来定位/分类。

在各个实施例中，支持视频集104可以是分别对应于一个或多个时间动作分类(例如，动作类1、动作类2、...、动作类N，如图1中所描绘的，其中N可以是任何正整数)的一个或多个单镜头支持视频(例如，支持视频1、支持视频2、...、支持视频N)的集合。在各个方面，单镜头支持视频可以是短视频片段(例如，在长度上为几秒钟、根据需要更长或更短等等)，短视频片段演示和/或显示分别对应于时间动作分类的动作的示例/范例。例如，如果动作类1对应于跑步活动，则支持视频集104可以包含描述参与跑步活动的人、动物和/或其他实体(例如，以马拉松跑步的运动员)的示例的第一单镜头支持视频(例如，支持视频1)。类似地，如果动作类2对应于跳跃的活动，则支持视频集104可以包含描绘参与跳跃的活动的人、动物和/或其他实体(例如，在蹦床上跳跃的人)的示例的第二单镜头支持视频(例如，支持视频2)。更进一步，如果动作类N对应于投掷物体的活动，则支持视频集104可以包括第N个单镜头支持视频(例如，支持视频N)，该第N个单镜头支持视频描绘了参与投掷活动(例如，运动员投球)的人、动物和/或其他实体的示例。虽然本文论述了跑步、跳跃和投掷的活动以展示要求保护的创新主题的各个方面和实施例，但本发明不限于此，并且可以并入可以在短视频片段中描绘的任何合适的活动和/或无活动性。在各个方面，任何适当数量和/或类型的时间动作分类和对应的单镜头支持视频可以包括在支持视频集104中(例如，跑步、跳跃、投掷、播放、举重、携带、吃饭、喝酒、战斗、滑动、跌倒、滚动、坐着、爬行、攀爬、驾驶、谈话、大笑、哭等等)。在各个方面，当在支持视频集104中建立时间动作分类和对应的单镜头支持视频(例如，进行任何竞争性活动对比进行竞争性活动、投掷任何对象对比投掷特定对象、吃任何食物对比吃特定食物、操作任何车辆对比操作特定车辆等等)时，可以使用任何合适的/期望的通用性/特异性水平。例如，在一些实施例中，单镜头动作分类可以对应于跳跃的通用活动，并且因此对应于输入视频106的描绘人的任何片段，无论人、动物和/或其他实体是否正在进行长跳跃(例如，田径活动)，跳入空中的动物和/或其他实体可以被分类为属于跳跃时间动作分类，高跳(例如，另一田径活动)、杆跳(例如，又一田径活动)或仅仅是跳绳(例如，游戏和/或心脏运动)。在其他实施例中，可以使用更具体的时间动作分类(以及因此更具体的单镜头支持视频)。例如，第一时间动作分类可以对应于长跳跃的活动，并且第一单镜头支持视频可以显示运动员执行长跳跃的示例，第二时间动作分类可以对应于高跳跃的活动并且第二单镜头支持视频可以显示运动员执行高跳跃的示例，第三时间动作分类可以对应于撑杆跳起的活动，并且第三单镜头支持视频可以显示执行撑杆跳起的运动员的示例，第四时间动作分类可以对应于跳绳的活动，并且第四单镜头支持视频可以显示使用跳绳的人的示例，等等。如以下更详细地解释的，所要求保护的主题的不同实施例可以通过操纵基于对应的单镜头支持视频(例如，支持视频1、支持视频2、...、支持视频N)生成的向量来利用支持视频集104中的时间动作分类(例如，动作类1、动作类2、...、动作类N)中的每一个之间的关系，以便对在输入视频106的所期望的视频片段中显示的动作进行分类/本地化。

在一个或多个实施例中，要求保护的创新主题可以概括为超视频分析。例如，在一些实施例中，本文所教导的系统、计算机实现的方法、装置和/或计算机程序产品可以用于基于包含在支持视频集104中的动作分类和示例来对所显示的输入视频106中的感兴趣的动作进行定位/分类。然而，在其他实施例中，本文教导的系统、计算机实现的方法、装置和/或计算机程序产品可以用于定位/分类声音(例如，使用与输入视频106类似的输入音频文件和使用与支持视频集104类似的支持音频集)。在不同实施例中，本文教导的系统、计算机实现的方法、装置和/或计算机程序产品可以被实现为对存在合适范例(例如，支持视频集104)的电子输入文件(例如，输入视频106)中的任何类型的信息进行定位/分类。应用的非限制性示例可包括视觉动作分类/定位、听觉音乐和/或音乐模式分类/定位、听觉语音分类/定位、嗅觉分类/定位(例如，使用化学嗅觉传感器)、触觉分类/定位(例如，使用重量分布传感器)等等。

在各个实施例中，少镜头时间动作定位系统102可以包括处理器108(例如，计算机处理单元、微处理器等)和可操作地连接到处理器108的计算机可读存储器110。存储器110可以存储计算机可执行指令，所述计算机可执行指令在由处理器108执行时可以使处理器108和/或少镜头时间动作定位系统102的其他组件(例如，支持向量组件112、输入向量组件114、图组件116、实例化组件118、卷积组件120等)执行一个或多个动作。在各个实施例中，存储器110可以存储计算机可执行组件(例如，支持向量组件112、输入向量组件114、图组件116、实例化组件118、卷积组件120等)，并且处理器108可以执行计算机可执行组件。

在一个或多个实施例中，少镜头时间动作定位系统102可以经由支持向量分量112基于支持视频集104中的单镜头支持视频来生成分别对应于支持视频集104中的一个或多个时间动作分类的一个或多个示例特征向量。换言之，支持向量分量112可以生成动作嵌入，其中支持视频集104中的每个单镜头支持视频(以及因此每个动作分类)具有表示其的对应向量(例如，示例特征向量)。在不同的实施例中，支持向量分量112可以采用一个或多个门控循环单元(GRU)来生成此类向量和/或动作嵌入。GRU可以是在不同类型的人工神经网络中使用的选通机制，以避免反向传播期间的消失梯度问题。在各个实施例中，可以实现创建动作嵌入的其他适当技术(例如，将视觉感知动作映射到向量)。在各个实施例中，支持向量分量112可以接收并分析与支持视频集104中的一个或多个时间动作分类(例如，动作类1、动作类2、...、动作类N)相对应的单镜头支持视频(例如，支持视频1、支持视频2、...、支持视频N)，并且可以生成与一个或多个时间动作分类相对应的一个或多个向量(被称为示例特征向量)。例如，如果动作类1对应于跑步活动并且支持视频1描绘了人跑步的示例/范例，则支持向量分量112可以基于支持视频1来生成表示跑步活动的第一示例特征向量(具有任何合适的维度的向量)。类似地，如果动作类2对应于跳跃的活动并且支持视频2描绘了人跳跃的示例，则支持向量分量112可以基于支持视频2生成表示跳跃的活动的第二示例特征向量。更进一步，如果动作类N对应于投掷的活动并且支持视频N描绘了投掷对象的人的示例，则支持向量分量112可以基于支持视频N来生成表示投掷的活动的第N示例特征向量。在各个实施例中，可以使用现在已知的或以后开发的用于基于动作的视觉感知特性/属性将矢量映射至分别在单镜头支持视频中描绘的活动/动作的任何合适的技术(例如，GRU、创建动作嵌入的其他技术等)。

在一个或多个实施例中，少镜头时间动作定位系统102可以经由输入向量分量114生成表示要从输入视频106分类的动作的所提议的特征向量。类似于支持向量分量112，输入向量分量114可以生成表示待分类动作的向量(例如，动作嵌入)，其中在输入视频106的至少一个视频片段中检测待分类动作。在不同实施例中，输入向量分量114可以经由一个或多个GRU和/或经由现在已知的或以后开发的任何其他适合的技术来生成此向量(被称为所提议的特征向量)。在不同实施例中，输入向量分量114可以接收并分析来自显示待分类动作的输入视频106的视频片段，并且可以输出表示待分类动作的向量(例如，所提议的特征向量)。例如，如果输入视频106的片段x(图1中未示出)显示参与感兴趣活动的人，则输入矢量分量114可以接收片段x并且基于活动的视觉感知特性/属性生成表示感兴趣活动的提议特征向量。如下面详细解释的，该提议的特征向量可以与由支持向量分量112生成的示例特征向量一起使用以将感兴趣的活动分类为支持视频集104中的一个或多个时间动作分类(例如，动作类1、动作类2、……、动作类N)。

在各实施例中，少镜头时间动作定位系统102可以经由图组件116来生成对支持视频集104进行建模的图。在各个实施例中，图形可以捕获支持视频集104中的时间动作分类之间的关系(例如，捕获动作类1、动作类2、...、和动作类N如何彼此相关)。具体地，图的节点可以对应于时间动作分类。例如，该图可以具有对应于动作类1的第一节点、对应于动作类2的第二节点、对应于动作权利要求N的第N节点等。此外，图的边可以对应于(和/或可以具有对应于)时间动作分类之间的相似性的权重。例如，对应于动作类1的节点和对应于动作类2的节点之间的边可以表示动作类1和动作类2之间的相似度值(例如，支持视频1和支持视频2之间的相似度)。在各个方面，该相似性值可以被计算为与动作类1相关联的示例性特征向量和与动作类2相关联的示例性特征向量之间的余弦相似性。在不同实施例中，可以实施相似性的其他测量(例如，示例特征向量之间的欧几里德距离、示例特征向量之间的归一化欧几里德距离等)。在各种实施方式中，较大的相似性值可以用于指定更相似的实例特征向量(例如，相似性值可以是cos(θ)，其中，θ表示两个实例特征向量之间的角度，使得更接近1的相似性值表示更多的相似性并且更接近0的相似性值表示更少的相似性)。在各种其他实施方式中，较小的相似性值可以用于指定更相似的实例特征向量(例如，相似性值可以是sin(θ)，其中，θ表示两个实例特征向量之间的角度，使得更接近0的相似性值表示更多的相似性并且更接近1的相似性值表示更少的相似性)。在不同实施例中，可以实施数学地测量两个示例特征向量之间的相似性的其他方式。在不同实施例中，由图组件116生成的图可以是无向的。在各个方面，具有N个节点的无向图可以具有

边(例如，完整的和/或完全连接的图)。在不同实施例中，图形(无论是有向的还是无向的)可以具有更少的边。在任何情况下，图组件116可以生成图，其节点分别对应于支持视频集104中的时间动作分类，并且其边对应于相应时间动作分类之间的相似性。通过用这样的图表对支持视频集104进行建模，可以对支持视频集104中的单镜头支持视频之间(例如，动作范例之间)的相互关系进行量化和利用，以提高时间动作定位/分类的功效。如上所解释的，促进少镜头时间动作定位的常规系统不能考虑这些相互关系。相反，常规技术独立地比较待分类的动作与每个动作范例，而不考虑动作范例如何彼此相关。实验结果显示要求保护的创新主题的不同实施例胜过常规系统，精确地因为要求保护的创新主题利用支持视频集104中的时间动作分类之间的相互关系。

在各个实施例中，少镜头时间动作定位系统102可以经由示例组件118输入到由图组件116生成的图的节点中的某些输入向量。在不同示例中，这些输入向量可被认为是图的初始和/或实例化特征/属性。在不同情况下，输入矢量可以基于要分类的动作的提议特征向量。在不同情况下，输入向量可以是提议的特征向量与相应实例特征向量的级联(例如，第一节点的输入向量可以是提议的特征向量和对应于动作类型1的实例特征向量的级联，第二节点的输入向量可以是提议的特征向量和对应于动作类型2的实例特征向量的级联，第N节点的输入向量可以是提议的特征向量和对应于动作类型N的实例特征向量的级联，等等)。在各种实施方式中，级联可以通过将所提议的特征向量的一端连接至各个实例特征向量的一端来形成(例如，如果对于某个正整数p，所提议的特征向量是p乘1向量并且相应实例特征向量也是p乘1向量，那么级联可以是2p乘1向量)。在不同情况下，可以在级联中首先列出所提议的特征向量。在各种情况下，各个示例特征向量可以在级联中首先列出。因此，在各实施例中，由图组件116生成的图可以包括对应于相应时间动作分类的节点和对应于相应时间动作分类之间的相似性的边。此外，节点可以用所提议的特征向量与相应示例特征向量的相应级联来实例化。在不同情况下，与常规技术相比，此类图结构可以用于提高少镜头时间动作定位的准确度/精度。

在不同实施例中，在实例化组件118输入相应级联体之后，少镜头时间动作定位系统102可经由卷积组件120对由图组件116生成的图执行卷积。在各种实施方式中，卷积组件120可以采用图形卷积网络(例如，在图形上操作的卷积神经网络)来执行卷积。在各个方面，图卷积网络是卷积神经网络(例如，特定类型的人工神经网络)，其将具有图的每个节点的特征/属性描述的图作为输入，并且还将具有矩阵形式的图结构的代表性描述(例如，邻接矩阵或其函数)作为输入，并产生一些节点级输出(例如，用于图的每个节点的一些输出值)。在各种实施方式中，卷积组件120可以利用图卷积网络对由图组件116生成并由实例化组件118实例化的图执行卷积，这可以使卷积图的节点输出匹配分数。每个匹配分数可以是指示对应于特定节点的时间动作分类和待分类的动作之间的匹配水平的值。在各个实施例中，待分类的动作可以被确定为属于具有最高匹配分数的时间动作分类(例如，如果数值上较高的匹配分数指示较强的匹配概率)。在各种实施方式中，待分类的动作可被确定为属于具有最低匹配分数(例如，如果数字上较低的匹配分数指示较强的匹配概率)的时间动作分类。在不同实施例中，可以训练(例如，受监督训练、无监督训练、增强学习等)由卷积组件120采用的图形卷积网络以采用作为输入图形结构并产生作为输出节点级匹配分数。如以上所解释的，促进少镜头时间动作定位的常规技术不将支持视频集104建模为图形并且对该图形执行卷积以便对感兴趣的动作进行分类/定位。然而，发明人的实验结果表明通过图形卷积网络的少镜头时间动作定位比在相同数据集上的常规技术实现显著更好的准确度/精度。

为了阐明图1，考虑以下非限制性实例。假设输入视频106是健身房会员商业广告，该健身房会员商业广告包括描绘运动员攀爬岩壁的视频段。假定该视频段包含待分类的动作；也就是说，最终目标可以是针对少镜头时间动作定位系统102来确定所讨论的视频段描绘参与攀爬活动的人。现在，假设支持视频集104包括三个时间动作分类(例如，游泳、攀爬和举重)并且因此还包括演示这三个时间动作分类的范例的三个单镜头支持视频(例如，第一短视频片段，其显示在泳池中游泳的人的示例；第二短视频片段，其显示攀爬树的人的示例；以及第三短视频片段，其显示举起杠铃的人的示例)。在这个非限制性示例中，支持向量分量112可以接收支持视频集104并且可以基于单镜头支持视频来生成针对每个时间动作分类的示例特征向量(例如，表示游泳范例的第一示例特征向量、表示攀爬范例的第二示例特征向量、以及表示举重范例的第三示例特征向量)。类似地，输入矢量分量114可以从输入视频106接收包含待分类动作(例如，运动员攀爬岩壁)的视频段，并且可以基于视频段生成表示待分类动作的提议特征向量(例如，表示运动员攀爬岩壁的矢量)。在各个方面，图组件116可以生成对支持视频集104进行建模的无向图。具体地，该图可以具有三个节点(例如，对应于游泳时间动作分类的第一节点、对应于攀爬时间动作分类的第二节点以及对应于举重时间动作分类的第三节点)。此外，该图可以具有三条边(例如，

其中N＝3)，这些边表示三个时间动作分类之间的相似性(例如，游泳节点与攀爬节点之间的第一边缘对应于游泳分类与攀爬分类之间的相似性，攀爬节点与举重节点之间的第二边缘对应于攀爬分类与举重分类之间的相似性，以及游泳节点与举重节点之间的第三边缘对应于游泳分类与举重分类之间的相似性)。在各个方面，相似性值可以计算为相应示例性特征向量之间的余弦相似性(例如，第一边缘的权重计算为游泳示例性特征向量和攀爬示例性特征向量之间的余弦相似性，第二边缘的权重计算为攀爬示例性特征向量和举重示例性特征向量之间的余弦相似性，以及第三边缘的权重计算为游泳示例性特征向量和举重示例性特征向量之间的余弦相似性)。在不同情况下，实例组件118可以将所提议的特征向量和节点的相应示例特征向量的相应级联输入到图的每个节点中(例如，将所提议的特征向量和游泳示例特征向量的级联输入到游泳节点中，将所提议的特征向量和攀爬示例特征向量的级联输入到攀爬节点中，并且将所提议的特征向量和举重示例特征向量的级联输入到举重节点中)。在各个方面，卷积组件120可以经由经训练的图卷积网络对所生成和实例化的图执行卷积。在各种情况下，卷积图的节点可以各自输出匹配分数。在这种情况下，由攀爬节点输出的匹配分数可以高于由游泳节点或举重节点输出的匹配分数。因此，可以确定所提议的特征向量(以及因此待分类的动作)最类似于攀爬示例特征向量，其指示动作(例如，运动员攀爬岩壁)可以被分类为攀爬的实例。

作为简化和非限制性的解释，要求保护的创新主题的不同实施例可以使用图形卷积网络来利用支持组中的时间动作分类之间的相互关系，以便提高动作定位/分类的功效。非常简单地，传统的少镜头时间动作分类技术不将时间动作分类(例如，动作类别)之间的相互关系建模为图，也不使用图卷积网络对动作进行分类/本地化。

图2示出了根据本文描述的一个或多个实施方式的包括示例特征向量的示例非限制性系统200的框图，示例特征向量可以经由图形卷积网络促进少镜头时间动作定位。如图所示，在不同实施例中，系统200可以包括与系统100相同的组件，并且还可以包括示例特征向量202。

如以上所解释的，在一个或多个实施例中，支持向量分量112可以接收支持视频集104并且可以基于在支持视频集104中的单镜头支持视频(例如，支持视频1、支持视频2、……、支持视频N)中显示的视觉上感知到的特性/属性来生成示例特征向量202。在各个方面，示例特征向量202可以包括与支持视频集104中的每个时间动作分类相对应的单独向量(例如，向量1可以基于支持视频1并且对应于动作类1，向量2可以基于支持视频2并且对应于动作类2，…，向量N可以基于支持视频N并且与动作类N相对应，等等)。在不同情况下，这些示例特征向量中的每一个可以表示其对应的动作范例(例如，向量1可以表示在支持视频1中描绘的示范性动作的特性/属性，向量2可以表示在支持视频2中描绘的示范性动作的特性/属性，…，向量N可以表示在支持视频N中描绘的示范性动作的特性/属性，等等)。如以上所解释的，基于现在已知的或以后开发的支持视频集104生成示例特征向量202的任何适合的技术都可以被并入要求保护的创新主题的不同实施例中。例如，一个或多个门控循环单元可以由支持向量分量112用来分析支持视频集104中的每个单镜头支持视频，并且由此基于由该单镜头支持视频描绘的特性/属性向每个单镜头支持视频(并且因此向每个时间动作分类)指派唯一向量。在各种情况下，可以实现能够基于视觉感知动作的特性/属性将视觉感知动作映射到唯一数字向量的任何其他合适的动作嵌入技术。为了继续以上示例，其中输入视频106是健身房会员商业广告并且输入视频106的视频段描绘了运动员攀爬岩壁，动作类1可以对应于游泳分类，动作类2可以对应于攀爬分类，并且动作类N可以对应于举重分类。这些分类中的每个分类可以在支持视频集104中具有相关联的单镜头支持视频(例如，支持视频1可以是描绘人游泳的示例的短视频片段，支持视频2可以是描绘人攀爬的示例的短视频片段，并且支持视频N可以是描绘人举重的示例的短视频片段)。基于支持视频1、支持视频2和支持视频N，支持向量分量112可以生成相应的示例特征向量202，其中向量1表示支持视频1和动作类1，向量2表示支持视频2和动作类2，并且向量N表示支持视频N和动作类N。

图3示出了根据本文描述的一个或多个实施方式的包括所提议的特征向量的示例非限制性系统的框图，该特征向量可以经由图形卷积网络促进少镜头时间动作定位。如图所示，在不同实施例中，系统300可以包括与系统200相同的分量，并且还可以包括所提议的特征向量302。

如以上所解释的，在一个或多个实施例中，输入向量分量114可以接收输入视频106的显示待分类动作的视频片段并且可以基于所接收的视频片段生成所提议的特征向量302。在各个方面，所提议的特征向量302可以是表示待分类的动作的数字向量，并且可以基于所接收的视频片段中所描绘的待分类的动作的视觉上感知的特性/属性。如上所述，基于从现在已知或以后开发的输入视频106接收的视频片段，用于生成所提议的特征向量302的任何合适的技术可以并入在主题要求保护的发明的不同实施例中。例如，一个或多个门控循环可以被输入向量组件114用来分析有待分类在来自输入视频106的接收到的视频段中的动作，并且由此向有待分类的动作指派量化该动作的特征/特性的唯一向量。在各种情况下，可以实现能够基于视觉感知动作的特性/属性将视觉感知动作映射到唯一数字向量的任何其他合适的动作嵌入技术。为了继续涉及描绘运动员攀爬岩壁的体育馆会员资格商业的以上示例，输入向量分量114可以从输入视频106接收显示运动员攀爬岩壁的视频段。基于所接收的视频片段，输入向量分量114可以生成提议的特征向量302，其中提议的特征向量302是表示和/或量化攀爬岩壁的运动员的片段的数值向量。如以上所解释的，所提议的特征向量302可以与示例特征向量202一起使用以便经由图形卷积网络执行少镜头时间动作定位。

图4示出了根据本文所描述的一个或多个实施方式的包括可以通过图形卷积网络促进少镜头时间动作定位的图形的示例非限制性系统400的框图。如图所示，在不同实施例中，系统400可以包括与系统300相同的组件，并且还可以包括图形402。

如以上所解释的，在各个实施例中，图形组件116可以生成对支持视频集104进行建模的图形402。更具体地，图402可以对支持视频集合104中的时间动作分类之间的相互关系进行建模/捕获(例如，捕获由支持视频1所示例的动作类1如何与支持视频集合104中的每个其他动作类相关，捕获由支持视频2所示例的动作类2如何与支持视频集合104中的每个其他动作类相关，…，捕获由支持视频N所示例的动作类N如何与支持视频集合104中的每个其他动作类相关，等等)。具体地，图402的节点可以各自对应于相应的时间动作分类(例如，图402中的第一节点可以对应于动作类1，图402中的第二节点可以对应于动作类2，……，图402中的第N节点可以对应于动作类N，等等)。此外，图402的边(例如，和/或与边相关联的权重)可对应于相应时间动作分类之间的相似性(例如，第一节点与第二节点之间的边可对应于动作类1与动作类2之间的相似性，第二节点与第N节点之间的边可对应于动作类2与动作类N之间的相似性，第一节点与第N节点之间的相似性可对应于动作类1与动作类N之间的相似性，等等)。在各个实施例中，可以基于相应示例特征向量202之间的余弦相似性计算这些相似性(例如，动作类1和动作类2之间的相似性可以被计算为向量1和向量2之间的余弦相似性，动作类2和动作类N之间的相似性可以被计算为向量2和向量N之间的余弦相似性，动作类1和动作类N之间的相似性可以被计算为向量1和向量N之间的余弦相似性，等等)。在不同情况下，两个向量

和

的余弦相似性简单地是这些向量之间的角度的余弦(例如，cos(θ))。这可以根据以下公式使用欧几里得点积来计算：

在不同实施例中，可以使用相似性的其他数学测量(例如，欧几里得距离等)。在不同实施例中，图402可以是无向的。在各个方面中，图402可以具有N个节点(例如，与支持视频集104中的时间动作分类相同数量)并且可以具有1/2N(N-1)条边(例如，完整的和/或完全连接的图)。在各实施例中，图402(无论是有向还是无向的)可以具有更少的边(例如，不完整的图)。为了继续输入视频106是健身房会员商业广告的以上示例，图402可以具有对应于三个时间动作分类的三个节点(例如，对应于游泳动作课的第一节点、对应于攀爬动作课的第二节点、以及对应于举重动作课的第三节点)。第一节点和第二节点之间的边的权重可对应于游泳动作类和攀爬动作类之间的相似度，第二节点和第三节点之间的边的权重可对应于攀爬动作类和举重动作类之间的相似度，第一节点和第三节点之间的边的权重可对应于游泳动作类和举重动作类之间的相似度。

图5示出了根据本文所描述的一个或多个实施方式的经由图卷积网络促进少镜头时间动作定位的示例非限制性图的图表500。

在各实施例中，图500可以是由图组件116生成的图402的更详细的图示。如图所示，在一个或多个实施例中，图402可以包括可以对应于支持视频集合104中的动作类1的节点1、可以对应于支持视频集104中的动作类2的节点2、可以对应于支持视频集104中的动作类3(图4中未描绘)的节点3以及对应于支持视频集104中的动作类N的节点N。尽管图5仅描绘了图402中的四个节点，但是可以包括任何合适的/期望数量的节点(例如，N可以是任何合适的/期望的正整数)。在一些实施例中，图402的节点的数量可以等于支持视频集104中的时间动作分类的数量。如图所示，节点1与节点2之间的边可以表示相似度1，2(例如，即，动作类1与动作类2之间的相似度值)。如上文彻底解释的，可以经由向量1(例如，对应于动作类1并且基于支持视频1生成的)与向量2(例如，对应于动作类2并且基于支持视频2生成的)之间的余弦相似度计算来计算相似度值。同样地，节点1与节点3之间的边可以表示经由向量1与向量3之间的余弦相似性计算计算的相似性1，3(图4中未示出)；节点2与节点3之间的边可以表示经由向量2与向量3之间的余弦相似性计算所计算的相似性2，3；节点1与节点N之间的边可以表示经由向量1与向量N之间的余弦相似性计算所计算的相似性1，N；节点2和节点N之间的边可以表示经由向量2和向量N之间的余弦相似性计算所计算的相似性2，N；并且节点3和节点N之间的边可以表示经由向量3和向量N之间的余弦相似性计算所计算的相似性3，N。如图所示，在不同实施例中，图402可以是完整的和/或完全连接的，并且因此如果图402具有N个节点，则图402可以具有

边。在图5中描绘的非限制性示例中，图402具有四个节点，并且因此其具有六条边(例如，0.5*4*(4-1)＝6)。如上所述，经由图402对支持视频集104进行建模可以捕获和/或量化支持视频集104中的时间动作分类之间的相互关系(例如，量化动作类1、动作类2、...、和动作类N之间的关系)。经由如在此描述的图形卷积网络利用这些相互关系可以显著地改善少镜头时间动作定位的功效。

图6示出了根据本文所描述的一个或多个实施方式的包括可以通过图形卷积网络促进少镜头时间动作定位的输入向量的示例非限制性系统600的框图。如图所示，在不同实施例中，系统600可以包括与系统400相同的组件，并且还可以包括输入向量602。

如上所述，在不同实施例中，实例化组件118可以基于所提议的特征向量302和/或基于示例特征向量202来生成输入向量602。在不同情况下，输入向量602可包括分别对应于图402的节点的级联(例如，对应于图402中的N个节点的N个级联，其可对应于支持视频集104中的N个时间动作分类)。具体地，输入向量602的每个向量可以是所提议的特征向量302和示例特征向量202的相应向量的级联(例如，级联1可以是所提议的特征向量302与向量1的级联，级联2可以是所提议的特征向量302与向量2的级联，……，级联N可以是所提议的特征向量302与向量N的级联，等等)。在不同情况下，可以通过将所提议的特征向量302的一端链接至来自示例特征向量202的相应向量的一端来执行向量级联。因此，如果所提议的特征向量302是某个正整数p的p维向量并且示例特征向量202也是p维向量，则输入向量602可以是2p维向量。在一些情况下，所提议的特征向量302可以首先在级联中列出(例如，输入向量602的每一个中的第一p个元素可以来自所提议的特征向量302)。在一些情况下，提议的特征向量302可以在级联中最后列出(例如，输入向量602的每一个中的最后p个元素可以来自提议的特征向量302)。在各个方面，实例化组件118可以将输入向量602中的每个实例化(例如，输入)到图402的相应节点中(例如，节点1可以用级联1实例化，节点2可以用级联2实例化，…，节点N可以用级联N实例化，等等)。在各个方面，输入向量602可以被认为是图402的节点的初始和/或实例化特征/属性。为了继续以上示例，其中，输入视频106是健身房会员商业广告，实例化组件118可以向图402的第一节点输入级联1，可以向图402的第二节点输入级联2，并且可以向图402的第三节点输入级联3(在图6中未描绘)。

图7示出了根据本文描述的一个或多个实施方式的包括输入级联的示例非限制性图的图700，该输入级联可通过图卷积网络促进少镜头时间动作定位。

在各实施例中，图700可以是由图组件116生成并由实例化组件118实例化的图402的更详细的图示。如图所示，图402的节点1可以接收由实例化组件118生成的级联1作为输入(例如，作为初始和/或实例化特征/属性)。如图所示，级联1可以通过将所提议的特征向量302与来自示例特征向量202的向量1端到端链接连接来形成。在图7中示出的实施方式中，提议的特征向量302可以在级联1中首先列出(例如，如果级联1包括2p个元素，则级联1的前p个元素可以是提议的特征向量302的元素，并且级联1的最后p个元素可以是示例性特征向量202的向量1的元素)。在其他实施例中，可以在级联1中最后列出所提议的特征向量302(例如，如果级联1包括2p个元素，则级联1的最后p个元素可以是所提议的特征向量302的元素，并且级联1的前p个元素可以是示例特征向量202的向量1的元素)。在各种实施方式中，可以结合将所提议的特征向量302与示例性特征向量202的相应向量连接的其他方式。如图所示，正如级联1一样，级联2可以包括所提议的特征向量302和示例特征向量202的向量2，并且可以被输入到图402的节点2中，级联3(图6中未描绘)可以包括所提议的特征向量302和示例特征向量202的向量3(图6中未描绘)并且可以被输入到图402的节点3中，并且连结N可以包括所提议的特征向量302和示例特征向量202的向量N，并且可以被输入到图402的节点N中。

图8示出了根据本文描述的一个或多个实施方式的包括图形卷积网络的示例非限制性系统800的框图，该图形卷积网络可以经由图形卷积网络促进少镜头时间动作定位。如图所示，在各种实施方式中，系统800可以包括与系统600相同的部件，并且可以进一步包括GCN 802，其中，“GCN”可以代表“图形卷积网络”。

如上所述，在各个实施例中，卷积组件120可以经由GCN 802对由图组件116生成并由实例化组件118实例化的图402执行卷积。在一个或多个实施方式中，GCN 802可以是图形卷积网络(例如，在结构和/或非结构化的图形上操作的卷积神经网络)，其可以在图形402上执行一个或多个卷积。图卷积(例如，基于频谱的、基于空间的等等)是由卷积神经网络执行的数学运算，其中，函数由卷积神经网络学习，使得该函数将具有每个节点的特征/属性描述的图作为输入并且产生节点级输出。在各种实施例中，GCN 802可以具有任何合适的/期望数量的隐藏层和/或任何合适的/期望数量的神经元。在各种实施例中，GCN 802可以采用任何合适的/期望的激活功能。在一个或多个实例中，可以对GCN 802进行训练(例如，经由受监督训练、无监督训练、强化学习等)，以将由图组件116生成并由实例化组件118实例化的图402作为输入，并产生卷积图，其中每个节点输出指示待分类的动作和与该节点相关联的时间动作分类之间的匹配水平的匹配分数。在不同实施例中，可以实现更新GCN 802的权重参数的任何合适的/期望的技术(例如，反向传播等)。在各个方面，图402中的每个节点的初始特征描述可以是输入向量602(例如，图402的节点1的初始特征描述可以是输入向量602的级联1，图402的节点2的初始特征描述可以是输入向量602的级联2，……，图402的节点N的初始特征描述可以是输入向量602的级联N，等等)。在各个方面，匹配分数可以是由GCN 802产生的节点级输出。在各个实施例中，待分类的动作可以被确定为属于具有最高匹配分数的时间动作分类。在不同实施例中，每个节点的匹配分数可以是标量值。因此，在不同实施例中，GCN 802可以采用图402作为输入，其中每个节点具有向量性质/特征描述(例如，输入向量602中的一个)，并且可以产生具有与图402相同数量的节点的卷积图作为输出，其中卷积图的每个节点具有标量性质/特征描述(例如，匹配得分)。继续输入视频106是健身房会员商业广告的以上示例，图402可以经由GCN 802由卷积组件120进行卷积，并且图402的节点在卷积之后可以输出匹配分数，其中，最高匹配分数由图402的第二节点(例如，对应于攀爬分类的节点)输出。因此，待分类的动作(例如，运动员攀爬岩壁的视频片段)可以被确定为攀岩动作的实例。注意，该分类/定位可在不必对描绘游泳、攀爬和举重的不同示例的大量数据训练机器学习算法的情况下实现。相反，在各个实施例中，每个时间动作分类的单个示例/范例可以是足够的。

在不同实施例中，可以实现其他机器学习和/或人工智能技术。本文中的本发明的不同实施例可以采用人工智能(AI)来促进使本发明的一个或多个特征自动化。组件可以采用不同基于AI的方案来执行本文公开的不同实施例/示例。为了提供或帮助本发明的众多确定(例如，决定、确定、推断、计算、预测、推测、估计、推导、预测、检测、计算等)，本发明的组件可以检查其被授权访问的数据的全部或子集，并且可以从经由事件和/或数据捕捉的一组观察结果推理或确定系统、环境等的状态。例如，确定可用于识别特定上下文或动作，或可产生状态上的概率分布。确定可以是概率性的；即，基于对数据和事件的考虑来计算感兴趣的状态上的概率分布。确定还可以指用于从一组事件和/或数据组成更高级事件的技术。

这样的确定可以导致从一组观察到的事件和/或存储的事件数据构造新的事件或动作，无论事件是否在时间上紧密接近地相关，以及事件和数据是来自一个还是若干事件和数据源。本文公开的组件可以结合执行与所要求保护的主题有关的自动和/或确定的动作而采用不同分类(显式训练(例如，经由训练数据)以及隐式训练(例如，经由观察行为、偏好、历史信息、接收外部信息等))方案和/或系统(例如，支持向量机、神经网络、专家系统、贝叶斯置信网络、模糊逻辑、数据融合引擎等)。由此，分类方案和/或系统可用于自动学习和执行多个功能、动作和/或确定。

分类器可以将输入属性向量z＝(z1,z2,z3,z4,zn)映射到该输入属于类的置信度，如通过f(z)＝置信度(类)。这样的分类可以采用基于概率和/或统计的分析(例如，分解成分析效用和成本)来确定将自动执行的动作。支持向量机(SVM)可以是可以采用的分类器的示例。SVM通过在可能输入的空间中找到超表面来操作，其中超表面试图将触发标准与非触发事件分离。直观地，这使得分类对于接近训练数据但不与训练数据相同的测试数据是正确的。其他有向和无向模型分类方法包括例如朴素贝叶斯、贝叶斯网络、决策树、神经网络、模糊逻辑模型和/或提供不同独立模式的概率分类模型，可以采用它们中的任何一种。如本文所使用的分类也包括用于开发优先级模型的统计回归。

图9示出了根据本文描述的一个或多个实施方式的可通过图卷积网络促进少镜头时间动作定位的示例、非限制性卷积图的图900。

在不同实施例中，图900可以是GCN802基于图402生成的卷积图902的更详细的图示。如图所示，在一些实施例中，卷积图902可具有与图402相同的节点数量。在不同实施例中，卷积图902可以具有与图402相同的边和/或相同的边权重。在一些实施例中，卷积图902可以具有与图402不同的边和/或不同的边权重。在各个实施例中，卷积图902的每个节点可以输出匹配得分(例如，标量)，该匹配得分指示待分类(例如，由提议的特征向量302表示)的动作和对应于讨论中的节点(例如，由示例特征向量202之一表示)的时间动作分类之间的匹配水平。在不同实施例中，每个节点的匹配分数可以被认为是卷积之后图的每个节点的属性/特征描述。

图10示出了根据本文描述的一个或多个实施方式的可以经由图形卷积网络促进少镜头时间动作定位的示例性、非限制性系统1000的高级框图。

在各个方面，图10可以描绘要求保护的创新主题的各个实施例的非限制性和示例性概述。如所示并且如上所述，输入视频106可以描绘待分类的动作。支持视频集104可以包含描绘相应时间动作分类(例如，动作类1、动作类2、...、动作类N)的示例/范例的一个或多个单镜头支持视频(例如，支持视频1、支持视频2、...、支持视频N)。可以生成向量以表示时间动作分类(例如，示例特征向量202)。此外，可以生成矢量以表示待分类的动作(例如，所提议的特征向量302)。基于表示支持视频集104和输入视频106的这些向量，可以针对时间动作分类中的每个时间动作分类生成级联(例如，级联1、级联2、...、级联N)。如以上所解释的，可以生成图402以对支持视频集104进行建模，对于支持视频集104中的每个时间动作分类具有单独的节点，其中图402的边表示相应时间动作分类之间的相似性。图402的各个节点可用各个级联来实例化。然后，图402可以被输入到GCN 802(例如，对图操作的卷积神经网络)中，以便对图402执行卷积，从而产生卷积图902。卷积图902的每个节点可具有称为匹配分数(例如，匹配分数1、匹配分数2、……、匹配分数N)的标量特征/属性。在各种情况下，待分类的动作可被确定为属于对应于具有最高匹配分数的节点的时间动作分类。

图11示出了根据本文描述的一个或多个实施方式的经由图形卷积网络的少镜头时间动作定位的示例非限制性结果的表1100。

表1100针对特定的数据集描绘了要求保护的创新主题的实施例的平均精确度(mAP)(例如，通过图形卷积网络的动作定位)与当前现有技术的平均精确度(例如，通过学习序列匹配的动作定位)进行比较。如图所示，现有技术在特定数据集上以13.6％的平均精确度执行少镜头时间动作定位。(参见Yang、Hongtao、Xumeng He和Fatih Porikli：“One-Shot Action Localization by Learning Sequence Matching Network(通过学习序列匹配网络的单镜头动作定位)”。)IEEE计算机视觉和模式识别会议的论文集，2018)。然而，要求保护的创新主题的实施例对相同的数据集以15.3％的平均精确度进行了少镜头时间动作定位。这是少镜头时间动作定位的功效的显著改善。如以上充分解释的，通过量化和利用(例如，经由图402和卷积部件120)支持集中的时间动作分类之间的相互关系，要求保护的创新主题的不同实施例可以显著地胜过常规技术。常规技术不考虑动作范例如何彼此相关；相反，它们仅仅独立地将所提议的特征与每个动作范例进行比较。要求保护的创新主题的发明人首先认识到，通过利用动作分类之间的相互关系，可以实现显著的准确度/精度增益。要求保护的创新主题的不同实施例通过经由一种特别结构化的图形(例如，图形402)对该支持集进行建模并且对该图形进行卷积来实现这一点。

图12示出了根据本文描述的一种或多种实施方式的可以经由图卷积网络促进少镜头时间动作定位的示例性、非限制性计算机实现的方法1200的流程图。

在各个方面，动作1202可以包括通过可操作地耦合到处理器的设备来生成对时间动作分类(例如，动作类1、动作类2、...、动作类N)的支持集(例如，支持视频集104)进行建模的图(例如，图402)。在各个实施例中，图的节点(例如，节点1、节点2、...、节点N)可以对应于支持集中的对应时间动作分类(例如，节点1可以对应于动作类别1，节点2可以对应于动作类别2、...、节点N可以对应于动作类别N)。在各实施例中，图的边可以对应于相应时间动作分类之间的相似性(例如，节点1与节点2之间的相似性1，2可以表示动作类1与动作类2之间的相似性，节点2与节点N之间的相似性2，N可以表示动作类2与动作类N之间的相似性，等等)。

在不同实施例中，动作1204可以包括由设备在图上执行卷积(例如，经由卷积组件120和/或GCN802)，使得节点(例如，卷积图902的节点)输出相应的匹配分数(例如，匹配分数1、匹配分数2、...、匹配分数N)，相应的匹配分数指示相应的时间动作分类和待分类动作之间的匹配水平(例如，匹配分数1指示待分类动作与动作类别1之间的匹配水平，匹配分数2指示待分类动作与动作类别2之间的匹配水平、...、匹配分数N指示待分类动作与动作类别N之间的匹配水平)。

图13示出了根据本文描述的一个或多个实施方式的包括可以经由图形卷积网络促进少镜头时间动作定位的输入向量的示例非限制性计算机实现方法1300的流程图。如图所示，在不同实施例中，计算机实现的方法1300可以包括与计算机实现的方法1200相同的动作，并且还可以包括动作1302。

在各种情况下，动作1302可以包括由设备基于表示待分类动作的提议特征向量(例如，提议特征向量302)将相应输入向量(例如，输入向量602)输入(例如，经由实例化组件118)到节点中。

图14示出了根据本文描述的一个或多个实施方式的包括输入级联的示例非限制性计算机实现的方法1400的流程图，该输入级联可经由图谱卷积网络促进少镜头时间动作定位。如图所示，在不同实施例中，计算机实现的方法1400可以包括与计算机实现的方法1300相同的动作，并且还可以包括动作1402和动作1404。

在各个方面，动作1402可以包括其中相应的时间动作分类与相应的示例特征向量相对应(例如，动作类1可以与示例特征向量202的向量1相对应，动作类2可以与示例特征向量202的向量2相对应，…，动作类N可以与示例特征向量202的向量N相对应)。

在不同实施例中，动作1404可以包括其中相应的输入向量是相应的示例特征向量和表示待分类动作的所提议的特征向量的级联(例如，级联1可以是所提议的特征向量302和示例特征向量202的向量1的级联，级联2可以是所提议的特征向量302和示例特征向量202的向量2的级联，…，级联N可以是所提议的特征向量302和示例特征向量202的向量N的级联)。

图15示出根据本文描述的一种或多种实施方式的包括可以经由图卷积网络促进少镜头时间动作定位的门控循环单元的示例性、非限制性计算机实现的方法1500的流程图。如图所示，在不同实施例中，计算机实现的方法1500可以包括与计算机实现的方法1400相同的动作，并且还可以包括动作1502和动作1504。

在各种情况下，动作1502可以包括由设备基于显示相应时间动作分类的范例的相应单镜头支持视频(例如，支持视频1、支持视频2、...、支持视频N)经由第一门控循环单元(例如，由支持向量分量112采用)产生相应示例特征向量。

在各个方面，动作1504可以包括由设备基于显示待分类动作的未修剪输入视频(例如，输入视频106)经由第二门控循环单元(例如，由输入向量分量114采用)生成所提议的特征向量。

为了提供用于本文描述的各种实施方式的附加背景，图16和以下讨论旨在提供其中可以实现本文描述的实施方式的各种实施方式的适当计算环境1600的一般描述。虽然上文已经在可以在一个或多个计算机上运行的计算机可执行指令的一般上下文中描述了实施例，但是本领域技术人员将认识到，实施例也可以结合其他程序模块和/或作为硬件和软件的组合来实现。

通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构等。此外，本领域的技术人员将认识到，本发明的方法可以用其他计算机系统配置来实践，包括单处理器或多处理器计算机系统、小型计算机、大型计算机、物联网(IoT)设备、分布式计算系统、以及个人计算机、手持式计算设备、基于微处理器或可编程消费电子产品等，其中的每一个可以可操作地耦合到一个或多个相关联的设备。

本文实施例的所示实施例也可在分布式计算环境中实现，其中某些任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中，程序模块可以位于本地和远程存储器存储设备两者中。

计算设备通常包括各种介质，其可以包括计算机可读存储介质、机器可读存储介质和/或通信介质，这两个术语在本文中如下彼此不同地使用。计算机可读存储介质或机器可读存储介质可以是可由计算机访问的任何可用存储介质，并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，可以结合用于存储诸如计算机可读或机器可读指令、程序模块、结构化数据或非结构化数据之类的信息的任何方法或技术来实现计算机可读存储介质或机器可读存储介质。

计算机可读存储介质可以包括但不限于：随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、致密盘只读存储器(CDROM)、数字通用盘(DVD)、蓝光盘(BD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备、固态驱动器或其他固态存储设备、或可以用于存储所需信息的其他有形的和/或非瞬态介质。就这一点而言，在此应用于存储、存储器或计算机可读介质的术语“有形的”或“非瞬态的”应理解为仅排除传播瞬态信号本身作为修饰语，并且不放弃对不仅传播瞬态信号本身的所有标准存储、存储器或计算机可读介质的权利。

计算机可读存储介质可由一个或多个本地或远程计算设备访问，例如通过访问请求、查询或其他数据检索协议，用于相对于介质所存储的信息的各种操作。

通信介质通常将计算机可读指令、数据结构、程序模块或其他结构化或非结构化数据具体化为诸如经调制数据信号(例如，载波或其他传输机制)之类的数据信号，并且包括任何信息递送或传输介质。术语“调制数据信号”是指以对一个或多个信号中的信息进行编码的方式设定或改变其一个或多个特征的信号。作为示例而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、RF、红外和其他无线介质。

再次参考图16，用于实施本文中描述的方面的各种实施方式的示例性环境1600包括计算机1602，计算机1602包括处理单元1604、系统存储器1606以及系统总线1608。系统总线1608将系统组件(包括但不限于系统存储器1606)耦合至处理单元1604。处理单元1604可以是不同市售处理器中的任何处理器。双微处理器和其他多处理器架构也可以用作处理单元1604。

系统总线1608可为若干类型的总线结构中的任一者，其可使用各种市售总线架构中的任一者进一步互连到存储器总线(具有或不具有存储器控制器)、外围总线和本地总线。系统存储器1606包括ROM1610和RAM1612。基本输入/输出系统(BIOS)可以存储在诸如ROM、可擦可编程只读存储器(EPROM)、EEPROM的非易失性存储器中，BIOS包含诸如在启动期间帮助在计算机1602内的元件之间传输信息的基本例程。RAM1612还可包括高速RAM(诸如用于高速缓存数据的静态RAM)。

计算机1602进一步包括内部硬盘驱动器(HDD)1614(例如，EIDE、SATA)、一个或多个外部存储设备1616(例如，磁软盘驱动器(FDD)1616、记忆棒或闪存驱动器读取器、存储卡读取器等)以及驱动器1620，例如，诸如固态驱动器、光盘驱动器，其可从诸如CD-ROM盘、DVD、BD等的盘1622读取或写入。可替代地，在涉及固态驱动器的情况下，除非是分开的，否则将不包括盘1622。虽然内部HDD1614被示出为位于计算机1602内，但是内部HDD1614也能够被配置为在合适的机箱(未示出)中外部使用。另外，尽管未在环境1600中示出，但固态驱动器(SSD)可被用作HDD1614的补充或替换。HDD1614、外部存储设备1616和驱动器1620可以分别通过HDD接口1624、外部存储接口1626和驱动接口1628连接到系统总线1608。用于外部驱动器实现的接口1624可以包括通用串行总线(USB)和电气与电子工程师协会(IEEE)1394接口技术中的至少一个或两者。其他外部驱动器连接技术在本文描述的实施例的预期内。

驱动器及其相关联的计算机可读存储介质提供数据、数据结构、计算机可执行指令等的非易失性存储。对于计算机1602，驱动器和存储介质适应以合适的数字格式存储任何数据。尽管以上对计算机可读存储介质的描述涉及相应类型的存储设备，但本领域技术人员应当理解，可由计算机读取的其他类型的存储介质(不管是当前存在的还是将来开发的)也可用于示例操作环境中，并且进一步地，任何这样的存储介质可包含用于执行本文所描述的方法的计算机可执行指令。

多个程序模块可存储在驱动器和RAM1612中，包括操作系统1630、一个或多个应用程序1632、其他程序模块1634和程序数据1636。操作系统、应用、模块和/或数据的全部或部分也可以缓存在RAM1612中。本文所述的系统和方法可利用不同市售操作系统或操作系统的组合来实现。

计算机1602可以任选地包括仿真技术。例如，管理程序(未示出)或其他中介可以模拟操作系统1630的硬件环境，并且模拟的硬件可以可选地与图16中示出的硬件不同。在这种实施例中，操作系统1630可以包括托管在计算机1602处的多个VM中的一个虚拟机(VM)。此外，操作系统1630可以为应用1632提供运行时环境，诸如Java运行时环境或.NET框架。运行时环境是允许应用1632在包括运行时环境的任何操作系统上运行的一致执行环境。类似地，操作系统1630可以支持容器，并且应用1632可以呈容器的形式，所述容器是轻量的、独立的、可执行的软件包，所述软件包包括例如代码、运行时、系统工具、系统库和用于应用的设置。

进一步，计算机1602可以启用安全模块，诸如可信处理模块(TPM)。例如，对于TPM，在加载下引导组件之前，引导组件在时间上散列下引导组件，并且等待结果与安全值的匹配。此过程可在计算机1602的代码执行栈中的任何层进行，例如在应用执行级或在操作系统(OS)内核级应用，由此实现在任何代码执行级的安全性。

用户可通过一个或多个有线/无线输入设备(例如，键盘1638、触摸屏1640和指点设备，诸如鼠标1642)将命令和信息输入到计算机1602中。其他输入设备(未示出)可包括话筒、红外(IR)遥控器、射频(RF)遥控器、或其他遥控器、操纵杆、虚拟现实控制器和/或虚拟现实耳机、游戏手柄、手写笔、图像输入设备(例如，相机)、姿势传感器输入设备、视觉移动传感器输入设备、情绪或面部检测设备、生物计量输入设备(例如，指纹或虹膜扫描仪)、或诸如此类。这些和其他输入设备常常通过可耦合到系统总线1608的输入设备接口1644连接到处理单元1604，但可通过其他接口连接，诸如并行端口、IEEE1394串行端口、游戏端口、USB端口、IR接口、

接口等。

监视器1646或其他类型的显示设备也可以经由诸如视频适配器1648之类的接口连接到系统总线1608。除了监视器1646之外，计算机通常包括其他外围输出设备(未示出)，诸如扬声器、打印机等。

计算机1602可以使用经由到一个或多个远程计算机(如一个或多个远程计算机1650)的有线和/或无线通信的逻辑连接在联网环境中操作。远程计算机1650可以是工作站、服务器计算机、路由器、个人计算机、便携式计算机、基于微处理器的娱乐设备、对等设备或其他公共网络节点，并且通常包括相对于计算机1602描述的许多或所有元件，尽管为了简洁起见，仅示出了存储器/存储设备1652。所描绘的逻辑连接包括到局域网(LAN)1654和/或更大的网络(例如，广域网(WAN)1656)的有线/无线连接。这样的LAN和WAN联网环境在办公室和公司中是常见的，并且促进企业范围的计算机网络，诸如内联网，所有这些可以连接到全球通信网络，例如互联网。

当在LAN联网环境中使用时，计算机1602可以通过有线和/或无线通信网络接口或适配器1658连接到本地网络1654。适配器1658可促进到LAN1654的有线或无线通信，LAN1654还可包括部署在其上用于以无线模式与适配器1658通信的无线接入点(AP)。

当在WAN联网环境中使用时，计算机1602可包括调制解调器1660或可经由用于在WAN1656上建立通信的其他手段(诸如通过互联网)连接到WAN1656上的通信服务器。调制解调器1660可为内部或外部的和有线或无线装置，所述调制解调器1660可经由输入装置接口1644连接到系统总线1608。在联网环境中，相对于计算机1602或其部分所描绘的程序模块可以存储在远程存储器/存储设备1652中。应当理解，所示的网络连接是示例，并且可以使用在计算机之间建立通信链路的其他装置。

当在LAN或WAN联网环境中使用时，计算机1602可访问云存储系统或其他基于网络的存储系统，作为如上所述的外部存储设备1616的补充或替换，诸如但不限于提供信息的存储或处理的一个或多个方面的网络虚拟机。通常，计算机1602和云存储系统之间的连接可以例如通过适配器1658或调制解调器1660分别通过LAN1654或WAN1656建立。在将计算机1602连接到相关联的云存储系统时，外部存储接口1626可借助于适配器1658和/或调制解调器1660来管理由云存储系统提供的存储，因为其将是其他类型的外部存储。例如，外部存储接口1626可以被配置为提供对云存储源的访问，如同那些源在物理上连接到计算机1602一样。

计算机1602可以可操作用于与可操作地布置在无线通信中的任何无线设备或实体通信，例如，打印机、扫描仪、台式和/或便携式计算机、便携式数据助理、通信卫星、与无线可检测标签相关联的任何一件设备或位置(例如，自助服务终端、新闻台、商店货架等)和电话。这可包括无线保真(Wi-Fi)和

无线技术。由此，通信可以是如传统网络的预定义结构，或者仅仅是至少两个设备之间的自组织通信。

本发明可以是在任何可能的技术细节集成度上的系统、方法、装置和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表还可以包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作动作，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现在流程图和/或框图的或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个块实际上可以基本上同时执行，或者这些块有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

虽然上文已经在运行在计算机和/或计算机上的计算机程序产品的计算机可执行指令的一般上下文中描述了主题，但本领域技术人员将认识到，本公开还可或与其他程序模块组合实现。通常，程序模块包括执行特定任务和/或实现特定抽象数据类型的例程、程序、组件、数据结构等。此外，本领域的技术人员将认识到，本发明的计算机实现的方法可以用其他计算机系统配置来实践，包括单处理器或多处理器计算机系统、小型计算设备、大型计算机、以及计算机、手持式计算设备(例如，PDA、电话)、基于微处理器或可编程的消费者或工业电子产品等。所示出的方面还可以在分布式计算环境中实现，在分布式计算环境中，任务由通过通信网络链接的远程处理设备来执行。然而，本发明的一些(如果不是全部的话)方面可在独立计算机上实践。在分布式计算环境中，程序模块可以位于本地和远程存储器存储设备两者中。

如在本申请中所使用的，术语“组件”、“系统”、“平台”、“接口”等可以指和/或可以包括计算机相关实体或与具有一个或多个特定功能的操作机器相关的实体。本文公开的实体可以是硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。作为说明，在服务器上运行的应用和服务器两者都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程内，并且组件可以位于一个计算机上和/或分布在两个或更多个计算机之间。在另一实例中，相应组件可从具有存储于其上的不同数据结构的不同计算机可读介质执行。组件可以经由本地和/或远程进程通信，诸如根据具有一个或多个数据分组的信号(例如，来自与本地系统、分布式系统中的另一组件进行交互的一个组件的数据，和/或经由该信号跨诸如互联网之类的网络与其他系统进行交互的一个组件的数据)。作为另一示例，组件可以是具有由电气或电子电路操作的机械部件提供的特定功能的装置，该电气或电子电路由处理器执行的软件或固件应用操作。在这样的情况下，处理器可以在装置的内部或外部，并且可以执行软件或固件应用的至少一部分。作为又一示例，组件可以是通过没有机械部件的电子组件来提供特定功能的装置，其中电子组件可以包括处理器或用于执行至少部分地赋予电子组件的功能的软件或固件的其他装置。在一方面中，组件可经由例如云计算系统内的虚拟机来仿真电子组件。

此外，术语“或”旨在意指包括性的“或”而不是排他性的“或”。也就是说，除非另外指明，或从上下文清楚，“X采用A或B”旨在意指任何自然的包含性排列。即，如果X采用A；X采用B；或X采用A和B两者，则在任何前述情况下满足“X采用A或B”。此外，如主题说明书和附图中所使用的冠词“一种(a)”和“一种(an)”通常应被解释为意指“一个或多个”，除非另外说明或从上下文清楚指向单数形式。如本文所使用的，术语“实例”和/或“示例性”用于表示用作实例、例子或例证。为了避免疑问，在此披露的主题不受此类实例的限制。此外，本文中描述为“实例”和/或“示例性”的任何方面或设计不一定被解释为优于或优于其他方面或设计，也不意味着排除本领域普通技术人员已知的等效的示例性结构和技术。

如在本说明书中所采用的，术语“处理器”可以指基本上任何计算处理单元或装置，包括但不限于单核处理器；具有软件多线程执行能力的单处理器；多核处理器；具有软件多线程执行能力的多核处理器；具有硬件多线程技术的多核处理器；并行平台；以及具有分布式共享存储器的并行平台。另外，处理器可指代经设计以执行本文中所描述的功能的集成电路、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑控制器(PLC)、复杂可编程逻辑装置(CPLD)、离散门或晶体管逻辑、离散硬件组件或其任何组合。进一步，处理器可以利用纳米级架构，诸如但不限于基于分子和量子点的晶体管、开关和门，以便优化空间使用或增强用户设备的性能。处理器还可以被实现为计算处理单元的组合。在本公开中，诸如与组件的操作和功能相关的“存储”、“存储”、“数据存储”、“数据存储”、“数据库”和基本上任何其他信息存储组件的术语用于指“存储器组件”、“体现在“存储器”中的实体、或包括存储器的组件。应当理解，本文所描述的存储器和/或存储器部件可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为示例而非限制，非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)、闪存、或非易失性随机存取存储器(RAM)(例如，铁电RAM(FeRAM))。易失性存储器可包括例如可充当外部高速缓冲存储器的RAM。作为说明而非限制，RAM可以以许多形式获得，诸如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、SynchlinkDRAM(SLDRAM)、直接RambusRAM(DRRAM)、直接Rambus动态RAM(DRDRAM)和Rambus动态RAM(RDRAM)。另外，本文所揭示的系统或计算机实施的方法的存储器组件既定包含(但不限于)这些和任何其他合适类型的存储器。

以上已经描述的内容仅包括系统和计算机实施的方法的示例。当然，为了描述本公开的目的，不可能描述组件的每个可想象的组合或计算机实现的方法，但是本领域普通技术人员可以认识到，本公开的许多进一步的组合和置换是可能的。此外，在详细说明、权利要求、附件以及附图中使用术语“包括”、“具有”、“拥有”等的程度上，这些术语旨在以类似于术语“包含”的方式是包括性的，因为在权利要求中采用“包含”作为过渡词时，解释“包含”。

已经出于说明的目的呈现了不同实施例的描述，但并不旨在是详尽的或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变化对本领域普通技术人员将是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

Claims

1.一种系统，包括：

存储器，其存储计算机可执行组件；以及

处理器，其可操作地耦合到所述存储器，所述处理器执行存储在所述存储器中的所述计算机可执行组件，其中所述计算机可执行组件包括：

图组件，其生成对时间动作分类的支持集建模的图，使得所述图的节点对应于所述支持集中的相应时间动作分类，并且使得所述图的边对应于所述相应时间动作分类之间的相似性；以及

卷积组件，其对所述图执行卷积，使得所述节点输出指示所述相应时间动作分类和待分类动作之间的匹配水平的相应匹配分数。

2.根据权利要求1所述的系统，进一步包括：

实例化组件，所述实例化组件基于表示待分类动作的提议特征向量将相应输入向量输入至所述节点中。

3.根据权利要求2所述的系统，其中

所述相应时间动作分类对应于相应示例特征向量；以及

各个输入向量是各个示例特征向量和表示待分类动作的提议特征向量的级联。

4.根据权利要求3所述的系统，其中：

基于显示相应时间动作分类的范例的相应单镜头支持视频，由第一门控循环单元产生相应示例特征向量；以及

基于显示待分类动作的未修剪输入视频，由第二门控循环单元生成提议特征向量。

5.根据权利要求3所述的系统，其中，所述相似性基于相应时间动作分类的相应示例特征向量之间的余弦相似性来计算。

6.根据权利要求1所述的系统，其中，将所述待分类动作确定为属于具有最高匹配分数的时间动作分类。

7.根据权利要求1所述的系统，其中，所述图是无向图。

8.一种计算机实现的方法，包括：

通过可操作地耦合到处理器的装置生成对时间动作分类的支持集建模的图，使得所述图的节点对应于所述支持集中的相应时间动作分类，并且使得所述图的边对应于所述相应时间动作分类之间的相似性；以及

通过所述装置对所述图执行卷积，使得所述节点输出指示所述相应时间动作分类和待分类动作之间的匹配水平的相应匹配分数。

9.根据权利要求8所述的计算机实现的方法，进一步包括：

由所述装置基于表示待分类动作的提议特征向量将相应输入向量输入至所述节点中。

10.根据权利要求9所述的计算机实现的方法，其中

所述相应时间动作分类对应于相应示例特征向量；以及

11.根据权利要求10所述的计算机实现的方法，进一步包括：

由所述装置基于显示所述相应时间动作分类的范例的相应单镜头支持视频，由第一门控循环单元生成所述相应示例特征向量；以及

由所述装置基于显示待分类动作的未修剪输入视频，由第二门控循环单元生成所述提议特征向量。

12.根据权利要求10所述的计算机实现的方法，其中，基于相应时间动作分类的相应示例特征向量之间的余弦相似性计算所述相似性。

13.根据权利要求8所述的计算机实现的方法，其中，将所述待分类的动作确定为属于具有最高匹配分数的时间动作分类。

14.根据权利要求8所述的计算机实现的方法，其中，所述图是无向图。

15.一种用于促进少镜头动作定位的计算机程序产品，所述计算机程序产品包括具有体现在其中的程序指令的计算机可读存储介质，所述程序指令可由处理组件执行以使所述处理组件：

生成对时间动作分类的支持集建模的图，使得所述图的节点对应于所述支持集中的相应时间动作分类，并且使得所述图的边对应于所述相应时间动作分类之间的相似性；以及

对所述图执行卷积，使得所述节点输出指示所述相应时间动作分类和待分类动作之间的匹配水平的相应匹配分数。

16.根据权利要求15所述的计算机程序产品，其中，所述程序指令能进一步执行以使所述处理组件：

基于表示待分类动作的提议特征向量将相应输入向量输入至所述节点中。

17.根据权利要求16所述的计算机程序产品，其中，

所述相应时间动作分类对应于相应示例特征向量；以及

各个输入向量是各个实例特征向量和表示待分类动作的提议特征向量的级联。

18.根据权利要求17所述的计算机程序产品，其中，所述程序指令能进一步执行以使所述处理组件：

基于显示待分类动作的未修剪输入视频，由第二门控循环单元生成所提议的特征向量。

19.根据权利要求17所述的计算机程序产品，其中，所述相似性基于相应时间动作分类的相应示例特征向量之间的余弦相似性来计算。

20.根据权利要求15所述的计算机程序产品，其中，将所述待分类的动作确定为属于具有最高匹配分数的时间动作分类。