CN114930317A

CN114930317A - 用于视频接地的图形卷积网络

Info

Publication number: CN114930317A
Application number: CN202180008971.9A
Authority: CN
Inventors: 淦创; 刘思佳; S.达斯; 王大阔; 张阳
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-02-15
Filing date: 2021-02-11
Publication date: 2022-08-19
Also published as: DE112021000308T5; US20210256059A1; JP2023515359A; GB2608529A; WO2021161202A1; US11442986B2; GB202213456D0

Abstract

一种方法和装置，包括：接收描述视频中的一方面的查询，所述视频包括多个帧；识别潜在地对应于所述查询的多个建议，其中，所述建议中的每一个包括所述多个帧的子集；使用识别所述建议之间的关系的图形卷积网络来对所述建议进行排名；以及基于所述排名，选择所述建议中的一个建议作为与所述查询相关的视频片段。

Description

用于视频接地的图形卷积网络

背景技术

本发明涉及视频接地，其中处理查询以标识视频中的相应片片段，并且更具体地，涉及考虑视频的不同片段之间的关系。

视频接地搜索视频以识别对应于自然语言查询的片段(例如，视频中的多个连续视频帧)。例如，用户可能想要在视频中找到儿童在秋千上被推动的特定片段。用户可以定义一个陈述“儿童在秋千上”的查询。视频接地可以使用机器学习(ML)算法来解析视频并标识视频中可以显示查询中描述的信息的不同片段(在本文中被称为建议)(例如，其中孩子在播放集上摆荡的帧片段)。视频接地对建议进行排名，并且选择具有最高排名的建议作为对查询的回答。即，当前的视频接地技术在对建议进行排名时单独地考虑这些建议以确定哪个建议与自然语言查询最匹配。

发明内容

本发明的一个实施例是一种方法，该方法包括：接收描述视频中的一方面的查询，该视频包括多个帧；标识潜在地对应于该查询的多个建议，其中该建议中的每一个包括该多个帧的子集；使用标识这些建议之间的关系的图形卷积网络来对这些建议进行排名；以及基于该排名，选择这些建议之一作为与该查询相关的视频段。

本发明的另一实施例是包括处理器和存储器的系统。该存储器包括程序，该程序在由处理器执行时执行操作，该操作包括：接收描述视频中的一方面的查询，该视频包括多个帧；标识潜在地对应于该查询的多个建议，其中这些建议中的每一个包括该多个帧的子集；使用标识这些建议之间的关系的图形卷积网络来对这些建议进行排序；以及基于该排序来选择这些建议之一作为与该查询相关的视频段。

本发明的另一实施例是用于识别与查询相关的视频片段的计算机程序产品。所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有随其包含的计算机可读程序代码，所述计算机可读程序代码可由一个或多个计算机处理器执行以执行操作。所述操作包括：接收查询，所述查询描述包括多个帧的视频中的一方面；标识潜在地对应于所述查询的多个建议，其中所述建议中的每一个包括所述多个帧的子集；使用标识所述建议之间的关系的图形卷积网络来对所述建议进行排名；以及基于所述排名，选择所述建议中的一个建议作为与所述查询相关的视频段。

附图简要说明

现在将参考附图仅通过示例的方式来描述本发明的实施例，在附图中：

图1示出了根据一个实施例的使用卷积图网络的视频接地系统。

图2示出了根据一个实施例的用于执行视频接地的流程图。

图3示出了根据一个实施例的响应于自然语言查询的识别建议。

图4示出了根据一个实施例的用于使用图形卷积网络对建议进行排名的流程图。

图5示出了根据一个实施例的用于对建议进行排名的机器学习系统。

具体实施方式

本文中的实施例执行视频接地，其中，使用标识建议之间的关系的图形卷积网络(GCN)来对响应于自然语言查询而标识的不同建议(例如，视频段)进行排名。即，与建议被独立地(或单独地)排名的先前视频接地系统相比，本文的实施例构造图形并实现标识建议之间的时间关系的GCN。在一个实施例中，设计了GCN，其中网络中的每个节点均表示视觉特征(源自建议)和查询特征(源自自然语言查询)的融合。此外，可以根据相似度网络所测量的建议之间的关系来构建图中的边。通过执行图形卷积，视频接地系统可以捕获两个时间片段的交互以及建议之间的关系。有利地，与单独地和局部地处理建议的先前工作不同，本文中描述的技术通过明确地对建议之间的关系建模来从全局和全面角度执行视频接地，这显著地提高了其准确性。

图1示出根据一个实施例的使用GCN125的视频接地系统100。通常，视频接地系统100允许用户提交查询110以识别视频105的特定方面，诸如视频105中的场景、动作或对象。视频105可以包括包含多个不同场景、动作或对象的多个帧。用户可以寻找视频105中的场景、动作、对象或任何其他方面之一。例如，视频105的第一片段(例如，视频105中的连续帧的子集)可以示出孩子的玩具套装，视频105的第二片段可以仅仅示出玩具套装的特定特征(例如，内置沙箱或秋千)，并且视频105的第三片段可以示出与玩具套装交互的儿童(例如，在播放集合的秋千上被推起或从滑梯上滑下的孩子)。用户可以使用视频接地系统100来搜索视频105并且识别与查询110相关(或最佳匹配)的片段。例如，用户可以决定是否购买玩具套装(其中视频105是玩具的宣传视频)并且具体地想要具有内置沙箱的玩具套装。用户可以提交包括词语“沙箱”的查询110。使用下面详细讨论的技术，视频接地系统100可以搜索视频并且识别具有沙箱的视频的片段。由此，用户可以查看所标识的片段以确定玩具套装是否满足其标准(即，具有内置沙箱)，而不是必须查看整个视频105。

在另一示例中，用户可能想要看到与玩具套装交互的孩子，因此她可以获得对玩具套装的比例(或大小)的更好的想法。用户可以生成说“孩子使用滑梯”或“在秋千上被推动”的查询110，视频接地系统100可以使用所述查询来识别显示由查询110描述的视频的方面(例如，场景、动作或对象)的片段。

视频接地系统100包括建议生成器115，该建议生成器115接收视频105和查询110作为输入。建议生成器115可以使用一个或多个机器学习(ML)算法和/或视频解析技术来识别表示视频105中可以描绘查询110所描述的场景、动作或对象的候选片段的建议。也就是说，如果查询110陈述“孩子摇摆”，则建议生成器115识别生成器115确定可能包含孩子摇摆的若干候选建议(例如，不同的视频段)。

为了识别建议，建议生成器115可以使用任何数量的图像处理技术、自然语言处理技术或文本处理技术(例如，ML或其他)。在一个实施例中，建议生成器115评估各个帧以识别每个建议的开始时间(或帧)和结束时间。建议可以是重叠的(例如，具有至少一些共同的帧)或者在每个建议具有唯一帧的情况下可以是不重叠的。本文的实施例不限于用于生成建议的任何特定技术。

视频接地系统100包括ML系统120，用于选择由建议生成器115生成的哪些建议最可能与查询110最佳匹配(或最高度相关)。如图1所示，ML系统120接收建议作为输入并且输出与查询110所描述的场景、动作或对象相关的片段130。换言之，ML系统120选择这些建议之一作为最佳匹配查询110的片段130。例如，ML系统120可以输出由视频105中的开始时间和结束时间定义的片段130。片段130可以由在ML系统120识别的开始时间和结束时间之间的连续帧定义。在一个实施例中，片段130被输出给用户，使得用户可以观看片段130以希望地观看她最感兴趣的内容，而不必从开头开始视频105，或者通过在视频105中选择随机位置来手动地搜索视频105。

ML系统120包括GCN125。如下面更详细讨论的，GCN125允许视频接地系统100识别由建议生成器115输出的建议之间的关系。即，并非独立地处理建议，图形卷积网络125可以识别建议之间的相似性或关系，该相似性或关系可以有利地提高视频接地系统100的准确度——即，增加接地系统100选择与查询110中定义的场景、动作或对象的描述相关(或匹配)的片段的可能性。在一个实施例中，图形卷积网络125基于建议的关系来对这些建议进行排名，这可以比如先前所做的独立地或单独地对这些建议进行排名更准确。

进一步，本文的实施例可以与多个视频一起使用而不是如所示的单个视频105一起使用。例如，建议生成器115可以搜索多个视频(无论是在相同文件中还是不同文件中)以识别从那些视频的片段形成的建议。这些建议然后可以被转发到ML系统120，ML系统120识别这些建议之间的关系并基于这些关系来对这些建议进行排序。

在一个实施例中，查询110是由人类用户生成的自然语言查询，但可以是描述视频105的一个方面的任何查询。通常，视频接地系统100尝试找到视频105的片段130，该片段130与在查询110中描述的方面最佳匹配。查询110可以是文本或被转换成文本的语音。

图2说明根据一个实施例的用于执行视频接地的方法200的流程图。在框205处，视频接地系统接收描述视频(或一系列视频)中的场景、动作、对象或任何其他方面的自然语言查询。在一个示例中，用户提交查询以指示视频接地系统找到包括由查询定义的方面的视频的片段。视频接地系统可使得用户能够识别相关片段(或多个片段)或搜索视频而不必依赖于试错或简单地从开头播放视频。

在框210处，视频接地系统中的建议生成器识别潜在地对应于查询的多个建议。换言之，建议生成器可以识别它预测为对应于查询的不同片段(即，视频中的帧的子集)。例如，如果查询是“吠犬”，则建议生成器尝试识别视频中示出狗吠的一个或多个片段。这些段作为建议被输出。如以上所讨论的，本文的实施例不限于用于生成建议的任何特定技术。建议生成器可以使用图像处理技术和自然语言技术(其可以包括多个ML算法)来理解查询并识别视频中的相关片段。

图3示出了根据一个实施例的响应于自然语言查询的识别建议。图3示出了视频(或一系列视频)中的视频帧300。在该示例中，建议生成器接收查询，并且识别可以包含由查询描述的视频的方面的三个建议305A-C(或视频片段)。如图所示，建议305A-C重叠，其中建议305A中的帧中的至少一个帧也包括在建议305B中，并且建议305B中的至少一个帧也包括在建议305C中。这些重叠的帧可以建立建议305之间的关系(例如，它们具有共同的帧300)。如上所述，可以利用这些关系来改进识别这三个建议305中的哪些建议可以与该查询最佳匹配的准确性。

然而，当建议305不具有重叠帧时，也可以使用本文的实施例。也就是说，GCN可以识别建议之间的时间关系，即使当那些建议不具有重叠帧但具有彼此接近(例如，邻接或若干帧分开)的帧时。通过执行图形卷积，视频接地系统可以捕获两个时间片段的交互以及建议之间的关系。

返回到方法200，假设建议生成器识别多个建议，在框215，ML系统使用识别建议之间的关系的图形卷积网络对建议进行排名。也就是说，在本实施例中，ML系统考虑这些建议之间的关系，这可以导致显著提高的准确度，而不是独立于彼此对建议(或片段)进行排名。在下面图4和5中描述了对建议进行排名的细节。

在方框220，ML系统选择具有最高排名的建议作为与查询相关的段。即，至少部分地基于帧之间的关系向每个建议分配排名。由此，排名可以比通过单独评估建议而形成的排名更准确。视频接地系统可以向用户输出具有最高排名的建议(或片段)。

图4示出根据一个实施例的用于使用GCN对建议进行排名的方法400的流程图。为了清楚起见，结合图5讨论了方法400，图5示出了用于对建议205进行排名的ML系统120。ML系统120包括视觉特征编码器505，其评估建议205并为每个建议生成特征向量。特征向量被提供给图形构造器515，用于生成识别建议之间的关系的图。

ML系统120还接收查询110(查询110与建议生成器(未示出)用来识别建议205的查询110相同)。即，查询110在视频接地系统中被使用两次：由建议生成器一次识别建议205并且再次由双向长短期存储器(Bi-LTSM)模型510对查询110执行语音识别。然而，实施例不限于Bi-LTSM模型510，而是可以由可对查询110执行语音识别的其他类型的递归神经网络(RNN)或深度学习网络使用。

Bi-LTSM模型510的输出被提供给图形构造器515，该图形构造器515结合视觉特征编码器505的输出生成图。有利地，通过从编码器505接收可视特征和从Bi-LTSM模型510接收查询特征两者，图中的节点可以是可视特征和查询特征的融合。此外，根据相似度网络测量的建议之间的关系来构建图中的边。在一个实施例中，相似性网络在构建图中的边时测量L2距离。

由图形构造器515生成的图(包括节点和边)被提供给GCN 125用于执行。GCN是用于对图执行机器学习的强大神经网络架构。即，GCN125的输入是可以包括通过边互连的多个节点的图。GCN 125的输出被提供给将GCN 125的结果与Bi-LTSM 510生成的查询特征融合的视觉-文本融合模块520。在一个实施例中，视觉-文本融合模块520执行特征级联以融合由GCN 125和Bi-LSTM识别的特征——即，图像特征和文本/查询特征。然后将融合的结果提供给全连接(FC)层525。FC层525从视觉文本融合模块520接收输入体并输出N维向量，其中N是建议的数量。进一步，输出可以包括建议的排名。

进一步，虽然未示出，ML系统120可包括任何数量的计算装置，其可各自包括任何数量的计算机处理器(其可具有任何数量的核)和用于执行图5中示出的软件组件和模块(例如，视觉特征编码器505、Bi-LSTM 510、图形构造器515、GCN 125等)的存储器。

转向方法400，在框405处，图形构造器515更新节点特征并计算图的边权重。即，图形构造器515使用可视特征编码器505(即，建议205的可视特征)和Bi-LTSM 510(即，查询特征)的输出来生成图中的节点。图中的节点可以是这些视觉特征和查询特征的融合。

在框410处，图形构造器515更新图形的边特征。在一个实施例中，图形构造器515计算图形的边权重。即，图形构造器515使用可视特征编码器505(即，建议205的可视特征)和Bi-LTSM510(即，查询特征)的输出来生成图中的边。基于建议之间的关系来分配边(及其相应的权重)。

在框415，GCN125执行节点聚合。即，GCN 125能够聚合被接收作为来自图形构造器515的输入的图的节点。这里的实施例不限于用于执行节点聚合的任何特定技术。

在方框420处，ML系统120对建议205进行排序。也就是说，GCN125、视觉-文本融合模块520、FC525或其组合可以为建议205生成可用于对建议205进行排名的权重。这些权重基于建议之间的关系来生成。

已经出于说明的目的呈现了本发明的各种实施方式的描述，但并不旨在是详尽的或者限于所公开的实施方式。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变化对本领域普通技术人员将是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

在上文中，参考本公开中提出的实施方式。然而，本公开的范围不限于具体描述的实施例。相反，考虑特征和元素的任何组合，无论是否涉及不同实施例，以实现和实践所考虑的实施例。此外，尽管本文所公开的实施例可实现优于其他可能的解决方案或优于现有技术的优点，但特定优点是否由给定实施例实现并不限制本公开的范围。由此，本文所讨论的方面、特征、实施例和优点仅仅是说明性的，并且不被认为是所附权利要求的元素或限制，除非在权利要求中明确陈述。同样，对“本发明”的引用不应被解释为在此所披露的任何发明主题的概括，并且不应被认为是所附权利要求的元素或限制，除非在权利要求中明确陈述。

本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、驻留软件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)、以及常规的过程式程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个块实际上可以基本上同时执行，或者这些块有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

虽然前述内容针对本发明的实施例，但是可以在不偏离本发明的基本范围的情况下设计本发明的其他和进一步的实施例，并且本发明的范围由所附权利要求确定。

Claims

1.一种方法，包括：

接收描述视频中的方面的查询，所述视频包括多个帧；

识别潜在地对应于所述查询的多个建议，其中所述建议中的每一个包括所述多个帧的子集；

使用识别所述建议之间的关系的图形卷积网络(GCN)来对所述建议进行排名；以及

基于所述排名选择所述建议之一作为与所述查询相关的视频片段。

2.根据权利要求1所述的方法，其中，对所述建议进行排名包括：

使用视觉特征编码器识别所述建议中的视觉特征；以及

使用递归神经网络(RNN)从所述查询生成查询特征。

3.根据权利要求2所述的方法，其中，对所述建议进行排名包括：

基于所述视觉特征和所述查询特征，生成包括节点和边的图形；以及

将所述图形输入GCN进行处理。

4.根据权利要求3所述的方法，其中，对所述建议进行排名包括：

更新所述图形中的所述节点的节点特征；以及

计算所述图形中的所述边的边权重。

5.根据权利要求3所述的方法，其中，对所述建议进行排名包括：

执行节点聚合；以及

基于所述节点聚合和使用所述GCN处理所述图形的结果来对所述建议进行排名。

6.根据权利要求1所述的方法，其中，至少两个所述建议包括视频中的所述多个帧的重叠帧。

7.根据权利要求6所述的方法，其中，至少两个所述建议包括所述多个帧的不重叠的子集。

8.一种系统，包括：

处理器；以及

存储器，包括程序，当由所述处理器执行时，所述程序执行操作，所述操作包括：

接收描述视频中的方面的查询，所述视频包括多个帧；

使用识别所述建议之间的关系的GCN来对所述建议进行排名；以及

9.根据权利要求8所述的系统，其中，对所述建议进行排名包括：

使用视觉特征编码器识别所述建议中的视觉特征；以及

使用递归神经网络(RNN)从所述查询生成查询特征。

10.根据权利要求9所述的系统，其中，对所述建议进行排名包括：

将所述图形输入GCN进行处理。

11.根据权利要求10所述的系统，其中，对所述建议进行排名包括：

更新所述图形中的所述节点的节点特征；以及

计算所述图形中的所述边的边权重。

12.根据权利要求10所述的系统，其中，对所述建议进行排名包括：

执行节点聚合；以及

基于所述节点聚合和来自使用所述GCN处理所述图形的结果来对所述建议进行排名。

13.根据权利要求8所述的系统，其中，至少两个所述建议中包括所述视频中的所述多个帧的重叠帧。

14.根据权利要求13所述的系统，其中，至少两个所述建议包括所述多个帧的不重叠的子集。

15.一种用于识别与查询相关的视频片段的计算机程序产品，所述计算机程序产品包括：

计算机可读存储介质，所述计算机可读存储介质具有随其包含的计算机可读程序代码，所述计算机可读程序代码可由一个或多个计算机处理器执行以执行操作，所述操作包括：

接收所述查询，所述查询描述包括多个帧的视频中的方面；

基于所述排名选择所述建议之一作为与所述查询相关的所述视频片段。

16.根据权利要求15所述的计算机程序产品，其中，对所述建议进行排名包括：

使用视觉特征编码器识别所述建议中的视觉特征；以及

使用递归神经网络(RNN)从所述查询生成查询特征。

17.根据权利要求16所述的计算机程序产品，其中，对所述建议进行排名包括：

将所述图形输入GCN进行处理。

18.根据权利要求17所述的计算机程序产品，其中，对所述建议进行排名包括：

更新所述图形中的所述节点的节点特征；以及

计算所述图形中的所述边的边权重。

19.根据权利要求17所述的计算机程序产品，其中，对所述建议进行排名包括：

执行节点聚合；以及

基于所述节点聚合和使用所述GCN处理所述图的结果来对所述建议进行排名。

20.根据权利要求15所述的计算机程序产品，其中，至少两个所述建议包括视频中的所述多个帧的重叠帧。