CN116034401A

CN116034401A - 用于使用自然语言描述检索视频的系统和方法

Info

Publication number: CN116034401A
Application number: CN202080101482.3A
Authority: CN
Inventors: 颜宁
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-05-30
Filing date: 2020-10-01
Publication date: 2023-04-28
Also published as: EP4150523A4; EP4150523A1; WO2021035227A1; US20230086735A1

Abstract

实现方式涉及获得视频并且从每个视频中提取针对该视频的包括时间戳的关键帧的方法、系统和计算机可读介质。针对每个关键帧，生成场景图。生成针对关键帧的场景图包括：识别图像中的对象；以及提取关系特征，该关系特征限定该关键帧中的对象中的第一对象与不同的第二对象之间的关系。生成针对该关键帧的场景图，该场景图包括一组节点和一组边。接收针对视频的自然语言查询请求，包括限定两个或更多个特定对象之间的关系的项。针对自然语言查询请求生成查询图，并且提供和与该查询图匹配的一组场景图对应的一组视频以在用户装置上显示。

Description

用于使用自然语言描述检索视频的系统和方法

相关申请的交叉引用

本申请要求于2020年5月30日提交的美国申请第63/032,571号的优先权，该美国申请的公开内容作为整体通过引用并入本文。

技术领域

本说明书总体上涉及视频处理和在视频库中搜索视频。

背景技术

在包含大量视频的视频库内搜索特定视频可能是耗时的并且可能导致搜索结果包含对由用户提交的搜索查询无响应或者与该搜索查询无关的视频。

发明内容

本公开内容的实现方式总体上涉及视频/图像处理和视频库查询。更特别地，本公开内容的实现方式涉及利用机器学习模型来处理视频的储存库以从每个视频中提取表示所述视频的一组关键帧。该机器学习模型还用于处理关键帧以提取对象和限定每个关键帧中的对象之间关系的关系特征。所提取的对象和关系特征用于针对关键帧中的每个关键帧构建场景图，在场景图中，对象形成节点并且关系特征形成节点之间的边。可以根据场景图生成用于关键帧的可搜索的场景图索引。用户可以经由客户端装置提供针对视频的查询，其中，该查询包括对感兴趣视频中包括的对象之间的视觉关系的自然语言描述。可以根据查询来生成查询图，其中，查询图可以按照可搜索的场景图索引与一个或更多个场景图进行匹配。响应于针对视频的查询，可以提供包括与一个或更多个匹配场景图对应的关键帧的视频。

在一些实现方式中，操作可以包括：针对视频生成多个场景图。生成场景图可以包括：从视频中的每个视频中提取关键帧，每个关键帧包括与关键帧在视频内的出现对应的时间戳以及对包括该关键帧的视频的指引；以及针对多个关键帧中的每个关键帧生成针对该关键帧的场景图。生成针对关键帧的场景图包括：通过机器学习模型识别关键帧中的对象；通过该机器学习模型提取关系特征，该关系特征限定关键帧中的对象中的第一对象与不同的第二对象之间的关系；以及通过该机器学习模型根据第一对象、第二对象和关系特征生成针对关键帧的场景图，该场景图包括一组节点和将一组节点中的节点子集互连的一组边，其中，第一对象由该组节点中的第一节点表示，第二对象由该组节点中的第二节点表示，并且关系特征是连接第一节点与第二节点的边。该方法还可以包括：接收针对所述视频中的视频的自然语言查询请求，其中，该自然语言查询请求包括指定两个或更多个特定对象以及所述两个或更多个特定对象之间的关系的项；针对自然语言查询请求生成查询图；从场景图中识别所述场景图中与查询图匹配的一组场景图；根据经识别的一组场景图来确定多个视频中的一组视频，每个视频包括所述一组场景图中的至少一个场景图；以及提供所述一组视频以用于在客户端装置上显示。

该方面的其他实现方式包括被配置成执行被编码在计算机存储装置上的方法的动作的相应的系统、设备和计算机程序。

这些和其他实现方式可以各自可选地包括以下特征中的一个或更多个。在一些实现方式中，该方法还可以包括：提供一组关键帧以用于在客户端装置上显示，所述一组关键帧与所述场景图中与查询图匹配的一组场景图对应。

在一些实现方式中，该方法还可以包括：对所述视频中的一组视频进行排序，所述排序包括：针对所述一组视频中的每个视频，基于所述一组关键帧中的包括对所述视频的指引的关键帧的数目来确定相关性分数；以及根据各个相关性分数对所述一组视频进行排序。

在一些实现方式中，自然语言查询请求可以是针对特定视频内的关键帧的并且指定两个或更多个特定对象以及该关键帧中的所述两个或更多个特定对象之间的关系。

在一些实现方式中，该方法还可以包括：根据场景图生成场景图索引，其中，识别所述场景图中与查询图匹配的一组场景图包括搜索场景图索引。

在一些实现方式中，识别关键帧中的对象可以包括：通过机器学习模型提取一组边界框，每个边界框包围该关键帧中的对象；以及通过该机器学习模型识别该边界框内的对象。

本公开内容还提供了一种非暂态计算机可读介质，其耦合至一个或更多个处理器并且其上存储有指令，所述指令在由所述一个或更多个处理器执行时，使所述一个或更多个处理器执行根据本文提供的方法的实现方式的操作。

本公开内容还提供了一种用于实现本文提供的方法的系统。该系统包括：一个或更多个处理器；以及非暂态计算机可读介质装置，其耦合至所述一个或更多个处理器并且其上存储有指令，所述指令在由所述一个或更多个处理器执行时，使所述一个或更多个处理器执行根据本文提供的方法的实现方式的操作。

可以实施本说明书中描述的主题的特定实施方式，以实现以下优点中的一个或更多个。例如，该技术的优点是其可以使用关键帧中描绘的对象之间的视觉关系的自然语言描述来促进有效且准确的对视频和视频内的关键帧的发现，并且可以减少为了找到特定的感兴趣的视频需要用户输入的查询数目。这进而减少了执行多个查询直到识别出适当的视频所需的计算机资源数目。

该系统可以为终端用户提供更直观的界面，以通过使用自然语言和视觉关系描述来搜索根据表示视频的关键帧生成的场景图来找到感兴趣的视频和/或感兴趣的视频内的特定帧。搜索场景图索引可以加速查询处理，其中，查询可以是针对根据关键帧生成的场景图执行而不是遍历视频的帧，因此减少了迭代和/或搜索视频的需要。可以利用深度神经网络和机器学习模型来将关键帧映射为表示潜在视觉关系的场景图。机器学习模型可以使用训练视频/图像的储存库进行预训练，并且可以针对用户的特定视频库来进一步细化，以提高经识别的视觉关系和相应的场景图的准确性。

本说明书中描述的技术还可以提供用于从视频中的帧生成场景图的准确且资源高效的技术。例如，在一些实现方式中，本说明书中描述的技术从视频中提取帧的子集——在本说明书中被称为关键帧，其实质上表示视频中的内容(即，视频的剩余帧中的内容)。例如，视频中的特定帧相对于视频中随后出现的一组帧可能具有很少的差异(如果有的话)。这个特定的帧可以是关键帧，因为其内容代表了随后出现的一组帧。本说明书中描述的技术实现了资源效率，因为所述技术仅针对视频的关键帧生成场景图，而不是针对视频中的每个帧生成场景图，这可能是显著资源密集型计算任务。此外，所产生的关键帧的场景图准确地捕获/表示针对视频的每个帧的期望场景图。

该系统可以用于促进对来自各种源的视频的发现，所述视频例如为用户拍摄的视频、生成的视频、下载的视频等，以及存储在各种位置例如在用户装置的本地存储或基于云的服务器上的视频。

应当理解，根据本公开内容的方法可以包括本文描述的各方面和特征的任何组合。也就是说，根据本公开内容的方法不限于本文具体描述的各方面和特征的组合，还可以包括所提供的各方面和特征的任何组合。

在附图和下面的描述中阐述了本公开内容的一个或更多个实现方式的细节。本公开内容的其他特征和优点根据说明书和附图以及根据权利要求将是明显的。

附图说明

图1描绘了视觉关系系统的示例操作环境。

图2A描绘了视觉关系系统的示例实施方式的框图。

图2B描绘了视觉关系模型的示例架构的框图。

图3描绘了视觉关系系统的另一示例实施方式的框图。

图4A描绘了由图1和/或图2的视觉关系系统提取的示例关键帧的框图。

图4B描绘了由视觉关系系统确定的示例对象和视觉关系的框图。

图5是视觉关系系统用于处理视频和查询视频的示例处理的流程图。

图6示出了其中可以实现本文公开的微处理器架构的计算系统的示例。

图7示出了通用网络部件或计算机系统的示意图。

具体实施方式

概述

本公开内容的实现方式总体上涉及视频/图像处理和视频库查询。更特别地，本公开内容的实现方式涉及利用机器学习模型来处理视频的储存库以从每个视频中提取表示该视频的关键帧。对于每个关键帧，提取对象和限定对象之间的关系的关系特征。所提取的对象和关系特征用于针对关键帧中的每个关键帧构建场景图，在场景图中，对象形成节点并且关系特征形成节点之间的边。可以针对从视频储存库中提取的关键帧生成可搜索的场景图索引。每个场景图包括与视频中各个关键帧的出现对应的时间戳以及对包括该关键帧的视频的指引。用户可以提供对视频的查询，其中，该查询包括对感兴趣的视频中包括的对象之间的视觉关系的自然语言描述。可以根据查询生成查询图，其中，查询图可以按照可搜索的场景图索引与一个或更多个场景图进行匹配。响应于对视频的查询，可以提供包括与一个或更多个匹配场景图对应的关键帧的视频。

用户可以提供包括描述对象之间的视觉关系的多个项的自然语言查询。查询可以例如通过用户装置上的辅助应用被提供为文本查询或语音查询，在这种情况下，可以对查询应用语音至文本处理和自然语言处理。可以根据查询的多个项来生成查询图，并且如由查询的项所限定的，这样的查询图标识对象及所标识的对象之间的关系特征。

可以执行对场景图索引的搜索以找到查询图与场景图之间的匹配。作为该匹配的一部分，可以分配每个经匹配的场景图与查询图之间的置信度分数并且利用该置信度分数对经匹配的场景图进行排序。响应于查询，可以提供与经匹配的场景图对应的一组关键帧和包括所述一组关键帧中的一个或更多个关键帧的相应视频，例如用于在用户装置上显示。

在一些实现方式中，人工智能(Artificial Intelligence，AI)使能的处理器芯片可以具有自然语言理解并且与“智能”移动装置中的处理器例如中央处理单元(CentralProcessing Unit，CPU)或图形处理单元(Graphics Processing Unit，GPU)集成。具有自然语言理解的AI使能的处理器芯片可以用于接收自然语言语音查询，并且根据该自然语言语音查询生成针对语音查询的查询图。AI芯片可以用于使用本地存储在用户装置和/或基于云的服务器上的预训练机器学习模型来加速对象检测和关系特征提取。在一些实现方式中，可以利用AI芯片例如使用关键帧提取算法来执行视频的视频后处理的一部分。

示例操作环境

图1描绘了视觉关系系统102的示例操作环境100。视觉关系系统102可以托管在本地装置例如用户装置104、一个或更多个本地服务器、基于云的服务或其组合上。在一些实现方式中，可以将本文描述的处理的一部分或全部托管在基于云的服务器103上。

视觉关系系统102可以与网络105进行数据通信，其中，网络105可以被配置成能够在连接至网络105的装置之间交换电子通信。在一些实现方式中，将视觉关系系统102托管在基于云的服务器103上，其中，用户装置104可以经由网络105与视觉关系系统102通信。

网络105可以包括例如下述中的一个或更多个：因特网、广域网(Wide AreaNetwork，WAN)、局域网(Local Area Network，LAN)、模拟或数字的有线和无线电话网络例如公共交换电话网(Public Switched Telephone Network，PSTN)、综合业务数字网(Integrated Services Digital Network，ISDN)、蜂窝网络和数字用户线路(DigitalSubscriber Line，DSL)、无线电、电视、电缆、卫星、或者用于承载数据的任何其他传送或隧道机制。该网络可以包括多个网络或子网，所述多个网络或子网中的每一个可以包括例如有线或无线数据路径。该网络可以包括电路交换网络、分组交换数据网络或者能够承载电子通信例如数据通信或语音通信的任何其他网络。例如，网络可以包括基于互联网协议(Internet Protocol，IP)、异步传输模式(Asynchronous Transfer Mode，ATM)的网络、PSTN、基于IP、X.25或帧中继或其他同类技术的分组交换网络，并且可以支持使用例如VoIP(Voice over Internet Protocol，VoIP)或用于语音通信的其他同类协议的语音。该网络可以包括包含无线数据信道和无线语音信道的一个或更多个网络。该网络可以为无线网络、宽带网络或者包括无线网络和宽带网络的网络的组合。在一些实现方式中，可以通过有线和/或无线通信链路访问网络105。例如，诸如智能电话的移动计算装置可以利用蜂窝网络来访问网络105。

用户装置104可以托管和显示应用110，包括应用环境。例如，用户装置104是托管一个或更多个本地应用例如应用110的移动装置，应用110包括应用界面112例如图形用户界面，用户可以通过该应用界面112与视觉关系系统102交互。用户装置104包括任何适当类型的计算装置，例如台式计算机、膝上型计算机、手持式计算机、平板计算机、个人数字助理(Personal Digital Assistant，PDA)、蜂窝电话、网络设备、摄像装置、智能电话、增强型通用分组无线电服务(Enhanced General Packet Radio Service，EGPRS)移动电话、媒体播放器、导航装置、电子邮件装置、游戏控制台或者这些装置或其他数据处理装置中的任何两个或更多个的适当组合。除了执行与视觉关系系统102相关的功能之外，用户装置104还可以执行其他不相关的功能，例如发出个人电话呼叫、播放音乐、播放视频、显示图片、浏览因特网、维护电子日历等。

应用110是指在相应的移动装置上运行的实现在全文描述的用户界面和特征的软件/固件程序，并且是视觉关系系统102通过其可以与用户在用户装置104上进行通信的系统。用户装置104可以基于通过网络接收的数据或从本地媒体接收的数据来加载或安装应用110。应用110在移动装置平台上运行。用户装置104可以通过网络105从视觉关系系统102接收数据以及/或者用户装置104可以将视觉关系系统102的一部分或全部托管在用户装置104上。

视觉关系系统102包括语音至文本转换器106和视觉关系模型108。虽然本文参照语音至文本转换器106和视觉关系模型108进行了描述，但是所描述的操作可以由更多或更少的子部件来执行。视觉关系模型108可以为机器学习模型并且可以使用多个子模型来构建，每个子模型实施机器学习以执行本文描述的操作。视觉关系模型108的其他细节参照图2A、图3和图4A至图4B来描述。

视觉关系系统102可以从包括视频114储存库的视频数据库116获得视频114作为输入。视频数据库116可以本地存储在用户装置104上和/或存储在基于云的服务器103上，其中，视觉关系系统102可以经由网络105访问视频数据库116。视频数据库116可以包括例如用户使用移动电话上的摄像装置拍摄的视频的集合。作为另一示例，视频数据库116可以包括由多个用户装置捕获并且存储在远程位置例如云服务器中的视频的集合。

视觉关系系统102可以使用视觉关系模型108针对场景图数据库118生成场景图作为输出。场景图数据库118可以本地存储在用户装置104上和/或存储在基于云的服务器103上，其中，视觉关系系统102可以经由网络105访问场景图数据库118。场景图数据库118可以包括针对至少视频数据库116中的视频114的子集生成的场景图。场景图生成的其他细节参照图2A来描述。

视觉关系系统102可以通过应用界面112从用户装置104上的用户接收查询120作为输入。查询120可以为由用户装置104的用户通过应用界面112提供的语音查询。查询120可以为由用户输入至应用界面112中的基于文本的查询。

应用界面112可以包括搜索特征122，在搜索特征122中，用户可以选择输入查询120例如语音查询。在一个示例中，用户可以使用用户装置104的助手功能来输入语音查询，这可以例如通过按下搜索特征122中的麦克风按钮124来激活。在另一示例中，用户可以在搜索特征122的文本字段中输入文本查询。

查询120可以为自然语言查询，该自然语言查询包括描述可以包括在一个或更多个视频114中的对象之间的视觉关系的项。自然语言查询可以包括作为用户的正常词汇的一部分并且不包括任何特殊语法或格式的项。自然语言查询可以以各种形式输入，例如，作为陈述语句、问句或简单的关键字列表。在一个示例中，自然语言查询为“我想找到拿着球的男孩”。在另一示例中，自然语言查询为“在海边奔跑的狗的视频在哪里？”在又一示例中，自然语言查询为“男孩拿着球。男孩在海边”。

语音至文本转换器106可以接收用户的语音查询并且使用语音至文本技术和自然语言处理来将用户的语音查询解析为文本。经解析的查询可以由语音至文本转换器106提供给视觉关系模型108作为输入。

响应于用户输入查询120，视觉关系系统102可以将响应于查询120的一个或更多个视频114作为输出提供到用户装置104，以用于在应用110的应用界面112中显示。

在一些实现方式中，用户可以选择输入查询120，例如基于文本的查询。例如，用户可以将文本查询键入至搜索特征122中。查询120可以为自然语言查询，该自然语言查询包括描述在一个或更多个视频114中描绘的视觉关系的项。视觉关系模型108可以接收文本查询作为输入并且利用自然语言处理(例如，作为基于AI的芯片的功能)来解析文本查询。响应于用户输入查询120，视觉关系系统102可以将响应于查询120的一个或更多个视频114作为输出提供到用户装置104，以用于在应用110的应用界面112中显示。

在一些实现方式中，在应用110的应用界面112中为每个视频114显示预览帧。预览帧可以为例如视频114的关键帧115。视觉关系系统102的处理的其他细节参照图2A和图3来描述。

图2A描绘了根据从输入视频114提取的关键帧115生成场景图的视觉关系系统102并且特别地是视觉关系模型108的示例实施方式的框图200。如图2A所描绘的并且如参照图1简要描述的，作为视觉关系系统108的一部分的视觉关系模型108可以从视频数据库116获得视频114作为输入。

视觉关系模型108可以为机器学习模型，该机器学习模型又可以利用多个子模型来构建以执行本文描述的动作。视觉关系模型108可以包括深度神经网络模型，在该深度神经网络模型中，来自视频数据库116中的各个视频114的关键帧115被映射为表示潜在视觉关系的场景图202。下面参照图2B来描述视觉关系模型108的示例架构，然而，由视觉关系模型108执行的动作通常可以被实现成执行参照关键帧提取205、特征/对象提取208和场景图生成214描述的动作。

视觉关系模型108针对从每个视频114中提取的一个或更多个关键帧115生成相应的场景图202，并且提供所生成的场景图以存储在场景图数据库118中。在一些实现方式中，针对视频数据库116中的视频114的子集例如视频数据库116中的总共视频的子集中的每个子集的关键帧生成场景图202。

场景图202包括一组节点204和将该组节点中的节点子集互连的一组边206。每个场景图202可以限定由各个节点204表示的一组对象，例如，其中，第一对象由该组节点中的第一节点表示，而第二对象由该组节点中的第二节点表示。第一节点和第二节点可以通过表示限定两个对象之间的关系的关系特征的边来连接。

视觉关系模型108可以使用一个或更多个深度神经网络来实现。在一些实现方式中，视觉关系模型108包括基于一个或更多个预训练模型的机器学习模型以针对进入模型的各个视频114的每个关键帧115生成场景图，所述预训练模型使用通用数据例如通用视频储存库或用户特定数据例如用户的视频库来训练。可以使用监督训练来训练视觉关系模型108以根据关键帧生成场景图。然后，可以基于视频数据库116例如用户的视频集合来对预训练模型进行进一步细化调整。细化调整处理可以在用户装置104和/或基于云的服务器103上进行，这取决于例如视频114的位置和用户装置104的处理能力。因此，在一些实现方式中，可以由存储在基于云的服务器103中或另一联网位置中的机器学习模型来执行初始训练，并且然后，在完成训练之后，可以向用户装置104提供该初始训练以进行存储和进一步细化调整。替选地，可以在用户装置104上执行初始训练和任何后续的细化调整。替选地，可以在基于云的服务器103上或另一联网位置上执行初始训练和任何后续的细化调整。

在一些实现方式中，在视觉关系已经被初始训练和/或细化调整之后，视觉关系模型108可以处理获得的视频114以提取一组关键帧115并且针对每个关键帧115执行特征/对象提取208，特征/对象提取208进而可以用于针对关键帧115生成场景图。在一个示例中，视觉关系模型108可以分析移动装置上的用户视频库或基于云的包括一组视频的视频库，以提取一组关键帧115。对于该组关键帧115，可以生成相应的一组场景图202，所述一组场景图描述相应视频114中的每个视频的关键帧115内的视觉关系。

视觉关系模型108可以获得视频114并且对视频114执行关键帧提取205以提取一个或更多个关键帧115。每个关键帧115包括表示视频114的视频114的帧和与视频114中关键帧的出现对应的时间戳207。

视觉关系模型108可以确定关键帧115是相关帧并且表示视频114的视频语义。确定一个或更多个帧的相关性可以包括利用通过比较两个连续帧之间的差异的基于直方图的关键帧提取技术。在另一示例中，可以利用基于边界系数的关键帧提取技术来确定一个或更多个帧作为表示视频114的关键帧的相关性。

在一些实现方式中，可以利用其他度量来确定视频114的关键帧115。可以使用用户限定的度量例如视频中特定人或对象的出现来限定关键帧115。可以利用面部识别技术和/或对象识别技术来识别视频114内的包括特定人和/或对象的帧。例如，用户可以例如通过应用界面112指示包括该用户的帧是重要的。视觉关系系统102可以利用这种指示的偏好来将视频114中的关键帧115识别为包括该用户的帧。

在一些实现方式中，确定视频中的关键帧115可以包括将视频114划分为子部分，例如30秒的视频剪辑，并且然后选择每个子部分的代表帧作为关键帧115。下面参照图4A讨论关键帧提取的进一步讨论。从视频114提取的关键帧115可以与时间戳207例如关键帧115相对于视频114的相对出现时间相关联。时间戳207可以以索引/表与关键帧115相关联，其中，时间戳207与关键帧115一起存储在索引/表中。例如在关键帧115的元数据中，时间戳207可以是分配给关键帧115的标签。例如，关键帧115可以与0:00:27的时间戳207相关联，其中，关键帧115出现在从视频114开始的第27秒。在一些实现方式中，关键帧115可以与指示视频114的帧的总数目的帧号的时间戳207相关联，例如127/400，其中，关键帧115出现在视频114的总共400帧中的第127帧。其他类似的时间戳可以与每个关键帧115相关联。

关键帧115可以包括对从中提取关键帧115的视频114的指引。对视频114的指引可以包括例如标识符标签或视频的另一形式的唯一标识，例如视频_示例1.mp4。在另一示例中，指引可以包括视频的存储位置，例如，在用户装置104上或者在基于云的服务器103上。附加地，关键帧可以与标记该关键帧在视频114的一组帧中的出现位置的时间戳207相关联。时间戳207可以与针对关键帧115生成的场景图一起存储并且可以响应于查询与一组视频一起返回，使得用户可以选择时间戳207用于包括与时间戳207一起存储的关键帧115的特定视频，以便将视频回放推进到关键帧115的位置。

所提取的关键帧115可以由机器学习模型例如视觉关系模型108进行处理，以提取对象和描述对象之间的关系的关系特征，并且生成表示每个提取的关键帧115的相应场景图。视觉关系模型108可以例如从用户的视频库获得视频114，并且对关键帧115执行特征/对象提取208。在一个示例中，视觉关系模型108可以分析移动装置上的用户视频库或者基于云的包括一组视频的视频库，以生成针对与各个视频114对应并且描述视频114内的视觉关系的关键帧115的各个场景图202。所生成的场景图202可以存储在可搜索的场景图数据库118中。

特征/对象提取208可以包括由视觉关系模型108识别关键帧115中的对象。识别关键帧115中的对象可以包括对关键帧115应用边界框210，其中，每个边界框210包围出现在关键帧115中的对象。例如，可以对描绘男孩拿着球的关键帧115应用多个边界框210，其中，第一边界框可以包围男孩并且第二边界框可以包围球。在关键帧115中可能出现部分对象，例如球的一部分，其中，可以对出现在关键帧115中的对象的一部分应用边界框。可以使用对象检测模型例如Mask R-CNN(Region-Convolutional Neural Network，R-CNN)或YOLO(You Look Only Once，YOLO)来执行识别关键帧115中的对象。在一些实施方式中，可以使用机器学习模型架构来执行识别关键帧115中的对象，该机器学习模型架构可以以并行处理来执行对象检测和场景图预测/生成。例如，可以利用特征金字塔网络(Feature PyramidNetwork，FPN)来聚合从应用于输入关键帧115的ResNet50主干得到的多尺度信息。

特征/对象提取208可以附加地包括由视觉关系模型108提取关系特征212，该关系特征212限定关键帧115中的多个对象中的对象之间的关系。在一些实现方式中，每个关系特征212限定第一对象与不同的第二对象之间的关系。例如，关系特征212可以为“拿着”，其中，关系特征212限定了第一对象“男孩”与第二对象“球”之间的关系，以限定“男孩”、“拿着”、“球”的视觉关系。关系可以由视觉关系模型108例如部分地基于对象之间的接近度/空间距离、对象类别之间的已知关系、特定对象和/或对象类别之间的用户限定的关系等来确定。在一些实现方式中，机器学习模型可以用于预测检测到的对象对之间的关系。该模型可以为同时完成对象检测和关系识别两者的单通模型。换句话说，可以使用一通模型来执行特征/对象提取以用于识别对象和限定对象之间的关系，其中，机器学习模型在单通中完成对象检测处理和关系识别推理处理两者。

在一些实现方式中，视觉关系模型108是被实现为单通模型的机器学习模型，其可以在单通中预测输入视频114和/或输入关键帧115的场景图。图2B中描绘了机器学习的单通模型的示例架构250。

如架构250中所描绘的，可以利用双分支技术来执行对象检测和关系特征提取，例如，如参照特征/对象提取208所描述的。架构250可以包括Resnet50、HRNet(High-Resolution Net，HRNet)或另一类似的卷积神经网络，以从视频114中获得关键帧115并且生成表示从原始输出的多重缩放例如256x256、128x128、64x64等中提取/生成的特征的多尺度输出。多尺度输出可以作为输入提供给特征金字塔网络(FPN)风格的结构，以用于处理多尺度输出。在图2B描绘的示例中，可以使用两个FPN(每个被单独地称为FPN或BiFPN)来各自分别执行对象检测和关系特征提取，例如，如参照特征/对象提取208所描述的，然而，在架构250中可以使用更多或更少的FPN。每个BiFPN的多个输出关系预测张量可以用作多个卷积和批量归一化层的输入，以预测输入图像的场景图。架构250的输出包括场景图，例如根据输入关键帧114生成的场景图202。

视觉关系模型108根据从边界框210提取的对象以及关系特征212经由场景图生成214对场景图进行预测。根据关键帧115的对象和关系特征生成针对表示视频114的每个关键帧115的场景图202，在该场景图202中，每个对象为节点204并且每个关系特征为将至少两个节点204连接在一起的边206。场景图202可以包括每个经识别的对象作为节点以及至少两个对象之间的关系特征作为连接节点的边。第一节点可以连接至多个其他不同节点，其中，每个连接为限定第一节点与多个其他节点中的不同的第二节点之间的关系特征的边。例如，第一节点可以为“男孩”，第二节点可以为“球”，而第三节点可以为“帽子”。第一节点与第二节点可以通过表示关系特征“拿着”的边连接，例如“男孩拿着球”，而第一节点与第三节点可以通过表示关系特征“戴着(wearing)”的边连接，例如“男孩戴着帽子”。

在一些实现方式中，第一节点可以通过相同类型的关系特征连接至多个其他不同的节点，其中，每个连接由单独的边来表示。例如，在关键帧115中男孩可以拿着球和书。第一节点可以为“男孩”，而第二节点可以为“球”，并且第三节点可以为“书”。在第一节点与第二节点之间关系特征可以为“拿着”，例如“男孩拿着球”，并且在第一节点与第三节点之间关系特征也可以为“拿着”，例如，“男孩拿着书”。场景图202可以包括：三个节点，例如“男孩”、“球”、“书”；以及两个边，例如“拿着”和“拿着”。

关键帧115的场景图202存储在场景图数据库118中，并且包括对视频114和指引关键帧115相对于视频114的出现的时间戳207的指引。可以根据场景图数据库118中存储的场景图202来构建场景图索引216，这可以促进使用图索引技术将存储的场景图202与查询进行匹配。作为一个示例，场景图索引可以是标识每个关键帧及该关键帧的对应场景图和时间戳的查找表，如图2A所描绘的。

可以利用各种图索引技术，例如，图索引：基于频繁结构的方法(gIndex)。更一般地，可以利用基于路径的图索引技术和/或基于结构的技术。针对场景图索引可以使用反向索引技术，这部分取决于生成的场景图的大小。

返回参照图1，用户可以经由应用界面112向视觉关系系统102提供查询120，例如，作为语音查询或文本查询。视觉关系系统102可以使用语音至文本转换器106来处理语音查询120并且向视觉关系模型108提供经解析的查询。在一些实现方式中，语音至文本转换器106可以使用语音至文本神经网络模型例如ALBERT或另一类似的神经网络模型将语音查询120译为文本命令。

图3描绘了视觉关系系统的另一示例实施方式的框图300，其中，视觉关系模型108用于识别与用户输入查询匹配的场景图。

可以向视觉关系系统102提供包括描述视觉关系的项的查询302。在一些实现方式中，查询302为由语音至文本转换器106根据由视觉关系系统102在用户装置104上的从用户接收到的查询120生成的文本查询。

视觉关系系统102可以接收查询302作为输入并且对查询302执行特征/对象提取304以确定查询302中的限定对象306和关系特征308的项。视觉关系系统102可以从输入查询302提取对象306和关系特征308，例如，通过使用自然语言处理来解析查询中的项并且识别对象/关系特征。在一个示例中，可以使用例如Python Spacy工具包的自然语言处理技术来处理查询以提取对象和关系。在一个示例中，查询302为“我想要男孩拿着球”，其中，对象项被确定为“男孩”和“球”，并且关系特征项被确定为“拿着”。

视觉关系系统102可以利用在查询302的项中限定的经提取的对象306和关系特征308来执行查询图生成310。可以生成其中从查询302的项提取的对象306和关系特征308分别用作节点314和节点之间的边316的查询图312。继续上面提供的示例，查询图312可以包括第一节点“男孩”和第二节点“球”以及连接第一节点与第二节点的边“拿着”314。

视觉关系系统102可以执行查询图312与来自场景图数据库118的场景图202之间的场景图匹配318。在一些实现方式中，查询图312与来自场景图数据库118的场景图202之间的匹配包括搜索场景图索引216以检索与响应于查询120的相关视频114对应的关键帧115，所述匹配在下面进一步描述。从场景图数据库118中的场景图202中选择与查询图312匹配的一组场景图202。查询图312可以与场景图数据库118中的索引进行匹配，以检索相关视频114和关键帧115，包括与关键帧115相关联的相应时间戳207作为查询结果。

在一些实现方式中，视觉关系系统102可以利用一个或更多个相关性模型来执行场景图匹配318。可以为场景图202分配置信度分数，其中，可以识别满足对查询图312的阈值置信度分数的场景图202。可以对满足阈值置信度分数的一组经识别的场景图202进行排序，其中，具有更高置信度分数例如较接近的匹配的第一场景图202和查询312的排序可以比具有较低的置信度分数例如较远的匹配的第二场景图202高。场景图匹配可以是词的精确匹配，例如，在场景图和查询图二者中同一组的第一节点和第二节点通过相同的边连接。例如，场景图可以包括“男孩-拿着-球”节点1-边-节点2的关系，并且查询图也可以包括“男孩-拿着-球”的关系。场景图匹配替选地可以为近似匹配或模糊匹配，例如，其中，在场景图与查询图之间一个或更多个节点或者节点之间的一个或更多个边是不同的。近似匹配可以是根据基于词嵌入(例如使用word2vec(Word to Vector，word2vec)等)的基于词的语义距离的词匹配。例如，查询图可以包括“男孩-拿着-球”，而经识别的场景图可以包括“男孩-投掷-球”，其中“拿着”和“投掷”是例如通过预先生成的词典被确定为在匹配的阈值之内。

在一些实现方式中，一组经识别的场景图202可以被聚类成使得与表示同一视频114的关键帧115对应的场景图202形成群集。每个经识别的场景图的群集可以相对于每个其他经识别的场景图202的群集进行排序。在一个示例中，当第一数目大于第二数目时，可以为包括第一数目的经识别的场景图的第一群集分配比包括第二数目的经识别的场景图的第二群集更高的排名。

在一些实现方式中，被经识别的场景图的第一群集202指引的第一视频114的排序可以比被经识别的场景图的第二群集或单个经识别的场景图202指引的第二视频114高，其中，第二群集包括比第一群集更少的场景图。

可以提供与一组经识别的场景图202对应的视频114以用于在用户装置上显示，例如，在应用界面112中显示。可以根据排序来显示包括与一组经识别的场景图202对应的关键帧115的视频114，其中，与包括与具有较低置信度分数的场景图202对应的关键帧115的视频114相比较，包括与具有较高置信度分数的场景图202对应的关键帧115的视频114可以呈现在更显眼的位置处，例如，在显示的顶部处。

在一些实现方式中，提供一组排名靠前的视频114例如一组排名前10的视频114以用于在用户装置上显示。用户可以向视觉关系系统102提供反馈以请求响应于查询请求而提供的一些视频114，例如提供0至25个视频。在一个示例中，用户可以请求在对查询请求的响应中返回多达15个视频。在一些实现方式中，用于在用户装置上显示而返回的视频的数目可以取决于预定义参数，例如通过应用110设置的预定义参数。所显示的视频的数目可以取决于装置屏幕尺寸，其中，视频的数目通过用于视频缩略图预览的可用显示空间来设置。

在一些实现方式中，提供关键帧115以用于在用户装置上例如在应用界面112中显示。被提供用于显示的每个关键帧115可以包括指引关键帧115在相应视频114中的出现的时间戳207。关键帧115可以由用户来选择以在视频114中出现关键帧115时开始回放视频114。以这样的方式，本说明书中描述的技术使得用户能够立即导航至视频中的响应于用户查询的相关部分，这与如下向用户呈现长视频相反：其中，用户必须手动扫描视频并且因此使用额外的计算资源来访问该视频的相关部分。

如参照图2A所描述的，视觉关系模型108可以对视频114执行关键帧提取205。图4A描绘了视觉关系系统的另一示例实施方式的框图401，其中，使用视觉关系模型来分析视频以从该视频中提取关键帧。

视觉关系系统102可以获得视频114作为输入并且提取表示视频114的一组关键帧115作为输出，例如，使用基于直方图的关键帧提取技术、基于边界系数的关键帧提取技术等进行提取。

如图4A所描绘的，视频114的第一帧403a和第二帧403b被识别为表示视频114，例如，包括指示所述帧中描绘的内容的显著变化的帧之间的差异。识别指示变化的帧可以例如使用基于直方图的关键帧提取技术、基于边界系数的关键帧提取技术、客户限定的方法、其组合或用于识别视频内的关键帧的另一类似技术来确定。例如，在帧403a与帧403b之间，视频的帧中出现鸟407，这可能是查询用户感兴趣的。

视觉关系系统102可以确定帧403a和帧403b中的一个或两个是重要的并且提取特定的帧作为关键帧115，包括与视频114中关键帧115的出现对应的相应时间戳207。

如参照图2A所描述的，视觉关系模型108可以对视频114的关键帧115执行特征/对象提取208。图4B描绘了由视觉关系系统确定/提取的关键帧中的示例对象和视觉关系的框图400。如图4B所描绘的，被确定为关键帧115的帧402描绘了一名女性坐在桌子旁边的椅子上，其中，桌子在桌子的顶部有本书。视觉关系模型108可以接收帧402并且确定一组边界框404，每个边界框包围出现在关键帧402内的对象或对象的一部分。例如，用于帧402的边界框404识别关键帧402内的对象405，包括：人例如女性、衣服、椅子、书和桌子。

经识别的对象405中的每一个被边界框包围并且可以使用例如来自一组关系特征406的关系特征与其他经识别的对象405中的一个或更多个相关联例如链接，其中，关系特征406中的每个关系特征描述了一对对象之间的关系。关系特征406可以包括自然语言项。关键帧402的关系特征406可以包括例如“旁边”、“在……上”和“穿着(wearing)”。在一个示例中，视觉关系可以被限定为“桌子在椅子旁边”，其中，“桌子”和“椅子”是对象405，而“在……旁边”是对象405之间的关系特征406。

图4B中描绘了场景图的示例，其示出了作为节点的多个对象，所述多个对象通过作为边的关系特征连接。对象例如“女性”可以经由相应的关系特征406例如“在……上”、“穿着”和“在……旁边”连接至多个其他对象例如“椅子”、“衣服”和“桌子”。视觉关系模型108可以利用所提取的对象405和关系特征406来针对关键帧402生成场景图例如场景图202。

在一些实现方式中，可以使用描述关键帧115和/或视频114的语义的文本来代替针对从视频114中提取的关键帧115生成的场景图202。换句话说，描述关键帧115和/或视频114内的对象和关系特征的文本可以与视频114相关联。例如，包括男孩拿着球的关键帧115可以与包括“男孩”、“拿着”、“球”、“男孩拿了个球”和“男孩拿着球”的项相关联，例如进行标记或者以其他方式指派。在一些实现方式中，神经网络模型可以例如使用图像字幕技术将关键帧映射为文本描述。可以对视频数据库116中的每个视频114的描述性文本执行语义语言搜索。

视觉关系系统的示例处理

图5是视觉关系系统102的示例处理500的流程图。下面将描述由图1至图3、图4A和图4B中描述和描绘的系统的部件来执行的处理500的操作。下面仅出于说明的目的来描述处理500的操作。处理500的操作可以由任何适当的装置或系统例如任何适当的数据处理设备来执行。处理500的操作也可以被实现为存储在非暂态计算机可读介质上的指令。所述指令的执行使一个或更多个数据处理设备执行处理500的操作。

获得视频(502)。视觉关系系统102可以获得来自视频数据库116的视频114。在一些实现方式中，视觉关系系统102在视频被捕获和/或保存到视频数据库116中时获得视频114。在一些实现方式中，视觉关系系统102可以周期性地获得来自视频数据库116的视频114以进行处理，例如，当用户装置104连接至电源时、当用户装置104的存储器使用低于活动阈值时等。

在一些实现方式中，视频114本地存储在用户装置104上，例如移动电话的存储器中。视频114可以附加地或替选地存储在基于云的服务器103上，该基于云的服务器经由网络105与用户装置104进行数据通信。视频114可以为例如包括视觉表示的文档，例如由用户装置104的摄像装置捕获的视频。通常，视觉关系系统102可以处理文档，包括例如以MPEG层-4音频(Moving Picture Experts Group Layer-4 Audio，MP4)、QuickTime电影(QuickTime Movie，MOV)、视频交错(Video Interleave，AVI)方式的文档或另一格式的基于视觉的文档。

在一些实现方式中，可以对视频数据库116中的视频的储存库中的每个视频执行下面参照步骤504至508描述的操作。替选地，可以对从视频储存库中获取的视频的子集中的每个视频执行下面参照步骤504至508描述的操作。如上面参照图2A所描述的，可以由视觉关系模型108接收每个视频114作为输入，并且可以针对表示视频114的关键帧115生成场景图202。

从每个视频中提取关键帧，如参照图2A和图4A所描述的，每个关键帧包括与关键帧在该视频内的出现对应的时间戳以及对包括关键帧的视频的指引(504)。

从每个视频中并且针对每个图像，识别关键帧中的对象(506)，如参照图2A和图4B所描述的。视觉关系模型108可以对关键帧115执行特征/对象提取208。对象提取可以包括对关键帧115应用边界框210，其中，每个边界框210包围对象或者包围出现在关键帧内的对象的一部分。如图4B所描绘的，边界框404可以各自限定出现在帧402中的对象405，例如桌子、女性、书等。可以利用对象检测模型例如MASK R-CNN、YOLO、单次检测器(Single ShotDetector，SSD)来识别图像中的对象。在一些实施方式中，可以使用机器学习模型架构来执行识别关键帧115中的对象，该机器学习模型架构可以以并行处理执行对象检测和场景图预测/生成。例如，可以利用特征金字塔网络(Feature Pyramid Network，FPN)来聚合从应用于输入关键帧115的ResNet50主干得到的多尺度信息。

返回参照图5，从每个视频中并且针对每个关键帧，提取关系特征，如参照图2A和图4B所描述的，关系特征限定关键帧中的第一对象与不同的第二对象之间的关系(508)。关系特征可以由视觉关系模型108例如使用深度神经网络来提取，并且限定出现在关键帧内的至少两个对象之间的关系。从关键帧中提取关系特征可以作为端到端输出的一部分内置于视觉关系模型中。关系特征可以包括限定第一对象与第二对象之间的关系的一个或更多个项。如图4B所描绘的，关系特征406可以包括一个项或一组项，例如“在……旁边”和“穿着”，其中，这些项限定了第一对象如何与第二对象相关。

在一些实现方式中，视觉关系模型108是被实现为单通模型的机器学习模型，其可以在单通中预测输入视频114和/或输入关键帧115的场景图。

返回参照图5，如参照图2A所描述的，根据对象和关系特征生成场景图(510)。视觉关系系统102可以生成场景图例如图2A描绘的场景图202，在场景图202中，每个对象被限定为节点204并且每个关系特征被限定为在场景图202中的两个节点204之间连接的边206。在一些实现方式中，第一节点204可以经由第一边206连接至第二节点并且经由第二边206连接至第三节点。场景图202可以包括时间戳，例如与由场景图202表示的关键帧115在相应的从其中提取关键帧的视频114内的出现对应的时间戳207。

生成的场景图202存储在场景图数据库118中，例如，本地存储在用户装置104上以及/或者存储在基于云的服务器103上，基于云的服务器103经由网络105与用户装置104进行数据通信。每个生成的场景图202可以包括对根据其生成该场景图的特定关键帧115的指引，例如，指引关键帧115的标识符。此外，每个生成的场景图202可以包括对从其中提取关键帧115的特定视频114的指引，例如，指引视频114的标识符，包括时间戳207和/或视频114在视频数据库116中的存储位置。可以为场景图数据库118编入索引以生成场景图索引216，该场景图索引216可以用于在场景图数据库118中搜索特定一组场景图202。

返回参照图5，接收针对视频的自然语言查询请求，如参照图1和图3所描述的，该自然语言查询请求包括指定两个或更多个对象以及所述两个或更多个对象之间的一个或更多个关系的项(512)。自然语言查询请求例如查询120可以为由用户装置104的用户例如通过应用110的应用界面112和/或通过用户装置104上的数字助理提供的语音查询。自然语言查询请求可以包括描述用户有兴趣查看的视频中的一个或更多个对象以及所述对象之间的一个或更多个关系的一组项。例如，自然语言查询请求可以为“我想找到坐在椅子上的女性”，其中，对象为“女性”和“椅子”，并且对象之间的关系为“坐在……上”。在另一示例中，自然语言查询请求可以为“找到我在圣海伦山徒步旅行的视频”，其中，对象为“我[用户]”和“圣海伦山”，并且对象之间的关系为“徒步旅行”。

在一些实现方式中，语音至文本转换器例如语音至文本转换器106接收语音查询并且将该语音查询转换为基于文本的查询，该基于文本的查询可以提供给视觉关系模型108。语音至文本转换器106可以为视觉关系系统102的一部分，或者可以为位于用户装置104上的数字助理或另一应用110的功能。

视觉关系系统102可以从语音至文本转换器106接收文本查询例如查询302，并且执行特征/对象提取例如特征/对象提取304，以提取对象和关系特征例如包括在查询中的对象306和关系特征308。

现在参照图5，针对自然语言查询请求生成查询图(514)，如参照图3所描述的。查询图生成例如查询图生成310可以由视觉关系系统102使用从用户提供的查询中提取的对象和关系特征来执行。可以生成查询图例如查询图312，该查询图包括查询302的基于图的表示，其中每个对象306由节点314表示并且每个关系特征308由连接第一节点与第二节点的边316表示。

返回参照图5，从多个场景图中识别与查询图匹配的一组场景图(516)，如参照图1和图3所描述的。场景图匹配例如场景图匹配318可以由视觉关系系统102执行，在视觉关系系统102中，将查询图312与场景图数据库118中的场景图202进行比较。从场景图202中识别出与查询图312匹配的一组场景图，例如，通过搜索场景图索引216以找到场景图202中与查询图312匹配例如为精确匹配、近似/模糊匹配的场景图。在一些实现方式中，基于匹配，可以为场景图数据库118中的每个场景图202分配关于查询图312的置信度分数例如匹配的真实性，并且只有具有满足(例如，达到或超过)阈值置信度分数的置信度分数的那些场景图才被包括在该组场景图中。

现在参照图5，根据经识别的场景图确定一组视频，每个视频包括该组场景图中的至少一个场景图(518)，如参照图1和图3所描述的。一组视频114中的每个视频114包括至少一个关键帧，该关键帧与所识别的场景图202中的场景图对应。

提供该组视频以用于在用户装置上显示(520)，如参照图1所描述的。可以从视频数据库116中识别与该组场景图对应的一组视频，例如视频114，该视频114包括与场景图202对应的关键帧115。在一些实现方式中，可以根据场景图索引识别该组视频，其中，每个经识别的场景图包括对包括根据其生成经识别的场景图的关键帧的视频的指引。系统可以存储多个场景图以及针对为特定视频生成的多个场景图中的每个场景图的相应时间戳。该组场景图中的每个场景图可以包括对根据其生成场景图的特定关键帧115和/或从其提取关键帧115的特定视频114的指引，例如对存储位置、唯一标识符等的指引。该组视频可以在视频数据库116中被识别并且由视觉关系系统102提供给用户装置104上的应用110例如视频库应用以用于显示。

在一些实现方式中，可以对与查询图匹配的该组场景图进行过滤，使得为经识别的该组视频中的每个视频选择一个场景图并且提供该场景图以用于在用户装置104上显示。换句话说，如果与查询图匹配的一组场景图包括根据从同一视频114提取的关键帧生成的多个场景图，则系统可以过滤该组场景图以包括表示每个视频114的一个场景图。

可以在用户装置104上的应用的应用界面中例如应用110的应用界面112中显示每个均包括与该组场景图对应的至少一个关键帧的一组视频，例如包括与场景图202对应的关键帧115的视频114。在一些实现方式中，该组视频可以针对每个视频在该组视频中的排名来呈现显示，如以上参照图3所描述的。在一个示例中，与包括与具有较低置信度分数的场景图对应的关键帧的第二视频相比较，包括与具有较高置信度分数的场景图对应的关键帧115的第一视频可以呈现在应用界面112中更显眼的位置处，例如在显示结果的顶部处。

图6示出了其中可以实现本文公开的微处理器架构的计算系统的示例。计算系统600包括至少一个处理器602，该处理器可以为单个中央处理单元(CPU)或多核架构的多个处理器核的装置。在所描绘的示例中，处理器602包括管线604、指令高速缓存606和数据高速缓存608(以及其他电路，未示出)。处理器602连接至处理器总线610，处理器总线610能够与外部存储器系统612和输入/输出(Input/Output，I/O)桥614进行通信。I/O桥614能够通过I/O总线616与各种不同的I/O装置618A至618D(例如，磁盘控制器、网络接口、显示适配器和/或诸如键盘或鼠标的用户输入装置)进行通信。

外部存储器系统612是分层存储器系统的一部分，该分层存储器系统包括多级高速缓存，包括第一级(L1)指令高速缓存606和数据高速缓存608，以及外部存储器系统612内的任何数目的更高级别(L2、L3、……)高速缓存。处理器602中的支持高速缓存606和608的其他电路(未示出)包括转译后备缓冲器(Translation Lookaside Buffer，TLB)、用于处理TLB或高速缓存606和608中的未命中的各种其他电路。例如，TLB用于将提取的指令或指引的数据的地址从虚拟地址转译为物理地址，并且确定该地址的副本是否分别在指令高速缓存606中或数据高速缓存608中。如果确定该地址的副本在指令高速缓存606中或数据高速缓存608中，则可以从L1高速缓存中获取该指令或数据。如果确定该地址的副本不在指令高速缓存606中或数据高速缓存608中，则由未命中电路处理该未命中，使得该未命中可以从外部存储器系统612执行。应当理解，哪些级别高速缓存在处理器602内与哪些级别高速缓存在外部存储器系统612内之间的划分在各种示例中可以不同。例如，L1高速缓存和L2高速缓存可以都是内部的，而L3(和更高级别的)高速缓存可以是外部的。外部存储器系统612还包括主存储器接口620，该主存储器接口620连接至用作主存储器(例如，动态随机存取存储器模块)的任意数目的存储器模块(未示出)。

图7示出了通用网络部件或计算机系统的示意图。通用网络部件或计算机系统包括处理器702(其可以被称为中央处理器单元或CPU)，

处理器702与包括辅助存储器704的存储器装置、诸如ROM(Read Only Memory，ROM)706和RAM(Random Access Memory，RAM)708的存储器、输入/输出(Input/Output)装置710以及网络712进行通信，

网络712例如为因特网或任何其他公知类型的网络，其可以包括网络连接装置，例如网络接口。虽然被示出为单个处理器，但是处理器702不限于此并且可以包括多个处理器。处理器702可以被实现为一个或更多个CPU芯片、核(例如，多核处理器)、FPGA(FieldProgrammable Gate Array，FPGA)、ASIC(Application Specific Integrated Circuit，ASIC)和/或DSP(Digital Signal Processor，DSP)以及/或者可以为一个或更多个ASIC的一部分。处理器702可以被配置成实现本文描述的任何方案。处理器702可以使用硬件、软件或者硬件和软件两者来实现。

辅助存储器704通常由一个或更多个磁盘驱动器或磁带驱动器组成，并且用于数据的非易失性存储，并且在RAM 708未大到足以保存全部工作数据的情况下用作溢出数据存储装置。辅助存储装置704可以用于存储下述程序：所述程序在被选择以执行时被加载到RAM 708中。ROM 706用于存储在程序执行期间所读取的指令以及可能的数据。ROM 706是非易失性存储器装置，其相对于辅助存储装置704的较大存储器容量通常具有小的存储器容量。RAM 708用于存储易失性数据并且可能存储指令。对ROM 706和RAM 708二者的访问通常比对辅助存储装置704的访问快。辅助存储器704或RAM 708中的至少一者可以被配置成存储路由表、转发表或本文公开的其他表或信息。

应当理解，通过将可执行指令编程和/或加载到节点700上，改变了处理器720或存储器722中的至少之一，将节点700部分地变换成具有本公开内容所教导的新颖功能的特定机器或设备例如路由器。类似地，应当理解，通过将可执行指令编程和/或加载到节点700上，改变了处理器702、ROM 706和RAM 708中的至少一个，从而将节点700部分地变换成具有本公开内容所教导的新颖功能的特定机器或设备例如路由器。对于电气工程领域和软件工程领域来说下述是基本的：可以通过将可执行软件加载至计算机中而实现的功能可以通过公知的设计规则转变为硬件实现方式。以软件实现构思与以硬件实现构思之间的决策通常取决于对设计的稳定性和要产生的单元的数目的考虑，而不是从软件域向硬件域转换时涉及的任何问题。通常，仍然经受频繁变化的设计可以优选地以软件实现，这是因为重新开发硬件实现方式比重新开发软件设计昂贵。

通常，将大量生产的稳定的设计可以优选地以硬件例如以ASIC实现，这是因为对于大的生产运作，硬件实现方式可能比软件实现方式便宜。通常，设计是以软件形式开发和测试的，并且随后通过公知的设计规则将其转换成硬绑定(hardwire)软件指令的专用集成电路中的等同的硬件实现方式。以相同的方式，由于被新的ASIC控制的机器为特定的机器或设备，因此同样地，已经编程和/或加载有可执行指令的计算机可以被视为特定的机器或设备。

本文描述的技术可以使用硬件、固件、软件或这些的组合来实现。所使用的软件存储在上述处理器可读存储装置中的一个或更多个上，以对处理器中的一个或更多个进行编程以执行本文描述的功能。处理器可读存储装置可以包括计算机可读介质例如易失性和非易失性介质、可移除和不可移除介质。通过示例而非限制的方式，计算机可读介质可以包括计算机可读存储介质和通信介质。计算机可读存储介质可以以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术来实现。计算机可读存储介质的示例包括RAM、ROM、EEPROM(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存存储器或其他存储器技术、CDROM(Compact Disc Read Only Memory，CDROM)、数字通用盘(Digital Versatile Disk,DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储装置或者可以用于存储期望信息并且可以由计算机访问的任何其他介质。计算机可读介质不包括传播的、调制的或瞬态信号。

通信介质通常以传播的、调制的或瞬态的数据信号诸如载波或其他传输机制体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递介质。术语“调制的数据信号”意指具有以对信号中的信息进行编码的方式设置或改变的其特征中的一个或更多个的信号。通过示例而非限制的方式，通信介质包括有线介质例如有线网络或直接有线的连接以及无线介质例如RF和其他无线介质。以上的任何组合也包括在计算机可读介质的范围内。

在替选实施方式中，软件中的一些或所有可以由专用硬件逻辑部件代替。例如，但不限于，可以使用的示例性硬件逻辑部件类型包括现场可编程门阵列(FieldProgrammable Gate Array，FPGA)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、专用标准产品(Application Specific Standard Product，ASSP)、片上系统(System-on-a-chip system，SOCs)、复杂可编程逻辑器件(Complex ProgrammableLogic Device，CPLD)、专用计算机等。在一个实施方式中，使用实现一个或更多个实施方式的软件(存储在存储装置上)对一个或更多个处理器进行编程。一个或更多个处理器可以与一个或更多个计算机可读介质/存储装置、外围装置和/或通信接口进行通信。

应当理解，本主题可以以许多不同的形式来实现，而不应当被解释为限于本文阐述的实施方式。相反，提供这些实施方式使得该主题透彻且完整，并且将本公开内容完全传达给本领域技术人员。实际上，本主题旨在覆盖这些实施方式的替选、修改和等同方案，这些替选、修改和等同方案包括在如由所附权利要求限定的主题的范围和精神内。此外，在本主题的以下详细描述中，阐述了许多具体细节以提供对本主题的透彻理解。然而，本领域普通技术人员将清楚，可以在没有这些具体细节的情况下实践本主题。

在本文中参照根据本公开内容的实施方式的方法、设备(系统)和计算机程序产品的流程图图示和/或框图描述了本公开内容的各方面。将理解，流程图图示和/或框图中的每个块以及流程图图示和/或框图中的块的组合可以通过计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或者其他可编程数据处理设备的处理器以产生机器，使得经由计算机或其他可编程指令执行设备的处理器执行的指令创建用于实现流程图和/或框图块中指定的功能/动作的机理。

已经出于说明和描述的目的呈现了本公开内容的描述，但是本公开内容的描述并不旨在为穷举性的或者限于所公开的形式的公开内容。在不脱离本公开内容的范围和精神的情况下，许多修改和变型对于本领域普通技术人员将是明显的。选择和描述本文的公开内容的各方面是为了最佳地解释本公开内容的原理和实际应用，并且使得本领域的其他普通技术人员能够理解具有适于所设想的特定用途的各种修改的本公开内容。

出于本公开内容的目的，与所公开的技术相关联的每个处理可以连续地并且由一个或更多个计算装置执行。处理中的每个步骤可以由与其他步骤中使用的计算装置相同或不同的计算装置执行，并且每个步骤不必一定由单个计算装置执行。

虽然已经以特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，在所附权利要求中限定的主题不必限于以上所描述的特定特征或动作。而是，以上所描述的特定特征和动作被公开作为实现权利要求的示例形式。

虽然本说明书包含许多细节，但是这些细节不应被解释为对所要求保护的公开内容的范围的限制，而是作为特定实现方式所特有的特征的描述。本说明书中在分开的实现方式的上下文中所描述的某些特征也可以在单个实现方式中以组合的方式实现。相反，在单个实现方式的上下文中描述的各个特征也可以在多个实现方式中单独地或以任何合适的子组合的方式来实现。此外，虽然特征可以如上描述为以某种组合起作用并且甚至最初如此要求保护，但是在一些情况下，来自所要求保护的组合中的一个或更多个特征可以从组合中删除，并且所要求保护的组合可以涉及子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应当被理解为要求以所示的特定顺序或以连续顺序执行这样的操作，或者执行所有示出的操作以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实现方式中的各种系统部件的分离不应被理解为在所有实现方式中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或者打包到多个软件产品中。

已经描述了多个实现方式。然而，将理解，在不脱离本公开内容的精神和范围的情况下可以进行各种修改。例如，可以使用上面示出的各种形式的流程，其中，步骤被重新排序、添加或移除。因此，其他实现方式在所附权利要求的范围内。

要求保护的内容见权利要求书。

Claims

1.一种计算机实现的方法，包括：

由数据处理设备针对多个视频生成多个场景图，其中，生成所述多个场景图包括：

由所述数据处理设备从所述多个视频中的每个视频中提取多个关键帧，每个关键帧包括与所述关键帧在所述视频中的出现对应的时间戳以及对包括所述关键帧的所述视频的指引；以及

由所述数据处理设备针对所述多个关键帧中的每个关键帧生成针对所述关键帧的场景图，包括：

通过机器学习模型识别所述关键帧中的多个对象；

通过所述机器学习模型提取关系特征，所述关系特征限定所述关键帧中的多个对象中的第一对象与不同的第二对象之间的关系；以及

通过所述机器学习模型根据所述第一对象、所述第二对象和所述关系特征生成针对所述关键帧的场景图，所述场景图包括一组节点和将所述一组节点中的节点子集互连的一组边，其中，所述第一对象由所述一组节点中的第一节点表示，所述第二对象由所述一组节点中的第二节点表示，并且所述关系特征是连接所述第一节点与所述第二节点的边；

由所述数据处理设备接收针对所述多个视频中的视频的自然语言查询请求，其中，所述自然语言查询请求包括指定两个或更多个特定对象以及所述两个或更多个特定对象之间的关系的多个项；

由所述数据处理设备针对所述自然语言查询请求生成查询图；

由所述数据处理设备从所述多个场景图中识别所述多个场景图中与所述查询图匹配的一组场景图；

由所述数据处理设备根据经识别的一组场景图来确定所述多个视频中的一组视频，每个视频包括所述一组场景图中的至少一个场景图；以及

由所述数据处理设备提供所述一组视频以用于在客户端装置上显示。

2.根据权利要求1所述的方法，还包括：

由所述数据处理设备提供一组关键帧以用于在所述客户端装置上显示，所述一组关键帧与所述多个场景图中与所述查询图匹配的所述一组场景图对应。

3.根据权利要求1所述的方法，还包括对所述多个视频中的所述一组视频进行排序，所述排序包括：

针对所述一组视频中的每个视频，基于所述一组关键帧中的包括对所述视频的指引的关键帧的数目来确定相关性分数；以及

根据各个相关性分数对所述一组视频进行排序。

4.根据权利要求1所述的方法，其中，所述自然语言查询请求是针对特定视频内的关键帧的并且指定所述两个或更多个特定对象以及所述关键帧中的所述两个或更多个特定对象之间的关系。

5.根据权利要求1所述的方法，还包括：

由所述数据处理设备根据所述多个场景图生成场景图索引，

其中，识别所述多个场景图中与所述查询图匹配的所述一组场景图包括搜索所述场景图索引。

6.根据权利要求1所述的方法，其中，识别所述关键帧中的所述多个对象包括：

通过所述机器学习模型提取一组边界框，每个边界框包围所述关键帧中的对象；以及

通过所述机器学习模型识别所述边界框内的对象。

7.一种或更多种非暂态计算机可读介质，其耦合至一个或更多个处理器并且其上存储有指令，所述指令在由所述一个或更多个处理器执行时使所述一个或更多个处理器执行包括下述的操作：

针对多个视频生成多个场景图，其中，生成所述多个场景图包括：

从所述多个视频中的每个视频中提取多个关键帧，每个关键帧包括与所述关键帧在所述视频中的出现对应的时间戳以及对包括所述关键帧的所述视频的指引；以及

针对所述多个关键帧中的每个关键帧生成针对所述关键帧的场景图，包括：

通过机器学习模型识别所述关键帧中的多个对象；

接收针对所述多个视频中的视频的自然语言查询请求，其中，所述自然语言查询请求包括指定两个或更多个特定对象以及所述两个或更多个特定对象之间的关系的多个项；

针对所述自然语言查询请求生成查询图；

从所述多个场景图中识别所述多个场景图中与所述查询图匹配的一组场景图；

根据经识别的一组场景图来确定所述多个视频中的一组视频，每个视频包括所述一组场景图中的至少一个场景图；以及

提供所述一组视频以用于在客户端装置上显示。

8.根据权利要求7所述的计算机可读介质，还包括：

提供一组关键帧以用于在所述客户端装置上显示，所述一组关键帧与所述多个场景图中与所述查询图匹配的所述一组场景图对应。

9.根据权利要求7所述的计算机可读介质，还包括对所述多个视频中的所述一组视频进行排序，所述排序包括：

根据各个相关性分数对所述一组视频进行排序。

10.根据权利要求7所述的计算机可读介质，其中，所述自然语言查询请求是针对特定视频内的关键帧的并且指定所述两个或更多个特定对象以及所述关键帧中的所述两个或更多个特定对象之间的关系。

11.根据权利要求7所述的计算机可读介质，还包括：

根据所述多个场景图生成场景图索引，

12.根据权利要求7所述的计算机可读介质，其中，识别所述关键帧中的所述多个对象包括：

通过所述机器学习模型识别所述边界框内的对象。

13.一种系统，包括：

一个或更多个处理器；以及

非暂态计算机可读介质，其耦合至所述一个或更多个处理器并且其上存储有指令，所述指令在由所述一个或更多个处理器执行时使所述一个或更多个处理器执行包括下述的操作：

通过机器学习模型识别所述关键帧中的多个对象；

针对所述自然语言查询请求生成查询图；

提供所述一组视频以用于在客户端装置上显示。

14.根据权利要求12所述的系统，还包括：

15.根据权利要求12所述的系统，还包括对所述多个视频中的所述一组视频进行排序，所述排序包括：

根据各个相关性分数对所述一组视频进行排序。

16.根据权利要求12所述的系统，其中，所述自然语言查询请求是针对特定视频内的关键帧的并且指定所述两个或更多个特定对象以及所述关键帧中的所述两个或更多个特定对象之间的关系。

17.根据权利要求12所述的系统，还包括：

根据所述多个场景图生成场景图索引，

18.根据权利要求12所述的系统，其中，识别所述关键帧中的所述多个对象包括：

通过所述机器学习模型识别所述边界框内的对象。