CN111602141A

CN111602141A - 影像视觉关系检测方法和系统

Info

Publication number: CN111602141A
Application number: CN201880067682.4A
Authority: CN
Inventors: 任桐炜; 郭竞帆; 蔡达成; 尚辛迪
Original assignee: National University of Singapore
Current assignee: National University of Singapore
Priority date: 2017-08-17
Filing date: 2018-08-17
Publication date: 2020-08-28
Anticipated expiration: 2038-08-17
Also published as: US11580745B2; US20210133461A1; CN111602141B; SG11202000855VA; WO2019035771A1

Abstract

公开了用于检测影像中的视觉关系的方法和系统。该方法包括：将影像序列分解为多个分段；针对每个分段，检测该分段的帧中的对象；在分段上跟踪检测到的对象，以针对该分段形成对象轨迹的集合；针对检测到的对象，提取对象特征；针对对象轨迹的集合中的对象轨迹对，提取相关性特征，该相关性特征指示对应于该对象轨迹对的对象之间的关系；利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征，形成针对对象轨迹对的关系特征向量；以及基于关系特征向量产生分段关系预测结果的集合；通过合并来自不同分段的分段预测结果，产生针对该影像序列的视觉关系实例的集合；并基于该视觉关系实例的集合产生视觉关系检测结果的集合。

Description

影像视觉关系检测方法和系统

技术领域

本公开涉及影像分析，尤其涉及影像序列中的对象之间的视觉关系的检测。

背景技术

在多媒体分析中，弥合视觉和语言之间的鸿沟至关重要，其吸引了大量研究工作，包括视觉概念注释、带标注的语义描述，以及视觉问题解答。视觉关系检测(VRD)，最近致力于提供对对象以外的视觉内容的更全面理解，旨在捕获对象之间的多种互动。它可以有效地支持众多视觉语言任务，诸如标注、视觉搜索，和视觉问题解答。

视觉关系包含一对通过边界框定位的对象，对象之间通过谓语连接。图1a示出了视觉关系的若干个示例，其中两个对象可以通过多种谓语连接，同一谓语可以连接具有不同表象的不同对象对。如图1a所示，第一人112和第一只狗114之间的视觉关系、第二人122和第二只狗124之间的视觉关系、人132和摩托车134之间的视觉关系，以及人142和马144之间的视觉关系，这些视觉关系可以通过VRD确定。在本公开中，我们使用术语关系三元组来表示一种类型的视觉关系，该视觉关系由<主体、谓语、对象>的唯一组合作为三元组表示。由于组合的复杂性，针对关系三元组的可能的空间比对象的空间大得多。因此，在对象检测中可以获得显著性能的现有方法不适用于VRD。已经提出了若干种用于VRD的方法。但是，它们都仅适用于静态图像。与静态图像相比，影像提供了更自然的特征的集合来检测视觉关系，诸如对象之间的动态互动。

最近的研究工作集中于图像中的VRD。普遍认识到，VRD的基本挑战在于如何通过从很少的训练示例中学习来建模和预测大量的关系。为了解决该问题，大多数现有方法在视觉关系三元组中分别预测主体，谓语和对象，从而将复杂度从O(N²K)降低到O(N+K)，其中N和K分别是对象和谓语的数量。其中一些方法通过利用语言先验和正则化关系嵌入空间来进一步提高性能。提取关系相关的特征是VRD的另一个关键。最近的研究已使用基于坐标或二进制掩码的特征来增强检测空间关系的性能。关系三元组的部件之间的视觉特征级的连接也已被研究，以利用附加的统计依赖性，但需要O(NK)参数以进行建模。

影像对象检测旨在检测属于预定义类别的对象，并使用给定影像中的边界框轨迹将其定位。最先进的方法通过在图像对象检测和多对象跟踪中集成最新技术来解决此问题。最近成熟的深度神经网络已经在图像对象检测中获得了成熟的性能。然而，由于影像中存在模糊、摄像机运动和遮挡的情况，影像中的对象检测仍然受到准确性较低的困扰，这妨碍了通过边界框轨迹来进行准确的对象定位。另一方面，由于对象检测器的漏检率较高，具有检测跟踪策略的多对象跟踪倾向于产生较短的轨迹，因此开发了其他合并算法以获得时间上更一致的对象轨迹。

发明内容

根据本公开的第一方面，提供了一种检测影像序列中的视觉关系的影像处理方法。该方法包括将影像序列分解为多个分段；针对每个分段，检测该分段的帧中的对象；在该分段上跟踪检测到的对象，以形成针对该分段的对象轨迹的集合；针对检测到的对象，提取对象特征；针对该对象轨迹的集合中的对象轨迹对，提取相关性特征，该相关性特征指示对应于该对象轨迹对的对象之间的关系；利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征，形成针对对象轨迹对的关系特征向量；以及基于该关系特征向量产生分段关系预测结果的集合；通过合并来自不同分段的分段预测结果，产生针对该影像序列的视觉关系实例的集合；以及基于该视觉关系实例的集合产生视觉关系检测结果的集合。

多个分段可以是重叠的分段。

视觉关系检测结果可以包括关系主体、关系谓语和关系对象的指示的集合，其中，该关系主体和关系对象是检测的对象，并且该关系谓语指示该关系主体和关系对象之间的关系。

对象轨迹可以包括在该分段的多个帧中的每一帧中的边界框，以及贯穿该分段的多个帧的边界框轨迹。

对应于该对象轨迹对的对象之间的关系，可以包括对应于该对象轨迹对的对象对之间的相对大小、相对位置和相对运动中的至少一个。

在一个实施例中，基于该视觉关系实例的集合产生该视觉关系检测结果的集合包括，根据置信度得分对该视觉关系实例进行排序，并选择具有最高置信度得分的视觉关系实例作为该视觉关系检测结果。

在一个实施例中，合并来自不同分段的分段预测结果包括，应用贪婪算法以合并贯穿连续的分段的对象轨迹对。

在一个实施例中，基于关系特征向量产生分段关系预测结果的集合包括，将softmax函数应用于关系特征向量的集合。

在一个实施例中，检测分段的帧中的对象包括，检测属于预定义类别的集合中的一个类别的对象。

视觉关系可以包括至少一种动态关系，其变化贯穿该影像序列。

根据本公开的第二方面，提供了一种影像处理系统。该影像处理系统包括处理器和数据存储装置。该数据存储装置存储能够由处理器操作的计算机可执行指令，用于：将影像序列分解为多个分段；针对每个分段，检测该分段的帧中的对象；在该分段上跟踪检测到的对象，以形成针对该分段的对象轨迹的集合；针对检测到的对象，提取对象特征；针对该对象轨迹的集合中的对象轨迹对，提取相关性特征，该相关性特征指示对应于该对象轨迹对的对象之间的关系；利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征，形成针对对象轨迹对的关系特征向量；以及基于该关系特征向量产生分段关系预测结果的集合；通过合并来自不同分段的分段预测结果，产生针对该影像序列视觉关系实例的集合；以及基于该视觉关系实例的集合产生视觉关系检测结果的集合。

根据又一方面，提供了一种非暂时性计算机可读介质。该计算机可读介质在其上存储了程序指令，该程序指令用于使至少一个处理器执行上述方法的操作。

附图说明

在下文中，将参考附图将本发明的实施例描述为非限制性示例，其中：

图1a示出了两个对象之间视觉关系的若干示例；

图1b示出了根据本发明实施例的方法的影像视觉关系检测结果的示例；

图1c示出了影像中的两个对象之间的随时间变化的视觉关系的示例；

图2是示出了根据本发明实施例的影像处理系统的技术架构的框图；

图3是示出了根据本发明实施例的影像视觉关系检测方法的流程图；

图4a示出了示例性输入影像序列；

图4b示出了示例性输入影像序列，其被分解为多个分段；

图4c示出了针对示例性输入影像序列的分段产生的对象轨迹方案；

图4d示出了针对示例性输入影像序列的分段执行的关系预测；

图4e示出了针对示例性输入影像序列贯穿分段的合并轨迹的过程；

图5示意性地示出了在本发明的实施例中使用的关系预测；

图6a至图6c示出了用于视觉关系检测的定性比较的影像序列；

图7a至图7c分别示出了针对图6a至图6c所示的影像序列通过不同方法检测到的视觉关系实例；

图8a和8b示出了影像视觉关系检测方法的失败示例；以及

图9a至图9c示出了使用根据本发明实施例的方法进行关系标记的示例。

具体实施方式

在本公开中，我们提出了一种新的视觉技术，称为影像视觉关系检测(VidVRD)，以在影像中而不是静态图像(ImgVRD)中进行视觉关系检测。与静态图像相比，影像提供了更自然的特征的集合以检测视觉关系，其中，诸如对象之间的动态互动之类的特征使视觉关系(类似于“A-跟随-B”和“A-朝向-B”)得以在影像中检测到。但是，由于在影像域中准确的对象跟踪和多样的关系表象方面存在困难，因此VidVRD比ImgVRD在技术上更具挑战性。为此，我们提出了一种VidVRD方法，该方法包括对象轨迹方案、短期关系预测，和贪婪关系型关联。此外，我们为VidVRD评估贡献了第一个数据集，其中包含1,000个具有手动标记的视觉关系的影像，以验证我们提出的方法。在此数据集上，与最新的基准相比，我们的方法可获得最佳性能。它可以有效地支持众多视觉语言任务，诸如标注、视觉搜索，和视觉问题解答。

图1b示出了根据本发明实施例的方法的影像视觉关系检测结果的示例。图1b示出了由人152、第一只狗154，和第二只狗156组成的影像序列。

如图1b所示，从影像中的时空内容中提取的运动特征有助于消除相似谓语的歧义，诸如“行走”和“奔跑”。同时，诸如动态关系的一些视觉关系仅在影像中检测到，诸如“狗-跑过-人”和“狗-快于-人”。因此，与ImgVRD相比，影像视觉关系检测(VidVRD)是一项更为通用和可行的工作。VidVRD和ImgVRD之间的另一个重要区别是，影像中的视觉关系通常随时间变化，而图像的视觉关系是固定的。对象可能被遮挡或暂时失帧，这导致视觉关系的发生和消失。即使两个对象始终出现在同一影像帧中，它们之间的互动也可能会暂时变化。

图1c示出了影像中两个对象之间的随时间变化的视觉关系的示例。在图1c所示的影像中，狗162和飞盘164同时出现在t2和t7之间，而它们的互动从追逐变为咬。因此，应该重新定义VidVRD任务以处理视觉关系中的可变性。

为了与ImgVRD的定义一致，我们将VidVRD任务定义如下：给定感兴趣的对象类别的集合

和感兴趣的谓语类别的集合

VidVRD将检测影像中感兴趣的视觉关系

的实例，其中视觉关系实例由关系三元组<主体、谓语、对象>∈

表示，其中主体和对象的轨迹表示为

和

具体地说，

和

是两个边界框序列，在视觉关系的最大持续时间内分别包围主体和对象。在图1c中，给定影像中的两个视觉关系实例可以用关系三元组“狗-追逐-飞盘”和“狗-咬-飞盘”来表示，并且以红色和绿色轨迹将狗和飞盘分别定位于(t2，t4)和(t5，t7)之间。

与ImgVRD相比，VidVRD面临更多的技术挑战。首先，VidVRD需要使用边界框轨迹来定位对象。这相对于为ImgVRD中的每个对象提供边界框要困难得多，因为对象边界框轨迹的准确性受每个帧上对象定位和对象跟踪的性能的影响。我们提出的VidVRD方法通过在影像的每个重叠的短的分段中产生对象轨迹，然后基于预测的视觉关系将它们关联至对象轨迹中，以解决该难题。第二，VidVRD需要在最大持续时间内临时定位视觉关系。为此，我们提出了一种贪婪关联算法，该算法将检测到的视觉关系实例合并至相邻的分段中(若它们具有相同的关系三元组且它们的对象轨迹具有足够高的重叠)。第三，与ImgVRD相比，VidVRD需要预测更多类型的视觉关系，因为某些视觉关系只能在影像中检测到，诸如“A-朝向-B”和“A-快于-B”。为了进行有效的关系预测，我们提出了一种关系预测模型，该模型从主体/对象轨迹对中提取多个特征。这些特征包括表象特征、运动特征，和相关特征。我们将这些特征编码为关系特征，并使用单独的主体预测器、谓语预测器，和对象预测器预测视觉关系。

据我们所知，尽管存在若干ImgVRD数据集，但没有VidVRD数据集。因此，我们构建用于评估的VidVRD数据集。我们设计了谓语描述机制，并从ILSVRC2016-VID构建了数据集。该数据集包含1,000个具有手动标记的视觉关系和对象边界框轨迹的影像。我们在数据集上验证了我们提出的VidVRD方法的性能。实验结果表明，我们的方法优于最新的基准。

VidVRD的主要挑战是处理视觉关系随时间的变化。为此，我们提出了一种VidVRD方法，该方法检测短期内的视觉关系实例，然后通过关联算法形成影像中的整体视觉关系实例。该提出的方法背后的假设是，基本视觉关系总是能够在短持续时间内识别，而更复杂的关系可以从基本视觉关系的序列中推断出来。检测短期内的视觉关系还可以帮助检测影像中视觉关系的出现和消失，并减轻长持续时间的直接分析的计算负担。以下的描述介绍了该方法的细节以及用于实施该方法的系统。

图2是示出了根据本发明实施例的影像处理系统的技术架构200的框图。通常，在一台计算机或多台计算机上实施根据本发明实施例的影像视觉关系检测方法，每台计算机具有数据处理单元。如图2所示的框图示出了计算机的技术架构200，其适于实施本文中的一个或多个实施例。

技术架构200包括处理器222(其可以被称为中央处理器单元或CPU)，其与存储器装置进行通信，该存储器装置包括辅助存储器224(诸如磁盘驱动器)、只读存储器(ROM)226、随机存取存储器(RAM)228。处理器222可以实施为一个或多个CPU芯片。技术架构220还可以包括输入/输出(I/O)装置230和网络连接装置232。技术架构200还包括活动表存储装置240，其可以实施为硬盘驱动器或其他类型的存储装置。

该辅助存储器224通常包括一个或多个磁盘驱动器或磁带驱动器，并用于数据的非易失性存储，以及在RAM 228不足以容纳所有工作数据的情况下，用作溢出数据存储装置。辅助存储器224可以用于存储程序，当该程序被选择执行时被加载至RAM 228中。在该实施例中，该辅助存储器224具有影像序列分段模块224a、对象检测模块224b、对象跟踪模块224c、关系特征提取模块224d、关系建模模块224e、关联模块224f，和影像视觉关系模块224g，该影像视觉关系模块224g包括可由处理器222操作以执行本公开的方法的多种操作的非暂时性指令。如图2所示，模块224a-224g是不同的模块，这些模块执行由影像处理系统实施的各自的功能。应当理解，这些模块之间的边界仅是示例性的，并且替代实施例可以合并这些模块，或强制对这些模块的功能进行替代分解。例如，本文讨论的这些模块可以分解为子模块，以作为多个计算机步骤执行，并且可选地在多台计算机上执行。此外，替代实施例可以组合特定模块或子模块的多个实例。还应当理解，尽管本文描述了模块224a-224g的软件实施方式，但是它们可以可替代地被实施为一个或多个硬件模块(诸如，现场可编程门阵列，或专用集成电路)，其包括实施与软件中实施的功能等效的电路。ROM 226用于存储指令以及可能在程序执行期间读取的数据。在某些情况下，该辅助存储器224、RAM 228和/或ROM 226可以称为计算机可读存储介质和/或非暂时性计算机可读介质。

I/O装置230可以包括打印机、影像监视器、液晶显示器(LCD)、等离子显示器、触摸屏显示器、键盘、按键、开关、转盘、鼠标、轨迹球、语音识别器、读卡器、纸带阅读器，或其他众所周知的输入装置。

网络连接装置332可以采用调制解调器、调制解调器组、以太网卡、通用串行总线(USB)接口卡、串行接口、令牌环卡、光纤分布式数据接口(FDDI)卡、无线局域网(WLAN)卡、(使用诸如码分多址(CDMA)、全球移动通信系统(GSM)、长期演进(LTE)、全球微波互联接入(WiMAX)、近场通信(NFC)、射频识别(RFID)等协议促进无线通信的)无线电收发器卡，和/或其他空中接口协议无线电收发器卡，以及其他众所周知的网络装置的形式。这些网络连接装置232可以使得处理器222能够与因特网，或一个或多个内部网进行通信。通过这种网络连接，可以想到，处理器222可以在执行本文描述的方法操作的过程中从网络接收信息，或者可以向网络输出信息。这种信息通常表示为待处理器222执行的指令序列，例如，其可以以载波中体现的计算机数据信号的形式，从网络接收并输出至网络。

处理器222执行指令、代码、计算机程序、脚本，这些指令、代码、计算机程序、脚本是处理器从硬盘、软盘、光盘(这些多种基于磁盘的系统都可以被视为辅助存储器224)、闪存驱动器、ROM 226、RAM 228，或网络连接装置232获得的。虽然仅示出了一个处理器222，但是可以存在多个处理器。因此，尽管可以将指令讨论为由处理器执行，但是指令可以被同时执行，串行方式执行，或以其他方式由一个或多个处理器执行。

应当理解，通过编程和/或将可执行指令加载至技术架构200上，改变CPU 222、RAM228，和ROM 226中的至少一个，将技术架构200部分地转变为具有本公开所教导的新功能的特定用途的机器或设备。对于电气工程和软件工程领域来说，至关重要的是，该功能可以通过将可执行软件加载至计算机中来实施，可以通过众所周知的设计规则转换为硬件实施。

尽管参照计算机描述了技术架构200，但是应当理解的是，该技术架构可以由彼此通信以协作执行任务的两台或多台计算机组成。例如但不作为限制，可能以允许并发处理和/或并行处理应用的指令的方式，对应用进行划分。替代地，可能以允许由两台或更多台计算机并发处理和/或并行处理数据集的不同部分的方式，来划分由应用处理的数据。在实施例中，技术架构200可以采用虚拟化软件来提供未直接绑定至技术架构200中的多台计算机的多个服务器的功能。在实施例中，可以通过在云计算环境中执行应用和/或多个应用来提供以上公开的功能。云计算可以包括使用动态可扩展的计算资源，经由网络连接来提供计算服务。云计算环境可以由企业建立和/或可以根据需要从第三方提供商处租用。

图3是示出了根据本发明实施例的影像视觉关系检测方法的流程图。方法300在图2所示的影像处理系统200上执行。方法300在包括多个帧并且包括多个对象的素材的影像序列上执行。

在步骤302中，影像处理系统200的影像序列分段模块224a将输入影像序列分解为多个分段。该影像序列被划分为多个分段，这些分段的长度为L，分段与分段之间存在L/2个重叠帧。例如，L可以取值为30。

图4a示出了关于根据本发明实施例的影像视觉关系检测方法的示例输入影像序列。示例输入影像序列410示出了在靠近海滩的海中的人和两只狗。示例输入影像序列410包括8个帧，但是，应当理解，所示出的帧是出于说明性目的，并且可以使用具有不同数量的帧的影像序列，并且处理中的分段长度也可以改变。

图4b示出了示例输入影像序列，其被分解成多个分段。在该示例中，示例输入影像序列410被分解为3个分段：第一分段412、第二分段414，和第三分段416。每个分段包括4帧。每个分段与前一个分段和后一个分段重叠。第二分段414的前两帧对应于第一分段412的后两帧。第三分段416的前两帧对应于第二分段414的后两帧。因此，分段与分段之间存在2帧的重叠。在该示例中，每个分段的长度为L＝4，并且分段之间存在L/2＝2帧的重叠。

现在回到图3，在步骤304中，影像处理系统200的对象检测模块224b检测影像序列的每个分段的帧中的对象。在示例实施例中，在我们的数据集中使用了针对35个类别的对象检测器来检测分段的帧中的对象。使用如Shaoqing Ren,Kaiming He,Ross Girshick，和Jian Sun，在神经信息处理系统进展，2015IEEE，91-99的：“Faster r-cnn:Towards real-time object detection with region proposal networks”中所描述的Faster-RCNN检测器训练对象检测器。使用如Kaiming He、Xiangyu Zhang、Shaoqing Ren，和Jian Sun，在，IEEE计算机视觉和模式识别会议2016，IEEE，770-778的：“Deep residual learning forimage recognition”中描述的ResNet101进行训练。

在步骤306中，影像处理系统200的对象跟踪模块224c跟踪检测到的对象，以在每个分段中形成轨迹。使用Martin Danelljan、Gustav Hager、Fahad Khan，和MichaelFelsberg在英国机器视觉会议，诺丁汉，2014年9月1日-5日，BMVA出版社的：“Accuratescale estimation for robust visual tracking”中的描述的稳定视觉跟踪的有效实现，贯穿分段跟踪帧级别的检测结果。为了减少重叠方案的数量，我们对产生的轨迹执行vloU>0.5的非最大抑制(non-maximum suppression，NMS)，其中vloU表示两个轨迹的并集上的体积交集。结果，我们平均每分段产生19.7个对象轨迹的方案。

图4c示出了针对该示例输入影像序列的分段产生的对象轨迹方案。如图4c所示，针对每个分段形成对象轨迹，对象轨迹形成为一系列边界框，该边界框与在每个序列的帧中检测到的对象相对应。

如图4c中所示，第一分段412具有第一只狗的轨迹432、冲浪板或滑板的轨迹434、第一人的轨迹436、第二人的轨迹438和第二只狗的轨迹440。每个轨迹包括在第一分段412的帧中的一系列边界框。第一分段412中的每个轨迹贯穿第一分段412的所有帧。第二分段414具有第一只狗的轨迹432、冲浪板或滑板的轨迹434、第一人的轨迹436、第二人的轨迹438和第二只狗的轨迹440。第二人的轨迹438和第二只狗的轨迹440在第二分段414的大约一半处结束。第一只狗的轨迹432、冲浪板或滑板的轨迹434，以及第一人的轨迹436贯穿第二分段414的所有帧。第三分段416具有第一只狗的轨迹432、冲浪板或滑板的轨迹434以及第一人的轨迹436。第一人的轨迹在第三分段416的一半处结束，第一只狗的轨迹432和冲浪板或滑板的轨迹434贯穿第三分段416的所有帧。

现在回到图3，在步骤308中，影像处理系统200的关系特征提取模块224d提取每个分段中的检测到的对象的特征。

假设

是分段中的对象轨迹对的方案，每个方案都以一系列边界框的形式。预测关系三元组<主体、谓语、对象>涉及识别

和

的对象类别，以及识别它们之间的互动。在实践中，由于关系的数量巨大，并且训练数据不足，不可能为每个单一的关系学习单独的预测器。我们的模型学习单独的主体预测器、谓语预测器和对象预测器，以减少建模复杂性并利用多种关系中的通用部件。该模型还利用了丰富的关系功能，该功能结合了主体和对象的表象特征和运动特征以及它们之间的相关特征。

在步骤308中，提取用于

和

的对象特征以描述它们的表象特征和运动特征。特别地，我们首先使用分段中的定向梯度直方图(HOG)、光流直方图(HOF)和运动边界直方图(MBH)提取改进的密集轨迹(iDT)特征，从而捕获对象的运动特征和低水平视觉特征。为了对特征进行编码，我们使用100000个随机采样的特征为iDT中的四种描述符类型中的每一种训练了一个码本。每个码本的大小设置为1000。然后，将针对

的对象特征计算为包含在

中的iDT特征包，其中iDT的一半位于

区域之内被认为是被封闭的。此外，我们在对象特征后面附加分类特征，该分类特征是由深度神经网络预测的分类概率(即N个类别)的N-d向量，以对视觉表象中的语义属性进行编码。

图4d示出了对示例输入影像序列的分段执行的关系预测。如图4d所示，关系特征提取450包括，提取对象特征452、轨迹特征454，和密集轨迹特征455。相关性特征456也被提取。关系建模458用于根据相关性特征456确定短期关系460。

现在回到图3，在步骤310中，影像处理系统200的关系特征提取模块224d提取每个分段中对象轨迹对的相关性特征。为了提取

和

之间的相关特征，我们提出了一个相关性特征，该特征描述了两个对象之间的相对位置、大小和运动。

和

分别表示为

在时刻t的中心点和大小(相对于

)，我们将描述符：相对位置ΔC、相对大小ΔS和相对运动ΔM计算为：

ΔM＝(ΔC²-ΔC¹，...，ΔC^L-ΔC^L-1). (1)

为了表征丰富的空间关系，诸如“后方”、“较大”、“超过”以及它们的多种组合(诸如“过去”)，我们使用字典学习为每种类型的描述符训练码本。具体来说，对于每个码本，我们将大小设置为1000，并随机采样100000个描述符进行训练。可以将所获得的码本中的元素解释为原子相关特征，从而可以通过它们的线性组合来表示复杂的相关特征。对于

和

对，被提议的相关性特征是相对于对应的码本的三个稀疏表示的串接。

在步骤312中，影像处理系统200的关系建模模块224e形成针对对象轨迹对的关系特征向量。针对对象轨迹对的方案的总体关系特征向量是，

和

的对象特征及其相关性特征的串接。

在步骤314中，影像处理系统200的关系建模模块224e针对每个分段产生关系预测结果的集合。给定一个关系特征，我们的关系模型通过整合主体预测器、谓语预测器和对象预测器的分数来预测可能的关系三元组。我们的关系建模的一种方法是在单独的训练标准下训练预测器。但是，以这种方式训练的预测器将在独立的量表上产生不同类型的分数，这使得综合分数对主体、谓语和对象的同时出现的判别力较小。例如，不可能的关系三元组(诸如“猫-驾驶-汽车”)的分数可能无法保证低于其他可能的关系三元组的分数。

为了产生良好的关系排序得分，我们在统一的训练损失下共同训练预测器。尤其是，我们通过乘法来整合分数，并制定了训练目标，以在训练数据中对观察到的关系

进行分类。

其中，f是特定关系<s_i,p_j,o_k>的关系特征，并且P^s，P^p，P^o分别是主体预测器、谓语预测器和对象预测器。由于我们只对最高关系预测分数感兴趣，因此我们使用了softmax损失，该损失最近在理论和实践上都被证明在这种情况下是有效的。在实验中，我们将保留每对

的前20个预测结果，以及每个分段的前200个预测结果。

为了获得训练样本，我们对与地面真实情况对重叠的对象轨迹方案对进行采样，其中对象轨迹方案对中的每个轨迹均与vloU中大于0.5的地面真实情况重叠，并提取针对每对的关系特征。

在步骤316中，影像处理系统200的关联模块224f贯穿分段而合并关系预测结果以形成视觉关系实例。在得到所有对象轨迹方案对的关系预测结果后，我们采用关系关联算法对短期内检测到的关系进行合并。假设从第m个分段至第n个分段检测到一系列短期视觉关系实例

其具有相同的关系三元组<s,p,o>，并在连续的分段中具有足够的重叠，那么我们的目标是将它们合并为具有以下可信度得分的单个视觉关系实例

其中，c^t是由我们的关系模型预测的短期得分。我们为关系关联提出了一种贪婪算法，该算法重复合并在两个连续分段中重叠的两个最一致的视觉关系实例。贪婪策略可以帮助产生更长的视觉关系实例，从而使每个关系实例的主体和对象在时间上更准确地定位。我们还对两个相关轨迹的重叠区域中的边界框求平均，以获得对

的可靠估计。用于关系关联的伪代码在算法1中给出。

图4e示出了针对示例输入影像序列贯穿分段而合并轨迹的过程。轨迹470包括第一只狗的轨迹432、冲浪板或滑板的轨迹434、第一人的轨迹436、第二人的轨迹438以及第二只狗的轨迹440。在该示例中，在区域472中存在重叠的轨迹。在重叠区域472中，第一只狗的轨迹432的重叠部分474被平均以形成第一只狗的合并轨迹476，第一人的轨迹436的重叠部分475被平均以形成第一人的合并轨迹478。

图4e还示出了示例输入影像序列410，其具有第一只狗边界框432、冲浪板或滑板边界框434、第一人边界框436、第二人边界框438和第二只狗边界框440。在图4e中还示出了检测到的短期视觉关系480。

再次回到图3，在步骤318中，影像处理系统的影像视觉关系模块224g产生视觉关系检测结果的集合。合并所有可能的视觉关系实例后，我们根据它们的置信度得分

对它们进行排序，并输出最一致的实例，作为影像的视觉关系检测结果。

图5示意性地示出了在本发明的实施例中使用的关系预测。第一对象

的轨迹512和第二对象

的轨迹522用于提取第一对象

的密集轨迹特征514和第二对象

的密集轨迹特征524。如上所述，可以利用HoG、HoF，和MBH来提取密集轨迹特征。使用类别标记提取第一对象

的表象特征516和第二对象

的表象特征526。提取第一对象

和第二对象

的相关特征作为相关性特征530。这些特征被编码为关系特征540。基于关系特征540，针对主体542、谓语544，和对象546的单独的预测器被训练为在softmax 552损失下给出短期关系550。

可以设想，本发明的实施例可以应用于基于关键短语的影像搜索、视觉问题回答(VQA)、影像标注和监测。

当前的搜索引擎仅提供基于关键字的影像搜索。它们无法支持具有复杂语义的用户查询。例如，若用户要搜索有关“野牛追逐狮子”的特定影像并输入短语作为查询，搜索引擎可能会返回有关“狮子追逐野牛”的影像，因为这些影像比关于“野牛追逐狮子”的影像更为常见，并且其描述均包含输入的关键字。相反，在本公开中描述的方法可以自动生成影像的关系级别描述。这些描述可以有效地区分具有相同关键字但含义不同的用户查询，诸如“野牛追逐狮子”和“狮子追逐野牛”。除了基于关键字的查询之外，它还可以支持基于关键短语的用户查询。

本公开中描述的方法可以有效地支持多种VQA任务。例如，它可以在影像上自动注释视觉关系和持续时间。这意味着本发明可以在影像剪辑而不是整个影像上提供细粒度的影像注释。这样，当用户输入“野牛如何追逐狮子”的问题时，VQA系统可以从查询中提取短语“野牛追逐狮子”，并返回标有该短语的影像剪辑。此外，本发明可以在视觉关系中定位对象。因此，当用户问“狮子前面是什么”时，VQA系统可以以“*-狮子--前面”的格式搜索带注释的视觉关系并返回主体。

当前的图像和影像标注方法很大程度上依赖训练集的标签质量。如果训练集中没有与给定影像相似的影像，则无法使用现有的标注方法很好地描述给定影像。本发明可以提供对对象之外的视觉内容的更全面的理解，这有助于在影像上产生更准确的描述。

本公开中描述的方法可以在多种监测情况下使用。例如，交通监测有时需要监测两辆车之间的空间关系以及车辆与交通标志之间的关系，以检测可能的交通违规。对于购物商店中的监测，自动检测顾客和商品之间的某些关系有助于发现和避免非法行为。该方法对于像amazon go这样的没有结账台的新型零售商商店来说也非常有用，该商店需要计算机视觉技术来检测一些常见的购物行为，诸如取货、退换货。

在下文中，描述了影像视觉关系检测方法的评估。我们基于ILSVRC2016-VID的训练集和验证集构建了VidVRD的第一个评估数据集，其中包含带有30个类别的对象的手动标记边界框的影像。经过仔细查看和分析影像内容，我们选择包含清晰的、丰富的视觉关系的1000个影像，而忽略具有单个对象和模糊视觉关系的影像。我们将影像集随机分为训练集和测试集，它们分别包含800个影像和200个影像。

基于1000个影像，我们通过添加经常出现在视觉关系中的5个对象类别(即，人、球、沙发、滑板，和飞盘)来补充30个对象类别。结果得出的所有35个对象类别都描述了独立的对象，即，我们在构建的数据集中不包括对象之间的从属关系，诸如“自行车-具有-车轮”。

接下来，我们构建谓语类别的集合，如下所示：我们直接使用及物动词作为谓语，诸如“骑”；我们将形容词以比较形式(诸如“更快”)转换为谓语；并且我们从摄影机的视角手动定义公共空间谓语以确保一致性，诸如“之上”。不及物动词通常仅描述对象的属性，但它们在关系表示中具有表现力。例如，在视觉关系方面，“走在后方”比“在后方”提供更多的信息。因此，我们还包括不及物动词和空间谓语的组合，以及不及物动词和“with(一起)”的组合，它们表示两个以相同方式起作用的对象。我们在谓语定义中排除介词，因为空间种类的介词可以被已定义的空间谓语覆盖，而其余介词的类型主要与从属关系有关，根据对象定义已将其排除在外。根据以上谓语定义机制和影像内容，我们选择了14个及物动词、3个比较级词、11个空间描述符，和11个不及物动词，这样能够得出160个谓语类别。在我们构建的数据集中，影像中出现132个谓语类别。

8名志愿者为影像标记做出了贡献，另外2名志愿者负责了标记检查。在对象标记阶段，将所有影像中属于另外五个类别的对象以它们的类别和边界框轨迹进行手动标记。在谓语标记阶段，为了考虑视觉关系随时间变化的事实，将所有影像预先分解为30帧的分段，其中有15个重叠的帧。然后，要求标记每个分段中出现的所有谓语，以获取分段级视觉关系实例。为了节省标记工作量，我们只标记了训练集中的典型分段和测试集中的所有分段。对于测试集，具有相同对象对和谓语的相邻分段中的视觉关系实例将自动链接以产生影像级视觉关系实例。

表1示出了构建的VidVRD数据集的统计信息。总体而言，我们的数据集总共包含3,219个关系三元组(即视觉关系类型的数量)，并且测试集具有258个关系三元组，这些关系三元组从未出现在训练集中。在实例级别，测试集包含4835个视觉关系实例，其中432个实例在训练集中看不到。请注意，尽管测试集中的影像已被完全标记，但仍有一小部分内容没有任何视觉关系，因为这些影像的某些部分包含的对象少于两个。根据表1下部的分段级别统计信息，我们数据集中每个分段的视觉关系实例数为9.5，高于视觉关系数据集中每个图像的7.6实例数，这表明我们的数据集被更加彻底地标记。

表1：我们的VidVRD数据集的统计信息。影像级视觉关系实例的数量不适用于训练集，因为它仅被很少地标记。

如上所述，VidVRD的输入是给定的影像，其输出是与定位的对象形成的视觉关系的集合。与ImgVRD相似，若检测到的视觉关系实例包含与地面真实情况相同的关系三元组，并且其主体和对象的边界框轨迹与地面真实情况中的边界框轨迹相比都具有足够高的vloU，则在VidVRD中将该视觉关系实例视为正确的。在我们的实验中，vloU的重叠阈值设置为0.5。

考虑到影像中的对象定位仍然是一个未解决的问题，因此我们还在另一项任务下评估了我们的方法，该任务名为视觉关系标记。它的输入也是给定的影像，但其输出是注释整个影像的视觉关系三元组的集合，而无需对象定位。显然，视觉关系标记减少了对象定位对性能评估的影响，并且可以有效地支持多种基于视觉关系的应用，诸如影像检索和视觉问题解答。

请注意，我们不会对谓语检测和短语检测的任务进行实验。对于谓语检测，它需要使用经定位的对象以及它们的类别作为输入，以预测可能的谓语的集合，这在实践中比关系标记更容易，而在实际应用中则不太可行。对于短语检测，它旨在预测关系三元组的集合，并使用一个边界框轨迹来定位每个完整的视觉关系实例。与关系检测类似，其性能也受影像中对象定位准确性的影响。此外，它比关系检测的挑战性要小，因为它只需要提供联合边界框轨迹即可。

平均精度(Mean average precision，mAP)用作视觉关系检测的评估指标，其广泛用于检测任务。然而，由于数据集的关系标签不完整，因此在先前的VRD评估中放弃了该指标，而在我们的数据集构建中不存在这种关系标签。我们还使用Recall@K(K等于50和100)作为视觉关系检测的评估指标；它表示在前K个检测结果中检测到的正确视觉关系实例的比例。在视觉关系标记中，我们使用Precision@K作为评估指标，以强调标记准确视觉关系的能力。由于在我们的数据集中，每个影像的关系三元组的平均数量为10.34，因此在实验中将K设置为1、5，和10。

关系预测是我们提出的方法中的关键模块，它包括两个主要部件：关系特征提取和关系建模。我们验证它们对我们的方法的性能的影响。

我们提出的方法为VidVRD提取了两种类型的特征：对象特征和相关性特征。前者包括从每个对象轨迹提取的对象类和iDT，后者包括一对对象轨迹之间的相对位置、大小和运动。由于对象分类对于主体和对象预测至关重要，因此我们将其保留在特征提取的部件分析中，并产生三个基准：仅使用对象分类(VidVRD-C)、使用对象分类和iDT(VidVRD-CT)，以及使用对象类和相关性特征(VidVRD-CR)。

表2中的前三行示出了这三个基准的性能。我们可以看到，iDT和相关性特征均可以补充对象分类；以及当融合所有特征时，我们的VidVRD方法可获得最佳性能。其表明我们关系特征的所有部件在VidVRD中均有效。

表2：在视觉关系检测和视觉关系标记上具有不同部件的我们的方法的评估。R@K和P@K分别是Recall@K和Precision@K的缩写。

我们提出的方法通过联合建模探索主体、谓语和对象预测的相互依赖性。它结合了三个部件的预测来优化关系三元组的排序，而不是独立地优化它们的排序。为了验证其有效性，我们通过独立地对主体、谓语和对象进行建模(VidVRD-M)，来产生基准。

表2中的第四行示出了VidVRD-M的性能。我们可以看到，与VidVRD的所有其他变型相比，VidVRD-M的性能在视觉关系检测和视觉关系标记方面均已大大下降。这证实了探索主体、谓语和对象预测之间相互依赖性是必要的。

如上所述，VidVRD的一个技术挑战是VidVRD需要使用边界框轨迹来定位对象。然而，在影像分析中，这仍然是一个未解决的问题。为了验证对象定位对我们性能的影响，我们使用地面真实对象轨迹(VidVRD-Tgf)产生基准。这些对象轨迹在影像分解中被划分为对象轨迹，并且仅保留贯穿分段的轨迹以进行特征提取。注意，在此基准中仅提供了对象轨迹，并且未给出每个轨迹的对象类别。

表2的最后一行示出了基准的性能。我们看到地面真实对象轨迹可以明显改善视觉关系检测的性能，但是由于其输出不需要对象定位，因此只能稍微改善视觉关系标记的性能。它表明对象定位仍然是VidVRD中的主要限制。

我们将我们提出的方法与四种最新方法的表现进行比较：视觉短语(VisualPhrase，VP)(Mohammad Amin Sadeghi和AN Farhadi.2011.“Recognition using visualphrases”,IEEE计算机视觉和模式识别会议.IEEE,1745-1752)，Lu's Only V(Lu's-V)和Lu's(它们在Cewu Lu,Ranjay Krishna,Michael Bernstein,和Li Fei-Fei.2016.“Visualrelationship detection with language priors”,欧洲计算机视觉会议.Springer,852-869中都有描述)，以及VTransE(Hanwang Zhang,Zawlin Kyaw,Shih-Fu Chang,和Tat-SengChua.2017，“Visual translation embedding network for visual relationdetection”arXiv:1702.08319(2017)。由于这些方法都针对ImgVRD，因此它们仅着眼于静态图像的特征提取，而忽略了影像中的动态特征。此外，大多数方法仅保留每个对象对的最重要一个的可信关系预测，以在不完整的标记评估数据集(如视觉关系数据集和视觉基因组)上获得较高的查全率。

为了合理比较，我们扩展了这些方法以满足VidVRD对构建数据集的要求。首先，我们将这些方法中的原始特征替换为在我们方法中的对象轨迹上提取的关系特征。具体地，相关性特征未在VP中使用，因为其着眼于使用整个边界框来定位每个视觉关系实例，而不是为主体和对象提供两个单独的边界框，因此，主体和对象之间的相关性不适用于VP。第二，我们保留每个对象对具有最高置信度的多个关系预测，以避免在完全标记的数据集上产生较低的查全率。在我们的实验中，我们将每个对象对的保留关系预测数设置为20，这与我们方法中的设置相同。第三，我们将这些方法的分段级关系预测与我们的贪婪关系关联策略相关联，并产生最终的影像视觉关系。

图6至9示出了VidVRD方法与其他方法比较的定性结果，下表3显示了量化结果。

表3：针对视觉关系检测和视觉关系标记的不同方法的评估。

图6a至6c示出了用于视觉关系检测的定性比较的影像序列。图6a示出了具有4只斑马602、604、606、608的影像序列。图6b示出了具有人612和狗614的影像序列。图6c示出了具有三头牛632、634、636的序列。

图7a至7c示出了分别针对图6a至6c所示的影像序列通过不同方法检测到的视觉关系实例。示出前100个结果中的正确视觉关系实例，并在其前面用括号标记其排序。注意，由于空间限制，未示出对象定位结果，但是要求它们对于地面真实对象轨迹来说都具有足够高的vloU。

图8a和8b示出了影像视觉关系检测方法的失败示例。图8a示出了骑自行车804的第一人802与在远处的第二人806的影像序列，以及通过VidVRD方法和使用地面真实对象轨迹的VidVRD方法(VidVRD-Tgt)检测到的影像视觉关系

图8b示出了飞机812和船只814的影像序列，以及通过VidVRD方法和使用地面真实对象轨迹的VidVRD方法(VidVRD-Tgt)检测到的影像视觉关系

图9a至图9c示出了使用根据本发明实施例的方法进行的关系标记的示例。示出了关系标记的前5个结果，并且正确结果和错误结果分别用勾号和叉号标记。

1)我们的方法在视觉关系检测和视觉关系标记方面均优于最新的基准。尤其是针对视觉关系检测，与最高基准(Lu’s)相比，我们的方法在mAP和Recall@100上的表现分别提高了7.69％和5.92％；以及在视觉关系标记上，与最高基准(VP)相比，我们的方法在Precision@1方面提高了6.5％。

2)我们的关系特征能够帮助所提出的方法和所有基准有效地检测影像中的特定视觉关系。例如，我们的方法与四个基准一起检测了图7a中的视觉关系“斑马-跟随-斑马”。它需要使用动态影像特征来区分谓语从“跟随”到“站立(在)(...的)左边”的不同。图7b中所示为说明我们的关系特征有效性的另一示例，它示出了成功地检测到人的状态从“站立”(排序(7))到“行走”(排序(9))的变化，以及狗的行为从“观察”(排序(33))到“玩耍”(排序(13))的变化。

3)在我们的方法中使用的对象轨迹方案能够提供近似的对象位置，这有助于检测粗略的空间关系。图7c示出了我们的方法的有效性，其中正确检测了与主体的动作相结合的10个空间关系。然而，不准确的对象定位会妨碍需要细粒度的位置描述的视觉关系实例的检测，诸如“朝”和“超过”。图8a和8b示出了两个示例，这些示例说明了我们的方法无法检测到视觉关系“单车-移向-人”和“飞机-超过-船只”。若我们将地面真实对象轨迹作为输入(即表2中的VidVRD-Tgt)，则可以正确检测到这些视觉关系。此外，从图9a至9c中我们可以看到，准确的对象定位可以帮助检测更多的视觉关系实例并改善排序。

由于收集和标记所有可能的关系三元组不切实际，因此有前景的VidVRD方法应该能够预测不可见的视觉关系。考虑到这一点，我们将我们提出的方法与零样本学习(zero-shot learning)设置的基准进行了比较。如前所述，我们的测试集包含1011个关系三元组中的258个，这258个关系三元组从未出现在我们的训练集中，例如“狗-坐在后面-人”。这意味着视觉关系检测器看不到25.5％的关系三元组。

我们将零样本结果报告在表4中。VP不包括在比较中，因为它只能检测看得见的视觉关系三元组，并且不适用于零样本学习。我们可以看到我们的方法大大超过了仅使用视觉特征的基准：Lu’s-V和VTransE，且在利用语言先验的视觉关系检测的mAP中稍差于Lu’s。此外，与表3相比，尽管随机猜测的效果甚至更差(例如Recall@100小于0.062％)，但所有方法的表现均急剧下降。例如，我们的方法，视觉关系检测在Recall@100方面下降了6.44％，视觉关系标记在Precision@方面1下降了38.89％。其表明，在不可见的关系比率高的情况下，零样本学习具有挑战性。

表4：针对零样本视觉关系检测和视觉关系标记的不同方法的评估。请注意，VP不适用于零样本学习，因为它只能检测完整的关系。

如上所述，已经提出了一种新的视觉工作，称为VidVRD，其目的是检测影像中以关系三元组和对象轨迹形式的所有视觉关系实例。为了处理VidVRD中的技术挑战，我们提出了一种包括对象轨迹方案、关系预测，和贪婪关系型关联的方法。此外，我们构建了VidVRD数据集，其包含1000个具有手动标记的视觉关系的影像。数据集上的实验结果表明，我们的方法在视觉关系检测和视觉关系标记方面均优于目前的基准。

尽管前面的说明书部分已经描述了示例性实施例，但是本领域技术人员应当理解，可以在本发明的范围和精神内作出实施例的多种变型。

Claims

1.一种检测影像序列中视觉关系的影像处理方法，所述方法包括：

将所述影像序列分解为多个分段；

针对每个分段，

检测所述分段的帧中的对象；

在所述分段上跟踪所述检测到的对象，以形成针对所述分段的对象轨迹的集合；

针对所述检测到的对象，提取对象特征；

针对所述对象轨迹的集合中的对象轨迹对，提取相关性特征，所述相关性特征指示对应于所述对象轨迹对的对象之间的关系；

利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征，形成针对对象轨迹对的关系特征向量；以及

基于所述关系特征向量产生分段关系预测结果的集合；

通过合并来自不同分段的分段预测结果，产生针对所述影像序列的视觉关系实例的集合；以及

基于所述视觉关系实例的集合产生视觉关系检测结果的集合。

2.根据权利要求1所述的方法，其中，多个所述分段是重叠的分段。

3.根据权利要求1或2所述的方法，其中，所述视觉关系检测结果包括关系主体的指示、关系谓语的指示和关系对象的指示的集合，其中，所述关系主体和所述关系对象是检测的对象，并且所述关系谓语指示所述关系主体和所述关系对象之间的关系。

4.根据前述权利要求中任一项所述的方法，其中，所述对象轨迹包括在所述分段的多个帧中的每一帧中的边界框，以及贯穿所述分段的多个帧的边界框轨迹。

5.根据前述权利要求中任一项所述的方法，其中，对应于所述对象轨迹对的对象之间的关系包括：对应于所述对象轨迹对的对象对之间的相对大小、相对位置和相对运动中的至少一个。

6.根据前述权利要求中任一项所述的方法，其中，基于所述视觉关系实例的集合产生所述视觉关系检测结果的集合，包括：根据置信度得分对所述视觉关系实例进行排序，并且选择具有最高置信度得分的视觉关系实例作为所述视觉关系检测结果。

7.根据前述权利要求中任一项所述的方法，其中，合并来自不同分段的分段预测结果包括：应用贪婪算法以合并贯穿连续的分段的对象轨迹对。

8.根据前述权利要求中任一项所述的方法，其中，基于所述关系特征向量产生所述分段关系预测结果的集合包括：将softmax函数应用于关系特征向量的集合。

9.根据前述权利要求中任一项所述的方法，其中，检测所述分段的帧中的对象包括：检测属于预定义类别的集合中的一个类别的对象。

10.根据前述权利要求中任一项所述的方法，其中，所述视觉关系包括至少一种动态关系，所述动态关系的变化贯穿所述影响序列。

11.一种计算机可读介质，其载有处理器执行的指令，当在处理器上执行所述指令时，使所述处理器执行根据权利要求1至10中任一项所述的方法。

12.一种影像处理系统，包括处理器和数据存储装置，所述数据存储装置存储能够由所述处理器操作的计算机可执行指令，用于：

将影像序列分解为多个分段；

针对每个分段，

检测所述分段的帧中的对象；

针对所述检测到的对象，提取对象特征；

基于所述关系特征向量产生分段关系预测结果的集合；

通过合并来自不同分段的所述分段预测结果，产生针对所述影像序列的视觉关系实例的集合；以及

13.根据权利要求12所述的影像处理系统，其中，多个所述分段是重叠的分段。

14.根据权利要求12或13所述的影像处理系统，其中，所述视觉关系检测结果包括关系主体、关系谓语和关系对象的指示的集合，其中，所述关系主体和所述关系对象是被检测的对象，并且所述关系谓语指示所述关系主体和所述关系对象之间的关系。

15.根据权利要求12至14中任一项所述的影像处理系统，其中，所述对象轨迹包括在所述分段的多个帧中的每一帧中的边界框，以及贯穿所述分段的多个帧的边界框轨迹。

16.根据权利要求12至15中的任一项所述的影像处理系统，其中，对应于所述对象轨迹对的对象之间的关系包括：对应于所述对象轨迹对的对象对之间的相对大小、相对位置和相对运动中的至少一个。

17.根据权利要求12至16中任一项所述的影像处理系统，其中，所述数据存储装置包括由所述处理器操作的指令，以通过根据置信度得分对所述视觉关系实例进行排序，并且选择具有最高置信度得分的视觉关系实例作为所述视觉关系检测结果而基于所述视觉关系实例的集合产生所述视觉关系检测结果的集合。

18.根据权利要求12至17中任一项所述的影像处理系统，其中，所述数据存储装置包括由所述处理器操作的指令，以通过应用贪婪算法来合并贯穿连续的分段的对象轨迹对而合并来自不同的分段的分段预测结果。

19.根据权利要求12至18中任一项所述的影像处理系统，其中，所述数据存储装置包括由所述处理器操作的指令，以通过将softmax函数应用于关系特征向量的集合，而根据所述关系特征向量产生分段关系预测结果的集合。

20.根据权利要求12至18中任一项所述的影像处理系统，其中，所述数据存储装置包括由所述处理器操作的指令，以通过检测属于预定义类别的集合中的一个类别的对象，来检测所述分段的帧中的对象。