CN113574533A

CN113574533A - 主客交互识别模型

Info

Publication number: CN113574533A
Application number: CN202080020352.7A
Authority: CN
Inventors: M·基里卡亚; E·加维斯; A·W·M·斯穆尔德
Original assignee: Qualcomm Technologies Inc
Current assignee: Qualcomm Technologies Inc
Priority date: 2019-03-22
Filing date: 2020-03-23
Publication date: 2021-10-29
Also published as: WO2020198173A1; US20200302232A1; EP3942461A1; US11481576B2

Abstract

给出了一种用于处理图像的方法。该方法在该图像中定位主客交互的主体和客体。该方法确定该主体、该客体和环境区域的相对权重以进行分类。该方法进一步基于对该主体的加权表示、该客体的加权表示和该环境区域的加权表示的分类来对主客交互进行分类。

Description

主客交互识别模型

相关申请的交叉引用

本申请要求于2020年3月23日提交的题为“ITERATIVE REFINEMENT OF PHYSICSSIMULATIONS(物理仿真的迭代细化)”的美国专利申请No.16/827,592的权益，并要求于2019年3月22日提交的题为“SUBJECT-OBJECT INTERACTION RECOGNITION(主客交互识别)”的希腊专利申请No.20190100141的权益，这些申请的公开内容通过援引全部明确纳入于此。

背景

领域

本公开的各方面一般涉及主客交互识别。

背景技术

人工神经网络可以包括一群互连的人工神经元(例如，神经元模型)。人工神经网络可以是计算设备或表示为由计算设备执行的方法。卷积神经网络(诸如深度卷积神经网络)是一种前馈人工神经网络。卷积神经网络可以包括可以在平铺感受野中配置的各神经元层。

深度卷积神经网络(DCN)在各种技术(诸如视觉系统、语音识别、自动驾驶、以及物联网(IoT)设备)中使用。视觉系统可以标识主体(例如，演员)与客体之间的交互。在交互期间，在场景(例如，环境)中主体作用于客体。主客交互可被表示为名词-动词对，诸如马-骑或奶-挤。提高交互识别系统的精度是期望的。

概述

在本公开的一方面，一种用于处理图像的方法在该图像中定位主客交互的主体和客体。该方法还确定该主体、该客体和环境区域的相对权重以进行分类。该方法进一步基于对该主体的加权表示、该客体的加权表示和该环境区域的加权表示的分类来对该主客交互进行分类。

在本公开的另一方面，一种用于处理图像的装置包括至少一个处理器，该至少一个处理器耦合到存储器并且被配置成在该图像中定位主客交互的主体和客体。(诸)处理器还配置成确定该主体、该客体和环境区域的相对权重以进行分类。(诸)处理器被进一步配置成：基于对该主体的加权表示、该客体的加权表示和该环境区域的加权表示的分类来对该主客交互进行分类。

在本公开的又一方面，一种用于处理图像的设备包括用于在该图像中定位主客交互的主体和客体的装置。该设备还包括用于确定该主体、该客体和环境区域的相对权重以进行分类的装置。该设备进一步包括：用于基于对该主体的加权表示、该客体的加权表示和该环境区域的加权表示的分类来对该主客交互进行分类的装置。

在又另一方面，一种存储用于处理图像的程序代码的计算机可读介质。该程序代码由至少一个处理器执行并且包括用于在该图像中定位主客交互的主体和客体的程序代码。计算机可读介质还存储用于确定该主体、该客体和环境区域的相对权重以进行分类的程序代码。计算机可读介质进一步存储用于基于对该主体的加权表示、该客体的加权表示和该环境区域的加权表示的分类来对该主客交互进行分类的程序代码。

这已较宽泛地勾勒出本公开的特征和技术优势以便下面的详细描述可被更好地理解。本公开的附加特征和优点将在下文描述。本领域技术人员应当领会，本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到，这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而，要清楚理解的是，提供每一幅附图均仅用于解说和描述目的，且无意作为对本公开的限定的定义。

附图简述

在结合附图理解下面阐述的详细描述时，本公开的特征、本质和优点将变得更加明显，在附图中，相同附图标记始终作相应标识。

图1解说了根据本公开的某些方面的使用片上系统(SOC)(包括通用处理器)来设计神经网络的示例实现。

图2A、2B和2C是解说根据本公开的各方面的神经网络的示图。

图2D是解说根据本公开的各方面的示例性深度卷积网络(DCN)的示图。

图3是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。

图4解说了根据本公开的各方面的处于环境图像和脱离环境图像的示例。

图5解说了根据本公开的各方面的用于对来自脱离环境图像的主客交互进行分类的模型的示例。

图6解说了根据本公开的各方面的产生对于每个主体、客体、和环境区域的激活的示例性网络。

图7解说了根据本公开的各方面的与环境无关的图像特征学习的示例。

图8解说了根据本公开的各方面的用于标识主体-客体-环境图像特征以进行分类的示例性框架。

图9解说了根据本公开的各方面的用于对来自图像的主客交互进行分类的方法的流程图。

详细描述

以下结合附图阐述的详细描述旨在作为各种配置的描述，而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而，对于本领域技术人员将显而易见的是，没有这些具体细节也可实践这些概念。在一些实例中，以框图形式示出众所周知的结构和组件以避免湮没此类概念。

基于本教导，本领域技术人员应领会，本公开的范围旨在覆盖本公开的任何方面，不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如，可以使用所阐述的任何数目的方面来实现装置或实践方法。另外，本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解，所披露的本公开的任何方面可由权利要求的一个或多个要素来实施。

措辞“示例性”在本文中用于意指“用作示例、实例、或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。

尽管本文描述了特定方面，但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点，但本公开的范围并非旨在被限定于特定益处、用途或目标。相反，本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议，其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开，本公开的范围由所附权利要求及其等效技术方案来定义。

交互识别系统标识主体(例如，行动方)与客体之间的交互。主体可被称为施交互方并且客体可被称为受交互方。例如，主体可以是人类，而客体可以是马。在交互期间，在特定场景(例如，环境)中主体作用于客体以达成目的，诸如运输目的(例如，骑马)。交互可被表示为名词-动词对，诸如马-骑或奶-挤。准确的名词-动词对标识可以改善各种应用，诸如视觉搜索、索引和图像打标。

卷积神经网络(CNN)已经提高了交互识别系统的精度。在一些实例中，当目标交互在训练集中是有据可查的时候，识别性能可能与由人类执行的交互识别处于同等水平。然而，在现实世界背景中，人类-客体交互并不限于训练集中记录的交互。

例如，骑马往往发生在乡村背景或马术中心。因此，针对骑马的训练集可能仅限于来自乡村背景或马术中心的示例。尽管如此，骑马也可能发生在城市中。例如，警察可以在城市内骑马。在城市中骑马可被认为是脱离环境交互。尽管人类可以标识城市中的骑马交互，但图像识别系统可能无法识别这种脱离环境交互。

脱离环境交互是指在基于环境的训练样本的基础上的训练集中具有有限或零个示例的主客交互。基于环境的训练样本可以包括例如雪中的滑雪者、游泳池中的游泳者、篮球场上的篮球运动员等。本公开的各方面不限于人类-客体交互标识。可以标识其他类型的交互(例如，主体-客体交互)。

常规CNN无法准确标识脱离环境的表示。此外，常规CNN在一定程度上依赖于环境来正确标识主体、客体、和/或交互。对脱离环境交互的识别可以改善许多任务。例如，可以通过准确标识城市内的骑马者来改善自动驾驶交通工具的冲突避免。图像交互识别系统在不具有环境的情况下标识主客交互是期望的。

本公开的各方面涉及与环境无关的主客交互分类。在一个配置中，模型(例如，交互识别模型)对脱离环境的主客交互进行分类。该模型对主客交互区域的标识对于环境变化而言可以是稳健的。来自主客交互区域的表示可被用于对具有主客交互的图像进行分类。

图1解说了片上系统(SOC)100的示例实现，其可包括根据本公开的某些方面而被配置成用于对来自图像的主客交互进行分类的中央处理单元(CPU)102或多核CPU。变量(例如，神经信号和突触权重)、与计算设备相关联的系统参数(例如，带有权重的神经网络)、延迟、频率槽信息、以及任务信息可被存储在与神经处理单元(NPU)108相关联的存储器块中、与CPU 102相关联的存储器块中、与图形处理单元(GPU)104相关联的存储器块中、与数字信号处理器(DSP)106相关联的存储器块中、存储器块118中，或可跨多个块分布。在CPU 102处执行的指令可从与CPU 102相关联的程序存储器加载或可从存储器块118加载。

SOC 100还可包括为具体功能定制的附加处理块，诸如GPU 104、DSP 106、连通性块110(其可包括第五代(5G)连通性、第四代长期演进(4G LTE)连通性、Wi-Fi连通性、USB连通性、蓝牙连通性等)以及例如可检测和识别姿势的多媒体处理器112。在一种实现中，NPU实现在CPU 102、DSP 106、和/或GPU 104中。SOC 100还可包括传感器处理器114、图像信号处理器(ISP)116、和/或导航模块120(其可包括全球定位系统)。

SOC 100可基于ARM指令集。在本公开的一方面，加载到通用处理器102中的指令可包括用于在忽略旁观者或背景对象中的至少一者的同时在图像中定位交互的主体和客体的代码。通用处理器102可进一步包括用于标识主体、客体和环境区域的相对权重以进行分类的代码。通用目的处理器102可仍然进一步包括用于基于对主体的加权表示、客体的加权表示和环境区域的加权表示的分类来对主客交互进行分类的代码。

深度学习架构可通过学习在每一层中以逐次更高的抽象程度来表示输入、藉此构建输入数据的有用特征表示来执行对象识别任务。以此方式，深度学习解决了传统机器学习的主要瓶颈。在深度学习出现之前，用于对象识别问题的机器学习办法可能严重依赖人类工程设计的特征，或许与浅分类器相结合。浅分类器可以是两类线性分类器，例如，其中可将特征向量分量的加权和与阈值作比较以预测输入属于哪一类。人类工程设计的特征可以是由拥有领域专业知识的工程师针对具体问题领域定制的模版或内核。相反，深度学习架构可学习以表示与人类工程师可能会设计的相似的特征，但它是通过训练来学习的。此外，深度网络可以学习以表示和识别人类可能还没有考虑过的新类型的特征。

深度学习架构可以学习特征阶层。例如，如果向第一层呈递视觉数据，则第一层可学习以识别输入流中的相对简单的特征(诸如边)。在另一示例中，如果向第一层呈递听觉数据，则第一层可学习以识别特定频率中的频谱功率。取第一层的输出作为输入的第二层可以学习以识别特征组合，诸如对于视觉数据识别简单形状或对于听觉数据识别声音组合。例如，更高层可学习以表示视觉数据中的复杂形状或听觉数据中的词语。再高层可学习以识别常见视觉对象或口语短语。

深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。例如，机动交通工具的分类可受益于首先学习以识别轮子、挡风玻璃、以及其他特征。这些特征可在更高层以不同方式被组合以识别轿车、卡车和飞机。

神经网络可被设计成具有各种连通性模式。在前馈网络中，信息从较低层被传递到较高层，其中给定层中的每个神经元向更高层中的神经元进行传达。如上所述，可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中，来自给定层中的神经元的输出可被传达给相同层中的另一神经元。回流架构可有助于识别跨越不止一个按顺序递送给该神经网络的输入数据组块的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时，具有许多反馈连接的网络可能是有助益的。

神经网络的各层之间的连接可以是全连通的或局部连通的。图2A解说了全连通神经网络202的示例。在全连通神经网络202中，第一层中的神经元可将它的输出传达给第二层中的每个神经元，从而第二层中的每个神经元将从第一层中的每个神经元接收输入。图2B解说了局部连通神经网络204的示例。在局部连通神经网络204中，第一层中的神经元可连接到第二层中有限数目的神经元。更一般化地，局部连通神经网络204的局部连通层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式，但其连接强度可具有不同的值(例如，210、212、214和216)。局部连通的连通性模式可能在更高层中产生空间上相异的感受野，这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。

局部连通神经网络的一个示例是卷积神经网络。图2C解说了卷积神经网络206的示例。卷积神经网络206可被配置成使得与针对第二层中每个神经元的输入相关联的连接强度被共享(例如，208)。卷积神经网络可能非常适合于其中输入的空间位置有意义的问题。

一种类型的卷积神经网络是深度卷积网络(DCN)。图2D解说了被设计成从来自图像捕捉设备230(诸如车载相机)的图像226输入识别视觉特征的DCN 200的详细示例。可对当前示例的DCN 200进行训练以标识交通标志以及在交通标志上提供的数字。当然，DCN200可被训练用于其他任务，诸如标识车道标记或标识交通信号灯。

可以用监督式学习来训练DCN 200。在训练期间，可向DCN 200呈递图像(诸如限速标志的图像226)，并且随后可计算“前向传递(forward pass)”以产生输出222。DCN 200可包括特征提取区段和分类区段。在接收到图像226之际，卷积层232可向图像226应用卷积核(未示出)，以生成第一组特征图218。作为示例，卷积层232的卷积核可以是生成28x28特征图的5x5核。在本示例中，由于在第一特征图集合218中生成四个不同的特征图，因此在卷积层232处四个不同的卷积核被应用于图像226。卷积核还可被称为过滤器或卷积过滤器。

第一组特征图218可由最大池化层(未示出)进行子采样以生成第二组特征图220。最大池化层减小了第一组特征图218的大小。即，第二组特征图220的大小(诸如14x14)小于第一组特征图218的大小(诸如28x28)。减小的大小向后续层提供类似的信息，同时降低存储器消耗。第二组特征图220可经由一个或多个后续卷积层(未示出)被进一步卷积，以生成后续的一组或多组特征图(未示出)。

在图2D的示例中，第二组特征图220被卷积以生成第一特征向量224。此外，第一特征向量224被进一步卷积以生成第二特征向量228。第二特征向量228的每个特征可包括与图像226的可能特征(诸如“标志”、“60”和“100”)相对应的数。softmax(软最大化)函数(未示出)可将第二特征向量228中的数转换为概率。如此，DCN 200的输出222是图像226包括一个或多个特征的概率。

在本示例中，输出222中关于“标志”和“60”的概率高于输出222的其他特征(诸如“30”、“40”、“50”、“70”、“80”、“90”和“100”)的概率。在训练之前，由DCN 200产生的输出222很可能是不正确的。由此，可计算输出222与目标输出之间的误差。目标输出是图像226的真值(例如，“标志”和“60”)。DCN200的权重可随后被调整以使得DCN 200的输出222与目标输出更紧密地对齐。

为了调整权重，学习算法可为权重计算梯度向量。该梯度可指示在权重被调整情况下误差将增加或减少的量。在顶层，该梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层中，该梯度可取决于权重的值以及所计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“反向传播”，因为其涉及在神经网络中的“反向传递(backward pass)”。

在实践中，权重的误差梯度可能是在少量示例上计算的，从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。随机梯度下降法可被重复，直到整个系统可达成的误差率已停止下降或直到误差率已达到目标水平。在学习之后，DCN可被呈递新图像并且在网络中的前向传递可产生输出222，其可被认为是该DCN的推断或预测。

深度置信网络(DBN)是包括多层隐藏节点的概率性模型。DBN可被用于提取训练数据集的阶层式表示。DBN可通过堆叠多层受限波尔兹曼机(RBM)来获得。RBM是一类可在输入集上学习概率分布的人工神经网络。由于RBM可在没有关于每个输入应该被分类到哪个类的信息的情况下学习概率分布，因此RBM经常被用于无监督式学习。使用混合无监督式和受监督式范式，DBN的底部RBM可按无监督方式被训练并且可以用作特征提取器，而顶部RBM可按受监督方式(在来自先前层的输入和目标类的联合分布上)被训练并且可用作分类器。

深度卷积网络(DCN)是卷积网络的网络，其配置有附加的池化和归一化层。DCN已在许多任务上达成现有最先进的性能。DCN可使用受监督式学习来训练，其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。

DCN可以是前馈网络。另外，如上所述，从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的神经元被共享。DCN的前馈和共享连接可被利用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络小得多。

卷积网络的每一层的处理可被认为是空间不变模版或基础投影。如果输入首先被分解成多个通道，诸如彩色图像的红色、绿色和蓝色通道，那么在该输入上训练的卷积网络可被认为是三维的，其具有沿着该图像的轴的两个空间维度以及捕捉颜色信息的第三维度。卷积连接的输出可被认为在后续层中形成特征图，该特征图(例如，220)中的每个元素从先前层(例如，特征图218)中一定范围的神经元以及从该多个通道中的每个通道接收输入。特征图中的值可以用非线性(诸如矫正)max(0,x)进一步处理。来自毗邻神经元的值可被进一步池化(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化，其对应于白化。

深度学习架构的性能可随着有更多被标记的数据点变为可用或随着计算能力提高而提高。现代深度神经网络用比仅仅十五年前可供典型研究者使用的计算资源多数千倍的计算资源来例行地训练。新的架构和训练范式可进一步推升深度学习的性能。经矫正的线性单元可减少被称为梯度消失的训练问题。新的训练技术可减少过度拟合(over-fitting)并因此使更大的模型能够达成更好的普遍化。封装技术可抽象出给定的感受野中的数据并进一步提升总体性能。

图3是解说深度卷积网络350的框图。深度卷积网络350可包括多个基于连通性和权重共享的不同类型的层。如图3中示出的，深度卷积网络350包括卷积块354A、354B。卷积块354A、354B中的每一者可配置有卷积层(CONV)356、归一化层(LNorm)358、和最大池化层(MAX POOL)360。

卷积层356可包括一个或多个卷积过滤器，其可被应用于输入数据以生成特征图。尽管仅示出了两个卷积块354A、354B，但本公开不限于此，而是代之以根据设计偏好可将任何数目的卷积块354A、354B包括在深度卷积网络350中。归一化层358可对卷积过滤器的输出进行归一化。例如，归一化层358可提供白化或侧向抑制。最大池化层360可提供在空间上的降采样聚集以实现局部不变性和降维。

例如，深度卷积网络的并行过滤器组可被加载到SOC 100的CPU 102或GPU 104上以达成高性能和低功耗。在替换实施例中，并行过滤器组可被加载到SOC 100的DSP 106或ISP 116上。另外，深度卷积网络350可访问可存在于SOC 100上的其他处理块，诸如分别专用于传感器和导航的传感器处理器114和导航模块120。

深度卷积网络350还可包括一个或多个全连通层362(FC1和FC2)。深度卷积网络350可进一步包括逻辑回归(LR)层364。深度卷积网络350的每一层356、358、360、362、364之间是要被更新的权重(未示出)。每一层(例如，356、358、360、362、364)的输出可以用作深度卷积网络350中一后续层(例如，356、358、360、362、364)的输入以从第一卷积块354A处供应的输入数据352(例如，图像、音频、视频、传感器数据和/或其他输入数据)学习阶层式特征表示。深度卷积网络350的输出是针对输入数据352的分类得分366。分类得分366可以是概率集，其中每个概率是输入数据包括来自特征集的特征的概率。

若所讨论的，交互识别模型可以对图像中所标识的主客交互进行分类。该交互可以是脱离环境交互。交互识别模型可以在忽略旁观者的同时在图像中定位主体与客体之间的交互。在一个配置中，主体和客体的表示可以是与环境无关(context-free)的。

即，主客交互可被标识而无需考虑环境。可以训练模型来表示与环境无关的主体和与环境无关的客体。主体和客体的定位可以基于先前训练。术语与环境无关也可被称为环境中立(context-neutral)或环境不可知(context-agnostic)。

可以标识主体、客体和环境的相对权重以进行分类。主客交互可基于权重来分类。例如，交互被采样以创建关于实体权重的主体-客体-环境三元组。实体权重提供主体、客体和环境的相对重要性。

该模型可以经由接收仅主体图像区域、仅客体图像区域和仅环境图像区域的CNN来生成主体-客体-环境三元组。CNN可以是三流CNN。CNN为每个区域(例如，主体、客体和环境区域)输出D维图像特征或嵌入。D维图像特征包括每主体、客体和环境图像区域的D维激活向量。

例如，仅主体图像区域和仅客体图像区域被掩蔽以生成仅环境图像区域。作为另一示例，仅主体图像区域和仅环境图像区域被掩蔽以生成仅客体图像区域。在又一示例中，仅环境图像区域和仅客体图像区域被掩蔽以生成仅主体图像区域。

在本公开的一个方面，该模型接收图像内所有主体和/或客体的D维图像特征，并且产生表示每个区域对最终响应的贡献的Nx1维向量。N表示检测物的数目。检测物指在图像中检测到的主体和客体。

该模型计算输入内所有主体和/或客体激活的加权聚集。例如，客体激活是图像中检测到的客体的表示。图像特征函数可以产生用于图像中检测到的每个客体或主体的D维激活向量。环境被采样以创建用于实体加权的主体-客体-环境三元组，以确定主体、客体和环境的相对重要性以进行最终分类。

在一个示例中，该模型接收主体-客体-环境三元组的3xD维图像特征。该模型可以生成表示主体、客体、和环境的相对重要性的3x1维向量以进行最终分类。

图4解说了根据本公开的各方面的处于环境图像402a-402d和脱离环境图像404a-404b的示例。如所讨论的，图像交互识别模型可以学习来自处于环境图像402a-402d的交互。例如，第一处于环境图像402a描绘了在雪山上进行单板滑雪，第二处于环境图像402b描绘了在雪山上进行双板滑雪，第三处于环境图像402c描绘了在马术中心中骑马，并且第四处于环境图像402d描绘了在水上航行。处于环境图像402a-402d表示在常规环境中的主客交互。

在测试时间，图像交互识别模型可以观察脱离环境交互。例如，第一脱离环境图像404a描绘了单板滑雪者在沙丘上滑行。单板滑雪者的常规环境是雪山。如此，沙丘上的单板滑雪者不处于环境(例如，脱离环境)。在另一示例中，第二脱离环境图像404b描绘了在水上进行双板滑雪。双板滑雪的常规环境是在雪山上。如此，在水上进行双板滑雪不处于环境。

在又一示例中，第三脱离环境图像404c描绘了在城市中骑马。骑马的常规环境是在马术中心中。如此，在城市中骑马不处于环境。在另一示例中，第四脱离环境图像404d描绘了在冰上进行帆船航行。帆船的常规环境是水。如此，冰上的帆船不处于环境。

根据本公开的各方面，图像交互识别模型标识来自图像的交互，而不管图像的环境如何。该模型可以用处于环境图像402a-402d来训练并且经训练模型可以标识脱离环境图像404a-404d中的主客交互。

图5解说了根据本公开的各方面的用于对与环境无关的主客交互进行分类的图像交互识别模型500。图像交互识别模型500可以包括第一框架502、第二框架504和第三框架506。每个框架502、504、506可以是主客交互分类模型中的不同子网络

在一个配置中，第一框架502在忽略旁观者的同时标识交互的主体和客体。在一些情形中，场景包括在训练期间用主体-客体对未观察到的旁观者。旁观者可包括图像的各个位置(诸如背景)中的人类和物体。旁观者不向对主客交互进行分类作出贡献。即，旁观者向分类添加不必要的噪音。因此，第一框架502将主体和客体与旁观者区分开。

在图5的示例中，第一框架502标识输入图像的主客交互区域502a、502e以及旁观者区域502b、502c、502d。如图5中所示，主客交互是骑马，并且环境是城市。城市环境对于骑马交互而言是非典型的。常规系统可能无法对非典型环境中的骑马交互进行分类。

第二框架504获得第一框架502中所标识的主体504b和客体504c的与环境无关的表示。主体504b和客体504c可被称为主体-客体对(504b,504c)。获得主体-客体对(504b,504c)的对于脱离环境场景而言是稳健的表示是期望的。在一些情形中，环境可以修改主体-客体对。例如，环境可修改摄像角度、照明、主体-客体边界框内的场景像素、和/或主体和/或客体的可见部分。作为示例，环境可能遮挡(例如，隐藏)主体和/或客体的各部分。

为了提高稳健性，图像交互识别模型500标识跨相同交互的不同环境不变的图像特征。在图5中，主体-客体对(504b,504c)中的交互是骑马。在一个配置中，图像交互识别模型500关于主体-客体对训练数据(504a,504d)来训练，以标识骑马交互的不变图像特征。例如，交互识别模型500可被训练以标识马或骑马者的对于环境而言是不变的一个或多个特征。作为示例，脚、马尾、或马鞍对于环境而言可以是不变的。从主体-客体对训练数据(504a,504d)学习到的不变特征可以标识主体-客体对(504b,504c)中与环境无关的主体-客体表示。

第三框架506标识主体-客体-环境三元组的实体(例如，主体、客体、以及环境)的相对权重。在一个配置中，图像交互识别模型500动态地调整主体、客体和/或环境的权重。经调整的权重影响对交互的最终分类。

如所讨论的，主体或客体的各部分可能被遮挡。例如，河中的马可能被部分隐藏。第三框架506标识环境是否向对给定主体-客体对进行分类作出贡献和/或是否仅主体和/或仅客体向分类作出贡献。如果环境对应于处于环境场景，则该环境可向分类作出贡献。

例如，对于第一主体-客体对(506a,506b)，附加权重可被指派给第一环境506c(例如，马术中心)，这是因为第一环境506c向分类作出贡献。相反，对于第二主体-客体对(508a,508b)，指派给第二环境508d的权重可被减小，这是因为第二环境508d(例如，下雪环境)不向对第一主体客体对(506a,506b)(例如，骑马)进行分类作出贡献。为了聚焦于第一和第二环境506c、508d，与主体和客体相对应的区域506d、508c可从第一和第二环境506c、508d掩蔽。

各实体的相对重要性可以用弱监督子模型来建模，该弱监督子模型学习以在给定交互分类的情况下对主体-客体-环境三元组进行加权。在一个配置中，处于环境交互用脱离环境图像来手动扩增以改进对实体进行加权的过程。

如所讨论的，输入图像可根据主体-客体对(例如，人类-客体交互类别)来分类。分类可以基于主体、客体和环境特征的组合。图6解说了根据本公开的各方面的用于生成主体区域、客体区域、和环境区域的特征的模型600。如图6中所示，模型600接收描绘主客交互的图像602。输入图像602可被细分为主体区域606a、606b、客体区域608a、608b、608c、以及环境区域610b。

图像特征函数f(.)可以为每个主体区域606a、606b、客体区域608a、608b、608c、以及环境区域610b生成D维特征向量。在图6的示例中，图像特征函数f(.)为主体区域606a、606b生成特征h₁和h₂，为客体区域608a、608b、608c生成特征o₁-o₃，以及为环境区域610b生成特征c。基于与环境无关的图像特征学习(参见图7)，可以为主体和客体的特征选择最高加权特征。

在当前示例中，h₁表示主体并且特征o₁表示客体。为了清楚起见，主体特征h₁和客体特征o₁在图6中被加粗。特征h₂和o₂-o₃表示旁观者。这些特征也可被称为特征函数f(.)的激活。

在一个配置中，图像特征函数f(.)经由感兴趣区域的池化来生成D维特征向量。池化可以在应用于分类器之前的最后一层以获得因区域而异的图像特征。

区域(例如，主体区域606a、606b，客体区域608a、608b、608c，以及环境区域610b)的每个集合可以通过从图像602掩蔽其他区域来获得。例如，可以通过掩蔽客体区域608a、608b、608c和环境区域610b来获得主体区域606a、606b。可以通过将区域的值设为零来掩蔽该区域。

掩蔽解耦了各区域。如此，可以防止模型600利用实体区域的共生。如图6中所示，对应于主体区域606a、606b和客体区域608a、608b、608c的区域610a从环境区域610b掩蔽。当确定环境区域610b的特征时，环境区域610b中的掩蔽区域610a可以防止模型600利用主体区域606a、606b和/或客体区域608a、608b、608c。改进的解耦提供了主体区域606a、606b和客体区域608a、608b、608c的与环境无关的表示，这是因为该模型不会观察环境区域610b。

图7解说了根据本公开的各方面的与环境无关的图像特征学习的示例700。在一个配置中，对于每个图像，来自模型的特征被聚集以获得跨相同交互的不同图像的类似表示。本公开的各方面讨论了人类-客体交互。本公开的各方面也可应用于其他施交互方(例如，其他物体或生物)。

正如所讨论的，模型每图像地为每个主体区域(h_i)、客体区域(o_i)和环境区域(c)产生D维特征向量。即，D是基于主体区域、客体区域和环境区域的数目的。在图像中，与旁观者和/或背景对象相反，哪个(些)区域对应于交互可能是不清楚的。所获得的表示可能对主体和客体区域的因环境而异的变换敏感。因环境而异的变换可以包括，例如，视点、姿势、和/或照明的改变。如此，对主体或客体特征进行加权以改进主体和/或客体标识是期望的。

在一个配置中，子网络g(.)接收主体区域(h_i)和客体区域(o_i)的D维特征。子网络g(.)产生Nx1维向量(N是检测物的数目)，其表示每个区域对最终响应的贡献。输入内所有主体或客体特征的加权聚集可以基于该Nx1维向量来确定。

如图7中所示，来自图6的输入图像602的描绘人类的主体区域606a、606b可被输入到子网络g(.)706。子网络g(.)706生成主体区域606a、606b的加权和。训练图像702(例如，目标图像)是从训练集采样的。训练图像702描绘了与主体区域606a、606b相同的交互并且还描绘了相同的主体或客体。例如，训练图像702和主体区域606a、606b两者都描绘了人类，并且主体区域之一606a的交互是骑马。

图像特征函数f(.)(图7中未示出)和子网络g(.)706可被应用于训练图像702。训练图像702可具有与主体区域606a、606b的环境不同的环境，从而导致不同的主体和客体外观。仍然，训练图像702和主体区域606a、606b共享相同的主体和客体。

在训练期间，欧几里德损失是在每个子网络g(.)706的输出704a、704b之间确定的。输出704可以是正则表示。该损失跨相同交互的不同环境来实现主体激活和客体激活的加权聚集的相似度。即，子网络g(.)706被训练成：基于与训练图像702的相似度来将较高权重(例如，概率)指派给第一区域606a。该相似度是从第一区域606a与训练图像702的主体和交互的相似度来确定的。通过调整各区域的权重，主体-客体的类似表示可以跨不同的环境来标识。由此提供了与环境无关的表示。

基于图7的弱监督式训练，模型学习以恰适地减少旁观者的权重。例如，如图7中所示，第二主体区域606b的旁观者被赋予0.2的权重。相反，第一主体区域606a中的交互的主体被赋予0.8的权重。训练图像702是地面实况图像并且具有1的权重。权重被调整以使得第一主体区域606a的表示类似于训练图像702的表示。

即，虽然第一主体区域606a的环境与训练图像702的环境不同，但是第一主体区域606a和训练图像702的主体是类似的(例如，骑马的人)。第二主体区域606b的旁观者不类似于训练图像702的主体。因此，通过比较损失，网络学习以赋予第二主体区域606b的旁观者较低权重。图7的弱监督式训练也可被应用于客体。

在一个方面，子网络g(.)706被实现为大小Dx1的一层神经网络。子网络g(.)706的输出用内积((NxD)x(Dx1))来调制大小(NxD)的主体或客体表示。内积可以是跨第一维度的池化均值以针对主体客体对获得输入图像的Dx1维特征表示。

softmax函数可被应用于主体或客体表示的权重激活。通过应用函数激活，主体或客体的权重激活可被将设为1。例如，与同客体的其他主体(例如，旁观者)相关联的值相比，加权激活可以将较高值指派给交互的真实主体-客体对。

实体重新加权可以改善与环境无关的分类。对于与环境无关的分类，主体、客体和环境是被联合检测的。该模型获得人类、客体和环境区域的表示，并且聚集主体或客体表示以使它们跨不同场景是相似的。这产生了针对每个图像的三维(3D)激活向量，从而总结了输入中的主体、客体、以及环境外观。

在本公开的一个方面，假设观察物可以是主体-客体-环境三元组，则有信息的输入是针对最终分类而动态确定的。即，模型动态地对主体、客体和环境进行重新加权以获得针对输入图像的最终分类决策。

图8解说了根据本公开的各方面的用于标识主体-客体-环境图像特征以进行分类的框架800。框架800标识主体-客体-环境三元组802、804的相对权重以进行分类。(3,1)维向量可表示主体-客体-环境三元组802、804的相对重要性以进行分类。框架800可以在分类规程之前实现。

如图8中所示，为实体加权模块h(.)810生成主体-客体-环境三元组802、804。在一个配置中，实体加权模块h(.)810接收主体-客体-环境三元组802、804的三个3xD维图像特征并且产生表示主体、客体和环境的相对重要性的3x1维向量以进行分类。由于模型观察与常规环境耦合的主体-客体，所以该模型在环境对于所观察到的交互而言不是有信息的(例如，对于骑马交互而言的雪山)时可能无法学习以抑制该环境的贡献。为了抑制非信息环境的贡献，该模型依赖于意外环境的挖掘。

在意外环境的挖掘中，在给定主体-客体(例如，骑马者和马)的图像特征的情况下，通过从一不同交互图像(例如，进行单板滑雪的图像)采样环境特征来替换原始环境。实体加权模块h(.)810产生用于分类模块k(.)812的输入向量，以使得当主体、客体和环境被合并时，经由该分类模块k(.)812来获得正确分类。

在训练期间执行意外环境的挖掘以模拟意外的主体-客体-环境三元组。作为训练的结果，模型学习了动态加权的改进概念。为此，实体加权模块h(.)810学习以识别脱离环境的主体-客体对，并且将与常规环境(例如，赛马俱乐部)相比较而言较低的权重指派给该环境。图8中示出了为了分类准确性的针对主体-客体-环境的重要性的示例值806、808。该最终重新加权的表示被输入到分类器以标记输入图像。

例如，在马术中心处骑马的第一主体-客体-环境三元组802可具有相对权重806，其对应于主体(0.3)、客体(0.4)和环境(0.3)。在雪山上骑马的第二主体-客体-环境三元组804可具有相对权重808，其对应于主体(0.5)、客体(0.4)和环境(0.1)。在该示例中，雪山上的马可被认为是脱离环境的。因此，雪山骑马的环境(相对权重0.1)相对于马术中心骑马(其中环境的相对权重为0.3)而言是弱化的。针对雪山骑马的强调被放置在第二主体-客体-环境三元组804的主体上。例如，第二主体-客体-环境三元组804的主体的相对权重(0.5)相对于第一主体-客体-环境三元组802的主体的相对权重(0.3)而言是增大的。应用Softmax函数以使得所有重要性值的总和为1(例如，0.5+0.4+0.1＝1)。

图9解说了根据本公开的一方面的方法900。如图9中所示，神经网络在图像中定位主客交互的主体和客体(框902)。在一个配置中，神经网络忽略旁观者和/或背景对象。该图像可以是脱离环境图像。附加地，主体可被标识为人类。

在一个配置中，神经网络接收仅主体图像区域、仅客体图像区域、以及仅环境图像区域。神经网络可生成与每个主体、客体和环境区域相对应的图像特征。神经网络可被训练以用与环境无关的方式来表示主体和客体，并且基于该学习来定位主体和客体。即，神经网络可以获得该图像的与环境无关的主体表示和客体表示。

如图9中所示，神经网络确定主体、客体和环境区域的相对权重以进行分类(框904)。在可任选的配置中，神经网络掩蔽仅主体图像区域和仅客体图像区域以获得仅环境图像区域；掩蔽仅主体图像区域和仅环境图像区域以获得仅客体图像区域；以及掩蔽仅环境图像区域和仅客体图像区域以获得仅主体图像区域。主体、客体和环境区域的相对权重可以基于对主客交互分类而言的相对重要性来确定，该相对重要性是基于图像特征来确定的。

如图9中所示，神经网络基于对主体的加权表示、客体的加权表示和环境区域的加权表示的分类来对主客交互进行分类(框906)。即，实体加权模块为主体、客体、以及环境区域产生输入权重向量。分类模块对经加权的与环境无关的客体、经加权的与环境无关的主体和经加权的环境区域进行分类，其中权重是从实体加权模块获得的。当经加权的与环境无关的客体、经加权的与环境无关的主体和经加权的环境区域被组合时，经由分类模块来获得正确分类。

以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或(诸)软件组件和/或(诸)模块，包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言，在附图中有解说的操作的场合，那些操作可具有带相似编号的相应配对装置加功能组件。

如本文所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可包括演算、计算、处理、推导、研究、查找(例如，在表、数据库或另一数据结构中查找)、查明及诸如此类。另外，“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。此外，“确定”可包括解析、选择、选取、确立及类似动作。

如本文中所使用的，引述一列项目中的“至少一者”的短语是指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一个”旨在涵盖：a、b、c、a-b、a-c、b-c、和a-b-c。

结合本公开所描述的各种解说性逻辑框、模块、以及电路可用设计成执行本文所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件或其任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如，DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其他此类配置。

结合本公开描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM，等等。软件模块可包括单条指令、或许多条指令，且可分布在若干不同的代码段上，分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中，存储介质可被整合到处理器。

本文所公开的方法包括用于达成所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之，除非指定了步骤或动作的特定次序，否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。

所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现，则示例硬件配置可包括设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和整体设计约束，总线可包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理系统。网络适配器可用于实现信号处理功能。对于某些方面，用户接口(例如，按键板、显示器、鼠标、操纵杆，等等)也可以被连接到总线。总线还可以链接各种其他电路，诸如定时源、外围设备、稳压器、功率管理电路以及类似电路，它们在本领域中是众所周知的，因此将不再进一步描述。

处理器可负责管理总线和一般处理，包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路系统。软件应当被宽泛地解释成意指指令、数据、或其任何组合，无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例，机器可读介质可包括随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦式可编程只读存储器(EPROM)、电可擦式可编程只读存储器(EEPROM)、寄存器、磁盘、光盘、硬驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。

在硬件实现中，机器可读介质可以是处理系统中与处理器分开的一部分。然而，如本领域技术人员将容易领会的，机器可读介质或其任何部分可在处理系统外部。作为示例，机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品，所有这些都可由处理器通过总线接口来访问。替换地或附加地，机器可读介质或其任何部分可被集成到处理器中，诸如高速缓存和/或通用寄存器文件可能就是这种情形。虽然所讨论的各种组件可被描述为具有特定位置，诸如局部组件，但它们也可按各种方式来配置，诸如某些组件被配置成分布式计算系统的一部分。

处理系统可以被配置为通用处理系统，该通用处理系统具有一个或多个提供处理器功能性的微处理器、以及提供机器可读介质中的至少一部分的外部存储器，它们都通过外部总线架构与其他支持电路系统链接在一起。替换地，该处理系统可以包括一个或多个神经元形态处理器以用于实现本文所述的神经元模型和神经系统模型。作为另一替换方案，处理系统可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路系统、和至少一部分机器可读介质的专用集成电路(ASIC)来实现，或者用一个或多个现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路系统、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。取决于具体应用和加诸于整体系统上的总设计约束，本领域技术人员将认识到如何最佳地实现关于处理系统所描述的功能性。

机器可读介质可包括数个软件模块。这些软件模块包括当由处理器执行时使处理系统执行各种功能的指令。这些软件模块可包括传送模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例，当触发事件发生时，可以从硬驱动器中将软件模块加载到RAM中。在软件模块执行期间，处理器可以将一些指令加载到高速缓存中以提高访问速度。可随后将一个或多个高速缓存行加载到通用寄存器文件中以供处理器执行。在以下述及软件模块的功能性时，将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。此外，应领会，本公开的各方面产生对处理器、计算机、机器或实现此类方面的其它系统的机能的改进。

如果以软件实现，则各功能可作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能用于携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。另外，任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如本文所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和

碟，其中盘(disk)常常磁性地再现数据，而碟(disc)用激光来光学地再现数据。因此，在一些方面，计算机可读介质可包括非瞬态计算机可读介质(例如，有形介质)。另外，对于其他方面，计算机可读介质可包括瞬态计算机可读介质(例如，信号)。以上的组合应当也被包括在计算机可读介质的范围内。

由此，某些方面可包括用于执行本文中给出的操作的计算机程序产品。例如，此类计算机程序产品可包括其上存储(和/或编码)有指令的计算机可读介质，这些指令能由一个或多个处理器执行以执行本文中所描述的操作。对于某些方面，计算机程序产品可包括包装材料。

此外，应当领会，用于执行本文中所描述的方法和技术的模块和/或其他恰适装置可由用户终端和/或基站在适用的场合下载和/或以其他方式获得。例如，此类设备能被耦合到服务器以促成用于执行本文中所描述的方法的装置的转移。替换地，本文中所描述的各种方法能经由存储装置(例如，RAM、ROM、诸如压缩碟(CD)或软盘之类的物理存储介质等)来提供，以使得一旦将该存储装置耦合到或提供给用户终端和/或基站，该设备就能获得各种方法。此外，可利用适于向设备提供本文中所描述的方法和技术的任何其他合适的技术。

将理解，权利要求并不被限于以上所解说的精确配置和组件。可在以上所描述的方法和装置的布局、操作和细节上作出各种改动、更换和变形而不会脱离权利要求的范围。

Claims

1.一种用于处理图像的方法，包括：

在所述图像中定位主客交互的主体和客体；

确定所述主体的相对权重、所述客体的相对权重和环境区域的相对权重以进行分类；以及

基于对所述主体的加权表示、所述客体的加权表示和所述环境区域的加权表示的分类来对所述主客交互进行分类。

2.如权利要求1所述的方法，其中所述图像是脱离环境的。

3.如权利要求1所述的方法，其中所述主体被标识为人类。

4.如权利要求1所述的方法，进一步包括：

学习以用与环境无关的方式来表示所述主体和所述客体；以及

基于所述学习来定位所述主体和所述客体。

5.如权利要求1所述的方法，进一步包括：

在卷积神经网络处，接收仅主体图像区域、仅客体图像区域、以及仅环境图像区域；以及

由所述卷积神经网络生成与每个主体、客体和环境区域相对应的图像特征。

6.如权利要求5所述的方法，进一步包括：

掩蔽所述仅主体图像区域和所述仅客体图像区域以获得所述仅环境图像区域；

掩蔽所述仅主体图像区域和所述仅环境图像区域以获得所述仅客体图像区域；以及

掩蔽所述仅环境图像区域和所述仅客体图像区域以获得所述仅主体图像区域。

7.如权利要求5所述的方法，进一步包括：基于对主客交互分类的相对重要性来确定所述主体的相对权重、所述客体的相对权重和所述环境区域的相对权重，所述相对重要性是基于所述图像特征来确定的。

8.一种用于处理图像的装置，包括：

存储器；以及

耦合至所述存储器的至少一个处理器，所述至少一个处理器被配置成：

在所述图像中定位主客交互的主体和客体；

9.如权利要求8所述的装置，其中所述图像是脱离环境的。

10.如权利要求8所述的装置，其中所述主体被标识为人类。

11.如权利要求8所述的装置，其中所述至少一个处理器被进一步配置成：

基于所述学习来定位所述主体和所述客体。

12.如权利要求8所述的装置，其中所述至少一个处理器被进一步配置成：

13.如权利要求12所述的装置，其中所述至少一个处理器被进一步配置成：

14.如权利要求12所述的装置，其中所述至少一个处理器被进一步配置成：基于对主客交互分类的相对重要性来确定所述主体的相对权重、所述客体的相对权重和所述环境区域的相对权重，所述相对重要性是基于所述图像特征来确定的。

15.一种用于处理图像的设备，包括：

用于在所述图像中定位主客交互的主体和客体的装置；

用于确定所述主体的相对权重、所述客体的相对权重和环境区域的相对权重以进行分类的装置；以及

用于基于对所述主体的加权表示、所述客体的加权表示和所述环境区域的加权表示的分类来对所述主客交互进行分类的装置。

16.如权利要求15所述的设备，其中所述图像是脱离环境的。

17.如权利要求15所述的设备，其中所述主体被标识为人类。

18.如权利要求15所述的设备，进一步包括：

用于学习以用与环境无关的方式来表示所述主体和所述客体的装置；以及

用于基于所述学习来定位所述主体和所述客体的装置。

19.如权利要求15所述的设备，进一步包括：

用于在卷积神经网络处接收仅主体图像区域、仅客体图像区域、以及仅环境图像区域的装置；以及

用于由所述卷积神经网络生成与每个主体、客体和环境区域相对应的图像特征的装置。

20.如权利要求19所述的设备，进一步包括：

用于掩蔽所述仅主体图像区域和所述仅客体图像区域以获得所述仅环境图像区域的装置；

用于掩蔽所述仅主体图像区域和所述仅环境图像区域以获得所述仅客体图像区域的装置；以及

用于掩蔽所述仅环境图像区域和所述仅客体图像区域以获得所述仅主体图像区域的装置。

21.如权利要求19所述的设备，进一步包括：用于基于对主客交互分类的相对重要性来确定所述主体的相对权重、所述客体的相对权重和所述环境区域的相对权重的装置，所述相对重要性是基于所述图像特征来确定的。

22.一种其上记录有用于处理图像的程序代码的非瞬态计算机可读介质，所述程序代码由处理器执行并且包括：

用于在所述图像中定位主客交互的主体和客体的程序代码；

用于确定所述主体的相对权重、所述客体的相对权重和环境区域的相对权重以进行分类的程序代码；以及

用于基于对所述主体的加权表示、所述客体的加权表示和所述环境区域的加权表示的分类来对所述主客交互进行分类的程序代码。

23.如权利要求22所述的非瞬态计算机可读介质，其中所述图像是脱离环境的。

24.如权利要求22所述的非瞬态计算机可读介质，其中所述主体被标识为人类。

25.如权利要求22所述的非瞬态计算机可读介质，其中至少一个处理器被进一步配置成：

基于所述学习来定位所述主体和所述客体。

26.如权利要求22所述的非瞬态计算机可读介质，其中至少一个处理器被进一步配置成：

27.如权利要求26所述的非瞬态计算机可读介质，其中至少一个处理器被进一步配置成：

28.如权利要求26所述的非瞬态计算机可读介质，其中至少一个处理器被进一步配置成：基于对主客交互分类的相对重要性来确定所述主体的相对权重、所述客体的相对权重和所述环境区域的相对权重，所述相对重要性是基于所述图像特征来确定的。