CN114170688A

CN114170688A - 人物交互关系识别方法、装置、电子设备

Info

Publication number: CN114170688A
Application number: CN202210127157.5A
Authority: CN
Inventors: 陈博; 高原; 白锦峰
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2022-03-11
Anticipated expiration: 2042-02-11
Also published as: CN114170688B

Abstract

本公开提供一种人物交互关系识别方法、装置、电子设备，包括：识别目标图像中的人体对象和物体对象，获得人体对象的人体特征和物体对象的物体特征，并识别人体对象的动作姿态，获得人体对象的姿态特征；根据人体特征和姿态特征进行融合处理，获得人体对象的融合特征；根据融合特征和物体特征执行人物交互关系预测，获得人体对象与物体对象之间的人物交互关系识别结果。因此，本申请可以提高人物交互关系识别结果的准确性。

Description

人物交互关系识别方法、装置、电子设备

技术领域

本发明涉及图像识别技术领域，尤其涉及一种人物交互关系识别方法、装置、电子设备及存储介质。

背景技术

人与物关系检测(HOI-Det, Human Object Interaction Detection)技术是指给定一张输入图片，检测出输入图片中的人体与其周围物体的相对位置关系，并识别出人体与物体之间的交互关系。

目前的人物交互关系检测技术，仅在人与物之间进行消息传递，忽略了人与人、物与物之间的联系，导致了人物交互关系检测结果的不准确。

发明内容

有鉴于此，本公开实施例提供一种可提高识别结果准确性的人物交互关系合成方法、装置、电子设备，以至少部分的解决上述问题。

根据本公开的一方面，提供了一种人物交互关系识别方法，包括：识别目标图像中的人体对象和物体对象，获得所述人体对象的人体特征和所述物体对象的物体特征，并识别所述人体对象的动作姿态，获得所述人体对象的姿态特征；根据所述人体特征和姿态特征进行融合处理，获得所述人体对象的融合特征；根据所述融合特征和所述物体特征执行人物交互关系预测，获得所述人体对象与所述物体对象之间的人物交互关系识别结果。

根据本公开的另一方面，提供了一种人物交互关系识别装置，包括：识别模块，用于识别目标图像中的人体对象和物体对象，获得所述人体对象的人体特征和所述物体对象的物体特征，并识别所述人体对象的动作姿态，获得所述人体对象的姿态特征；融合模块，用于根据所述人体特征和姿态特征进行融合处理，获得所述人体对象的融合特征；预测模块，用于根据所述融合特征和所述物体特征执行人物交互关系预测，获得所述人体对象与所述物体对象之间的人物交互关系识别结果。

根据本公开的另一方面，提供一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述方面所述的人物交互关系识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行上述方面所述的人物交互关系识别方法。

本公开的一个或多个实施例所提供的人物交互关系识别方案，通过结合人体对象的人体特征、姿态特征以获得人体对象的融合特征，并根据人体对象的融合特征与物体对象的物体特征，识别人体对象和物体对象之间的交互关系，可以提高识别结果的准确性。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1为本公开示例性实施例的人物交互关系识别方法的流程示意图。

图2为本公开另一示例性实施例的人物交互关系识别方法的流程示意图。

图3为本公开示例性实施例的人物交互关系识别处理方法的数据生成逻辑示意图。

图4为本公开另一示例性实施例的人物交互关系识别方法的流程示意图。

图5为本公开另一示例性实施例的人物交互关系识别方法的流程示意图。

图6为本公开另一示例性实施例的人物交互关系识别方法的流程示意图。

图7为本公开另一示例性实施例的人物交互关系识别方法的流程示意图。

图8为本公开另一示例性实施例的人物交互关系识别方法的流程示意图。

图9为本公开另一示例性实施例的人物交互关系识别方法的流程示意图。

图10为本公开示例性实施例的人物交互关系识别装置的结构框图。

图11为本公开示例性实施例的电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

目前主流的人物关系检测（HOI-Det, Human Object Interaction Detection）包括一阶段检测方法与二阶段检测方法。其中，一阶段检测方法可直接预测给定图片中的人与物之间的位置以及交互关系；二阶段检测方法包括：首先在目标定位阶段通过目标检测算法，检测出给定图片中的所有人与物，并在关系推理阶段，基于卷积神经网络分类或者图网络分类，对检测出人与物逐一推断相互之间的关系。

然而，现有的图网络分类方法，主要采用二部图的结果，即仅在人与物之间进行消息传递，这种方法忽略了物与物之间的联系（例如，牙膏与牙刷可能同时出现在刷牙的场景中）。此外，在现有的图学习过程中，缺乏对人体特征姿态信息的建模，而导致部分关系容易混淆。

有鉴于此，本公开主要针对二阶段检测方法中的关系推理阶段，提出了一种改进的人物交互关系识别技术，可解决上述现有技术中存在的种种问题。

以下参照附图详细描述本公开的技术方案。

图1为本公开示例性实施例的人物交互关系识别方法的处理流程图。如图所示，本实施例主要包括以下步骤：

步骤S102，识别目标图像中的人体对象和物体对象，获得人体对象的人体特征和物体对象的物体特征，并识别人体对象的动作姿态，获得人体对象的姿态特征。

可选地，可通过检测目标图像中每一个对象检测框内的目标对象，获得人体对象的人体特征或物体对象的物体特征。

可选地，可检测包含有人体对象的对象检测框中的人体关键点，获得人体对象的关键点位置信息，并根据关键点位置信息，获得人体对象的姿态特征。

步骤S104，根据人体特征和姿态特征进行融合处理，获得人体对象的融合特征。

可选地，可针对同一人体对象的人体特征向量和姿态特征向量执行加和处理，以获得人体对象的融合特征。

具体地，可将具有相同特征维度的同一人体对象的人体特征向量和姿态特征向量进行加和，以获得所述同一人体对象的融合特征。

步骤S106，根据融合特征和物体特征执行人物交互关系预测，获得人体对象与物体对象之间的人物交互关系识别结果。

可选地，可基于人体对象的融合特征和物体对象的物体特征执行预测，获得包含至少一个第一动作预测结果和交互预测结果的人物交互关系识别结果。

可选地，可基于人体对象的姿态特征执行单独预测，获得第二动作预测结果，并基于第一动作预测结果、第二动作预测结果、交互预测结果，确定人体对象与物体对象之间的人物交互关系识别结果。

于本实施例中，第一动作预测结果、第二动作预测结果用于标识人体对象和物体对象之间的预测交互动作类别。

于本实施例中，交互预测结果用于标识人体对象和物体对象之间是否存在交互关系。

可选地，可利用人物交互关系识别模型，根据人体特征、物体特征、姿态特征，预测人体对象与物体对象之间的人物交互关系识别结果。

综上所述，本实施例的人物交互关系识别方法，通过将基于目标图像的像素维度所提取的人体特征和基于目标图像的空间维度所提取的姿态特征进行融合，可以获得包含显式姿态信息和图像信息的人体对象的融合特征，此融合特征可为人物交互关系的预测处理增加有效标签信息，以提高推理预测的判别力，从而提高人物交互关系识别结果的准确性。

图2为本公开另一实施例的人物交互关系识别方法的流程示意图。本实施例为上述步骤S102中获取人体特征与物体特征的具体实施方案，如图所示，本实施例主要包括以下步骤：

步骤S202，识别目标图像中每一个对象检测框内的目标对象，获取每一个目标对象的对象特征。

于本实施例中，目标图像中的目标对象可包括人体对象或者物体对象。

可选地，目标图像中可包含有至少一个人体对象以及至少一个物体对象。

具体地，可检测目标图像中的每一个目标对象，获得每一个目标对象的对象检测框，并针对对象检测框内的图片特征进行提取，以获得每一个目标对象的对象特征。

于本实施例中，目标对象的对象特征可通过特征向量的形式呈现。

于本实施例中，可将目标图像输入由图3所示的神经网络中执行预测，以获得由特征金字塔构成的特征图（feature map）。

可选地，神经网络可包括结构为ResNet50的卷积神经网络。

于本实施例中，可基于从目标图像中检测到的对象检测框，通过感兴趣区域对齐（Region of Interesting Align，ROI Align）技术，提取出每一个对象检测框内的对象特征向量。

步骤S204，根据每一个目标对象的对象特征执行分类预测，获得人体对象的人体特征或物体对象的物体特征。

可选地，可根据每一个目标对象的对象特征向量执行分类预测，获得人体对象的初始人体特征向量与物体对象的初始物体特征向量。

于本实施例中，初始人体特征向量与初始物体特征向量可为256维度的特征向量。

步骤S206，基于预设维度，针对人体特征和物体特征执行映射，获得具有预设维度的人体特征和物体特征。

可选地，可基于预设维度，针对人体对象的初始人体特征向量与物体对象的初始物体特征向量执行映射处理，获得具有预设维度的目标人体特征向量和目标物体特征向量。

于本实施例中，目标人体特征向量和目标物体特征向量可为1024维度（预设维度）的特征向量。

例如，可将利用ROI Align技术所获取的256维度的初始人体特征向量和初始物体特征向量，输入全连接层中执行特征映射处理，以获取1024维度的目标人体特征向量和目标物体特征向量。

步骤S208，利用多头注意力机制针对人体特征和物体特征执行增强处理，获得增强的人体特征和物体特征。

于本实施例中，可利用包含有多头注意力模块(MSA, Multi-head Self-Attention)的编码器，以基于自注意学习机制针对人体特征和物体特征执行增强处理，获得包含场景信息的增强的人体特征和物体特征（或称为增强人体特征向量和增强物体特征向量）。

例如，可将1024维度的目标人体特征向量和目标物体特征向量送入如图3所示的编码器中执行增强处理，以获得包含有场景信息的增强的人体特征（增强人体特征向量）和增强的物体特征（增强物体特征向量）。

于本实施例中，该编码器可例如为Transformer编码器（Transformer Encoder），其包括有多头注意力（MSA, Multi-head Self-Attention）模块，可用于针对1024维度的人体特征向量和物体特征向量，执行基于多头注意力机制的特征增强处理，以获得包含有场景信息的增强人体特征向量和增强物体特征向量。

综上所述，本实施例的人物交互关系识别方法，通过结合使用ROI Align技术以及多头自注意力学习机制，可以获得包含有场景信息的人体特征与物体特征，可为后续的人物交互关系预测增加有效标签信息，以提高人物交互关系识别结果的准确性。

图4为本公开另一示例性实施例的人物交互关系识别方法的流程示意图。本实施例为上述步骤S102中获得姿态特征的具体实施方案。如图所示，本实施例主要包括以下步骤：

步骤S402，检测包含有人体对象的对象检测框中的人体关键点，获得人体对象的关键点位置信息。

于本实施例中，待检测的人体对象的人体关键点可介于13至21个之间，较佳为17个，各人体关键点可分布在头部、上肢、下肢、上身四个身体部分。

于本实施例中，可利用HRNet（High-Resoultion Net）模型，检测人体关键点的坐标位置。

具体地，可获取对象检测框相对于目标图像的检测框坐标信息（例如，对角坐标信息），并基于检测框坐标信息，获取对象检测框中的人体图像，并将人体图像输入HRNet中进行检测，以获得人体对象的17个关键点坐标向量（例如，二维的关键点坐标向量）。

步骤S404，基于预设维度，针对关键点位置信息执行映射处理，获得具有预设维度的姿态特征。

可选地，可基于预设维度，针对人体对象的关键点坐标向量执行映射处理，获得具有预设维度的目标姿态特征向量。

可选地，可通过将17个二维的关键点坐标向量转换为34维（17*2）的一维关键点坐标向量，并输入图3所示的全连接网络中执行特征映射，以获得与目标人体特征向量具有相同维度（也就是1024维度）的目标姿态特征向量。

其中，所获取的目标姿态特征向量与目标人体特征向量可具有相同的特征维度（1024维度），以供执行人体特征与姿态特征的融合处理。

于本实施例中，全连接网络可包括两个全连接模块，每个全连接模块可包括依次连接的全连接（FC, Full Connection）层、批量归一化（BatchNorm）层、整流线性单元（ReLu, Rectified Linear Unit）层。

具体地，可基于预设映射公式，针对人体对象的关键点坐标向量（例如，34维的一维坐标向量）执行特征映射，以获得人体对象的目标姿态特征向量。

预设映射公式可表示为：

其中，

表示人体对象的目标姿态特征向量，

表示关键点坐标向量，

为ReLu层的操作，

为批量归一化层的操作，

为全连接层的操作。

综上所述，本实施例的人物交互关系识别方法，通过检测人体对象的关键点位置信息，并借由包括全连接层、批量归一化层、整流线性单元层的全连接网络针对关键点位置信息执行特征映射，可以获得准确性较高的人体姿态特征，以有利于提高后续人物交互关系识别结果的准确性。

图5为本公开另一示例性所述的人物交互关系识别方法的流程示意图。如图所示，本实施例主要为上述步骤S106的具体实施方案，其主要包括以下步骤：

步骤S502，根据每一个人体对象的融合特征、每一个物体对象的物体特征，预测每一个人体对象与每一个物体对象之间的关联关系，获得至少一个配对结果。

于本实施例中，每一个配对结果包含有一个人体对象与一个物体对象。

于本实施例中，当目标图像中包含有多个人体对象和/或多个物体对象时，可将每一个人体对象的融合特征与每一个物体对象的物体特征输入图网络中，以学习哪些人体对象与哪些物体对象之间存在关联关系，并根据学习结果，获得人体对象与物体对象的配对结果（参考图3的图学习）。

可选地，上述用于执行配对处理的人体对象的融合特征，可为根据人体对象的目标人体特征向量和目标姿态特征向量执行加和处理所生成，也可为根据人体对象的增强人体特征向量和目标姿态特征向量执行加和处理所生成。

可选地，上述用于执行配对处理的物体对象的物体特征，可为物体对象的目标物体特征向量或增强物体特征向量。

步骤S504,根据每一个配对结果中的人体对象的融合特征与物体对象的物体特征，执行人物交互关系预测，获得每一个配对结果的人物交互关系识别结果。

具体地，可依次获取一个配对结果，并将当前获取的配对结果中的人体对象与物体对象执行交互关系的推理识别，以获得每一个配对结果的人物交互关系识别结果。

可选地，用于执行推理识别的人体对象的融合特征，可为根据人体对象的目标人体特征向量和目标姿态特征向量执行加和处理所生成，也可为根据人体对象的增强人体特征向量和目标姿态特征向量执行加和处理所生成。

可选地，用于执行推理识别的物体对象的物体特征，可为物体对象的目标物体特征向量或增强物体特征向量。

综上所述，本实施例的人物交互关系识别方法，通过构建二部图来进行消息传递来更新人体对象与物体对象的结点特征，并基于人体对象和物体对象的最终组队结果，来进行人物交互关系(动作)的预测，借以提高多人体对象和/或多物体对象的场景下的人物交互关系识别结果的准确性。

另外，本实施例中用于执行配对处理（即步骤S502）和/或预测处理（即步骤S504）的融合特征，可为根据人体对象的目标人体特征向量和目标姿态特征向量执行加和处理所生成，或为根据人体对象的增强人体特征向量和目标姿态特征向量执行加和处理所生成，借由此技术手段，可利用姿态特征针对原有人体特征中缺少的姿态信息进行补齐加强，以增加人体对象的特征数据中的有效监督信息，从而有利于提高交互行为识别结果的准确性。

此外，本实施例中用于执行配对处理（即步骤S502）和/或预测处理（即步骤S504）的融合特征，也可为根据人体对象的增强人体特征向量和目标姿态特征向量执行加和处理所生成，并通过结合物体对象的增强物体特征向量，可以进一步增加特征数据中的场景信息，从而有利于进一步提高交互行为预测处理的判别力，并达到提高人物交互行为识别结果的准确性的技术功效。

图6示出了本公开另一示例性实施例的人物交互关系识别方法的流程示意图。本实施例为上述步骤S106的一个具体实施方案。

可选地，本实施例的处理步骤也可接续前述步骤S504继续执行。

请配合参考图6，本实施例主要包括以下步骤：

步骤S602，根据人体对象的融合特征和物体对象的物体特征，获得第一动作预测值和交互预测值。

可选地，也可根据人体对象的融合特征和物体对象的物体特征，获得包含至少一个第一动作预测值和交互预测值的人物交互关系识别结果。

于本实施例中，第一动作预测结果可为多分类标签，用于标识人体和物体之间在不同动作交互类别上的概率分布结果，其中，一个动作预测结果对应于一个动作交互类别。

例如，可针对“人”（人体对象）和“球”（物体对象）之间的交互关系进行识别，获得一个“人踢球”的动作预测结果的概率值（第一动作预测结果1）、一个“人踩球”的动作预测结果的概率值（第一动作预测结果2）、一个“人颠球”的动作预测结果的概率值（第一动作预测结果3），等等。

于本实施例中，交互预测值可为二分类标签，用于标识人体对象和物体对象之间的交互关系发生概率。

其中，当交互预测值越接近于1时，表示人体对象和物体对象之间的交互关系发生概率越高，反之，当交互预测值越接近于0时，表示人体对象和物体对象之间的交互关系发生概率越低。

步骤S604，根据第一动作预测值和交互预测值的加权乘积结果，获得人体对象和物体对象之间的人物交互关系识别结果。

于本实施例中，可利用预设加权乘积公式，根据第一动作预测值和交互预测值，获得人体对象和物体对象之间的人物交互关系识别结果。

其中，预设加权乘积公式可表示为：

其中，

表示人物交互关系识别结果，

表示第一动作预测值，

表示交互预测值，

和

分别为权重系数。

综上所述，本实施例通过同步输出第一动作预测值和交互预测值，以基于不同的视角进行人体和物体之间的关系推理，可以形成互补的技术效果，从而进一步提高人物交互关系识别结果的准确性。例如，当对应于“人踢球”的动作预测值的概率值较高，同时交互预测值为人与球之间不存在交互关系时，代表了人物交互关系识别结果中的第一动作预测值与交互预测值相互矛盾，则最终输出的人物交互关系识别结果的分值也相应较低。

图7示出了本公开另一示例性实施例的人物交互关系识别方法的流程示意图。本实施例为上述步骤S106的另一具体实施方案。

请配合参考图7，本实施例主要包括以下步骤：

步骤S702，根据人体对象的融合特征和物体对象的物体特征，获得第一动作预测值和交互预测值。

其中，针对第一动作预测值和交互预测值的具体内容，请参考上述步骤S602的相关描述，在此不予赘述。

步骤S704，根据人体对象的姿态特征，获得第二动作预测值。

可选地，可利用全连接层，以基于人体对象的姿态特征向量，输出一个关于人物交互动作类别的预测。

于本实施例中，第二动作预测值与第一动作预测值相同，也是一个多分类标签，用于标识人体和物体之间在不同动作交互类别上的概率分布结果，其中，一个动作预测值对应一个动作交互类别。

步骤S706，根据第一动作预测值、第二动作预测值、交互预测值的加权乘积结果，获得人体对象和物体对象之间的人物交互关系识别结果。

其中，本步骤的人物交互关系识别结果的获取方式与前述步骤S604基本相似，具体请参考上述步骤S604的相关描述，在此不予赘述。

综上所述，本实施例通过直接根据人体对象的姿态特征生成第二动作预测值，并融合第一动作预测值和第二动作预测值，由于第一动作预测值和第二动作预测值是基于不同维度的特征数据所生成的，因此，可以使得所生成的人物交互关系识别结果更为客观且准确。

图8示出了本公开另一示例性所述的人物交互关系识别方法的流程示意图。本实施例可接续上述步骤S106继续执行。如图所示，本实施例主要包括以下步骤：

步骤S802，根据预设先验知识，评估人物交互识别结果的置信度，获得人物交互关系识别结果的置信度评估结果。

于本实施例中，预设先验知识用于标识人体对象与物体对象之间的真实交互动作类别。

例如，当输出的人物交互识别结果为“人玩电动车”时，由于预设先验知识中不存在“人玩电动车”的真实交互动作类别，则此人物交互识别结果的置信度相应较低。

可选地，可根据预设先验知识、第一动作预测值、交互预测值，评估人物交互识别结果的置信度，获得人物交互关系识别结果的置信度评估结果。

可选地，可根据预设先验知识、第一动作预测值、第二动作预测值、交互预测值，评估人物交互识别结果的置信度，获得人物交互关系识别结果的置信度评估结果。

综上所述，本实施例利用了先验知识进一步评估人物交互识别结果的置信度，可进一步确保人物交互关系识别结果的准确性。

于本公开的另一示例性实施例中，可利用人物交互关系识别模型，根据人体特征、物体特征、姿态特征，预测人体对象与物体对象之间的人物交互关系识别结果。

于本实施例中，人物交互关系识别模型可包括图神经网络 (GNN，Graph NeuNetwork)。

图9示出了本实施例的人物交互关系识别模型的训练流程，其可包括以下步骤：

步骤S902，利用人物交互关系识别模型针对样本图像中的人体对象与物体对象执行人物交互关系预测，获得样本图像的第一动作预测值与交互预测值，或者获得样本图像的第一动作预测值、第二动作预测值与交互预测值。

针对本步骤中获取样本图像的第一动作预测值与交互预测值，或者获取样本图像的第一动作预测值、第二动作预测值与交互预测值的具体实施方案，可分别参考前述图6和图7所示实施例，在此不予赘述。

步骤S904，利用样本图像的真实动作标签、第一动作预测值，或者利用样本图像的真实动作标签、第一动作预测值、第二动作预测值，获得人物交互关系识别模型的多分类损失函数。

利用目标图像的真实动作标签、第一动作预测值，或者利用目标图像的真实动作标签、第一动作预测值、第二动作预测值，训练人物交互关系识别模型的多分类损失函数。

于本实施例中，多分类损失函数可表示为：

其中，

表示样本图像的真实动作标签，

表示样本图像的第一动作预测值或第二动作预测值，

和

均为调节因子。

于本实施例中，

的取值范围可介于0至1之间，

可为任意的整数值。

步骤S906，利用样本图像的真实交互标签、交互预测值，获得人物交互关系识别模型的二分类损失函数。

于本实施例中，二分类损失函数的损失形式与上述的多分类损失函数一致，区别仅在于上述公式中的

表示样本图像的真实交互标签，

为表示样本图像的交互预测值。

步骤S908，根据多分类损失函数与二分类损失函数的加和结果，训练人物交互关系识别模型，直至加和结果满足预设收敛条件。

于本实施例中，当多分类损失函数与二分类损失函数的加和结果趋于稳定时，可代表加和结果已满足预设收敛条件，则人物交互关系识别模型的训练完成。

但并不以此为限，于其他实施例中，可也当人物交互关系识别模型完成了预设训练数据集的预测任务时，代表人物交互关系识别模型的训练完成。

综上所述，本申请通过设置多分类损失函数与二分类损失函数，并根据两个损失函数的加和结果执行模型训练，可以提高模型训练效果，并提升模型预测值的准确性。

图10示出了本公开示例性实施例的人物交互关系识别装置的结构框图。如图所示，本实施例的人物交互关系识别装置1000主要包括：

识别模块1002，用于识别目标图像中的人体对象和物体对象，获得人体对象的人体特征和物体对象的物体特征，并识别人体对象的动作姿态，获得人体对象的姿态特征；

融合模块1004，用于根据人体特征和姿态特征进行融合处理，获得人体对象的融合特征。

预测模块1006，用于根据人体特征和姿态特征进行融合处理，获得人体对象的融合特征。

可选地，识别模块1002还用于：识别目标图像中每一个对象检测框内的目标对象，获取每一个目标对象的对象特征，并根据每一个目标对象的对象特征执行分类预测，获得人体对象的人体特征或物体对象的物体特征；检测包含人体对象的对象检测框中的人体关键点，获得人体对象的关键点位置信息，并根据关键点位置信息，获得人体对象的姿态特征。

可选地，识别模块1002还用于：利用多头注意力机制针对人体特征和物体特征执行增强处理，获得增强的人体特征和增强的物体特征。

可选地，识别模块1002还用于：基于预设维度，针对人体特征的初始人体特征向量和初始物体特征向量执行映射处理，获得具有预设维度的目标人体特征向量和目标物体特征向量；并基于预设维度，针对关键点坐标向量执行映射处理，获得具有预设维度的目标姿态特征向量。

可选地，融合模块1004还用于：针对同一人体对象的目标人体特征向量和目标姿态特征向量执行加和处理，获得同一人体对象的融合特征。

可选地，目标图像包括至少一个人体对象和至少一个物体对象，且预测模块1006还用于：根据每一个人体对象的融合特征、每一个物体对象的物体特征，预测每一个人体对象与每一个物体对象之间的关联关系，获得至少一个配对结果，其中，每一个配对结果包含一个人体对象与一个物体对象；根据每一个配对结果中的人体对象的融合特征与物体对象的物体特征，执行人物交互关系预测，获得每一个配对结果的人物交互关系识别结果。

可选地，预测模块1006还用于：根据人体对象的融合特征和物体对象的物体特征，获得第一动作预测值和交互预测值；根据第一动作预测值和交互预测值的加权乘积结果，获得人体对象和物体对象之间的人物交互关系识别结果；其中，第一动作预测值用于标识人体对象和物体对象之间发生的交互动作的类别概率，交互预测值用于标识人体对象和物体对象之间的交互关系发生概率。

可选地，预测模块1006还用于：根据人体对象的姿态特征，获得第二动作预测值；根据第一动作预测值、第二动作预测值、交互预测值的加权乘积结果，获得人体对象和物体对象之间的人物交互关系识别结果。

可选地，预测模块1006还用于：根据预设先验知识，评估人物交互识别结果的置信度，获得人物交互关系识别结果的置信度评估结果；其中，预设先验知识用于标识人体对象与物体对象之间的真实交互动作类别。

可选地，预测模块1006还用于：利用人物交互关系识别模型，根据融合特征、物体特征、姿态特征，预测人体对象与物体对象之间的人物交互关系识别结果。

可选地，人物交互关系识别装置1000还包括训练模块，利用人物交互关系识别模型针对样本图像中的人体对象与物体对象执行人物交互关系预测，获得样本图像的第一动作预测值与交互预测值，或者获得样本图像的第一动作预测值、第二动作预测值与交互预测值；利用样本图像的真实动作标签、第一动作预测值，或者利用样本图像的真实动作标签、第一动作预测值、第二动作预测值，获得人物交互关系识别模型的多分类损失函数；利用样本图像的真实交互标签、交互预测值，获得人物交互关系识别模型的二分类损失函数；根据多分类损失函数与二分类损失函数的加和结果，训练人物交互关系识别模型，直至加和结果满足预设收敛条件。

此外，本公开实施例的人物交互关系识别装置1000还可用于实现前述各人物交互关系识别方法实施例中的其他步骤，并具有相应的方法步骤实施例的有益效果，在此不再赘述。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开各实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开各实施例的方法。

参考图11，现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器（ROM）1102中的计算机程序或者从存储单元1108加载到随机访问存储器（RAM）1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出（I/O）接口1105也连接至总线1104。

电子设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106、输出单元11011、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备，输入单元1106可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元11011可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1104可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如，在一些实施例中，前述各实施例的人物交互关系识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中，计算单元1101可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行人物交互关系识别方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种人物交互关系识别方法，包括：

识别目标图像中的人体对象和物体对象，获得所述人体对象的人体特征和所述物体对象的物体特征，并识别所述人体对象的动作姿态，获得所述人体对象的姿态特征；

根据所述人体特征和姿态特征进行融合处理，获得所述人体对象的融合特征；

根据所述融合特征和所述物体特征执行人物交互关系预测，获得所述人体对象与所述物体对象之间的人物交互关系识别结果。

2.根据权利要求1所述的人物交互关系识别方法，其中，所述识别目标图像中的人体对象和物体对象，获得所述人体对象的人体特征和所述物体对象的物体特征，并识别所述人体对象的动作姿态，获得所述人体对象的姿态特征，包括：

识别所述目标图像中每一个对象检测框内的目标对象，获取每一个目标对象的对象特征，并根据每一个目标对象的对象特征执行分类预测，获得所述人体对象的人体特征或所述物体对象的物体特征；

检测包含所述人体对象的对象检测框中的人体关键点，获得所述人体对象的关键点位置信息，并根据所述关键点位置信息，获得所述人体对象的姿态特征。

3.根据权利要求1所述的人物交互关系识别方法，其中，所述方法还包括：

利用多头注意力机制针对所述人体特征和所述物体特征执行增强处理，获得增强的人体特征和增强的物体特征。

4.根据权利要求2或3所述的人物交互关系识别方法，其中，所述人体对象的人体特征包括初始人体特征向量，所述物体特征包括初始物体特征向量，所述人体对象的关键点位置信息包括关键点坐标向量；

其中，所述方法还包括：

基于预设维度，针对所述人体特征的初始人体特征向量和所述初始物体特征向量执行映射处理，获得具有所述预设维度的目标人体特征向量和目标物体特征向量；

基于所述预设维度，针对所述关键点坐标向量执行映射处理，获得具有所述预设维度的目标姿态特征向量。

5.根据权利要求4所述的人物交互关系识别方法，其中，所述根据所述人体特征和姿态特征进行融合处理，获得所述人体对象的融合特征，包括：

针对同一人体对象的目标人体特征向量和目标姿态特征向量执行加和处理，获得所述同一人体对象的融合特征。

6.根据权利要求1或5所述的人物交互关系识别方法，其中，所述目标图像包括至少一个人体对象和至少一个物体对象；

且其中，所述根据所述融合特征和所述物体特征执行人物交互关系预测，获得所述人体对象与所述物体对象之间的人物交互关系识别结果，包括：

根据每一个人体对象的融合特征、每一个物体对象的物体特征，预测每一个人体对象与每一个物体对象之间的关联关系，获得至少一个配对结果，其中，每一个配对结果包含一个人体对象与一个物体对象；

根据每一个配对结果中的人体对象的融合特征与物体对象的物体特征，执行人物交互关系预测，获得每一个配对结果的人物交互关系识别结果。

7.根据权利要求1所述的人物交互关系识别方法，其中，所述根据所述融合特征和所述物体特征执行人物交互关系预测，获得所述人体对象与所述物体对象之间的人物交互关系识别结果，包括：

根据所述人体对象的融合特征和所述物体对象的物体特征，获得第一动作预测值和交互预测值；

根据所述第一动作预测值和所述交互预测值的加权乘积结果，获得所述人体对象和所述物体对象之间的所述人物交互关系识别结果；

其中，所述第一动作预测值用于标识所述人体对象和所述物体对象之间发生的交互动作的类别概率，所述交互预测值用于标识所述人体对象和所述物体对象之间的交互关系发生概率。

8.根据权利要求7所述的人物交互关系识别方法，其中，所述方法还包括：

根据所述人体对象的姿态特征，获得第二动作预测值；

根据所述第一动作预测值、所述第二动作预测值、所述交互预测值的加权乘积结果，获得所述人体对象和所述物体对象之间的所述人物交互关系识别结果。

9.根据权利要求1、7、8中任一项所述的人物交互关系识别方法，其中，所述方法还包括：

根据预设先验知识，评估所述人物交互识别结果的置信度，获得所述人物交互关系识别结果的置信度评估结果；

其中，所述预设先验知识用于标识人体对象与物体对象之间的真实交互动作类别。

10.根据权利要求1、7、8中任一项所述的人物交互关系识别方法，其中，所述方法还包括：

利用人物交互关系识别模型，根据所述融合特征、所述物体特征，预测所述人体对象与所述物体对象之间的人物交互关系识别结果，或者利用人物交互关系识别模型，根据所述融合特征、所述物体特征、所述姿态特征，预测所述人体对象与所述物体对象之间的人物交互关系识别结果；

其中，所述人物交互关系识别模型可通过以下训练步骤获得：

利用所述人物交互关系识别模型针对样本图像中的人体对象与物体对象执行人物交互关系预测，获得所述样本图像的第一动作预测值与交互预测值，或者获得所述样本图像的第一动作预测值、第二动作预测值与交互预测值；

利用所述样本图像的真实动作标签、所述第一动作预测值，或者利用所述样本图像的真实动作标签、所述第一动作预测值、所述第二动作预测值，获得所述人物交互关系识别模型的多分类损失函数；

利用所述样本图像的真实交互标签、所述交互预测值，获得所述人物交互关系识别模型的二分类损失函数；

根据所述多分类损失函数与所述二分类损失函数的加和结果，训练所述人物交互关系识别模型，直至所述加和结果满足预设收敛条件。

11.一种人物交互关系识别装置，包括：

识别模块，用于识别目标图像中的人体对象和物体对象，获得所述人体对象的人体特征和所述物体对象的物体特征，并识别所述人体对象的动作姿态，获得所述人体对象的姿态特征；

融合模块，用于根据所述人体特征和姿态特征进行融合处理，获得所述人体对象的融合特征；

预测模块，用于根据所述融合特征和所述物体特征执行人物交互关系预测，获得所述人体对象与所述物体对象之间的人物交互关系识别结果。

12.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-10中任一项所述的方法。