CN116758402B

CN116758402B - 图像人物关系识别方法、系统、设备及存储介质

Info

Publication number: CN116758402B
Application number: CN202311029481.4A
Authority: CN
Inventors: 徐童; 陈恩红; 吴世伟; 张超; 陈卓; 吴李康
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-11-28
Anticipated expiration: 2043-08-16
Also published as: CN116758402A

Abstract

本发明公开了一种图像人物关系识别方法、系统、设备及存储介质，它们是一一对应的方案，相关方案中：构建基于Transformer的轻量级多模态辅助网络学习社交关系识别，同时利用语言和图片上下文社交概念来学习与语言对齐的社交感知视觉表示，并利用视觉语言对比进行社交关系的识别，相较于传统方案而言，本发明融入了更丰富的语义信息到社交关系识别问题，在社交关系识别精度上取得了突破的效果。

Description

图像人物关系识别方法、系统、设备及存储介质

技术领域

本发明涉及计算机视觉和自然语言处理领域，尤其涉及一种图像人物关系识别方法、系统、设备及存储介质。

背景技术

识别图片中人类社交关系对于视觉语义理解任务非常关键。通过分析视觉信息中的社交关系，不仅有助于深入、全面地理解视觉语义信息，还可以有效支持各种下游应用，如个性化内容推荐和定向广告等。然而，由于视觉证据与高级语义之间存在巨大的鸿沟，识别社交关系仍然是一个极具挑战性的任务。

现有的社交关系识别技术主要基于纯视觉分类的方法，这种方法擅长于视觉上明显的预测性识别（例如骑行，推动），但在捕捉富含语义的社交关系方面表现不佳（例如友谊，敌人）。与此同时，大规模的多模态预训练模型（例如对比语言图像预训练模型CLIP），通过对大量的配对图像文本数据进行对比学习的训练，已经获得了深度语义嵌入，能够捕捉广泛的语义知识，但是，直接将多模态预训练模型应用于图像人物关系识别任务往往会导致灾难性遗忘的问题，无法准确的实现图像人物关系。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供一种图像人物关系识别方法、系统、设备及存储介质，可以较为准确的识别图像人物关系。

本发明的目的是通过以下技术方案实现的：

一种图像人物关系识别方法，包括：

构建包括视觉分支与语言分支的人物社交关系识别模型，所述视觉分支中设有图像编码器，语言分支中设有文本编码器，且视觉分支与语言分支共享同一个包含若干Transformer层的多模态辅助网络；其中，Transformer表示转换器模型；

利用人物社交关系识别模型识别图像人物关系：通过视觉分支中的图像编码器对待识别图像进行编码，获得包含全局上下文特征的分类符嵌入，并且图像编码器的若干层视觉中间特征对应地输入至所述多模态辅助网络的相应Transformer层，最终由多模态辅助网络输出图片嵌入，结合所述图片嵌入与包含全局上下文特征的分类符嵌入，获得给定人物对对应的融入了全局信息的人物对特征；在语言分支中，使用社交相关的语料库，基于与待识别图像的跨模态相似度选取视觉词汇，并结合视觉词汇为每个关系类别标签构建社交提示，结合文本编码器与多模态辅助网络对社交提示进行编码，获得社交提示嵌入；基于融入了全局信息的人物对特征与社交提示嵌入进行视觉语言对比分类，预测给定人物对的社交关系。

一种图像人物关系识别系统，包括：

模型构建单元，用于构建包括视觉分支与语言分支的人物社交关系识别模型，所述视觉分支中设有图像编码器，语言分支中设有文本编码器，且视觉分支与语言分支共享同一个包含若干Transformer层的多模态辅助网络；其中，Transformer表示转换器模型；

识别单元，用于利用人物社交关系识别模型识别图像人物关系：通过视觉分支中的图像编码器对待识别图像进行编码，获得包含全局上下文特征的分类符嵌入，并且图像编码器的若干层视觉中间特征对应地输入至所述多模态辅助网络的相应Transformer层，最终由多模态辅助网络输出图片嵌入，结合所述图片嵌入与包含全局上下文特征的分类符嵌入，获得给定人物对对应的融入了全局信息的人物对特征；在语言分支中，使用社交相关的语料库，基于与待识别图像的跨模态相似度选取视觉词汇，并结合视觉词汇为每个关系类别标签构建社交提示，结合文本编码器与多模态辅助网络对社交提示进行编码，获得社交提示嵌入；基于融入了全局信息的人物对特征与社交提示嵌入进行视觉语言对比分类，预测给定人物对的社交关系。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，构建基于Transformer的轻量级多模态辅助网络学习社交关系识别，同时利用语言和图片上下文社交概念来学习与语言对齐的社交感知视觉表示，并利用视觉语言对比进行社交关系的识别，相关验证证实本发明方案可以在真实场景下获得良好的识别效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种图像人物关系识别方法的流程图；

图2为本发明实施例提供的人物社交关系识别模型的整体框架示意图；

图3为本发明实施例提供的一种图像人物关系识别系统的示意；

图4为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

下面对本发明所提供的一种图像人物关系识别方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种图像人物关系识别方法，如图1所示，其主要包括如下步骤：

1、构建包括视觉分支与语言分支的人物社交关系识别模型，所述视觉分支中设有图像编码器，语言分支中设有文本编码器，且视觉分支与语言分支共享同一个包含若干Transformer层的多模态辅助网络；其中，Transformer是行业中的专有名称，是深度学习的一种非常基础的模型，可以理解为一种转换器模型，在本发明实施例中，使用Transformer作为基础模型，但是，具体应用时可根据数据实际情况替换其他类似的基础模型。

2、利用人物社交关系识别模型识别图像人物关系。

（1）通过视觉分支中的图像编码器对待识别图像进行编码，获得包含全局上下文特征的分类符嵌入，并且图像编码器的若干层视觉中间特征对应地输入至所述多模态辅助网络的相应Transformer层，最终由多模态辅助网络输出图片嵌入，结合所述图片嵌入与包含全局上下文特征的分类符嵌入，获得给定人物对对应的融入了全局信息的人物对特征。

本发明实施例中，在视觉分支中，从上下文和人际关系的角度进行关系推理，包括三个部分：第一部分是人际关系推理，利用特征抽取方法从多模态辅助网络输出的图片嵌入中抽出图片中所有人物的特征，并利用多头自注意力对人物间潜在联系进行学习。第二部分是上下文推理，利用融入了人际关系信息的人物特征矩阵对图片特征实施交叉注意力操作，将图片上下文中的重要信息整合到人物特征中。第三部分是全局上下文融合，将需要识别的人物对的特征拼接，并利用门控机制将其与包含全局上下文特征的分类符嵌入进行特征融合，得到融入了全局信息的人物对特征。

（2）在语言分支中，使用社交相关的语料库，基于与待识别图像的跨模态相似度选取视觉词汇，并结合视觉词汇为每个关系类别标签构建社交提示，结合文本编码器与多模态辅助网络对社交提示进行编码，获得社交提示嵌入。

（3）基于融入了全局信息的人物对特征与社交提示嵌入进行视觉语言对比分类，预测给定人物对的社交关系。

本发明实施例中，可以利用余弦相似度计算人物对特征与每个类别标签构建的社交提示嵌入的相关性，相关性最大的社交关系类别即为模型识别得到的给定人物对的社交关系。

本发明实施例提供的上述方案，构建基于Transformer的轻量级多模态辅助网络学习社交关系识别，同时利用语言和图片上下文社交概念来学习与语言对齐的社交感知视觉表示，并利用视觉语言对比进行社交关系的识别，相关验证证实本发明方案可以在真实场景下获得良好的识别效果。相比于传统的关系识别方法，融入了更丰富的语义信息到社交关系识别问题，同时有效地微调预训练大模型（优化多模态辅助网络），减少了可训练参数也避免了严重的过拟合，因此在社交关系识别精度上取得了突破的效果。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述，其中所涉及的参数仅限于以下实施例，具体的参数设置应根据实际应用场景中的数据特点进行调整。

一、数据预处理。

本发明实施例中，针对图像数据进行预处理，使其能够直接被后续模型使用。此处的预处理主要是指，将将原始图像以及给定人物的兴趣区域进行比例缩放。

示例性的：可以将原始图像缩放为224×224像素大小的图像，并将给定人物的兴趣区域进行等比例缩放。

二、模型建立与原理介绍。

1、模型建立。

在模型的建立中，首先构建轻量级的多模态辅助网络，视觉分支中的图像编码器可以使用CLIP模型中的图像编码器实现，语言分支中的文本编码器可以使用CLIP模型文本编码器实现。

如图2所示，展示了人物社交关系识别模型的整体框架。图2中以多模态辅助网络包含4个Transformer层作为示例，同时，对于视觉分支，将图像编码器的第0、3、6、9和12层的视觉中间特征依次合并到多模态辅助网络的第0、1、2、3和4层的视觉中间特征中；对于语言分支，将CLIP文本编码器的第3、6、9和12个语言中间特征依次合并到多模态辅助网络的第1、2、3和4层的语言中间特征中；此处呈现的多模态辅助网络与两个分支的结构仅为示例，并非构成限制。图2中的两处雪花符号表示冻结图像编码器与文本编码器，即模型训练时不更新二者的参数。

2、原理介绍。

（1）多模态辅助网络。

本发明实施例中，多模态辅助网络利用门控机制分别将图像编码器的视觉中间特征、以及文本编码器的文本中间特征融合到自身的视觉中间特征中，并输入到下一层Transformer层中学习潜在联系，最后一层Transformer层输出的视觉中间特征与图像编码器的相应视觉中间特征融合为图片嵌入，最后一层Transformer层输出的视觉中间特征与图像编码器的相应文本中间特征融合为语言特征（即社交提示嵌入）。其中，多模态辅助网络的参数由视觉语言模态共享（即两个分支共享）。

本发明实施例中，多模态辅助网络利用门控机制将图像编码器的第i层视觉中间特征融合至第j层Transformer层的视觉中间特征中，表示为：

；

其中，表示图像编码器的第i层视觉中间特征（从待识别图像中提取出的特征），/>表示第j层Transformer层的视觉中间特征，/>表示融合后的第j层Transformer层的视觉中间特征，/>表示第j层Transformer层针对视觉分支的门控融合系数，/>是第j层Transformer层针对视觉分支的可学习门控参数，/>表示温度系数，sigmoid函数是一种S型函数。

再输入至第j+1层Transformer层，获得第j+1层Transformer层的视觉中间特征，表示为：

；

其中，表示第j+1层Transformer层的视觉中间特征，TransformerLayer表示Transformer层。

类似的，对于语言分支，多模态辅助网络同样利用门控机制将语言中间特征融合到相应层Transformer层的语言中间特征中，方法如下：

多模态辅助网络利用门控机制将文本编码器的第层语言中间特征融合至第j层Transformer层的语言中间特征中，表示为：

；

其中，为文本编码器的第层语言中间特征（从社交提示中提取的特征），表示第j层Transformer层的语言中间特征，表示融合后的第j层Transformer 层的语言中间特征，表示第j层Transformer层针对语言分支的门控融合系数，是第j 层Transformer层针对语言分支的可学习门控参数。

同样的，再输入至第j+1层Transformer层，获得第j+1层Transformer层的语言中间特征，表示为：

；

其中，表示第j+1层Transformer层的语言中间特征，TransformerLayer表示Transformer层。

基于上述流程，最终得到多模态辅助网络的视觉特征（即图片嵌入）和语言特征/>。

（2）视觉分支。

视觉分支中图像编码器最终输出包含全局上下文特征的分类符嵌入，此部分流程可参照常规技术实现，本发明不赘述。

此外，在视觉分支中，还从上下文和人际关系的角度进行关系推理。主要步骤如下：（A1）利用特征抽取方法根据给定的边界框从图片嵌入中抽出图像中所有人物的特征，获得所有人物的特征向量；（A2）将所有人物的特征向量进行拼接得到人物特征矩阵P，之后，利用多头自注意力机制结合人物特征矩阵P对所有人物的特征进行人际关系推理得到融入人际关系的人物特征矩阵；（A3）再将融入人际关系的人物特征矩阵/>对图片嵌入实施交叉注意力操作，得到融入图片上下文信息的人物特征/>；（A4）从人物特征/>中提取出指定人物对的融入图片上下文信息的人物特征向量，并进行拼接，获得人物对特征/>，利用门控机制将人物对特征/>与包含全局上下文特征的分类符嵌入进行特征融合，得到融入了全局信息的人物对特征U。

其中，利用门控机制将人物对特征与包含全局上下文特征的分类符嵌入进行特征融合，得到融入了全局信息的人物对特征U的方式表示为：

；

其中，z为一个中间变量，和/>为分别针对人物对特征/>和包含全局上下文特征的分类符嵌入/>的门控矩阵，/>为偏置项，公式中的符号/>表示对应元素乘积。

（3）语言分支。

本发明实施例中，语言分支中生成社交提示，以及对社交提示编码，获得社交提示嵌入。

生成社交提示的方式包括：

（B1）引入多个社交相关的语料库，不同语料库分别对应场景类别、场景属性/>、物品类别/>与情感类别/>；为每一语料库中的每一类别构建对应的提示文本，将每一类别作为一个视觉词汇。其中，/>中的每一项表示一个场景类别，/>为对应场景类别语料库的大小（即场景类别数目），/>中的每一项表示一个场景属性，/>为对应场景属性语料库的大小（即场景属性数目），/>中的每一项表示一个物品类别，/>为对应物品类别语料库的大小（即物品类别数目），中的每一项表示一个情感类别，/>为对应情感类别语料库的大小（即情感类别数目）。

为每一语料库中的每一类别构建对应的提示文本，下面提供提示文本模板的示例：

，，，。

以上四个模板依次为场景类别、场景属性、物品类别、情感类别对应的提示文本模板，对应的含义为：这张照片拍摄于，图像的场景属性为/>，这张照片中有物品/>，这张照片中的情感类别为/>，/>、/>、/>与/>为相应语料库的索引符号，，/>，/>，/>。

（B2）通过文本编码器进行编码，形成每一视觉词汇的文本特征；利用视觉词汇的文本特征与待识别图像的图像特征之间的相似度，从每一语料库中选择与待识别图像的图像特征相似度最高的指定数目的视觉词汇。

本发明实施例中，通过文本编码器编码即为经过文本编码器一系列编码层进行编码，待识别图像的图像特征即为通过图像编码器一系列编码层获得的图像特征。

示例性的，可以选择余弦相似度来确定每个语料库中针对给定图像的相关视觉词汇文本特征，以选择视觉词汇；为每个语料库选择5个最相关的视觉词汇来构建社交提示，由于情感语料库中视觉词汇的数量受限，因此只选择最相关的1个情感视觉词汇。因此，得到给定图片的视觉词汇，其中，表示从场景类别语料库中选出的5个视觉词汇，/>表示从场景属性语料库中选出的5个视觉词汇，/>表示从物品类别语料库中选出的5个视觉词汇，/>表示从情感类别语料库选出的1个视觉词汇。当然，此处提供的具体数目仅为示例。

（B3）结合选出的视觉词汇为每个社交关系分别构建类名提示，并且，为选出的视觉词汇构建提示模板，将每个社交关系的类名提示分别与提示模板合并，生成每个社交关系对应的社交提示。

示例性的：社交关系构建类名提示的模板可以描述为：。

以上模板内容的含义为：在这张照片中，人物对的社会关系是，此处的/>表示社交关系的类别名称。

示例性的：为视觉词汇构建提示模板：

Backgrounds of this photo are. This photo showsscenes. There are /> in this photo. This photoshows />emotions。

以上模板内容的含义为：这张照片的背景是，这张照片显示场景，这张照片里面有物品/>，这张照片显示/>情感。

本发明实施例中，利用多模态辅助网络以及文本编码器对所有社交提示进行编码，可以得到所有社交关系类别的社交提示嵌入，其中/>表示社交关系类别的数量，此处的多模态辅助网络以及文本编码器的编码过程详见前文的介绍，获得的每一社交提示嵌入即为前文所述的语言特征。

（4）视觉语言对比分类。

对基于视觉分支和语言分支得到的人物对特征U以及社交提示嵌入进行视觉语言对比分类，来推断给定人物对的社交关系。具体而言，利用余弦相似度计算人物对特征与每个类别标签构建的社交提示嵌入的相关性，其中相关性最大的社交关系类即为模型识别得到的社交关系，计算方式表示为：

；

其中，c为相关性向量，每一项表示利用余弦相似度计算出的一类社交关系类别的社交提示嵌入与人物对特征U的相关性，表示余弦相似度，/>即为上式中的一类社交关系类别的社交提示嵌入，/>为人物对特征U，T为转置符号。

三、模型训练。

本发明实施例中，预先对所述人物社交关系识别模型进行训练，利用人物社交关系识别模型预测的给定人物对的社交关系与给定人物对的社交关系标签计算分类损失函数。具体而言，结合前述介绍的方式，将训练图像输入至人物社交关系识别模型，获得相关性向量c，并计算如下分类损失函数：

；

其中，表示交叉熵函数，y表示给定人物对的社交关系标签。

使用AdamW算法（它是一种自适应学习率优化算法）来更新人物社交关系识别模型参数，如图2所示，冻结图像编码器与文本编码器，因此，主要利用所述分类损失函数人物社交关系更新识别模型中多模态辅助网络的参数，以适应社交关系识别任务。示例性的：所有可训练参数的学习率为0.0001，并利用余弦退火算法逐渐降低学习率，权重衰减参数为0.05，训练轮数为6轮，每个批次的大小为32。

四、模型预测。

模型训练完毕后，应用于图像人物关系识别，识别方式即为前文介绍的方式，即：输入待识别图像至训练后的人物社交关系识别模型，获得相关性向量c，其中的最大相关性对应的社交关系类即为给定人物对的社交关系。以上方案，可以充分利用已有数据学习出效果良好的人物社交关系识别模型，在此基础之上完成面向图片人物间的社交关系识别。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种图像人物关系识别系统，其主要用于实现前述实施例提供的方法，如图3所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图4所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种图像人物关系识别方法，其特征在于，包括：

2.根据权利要求1所述的一种图像人物关系识别方法，其特征在于，所述图像编码器的若干层视觉中间特征对应地输入至所述多模态辅助网络的相应Transformer层，最终由多模态辅助网络输出图片嵌入包括：

多模态辅助网络利用门控机制将图像编码器的视觉中间特征融合到自身的视觉中间特征中，并输入到下一层Transformer层中学习潜在联系，最后一层Transformer层输出的视觉中间特征与图像编码器的相应视觉中间特征融合为图片嵌入；

其中，多模态辅助网络利用门控机制将图像编码器的第i层视觉中间特征融合至第j层Transformer层的视觉中间特征中，表示为：

；

其中，表示图像编码器的第i层视觉中间特征，/>表示第j层Transformer层的视觉中间特征，/>表示融合后的第j层Transformer层的视觉中间特征，/>表示第j层Transformer层针对视觉分支的门控融合系数，/>是第j层Transformer层针对视觉分支的可学习门控参数，/>表示温度系数，sigmoid函数是一种S型函数；

；

3.根据权利要求1所述的一种图像人物关系识别方法，其特征在于，所述结合所述图片嵌入与包含全局上下文特征的分类符嵌入，获得给定人物对对应的融入了全局信息的人物对特征包括：

利用特征抽取方法根据给定的边界框从图片嵌入中抽出图像中所有人物的特征，获得所有人物的特征向量；

将所有人物的特征向量进行拼接得到人物特征矩阵P，之后，利用多头自注意力机制结合人物特征矩阵P对所有人物的特征进行人际关系推理得到融入人际关系的人物特征矩阵；

再将融入人际关系的人物特征矩阵对图片嵌入实施交叉注意力操作，得到融入图片上下文信息的人物特征/>；

从人物特征中提取出指定人物对的融入图片上下文信息的人物特征向量，并进行拼接，获得人物对特征/>，利用门控机制将人物对特征/>与包含全局上下文特征的分类符嵌入进行特征融合，得到融入了全局信息的人物对特征U。

4.根据权利要求3所述的一种图像人物关系识别方法，其特征在于，利用门控机制将人物对特征与包含全局上下文特征的分类符嵌入进行特征融合，得到融入了全局信息的人物对特征U的方式表示为：

；

其中，z为一个中间变量，和/>为分别针对人物对特征/>和包含全局上下文特征的分类符嵌入/>的门控矩阵，/>为偏置项，以上公式中的符号/>表示对应元素乘积。

5.根据权利要求1所述的一种图像人物关系识别方法，其特征在于，所述使用社交相关的语料库，基于与待识别图像的跨模态相似度选取视觉词汇，并结合视觉词汇为每个关系类别标签构建社交提示包括：

引入多个社交相关的语料库，不同语料库分别对应场景类别、场景属性、物品类别与情感类别；为每一语料库中的每一类别构建对应的提示文本，将每一类别作为一个视觉词汇，并通过文本编码器进行编码，形成每一视觉词汇的文本特征；利用视觉词汇的文本特征与待识别图像的图像特征之间的相似度，从每一语料库中选择与待识别图像的图像特征相似度最高的指定数目的视觉词汇；

结合选出的视觉词汇为每个社交关系分别构建类名提示，并且，为选出的视觉词汇构建提示模板，将每个社交关系的类名提示分别与提示模板合并，生成每个社交关系对应的社交提示。

6.根据权利要求1或5所述的一种图像人物关系识别方法，其特征在于，所述结合文本编码器与多模态辅助网络对社交提示进行编码，获得社交提示嵌入包括：

多模态辅助网络利用门控机制将文本编码器的文本中间特征融合到自身的视觉中间特征中，并输入到下一层Transformer层中学习潜在联系，最后一层Transformer层输出的视觉中间特征与图像编码器的相应文本中间特征融合为语言特征，即社交提示嵌入；

其中，多模态辅助网络利用门控机制将文本编码器的第层语言中间特征融合至第j层Transformer层的语言中间特征中，表示为：

；

其中，为文本编码器的第/>层语言中间特征，/>表示第j层Transformer层的语言中间特征，/>表示融合后的第j层Transformer层的语言中间特征，/>表示第j层Transformer层针对语言分支的门控融合系数，/>是第j层Transformer层针对语言分支的可学习门控参数，/>表示温度系数，sigmoid函数是一种S型函数；

再输入至第j+1层Transformer层，获得第j+1层Transformer层的语言中间特征，表示为：

；

7.根据权利要求1所述的一种图像人物关系识别方法，其特征在于，该方法还包括：预先对所述人物社交关系识别模型进行训练，利用人物社交关系识别模型预测的给定人物对的社交关系与给定人物对的社交关系标签计算分类损失函数，利用所述分类损失函数更新人物社交关系识别模型中多模态辅助网络的参数。

8.一种图像人物关系识别系统，其特征在于，包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。