CN113688864A

CN113688864A - 一种基于分裂注意力的人-物交互关系分类方法

Info

Publication number: CN113688864A
Application number: CN202110796727.5A
Authority: CN
Inventors: 胡荣林; 陈青云; 董甜甜; 朱全银; 顾圆圆; 赵志勇; 何旭琴; 邵鹤帅; 王媛媛; 朱诗雯; 张粤
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-11-23
Anticipated expiration: 2041-07-14
Also published as: CN113688864B

Abstract

本发明涉及计算机视觉技术领域，公开了一种基于分裂注意力的人‑物交互关系分类方法，构建基础网络块、特征分裂模块以及实例级自注意力模块组成分裂注意力神经网络；将底层特征输入分裂注意力神经网络中，得到人和物的外观特征BP；通过对特征进行裁剪、卷积、池化后得到人的局部动作特征，将图像映射为双通道二值图并提取"人‑物"对的空间特征，将空间特征与人的局部动作特征按通道拼接后输入分裂注意力神经网络，得到"人‑物"对的空间特征CP；将BP与CP通过自注意力机制进行特征融合，得到分类结果。与现有技术相比，本发明能够在不增加计算开销的前提下，更加精确地对相似交互关系进行人‑物交互关系分类。

Description

一种基于分裂注意力的人-物交互关系分类方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于分裂注意力的人-物交互关系分类方法。

背景技术

人-物交互关系分类是计算机视觉领域的研究热点之一，其不仅具有重要的理论意义，而且具有广阔的应用前景。目前交互关系分类方法主要是从视频或者图像中精确的提取人体动作和空间上的特征表达，对人体行为进行建模。在对特征进行计算的过程中，通常使用带步长的卷积来减少图像空间的维度，这必然会丢失大量的空间信息。然而，对于下游任务，空间信息是至关重要的。针对交互关系的判别问题，现有的技术主要通过提取动作特征和空间特征去表达“人-物”对之间的特征关系；针对提取的特征对于交互关系区分度较低的问题，现有技术主要通过多种特征融合以丰富特征的表达效果。

在基于图像的人体动作识别方面，最近的文献主要使用局部特征、全局特征或不同维度的特征表达，提高特征质量、增加特征之间的区分度，从而提高分类效果。例如授权专利：基于多特征融合的人体交互行为识别方法、系统及装置.中国专利110619261A[P],2019.12.27。但这类方法仅将高层特征进行不同方式的融合，缺乏对低层特征的考虑，忽略了低层特征包含的更多位置、空间等细节信息。

在人-物交互关系分类方面，近期文献主要使用Attention机制以及多分支思想学习人-物交互中的动作特征与空间特征，从而实现对人-物交互关系分类。这一类方法需要使用注意力机制，但是受限于较小的感受野和单通道特征，必然会损失掉大量的空间信息，而对于目标检测和分类任务，空间信息是至关重要的。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于分裂注意力的人-物交互关系分类方法，能够在不增加计算开销的前提下，更加精确地对相似交互关系进行人-物交互关系分类。

技术方案：本发明提供了一种基于分裂注意力的人-物交互关系分类方法，包括如下步骤：

步骤1：输入带标签的图像数据，对图像数据进行像素平均并映射成三通道的特征向量；

步骤2：构建基础网络块、特征分裂模块以及实例级自注意力模块，将基础网络块、特征分裂模块和实例级自注意力模块组成分裂注意力神经网络；

步骤3：利用基础网络块取提图像的底层特征，将底层特征输入分裂注意力神经网络中，网络中将提取到的外观特征与底层特征融合，得到人和物的外观特征BP；

步骤4：利用基础网络块提取图像的底层特征，并通过对特征进行裁剪、卷积、池化后得到人的局部动作特征，将图像映射为双通道二值图并提取"人-物"对的空间特征，将空间特征与人的局部动作特征按通道拼接后输入分裂注意力神经网络，得到能够减少空间歧义的"人-物"对的空间特征CP；

步骤5：将BP与CP通过自注意力机制进行特征融合，得到最终分类结果。

进一步地，所述步骤2中基础网络块结构如下：所述基础网络块由4个不同深度的残差块组成的ResNet-50主干网以及一个独立的残差模块组成；

所述ResNet-50主干网结构为：首先构建一个两层的基础模块，包括步长为2的二维卷积层与最大池化层；再构建五个深度不同的残差块，深度分别为64，128，256，512，512；利用基础模块与前四个残差块生成ResNet-50作为基础网络；

所述独立的残差模块不在ResNet-50中，用于分别处理人、物两种目标的特征。

进一步地，所述步骤2中的特征分裂模块具体结构为：依次设置的卷积层、relu激活操作、特征分裂层、平均池化、连接层、relu激活操作、全连接层、softmax、注意力分裂层、特征融合；具体步骤为：

S1.1：将底层特征输入独立的残差模块，并在1和2维上计算平均值，得到通道数为512的特征向量；

S1.2：通过所述特征分裂层将S1.1中特征向量按通道切分为多个子特征向量，并将子特征向量按通道相加融合，再将融合后的特征向量进行归一化和可覆盖的relu激活操作，

得到特征向量T1；

S1.3：将特征分裂模块中所有的全连接层，都设置为1×1的二维卷积操作；

S1.4:将卷积层的卷积操作设置为三个3×3的二维卷积，减小特征在卷积过程中丢失的空间信息；

S1.5：将特征向量T1转换为(batch,2,channels)，只将特征的第二维设置为2，再通过softmax操作将特征形状转换为(batch,-1,1,1)，得到注意力向量；

S1.6：通过注意力分裂层将S1.4中注意力向量按通道切分为多个子注意力向量；

S1.7：将子特征向量与相应的子注意力向量相乘，再通过相加融合，得到已增大感受野的特征向量。

进一步地，所述步骤2中实例级自注意力模块具体结构为：卷积层、池化层，归一化操作、自注意力层、全连接层；具体步骤为：

S2.1：将底层特征输入独立的残差模块，并在1和2维上计算平均值，得到通道数为512的特征向量；

S2.2：将通道数为512的特征向量送入池化层，并将特征转换为第二、三维大小为1的特征向量，将其与输入的原始特征做元素级的相乘，得到注意力向量；

S2.3：将S2.2中注意力向量进行归一化操作得到特征向量X；

S2.4：将S2.3中特征向量X输入自注意力层，得到特征向量X1；

S2.5：将特征向量X1输入全连接层，使用池化代替全连接中带步长的卷积，得到通道数为1024的注意力向量。

进一步地，所述步骤3中具体步骤为：

S3.1：将步骤1的三通道的特征向量输入基础网络ResNet-50中，通过卷积和池化操作得到底层的全局特征；

S3.2：对所述全局特征进行边缘填充后经过两次卷积与池化，再将得到的特征张量扁平化得到图像的外观特征；

S3.3：利用步骤1中得到的人和物的目标框，对S3.2中外观特征裁剪得到人和物相应的局部特征R；

S3.4：将人和物的局部特征R分别输入到步骤2构建的特征分裂模块中，得到人和物局部的外观特征R1；

S3.5：将人和物的局部特征R输入到步骤2中构建的独立的残差模块中，并在第一、二维计算平均值进行降维，得到人和物局部的外观特征R2；

S3.6：利用两个通道数为512的1×1卷积，分别与外观特征R2进行softmax操作，得到人和物局部的外观特征R3；

S3.7：将人和物局部的外观特征R1与R3按通道进行拼接，再输入到步骤2中构建的实例级自注意力模块，并利用自注意力机制突出显示图像中的相关区域，得到精确的人和物的外观特征BP。

进一步地，所述步骤4中具体步骤为：

S4.1：将步骤1的三通道的特征向量输入基础网络ResNet-50中，通过卷积和池化操作得到底层的全局特征；

S4.2：将步骤1中得到的人和物的目标框作为参考框，对全局特征进行双通道二值映射，并从双通道二值图中提取"人-物"对的空间特征；

S4.3：利用步骤1中得到的人的目标框，对S4.1底层的全局特征裁剪得到人的局部特征，再通过卷积与池化得到人的局部动作特征；

S4.4：将S4.3中人的局部动作特征与S4.2中"人-物"对的空间特征按通道拼接，再与S4.3中人的局部特征相加融合，得到跨通道的特征张量；

S4.5：将跨通道的特征张量分别输入特征分裂模块与实例级自注意力模块，得到"人-物"对的空间特征CP。

进一步地，所述步骤5的具体方法为：

S5.1：将步骤3与步骤4得到的人和物的外观特征BP和"人-物"对的空间特征CP经过相乘融合，再使用两个通道数为1024的卷积降低特征维度，得到特征向量K；

S5.2：利用自注意力机制增强特征向量K的内部相关性，再将其映射到结果空间，得到分类结果与相应的置信度。

有益效果：

本发明方法基于人-物交互数据集，利用分裂注意力神经网络和外观-空间特征融合对“人-物”的交互关系进行分类。使用三分支网络结构分别提取人的外观特征、物体的外观特征、“人-物”对的空间特征；将裁剪后的局部特征输入到分裂注意力网络，提取人与物体局部外观特征，得到增大感受野以及跨通道的局部外观特征向量；对“人-物”对提取不同维度的空间特征，基于目标框通使用双通道二值图对空间特征进行裁剪与映射，得到“人-物”对的局部空间特征；通过两个全局平均池化，得到最终分类结果。

与现有的分类方案相比，本发明具有以下优点：

第一，对图像中的将目标框作为参考框，并在其中构建两个通道，每个通道内边界框内具有值1，在其他地方具有值0。从这种形式的二值图中提取的空间特征，可以获得更精确的空间特征表达，同时可以消除空间布局相似的不同行为的歧义。

第二，使用特征分裂模块将特征按通道切分为多个子特征，有效的增大感受野，基于全局使用自注意力机制关注部分重要特征，减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。

第三，融合人、物的外观特征与“人物”对的空间特征，同时使用池化代替带步长的卷积，从空间层面提高特征的有效性，并且有效的增强对相似人-物交互关系特征的辨别力，有利于进一步消除相似空间布局不同交互行为的歧义，提高人-物交互关系分类的准确性。

附图说明

图1为本发明的总体流程图；

图2为具体实施例中分裂注意力神经网络的实例注意力模块的具体结构图；

图3为具体实施例中分裂注意力神经网络的具体结构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明主要是为了解决现有技术中相似的人-物交互关系进行区分，提供了一种基于分裂注意力的人-物交互关系分类方法，包括如下步骤：

步骤1：输入带标签的图像数据，对图像进行像素平均并映射成三通道的特征向量集合AP，具体包括以下步骤：

步骤1.1：通过摄像设备获取图像数据，并对获取的图像数据进行标记，将图像数据划分为训练集、测试集和验证集，三者的比例为3:2:1。

步骤1.2：使用Faster_RNN方法检测与识别图像中的目标，主要包含人、物体；记录目标类别与目标位置；

步骤1.3：将RGB图像转换为像素矩阵Q，再对像素矩阵进行像素平均，最后将像素矩阵映射为三通道的特征向量。具体公式如下：

AP＝Q-[[[102.9801，115.9465，122.7717]]]

步骤2：构建基础网络块、特征分裂模块以及实例级自注意力模块，将基础网络块、特征分裂模块和实例级自注意力模块组成分裂注意力神经网络。分裂注意力神经网络的模型结构图参见附图3。

基础网络块结构如下：基础网络块由4个不同深度的残差块组成的ResNet-50主干网以及一个独立的残差模块block组成；

ResNet-50主干网结构为：首先构建一个两层的基础模块，包括步长为2的二维卷积层与最大池化层；再构建五个深度不同的残差块，深度分别为64，128，256，512，512；利用基础模块与前四个残差块生成ResNet-50作为基础网络；

独立的残差模块不在ResNet-50中，用于分别处理人、物两种目标的特征。

步骤2.1：定义一个1×1的2D卷积作为残差单元，构建五个不同深度的残差块，将残差单元的卷积核大小设置为3*3像素，步长设置为1个像素，将第一个、第四个和第五个残差块的深度设置为3，将第二个残差块的深度设置为4，将第三个残差块的深度设置为6。

步骤2.2：构建一个十层的特征分裂模块s_module，其模块结构依次为：卷积层、relu激活操作、特征分裂层、平均池化、连接层、relu激活操作、全连接层、softmax、注意力分裂层、特征融合，具体步骤为：

S2.2.1：将底层特征输入独立的残差模块，并在1和2维上计算平均值，得到通道数为512的特征向量；

S2.2.2：通过所述特征分裂层将S2.2.1中特征向量按通道切分为多个子特征向量，并将子特征向量按通道相加融合，再将融合后的特征向量进行归一化和可覆盖的relu激活操作，得到特征向量T1；

S2.2.3：将特征分裂模块中所有的全连接层，都设置为1×1的二维卷积操作；

S2.2.4：将卷积层的卷积操作设置为三个3×3的二维卷积；

S2.2.5：将特征向量T1转换为(batch,2,channels)，只将特征的第二维设置为2，再通过softmax操作将特征形状转换为(batch,-1,1,1)，得到注意力向量；

S2.2.6：通过注意力分裂层将S2.2.4中注意力向量按通道切分为多个子注意力向量；

S2.2.7：将子特征向量与相应的子注意力向量相乘，再通过相加融合，得到已增大感受野的特征向量。

步骤2.3：构建一个实例注意力模块ins_moudule。实例级自注意力模块具体结构为：卷积层、池化层，归一化操作、自注意力层、全连接层。参见附图2，具体步骤为：

S2.3.1：将底层特征输入独立的残差模块，并在1和2维上计算平均值，得到通道数为512的特征向量；

S2.3.2：将通道数为512的特征向量送入池化层，并将特征转换为第二、三维大小为1的特征向量，将其与输入的原始特征做元素级的相乘，得到注意力向量；

S2.3.3：将S2.3.2中注意力向量进行归一化操作得到特征向量X；

S2.3.4：将S2.3.3中特征向量X输入自注意力层，得到特征向量X1；

S2.3.5：将特征向量X1输入全连接层，使用池化代替全连接中带步长的卷积，得到通道数为1024的注意力向量。

步骤3：利用基础网络块提取图像的底层特征，将底层特征输入分裂注意力神经网络中，网络中将提取到的外观特征与底层特征融合，得到人和物的外观特征BP。具体包括以下步骤：

步骤3.1：定义循环变量i2，用于遍历三通道的特征向量集合AP，i2∈[1,len(AP)]，i2赋初值为1；

步骤3.2：遍历AP，如果i2≤len(AP)，跳转到步骤3.3，否则结果遍历操作，跳转到步骤3.10；

步骤3.3：将AP[i2]进行步长为2的2D卷积降低特征维度，得到低层特征向量A，对特征向量A的每一维度进行边缘填充，得到特征向量A2，对特征向量A2进行3×3的最大池化操作，得到人、物的外观特征向量A3，具体公式如下：

其中，G(i，j)表示二维卷积核，H(p，k)表示输入的特征向量，α∈A2，D表示α的邻域；

步骤3.4：利用基础网络块从特征向量A3中提取人和物的外观特征，再输入到独立残差块中，得到辨别性能更好的人和物的外观特征E；

步骤3.5：定义h_b、o_b分别表示AP[i2]中人的目标像框、物体的目标框，使用h_b、o_b对特征向量E进行剪裁得到人的外观特征img_h_i2、物体外观特征向量img_o_i2；

步骤3.6：将img_h_i2、img_o_i2分别按通道切分为两个子向量组，并使用两个全局平均池化，融合跨通道的特征向量组，得到通道数为512的特征向量spl_h_i2、spl_o_i2，具体公式如下：

spl_h_i2＝Concat(sc₁，sc₂，...，sc_n1)W^h

spl_o_i2＝Concat(sc₁，sc₂，..，sc_n1)W^o

其中，Concat表示向量拼接函数，W^h、W^o分别表示人和物体的权重矩阵；

步骤3.7：使用两个1×1的二维卷积，消除人和物的外观特征中的空间歧义，并利用自注意力机制增强外观特征之间的相关性，得到通道数为512的特征向量img_g_i2、img_p_i2，具体公式如下：

其中，G(i，j)表示二维卷积核，H(p，k)表示输入的特征向量，C(p，k)表示输出的特征向量；

步骤3.8：将低层特征img_g_i2和跨通道的局部特征spl_h_i2、spl_o_i2相加融合，得到特征向量C1、C2，计算img_pi2和特征向量C1、C2的矢量点积，得到以实例为中心的注意力特征向量ins_h_i2、ins_o_i2，具体公式如下：

ins_h_i2＝img_p_i2·C1

ins_o_i2＝img_p_i2·C2；

步骤3.9：令i2＝i2+1，跳转到步骤3.2；

步骤3.10：得到已增大感受野的跨通道特征向量集BP＝{[ins_h₀，ins_o₀]，[ins_h₁，ins_o₁]，...，[ins_h_M，ins_o_M]}，其中，ins_h_M、ins_o_M分别表示序号为M的图像经过映射后的人、物的外观特征向量，满足M＝len(AP)。

步骤4：利用基础网络块提图像的底层特征，并通过对特征进行裁剪、卷积、池化后得到人的局部动作特征，将图像映射为双通道二值图并提取"人-物"对的空间特征，将空间特征与人的局部动作特征按通道拼接后输入分裂注意力神经网络，得到能够减少空间歧义的"人-物"对的空间特征CP。具体包括以下步骤：

步骤4.1：定义循环变量i3，用于遍历三通道的特征向量集合AP，i3∈[1,len(AP)]，i3赋初值为1；

步骤4.2：遍历AP，如果i3≤len(AP)，跳转到步骤4.3，否则结果遍历，跳转到步骤4.13；

步骤4.3：定义hbox＝{h₁,h₂,...,h_k}、obox＝{o₁,o₂,...,o_m}分别表示序号为i3的图像中人的目标框集合、物体的目标框集合，其中，k、m分别表示目标框的数量；

步骤4.4：将AP[i3]输入到基础网络ResNet-50中，通过卷积和池化操作得到底层的全局特征，再利用hbox对全局特征进行裁剪，得到人的局部特征向量loc_h_i3；

步骤4.5：将hbox、obox两类目标框依次组合成“人-物”对集合pairs＝{[h₁,o₁],[h₁,o₂],...,[h_k,o_m]}，其中，[h_k,o_m]表示第k×m个“人-物”交互对，满足len(pairs)＝k×m；

步骤4.6：定义循环变量i4，用于遍历“人-物”对集合pairs，i4∈[1,len(pairs)]，i4赋初值为1；

步骤4.7：遍历pairs，如果i4≤len(pairs)，跳转到步骤4.8，否则结束遍历，跳转到步骤4.11；

步骤4.8：定义box_i4表示序号为i4的“人-物”对的目标框，利用box_i4对AP[i3]的特征向量进行二值映射，并提取双通道二值图中“人-物”对的空间特征，得到“人-物”对的空间特征向量q_i4，具体公式如下：

f_i4＝s(n)＝(T·h)[n]＝∑g(x)h(k)

其中，g(x)表示AP[i3]的双通道二值图，h(k)表示卷积核；

步骤4.9：将人的局部特征向量loc_h_i3输入独立残差块，通过映射得到人的动作特征，将人的动作特征与“人-物”对的空间特征向量q_i4按通道拼接，再与人的局部特征loc_h_i3相加融合，得到跨通道的特征张量；

步骤4.10：将跨通道的特征张量分别输入特征分裂模块与实例级自注意力模块，得到"人-物"对的空间特征sp_i4；

步骤4.11：令i4＝i4+1，跳转到步骤4.7；

步骤4.12：得到pairs中所有“人-物”对的空间特征集合sp_ho_i3＝{sp₁,sp₂,…,sp_n}，其中，sp_n表示序号为n的“人-物”对空间特征，满足n＝len(pairs)；

步骤4.13：令i3＝i3+1，跳转到步骤4.2；

步骤4.14：构造集合AP包含的所有图像中“人-物”对的空间特征集CP＝{sp_ho₁,sp_ho₂,...,sp_ho_M}，其中，sp_ho_M表示序号为M的图像中存在的“人-物”对的空间特征集合。

步骤5：将BP与CP通过自注意力机制进行特征融合，得到最终分类结果。具体包括以下步骤：

步骤5.1：定义循环变量i5，用于分别遍历BP、CP，i5∈[1,len(BP)]，i5赋初值为1；

步骤5.2：遍历BP、CP，如果i5≤len(BP)，跳转到步骤5.3，否则结束遍历操作，跳转到步骤5.6；

步骤5.3：将人和物的外观特征BP[i5][0]、BP[i5][1]分别与CP[i5]相乘融合，再使用两个通道数为1024的卷积降低特征维度，通过自注意力机制增强特征之间的相关性，得到跨通道的空间特征spt_hs_i5、spt_hos_i5，具体公式如下：

spt_hs_i5＝softmax(BP[i5][O])×CP[i5]

其中，d_k是BP[i5][1]的维度，softmax指softmax函数；

步骤5.4：对跨通道的空间特征spt_hs_i5、spt_hos_i5作全连接操作，并且映射到结果空间分别计算置信度h_s_i5、ho_s_i5，得到全连接结果对应的类别action_h_i5、interact_i5，其中，action_h_i5、action_ho_i5分别表示人的动作、“人-物”对的交互关系分类结果；

步骤5.5：构造“人-物”交互关系分类结果集合Re＝{[action_h₁,action_ho₁,h_s₁,ho_s₁],[action_h₂,action_ho₂,h_s₂,ho_s₂],...,[action_h_n,action_ho_n,h_s_n,ho_s_n]}，其中，action_h_n、h_s_n、action_ho_n、ho_s_n分别表示序号为n的“人-物”对中人的动作和相应的置信度、“人-物”对的交互关系和相应的置信度，满足len(Re)＝len(BP)；

步骤5.6：令i5＝i5+1，跳转到步骤5.2；

步骤5.7：在Re集合中以ho_s为关键字降序排序，取置信度最高的相应分类为最终分类结果。

为了更好的说明本方法的有效性，通过对28个类别、82783张图像数据，使用双通道的二值图，提取“人-物”对的局部空间特征，再利用分裂注意力神经网络提取人、物体的外观特征，对提取到的特征进行相乘融合，通过两个平均池化层，得到最终的分类结果。基于分裂注意力网络的人-物交互关系分类方法的准确率相较于现有的基于单一通道特征的方法提升了4.11％，对28个类别、82783张图像数据的分类准确度达到了48.41％。

表1实验结果对比表

本发明创造性的提出了一种利用分裂注意力增大感受野以及提取跨通道特征的方法，使用池化代替带步长卷积来增强对空间特征的提取能力，通过低层特征与高层特征、外观特征与空间特征的融合，得到人物交互关系的最终分类结果。

本发明提出的一种基于分裂注意力的人-物交互关系分类方法，不但可以用于人与物之间的交互关系，也可以用于物与物之间、人与人之间的交互关系分类。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于分裂注意力的人-物交互关系分类方法，其特征在于，包括如下步骤：

步骤3：利用基础网络块提取图像的底层特征，将底层特征输入分裂注意力神经网络中，网络中将提取到的外观特征与底层特征融合，得到人和物的外观特征BP；

2.根据权利要求1所述的基于分裂注意力的人-物交互关系分类方法，其特征在于，所述步骤2中基础网络块结构如下：所述基础网络块由4个不同深度的残差块组成的ResNet-50主干网以及一个独立的残差模块组成；

3.根据权利要求1所述的基于分裂注意力的人-物交互关系分类方法，其特征在于，所述步骤2中的特征分裂模块具体结构为：依次设置的卷积层、relu激活操作、特征分裂层、平均池化、连接层、relu激活操作、全连接层、softmax、注意力分裂层、特征融合；具体步骤为：

S1.2：通过所述特征分裂层将S1.1中特征向量按通道切分为多个子特征向量，并将子特征向量按通道相加融合，再将融合后的特征向量进行归一化和可覆盖的relu激活操作，得到特征向量T1；

S1.4：将卷积层的卷积操作设置为三个3×3的二维卷积；

4.根据权利要求1所述的基于分裂注意力的人-物交互关系分类方法，其特征在于，所述步骤2中实例级自注意力模块具体结构为：卷积层、池化层，归一化操作、自注意力层、全连接层；具体步骤为：

S2.3：将S2.2中注意力向量进行归一化操作得到特征向量X；

S2.4：将S2.3中特征向量X输入自注意力层，得到特征向量X1；

5.根据权利要求2所述的基于分裂注意力的人-物交互关系分类方法，其特征在于，所述步骤3中具体步骤为：

6.根据权利要求1所述的基于分裂注意力的人-物交互关系分类方法，其特征在于，所述步骤4中具体步骤为：

7.根据权利要求1至6任一所述的基于分裂注意力的人-物交互关系分类方法，其特征在于，所述步骤5的具体方法为：