CN116403286A

CN116403286A - 一种面向大场景视频的社交分组方法

Info

Publication number: CN116403286A
Application number: CN202310432223.4A
Authority: CN
Inventors: 李坤; 顾玲凤; 张劲松; 刘涵兮
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-07-07

Abstract

本发明公开了一种面向大场景视频的社交分组方法，涉及视频处理技术领域。本发明所提供的一种面向大场景视频的社交分组方法，基于时空Transformer的大场景社交分组框架，针对大场景视频人数众多，提出了一种基于图模型的端到端多人社交关系建模方法；针对引入图像信息会带来遮挡问题和多模态信息处理的问题，在基于图模型的多人社交关系建模方法的基础上，设计了遮挡编码模块和时空融合Transformer模块，融合时序信息分支和空间图像信息分支，更好地挖掘姿态轨迹信息和图像信息之间的关系，从而更有效地提高社交分组结果。在复杂的大场景情况下，本发明F1指标比现有最好的方法提升了10％以上。

Description

一种面向大场景视频的社交分组方法

技术领域

本发明涉及视频处理技术领域，尤其涉及一种面向大场景视频的社交分组方法。

背景技术

社交分组任务旨在从图像或者视频中的人群中分出可能存在社交行为的人群分组。由于图像采集设备的限制，传统的社交分组方法通常面向的是视场角有限、行人数量适中的小场景或是对象交互类型有限、交互模式简单的封闭场景，这和户外复杂场景有较大差异。较大的差异性导致传统的社交分组方法应用范围十分有限，不适用于复杂的开放环境。近几年，越来越多的研究者将注意力转移到真实的复杂场景中，开始采集相应的图像和视频数据。真实的场景视野范围更广、行人数量更多、个体间交互动作更丰富且个体之间的群组关系更加复杂，这样的场景被定义成大场景。

我国作为世界人口第一的大国，在很多公共场合人群规模和人群复杂度远超现有的科研数据集情况，比如说地铁口、火车站、大型商场等等，对这些场景的人群动向进行监控分析，可以检测异常行为，实现提前预警，满足公共安全、智慧城市等领域的应用需求。除此之外，在以人物分析为中心的计算机视觉任务中，比如群组活动识别、行人轨迹预测，属于相同群组的人可能会拥有相近的轨迹和相似的行为，而不同群组的人则倾向于互相保持距离，所以有效地进行人群社交分组将有助于提高这些下游任务的性能。由此可见，研究面向大场景视频的社交分组方法具有重要的社会意义和科研价值。

传统的基于图像的社交分组方法主要面向的是人数有限、交互有限、画面简单的实验数据集。早期被广泛应用的基于图像的社交分组方法基本都从Kendon等人(KendonA.Conducting interaction:Patterns of behavior in focused encounters[M].1990.)提出的F-形式出发,将F-形式定义为“两个或者更多的人形成并保持聚集在一起，进行相互交谈和交换信息形成的形式”。其中比较有代表性的方法是霍夫投票法HVFF(Cristani M,Bazzani L,Paggetti G,et al.Social interaction discovery by statisticalanalysis of F-formations[C].In British Machine Vision Conference,2014.)和图聚类法DSFF(Hung H,

B.Detecting F-formations as dominant sets[C].InProceedings of the 13th International Conference on Multimodal Interfaces,2011.)。一部分工作(Swofford M,Peruzzi J,Tsoi N,et al.Improving socialawareness through dante:Deep affinity network for clustering conversationalinteractants[J].Proceedings of the ACM on Human-Computer Interaction,2020,4(CSCW1):1–23.)采用了图神经网络建模人与人之间的相互关系，他们利用图中每个人的位置信息和姿态信息作为特征，构建全连接图来传递人与人之间的信息。这类方法的性能相较于传统方法有了较大的提升，但是却忽视了图像信息在进行社交分组中起到的重要作用，并且构建全连接图的建模方式在上千人的大场景数据集中是不现实的。最近李坤等人(李坤,李万鹏,孙晓琨等人.大场景多对象的深度社交分组网络[J].中国科学(信息科学),2021,51(8):1287–1301.)研究了基于大场景图像的社交分组任务，先用原始图像信息捕捉人与人之间的交互行为，然后用原始图像预测的深度信息解决密集人群遮挡、假相邻的问题，该方法虽然在大场景图像信息的提取方面提供了思路，但是也存在之前的方法普遍存在的问题，没有利用时序信息，并且预估的深度信息在无监督的情况下并不可靠。总而言之，面向图像的社交分组方法，虽然在处理简单场景的时候能够取得较好的效果，但是面对真实的大场景情况时，仅仅利用简单的位置信息和朝向信息是不够的。一方面，在大场景中人们的社交位置变化很大，人们在社交过程中可能会有较远的距离，不总是保持“F-形式”，即“F-形式”不能概括所有的社交形式；另一方面，在人群密集的场景中每个人可能都离得很近，一张图中提供的个人的位置信息根本没有办法用来有效分组，需要更多时序信息、图像信息来提供更多的分组依据。

随着硬件设备的迭代更新和机器学习的快速发展，近几年研究者们将目光放到了室外真实场景下，清华大学搭建了十亿像素级阵列相机，并利用此平台采集了国际首个十亿像素动态大场景多对象数据集PANDA(Wang X,Zhang X,Zhu Y,et al.PANDA:Agigapixel-level human-centric video dataset[C].In IEEE Conference on ComputerVision and Pattern Recognition,2020.)，填补了大场景高密度人群数据集的空白，目前也有一部分研究者基于此数据集展开研究。Ehsanpour等人(Ehsanpour M,Abedin A,SalehF,et al.Joint learning of social groups,individuals action and sub-groupactivities in videos[C].In European Conference on Computer Vision,2020.)在处理小场景视频的时候提出了一个新颖的框架，并且利用了图像信息。首先利用一个经典的视频特征提取网络I3D(Inflated 3D ConvNet)从多帧获得每个人的时序和空间特征，接着对视频的中的每两个人进行关系建模，构建全连接图，最后进行图划分得到对应的社交分组。该方法处理小场景没有问题，但是并不适用于高分辨率的大场景，一方面常见的视频特征提取网络无法处理超高分辨率，另一方面大场景视频人数很多，构建全连接图的效率并不高。Wang等人(Wang X,Zhang X,Zhu Y,et al.PANDA:A gigapixel-level human-centric video dataset[C].In IEEE Conference on Computer Vision and PatternRecognition,2020.)提出了一种从全局到局部的面向大场景视频的社交分组方法，输入多模态信息，利用轨迹信息进行人与人之间社交关系的粗筛，对可能存在社交关系的两个人，再引入图像信息进一步判断。虽然考虑到了多人社交关系的建模问题，但是该方法在训练上是两阶段的，推理过程中是分离的，同时在引入图像特征时忽略了遮挡问题。最近，Li等人(Li J,Han R,Yan H,et al.Self-supervised social relation representation forhuman group detection[C].In European Conference on Computer Vision,2022.)提出了一种自监督的基于大场景视频的社交分组框架，降低了错误标注对模型的影响，但是以姿态信息作为输入没有考虑到遮挡的影响。因此，传统的面向有限视角、少量行人或者是人与人之间交互类型有限的社交分组方法不再适用于宽视场、高分辨率、人数众多的大场景视频；近期的面向大场景视频的社交分组忽略了大场景视频的一些特点，无法提供更准确和高效的分组效果。

为了解决上述问题，本发明提出一种面向大场景视频的社交分组方法。

发明内容

本发明的目的在于提出一种面向大场景视频的社交分组方法以解决背景技术中所提出的问题。本发明基于时空Transformer的大场景社交分组框架，针对大场景视频中人数众多无法高效建模人与人社交关系的问题，设计了基于图模型的端到端多人社交关系建模方法；在多人社交关系建模方法的基础上引入图像信息，设计了遮挡编码结构和融合多模态信息的Transformer网络结构分别解决图像遮挡和多模态信息融合的问题，有效提高了面向大场景视频的社交分组的结果。

为了实现上述目的，本发明采用了如下技术方案：

一种面向大场景视频的社交分组方法，包括如下步骤：

S1、对大场景视频数据集进行预处理，根据标注的包围框坐标将每个人逐帧从高分辨率的原视频帧上裁剪下来并缩放成统一大小，提取图像特征和姿态轨迹特征进行网络训练；

S2、基于图模型将复杂的人与人之间的社交关系建模转化为图构建和图分析问题，在本阶段进行图构建，根据时间策略和空间策略构建人与人之间的稀疏关系图，减少模型对无效关系的学习；

S3、将S1中提取得到的低级图像特征输入到基于自注意力机制的遮挡编码模块提取高级图像特征；

S4、将S2中提取得到的低级姿态轨迹信息输入到时空Transformer中的时序分支提取更高级的姿态轨迹特征，利用时空Transformer模块中的空间分支将其和S3得到的高级图像特征融合，挖掘两者之间的关系，生成顶点特征；

S5、将S2得到稀疏关系图和S4得到的顶点特征输入到边分类模块中进行图分析；

S6、根据S2得到稀疏关系图和S5得到的图分析结果，利用聚类方法对稀疏关系图进行图划分得到最终的社交分组结果。

优选地，S1中所述的预处理过程主要包括以下步骤：

S101、根据包围框坐标先将每个人从图像上裁剪下来，重新缩放到128×64大小；

S102、利用预训练的ResNet50进行图像特征提取，将模型的最后一层特征图，维度从2048×4×2拉伸成16384维，作为低级的图像特征输入；利用在MPII数据集上训练过的Unipose网络逐帧对每个人进行2D骨架关节信息的提取。2D骨架关节

共包括16个关节点，每个节点坐标都是图像坐标系中的2D坐标，其中i,t分别表示人序号和时间序号。

优选地，S2中所述的图构建主要包括以下步骤：

S201、视频社交分组任务输入一段视频以及多个标识行人位置的包围框轨迹，要求社交分组模型将视频中的人按照他们之间的社交关系划分成多个群组。形式化而言，社交分组问题是一个集合划分问题。设视频中的行人全集V＝{v₁,v₂,...v_n}，则理想的社交分组模型需要将行人集合V划分成个k互不相交的群组V₁,V₂,...V_k，即满足以下条件：

V₁...∪V_k＝V

其中，I(x,y)为一个指示函数，当行人x和行人y存在社交关系时函数值为1，否则函数值为0。每个人只能属于其中一个群组，即任意两个不同群组V_i和V_j之间没有交集；同一个群组内部的人互相存在社交关系；不同群组之间的人不存在社交关系。值得注意的是分组个数k是一个变量，需要由分组算法确定；

S202、由S201的问题定义，社交分组问题可以基于指示函数I(x,y)表示为无向带权图G＝(V,E_all,I)，其中，V和E_all分别表示顶点集合和边集合，I表示边权值映射。显然，社交分组所求的集合划分可以对图G进行图切割得到。图构建方法基于手工构造的特征从全连接图G＝(V,E_all,I)生成子图G'＝(V,E_interested,I'),即尽可能筛选掉E_all中的无效边，降低深度模型I'的计算量；

S203、图构建方法的核心是构造边过滤策略S，筛选掉E_all中的无效边，保留感兴趣边集合E_interested。由任务输入，可以得到每个人在每帧出现的情况，包括是否出现、出现位置等信息，本发明基于此分别设计了时间策略和空间策略。

时间策略：对于视频的中的任意两个人，如果他们从来都没有在同一帧视频出现，那么他们不可能存在互动，也不可能属于同一个群组。统计每个人在T帧视频中的出现情况，用掩膜Mask＝[m₁,m₂,...,m_T]∈{0,1}^1×T表示，对于视频中的任意两个人i和j，计算他们之间的共现次数，即两个人共同出现在同一帧视频中的次数F_i,j：

F_i,j＝0表示这两个人从来没有在同一帧出现过，这两个人构成的无效边应该被过滤掉；

空间策略：两个人在同时出现过但始终保持较远的距离，他们也不可能属于同一个群组，这两个人构成的边也一定是无效边。对于会出现在同一帧两个人，计算他们在T帧时间内的最近距离D_i,j：

其中，

表示第i个人在t时刻的位置。如果D_i,j大于一个阈值δ，意味着这两个人始终保持较远的距离，这样的无效边也可以进行丢弃。

综合时间策略和空间策略，可以得到边筛选策略：

E_interested＝S(E_all)＝{(i,j)∈E_all|F_i,j>0∧D_i,j≤δ}

在经过了上述筛选以后，图构建方法成功将一开始充斥着无效边的全连接图G＝(V,E_all,I')转换成了稀疏关系图G'＝(V,E_interested,I')。

优选地，S3中所述的基于自注意力机制的遮挡编码模块主要包括以下步骤：

S301、遮挡编码模块主要由变换f和g构成。输入连续帧的图像特征表示成

其中N,D,T分别代表了输入的人数、图像特征的维度和视频帧数。以一个人为例，他的连续帧图像特征用/>

表示；

S302、不妨假设这个人在大部分帧是没有被遮挡的(大场景长视频数据比较容易保证这一点)，那么对于同一个人，未被遮挡的帧之间外貌特征高度相似，少部分被遮挡的帧特征与其他帧之间相似性较低，根据这个特点，可以通过在归一化的特征空间中的通过内积计算同一个人的图像帧之间的相似度，即该人在第i帧和第j帧之间的相似度可以表示成：

经过ReLU激活层后输出，f(x)≥0，则相似度的值范围在0到1之间；

S303、当前第i帧和其他帧的平均相似度可反应该帧的被遮挡情况，即该人在当前帧的注意力权重a_i。若第i帧遮挡情况越严重，它与其他帧相似度都很低，相应地，a_i的值也很小，对该帧特征的抑制程度也越大。用公式可以表示成：

S304、行人往往不会在视频中的所有帧都出现(如走出视频画面)，所以在实际实现中，计算相似度均值将忽略这些行人不在画面内的帧。最终，注意力权重被应用在经过变换g处理后的特征上，得到输出的图像特征：

z_i＝g(x_i)×a_i

S305、遮挡编码模块最终输出每个人的优化后的图像特征Z_app＝[z₁,z₂,...,z_T]。

优选地，S4中所述的时空Transformer模块主要包括以下步骤：

S401、根据S102中得到的低级姿态轨迹信息，设计时序分支进行高级姿态轨迹信息的提取。时序分支参考了DenseNet中密集连接块内部的设计结构，除了第一层的输入是原始输入，其他每一层的输入都是前面所有层的输出特征，同时该层的输出也作为下一层的输入。这样的设计提高了特征的复用性，也能够同时保留原始的姿态、位置特征，以及提取的速度、加速度、动作等高级特征。本发明只需要处理一维的姿态轨迹信息，所以使用了1D卷积神经网络代替之前的2D卷积神经网络，对每个人逐帧的骨架信息进行时序上的融合。最后经过时序分支得到高级姿态轨迹信息Z_traj；

S402、利用Transformer的编码器结构学习个体的上下文信息。对于输入的第m层图像特征

首先和预处理的姿态轨迹信息/>

进行拼接来形成个体原始的嵌入特征输入，注意拼接的轨迹特征可以充当位置编码：

S403、在Transformer编码器中，将时间维度视作批维度独立地从所有帧中提取空间上的上下文信息。第i帧这个提取过程可以表示成：

其中，W_q,m,W_k,m,W_v,m是可学习参数，MLP是标准Transformer中的多层感知器。所有人在所有时刻的特征

可以用/>

表示。一个时空Transformer模块最终输出关于两个分支的提取特征，分别是/>

和/>

可以作为接下来一个时空Transformer模块的特征输入。堆叠时空Transformer模块的数量可以形成一个深度模型。

S404、用不同深度的时空Transformer模块输出的图像特征和姿态轨迹特征拼接成顶点特征，用公式表示成：

注意，上面过程保留了时间维度信息。

优选地，S5中所述的图分析过程主要包括以下步骤：

S501、根据S404得到的顶点特征，构建边特征对边权重进行预测。考虑人i和j在t时刻的社交关系，即边(i,j)∈E_interested(i,j)，利用两个人之间点特征的差构建边特征

用公式表示成：

其中，|·|表示逐元素取绝对值。考虑到构造的是无向图，边特征的设计利用了绝对值操作的对称性，即|a-b|＝|b-a|，这使得输入顺序的差异并不会改变边特征。

S502、将边特征

输入到全连接层(MLP)中逐帧分类，最后在时间维度上通过均值池化得到最终的关系评分，用公式表示成：

接着，预测边权重I'(i,j)＝σ(c_(i,j))，其中σ表示Sigmod函数；

S503、根据标注的分组信息，所有边都对应的一个标签y_(i,j)∈{0,1}，y_(i,j)＝1表示人i和人j属于同一个群组，显然，在标注正确的情况下y_(i,j)＝I(i,j)。最后，利用二分类交叉熵损失对模型训练。

优选地，S503中所描述的二分类交叉熵损失用公式表示成：

优选地，S6中所述的聚类方法主要包括以下步骤：

S601、根据S502得到的边权重预测结果和S203得到的稀疏关系图G'，使用标签传播策略，以边权重预测结果为依据迭代地删除或合并边间连接关系；

S602、随着图中边数量的减少，G'将被划分成不相连的子图形式，这些子图将作为最终的人群社交分组结果。

与现有技术相比，本发明提供了一种面向大场景视频的社交分组方法，具备以下有益效果：

(1)本发明提出了一种面向大场景视频的社交分组方法，可以实现高效率的社交分组；同时提出了基于图模型的端到端多人社交关系建模方法，能够提高多人社交关系建模的效率；还提出了基于自注意力机制的遮挡编码方法，可以高效准确的提取个人特征；最后，还提出了时空融合Transformer方法，能够融合多模态信息。

(2)本发明提出基于图模型的端到端多人社交关系建模方法，解决了大场景视频中人数很多，建模低效的问题。将复杂的人与人之间的社交关系建模转化为图表示和图分析问题，减少了模型对无效关系的学习并提高了模型对于超多人建模的能力，还可以实现对模型端到端的训练。

(3)本发明提出基于自注意力机制的遮挡编码方法，解决引入图像信息带来的遮挡问题，用当前帧和其他帧的平均相似度反应该帧的被遮挡情况，对遮挡严重帧的特征起抑制作用，提高对遮挡的鲁棒性。

(4)本发明提出时空融合Transformer方法，解决引入图像信息带来的多模态信息融合问题，时空融合Transformer对时序分支提取的姿态轨迹信息和空间分支提取的图像信息进行融合，从多模态信息中挖掘到更重要的特征信息用于社交关系分组。

(5)在大场景视频数据集PANDA上的实验结果充分表明了本发明在社交分组任务上的有效性。相较于目前最好的方法，本发明F1指标提升了10％以上。

附图说明

图1为本发明提出的一种面向大场景视频的社交分组方法中基于时空Transformer的大场景社交分组框架示意图；

图2为本发明提出的一种面向大场景视频的社交分组方法中在PANDA数据集上的社交分组结果示意图；

图3为本发明提出的一种面向大场景视频的社交分组方法与现有技术中主流的社交分组方法的定性结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

针对现有面向大场景视频的社交分组方法无法取得较好的社交分组结果以及结合大场景视频数据集的问题，本发明提出一种基于时空Transformer的大场景社交分组框架，针对大场景视频中人数很多的问题，提出基于图模型的端到端多人社交关系建模方法，将复杂的人与人之间的社交关系建模转化为图表示和图分析问题，减少了模型对无效关系的学习并提高了模型对于超多人建模的能力，还可以实现对模型端到端的训练。针对引入图像特征后带来的遮挡问题，提出基于自注意力机制的遮挡编码方法提取个人特征，用当前帧和其他帧的平均相似度反应该帧的被遮挡情况，对遮挡严重帧的特征起抑制作用；针对引入图像特征后带来的多模态信息融合的问题，提出时空融合Transformer方法，对时序分支提取的姿态轨迹信息和空间分支提取的图像信息进行融合，从多模态信息中挖掘到更重要的特征信息用于社交关系分组。具体实例内容如下。

实施例1：

请参阅图1，本发明提出基于屏幕图像的真实世界Raw视频去噪数据集采集和处理方法，包括以下步骤：

S1中所述的预处理过程主要包括以下步骤：

S2中所述的图构建主要包括以下步骤：

V₁...∪V_k＝V

其中，

综合时间策略和空间策略，可以得到边筛选策略：

E_interested＝S(E_all)＝{(i,j)∈E_all|F_i,j>0∧D_i,j≤δ}

S3中所述的基于自注意力机制的遮挡编码模块主要包括以下步骤：

表示；

z_i＝g(x_i)×a_i

S4中所述的时空Transformer模块主要包括以下步骤：

首先和预处理的姿态轨迹信息/>

可以用/>

和/>

注意，上面过程保留了时间维度信息。

S5中所述的图分析过程主要包括以下步骤：

用公式表示成：/>

S502、将边特征

输入到全连接层(MLP)中逐帧分类，最后在时间维度上通过均值池化得到最终的关系评分，用公式表示成：/>

接着，预测边权重I'(i,j)＝σ(c_(i,j))，其中σ表示Sigmod函数；

S503、根据标注的分组信息，所有边都对应的一个标签y_(i,j)∈{0,1}，y_(i,j)＝1表示人i和人j属于同一个群组，显然，在标注正确的情况下y_(i,j)＝I(i,j)。最后，利用二分类交叉熵损失对模型训练：

S6中所述的聚类方法主要包括以下步骤：

实施例2：

请参阅图1-3，基于实施例1但有所不同之处在于，

具体实施过程如下：

(一)数据预处理：

在本发明中使用了国际首个大场景数据集PANDA，在训练部分选取了PANDA数据集中的02OCT Habour、03XiliCrossroad、04Primary School、05Basketball Court、06Xinzhongguan、07University Campus、08Xili Street 1、09Xili Street 2场景，在测试部分选取了01University Canteen场景。根据包围框坐标先将每个人从视频帧上裁剪下来，重新缩放到相同大小；利用预训练的ResNet50进行图像特征提取，作为低级的图像特征输入；利用在MPII数据集上训练过的Unipose网络逐帧对每个人进行2D骨架关节信息的提取，作为低级姿态轨迹特征输入。

(二)图构建：

根据手工构造的特征，设计时间策略和空间策略初步筛选掉不可能存在社交关系的边，减少需要训练的边数量，将全连接关系图过滤成稀疏关系图，提高学习边关系的效率；

(三)遮挡编码模块：

将步骤(一)得到的低级图像特征输入到遮挡编码模块进行进一步的特征提取。对于同一个人，在不同帧出现且没有被遮挡的情况下，提取到的这个人在这些帧的特征应该是高度相似的，被遮挡帧的特征则相似性很低。具体地，先将不同帧的图像信息输入到遮挡编码方法，每一帧的遮挡注意力权重可定义为和其他所有帧的平均相似度，利用遮挡注意力权重降低被严重遮挡帧对最终个人特征表示的影响，提高了发明对遮挡问题的鲁棒性；

(四)时空Transformer模块：

将步骤(一)得到的低级姿态特征轨迹输入到时空Transformer中的时序分支，提取更高级的姿态轨迹特征，时序分支主要是由1D卷积参考DenseNet的结构设计而成；将步骤(三)得到的高级图像特征和高级姿态轨迹特征进行拼接输入到时空Transformer的空间分支，形成个体原始的嵌入特征输入，挖掘多模态特征之间的联系，提供更多的分组依据。通过堆叠时空Transformer模块的数量可以形成深层的网络结构，用不同深度的时空Transformer模块输出的图像特征和姿态轨迹特征拼接成顶点特征；

(五)图分析：

将步骤(二)得到的稀疏关系图和步骤(四)得到的顶点特征输入到边分类模块中进行图分析。根据顶点特征构建人与人之间的边特征，然后对边特征进行权重评估，得到人与人之间的亲近程度评分。最后根据边特征权重，利用聚类算法对稀疏关系图进行划分，得到最终的社交分组结果。

如图1所示，展示了本发明提出的基于时空Transformer的大场景社交分组框架。根据现有的包围框标注信息对大场景图像进行裁剪，经过预处理得到图像特征和姿态轨迹特征作为网络的重要输入；利用手工特征，对人与人之间的全连接关系图进行分析筛选，得到稀疏关系图，设计遮挡编码模块解决引入图像特征后带来的遮挡问题，设计时空Transformer挖掘多模态特征输入(图像特征、姿态轨迹特征)之间的关系，形成顶点特征。最终利用顶点特征对稀疏关系图进行边权重分析，利用聚类算法实现对稀疏关系图的划分，实现更高效准确的社交分组；

如图2所示，展示了本发明在PANDA数据集上的社交分组结果，从结果中可以充分表示本发明所提出的大场景社交分组方法具备一定的社交分组能力，在非极端场景下能够获得令人满意的社交分组结果；

如图3所示，展示了本发明与目前主流的大场景视频社交分组方法的定性结果对比，可以看出本方法在情况较为复杂的情况下可以划分合理的社交分组结果；

表1列出了本发明与目前主流的面向大场景视频的社交分组方法在PANDA数据集上的定量结果对比；Global、Global-to-local wRandom、Global-to-local w Uncertainty分别是Wang等人(Wang X,Zhang X,Zhu Y,et al.PANDA:A gigapixel-level human-centric videodataset[C].In IEEE Conference on Computer Vision and PatternRecognition,2020.)在2020年提出的三种基线方法；S3R2是Li等人(Li J,Han R,Yan H,etal.Self-supervised social relation representation for humangroup detection[C].In European Conference on Computer Vision,2022.)在2022年提出的自监督方法。定量结果的评价指标为Precision、Recall、F1(请参阅表1)。

表1

方法	Precision	Recall	F1
				Global	0.237	0.12	0.16
Global-to-local w Random	0.244	0.133	0.172
				Global-to-local w Uncertainty	0.293	0.16	0.207
S3R2	0.559	0.507	0.532
				本方法	0.750	0.645	0.694

由表1可以看出，在大场景视频数据集PANDA上的实验结果充分表明了本发明在社交分组任务上的有效性。相较于目前最好的方法，本发明F1指标提升了10％以上。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向大场景视频的社交分组方法，其特征在于，具体包括以下步骤：

S1、对大场景视频数据集进行预处理，根据标注的包围框坐标将每个人逐帧从高分辨率的原视频帧上裁剪下来并缩放成统一大小，提取低级图像特征和姿态轨迹特征进行网络训练；

S2、基于图模型将复杂的人与人之间的社交关系建模转化为图构建和图分析问题，图构建过程中，根据时间策略和空间策略构建人与人之间的稀疏关系图，减少模型对无效关系的学习；

S3、将S1中所得的低级图像特征输入到基于自注意力机制的遮挡编码模块提取得到高级图像特征；

S4、将S1中提取得到的低级姿态轨迹信息输入到时空Transformer中的时序分支提取更高级的姿态轨迹特征，利用时空Transformer模块中的空间分支将其和S3所得的高级图像特征融合，挖掘两者之间的关系，生成顶点特征；

S5、将S2中所得的稀疏关系图与S4中所得的顶点特征输入到边分类模块中进行图分析；

2.根据权利要求1所述的一种面向大场景视频的社交分组方法，其特征在于，S1中所述的数据集预处理过程具体包括以下步骤：

S101、根据包围框坐标将每个人从图像上裁剪下来，重新缩放到128×64大小；

S102、利用预训练的ResNet50进行图像特征提取，将模型的最后一层特征图，维度从2048×4×2拉伸成16384维，作为低级的图像特征输入；利用在MPII数据集上训练过的Unipose网络逐帧对每个人进行2D骨架关节信息的提取，记作

所述2D骨架关节

共包括16个关节点，每个节点坐标都是图像坐标系中的2D坐标，其中,i，t分别表示人序号和时间序号。

3.根据权利要求1所述的一种面向大场景视频的社交分组方法，其特征在于，S2中所述图构建具体包括以下步骤：

S201、视频社交分组任务输入一段视频以及若干个标识行人位置的包围框轨迹，利用社交分组模型将视频中的人按照社交关系划分成若干个群组，将社交分组问题转化为集合划分问题，具体包括以下内容：

设视频中的行人全集为V＝{v₁,v₂,...v_n}，则理想的社交分组模型需要将行人集合V划分成个k互不相交的群组V₁,V₂,...V_k，所述群组满足以下条件：

其中，I(x,y)表示一个指示函数，当行人x和行人y存在社交关系时函数值为1，否则函数值为0；每个人只能属于其中一个群组，任意两个不同群组V_i和V_j之间没有交集；同一个群组内部的人互相存在社交关系；不同群组之间的人不存在社交关系；k表示分组个数，是一个变量，由分组算法确定；

S202、由S201的问题定义，将社交分组问题基于指示函数I(x,y)表示为无向带权图G＝(V,E_all,I)，其中，V和E_all分别表示顶点集合和边集合，I表示边权值映射；对图G进行图切割得到社交分组所求的集合划分；图构建方法基于手工构造的特征从全连接图G＝(V,E_all,I)生成子图G'＝(V,E_interested,I'),筛选掉E_all中的无效边，降低深度模型I'的计算量；

S203、构造边过滤策略S，筛选掉E_all中的无效边，保留感兴趣边集合E_interested；由任务输入，得到每个人在每帧出现的情况，包括是否出现、出现位置信息，基于此设计时间策略和空间策略。

4.根据权利要求3所述的一种面向大场景视频的社交分组方法，其特征在于，所述时间策略和空间策略具体包括以下内容：

时间策略：对于视频的中的任意两个人，如果他们从来都没有在同一帧视频出现，那么他们不存在互动，也不属于同一个群组；统计每个人在T帧视频中的出现情况，用掩膜Mask＝[m₁,m₂,...,m_T]∈{0,1}^1×T表示，对于视频中的任意两个人i和j，计算他们之间的共现次数，即两个人共同出现在同一帧视频中的次数F_i,j，具体计算公式为：

若F_i,j＝0，则表示这两个人从来没有在同一帧出现过，过滤掉这两个人构成的无效边；

空间策略：两个人在同时出现过但始终保持较远的距离，他们也不属于同一个群组，这两个人构成的边为无效边；对于会出现在同一帧两个人，计算他们在T帧时间内的最近距离D_i,j，具体计算公式为：

其中，

表示第i个人在t时刻的位置；如果D_i,j大于一个阈值δ，表示这两个人始终保持较远的距离，丢弃该无效边；

综合上述时间策略和空间策略，得出边筛选策略S：

E_interested＝S(E_all)＝{(i,j)∈E_all|F_i,j>0∧D_i,j≤δ}

完成上述筛选以后，实现将具有无效边的全连接图G＝(V,E_all,I')转换成稀疏关系图G'＝(V,E_interested,I')。

5.根据权利要求1所述的一种面向大场景视频的社交分组方法，其特征在于，所述S3具体包括以下内容：

S301、所述基于自注意力机制的遮挡编码模块由变换f和g构成；输入连续帧的图像特征表示成

其中N,D,T分别表示输入的人数、图像特征的维度和视频帧数；

S302、假设所选定的人在大部分帧是没有被遮挡的，对于同一个人，未被遮挡的帧之间外貌特征高度相似，少部分被遮挡的帧特征与其他帧之间相似性较低，根据该特点，通过在归一化的特征空间中的通过内积计算同一个人的图像帧之间的相似度，则该人在第i帧和第j帧之间的相似度表示成：

S303、当前第i帧和其他帧的平均相似度反应该帧的被遮挡情况，表示该人在当前帧的注意力权重a_i；若第i帧遮挡情况越严重，它与其他帧相似度越低，相应地，a_i的值也越小，对该帧特征的抑制程度越大，具体公式表示为：

S304、行人不会在视频中的所有帧都出现，在实际实现中，计算相似度均值时忽略行人不在画面内的帧；最终，将注意力权重应用在经过变换g处理后的特征上，得到输出的图像特征：

z_i＝g(x_i)×a_i

6.根据权利要求1所述的一种面向大场景视频的社交分组方法，其特征在于：所述S4中具体包括以下内容：

S401、根据S1中得到的低级姿态轨迹信息，设计时序分支进行高级姿态轨迹信息的提取；所述时序分支参考了DenseNet中密集连接块内部的设计结构，除第一层的输入是原始输入，其他每一层的输入均为前面所有层的输出特征，同时该层的输出也作为下一层的输入；使用1D卷积神经网络代替之前的2D卷积神经网络，对每个人逐帧的骨架信息进行时序上的融合；最后经过时序分支得到高级姿态轨迹信息Z_traj；

S402、利用Transformer的编码器结构学习个体的上下文信息；对于输入的第m层图像特征