CN113642482B

CN113642482B - 一种基于视频时空上下文的视频人物关系分析方法

Info

Publication number: CN113642482B
Application number: CN202110946018.0A
Authority: CN
Inventors: 张顺; 梅少辉; 李昌跃; 王茹
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2024-02-02
Anticipated expiration: 2041-08-18
Also published as: CN113642482A

Abstract

本发明公开了一种基于视频时空上下文的视频人物关系分析方法，通过时序和空间信息分析来挖掘视频中的人物关系网络，来从新的角度和深度分析视频内容。该方法首先对视频数据进行预处理，包括进行视频镜头和场景的切分、人物特征提取和聚类。其次，根据预处理的结果使用基于上下文高斯加权的方法来计算人物的某个视频镜头的共生关系。最后，融合空间位置对视频人物关系的贡献信息，判断和计算更具体和准确的共生关系，修正时序共生关系方法的量化结果，提高视频人物关系分析的准确率。本发明可有效提高视频用户对感兴趣目标查询的效率，降低人物查询的工作量，提高人物关系挖掘的准确性。

Description

一种基于视频时空上下文的视频人物关系分析方法

技术领域

本发明属于数据挖掘技术领域，具体涉及一种视频人物关系分析方法。

背景技术

在影视等视频的众多物体中，视频中的人物是视频的重要组成部分，尤其是对于电影和电视等故事性视频来说，人物是视频的主要实体，剧情都是通过人物推进展开的。在视频语义分析中，围绕视频人物进行研究，通过追踪影视频中主要人物角色或感兴趣人物，挖掘人物关系，获取人物关系网络。

近年来，人物社交关系网络的构建受到了广泛地研究。2001年M.Newman等基于物理学、生物医学研究和计算机科学中的科学论文数据库，利用论文合作关系，构建了科学家之间的合作网络，并基于该网络研究了各种统计特性，包括作者撰写的论文数量、每篇论文的作者数量、科学家拥有的合作者数量、网络的聚类程度、网络中心性和连通性的度量等。

人物社交关系的挖掘有助于更好地理解人与人之间的关系，以往的一些研究己经可以从文本和图像中识别出人物间的社交关系。2014年，B.Jeremiah等通过使用共现信息来表征人物关系，这些关系为社交网络构建提供了基础。2015年，Z.Zhangpeng等在心理学研究的驱动下，借助人脸图像提出了一个社交关系预测深度模型，该模型学习丰富的人脸表征来捕捉性别、表情、头部姿势和年龄相关的属性，然后进行关系预测的推理，通过大量实验，得到最终模型准确率达到72.6％，表明该方法对图像和视频中的这种细粒度的社交关系学习是有效的。2017年，S.Qianru等认为社交心理学中基于域的理论可以系统地解决社交关系挖掘的问题，因此利用基于域的理论和图像的语义信息建立深度学习模型，从而预测图像中人物间的社会领域和社交关系，该方法的准确率达到了67.8％。2017年，L.Junnan等通过引入注意力机制，提出了一种用于视频社交关系识别的双眼模型，该模型第一眼首先关注各个感兴趣的个体，第二眼利用注意力机制去探索各种特定的线索，从而从更高层次的社交场景理解实现社交关系识别，最终该模型在三类关系和六类关系的mAP值分别为79.7％，63.2％。2018年，一种多流融合模型由J.Lv等提出，以提取视频中人物之间的社交关系，该模型通过采用多流融合模型和利用视频中丰富的多模态信息来解决社交关系识别的挑战。但是现有技术中基于视频构建人物关系网络研究中存在的人物关系冗余或者遗漏问题。

发明内容

为了克服现有技术的不足，本发明提供了一种基于视频时空上下文的视频人物关系分析方法，通过时序和空间信息分析来挖掘视频中的人物关系网络，来从新的角度和深度分析视频内容。该方法首先对视频数据进行预处理，包括进行视频镜头和场景的切分、人物特征提取和聚类。其次，根据预处理的结果使用基于上下文高斯加权的方法来计算人物的某个视频镜头的共生关系。最后，融合空间位置对视频人物关系的贡献信息，判断和计算更具体和准确的共生关系，修正时序共生关系方法的量化结果，提高视频人物关系分析的准确率。本发明可有效提高视频用户对感兴趣目标查询的效率，降低人物查询的工作量，提高人物关系挖掘的准确性。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：对视频数据进行预处理，将视频镜头和场景进行切分，提取人物特征和聚类：

步骤1-1：在包含人脸类别的离线人脸数据集上，使用监督式方法预训练人脸CNN模型；

步骤1-2：检测视频中的镜头切换，将视频分成多个无重叠的镜头片段；对视频每帧图像使用人脸检测器检测人脸目标，在每个镜头片段中关联人脸检测响应生成可靠的轨迹片段；根据轨迹片段间的限制信息，自动生成大量的正负训练样本；

步骤1-3：正负训练样本以三元组的方式训练改进的Triplet网络，在线学习判别性人脸特征；训练过程中，改进的Triplet网络使用预训练的人脸CNN模型进行参数初始化；

步骤1-4：对每个检测响应求解目标身份；在每个镜头片段中，结合人脸目标的外观及运动信息使用基于概率图模型的多目标数据关联算法进行求解；

步骤1-5：使用层次化合并聚类算法关联不同镜头片段中的轨迹片段，形成最终的目标轨迹；

步骤2：根据步骤1预处理的结果使用基于上下文高斯加权的方法计算人物在视频镜头的共生关系；

步骤3：根据空间位置对视频人物关系的影响，融合时空上下文建立人物关系模型；

步骤4：根据人物关系模型绘制人物关系图。

进一步地，所述步骤1-1中使用的深度卷积神经网络是残差网络ResNet-50神经网络，同时使用sigmoid损失函数进行监督式训练学习人脸目标的判别特征；学习的离线人脸数据集是VGG-Face2人脸识别数据集。

进一步地，所述步骤1-2生成大量的正负训练样本的具体方法为：

步骤1-2-1：利用镜头自动分割方法检测视频中所有的镜头切换，再将待处理的视频划分成多个无重叠的镜头片段；

步骤1-2-2：利用人脸检测器，对视频每一帧图像进行人脸检测，生成人脸检测响应集X＝{x₁，...，x_R}，其中R是生成所有检测响应的数目；

步骤1-2-3：从单摄像机数据关联生成的高置信度轨迹片段T＝{T¹，...，T^M}中，挖掘视频上下文时空约束信息，并收集训练样本，其中是长度为n_i的第i^th个人脸轨迹片段，M为轨迹片段总数；

步骤1-2-4：利用两种时空限制信息：(1)属于同一类别的约束信息：同一个轨迹片段上的所有检测响应判定为属于同一个类别；(2)属于不同类别的约束信息：当两个轨迹片段在同一帧图像上同时出现时，这两个轨迹片段各自的检测响应属于不同类别；根据从待跟踪的视频中发现的时空约束信息，在线生成大量的人脸正负训练样本；

定义矩阵H∈R^M×M，如果两个轨迹片段Tⁱ和T^j在某一时刻同时出现，矩阵的元素H_i，j取值为1，否则的话H_i，j＝0；根据属于同一类别的约束信息，收集正样本集P⁺：

根据属于不同类别的约束信息，收集负样本集N^-：

进一步地，所述步骤1-3的具体步骤为：

步骤1-3-1：对于样本集P⁺和N^-的一对训练图像x₁和x₂，使用人脸CNN特征空间上的欧式平方距离D(f(x₁)，f(x₂))度量x₁和x₂的相似性：

图像对x₁和x₂的相似性越大，人脸特征f(x₁)和f(x₂)的欧式平方距离D(f(x₁)，f(x₂))值则越小；

步骤1-3-2：将样本集P⁺和N^-以三元组的方式输入Triplet网络，调整预训练CNN模型的权重参数，得到针对待跟踪视频具有判别性的人脸特征表示；生成的triplet训练集表示如下：

其中，表示正样本对，/>表示负样本对；

改进的Triplet损失函数是最小化式(5)：

式中，类间约束项和类内约束项/>分别定义如下：

类间约束项是使负样本/>同时远离正样本对/>并与正样本对的平均距离大于阈值α；类内约束项/>是拉近正样本/>和/>的距离直到小于阈值改进的损失函数L_s是优化输入图像对在CNN特征空间上的欧式平方距离D(·)，使负样本同时远离正样本对/>并且约束正样本对/>的距离小于一定阈值。

进一步地，所述步骤1-4基于概率图模型的多目标数据关联算法，具体为：

步骤1-4-1：利用MRF模型对多目标跟踪问题进行建模，对MRF中每个位置点a，检测响应x_a和目标身份y_a分别对应此位置点的观测和待估计的标记，求解MRF模型的最大条件概率P(Y|X)；

假设场景中总共有K个目标，y_a的取值范围为其中/>表示误检；条件P(Y|X)概率定义为：

式中，归一化因子Z_p是常量；超常数集Γ＝{τ₁，…，τ_K}和Ω＝{π₁，…，π_K}，分别表示已关联目标的运动模型和人脸外观模型；第a个目标的人脸外观模型π_a是用于描述目标的外貌特征，能使用轨迹片段中图像人脸特征的平均值来表示；运动模型τ_a描述目标的运动轨迹，包含目标的位置、速度、尺度运动参数，a＝1，2，...，K；已关联目标的运动模型和人脸外观模型根据视频第一帧图像信息或上一次迭代更新后的Γ和Ω进行初始化；MRF的单点项Φ(y_a，x_a；Γ，Ω)表示目标身份y_a与检测响应x_a的相似性，x_a与的运动趋势一致程度，x_a人脸特征与/>的相似程度；MRF的成对项Ψ(y_a，y_b，x_a，x_b；Γ，Ω)表示MRF两个相邻位置点属于同一个目标的概率；

步骤1-4-2：利用环路置信度传播LBP算法求解MRF最大条件概率，使相邻几帧的相似度高的检测响应分配同一个身份标签，经过漏检、误检及遮挡处理后，形成多个轨迹片段；然后选择置信度高的轨迹片段更新人脸外观模型和运动模型参数，更新后的模型再用来求解MRF图模型，通过多次重复更新与求解，将断开的轨迹片段连接起来，形成最终的目标轨迹。

进一步地，所述步骤1-5的层次化合并聚类算法，具体为：

步骤1-5-1：将每一个轨迹片段视为单独的簇，形成M个簇C；

步骤1-5-2：利用欧式距离度量公式计算所有簇与簇之间的平均距离；

步骤1-5-3：选择距离最小的两个簇合并成一个新的簇，然后按步骤1-5-2更新新的簇与其他簇之间的距离；重复此过程，直到所有簇之间最小距离大于阈值θ；

步骤1-5-4：属于同一个簇的所有轨迹片段表示同一个目标的轨迹；使用EM聚类算法迭代关联轨迹片段，同时根据误检图像与其他所有轨迹片段的相似性，去除掉由误检组成的轨迹片段，具体步骤如下：

步骤1-5-4-1：利用已训练好的CNN模型提取所有轨迹片段的人脸特征，并使用tSNE算法对特征进行非线性降维；

步骤1-5-4-2：使用K-means算法将所有轨迹片段聚类成K+1簇，并计算每个簇的平均值μ_c和方差∑_c；选择方差∑_c最大的一个簇为离群簇c_out，其他K个簇为正常簇c_in；

步骤1-5-4-3：根据离群簇c_out设置阈值其中然后对c_in和c_out中每个轨迹片段计算/>并将满足/>的轨迹片段x分到离群簇c_out中，其他情况分到正常簇c_in中；一直迭代进行直到无轨迹片段可分为止。

进一步地，所述步骤2使用基于上下文高斯加权的方法计算人物在视频镜头的共生关系，具体为：

定义时序高斯量化矩阵A＝[a_fk]_n×m，时序高斯量化矩阵计算公式如下：

其中，n表示追踪人物个数，m为视频总帧数，σ表示时序视频上下文的距离；以目标视频k为中心将第k-σ到k+σ个视频镜头做为上下文关联领域；当人物f出现在第k个镜头中时，令P_fk＝1，否则令P_fk＝0；等式(8)左边表示利用高斯共生权重累加起来得到第k个镜头的人物共生关系的程度；最终生成时序共生关系矩阵R＝[r_fg]_n×n＝A^TA，用于表示视频的人物共生关系矩阵，r_fg表示视频人物f与视频任务g之间的人物共生关系，A表示时序高斯量化矩阵。

进一步地，所述步骤3融合时空上下文建立人物关系模型，具体为：

当视频镜头第k帧中人物f与人物g存在共生关系时，定义单镜头空间人物共生关系矩阵D_fk＝[d_fg]_n×n，计算公式如下：

定义空间人物共生关系矩阵SP＝[sp_fg]_n×n，其中每个元素sp_fg表示在空间上人物f和人物g之间的人物关系紧密程度，conFrame(f，g)表示在这个视频镜头序列中人物f与人物g存在共生关系的视频帧数，m为视频总帧数；

融入空间上下文相关性，得到每个视频镜头基于时空上下文的人物关系矩阵，时空上下文人物共生关系矩阵W＝[w_fg]_n×n＝[r_fg×sp_fg]_n×n，用于表示人物f与人物g的人物关系程度。

进一步地，所述步骤4中根据人物关系模型绘制人物关系图，具体为：

将人物共生关系矩阵W绘制为人物关系图，人物关系图中的节点表示人物，节点之间的连线表示人物之间存在共生关系，共生关系的权重通过图的边长表示。

本发明的有益效果如下：

本发明方法可有效提高视频用户对感兴趣目标查询的效率，降低人物查询的工作量，并提高人物关系挖掘的准确性。与现有技术相比，具有较高的人物关系挖掘的精确度。

附图说明

图1是本发明的基于视频时空上下文的视频人物关系分析方法流程框图。

图2是本发明实施例的VGG-Face2人脸识别数据集。

图3是本发明的Triplet网络示意图。

图4是本发明的基于外观模型和运动模型的马尔科夫随机场概率图模型。

图5是本发明的从局部到全局自动关联检测响应的多目标跟踪算法框架。

图6是本发明实施例的影视频多人物追踪结果。

图7是本发明基于时序上下文人物共生关系量化过程图。

图8是本发明实施例某段视频中的时序共生关系分析结果图。

图9是本发明实施例精确率、召回率、F₁值作为评价指标之间的相互联系关系图。

图10是本发明实施例空间信息对非重要人物关系噪声信噪比的影响对比图。

图11是本发明实施例某视频中21名演员的全局人物关系图。

图12是本发明实施例某视频中用户感兴趣人物关系图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

针对现有的基于视频构建人物关系网络研究中存在的人物关系冗余或者遗漏问题，本发明提出一种基于视频时空上下文的视频人物关系分析方法。通过时序和空间信息分析来挖掘视频中的人物关系网络，来从新的角度和深度分析视频内容。根据视频内容，把人物作为研究中心，通过视频分析技术来获得具有更高层语义内容。将探讨基于时空上下文的人物共生关系模型的建立，尝试生成基于语义的局部人物关系描述子，为视频分析提供一种通用而有效的描述。在基于时序的人物关系分析方法的基础上，加入空间信息，利用人物的空间位置结构来修正或者说更准确的计算人物之间的关联程度。尤其是在多人物的视频中，人物空间关系更加有效地反映了人物关系之间的紧密程度。

一种基于视频时空上下文的视频人物关系分析方法，包括如下步骤：

步骤1-4：对每个检测响应求解目标身份；在每个镜头片段中，结合人脸目标的外观及运动信息使用基于概率图模型的多目标数据关联算法；

步骤4：根据人物关系模型绘制人物关系图。

步骤1-2-4：利用两种时空限制信息：(1)属于同一类别的约束信息：同一个轨迹片段上的所有检测响应判定为属于同一个类别，人脸特征差异很小；(2)属于不同类别的约束信息：当两个轨迹片段在同一帧图像上同时出现时，这两个轨迹片段各自的检测响应属于不同类别，人脸特征差异较大；根据从待跟踪的视频中发现的时空约束信息，在线生成大量的人脸正负训练样本；

根据属于不同类别的约束信息，收集负样本集N^-：

进一步地，所述步骤1-3的具体步骤为：

其中，表示正样本对，/>表示负样本对；

改进的Triplet损失函数是最小化式(5)：

式中，类间约束项和类内约束项/>分别定义如下：

类间约束项是使负样本/>同时远离正样本对/>并与正样本对的平均距离大于阈值α；类内约束项/>是拉近正样本/>和/>的距离直到小于阈值/>改进的损失函数L_s是优化输入图像对在CNN特征空间上的欧式平方距离D(·)，使负样本/>同时远离正样本对/>并且约束正样本对/>的距离小于一定阈值。

在每个镜头片段中，结合人脸目标的外观及运动信息使用基于概率图模型的多目标数据关联算法。

式中，归一化因子Z_p是常量；超常数集Γ＝{τ₁，…，τ_K}和Ω＝{π₁，…，π_K}，分别表示已关联目标的运动模型和人脸外观模型；第a个目标的人脸外观模型π_a是用于描述目标的外貌特征，能使用轨迹片段中图像人脸特征的平均值来表示；运动模型τ_a描述目标的运动轨迹，包含目标的位置、速度、尺度运动参数，a＝1，2，...，K；已关联目标的运动模型和人脸外观模型根据视频第一帧图像信息或上一次迭代更新后的Γ和Ω进行初始化；MRF的单点项Φ(y_a，x_a；Γ，Ω)表示目标身份y_a与检测响应x_a的相似性；MRF的成对项Ψ(y_a，y_b，x_a，x_b；Γ，Ω)表示MRF两个相邻位置点属于同一个目标的概率；

进一步地，所述步骤1-5的层次化合并聚类算法，具体为：

使用层次化合并聚类算法，将聚类到一起的轨迹片段关联成同一个目标轨迹。

步骤1-5-1：将每一个轨迹片段视为单独的簇，形成M个簇C；

步骤1-5-4：算法执行结束后，属于同一个簇的所有轨迹片段表示同一个目标的轨迹，有的轨迹片段可能全由误检(false detections)组成，使用EM聚类算法迭代关联轨迹片段，同时根据误检图像与其他所有轨迹片段的相似性，去除掉由误检组成的轨迹片段，具体步骤如下：

依据预处理过后的人脸目标轨迹，通过基于目标视频邻域内的人物定位和上下文视频镜头的高斯加权来量化人物共生关系。对于一段影视视频，分析人物1和人物2之间的人物共生关系，在出现第a帧镜头时，1号与2号人物开始同时或交错出现在镜头中，当到达第c帧镜头之后，1号人物在较长的时间中退出了镜头，那么我们可以得到图中所示的基于时序上下文的人物共生关系高斯加权值，其在介于第a帧与第c帧之间的第b帧视频处达到峰值。再将加权值在时序上进行积分，即可得到用于描述这一段视频中1号人物与2号人物时序上的共生关系权值。

定义时序高斯量化矩阵A＝[a_dk]_n×m，时序高斯量化矩阵计算公式如下：

其中，n表示追踪人物个数，m表示视频镜头个数，σ表示时序视频上下文的距离；以目标视频k为中心将第k-σ到k+σ个视频镜头做为上下文关联领域；当人物f出现在第k个镜头中时，令P_fk＝1，否则令P_fk＝0；等式(8)左边表示利用高斯共生权重累加起来得到第k个镜头的人物共生关系的程度；最终生成时序共生关系矩阵R＝[r_fg]_n×n＝A^TA，用于表示视频的人物共生关系矩阵，r_fg表示视频人物f与视频任务g之间的人物共生关系，A表示时序高斯量化矩阵。

具体实施例：

1、视频数据预处理

a.人脸CNN特征预训练

本实施例在已标注人脸类别的离线人脸数据集上，使用深度卷积神经网络和sigmoid损失函数进行监督式预训练学习人脸目标的一般化判别特征。选用的深度卷积神经网络是ResNet-50网络。所用的数据集是VGG-Face2人脸识别数据集(如图2所示)，VGG-Face2于2018年发表并供公开下载，共有331万张人脸图片，9131个人脸类别，每个人脸类别平均有362张图片。并利用当前已有人脸类别数据集训练CNN网络模型，在待跟踪视频上自适应学习更具判别性的人脸CNN特征。

b.基于视频上下文时空约束收集样本数据集

进一步挖掘基于视频上下文的时空约束信息，提高正负训练样本集的有效性：(1)属于同一类别的约束信息：同一个轨迹片段上的所有检测响应可以认为是属于同一个类别，人脸特征差异很小；(2)属于不同类别的约束信息：当两个轨迹片段在某一帧图像上同时出现，这两个轨迹片段各自的检测响应属于不同类别，人脸特征差异较大。根据从待跟踪的视频中发现的时空约束信息，可以在线生成大量的人脸正负训练样本。

c.人脸特征的自适应学习

收集的训练样本以三元组的方式输入给Triplet网络，提高正负训练样本集的有效性：以自适应调整预训练CNN模型的权重参数，得到针对待跟踪视频更具有判别性的人脸特征表示。Triplet网络由结构相同且共享权值的三个卷积神经网络组(如图3所示)，每个卷积神经网络的架构与预训练的神经网络架构一样。

d.基于概率图模型的多目标数据关联算法

单摄像机多目标跟踪问题可以被形式化为推理监控视频中所有检测响应的目标真实身份问题。利用MRF模型可对多目标跟踪问题进行建模(如图4所示)方块表示可观测的目标检测响应，不同颜色的圆圈表示不同人脸身份，在各个时刻检测响应的数目是变化的，求解MRF模型的最大条件概率。

采用一种从局部到全局自动关联检测响应的跟踪框架来跟踪生成跟踪轨迹(如图5所示)。利用环路置信度传播(Loopy Belief Propagation，LBP)算法求解MRF最大条件概率，使相邻几帧的相似度高的检测响应分配同一个身份标签，经过漏检、误检及遮挡处理后，形成许多轨迹片段。

e.跨摄像机人脸跟踪轨迹匹配

根据基于概率图模型的单摄像机多目标数据关联算法，可以生成每个单摄像机生成的跟踪轨迹。为了准确匹配不同摄像机中的跟踪轨迹，每条跟踪轨迹使用自适应学习得到的目标特征表示。然后使用层次化合并聚类算法，将聚类到一起的轨迹片段关联成同一个目标轨迹。

本实施例采用某视频作为测试实例。得到了视频多人物追踪结果(如图6所示)。针对本发明在人脸聚类算法上的优越性，采用与其他优秀的人脸聚类算法在某视频上进行聚类精度比较。表1是以上不同特征对每个视频的所有人脸图像进行层次化聚类后的纯度比较。Pre-trained和VGG-Face方法都是在包含大量类别的人脸数据集上监督式训练得到的CNN特征，他们的聚类纯度比在ImageNet上训练得到的AlexNet特征的纯度要高，而聚类性能最差的是基于传统手动技术方法的HOG特征。

表1不同特征对每个视频的所有人脸图像进行层次化聚类后的纯度比较

2、基于时序上下文人物共生关系

通过目标视频邻域内的人物定位和上下文视频镜头的高斯加权来量化人物共生关系(如图7所示)。图7中展现出在一段影视频中，分析人物1与人物2之间的人物共生关系，在出现第a帧镜头时，1号与2号人物开始同时或交错出现在镜头中，当到达第c帧镜头之后，1号人物在较长的时间中退出了镜头，那么可以得到图中所示的基于时序上下文的人物共生关系高斯加权值，其在介于第a帧与第c帧之间的第b帧视频处达到峰值。将上述加权值在时序上进行积分，就可以得到用于描述这一整段视频中1号人物与2号人物时序上的共生关系权值。

随机抽取某视频中一段连续的几个镜头，对这几个镜头分别使用本文提出的基于时序上下文的分析方法和传统方法的进行人物关联程度的计算，并使用规范化的人物共生关系来进行对比，在实施例中，分割数据集镜头所使用的帧率为5帧每秒。选择时空上下文的距离σ＝6，判断是否存在共生关系时可以取得较为优良的效果，定义规范化时序共生关系，来展示使用不同方法时的人物共生关系量化。记两位人物的时序高斯量化矩阵分别为a_1k、a_2k,c_k＝a_1k×a_2k。规范化时序共生关系表示为：

本发明实验测试结果如图8所示。

对于整个视频集，标注数据集的标准网络。标注人物之间的关系标签，再对三个标注结果进行综合，从而得到带标签人物关系网络，表示为G^*。采用精确率P(Precision)、召回率R(Recall)、F₁值(F₁-Score)作为评价由不同算法构建的关系网络G与标准的关系网络G^*的相似程度，计算公式如下：

精确率和召回率互相影响，理想状态下追求精确率与召回率都为较高值，但实际情况是两者相互“制约”：追求准确率高，则召回率就低；追求召回率高，则通常会影响准确率，指标之间的联系如图9所示，使用F₁值作为综合衡量指标。

本实施例根据不同的方法构建了人物关系网络，通过与人工标注的标准人物关系网络进行比较，得到了不同方法的评价指标如表2所示。

表2不同方法的评价指标

OurCharNet方法在整个数据集视频上的各个指标均胜过了传统方法。在保持精确率略优于CoCharNet方法的同时，召回率提高到了0.9559，F₁值提高了0.0453，充分说明了本发明方法可以构建较准确完整的关系网络。

3、时空结合的人物关系模型

使用经实验得到的人物共生关系矩阵中四种主要的人物关系(Leonard-Sheldon、Leonard-Penny、Leonard-Howard、Leonard-Rajesh)记作S，与次要人物关系(Leonard-Expressman)记作N，通过计算他们的信噪比，来展示本文提出的融合空间信息后对人物关系的影响。

信噪比计算公式如下：

相较于传统的CoCharNet和单纯时序分析的OurCharNet，融合了时空信息的OurCharNet(+sp)在抑制非重要人物在时序共生而生产的共生关系噪声时表现更好，描述的主次人物关系更分明(如图10所示)。

4、人物关系图绘制

本实施例采用PyEcharts来呈现一个可视化的全局人物关系图，可以使用户查找感兴趣的人物和他的相关人物之间的关系，以一种图形化的方式非常直观的呈现出来。得到了在进行实验的视频数据中共21名演员，他们之间在这段视频中所体现的人物之间的关联(如图11所示)。

用户可以浏览到一个从整个视频数据中分析获得人物关系的整体结构图，点击某个感兴趣的人物，可以得到所有与之有联系的更具体的关系图(如图12所示)，在图中不仅可以看到与中心人物相关联的重要人物，还可以通过图中人物之间连线的长短可以看出他们之间关系的紧密程度。

Claims

1.一种基于视频时空上下文的视频人物关系分析方法，其特征在于，包括以下步骤：

深度卷积神经网络是残差网络ResNet-50神经网络，同时使用sigmoid损失函数进行监督式训练学习人脸目标的判别特征；学习的离线人脸数据集是VGG-Face2人脸识别数据集；

步骤1-2-2：利用人脸检测器，对视频每一帧图像进行人脸检测，生成人脸检测响应集X＝{x₁,…,x_R}，其中R是生成所有检测响应的数目；

步骤1-2-3：从单摄像机数据关联生成的高置信度轨迹片段T＝{T¹,…,T^M}中，挖掘视频上下文时空约束信息，并收集训练样本，其中是长度为n_i的第i^th个人脸轨迹片段，M为轨迹片段总数；

定义矩阵H∈R^M×M，如果两个轨迹片段Tⁱ和T^j在某一时刻同时出现，矩阵的元素H_i,j取值为1，否则的话H_i,j＝0；根据属于同一类别的约束信息，收集正样本集P⁺：

根据属于不同类别的约束信息，收集负样本集N^-：

步骤1-3-1：对于样本集P⁺和N^-的一对训练图像x₁和x₂，使用人脸CNN特征空间上的欧式平方距离D(f(x₁),f(x₂))度量x₁和x₂的相似性：

图像对x₁和x₂的相似性越大，人脸特征f(x₁)和f(x₂)的欧式平方距离D(f(x₁),f(x₂))值则越小；

其中，表示正样本对，/>表示负样本对；

改进的Triplet损失函数是最小化式(5)：

式中，类间约束项和类内约束项/>分别定义如下：

类间约束项是使负样本/>同时远离正样本对/>并与正样本对的平均距离大于阈值α；类内约束项/>是拉近正样本/>和/>的距离直到小于阈值/>改进的损失函数L_s是优化输入图像对在CNN特征空间上的欧式平方距离D(·)，使负样本/>同时远离正样本对/>并且约束正样本对/>的距离小于一定阈值；

式中，归一化因子Z_p是常量；超常数集Γ＝{τ₁，…，τ_K}和Ω＝{π₁，…，π_K}，分别表示已关联目标的运动模型和人脸外观模型；第a个目标的人脸外观模型π_a是用于描述目标的外貌特征，能使用轨迹片段中图像人脸特征的平均值来表示；运动模型τ_a描述目标的运动轨迹，包含目标的位置、速度、尺度运动参数，a＝1，2，...，K；已关联目标的运动模型和人脸外观模型根据视频第一帧图像信息或上一次迭代更新后的Γ和Ω进行初始化；MRF的单点项中(y_a，x_a；Γ，Ω)表示目标身份y_a与检测响应x_a的相似性，x_a与的运动趋势一致程度，x_a人脸特征与/>的相似程度；MRF的成对项Ψ(y_a，y_b，x_a，x_b；Γ，Ω)表示MRF两个相邻位置点属于同一个目标的概率；

步骤1-4-2：利用环路置信度传播LBP算法求解MRF最大条件概率，使相邻几帧的相似度高的检测响应分配同一个身份标签，经过漏检、误检及遮挡处理后，形成多个轨迹片段；然后选择置信度高的轨迹片段更新人脸外观模型和运动模型参数，更新后的模型再用来求解MRF图模型，通过多次重复更新与求解，将断开的轨迹片段连接起来，形成最终的目标轨迹；

步骤1-5-1：将每一个轨迹片段视为单独的簇，形成M个簇C；

步骤1-5-4-3：根据离群簇c_out设置阈值其中然后对c_in和c_out中每个轨迹片段计算/>并将满足/>的轨迹片段x分到离群簇c_out中，其他情况分到正常簇c_in中；一直迭代进行直到无轨迹片段可分为止；

步骤4：根据人物关系模型绘制人物关系图。

2.根据权利要求1所述的一种基于视频时空上下文的视频人物关系分析方法，其特征在于，所述步骤2使用基于上下文高斯加权的方法计算人物在视频镜头的共生关系，具体为：

3.根据权利要求2所述的一种基于视频时空上下文的视频人物关系分析方法，其特征在于，所述步骤3融合时空上下文建立人物关系模型，具体为：

4.根据权利要求3所述的一种基于视频时空上下文的视频人物关系分析方法，其特征在于，所述步骤4中根据人物关系模型绘制人物关系图，具体为：