CN113642482A - 一种基于视频时空上下文的视频人物关系分析方法 - Google Patents

一种基于视频时空上下文的视频人物关系分析方法 Download PDF

Info

Publication number
CN113642482A
CN113642482A CN202110946018.0A CN202110946018A CN113642482A CN 113642482 A CN113642482 A CN 113642482A CN 202110946018 A CN202110946018 A CN 202110946018A CN 113642482 A CN113642482 A CN 113642482A
Authority
CN
China
Prior art keywords
video
character
relationship
face
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110946018.0A
Other languages
English (en)
Other versions
CN113642482B (zh
Inventor
张顺
梅少辉
李昌跃
王茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110946018.0A priority Critical patent/CN113642482B/zh
Publication of CN113642482A publication Critical patent/CN113642482A/zh
Application granted granted Critical
Publication of CN113642482B publication Critical patent/CN113642482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频时空上下文的视频人物关系分析方法,通过时序和空间信息分析来挖掘视频中的人物关系网络,来从新的角度和深度分析视频内容。该方法首先对视频数据进行预处理,包括进行视频镜头和场景的切分、人物特征提取和聚类。其次,根据预处理的结果使用基于上下文高斯加权的方法来计算人物的某个视频镜头的共生关系。最后,融合空间位置对视频人物关系的贡献信息,判断和计算更具体和准确的共生关系,修正时序共生关系方法的量化结果,提高视频人物关系分析的准确率。本发明可有效提高视频用户对感兴趣目标查询的效率,降低人物查询的工作量,提高人物关系挖掘的准确性。

Description

一种基于视频时空上下文的视频人物关系分析方法
技术领域
本发明属于数据挖掘技术领域,具体涉及一种视频人物关系分析方法。
背景技术
在影视等视频的众多物体中,视频中的人物是视频的重要组成部分,尤其是对于电影和电视等故事性视频来说,人物是视频的主要实体,剧情都是通过人物推进展开的。在视频语义分析中,围绕视频人物进行研究,通过追踪影视频中主要人物角色或感兴趣人物,挖掘人物关系,获取人物关系网络。
近年来,人物社交关系网络的构建受到了广泛地研究。2001年M.Newman等基于物理学、生物医学研究和计算机科学中的科学论文数据库,利用论文合作关系,构建了科学家之间的合作网络,并基于该网络研究了各种统计特性,包括作者撰写的论文数量、每篇论文的作者数量、科学家拥有的合作者数量、网络的聚类程度、网络中心性和连通性的度量等。
人物社交关系的挖掘有助于更好地理解人与人之间的关系,以往的一些研究己经可以从文本和图像中识别出人物间的社交关系。2014年,B.Jeremiah等通过使用共现信息来表征人物关系,这些关系为社交网络构建提供了基础。2015年,Z.Zhangpeng等在心理学研究的驱动下,借助人脸图像提出了一个社交关系预测深度模型,该模型学习丰富的人脸表征来捕捉性别、表情、头部姿势和年龄相关的属性,然后进行关系预测的推理,通过大量实验,得到最终模型准确率达到72.6%,表明该方法对图像和视频中的这种细粒度的社交关系学习是有效的。2017年,S.Qianru等认为社交心理学中基于域的理论可以系统地解决社交关系挖掘的问题,因此利用基于域的理论和图像的语义信息建立深度学习模型,从而预测图像中人物间的社会领域和社交关系,该方法的准确率达到了67.8%。2017年,L.Junnan等通过引入注意力机制,提出了一种用于视频社交关系识别的双眼模型,该模型第一眼首先关注各个感兴趣的个体,第二眼利用注意力机制去探索各种特定的线索,从而从更高层次的社交场景理解实现社交关系识别,最终该模型在三类关系和六类关系的mAP值分别为79.7%,63.2%。2018年,一种多流融合模型由J.Lv等提出,以提取视频中人物之间的社交关系,该模型通过采用多流融合模型和利用视频中丰富的多模态信息来解决社交关系识别的挑战。但是现有技术中基于视频构建人物关系网络研究中存在的人物关系冗余或者遗漏问题。
发明内容
为了克服现有技术的不足,本发明提供了一种基于视频时空上下文的视频人物关系分析方法,通过时序和空间信息分析来挖掘视频中的人物关系网络,来从新的角度和深度分析视频内容。该方法首先对视频数据进行预处理,包括进行视频镜头和场景的切分、人物特征提取和聚类。其次,根据预处理的结果使用基于上下文高斯加权的方法来计算人物的某个视频镜头的共生关系。最后,融合空间位置对视频人物关系的贡献信息,判断和计算更具体和准确的共生关系,修正时序共生关系方法的量化结果,提高视频人物关系分析的准确率。本发明可有效提高视频用户对感兴趣目标查询的效率,降低人物查询的工作量,提高人物关系挖掘的准确性。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:对视频数据进行预处理,将视频镜头和场景进行切分,提取人物特征和聚类:
步骤1-1:在包含人脸类别的离线人脸数据集上,使用监督式方法预训练人脸CNN模型;
步骤1-2:检测视频中的镜头切换,将视频分成多个无重叠的镜头片段;对视频每帧图像使用人脸检测器检测人脸目标,在每个镜头片段中关联人脸检测响应生成可靠的轨迹片段;根据轨迹片段间的限制信息,自动生成大量的正负训练样本;
步骤1-3:正负训练样本以三元组的方式训练改进的Triplet网络,在线学习判别性人脸特征;训练过程中,改进的Triplet网络使用预训练的人脸CNN模型进行参数初始化;
步骤1-4:对每个检测响应求解目标身份;在每个镜头片段中,结合人脸目标的外观及运动信息使用基于概率图模型的多目标数据关联算法;
步骤1-5:使用层次化合并聚类算法关联不同镜头片段中的轨迹片段,形成最终的目标轨迹;
步骤2:根据步骤1预处理的结果使用基于上下文高斯加权的方法计算人物在视频镜头的共生关系;
步骤3:根据空间位置对视频人物关系的影响,融合时空上下文建立人物关系模型;
步骤4:根据人物关系模型绘制人物关系图。
进一步地,所述步骤1-1中使用的深度卷积神经网络是残差网络ResNet-50神经网络,同时使用sigmoid损失函数进行监督式训练学习人脸目标的判别特征;学习的离线人脸数据集是VGG-Face2人脸识别数据集。
进一步地,所述步骤1-2生成大量的正负训练样本的具体方法为:
步骤1-2-1:利用镜头自动分割方法检测视频中所有的镜头切换,再将待处理的视频划分成多个无重叠的镜头片段;
步骤1-2-2:利用人脸检测器,对视频每一帧图像进行人脸检测,生成人脸检测响应集X={x1,…,xR},其中R是生成所有检测响应的数目;
步骤1-2-3:从单摄像机数据关联生成的高置信度轨迹片段T={T1,…,TM}中,挖掘视频上下文时空约束信息,并收集训练样本,其中
Figure BDA0003216607120000031
是长度为ni的第ith个人脸轨迹片段,M为轨迹片段总数;
步骤1-2-4:利用两种时空限制信息:(1)属于同一类别的约束信息:同一个轨迹片段上的所有检测响应判定为属于同一个类别;(2)属于不同类别的约束信息:当两个轨迹片段在同一帧图像上同时出现时,这两个轨迹片段各自的检测响应属于不同类别;根据从待跟踪的视频中发现的时空约束信息,在线生成大量的人脸正负训练样本;
定义矩阵H∈RM×M,如果两个轨迹片段Ti和Tj在某一时刻同时出现,矩阵的元素Hi,j取值为1,否则的话Hi,j=0;根据属于同一类别的约束信息,收集正样本集P+
Figure BDA0003216607120000032
根据属于不同类别的约束信息,收集负样本集N-
Figure BDA0003216607120000033
进一步地,所述步骤1-3的具体步骤为:
步骤1-3-1:对于样本集P+和N-的一对训练图像x1和x2,使用人脸CNN特征空间上的欧式平方距离D(f(x1),f(x2))度量x1和x2的相似性:
Figure BDA0003216607120000034
图像对x1和x2的相似性越大,人脸特征f(x1)和f(x2)的欧式平方距离D(f(x1),f(x2))值则越小;
步骤1-3-2:将样本集P+和N-以三元组的方式输入Triplet网络,调整预训练CNN模型的权重参数,得到针对待跟踪视频具有判别性的人脸特征表示;生成的triplet训练集表示如下:
Figure BDA0003216607120000041
其中,
Figure BDA0003216607120000042
表示正样本对,
Figure BDA0003216607120000043
表示负样本对;
改进的Triplet损失函数是最小化式(5):
Figure BDA0003216607120000044
式中,类间约束项
Figure BDA0003216607120000045
和类内约束项
Figure BDA0003216607120000046
分别定义如下:
Figure BDA0003216607120000047
类间约束项
Figure BDA0003216607120000048
是使负样本
Figure BDA0003216607120000049
同时远离正样本对
Figure BDA00032166071200000410
并与正样本对的平均距离大于阈值α;类内约束项
Figure BDA00032166071200000411
是拉近正样本
Figure BDA00032166071200000412
Figure BDA00032166071200000413
的距离直到小于阈值
Figure BDA00032166071200000414
改进的损失函数Ls是优化输入图像对在CNN特征空间上的欧式平方距离D(·),使负样本
Figure BDA00032166071200000415
同时远离正样本对
Figure BDA00032166071200000416
并且约束正样本对
Figure BDA00032166071200000417
的距离小于一定阈值。
进一步地,所述步骤1-4基于概率图模型的多目标数据关联算法,具体为:
步骤1-4-1:利用MRF模型对多目标跟踪问题进行建模,对MRF中每个位置点a,检测响应xa和目标身份ya分别对应此位置点的观测和待估计的标记,求解MRF模型的最大条件概率P(Y|X);
假设场景中总共有K个目标,ya的取值范围为
Figure BDA00032166071200000418
其中
Figure BDA00032166071200000419
表示误检;条件P(Y|X)概率定义为:
Figure BDA00032166071200000420
式中,归一化因子Zp是常量;超常数集Γ={τ1,…,τK}和Ω={π1,…,πK},分别表示已关联目标的运动模型和人脸外观模型;第a个目标的人脸外观模型πa是用于描述目标的外貌特征,能使用轨迹片段中图像人脸特征的平均值来表示;运动模型τa描述目标的运动轨迹,包含目标的位置、速度、尺度运动参数,a=1,2,…,K;已关联目标的运动模型和人脸外观模型根据视频第一帧图像信息或上一次迭代更新后的Γ和Ω进行初始化;MRF的单点项Φ(ya,xa;Γ,Ω)表示目标身份ya与检测响应xa的相似性,xa
Figure BDA00032166071200000421
的运动趋势一致程度,xa人脸特征与
Figure BDA00032166071200000422
的相似程度;MRF的成对项Ψ(ya,yb,xa,xb;Γ,Ω)表示MRF两个相邻位置点属于同一个目标的概率;
步骤1-4-2:利用环路置信度传播LBP算法求解MRF最大条件概率,使相邻几帧的相似度高的检测响应分配同一个身份标签,经过漏检、误检及遮挡处理后,形成多个轨迹片段;然后选择置信度高的轨迹片段更新人脸外观模型和运动模型参数,更新后的模型再用来求解MRF图模型,通过多次重复更新与求解,将断开的轨迹片段连接起来,形成最终的目标轨迹。
进一步地,所述步骤1-5的层次化合并聚类算法,具体为:
步骤1-5-1:将每一个轨迹片段视为单独的簇,形成M个簇C;
步骤1-5-2:利用欧式距离度量公式计算所有簇与簇之间的平均距离;
步骤1-5-3:选择距离最小的两个簇合并成一个新的簇,然后按步骤1-5-2更新新的簇与其他簇之间的距离;重复此过程,直到所有簇之间最小距离大于阈值θ;
步骤1-5-4:属于同一个簇的所有轨迹片段表示同一个目标的轨迹;使用EM聚类算法迭代关联轨迹片段,同时根据误检图像与其他所有轨迹片段的相似性,去除掉由误检组成的轨迹片段,具体步骤如下:
步骤1-5-4-1:利用已训练好的CNN模型提取所有轨迹片段的人脸特征,并使用tSNE算法对特征进行非线性降维;
步骤1-5-4-2:使用K-means算法将所有轨迹片段聚类成K+1簇,并计算每个簇的平均值μc和方差Σc;选择方差Σc最大的一个簇为离群簇cout,其他K个簇为正常簇cin
步骤1-5-4-3:根据离群簇cout设置阈值
Figure BDA0003216607120000051
其中
Figure BDA0003216607120000052
然后对cin和cout中每个轨迹片段计算
Figure BDA0003216607120000053
并将满足
Figure BDA0003216607120000054
的轨迹片段x分到离群簇cout中,其他情况分到正常簇cin中;一直迭代进行直到无轨迹片段可分为止。
进一步地,所述步骤2使用基于上下文高斯加权的方法计算人物在视频镜头的共生关系,具体为:
定义时序高斯量化矩阵A=[adk]n×m,时序高斯量化矩阵计算公式如下:
Figure BDA0003216607120000055
Figure BDA0003216607120000061
其中,n表示追踪人物个数,m表示视频镜头个数,σ表示时序视频上下文的距离;以目标视频k为中心将第k-σ到k+σ个视频镜头做为上下文关联领域;当人物f出现在第k个镜头中时,令Pfk=1,否则令Pfk=0;等式(8)左边表示利用高斯共生权重累加起来得到第k个镜头的人物共生关系的程度;最终生成时序共生关系矩阵R=[rfg]n×n=AT A,用于表示视频的人物共生关系矩阵,rfg表示视频人物f与视频任务g之间的人物共生关系,A表示时序高斯量化矩阵。
进一步地,所述步骤3融合时空上下文建立人物关系模型,具体为:
当视频镜头第k帧中人物f与人物g存在共生关系时,定义单镜头空间人物共生关系矩阵Dfk=[dfg]n×n,计算公式如下:
Figure BDA0003216607120000062
Figure BDA0003216607120000063
定义空间人物共生关系矩阵SP=[spfg]n×n,其中每个元素spfg表示在空间上人物f和人物g之间的人物关系紧密程度,conFrame(f,g)表示在这个视频镜头序列中人物f与人物g存在共生关系的视频帧数,m为视频总帧数;
Figure BDA0003216607120000064
融入空间上下文相关性,得到每个视频镜头基于时空上下文的人物关系矩阵,时空上下文人物共生关系矩阵W=[wfg]n×n=[rfg×spfg]n×n,用于表示人物f与人物g的人物关系程度。
进一步地,所述步骤4中根据人物关系模型绘制人物关系图,具体为:
将人物共生关系矩阵W绘制为人物关系图,人物关系图中的节点表示人物,节点之间的连线表示人物之间存在共生关系,共生关系的权重通过图的边长表示。
本发明的有益效果如下:
本发明方法可有效提高视频用户对感兴趣目标查询的效率,降低人物查询的工作量,并提高人物关系挖掘的准确性。与现有技术相比,具有较高的人物关系挖掘的精确度。
附图说明
图1是本发明的基于视频时空上下文的视频人物关系分析方法流程框图。
图2是本发明实施例的VGG-Face2人脸识别数据集。
图3是本发明的Triplet网络示意图。
图4是本发明的基于外观模型和运动模型的马尔科夫随机场概率图模型。
图5是本发明的从局部到全局自动关联检测响应的多目标跟踪算法框架。
图6是本发明实施例的影视频多人物追踪结果。
图7是本发明基于时序上下文人物共生关系量化过程图。
图8是本发明实施例某段视频中的时序共生关系分析结果图。
图9是本发明实施例精确率、召回率、F1值作为评价指标之间的相互联系关系图。
图10是本发明实施例空间信息对非重要人物关系噪声信噪比的影响对比图。
图11是本发明实施例生活大爆炸中21名演员的全局人物关系图。
图12是本发明实施例生活大爆炸中用户感兴趣人物关系图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
针对现有的基于视频构建人物关系网络研究中存在的人物关系冗余或者遗漏问题,本发明提出一种基于视频时空上下文的视频人物关系分析方法。通过时序和空间信息分析来挖掘视频中的人物关系网络,来从新的角度和深度分析视频内容。根据视频内容,把人物作为研究中心,通过视频分析技术来获得具有更高层语义内容。将探讨基于时空上下文的人物共生关系模型的建立,尝试生成基于语义的局部人物关系描述子,为视频分析提供一种通用而有效的描述。在基于时序的人物关系分析方法的基础上,加入空间信息,利用人物的空间位置结构来修正或者说更准确的计算人物之间的关联程度。尤其是在多人物的视频中,人物空间关系更加有效地反映了人物关系之间的紧密程度。
一种基于视频时空上下文的视频人物关系分析方法,包括如下步骤:
步骤1:对视频数据进行预处理,将视频镜头和场景进行切分,提取人物特征和聚类:
步骤1-1:在包含人脸类别的离线人脸数据集上,使用监督式方法预训练人脸CNN模型;
步骤1-2:检测视频中的镜头切换,将视频分成多个无重叠的镜头片段;对视频每帧图像使用人脸检测器检测人脸目标,在每个镜头片段中关联人脸检测响应生成可靠的轨迹片段;根据轨迹片段间的限制信息,自动生成大量的正负训练样本;
步骤1-3:正负训练样本以三元组的方式训练改进的Triplet网络,在线学习判别性人脸特征;训练过程中,改进的Triplet网络使用预训练的人脸CNN模型进行参数初始化;
步骤1-4:对每个检测响应求解目标身份;在每个镜头片段中,结合人脸目标的外观及运动信息使用基于概率图模型的多目标数据关联算法;
步骤1-5:使用层次化合并聚类算法关联不同镜头片段中的轨迹片段,形成最终的目标轨迹;
步骤2:根据步骤1预处理的结果使用基于上下文高斯加权的方法计算人物在视频镜头的共生关系;
步骤3:根据空间位置对视频人物关系的影响,融合时空上下文建立人物关系模型;
步骤4:根据人物关系模型绘制人物关系图。
进一步地,所述步骤1-1中使用的深度卷积神经网络是残差网络ResNet-50神经网络,同时使用sigmoid损失函数进行监督式训练学习人脸目标的判别特征;学习的离线人脸数据集是VGG-Face2人脸识别数据集。
进一步地,所述步骤1-2生成大量的正负训练样本的具体方法为:
步骤1-2-1:利用镜头自动分割方法检测视频中所有的镜头切换,再将待处理的视频划分成多个无重叠的镜头片段;
步骤1-2-2:利用人脸检测器,对视频每一帧图像进行人脸检测,生成人脸检测响应集X={x1,…,xR},其中R是生成所有检测响应的数目;
步骤1-2-3:从单摄像机数据关联生成的高置信度轨迹片段T={T1,…,TM}中,挖掘视频上下文时空约束信息,并收集训练样本,其中
Figure BDA0003216607120000081
是长度为ni的第ith个人脸轨迹片段,M为轨迹片段总数;
步骤1-2-4:利用两种时空限制信息:(1)属于同一类别的约束信息:同一个轨迹片段上的所有检测响应判定为属于同一个类别,人脸特征差异很小;(2)属于不同类别的约束信息:当两个轨迹片段在同一帧图像上同时出现时,这两个轨迹片段各自的检测响应属于不同类别,人脸特征差异较大;根据从待跟踪的视频中发现的时空约束信息,在线生成大量的人脸正负训练样本;
定义矩阵H∈RM×M,如果两个轨迹片段Ti和Tj在某一时刻同时出现,矩阵的元素Hi,j取值为1,否则的话Hi,j=0;根据属于同一类别的约束信息,收集正样本集P+
Figure BDA0003216607120000091
根据属于不同类别的约束信息,收集负样本集N-
Figure BDA0003216607120000092
进一步地,所述步骤1-3的具体步骤为:
步骤1-3-1:对于样本集P+和N-的一对训练图像x1和x2,使用人脸CNN特征空间上的欧式平方距离D(f(x1),f(x2))度量x1和x2的相似性:
Figure BDA0003216607120000093
图像对x1和x2的相似性越大,人脸特征f(x1)和f(x2)的欧式平方距离D(f(x1),f(x2))值则越小;
步骤1-3-2:将样本集P+和N-以三元组的方式输入Triplet网络,调整预训练CNN模型的权重参数,得到针对待跟踪视频具有判别性的人脸特征表示;生成的triplet训练集表示如下:
Figure BDA0003216607120000094
其中,
Figure BDA0003216607120000095
表示正样本对,
Figure BDA0003216607120000096
表示负样本对;
改进的Triplet损失函数是最小化式(5):
Figure BDA0003216607120000097
式中,类间约束项
Figure BDA0003216607120000098
和类内约束项
Figure BDA0003216607120000099
分别定义如下:
Figure BDA00032166071200000910
类间约束项
Figure BDA00032166071200000911
是使负样本
Figure BDA00032166071200000912
同时远离正样本对
Figure BDA00032166071200000913
并与正样本对的平均距离大于阈值α;类内约束项
Figure BDA00032166071200000914
是拉近正样本
Figure BDA00032166071200000915
Figure BDA00032166071200000916
的距离直到小于阈值
Figure BDA00032166071200000917
改进的损失函数Ls是优化输入图像对在CNN特征空间上的欧式平方距离D(·),使负样本
Figure BDA00032166071200000918
同时远离正样本对
Figure BDA00032166071200000919
并且约束正样本对
Figure BDA00032166071200000920
的距离小于一定阈值。
进一步地,所述步骤1-4基于概率图模型的多目标数据关联算法,具体为:
在每个镜头片段中,结合人脸目标的外观及运动信息使用基于概率图模型的多目标数据关联算法。
步骤1-4-1:利用MRF模型对多目标跟踪问题进行建模,对MRF中每个位置点a,检测响应xa和目标身份ya分别对应此位置点的观测和待估计的标记,求解MRF模型的最大条件概率P(Y|X);
假设场景中总共有K个目标,ya的取值范围为
Figure BDA0003216607120000101
其中
Figure BDA0003216607120000102
表示误检;条件P(Y|X)概率定义为:
Figure BDA0003216607120000103
式中,归一化因子Zp是常量;超常数集Γ={τ1,…,τK}和Ω={π1,…,πK},分别表示已关联目标的运动模型和人脸外观模型;第a个目标的人脸外观模型πa是用于描述目标的外貌特征,能使用轨迹片段中图像人脸特征的平均值来表示;运动模型τa描述目标的运动轨迹,包含目标的位置、速度、尺度运动参数,a=1,2,…,K;已关联目标的运动模型和人脸外观模型根据视频第一帧图像信息或上一次迭代更新后的Γ和Ω进行初始化;MRF的单点项Φ(ya,xa;Γ,Ω)表示目标身份ya与检测响应xa的相似性;MRF的成对项Ψ(ya,yb,xa,xb;Γ,Ω)表示MRF两个相邻位置点属于同一个目标的概率;
步骤1-4-2:利用环路置信度传播LBP算法求解MRF最大条件概率,使相邻几帧的相似度高的检测响应分配同一个身份标签,经过漏检、误检及遮挡处理后,形成多个轨迹片段;然后选择置信度高的轨迹片段更新人脸外观模型和运动模型参数,更新后的模型再用来求解MRF图模型,通过多次重复更新与求解,将断开的轨迹片段连接起来,形成最终的目标轨迹。
进一步地,所述步骤1-5的层次化合并聚类算法,具体为:
使用层次化合并聚类算法,将聚类到一起的轨迹片段关联成同一个目标轨迹。
步骤1-5-1:将每一个轨迹片段视为单独的簇,形成M个簇C;
步骤1-5-2:利用欧式距离度量公式计算所有簇与簇之间的平均距离;
步骤1-5-3:选择距离最小的两个簇合并成一个新的簇,然后按步骤1-5-2更新新的簇与其他簇之间的距离;重复此过程,直到所有簇之间最小距离大于阈值θ;
步骤1-5-4:算法执行结束后,属于同一个簇的所有轨迹片段表示同一个目标的轨迹,有的轨迹片段可能全由误检(false detections)组成,使用EM聚类算法迭代关联轨迹片段,同时根据误检图像与其他所有轨迹片段的相似性,去除掉由误检组成的轨迹片段,具体步骤如下:
步骤1-5-4-1:利用已训练好的CNN模型提取所有轨迹片段的人脸特征,并使用tSNE算法对特征进行非线性降维;
步骤1-5-4-2:使用K-means算法将所有轨迹片段聚类成K+1簇,并计算每个簇的平均值μc和方差Σc;选择方差Σc最大的一个簇为离群簇cout,其他K个簇为正常簇cin
步骤1-5-4-3:根据离群簇cout设置阈值
Figure BDA0003216607120000111
其中
Figure BDA0003216607120000112
然后对cin和cout中每个轨迹片段计算
Figure BDA0003216607120000113
并将满足
Figure BDA0003216607120000114
的轨迹片段x分到离群簇cout中,其他情况分到正常簇cin中;一直迭代进行直到无轨迹片段可分为止。
进一步地,所述步骤2使用基于上下文高斯加权的方法计算人物在视频镜头的共生关系,具体为:
依据预处理过后的人脸目标轨迹,通过基于目标视频邻域内的人物定位和上下文视频镜头的高斯加权来量化人物共生关系。对于一段影视视频,分析人物1和人物2之间的人物共生关系,在出现第a帧镜头时,1号与2号人物开始同时或交错出现在镜头中,当到达第c帧镜头之后,1号人物在较长的时间中退出了镜头,那么我们可以得到图中所示的基于时序上下文的人物共生关系高斯加权值,其在介于第a帧与第c帧之间的第b帧视频处达到峰值。再将加权值在时序上进行积分,即可得到用于描述这一段视频中1号人物与2号人物时序上的共生关系权值。
定义时序高斯量化矩阵A=[adk]n×m,时序高斯量化矩阵计算公式如下:
Figure BDA0003216607120000115
Figure BDA0003216607120000116
其中,n表示追踪人物个数,m表示视频镜头个数,σ表示时序视频上下文的距离;以目标视频k为中心将第k-σ到k+σ个视频镜头做为上下文关联领域;当人物f出现在第k个镜头中时,令Pfk=1,否则令Pfk=0;等式(8)左边表示利用高斯共生权重累加起来得到第k个镜头的人物共生关系的程度;最终生成时序共生关系矩阵R=[rfg]n×n=ATA,用于表示视频的人物共生关系矩阵,rfg表示视频人物f与视频任务g之间的人物共生关系,A表示时序高斯量化矩阵。
进一步地,所述步骤3融合时空上下文建立人物关系模型,具体为:
当视频镜头第k帧中人物f与人物g存在共生关系时,定义单镜头空间人物共生关系矩阵Dfk=[dfg]n×n,计算公式如下:
Figure BDA0003216607120000121
Figure BDA0003216607120000122
定义空间人物共生关系矩阵SP=[spfg]n×n,其中每个元素spfg表示在空间上人物f和人物g之间的人物关系紧密程度,conFrame(f,g)表示在这个视频镜头序列中人物f与人物g存在共生关系的视频帧数,m为视频总帧数;
Figure BDA0003216607120000123
融入空间上下文相关性,得到每个视频镜头基于时空上下文的人物关系矩阵,时空上下文人物共生关系矩阵W=[wfg]n×n=[rfg×spfg]n×n,用于表示人物f与人物g的人物关系程度。
进一步地,所述步骤4中根据人物关系模型绘制人物关系图,具体为:
将人物共生关系矩阵W绘制为人物关系图,人物关系图中的节点表示人物,节点之间的连线表示人物之间存在共生关系,共生关系的权重通过图的边长表示。
具体实施例:
1、视频数据预处理
a.人脸CNN特征预训练
本实施例在已标注人脸类别的离线人脸数据集上,使用深度卷积神经网络和sigmoid损失函数进行监督式预训练学习人脸目标的一般化判别特征。选用的深度卷积神经网络是ResNet-50网络。所用的数据集是VGG-Face2人脸识别数据集(如图2所示),VGG-Face2于2018年发表并供公开下载,共有331万张人脸图片,9131个人脸类别,每个人脸类别平均有362张图片。并利用当前已有人脸类别数据集训练CNN网络模型,在待跟踪视频上自适应学习更具判别性的人脸CNN特征。
b.基于视频上下文时空约束收集样本数据集
进一步挖掘基于视频上下文的时空约束信息,提高正负训练样本集的有效性:(1)属于同一类别的约束信息:同一个轨迹片段上的所有检测响应可以认为是属于同一个类别,人脸特征差异很小;(2)属于不同类别的约束信息:当两个轨迹片段在某一帧图像上同时出现,这两个轨迹片段各自的检测响应属于不同类别,人脸特征差异较大。根据从待跟踪的视频中发现的时空约束信息,可以在线生成大量的人脸正负训练样本。
c.人脸特征的自适应学习
收集的训练样本以三元组的方式输入给Triplet网络,提高正负训练样本集的有效性:以自适应调整预训练CNN模型的权重参数,得到针对待跟踪视频更具有判别性的人脸特征表示。Triplet网络由结构相同且共享权值的三个卷积神经网络组(如图3所示),每个卷积神经网络的架构与预训练的神经网络架构一样。
d.基于概率图模型的多目标数据关联算法
单摄像机多目标跟踪问题可以被形式化为推理监控视频中所有检测响应的目标真实身份问题。利用MRF模型可对多目标跟踪问题进行建模(如图4所示)方块表示可观测的目标检测响应,不同颜色的圆圈表示不同人脸身份,在各个时刻检测响应的数目是变化的,求解MRF模型的最大条件概率。
采用一种从局部到全局自动关联检测响应的跟踪框架来跟踪生成跟踪轨迹(如图5所示)。利用环路置信度传播(Loopy Belief Propagation,LBP)算法求解MRF最大条件概率,使相邻几帧的相似度高的检测响应分配同一个身份标签,经过漏检、误检及遮挡处理后,形成许多轨迹片段。
e.跨摄像机人脸跟踪轨迹匹配
根据基于概率图模型的单摄像机多目标数据关联算法,可以生成每个单摄像机生成的跟踪轨迹。为了准确匹配不同摄像机中的跟踪轨迹,每条跟踪轨迹使用自适应学习得到的目标特征表示。然后使用层次化合并聚类算法,将聚类到一起的轨迹片段关联成同一个目标轨迹。
本实施例采用生活大爆炸(以下简称为BBT)视频作为测试实例。得到了视频多人物追踪结果(如图6所示)。针对本发明在人脸聚类算法上的优越性,采用与其他优秀的人脸聚类算法在BBT视频上进行聚类精度比较。表1是以上不同特征对每个BBT视频的所有人脸图像进行层次化聚类后的纯度比较。Pre-trained和VGG-Face方法都是在包含大量类别的人脸数据集上监督式训练得到的CNN特征,他们的聚类纯度比在ImageNet上训练得到的AlexNet特征的纯度要高,而聚类性能最差的是基于传统手动技术方法的HOG特征。
表1 不同特征对每个BBT视频的所有人脸图像进行层次化聚类后的纯度比较
Figure BDA0003216607120000141
2、基于时序上下文人物共生关系
通过目标视频邻域内的人物定位和上下文视频镜头的高斯加权来量化人物共生关系(如图7所示)。图7中展现出在一段影视频中,分析人物1与人物2之间的人物共生关系,在出现第a帧镜头时,1号与2号人物开始同时或交错出现在镜头中,当到达第c帧镜头之后,1号人物在较长的时间中退出了镜头,那么可以得到图中所示的基于时序上下文的人物共生关系高斯加权值,其在介于第a帧与第c帧之间的第b帧视频处达到峰值。将上述加权值在时序上进行积分,就可以得到用于描述这一整段视频中1号人物与2号人物时序上的共生关系权值。
随机抽取BBT中一段连续的几个镜头,对这几个镜头分别使用本文提出的基于时序上下文的分析方法和传统方法的进行人物关联程度的计算,并使用规范化的人物共生关系来进行对比,在实施例中,分割数据集镜头所使用的帧率为5帧每秒。选择时空上下文的距离σ=6,判断是否存在共生关系时可以取得较为优良的效果,定义规范化时序共生关系,来展示使用不同方法时的人物共生关系量化。记两位人物的时序高斯量化矩阵分别为a1k、a2k,ck=a1k×a2k。规范化时序共生关系表示为:
Figure BDA0003216607120000142
本发明实验测试结果如图8所示。
对于整个视频集,标注数据集的标准网络。标注人物之间的关系标签,再对三个标注结果进行综合,从而得到带标签人物关系网络,表示为G*。采用精确率P(Precision)、召回率R(Recall)、F1值(F1-Score)作为评价由不同算法构建的关系网络G与标准的关系网络G*的相似程度,计算公式如下:
Figure BDA0003216607120000151
Figure BDA0003216607120000152
Figure BDA0003216607120000153
精确率和召回率互相影响,理想状态下追求精确率与召回率都为较高值,但实际情况是两者相互“制约”:追求准确率高,则召回率就低;追求召回率高,则通常会影响准确率,指标之间的联系如图9所示,使用F1值作为综合衡量指标。
本实施例根据不同的方法构建了人物关系网络,通过与人工标注的标准人物关系网络进行比较,得到了不同方法的评价指标如表2所示。
表2 不同方法的评价指标
Figure BDA0003216607120000154
OurCharNet方法在整个数据集视频上的各个指标均胜过了传统方法。在保持精确率略优于CoCharNet方法的同时,召回率提高到了0.9559,F1值提高了0.0453,充分说明了本发明方法可以构建较准确完整的关系网络。
3、时空结合的人物关系模型
使用经实验得到的人物共生关系矩阵中四种主要的人物关系(Leonard-Sheldon、Leonard-Penny、Leonard-Howard、Leonard-Rajesh)记作S,与次要人物关系(Leonard-Expressman)记作N,通过计算他们的信噪比,来展示本文提出的融合空间信息后对人物关系的影响。
信噪比计算公式如下:
Figure BDA0003216607120000155
相较于传统的CoCharNet和单纯时序分析的OurCharNet,融合了时空信息的OurCharNet(+sp)在抑制非重要人物在时序共生而生产的共生关系噪声时表现更好,描述的主次人物关系更分明(如图10所示)。
4、人物关系图绘制
本实施例采用PyEcharts来呈现一个可视化的全局人物关系图,可以使用户查找感兴趣的人物和他的相关人物之间的关系,以一种图形化的方式非常直观的呈现出来。得到了在进行实验的视频数据中共21名演员,他们之间在这段视频中所体现的人物之间的关联(如图11所示)。
用户可以浏览到一个从整个视频数据中分析获得人物关系的整体结构图,点击某个感兴趣的人物,可以得到所有与之有联系的更具体的关系图(如图12所示),在图中不仅可以看到与中心人物相关联的重要人物,还可以通过图中人物之间连线的长短可以看出他们之间关系的紧密程度。

Claims (9)

1.一种基于视频时空上下文的视频人物关系分析方法,其特征在于,包括以下步骤:
步骤1:对视频数据进行预处理,将视频镜头和场景进行切分,提取人物特征和聚类:
步骤1-1:在包含人脸类别的离线人脸数据集上,使用监督式方法预训练人脸CNN模型;
步骤1-2:检测视频中的镜头切换,将视频分成多个无重叠的镜头片段;对视频每帧图像使用人脸检测器检测人脸目标,在每个镜头片段中关联人脸检测响应生成可靠的轨迹片段;根据轨迹片段间的限制信息,自动生成大量的正负训练样本;
步骤1-3:正负训练样本以三元组的方式训练改进的Triplet网络,在线学习判别性人脸特征;训练过程中,改进的Triplet网络使用预训练的人脸CNN模型进行参数初始化;
步骤1-4:对每个检测响应求解目标身份;在每个镜头片段中,结合人脸目标的外观及运动信息使用基于概率图模型的多目标数据关联算法;
步骤1-5:使用层次化合并聚类算法关联不同镜头片段中的轨迹片段,形成最终的目标轨迹;
步骤2:根据步骤1预处理的结果使用基于上下文高斯加权的方法计算人物在视频镜头的共生关系;
步骤3:根据空间位置对视频人物关系的影响,融合时空上下文建立人物关系模型;
步骤4:根据人物关系模型绘制人物关系图。
2.根据权利要求1所述的一种基于视频时空上下文的视频人物关系分析方法,其特征在于,所述步骤1-1中使用的深度卷积神经网络是残差网络ResNet-50神经网络,同时使用sigmoid损失函数进行监督式训练学习人脸目标的判别特征;学习的离线人脸数据集是VGG-Face2人脸识别数据集。
3.根据权利要求2所述的一种基于视频时空上下文的视频人物关系分析方法,其特征在于,所述步骤1-2生成大量的正负训练样本的具体方法为:
步骤1-2-1:利用镜头自动分割方法检测视频中所有的镜头切换,再将待处理的视频划分成多个无重叠的镜头片段;
步骤1-2-2:利用人脸检测器,对视频每一帧图像进行人脸检测,生成人脸检测响应集X={x1,...,xR},其中R是生成所有检测响应的数目;
步骤1-2-3:从单摄像机数据关联生成的高置信度轨迹片段T={T1,...,TM}中,挖掘视频上下文时空约束信息,并收集训练样本,其中
Figure FDA0003216607110000021
是长度为ni的第ith个人脸轨迹片段,M为轨迹片段总数;
步骤1-2-4:利用两种时空限制信息:(1)属于同一类别的约束信息:同一个轨迹片段上的所有检测响应判定为属于同一个类别;(2)属于不同类别的约束信息:当两个轨迹片段在同一帧图像上同时出现时,这两个轨迹片段各自的检测响应属于不同类别;根据从待跟踪的视频中发现的时空约束信息,在线生成大量的人脸正负训练样本;
定义矩阵H∈RM×M,如果两个轨迹片段Ti和Tj在某一时刻同时出现,矩阵的元素Hi,j取值为1,否则的话Hi,j=0;根据属于同一类别的约束信息,收集正样本集P+
Figure FDA0003216607110000022
根据属于不同类别的约束信息,收集负样本集N-
Figure FDA0003216607110000023
4.根据权利要求3所述的一种基于视频时空上下文的视频人物关系分析方法,其特征在于,所述步骤1-3的具体步骤为:
步骤1-3-1:对于样本集P+和N-的一对训练图像x1和x2,使用人脸CNN特征空间上的欧式平方距离D(f(x1),f(x2))度量x1和x2的相似性:
Figure FDA0003216607110000024
图像对x1和x2的相似性越大,人脸特征f(x1)和f(x2)的欧式平方距离D(f(x1),f(x2))值则越小;
步骤1-3-2:将样本集P+和N-以三元组的方式输入Triplet网络,调整预训练CNN模型的权重参数,得到针对待跟踪视频具有判别性的人脸特征表示;生成的triplet训练集表示如下:
Figure FDA0003216607110000025
其中,
Figure FDA0003216607110000026
表示正样本对,
Figure FDA0003216607110000027
表示负样本对;
改进的Triplet损失函数是最小化式(5):
Figure FDA0003216607110000028
式中,类间约束项
Figure FDA0003216607110000031
和类内约束项
Figure FDA0003216607110000032
分别定义如下:
Figure FDA0003216607110000033
类间约束项
Figure FDA0003216607110000034
是使负样本
Figure FDA0003216607110000035
同时远离正样本对
Figure FDA0003216607110000036
并与正样本对的平均距离大于阈值α;类内约束项
Figure FDA0003216607110000037
是拉近正样本
Figure FDA0003216607110000038
Figure FDA0003216607110000039
的距离直到小于阈值
Figure FDA00032166071100000310
改进的损失函数Ls是优化输入图像对在CNN特征空间上的欧式平方距离D(·),使负样本
Figure FDA00032166071100000311
同时远离正样本对
Figure FDA00032166071100000312
并且约束正样本对
Figure FDA00032166071100000313
的距离小于一定阈值。
5.根据权利要求4所述的一种基于视频时空上下文的视频人物关系分析方法,其特征在于,所述步骤1-4基于概率图模型的多目标数据关联算法,具体为:
步骤1-4-1:利用MRF模型对多目标跟踪问题进行建模,对MRF中每个位置点a,检测响应xa和目标身份ya分别对应此位置点的观测和待估计的标记,求解MRF模型的最大条件概率P(Y|X);
假设场景中总共有K个目标,ya的取值范围为
Figure FDA00032166071100000314
其中
Figure FDA00032166071100000315
表示误检;条件P(Y|X)概率定义为:
Figure FDA00032166071100000316
式中,归一化因子Zp是常量;超常数集Γ={τ1,…,τK}和Ω={π1,…,πK},分别表示已关联目标的运动模型和人脸外观模型;第a个目标的人脸外观模型πa是用于描述目标的外貌特征,能使用轨迹片段中图像人脸特征的平均值来表示;运动模型τa描述目标的运动轨迹,包含目标的位置、速度、尺度运动参数,a=1,2,...,K;已关联目标的运动模型和人脸外观模型根据视频第一帧图像信息或上一次迭代更新后的Γ和Ω进行初始化;MRF的单点项Φ(ya,xa;Γ,Ω)表示目标身份ya与检测响应xa的相似性,xa
Figure FDA00032166071100000317
的运动趋势一致程度,xa人脸特征与
Figure FDA00032166071100000318
的相似程度;MRF的成对项Ψ(ya,yb,xa,xb;Γ,Ω)表示MRF两个相邻位置点属于同一个目标的概率;
步骤1-4-2:利用环路置信度传播LBP算法求解MRF最大条件概率,使相邻几帧的相似度高的检测响应分配同一个身份标签,经过漏检、误检及遮挡处理后,形成多个轨迹片段;然后选择置信度高的轨迹片段更新人脸外观模型和运动模型参数,更新后的模型再用来求解MRF图模型,通过多次重复更新与求解,将断开的轨迹片段连接起来,形成最终的目标轨迹。
6.根据权利要求5所述的一种基于视频时空上下文的视频人物关系分析方法,其特征在于,所述步骤1-5的层次化合并聚类算法,具体为:
步骤1-5-1:将每一个轨迹片段视为单独的簇,形成M个簇C;
步骤1-5-2:利用欧式距离度量公式计算所有簇与簇之间的平均距离;
步骤1-5-3:选择距离最小的两个簇合并成一个新的簇,然后按步骤1-5-2更新新的簇与其他簇之间的距离;重复此过程,直到所有簇之间最小距离大于阈值θ;
步骤1-5-4:属于同一个簇的所有轨迹片段表示同一个目标的轨迹;使用EM聚类算法迭代关联轨迹片段,同时根据误检图像与其他所有轨迹片段的相似性,去除掉由误检组成的轨迹片段,具体步骤如下:
步骤1-5-4-1:利用已训练好的CNN模型提取所有轨迹片段的人脸特征,并使用tSNE算法对特征进行非线性降维;
步骤1-5-4-2:使用K-means算法将所有轨迹片段聚类成K+1簇,并计算每个簇的平均值μc和方差∑c;选择方差∑c最大的一个簇为离群簇cout,其他K个簇为正常簇cin
步骤1-5-4-3:根据离群簇cout设置阈值
Figure FDA0003216607110000041
其中
Figure FDA0003216607110000042
然后对cin和cout中每个轨迹片段计算
Figure FDA0003216607110000043
并将满足
Figure FDA0003216607110000044
的轨迹片段x分到离群簇cout中,其他情况分到正常簇cin中;一直迭代进行直到无轨迹片段可分为止。
7.根据权利要求6所述的一种基于视频时空上下文的视频人物关系分析方法,其特征在于,所述步骤2使用基于上下文高斯加权的方法计算人物在视频镜头的共生关系,具体为:
定义时序高斯量化矩阵A=[adk]n×m,时序高斯量化矩阵计算公式如下:
Figure FDA0003216607110000045
Figure FDA0003216607110000046
其中,n表示追踪人物个数,m表示视频镜头个数,σ表示时序视频上下文的距离;以目标视频k为中心将第k-σ到k+σ个视频镜头做为上下文关联领域;当人物f出现在第k个镜头中时,令Pfk=1,否则令Pfk=0;等式(8)左边表示利用高斯共生权重累加起来得到第k个镜头的人物共生关系的程度;最终生成时序共生关系矩阵R=[rfg]n×n=aTa,用于表示视频的人物共生关系矩阵,rfg表示视频人物f与视频任务g之间的人物共生关系,A表示时序高斯量化矩阵。
8.根据权利要求7所述的一种基于视频时空上下文的视频人物关系分析方法,其特征在于,所述步骤3融合时空上下文建立人物关系模型,具体为:
当视频镜头第k帧中人物f与人物g存在共生关系时,定义单镜头空间人物共生关系矩阵Dfk=[dfg]n×n,计算公式如下:
Figure FDA0003216607110000051
Figure FDA0003216607110000052
定义空间人物共生关系矩阵SP=[spfg]n×n,其中每个元素spfg表示在空间上人物f和人物g之间的人物关系紧密程度,conFrame(f,g)表示在这个视频镜头序列中人物f与人物g存在共生关系的视频帧数,m为视频总帧数;
Figure FDA0003216607110000053
融入空间上下文相关性,得到每个视频镜头基于时空上下文的人物关系矩阵,时空上下文人物共生关系矩阵W=[wfg]n×n=[rfg×spfg]n×n,用于表示人物f与人物g的人物关系程度。
9.根据权利要求8所述的一种基于视频时空上下文的视频人物关系分析方法,其特征在于,所述步骤4中根据人物关系模型绘制人物关系图,具体为:
将人物共生关系矩阵W绘制为人物关系图,人物关系图中的节点表示人物,节点之间的连线表示人物之间存在共生关系,共生关系的权重通过图的边长表示。
CN202110946018.0A 2021-08-18 2021-08-18 一种基于视频时空上下文的视频人物关系分析方法 Active CN113642482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110946018.0A CN113642482B (zh) 2021-08-18 2021-08-18 一种基于视频时空上下文的视频人物关系分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110946018.0A CN113642482B (zh) 2021-08-18 2021-08-18 一种基于视频时空上下文的视频人物关系分析方法

Publications (2)

Publication Number Publication Date
CN113642482A true CN113642482A (zh) 2021-11-12
CN113642482B CN113642482B (zh) 2024-02-02

Family

ID=78422467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110946018.0A Active CN113642482B (zh) 2021-08-18 2021-08-18 一种基于视频时空上下文的视频人物关系分析方法

Country Status (1)

Country Link
CN (1) CN113642482B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842368A (zh) * 2022-05-07 2022-08-02 中国电信股份有限公司 基于场景的视觉辅助信息确定方法、系统、设备及存储介质
CN117630344A (zh) * 2024-01-25 2024-03-01 西南科技大学 实时在线检测混凝土坍落度范围的方法
CN117708725A (zh) * 2023-12-15 2024-03-15 中国电子科技集团公司第十五研究所 分布式人员关系挖掘评估方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000022946A (ja) * 1998-07-02 2000-01-21 Sharp Corp 画像補正装置及び画像補正方法並びに画像補正方法を記録した媒体
US20180114056A1 (en) * 2016-10-25 2018-04-26 Vmaxx, Inc. Vision Based Target Tracking that Distinguishes Facial Feature Targets
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000022946A (ja) * 1998-07-02 2000-01-21 Sharp Corp 画像補正装置及び画像補正方法並びに画像補正方法を記録した媒体
US20180114056A1 (en) * 2016-10-25 2018-04-26 Vmaxx, Inc. Vision Based Target Tracking that Distinguishes Facial Feature Targets
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINGYANG MA ET AL.: "Video Summarization via Nonlinear Sparse Dictionary Selection", 《IEEE ACCESS》, vol. 7 *
原琨: "基于时空上下文的视频人物关系挖掘", 中国优秀硕士学位论文数据库 信息科技辑, no. 6 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842368A (zh) * 2022-05-07 2022-08-02 中国电信股份有限公司 基于场景的视觉辅助信息确定方法、系统、设备及存储介质
CN114842368B (zh) * 2022-05-07 2023-10-03 中国电信股份有限公司 基于场景的视觉辅助信息确定方法、系统、设备及存储介质
CN117708725A (zh) * 2023-12-15 2024-03-15 中国电子科技集团公司第十五研究所 分布式人员关系挖掘评估方法和装置
CN117630344A (zh) * 2024-01-25 2024-03-01 西南科技大学 实时在线检测混凝土坍落度范围的方法
CN117630344B (zh) * 2024-01-25 2024-04-05 西南科技大学 实时在线检测混凝土坍落度范围的方法

Also Published As

Publication number Publication date
CN113642482B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
Hasani et al. Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields
CN108765394B (zh) 基于质量评价的目标识别方法
CN113642482B (zh) 一种基于视频时空上下文的视频人物关系分析方法
Xiao et al. Action recognition based on hierarchical dynamic Bayesian network
CN111950372B (zh) 一种基于图卷积网络的无监督行人重识别方法
CN110163127A (zh) 一种由粗到细的视频目标行为识别方法
CN109993100B (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN107818307B (zh) 一种基于lstm网络的多标签视频事件检测方法
EP3161791A1 (en) System and method for visual event description and event analysis
Kollias et al. On line emotion detection using retrainable deep neural networks
CN110728216A (zh) 一种基于行人属性自适应学习的无监督行人再识别方法
Fakhar et al. Event detection in soccer videos using unsupervised learning of spatio-temporal features based on pooled spatial pyramid model
Wang et al. Dense point prediction: A simple baseline for crowd counting and localization
Ostyakov et al. Label denoising with large ensembles of heterogeneous neural networks
Li et al. Streamer action recognition in live video with spatial-temporal attention and deep dictionary learning
CN111967433A (zh) 一种基于自监督学习网络的动作识别办法
Ahmad et al. SDIGRU: spatial and deep features integration using multilayer gated recurrent unit for human activity recognition
Xia et al. Face occlusion detection using deep convolutional neural networks
Basavaiah et al. Human activity detection and action recognition in videos using convolutional neural networks
Serpush et al. Complex human action recognition in live videos using hybrid FR-DL method
Wang et al. Deep learning for scene-independent crowd analysis
Gong et al. Human interaction recognition based on deep learning and HMM
Sun et al. Weak supervised learning based abnormal behavior detection
CN115049894A (zh) 一种基于图学习的全局结构信息嵌入网络的目标重识别方法
Stefic et al. Action recognition using saliency learned from recorded human gaze

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant