CN113298015B - 基于图卷积网络的视频人物社交关系图生成方法 - Google Patents

基于图卷积网络的视频人物社交关系图生成方法 Download PDF

Info

Publication number
CN113298015B
CN113298015B CN202110646096.9A CN202110646096A CN113298015B CN 113298015 B CN113298015 B CN 113298015B CN 202110646096 A CN202110646096 A CN 202110646096A CN 113298015 B CN113298015 B CN 113298015B
Authority
CN
China
Prior art keywords
character
video
frame
graph
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110646096.9A
Other languages
English (en)
Other versions
CN113298015A (zh
Inventor
徐童
陈恩红
吴世伟
陈卓
陈力以
何向南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110646096.9A priority Critical patent/CN113298015B/zh
Publication of CN113298015A publication Critical patent/CN113298015A/zh
Application granted granted Critical
Publication of CN113298015B publication Critical patent/CN113298015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Economics (AREA)
  • Psychiatry (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图卷积网络的视频人物社交关系图生成方法,结合视觉信息、文本信息以及音频信息,能够准确的从视频中生成出人物角色之间的社交关系图。并且,在电影数据集上进行了人物社交关系图的验证,结果表明本方案在客观评价指标上取得了突出的效果。

Description

基于图卷积网络的视频人物社交关系图生成方法
技术领域
本发明涉及计算机视觉和自然语言处理领域,尤其涉及一种基于图卷积网络的视频人物社交关系图生成方法。
背景技术
视频中人物的社交关系是视频理解的重要基础之一,它既可以帮助观众更好地理解视频内涵,也将支撑许多视频相关的应用,如视频标注、视频检索和视觉问答等。传统的方法主要分析可由视觉内容直接体现的空间或动作关系等,很少涉及到更高层的语义信息,如视频中人物社交关系图的生成。
与此同时,现有的视频分析工作主要针对人工剪裁的富含语义的图片或短视频,但是在现实场景的长视频中,往往却包含着大量与人物关系无关的信息,不仅场景和人物频繁切换,社交关系的呈现方式也更为复杂。
更为重要的是,人物关系事实上并不是相互独立的,而是彼此关联并形成完整的社交关系网络的,而网络中的关系往往通过“三元闭包”关系而存在着相互佐证、相互强化的作用,但现有技术并没有充分利用这一信息。因此,现有技术往往难以取得令人满意的效果。
发明内容
本发明的目的是提供一种基于图卷积网络的视频人物社交关系图生成方法,可以精确地从视频中生成人物角色之间的社交关系图。
本发明的目的是通过以下技术方案实现的:
一种基于图卷积网络的视频人物社交关系图生成方法,包括:
将输入的完整视频进行采样与分割,得到若干等长的子视频帧序列,并对每一子视频帧序列各自进行人物角色的检测及重识别,再将检测结果与重识别输入至人物社交关系图生成模型;
所述人物社交关系图生成模型,采用帧级别的图卷积网络对每一子视频帧序列中的每一帧图像中人物角色特征、人物对特征与相应本文特征进行信息传播,得到增强的人物角色特征与人物对特征,并通过时序积累,得到每一子视频帧序列中所有帧累积的人物角色特征与人物对特征,再采用片段级别的图卷积网络进行信息传播,得到片段级别的增强表征后的人物对特征;
训练阶段,利用片段级别的增强表征后的人物对特征对所述人物社交关系图生成模型进行训练;
推理阶段,对于每一子视频帧序列,利用片段级别的增强表征后的人物对特征、以及提取的子视频帧序列的视频特征、音频特征与文本特征生成片段级别的人物社交关系图,通过迭代得到整个视频的人物社交关系图;其中,每次迭代合并两个人物社交关系图,如果两个人物社交关系图中两个人物角色特征的相似度大于阈值,则认为属于同一个人物角色。
由上述本发明提供的技术方案可以看出,结合视觉信息、文本信息以及音频信息,能够准确的从视频中生成出人物角色之间的社交关系图。并且,在电影数据集上进行了人物社交关系图的验证,结果表明本方案在客观评价指标上取得了突出的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于图卷积网络的视频人物社交关系图生成方法的框架图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
现有技术所存在的技术要问题主要在于:将视频中出现的所有人物角色视为相互独立,只是独立的识别两个人物之间的社交关系,没有对整体进行图结构的建模并充分利用关系之间的相互强化作用。因此,从整体社交关系图生成的角度来建模是很有价值的,通过生成社交关系图可以更加准确的挖掘出人物之间的社交关系,且能够对不同模态之间的信息进行更细粒度的融合与建模。
本发明实施例提供一种基于图卷积网络的视频人物社交关系图生成方法,如图1所示,其主要包括:
将输入的完整视频进行采样与分割,得到若干等长的子视频帧序列,并对每一子视频帧序列各自进行人物角色的检测及重识别,再将检测结果与重识别输入至人物社交关系图生成模型;
所述人物社交关系图生成模型,采用帧级别的图卷积网络对每一子视频帧序列中的每一帧图像中人物角色特征、人物对特征与相应本文特征进行信息传播,得到增强的人物角色特征与人物对特征,并通过时序积累,得到每一子视频帧序列中所有帧累积的人物角色特征与人物对特征,再采用片段级别的图卷积网络进行信息传播,得到片段级别的增强表征后的人物对特征;
训练阶段,利用片段级别的增强表征后的人物对特征对所述人物社交关系图生成模型进行训练;
推理阶段,对于每一子视频帧序列,利用片段级别的增强表征后的人物对特征、以及提取的子视频帧序列的视频特征、音频特征及文本特征生成片段级别的人物社交关系图,通过迭代合最终得到整个视频的人物社交关系图;其中,每次迭代合并两个人物社交关系图,如果两个人物社交关系图中两个人物角色的相似度大于阈值,则认为属于同一个人物角色。
为了便于理解,下面针对本发明上述方案做详细的介绍。
一、数据预处理。
本发明实施例中,将完整视频作为输入。对于输入的完整视频,首先,进行等间距采样,得到一个由视频帧组成的视频序列;通过滑动窗口方法,将视频序列切分成若干等长的子视频帧序列。
示例性的,可以以2帧/秒的采样频率进行采样得到由视频帧组成的长的视频序列,以1帧的间隔进行滑动窗口采样得到等长的短的子视频帧序列。
然后,可以对子视频帧序列进行人物角色的检测以及重识别。
本发明实施例中,可以利用预训练的人物检测器(例如,基于Faster R-CNN的人物检测器)来检测出人物框和对应的置信度,如果检测出来的框置信度高于阈值,则认为该框含有人物角色;之后,利用基于残差网络的特征提取网络对人物角色框进行特征抽取,再对人物框特征之间进行余弦相似度的计算,相似度大于阈值(例如,大于0.7)的两个人物框视作同一个人物角色。
二、建立人物社交关系图生成模型。
本发明实施例中,人物社交关系图生成模型主要包括:帧级别的图卷积网络模块、多通道时序累积模块以及片段级别的图卷积网络模块。
1、帧级别的图卷积网络模块。
本发明实施例中,在帧级别的图卷积网络模块中,目标是生成一个帧级别的子图,用来提供当前帧的人物社交关系图。主要过程如下:
首先,由于视频中的所有人物都被检测定位和重识别,可以使用人物角色框和联合框的视觉特征分别作为人物和人物对的表征。具体而言,采用预训练的残差网络从人物角色框和联合框的视觉特征中分别提取人物角色特征Fc和人物对特征Fp。为了得到当前帧的全局背景特征Fb,将当前帧图像放入预训练所得的残差网络,提取到的全局背景特征Fb包含丰富的场景信息。此外,还利用深度自注意力变换网络来从当前时刻的台词中提取文本特征Ft,上述四种不同的特征分别构成当前子图上的四种节点。
本发明实施例中,上述过程所涉及的预训练的残差网络可以采用相同的结构,区别在于,提取人物角色特征Fc和人物对特征Fp的残差网络可以在CSM数据集上预训练,提取全局背景特征Fb的残差网络可以在Place365数据集上预训练。当然,用户也可以根据情况选择其他恰当的数据集来对残差网络进行预训练。
其次,使用图卷积神经网络来相互传播节点的信息,从而在帧级别的子图上丰富人物和人物对之间的表征,单层的图卷积层的操作表示为:
Figure BDA0003109709210000041
其中,
Figure BDA0003109709210000042
是第l-1层的输出,N表示子图数目,d表示任一特征节点的维度;
Figure BDA0003109709210000043
是当前子图的邻接矩阵,
Figure BDA0003109709210000044
是邻接矩阵
Figure BDA0003109709210000045
的度矩阵,
Figure BDA0003109709210000046
是可学习的参数,σ(·)是非线性激活函数;
子图的邻接矩阵定义为:
Figure BDA0003109709210000051
其中,Fc、Fp、Fb、Ft依次表示每一帧图像中人物角色特征、人物对特征、全局背景特征、文本特征;i、j表示不同人物角色,
Figure BDA0003109709210000052
表示人物角色i、人物角色j的特征,
Figure BDA0003109709210000053
表示两个不同人物对的特征;N1与N2表示不同种类的节点(Node),N1与N2如果取邻接矩阵定义中的几种节点时,
Figure BDA0003109709210000054
为1,如果不取定义中的几种节点,则
Figure BDA0003109709210000055
为0。
最终,结合多视角的视觉特征Fc,Fp,Fb和文本特征Ft,通过图卷积神经网络,来获得每一帧图像中人物角色和人物对的增强表征,表示:
Figure BDA0003109709210000056
其中,GCN(.)表示图卷积神经网络。
2、多通道时序累积模块。
对于每个人物特征Fc和人物对特征Fp,可以使用长短时记忆网络来捕捉它们在时间轴上所有帧的时间动态。具体来说,由于角色特征和角色对特征之间的表示方式不同,可以采用两个独立的长短时记忆网络来传播一系列的特征。将人物特征和人物对的特征分别放入多路长短时记忆网络后,能够得到了子视频帧序列中所有帧的累积特征Cc和Cp
本发明实施例中,将每个长短时记忆网络的最后一步输出的Cc和Cp作为片段级别的图卷积网络模块的输入。
3、片段级别的图卷积网络模块。
为了描述单个子视频帧序列(片段)V中的所有人物,并生成片段级别的人物社交关系图SGv,通过多通道时序累积模块合并所有子图,以累积的人物特征Cc和累积的人物对特征Cp作为片段级别的人物社交关系图SGv的输入。
值得注意的是,片段级别的人物社交关系图SGv中的人物特征Cc和人物对特征Cp不仅包含帧级别的子图中的多视角和多模态信息,而且由于多通道时序累积模块,还能捕捉到时间维度上的变化。本发明实施例中,利用图卷积网络得到片段级别的增强表征后的人物对特征,表示为:
Cp′=GCN(Cc,Cp,A)
其中,GCN(.)表示图卷积神经网络(操作方式与前文介绍的相同),A为邻接矩阵,定义为:
Figure BDA0003109709210000061
其中,i、j表示不同人物角色,
Figure BDA0003109709210000062
表示累积的人物角色i、人物角色j的特征,
Figure BDA0003109709210000063
表示累积的两个人物对的特征。
三、基于弱监督学习的训练和测试方案。
对于一个视频来说,很难获得每一帧的人物级别标注。在这种情况下,我们应该只利用片段级别的社交关系标注来预测人物对的社交关系。为此,本发明实施例提出一个弱监督损失函数来解决这个具有挑战性的任务。
将片段级别的增强表征后的人物对特征输入至分类器,预测得到相应人物对在每个社交关系类别上的置信度向量,将所以人物对的置信度向量拼接起来组成分数矩阵Q;假设具有K对社交关系分数,R种社交关系以及P对人物,预测得到的分数矩阵Q形状为R×P,对分数矩阵Q进行交叉softmax操作,生成置信度矩阵:
S=softmaxr(Q)⊙softmaxp(Q)
其中,softmaxr和softmaxp分别表示对所有人物对和所有社交关系的softmax运算。
本发明实施例中,可认为上式能够评估每个人物对关于每种社交关系的贡献。之后,可以累积每个人物对的置信度分数,用交叉熵准则来计算弱监督损失函数:
Figure BDA0003109709210000064
其中,yr=1表示视频具有r类型的社交关系,否则yr=0;
Figure BDA0003109709210000065
表示所有人物对在r类型社交关系上累计的归一化分数,能够代表r类型的片段级置信度分数;通过上述损失L,能够仅利用片段级的社交关系标注来训练网络。
如上述介绍,在训练阶段,主要利用片段级别的增强表征后的人物对特征Cp′来训练人物社交关系图生成模型,直至模型收敛。
在推理阶段,通过之前介绍的方式,得到片段级别的增强表征后的人物对特征Cp′之后,将每个人物对的特征Cp′与整个子视频帧序列的视频特征、音频特征与相应的文本特征拼接起来作为人物对的最终表征,再输入至分类器进行人物对的社交关系分类,得到了所有人物对之间的关系,从而得到片段级人物社交关系图。
子视频帧序列的视频特征、音频特征与相应的文本特征可以预先提取,也可以在得到人物对的特征Cp′后再进行提取;示例性的,可以利用在Kinetics-400数据集上预训练的神经网络(ResNet(2+1)D-18)来提取子视频帧序列的视频特征;利用子视频帧序列的背景音频的短时傅里叶变换特征作为子视频帧序列的音频特征,利用深度自注意力变换网络从子视频帧序列的的台词中提取相应的文本特征。
为了得到全局的人物社交关系图SGm,合并了来自同一视频的所有片段级社交关系图
Figure BDA0003109709210000071
来生成SGm。合并策略是基于人物特征的相似性,对于来自不同片段级社交关系图的两个人物,如果他们的特征余弦相似度大于阈值(例如0.7,),则认为这两个人物是相同的。经过以上过程,可以将两个图中的社交关系合并为一个更大的人物社交关系图。通过迭代合并每两个图,最终可以得到整个视频的人物社交关系图。
需要说明的是,上述实施例中所涉及的参数数值以及神经网络的具体形式均为举例,并非构成限制;具体的参数数值可根据实际应用场景中的数据特点进行调整,神经网络的具体形式也可以根据实际情况自行设定;此外,图1中所示的文本信息的内容也仅用于示意,并非构成限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将模型的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种基于图卷积网络的视频人物社交关系图生成方法,其特征在于,包括:
将输入的完整视频进行采样与分割,得到若干等长的子视频帧序列,并对每一子视频帧序列各自进行人物角色的检测及重识别,再将检测结果与重识别输入至人物社交关系图生成模型;
所述人物社交关系图生成模型,采用帧级别的图卷积网络对每一子视频帧序列中的每一帧图像中人物角色特征、人物对特征与相应本文特征进行信息传播,得到增强的人物角色特征与人物对特征,并通过时序积累,得到每一子视频帧序列中所有帧累积的人物角色特征与人物对特征,再采用片段级别的图卷积网络进行信息传播,得到片段级别的增强表征后的人物对特征;
训练阶段,利用片段级别的增强表征后的人物对特征对所述人物社交关系图生成模型进行训练;
推理阶段,对于每一子视频帧序列,利用片段级别的增强表征后的人物对特征、以及提取的子视频帧序列的视频特征、音频特征与文本特征生成片段级别的人物社交关系图,通过迭代得到整个视频的人物社交关系图;其中,每次迭代合并两个人物社交关系图,如果两个人物社交关系图中两个人物角色特征的相似度大于阈值,则认为属于同一个人物角色;
其中,所述人物社交关系图生成模型包括:帧级别的图卷积网络模块、多通道时序累积模块以及片段级别的图卷积网络模块;其中:
对每一子视频帧序列中的每一帧图像,根据人物角色的检测及重识别结果采用预训练的残差网络提取人物角色特征和人物对特征,采用预训练的残差网络从帧图像中提取全局背景特征,采用深度自注意力变换网络从帧图像对应时刻的台词中提取文本特征;
所述帧级别的图卷积网络模块,将帧图像作为一个子图,提取到的四类特征作为相应子图的四种节点;采用图卷积神经网络进行节点信息的传播,从而得到每一帧图像中人物角色和人物对的增强表征;之后,每一帧图像中人物角色和人物对的增强表征分别输入至多通道时序累积模块,得到所有帧图像累积的人物角色特征与人物对特征;最终,输入至片段级别的图卷积网络模块,得到片段级别的增强表征后的人物对特征。
2.根据权利要求1所述的一种基于图卷积网络的视频人物社交关系图生成方法,其特征在于,所述将输入的完整视频进行采样与分割,得到若干等长的子视频帧序列包括:
对于输入的完整视频,首先,进行等间距采样,得到一个由视频帧组成的视频序列;
通过滑动窗口方法,将视频序列切分成若干等长的子视频帧序列。
3.根据权利要求1所述的一种基于图卷积网络的视频人物社交关系图生成方法,其特征在于,
利用预训练的人物检测器来检测出人物框和对应的置信度,如果检测出来的框置信度高于阈值,则认为该框含有人物角色;
之后,利用基于残差网络的特征提取网络对人物角色框进行特征抽取,再对人物框特征之间进行余弦相似度的计算,相似度大于阈值的两个人物框视作同一个人物角色。
4.根据权利要求1所述的一种基于图卷积网络的视频人物社交关系图生成方法,其特征在于,帧级别的图卷积网络中单层的图卷积层的操作表示为:
Figure FDA0003697846900000021
其中,
Figure FDA0003697846900000022
是第l-1层的输出,N表示子图数目,d表示特征节点的维度;
Figure FDA0003697846900000023
是当前子图的邻接矩阵,
Figure FDA0003697846900000024
是邻接矩阵
Figure FDA0003697846900000025
的度矩阵,
Figure FDA0003697846900000026
是可学习的参数,σ(·)是非线性激活函数;
子图的邻接矩阵定义为:
Figure FDA0003697846900000027
其中,N1与N2表示不同种类的节点,i、j表示不同人物角色,Fc、Fp、Fb、Ft依次表示每一帧图像中人物角色特征、人物对特征、全局背景特征、文本特征;
最终,每一帧图像中人物角色和人物对的增强表征表示为:
Fc′,Fp′=GCN(Fc,Fp,Fb,Ft,A)
其中,GCN(.)表示图卷积神经网络。
5.根据权利要求1所述的一种基于图卷积网络的视频人物社交关系图生成方法,其特征在于,所述多通道时序累积模块包括两个独立的长短时记忆网络,将每一帧图像中人物角色和人物对的增强表征Fc′与Fp′独自输入至一个长短时记忆网络,得到所有帧图像累积的人物角色特征Cc与人物对特征Cp
6.根据权利要求1所述的一种基于图卷积网络的视频人物社交关系图生成方法,其特征在于,将所有帧图像累积的人物角色特征Cc与人物对特征Cp输入至片段级别的图卷积网络,得到片段级别的增强表征后的人物对特征表示为:
Cp′=GCN(Cc,Cp,A)
其中,GCN(.)表示图卷积神经网络,A为邻接矩阵,定义为:
Figure FDA0003697846900000031
其中,N1与N2表示不同种类的节点,i、j表示不同人物角色。
7.根据权利要求1所述的一种基于图卷积网络的视频人物社交关系图生成方法,其特征在于,在训练阶段,构建一个弱监督损失函数来训练所述人物社交关系图生成模型;
将片段级别的增强表征后的人物对特征输入至分类器,预测得到相应人物对在每个社交关系类别上的置信度向量,将所有人物对的置信度向量拼接起来组成分数矩阵Q;
设置:K对社交关系分数,R种社交关系以及P对人物,预测得到的分数矩阵Q形状为R×P,对分数矩阵Q进行交叉softmax操作,生成置信度矩阵:
S=softmaxr(Q)⊙softmaxp(Q)
其中,softmaxr和softmaxp分别表示对所有人物对和所有社交关系的softmax运算;
之后,累积每个人物对的置信度分数,用交叉熵准则来计算弱监督损失函数:
Figure FDA0003697846900000032
其中,yr=1表示视频具有r类型的社交关系,否则yr=0;
Figure FDA0003697846900000033
表示所有人物对在r类型社交关系上累计的归一化分数,能够代表r类型的片段级置信度分数;通过上述损失L,能够仅利用片段级的社交关系标注来训练网络。
8.根据权利要求1所述的一种基于图卷积网络的视频人物社交关系图生成方法,其特征在于,所述利用片段级别的增强表征后的人物对特征、以及提取的子视频帧序列的视频特征、音频特征与文本特征生成片段级别的人物社交关系图包括:
利用预训练的神经网络提取子视频帧序列的视频特征,利用子视频帧序列的背景音频的短时傅里叶变换特征作为视频片段的音频特征,利用深度自注意力变换网络从子视频帧序列的的台词中提取相应的文本特征;
将每一片段级别的增强表征后的人物对特征与整个子视频帧序列的视频特征、音频特征与相应的文本特征拼接起来作为每一人物对的最终表征,再输入至分类器进行人物对的社交关系分类,得到了所有人物对之间的关系,从而得到片段级人物社交关系图。
CN202110646096.9A 2021-06-10 2021-06-10 基于图卷积网络的视频人物社交关系图生成方法 Active CN113298015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110646096.9A CN113298015B (zh) 2021-06-10 2021-06-10 基于图卷积网络的视频人物社交关系图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110646096.9A CN113298015B (zh) 2021-06-10 2021-06-10 基于图卷积网络的视频人物社交关系图生成方法

Publications (2)

Publication Number Publication Date
CN113298015A CN113298015A (zh) 2021-08-24
CN113298015B true CN113298015B (zh) 2022-09-06

Family

ID=77327758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110646096.9A Active CN113298015B (zh) 2021-06-10 2021-06-10 基于图卷积网络的视频人物社交关系图生成方法

Country Status (1)

Country Link
CN (1) CN113298015B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186069B (zh) * 2021-11-29 2023-09-29 江苏大学 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法
CN115953716A (zh) * 2022-12-27 2023-04-11 中山大学 一种基于跨媒介数据的人物图谱关系识别方法及系统
CN116704423B (zh) * 2023-08-07 2023-11-28 中国科学技术大学 层级式视频人物社交互动识别方法、系统、设备及介质
CN118485949A (zh) * 2024-07-11 2024-08-13 山东海量信息技术研究院 一种人物关系检测方法、模型、程序产品、装置及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309732A (zh) * 2019-06-13 2019-10-08 浙江大学 基于骨架视频的行为识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9344520B2 (en) * 2014-05-27 2016-05-17 Cisco Technology, Inc. Method and system for visualizing social connections in a video meeting
US10657676B1 (en) * 2018-06-28 2020-05-19 Snap Inc. Encoding and decoding a stylized custom graphic

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309732A (zh) * 2019-06-13 2019-10-08 浙江大学 基于骨架视频的行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning Interactions and Relationships between Movie Characters;Anna Kukleva等;《IEEE》;20200805;第1-9页 *
Social Relation Recognition from Videos via Multi-scale Spatial-Temporal Reasoning;Xinchen Liu等;《IEEE》;20200109;第1-10页 *

Also Published As

Publication number Publication date
CN113298015A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN113298015B (zh) 基于图卷积网络的视频人物社交关系图生成方法
US20220014807A1 (en) Method, apparatus, device and medium for generating captioning information of multimedia data
Ramaswamy et al. See the sound, hear the pixels
US10628486B2 (en) Partitioning videos
Abdelwahab et al. Active learning for speech emotion recognition using deep neural network
US10108709B1 (en) Systems and methods for queryable graph representations of videos
WO2020088216A1 (zh) 一种音视频处理方法、装置、设备及介质
JP2023537705A (ja) オーディオ・ビジュアル・イベント識別システム、方法、プログラム
KR102042168B1 (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN111814817A (zh) 视频分类方法、装置、存储介质及电子设备
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
US11354904B2 (en) Spatial-temporal graph-to-sequence learning based grounded video descriptions
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
Ellis et al. Predicting evoked emotions in video
CN114363695B (zh) 视频处理方法、装置、计算机设备和存储介质
Papalampidi et al. Film trailer generation via task decomposition
CN112667792B (zh) 人机对话数据处理方法、装置、计算机设备和存储介质
CN116522212B (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质
Lee et al. Audio-visual attention networks for emotion recognition
CN109492124B (zh) 选择性注意线索指导的不良主播检测方法、装置及电子设备
Makantasis et al. The invariant ground truth of affect
Ben-Ahmed et al. Eurecom@ mediaeval 2017: Media genre inference for predicting media interestingnes
Dash et al. A domain independent approach to video summarization
Sravani et al. Multimodal Sentimental Classification using Long-Short Term Memory
Vinta et al. Automatic video summarization and classification by CNN model: Deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant