CN115311598A - 基于关系感知的视频描述生成系统 - Google Patents

基于关系感知的视频描述生成系统 Download PDF

Info

Publication number
CN115311598A
CN115311598A CN202210911326.4A CN202210911326A CN115311598A CN 115311598 A CN115311598 A CN 115311598A CN 202210911326 A CN202210911326 A CN 202210911326A CN 115311598 A CN115311598 A CN 115311598A
Authority
CN
China
Prior art keywords
video
network
feature
frame
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210911326.4A
Other languages
English (en)
Inventor
张玥杰
郑逸
陈晖�
景和明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202210911326.4A priority Critical patent/CN115311598A/zh
Publication of CN115311598A publication Critical patent/CN115311598A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于跨媒体生成技术领域,具体为基于关系感知的视频描述生成系统。本发明系统包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络。视频特征提取网络对视频进行帧采样,获取帧级别视觉语义特征与目标对象序列特征及相关信息;关系感知视觉特征编码网络对帧级别视觉语义进行融合,对视频中目标对象序列特征根据关系信息进行重构编码;语言解码网络采用注意力机制融合特征信息,生成最终的描述语句。本发明采用场景图解析模型预提取视频中显著对象间的关系信息,利用图卷积对视频中对象级序列特征进行重构,在生成描述语句时充分利用视频内对象间的空间语义与时序关系信息,使生成更精确,并提高模型对视频视觉信息的理解能力。

Description

基于关系感知的视频描述生成系统
技术领域
本发明属于跨媒体生成技术领域,具体涉及基于关系感知的视频描述生成系统。
背景技术
近年来,信息传递的效率随着科学技术的发展而提高,视频逐渐代替文字、语音等传统媒体成为人们主流的信息获取渠道。与此同时,移动互联网时代的来临进一步降低视频创作与传播的门槛,视频数据数量与日俱增。因此,如何让计算机自动化地理解视频,这一问题受到广泛关注。视频描述生成任务(Video Captioning),旨在让计算机针对给定的输入视频生成一句或一段描述视频内容的自然语言,是能最为直观地展现计算机理解能力的任务之一。由于视频描述生成任务需要建立不同模态信息特征间的联系,必须寻找一种方式将不同模态的信息映射到相同的向量空间中,这对视频特征提取、特征建模提出更高的要求。随着视频信息的不断增加,该任务具有非常广阔的应用场景,如自动解说、导航辅助、智能人机环境开发等,同时在推动旅游、教育及计算机学科本身发展等方面意义巨大。
现有的视频描述生成方法通常可分为两类,即基于模板的描述生成方法和基于深度学习的描述生成方法。基于模板的方法为生成模型预先定义一些自然语言的特殊规则,例如主语、动词和宾语。使用这样的语法预定义模板,生成模型可直接预测句子每个部分的单词,为给定视频生成合理描述,但其输出往往相似且缺乏多样性。同时,由于基于模板的方法依赖于预定义的模板和语言规则,因此在训练之前需要进行精心的规则设计,也会造成生成的句子形式高度僵化。随着深度学习的不断进步,基于“编码器-解码器”框架的深度学习方法自机器翻译任务引入,被广泛用于视频描述生成任务。这类方法一般采用卷积神经网络(Convolutional Neural Network,CNN)模型从视频帧序列中提取视觉语义特征,编码融合成视频的特征表示;解码阶段则采用循环神经网络(Recurrent Neural Network,RNN)模型,根据编码器传递来的视觉信息生成最终的描述语句。在视觉信息编码阶段,除去常规的卷积特征提取,一些较先进的方法会采用目标检测技术先对视频中的对象进行预检测,并将检测出的对象信息融合进视觉信息的表示,以捕获更细粒度的视觉语义信息。
综合来看,现有的视频描述生成方法已颇见成效,可为视频生成较为合理的描述语句。然而,仍存在一些问题未得到很好的解决,诸如描述中常常出现主语错误、动作预测不够准确、及难以理解而存在多个对象的复杂场景等。出现这些情况的主要原因在于,虽然当下用于视频描述生成任务的先进方法针对视频中的对象特征进行建模,但并未更细粒度地显式建模视频中出现对象之间的关系,导致视频中的信息未被充分保留。一方面,由于传统的特征提取模型并未对关系信息进行显式建模,模型可能会丢失部分有效信息,导致所生成描述语句的主语或动词等关键部分出现错误。另一方面,由于数据集规模的有限性,涉及的场景信息往往存在长尾效应,部分复杂场景可能样本量较少,以至于模型往往忽略其全局复杂关系信息,仅提取数据集中常见的部分信息进行预测。本发明就是由此激发,设计包含三个部分的视频描述生成方法,显式建模视频中对象级别特征关系,采用图卷积对视频中的对象语义信息进行重构,针对视频生成更具质量的描述性语句。
发明内容
本发明的目的在于提出一种针对视频的基于关系感知的视频描述生成方法,以提升所生成语言描述的质量。
本发明所提供基于关系感知的视频描述生成系统,采用图卷积网络,包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络;其中,所述视频特征提取网络对视频进行采样,获取采样帧的特征向量序列,对采样帧进行场景图解析,获取显著目标的特征向量序列以及任意目标对之间的关系预测信息,并输入至关系感知视觉特征编码网络中进行特征重构;所述关系感知视觉特征编码网络从帧和目标两个层级对特征进行重构,融合,并输出整个视频的特征表示,输入至语言解码网络;所述语言解码网络采用注意力机制进一步融合特征信息,采样生成最终的视频描述语句。本发明采用场景图解析模型预提取视频中显著对象间的关系信息,利用图卷积对视频中对象级序列特征进行重构,在生成描述语句时充分利用视频内对象间的空间语义关系信息与时序关系信息,使得生成更为精确。
本发明中,所述视频特征提取网络,包含InceptionResnet-V2、I3D深度卷积网络以及场景图解析网络ReIDNs;对视频进行关键帧采样,采样按照等帧数采样,一个视频最终对应于26帧,每一帧通过在ImageNet上预训练的InceptionResnet-V2网络映射为1,536维度的2D特征;以26帧为中心抽取出26个片段集,通过I3D网络获取视频1,024维的3D特征;同时,通过ReIDNs网络对视频帧序列上的每个关键帧提取场景图特征。此处所指的场景图特征包括两个部分,即该帧内目标对象所提取的特征及两两对象之间的关系预测信息;最终,对于一个视频,其特征包含2D特征、3D特征以及场景图特征。
本发明中,所述关系感知视觉特征编码网络,包括帧级别的特征编码网络以及关系感知对象特征增强网络;帧级别的特征编码网络融合2D特征与3D特征,捕捉视频帧级别的视觉语义特征;关系感知对象特征增强网络根据场景图特征,构建视频对象序列空间与时序关系图,以图网络建模并增强对象序列特征;其中:
帧级别特征编码网络通过一个双向LSTM网络融合帧级别视觉语义信息,其基本模型定义如下:
Va,m=[Va;Vm], (1)
Vs=BiLSTM(Va,m), (2)
其中,Va为视频中提取的2D特征;Vm为3D特征;[;]表示拼接;Vs即为编码后的帧级别特征表示向量。
关系感知对象特征增强网络包括针对对象序列的空间关系感知和时序关系感知两个分支;首先,对于视频中提取出的每一个视频帧,用ReIDNs提取出前n置信度对象的对象特征及其相关信息(包括对象框、场景图等)。接着,用这些所提取的对象作为节点,可以构建一张存在n个节点的图结构,图中每个节点信息为对象的特征向量。对于图的边,用象征关系信息的邻接矩阵形式进行表示,即
Figure BDA0003774029230000031
如果第i个对象oi存在指向第j个对象oj的关系
Figure BDA0003774029230000032
那么有
Figure BDA0003774029230000033
这样,为所有采样帧构建一个关系感知的空间图,以表示对象之间的语义交互信息。
在空间关系图的基础上,空间关系感知分支对特征序列的更新过程定义如下:
Figure BDA0003774029230000034
其中,
Figure BDA0003774029230000035
表示具有d维特征的n个对象序列;Vo,i表示第i个对象的特征向量;
Figure BDA0003774029230000036
是变换矩阵;b是偏差;ρ表示激活函数(如ReLU、Tanh等);N(Vo,i)表示第i个结点的邻居集合,即与该结点存在权值边的结点集合(也包括结点自身);lab(Vo,i,Vo,j)表示基于第i个对象和第j个对象之间不同关系类型的偏差,有:
Figure BDA0003774029230000037
时序关系感知分支将对象序列的时序关系信息融合进对象特征。为了捕捉时序维度上的对象关系信息,对于第t帧中的对象
Figure BDA0003774029230000038
只需要建模其与相邻帧中对象之间的关系,即在相邻帧间建立关系连接。通过计算该对象的特征表示与其相邻的t±1帧中的对象特征表示
Figure BDA0003774029230000039
之间的欧几里德距离,能评估出该对象
Figure BDA00037740292300000310
与相邻帧内对象的相似性。如果
Figure BDA00037740292300000311
Figure BDA00037740292300000312
之间的欧式距离小于阈值λ,即可将这一对视频对象视为出现在两个相邻帧中的相同对象,在时序关系图中标记其存在边,并在这两个对象之间建立值为1的连接。关系评估过程可表述为:
Figure BDA00037740292300000313
Figure BDA0003774029230000041
由此,可以构建出一张无权值的无向图,即为时序关系图
Figure BDA0003774029230000042
在构建好的时序关系图的基础上,图卷积网络得以更新视频的对象特征向量,其过程如下:
Figure BDA0003774029230000043
其中,Wtem与btem为可学习参数;ρ表示激活函数;N(Vo,i)表示第i个结点的邻居集合。
之后,通过多层感知器(Multi-Layer Perceptron,MLP)层来融合两个分支更新后的对象特征序列,可表示为:
V′o=ρ(Wo[Vo,R;Vo,T]+bo), (8)
其中,Vo,R;Vo,T分别为更新后的空间关系对象特征序列与时序关系对象特征序列;
Figure BDA0003774029230000044
是可学习的线性变换矩阵;bo是偏差信息;ρ为激活函数,一般为Tanh函数。至此,得到基于关系感知信息增强的视频对象特征表示V′o
本发明中,所述语言解码网络,采用循环神经网络作为生成器进行语句生成;采用带注意力机制的双层LSTM网络作为解码器,双层LSTM网络分别为注意力LSTM与语言解码LSTM;注意力LSTM融合当前时刻的全局信息,输入注意力模块生成注意力权重;语言解码LSTM进行细粒度解码,最终采用语言解码LSTM的输出预测下一个时刻的单词。
注意力LSTM的输入由四个部分组成,分别是上一时刻语言LSTM的隐藏状态
Figure BDA0003774029230000045
上个时刻预测单词的词向量wt-1、视觉信息编码器输出的帧级别特征向量与对象特征序列向量,其输出为
Figure BDA0003774029230000046
定义如下:
Figure BDA0003774029230000047
Figure BDA0003774029230000048
其中,We为词向量的嵌入矩阵;
Figure BDA0003774029230000049
表示全局平均后的帧级别特征向量;
Figure BDA00037740292300000410
表示全局平均后的对象特征序列;[;]表示向量的拼接操作;
Figure BDA00037740292300000411
即为融合后的当前时刻全局信息,将与帧级别特征Vs和对象特征V′o一同输入至语言解码器的注意力网络。注意力网络的计算过程如下:
Figure BDA00037740292300000412
Figure BDA00037740292300000413
其中,
Figure BDA0003774029230000051
表示在第t个时间步骤时,第i个帧特征的注意力权重;
Figure BDA0003774029230000052
表示在第t个时间步骤时,第i个对象特征的注意力权重;
Figure BDA0003774029230000053
Ws、Wo与Uh都是可学习参数。通过以上方式,针对帧级别特征与对象特征的注意力权重被计算出来,加权得到新的特征表示为:
Figure BDA0003774029230000054
Figure BDA0003774029230000055
Figure BDA0003774029230000056
其中,n和K分别是采样的帧数与每帧检测的对象数目;
Figure BDA0003774029230000057
是一个变换矩阵;batt是偏差;得到注意力模块更新后的特征
Figure BDA0003774029230000058
Figure BDA0003774029230000059
后,如式(15)所示进行进一步融合,生成注意力网络的输出
Figure BDA00037740292300000510
语言LSTM输入为
Figure BDA00037740292300000511
输出为
Figure BDA00037740292300000512
其过程如下:
Figure BDA00037740292300000513
Figure BDA00037740292300000514
语言解码网络进一步采用一个两层的MLP网络作为信息融合机制来获得在词典上的条件概率分布,将其定义为:
Figure BDA00037740292300000515
本发明提供基于关系感知的视频描述生成系统,其工作流程为:
(一)所述视频特征提取网络对视频进行帧采样,利用预训练的深度CNN模型对图像进行特征表示,提取出帧级别的视觉特征向量序列;利用I3D网络获取视频时间维度上的运动特征表示;利用场景图解析模型提取出帧内对象的特征表示以及关系预测信息,得到目标级别的对象特征向量序列。
(二)所述关系感知视觉特征编码网络分为两个分支,为帧级别的全局特征编码分支以及目标级别的对象特征编码分支;帧级别的全局特征编码分支以帧级别的视觉特征向量序列与I3D网络提取的运动特征表示为输入,得到融合后的帧级别特征序列;目标级别的对象特征编码分支以对象特征向量序列以及预测的关系信息为输入,根据关系信息构建空间关系图结构,根据特征向量相似度构建时序关系图结构,采用图卷积网络进行特征重构,得到关系信息增强后的对象级别特征序列。
(三)所述语言解码网络以重构后的帧级别特征序列、对象级别特征序列以为输入,通过注意力机制加权融合两种特征,输出描述所述视频的语句。
较之已有的相关视频描述生成方法,本发明提出的方法具有两大优势,即充分利用视频内具体目标对象的空间关系、及充分利用视频内具体目标对象的时序关系。第一,针对视频内具体目标对象空间关系的利用体现在,本发明所提出方法的模型采用预训练的场景图解析模型预测目标对象之间的关系信息,进而构建有向带权的空间关系图,并用考虑到关系信息的图卷积网络进行重构,过往方法往往忽略这一部分信息或采取隐式建模的方式进行不充分建模。第二,针对视频内具体目标对象时序关系的利用体现在,本发明所提出方法采用对象之间的相似度作为依据构建时序关系邻接矩阵,通过图网络更新的方式充分对这一信息进行提取利用。
综上所述,本发明提出的针对视频的基于关系感知视频描述生成方法,使得视频内的视觉语义信息得到更充分利用,描述性语句生成更为精确。本发明可应用于针对大规模视频的描述生成中,生成对应于视频内容的精确描述性语句,提高可用性和用户体验。
附图说明
图1为本发明系统图示。
图2为本发明中的模型框架示意图。
具体实施方式
由背景技术可知,现有的视频描述生成方法对于视频内部目标对象的关系信息存在利用不充分的情况。本发明针对所述问题进行研究,引入场景图解析及图卷积网络技术,对于视频内部的视觉信息进行重建,在重建过程中充分考虑到视频内目标对象之间的语义关联信息,包括空间关系与时序关系信息,并采用两层LSTM作为解码器进行最终描述语句生成。本发明所提出模型适用于所有基于“编码器-解码器”模式的视频描述生成技术,显著提高生成语句的精度。
如图1所示,本发明所提出的基于关系感知的视频描述生成系统,包括视频特征提取网络、关系感知视觉特征编码网络、及语言解码网络。其流程为:
一:所述视觉特征提取网络,针对所获取视频进行帧采样,并利用深度卷积网络获取帧的视觉特征向量表示26*1,536。所述深度卷积网络可选用图像分类任务中的深度卷积模型,本发明采用InceptionResnet-V2网络。另为捕获帧序列中的动态信息,在Kinetics数据集上预训练的I3D模型提取视频1,024维3D特征。进一步,为获取视频中目标对象的细粒度信息,采用在Visual Genome数据集上预训练的场景图解析模型ReIDNs对视频帧序列进行特征提取。该模型会在帧上检测出所有可能的对象,即待定对象。通过计算每个待定对象间的联合交集(Intersection of Union,IoU),一些冗余对象将被剔除。之后,根据置信度对剩余待定对象进行排序,从每一帧中取前20置信度值的对象即作为输入对象;同时,所选取20个对象之间的关系也会被预测得到。Visual Genome数据集中包含的关系数量是51种,包括动作词、位置关系词、未知或无关系等。本发明进一步添加一个特殊的标记self来表示自相关关系,即对象自身的关系,构建出一个包含52个元素的关系列表。即关系信息aspa∈[0,52]。
在一中,对于视频特征提取进行两个层次的提取,一是帧的整体,另一是帧内部的目标对象信息。以上信息均被输入关系感知视觉特征编码网络中,进行进一步重构融合。
二:所述关系感知视觉特征编码网络对于获取的视觉特征进行重构,包括帧级别的特征编码网络以及关系感知对象特征增强网络。其重构具体流程如下所示:
(一)、帧级别的特征编码网络将2D、3D网络提取的特征拼接后,输入双向LSTM融合编码帧级别特征。
(二)、构建空间关系图与时序关系图。为每一个视频帧内的对象序列构建一个空间关系图,并使用其来更新对象特征。每个对象都被视为图中的一个结点。
Figure BDA0003774029230000071
表示具有d维特征的n个对象,
Figure BDA0003774029230000072
表示空间关系图对应的邻接矩阵,边则为一中ReIDNs所预测的关系信息。同时,为整个视频帧序列构建时序关系图,通过计算当前帧中对象与相邻帧中对象的相似度信息,从而得出图的权重,进而构造一个时序维度上的邻接矩阵
Figure BDA0003774029230000073
相似度评估过程如下:
Figure BDA0003774029230000074
Figure BDA0003774029230000075
(三)、对空间关系图与时序关系图进行重构,分别得到空间关系增强的对象特征序列和时序关系增强的对象特征序列,并通过多层感知器(Multi-Layer Perceptron,MLP)层融合两个特征。
在流程二中,对视频信息进行两个层次的处理,一是对帧序列特征进行融合,采用双向LSTM充分提取帧序列中的信息;另一是对于目标对象序列的重构,在重构过程中既考虑帧内目标的细粒度视觉语义关系,也考虑帧间相似位置目标的时序关系。特征的重构过程采用考虑关系信息的图卷积网络,使得重构后的特征更适合视频的语句描述生成。
三:所述语言解码网络,采用带注意力机制的两层LSTM作为解码器。第一层作为粗粒度解码,输入包含上一时刻语言LSTM的隐藏状态
Figure BDA0003774029230000081
上个时刻预测单词的词向量wt-1、视觉信息编码器输出的帧级别特征向量与对象特征序列向量,其输出为
Figure BDA0003774029230000082
注意力网络输入为
Figure BDA0003774029230000083
流程二中输出的帧级别特征序列Vs以及重构后的对象特征序列Vo ,其计算过程如下:
Figure BDA0003774029230000084
Figure BDA0003774029230000085
Figure BDA0003774029230000086
Figure BDA0003774029230000087
Figure BDA0003774029230000088
第二层LSTM输入包括第一层的输出
Figure BDA0003774029230000089
以及注意力网络的输出
Figure BDA00037740292300000810
采用第二层的输出预测下一时刻单词概率分布p,其具体操作如下:
Figure BDA00037740292300000811
Figure BDA00037740292300000812
Figure BDA00037740292300000813
具体流程可视化如图2所示,按照步骤一至三依次进行,即可得到视频描述语句。此外,在生成语句描述时,采用BeamSearch方法来筛选最优语句,有效避免单词的采样偏差。在本发明提出的方法中,将BeamSize的值设为3,以平衡精度与时间代价的关系。
本发明提出的方法实例选用数据集MSVD和MSR-VTT。MSVD包含1,970视频,MSVD包含10,000视频。两者均采用标准的数据集划分,在MSVD测试集上BLEU-4、CIDEr、METEOR、及ROUGE-L分值分别为55.2、100.1、36.5、及74.1。在MSR-VTT上BLEU-4、Cider、Meteor、及Rouge分值分别为42.5、51.4、28.5、及62.4,性能相较于以往方法有着较大提升。
本发明不但适用于所述的模型框架,也适用所有基于编码-解码的视频描述生成方法,同时适用于不采用循环神经网络作为解码器的视频描述生成方法,具体实践为将本发明的特征重构过程加入编码阶段,不改动解码器方案。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (5)

1.一种基于关系感知的视频描述生成系统,其特征在于,采用图卷积网络,包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络;其中,所述视频特征提取网络对视频进行采样,获取采样帧的特征向量序列,对采样帧进行场景图解析,获取显著目标的特征向量序列以及任意目标对之间的关系预测信息,并输入至关系感知视觉特征编码网络中进行特征重构;所述关系感知视觉特征编码网络从帧和目标两个层级对特征进行重构,融合,并输出整个视频的特征表示,输入至语言解码网络;所述语言解码网络采用注意力机制进一步融合特征信息,采样生成最终的视频描述语句。
2.根据权利要求1所述的视频描述生成系统,其特征在于,所述视频特征提取网络,包含InceptionResnet-V2、I3D深度卷积网络以及场景图解析网络ReIDNs;对视频进行关键帧采样,采样按照等帧数采样,一个视频最终对应于26帧,每一帧通过在ImageNet上预训练的InceptionResnet-V2网络映射为1,536维度的2D特征;以26帧为中心抽取出26个片段集,通过I3D网络获取视频1,024维的3D特征;同时,通过ReIDNs网络对视频帧序列上的每个关键帧提取场景图特征,所述场景图特征包括该帧内目标对象所提取的特征及两两对象之间的关系预测信息;最终,对于一个视频,其特征包含2D特征、3D特征以及场景图特征。
3.根据权利要求2所述的视频描述生成系统,其特征在于,所述关系感知视觉特征编码网络,包括帧级别的特征编码网络以及关系感知对象特征增强网络;帧级别的特征编码网络融合2D特征与3D特征,捕捉视频帧级别的视觉语义特征;关系感知对象特征增强网络根据场景图特征,构建视频对象序列空间与时序关系图,以图网络建模并增强对象序列特征;其中:
帧级别特征编码网络通过一个双向LSTM网络融合帧级别视觉语义信息,其基本模型定义如下:
Va,m=[Va;Vm], (1)
Vs=BiLSTM(Va,m), (2)
其中,Va为视频中提取的2D特征;Vm为3D特征;[;]表示拼接;Vs即为编码后的帧级别特征表示向量;
关系感知对象特征增强网络包括针对对象序列的空间关系感知和时序关系感知两个分支;首先,对于视频中提取出的每一个视频帧,用ReIDNs提取出前n置信度对象的对象特征及其相关信息;接着,用这些所提取的对象作为节点,构建一张存在n个节点的图结构,图中每个节点信息为对象的特征向量;对于图的边,用象征关系信息的邻接矩阵形式进行表示,即
Figure FDA0003774029220000021
如果第i个对象oi存在指向第j个对象oj的关系
Figure FDA0003774029220000022
那么有
Figure FDA0003774029220000023
这样,为所有采样帧构建一个关系感知的空间图,以表示对象之间的语义交互信息;
在空间关系图的基础上,空间关系感知分支对特征序列的更新过程定义如下:
Figure FDA0003774029220000024
其中,
Figure FDA0003774029220000025
表示具有d维特征的n个对象序列;Vo,i表示第i个对象的特征向量;
Figure FDA0003774029220000026
是变换矩阵;b是偏差;ρ表示激活函数;N(Vo,i)表示第i个结点的邻居集合,即与该结点存在权值边的结点集合;lab(Vo,i,Vo,j)表示基于第i个对象和第j个对象之间不同关系类型的偏差,有:
Figure FDA0003774029220000027
时序关系感知分支将对象序列的时序关系信息融合进对象特征;为了捕捉时序维度上的对象关系信息,对于第t帧中的对象
Figure FDA0003774029220000028
建模其与相邻帧中对象之间的关系,即在相邻帧间建立关系连接;通过计算该对象的特征表示与其相邻的t±1帧中的对象特征表示
Figure FDA0003774029220000029
之间的欧几里德距离,能评估出该对象
Figure FDA00037740292200000210
与相邻帧内对象的相似性;如果
Figure FDA00037740292200000211
Figure FDA00037740292200000212
之间的欧式距离小于阈值λ,即将这一对视频对象视为出现在两个相邻帧中的相同对象,在时序关系图中标记其存在边,并在这两个对象之间建立值为1的连接;关系评估过程表述为:
Figure FDA00037740292200000213
Figure FDA00037740292200000214
由此,构建出一张无权值的无向图,即为时序关系图
Figure FDA00037740292200000215
在构建好的时序关系图的基础上,图卷积网络得以更新视频的对象特征向量,其过程如下:
Figure FDA00037740292200000216
其中,Wtem与btem为可学习参数;ρ表示激活函数;N(Vo,i)表示第i个结点的邻居集合;
之后,通过多层感知器(MLP)层来融合两个分支更新后的对象特征序列,表示为:
V′o=ρ(Wo[Vo,R;Vo,T]+bo), (8)
其中,Vo,R;Vo,T分别为更新后的空间关系对象特征序列与时序关系对象特征序列;
Figure FDA00037740292200000217
是可学习的线性变换矩阵;bo是偏差信息;ρ为激活函数;至此,得到基于关系感知信息增强的视频对象特征表示V′o
4.根据权利要求3所述的视频描述生成系统,其特征在于,所述语言解码网络,采用循环神经网络作为生成器进行语句生成;采用带注意力机制的双层LSTM网络作为解码器,双层LSTM网络分别为注意力LSTM与语言解码LSTM;注意力LSTM融合当前时刻的全局信息,输入注意力模块生成注意力权重;语言解码LSTM进行细粒度解码,最终采用语言解码LSTM的输出预测下一个时刻的单词;
注意力LSTM的输入由四个部分组成,分别是上一时刻语言LSTM的隐藏状态
Figure FDA0003774029220000031
上个时刻预测单词的词向量wt-1、视觉信息编码器输出的帧级别特征向量与对象特征序列向量,其输出为
Figure FDA0003774029220000032
定义如下:
Figure FDA0003774029220000033
Figure FDA0003774029220000034
其中,We为词向量的嵌入矩阵;
Figure FDA0003774029220000035
表示全局平均后的帧级别特征向量;
Figure FDA0003774029220000036
表示全局平均后的对象特征序列;[;]表示向量的拼接操作;
Figure FDA0003774029220000037
即为融合后的当前时刻全局信息,将与帧级别特征Vs和对象特征V′o一同输入至语言解码器的注意力网络;注意力网络的计算过程如下:
Figure FDA0003774029220000038
Figure FDA0003774029220000039
其中,
Figure FDA00037740292200000310
表示在第t个时间步骤时,第i个帧特征的注意力权重;
Figure FDA00037740292200000311
表示在第t个时间步骤时,第i个对象特征的注意力权重;
Figure FDA00037740292200000312
Ws、Wo与Uh都是可学习参数;通过以上方式,计算针对帧级别特征与对象特征的注意力权重;加权得到新的特征表示为:
Figure FDA00037740292200000313
Figure FDA00037740292200000314
Figure FDA0003774029220000041
其中,n和K分别是采样的帧数与每帧检测的对象数目;
Figure FDA0003774029220000042
是一个变换矩阵;batt是偏差;得到注意力模块更新后的特征
Figure FDA0003774029220000043
Figure FDA0003774029220000044
后,如式(15)所示进行进一步融合,生成注意力网络的输出
Figure FDA0003774029220000045
语言LSTM输入为
Figure FDA0003774029220000046
输出为
Figure FDA0003774029220000047
其过程如下:
Figure FDA0003774029220000048
Figure FDA0003774029220000049
语言解码网络采用一个两层的MLP网络作为信息融合机制来获得在词典上的条件概率分布,将其定义为:
Figure FDA00037740292200000410
5.根据权利要求4所述的视频描述生成系统,其特征在于,工作流程为:
(一)所述视频特征提取网络对视频进行帧采样,利用预训练的深度CNN模型对图像进行特征表示,提取出帧级别的视觉特征向量序列;利用I3D网络获取视频时间维度上的运动特征表示;利用场景图解析模型提取出帧内对象的特征表示以及关系预测信息,得到目标级别的对象特征向量序列;
(二)所述关系感知视觉特征编码网络分为两个分支,为帧级别的全局特征编码分支以及目标级别的对象特征编码分支;帧级别的全局特征编码分支以帧级别的视觉特征向量序列与I3D网络提取的运动特征表示为输入,得到融合后的帧级别特征序列;目标级别的对象特征编码分支以对象特征向量序列以及预测的关系信息为输入,根据关系信息构建空间关系图结构,根据特征向量相似度构建时序关系图结构,采用图卷积网络进行特征重构,得到关系信息增强后的对象级别特征序列;
(三)所述语言解码网络以重构后的帧级别特征序列、对象级别特征序列以为输入,通过注意力机制加权融合两种特征,输出描述所述视频的语句。
CN202210911326.4A 2022-07-29 2022-07-29 基于关系感知的视频描述生成系统 Pending CN115311598A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210911326.4A CN115311598A (zh) 2022-07-29 2022-07-29 基于关系感知的视频描述生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210911326.4A CN115311598A (zh) 2022-07-29 2022-07-29 基于关系感知的视频描述生成系统

Publications (1)

Publication Number Publication Date
CN115311598A true CN115311598A (zh) 2022-11-08

Family

ID=83858276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210911326.4A Pending CN115311598A (zh) 2022-07-29 2022-07-29 基于关系感知的视频描述生成系统

Country Status (1)

Country Link
CN (1) CN115311598A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012685A (zh) * 2022-12-20 2023-04-25 中国科学院空天信息创新研究院 一种基于关系序列与视觉序列融合的图像描述生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012685A (zh) * 2022-12-20 2023-04-25 中国科学院空天信息创新研究院 一种基于关系序列与视觉序列融合的图像描述生成方法
CN116012685B (zh) * 2022-12-20 2023-06-16 中国科学院空天信息创新研究院 一种基于关系序列与视觉序列融合的图像描述生成方法

Similar Documents

Publication Publication Date Title
CN111488807B (zh) 基于图卷积网络的视频描述生成系统
US11657230B2 (en) Referring image segmentation
CN111860235B (zh) 高低层特征融合的注意力遥感图像描述的生成方法及系统
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
CN112487182A (zh) 文本处理模型的训练方法、文本处理方法及装置
Gao et al. RNN-transducer based Chinese sign language recognition
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111598183B (zh) 一种多特征融合图像描述方法
US20220300718A1 (en) Method, system, electronic device and storage medium for clarification question generation
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN112069328A (zh) 一种基于多标签分类的实体关系联合抽取模型的建立方法
CN112734881A (zh) 基于显著性场景图分析的文本合成图像方法及系统
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN114926835A (zh) 文本生成、模型训练方法和装置
CN116862000B (zh) 一种生成式人工智能的因果思维链生成方法、装置及设备
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN115311598A (zh) 基于关系感知的视频描述生成系统
CN116980541B (zh) 视频编辑方法、装置、电子设备以及存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN113052156B (zh) 光学字符识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination