CN113553445B - 一种生成视频描述的方法 - Google Patents

一种生成视频描述的方法 Download PDF

Info

Publication number
CN113553445B
CN113553445B CN202110854988.8A CN202110854988A CN113553445B CN 113553445 B CN113553445 B CN 113553445B CN 202110854988 A CN202110854988 A CN 202110854988A CN 113553445 B CN113553445 B CN 113553445B
Authority
CN
China
Prior art keywords
scene graph
video
graph
text
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110854988.8A
Other languages
English (en)
Other versions
CN113553445A (zh
Inventor
高扬
陆旭阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110854988.8A priority Critical patent/CN113553445B/zh
Publication of CN113553445A publication Critical patent/CN113553445A/zh
Application granted granted Critical
Publication of CN113553445B publication Critical patent/CN113553445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种生成视频描述的方法,包括:S1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性;S2、通过细粒度场景图优化器,将初步提取的实体、关系和属性转化为优化场景图,将优化场景图作为视频语义及其结构的表示;S3、将视频和优化场景图输入场景图引导文本生成模型,生成符合视频和场景图内容的文本;场景图为准确场景图时,生成准确的视频描述,场景图为多样场景图时,生成多样可控的视频描述。本发明可以在准确生成的基础上做到可控生成,在实际应用中,用户可以根据视频中感兴趣的实体或关系构造场景图,并利用该模型生成针对特定语义内容的视频描述。

Description

一种生成视频描述的方法
技术领域
本发明涉及图像处理和深度学习技术领域,尤其涉及一种生成视频描述的方法。
背景技术
视频描述任务是一项实用且富有挑战性的跨模态任务,以往的方法大多致力于为给定视频生成准确的描述,生成的描述句式单一、内容不够丰富。
文献[1][2]采用的传统端到端(End2End)生成方法,通过时序注意力关注视频每一帧的特征,通过空间注意力关注某一帧的局部特征,从而更准确的生成文本。近年来一些新颖的可控视频描述生成方法不仅追求生成文本的准确性,还希望通过人性化的可控方法生成更多样的文本,即用户可以根据感兴趣的视频段落或实体,生成针对特定语义内容的视频描述。可控生成方法需要关注到视频中细粒度的语义信息,如不同的实体、动作、属性及其相互关系等。这些丰富的语义信息是视频与文本两个模态共有的内容,对其进行良好的建模与学习,可以辅助模型生成多样且可控的视频描述。
文献[3]提出的主题模型使用变分方法旨在为视频生成特定主题的文本,首先使用主题预测模型为每个视频生成主题隐变量,之后根据不同的主题选择特定的解码器生成文本。
文献[4]使用新颖的多任务训练方法,将文本生成任务与视频实体定位任务融合训练,使生成文本中的实体可以在视频中找到相应的区域定位。
文献[5]使用图结构表示视频中的实体及关系,通过图卷积网络进行编码,之后对视频与图两种输入进行时空注意力编码,使用预训练文本生成模型对生成的文本进行优化学习,使其可以生成更加细致且多样的文本。
文献[6][7]将词性标识POS(Part of Speech)作为中间表示,使用基于递归神经网络RNN(Recurrent Neural Network)的词性预测模型为视频生成词性序列,之后再根据词性序列生成相应的文本。
视频描述任务由于其跨模态的特点,使用传统的端到端方法[1][2]难以学习到视频内的丰富语义。通过交叉熵损失函数进行训练,此类方法往往会对数据集产生较强的依赖,容易生成数据集中出现频次较高的固定模式文本,缺乏多样性、可控性与可解释。其次,基于主题模型的方法[3]可以针对每个主题训练专属的解码器,对生成文本的主题进行有效的控制,但主题的数量比较有限,包含的语义信息不够丰富。此外,方法[4][5]通过学习视频中的实体与实体关系进行文本描述,但缺乏视频中的动作信息,未充分利用图的结构性,且未提出针对不同实体及关系的可控生成方案。此外,基于词性标识序列的方法[6][7]可以通过修改词性序列实现对生成文本的控制,但将词性标识作为视频与文本模态的中间表示,并不具有良好的可解释性,无法对跨模态语义进行有效的提取。
综上所述,现有技术不能对视频中的细粒度语义进行充分的提取与利用,无法深入学习文本语义及语义的结构性,缺乏良好的结构性语义表示,因此难以做到可控多样的视频描述生成。
参考文献:
[1]Hu Y,Chen Z,Zha Z J,et al.Hierarchical lobal-local temporalmodeling for video captioning[C]//Proceedings of the 27th ACM InternationalConference on Multimedia.2019:774-783.
[2]Zhao B,Li X,Lu X.CAM-RNN:Co-attention model based RNN for videocaptioning[J].IEEE Transactions on Image Processing,2019,28(11):5552-5565.
[3]Chen S,Chen J,Jin Q,et al.Video captioning with guidance ofmultimodal latent topics[C]//Proceedings of the 25th ACM internationalconference on Multimedia.2017:1838-1846.
[4]Zhou L,KalantidisY,Chen X,et al.Grounded video description[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2019:6578-6587.
[5]Zhang Z,ShiY,Yuan C,et al.Object relational graph with teacher-recommended learning for video captioning[C]//Proceedings of the IEEE/CVFconference on computer vision and pattern recognition.2020:13278-13288.
[6]Xiao X,Wang L,Fan B,et al.Guiding the Flowing of Semantics:Interpretable Video Captioning via POS Tag[C]//Proceedings of the2019Conference on Empirical Methods in Natural Language Processing and the9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP).2019:2068-2077.
[7]Hou J,Wu X,ZhaoW,et al.Joint syntax representation learning andvisual cue translation for video captioning[C]//Proceedings of the IEEE/CVFInternational Conference on Computer Vision,2019:8918-8927,
[8]Zellers R,Yatskar M,Thomson S,et al.Neural motifs:Scene graphparsing with global context[C]//Proceedings of the IEEE Conference 0nComputer Vision and Pattern Recognition.2018:5831-5840.
发明内容
为了解决上述问题,实现准确或可控且多样的视频描述生成,需要对跨模态语义进行充分的学习。首先,选择细粒度的结构性语义表示,然后,从视频中抽取并优化细粒度结构性语义表示,充分利用结构性语义表示来生成可控的文本,并在使用结构性语义表示时保证生成模型的准确性。
本发明提供一种生成视频描述的方法,包括:
S1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性;
S2、通过细粒度场景图优化器,将初步提取的实体、关系和属性转化为优化场景图,将优化场景图作为视频语义及其结构的表示;
S3、将视频和优化场景图输入场景图引导文本生成模型,生成符合视频和场景图内容的文本;场景图为准确场景图时,生成准确的视频描述,场景图为多样场景图时,生成多样可控的视频描述。
进一步地,所述细粒度场景图优化器的训练方法包括:
S11、从训练集中提取视频帧序列以及对应的视频文本描述;
S12、使用所述开源的预训练场景图生成模型从视频帧中提取实体O、实体区域特征Fr、关系R和属性A;
S21、使用斯坦福的场景图解析工具从视频文本描述中提取文本场景图,并将其和所述实体O、关系R和属性A进行对比,保留共同的部分,得到对齐场景图SG;
S22、细粒度场景图优化器包括多个跨模态分类器,将视频帧序列与所述实体O、关系R和属性A输入所述多个跨模态分类器,将对齐场景图SG的节点作为分类器的训练目标,使用反向传播算法训练所述多个跨模态分类器,从而得到所述细粒度场景图优化器;
S23、使用细粒度场景图优化器对上述实体O关系R和属性A进行分类并优化节点,将优化节点合并得到优化场景图,其中,以视频单帧为输入得到的场景图为多样场景图SGi,以视频帧序列作为输入提取的场景图为准确场景图SGg
进一步地,在所述步骤S2中,以视频单帧为输入得到的优化场景图为多样场景图SGi,以视频帧序列作为输入得到的优化场景图为准确场景图SGg
进一步地,所述步骤S22中,所述场景图优化器的训练公式为:
V=BiLSTM(F)
Figure GDA0003510027720000041
Figure GDA0003510027720000042
Figure GDA0003510027720000043
其中,X为所述多个跨模态分类器的输入,其中实体分类器的输入为实体的word2vec向量Embedding(O||Fr),实体组合分类器的输入为Embedding(O1||O2),关系分类器的输入为Embedding(O1||R||O2),属性分类器的输入为Embedding(O||A);Y为分类器的标注数据,若输入X出现在对齐场景图SG中,则标注为1,否则标注为O;σ为sigmoid激活函数;
Figure GDA0003510027720000044
表示逐元素相乘,
Figure GDA0003510027720000045
表示逐元素相加,||表示向量串联;
Figure GDA0003510027720000046
为所述多个跨模态分类器的参数集合。
进一步地,在所述步骤S3中,所述场景图引导文本生成模型的训练方法包括:
S31、使用图卷积网络GCN对准确场景图SGg的图节点x进行编码计算,得到图节点编码
Figure GDA0003510027720000051
并构造准确场景图的邻接矩阵Mg,其中Ng为图节点数量;
S32、通过预训练的视频编码器对视频帧序列进行编码,得到视频帧向量
Figure GDA0003510027720000052
S33、使用序列模型LSTM分步循环生成文本,每一步代表一个词,当生成第t个词wt时(t∈[1,Nw]),首先将上一步的词wt-1输入到注意力解码器Attention LSTM进行解码,并对视频帧向量序列V应用时序注意力,对图节点序列N及邻接矩阵Mg应用场景图流动注意力,得到视频帧与图节点的上下文向量
Figure GDA0003510027720000053
Figure GDA0003510027720000054
S34、使用上下文融合模块计算视频与场景图两种不同输入的权重,并对两个来自不同输入的上下文向量进行加权求和,得到最终的上下文向量Ct
S35、使用文本解码器Language LSTM对上下文向量Ct进行解码,并根据概率分布得到当前步的文本wt,通过反向传播算法训练场景图引导文本生成模型。
进一步地,所述步骤S31中,所述图卷积网络的计算公式为:
对于输入节点xi
Figure GDA0003510027720000055
Figure GDA0003510027720000056
其中,σ为ReLU激活函数,Ni为节点xi在场景图中的邻居节点数。
进一步地,所述步骤S33中,所述注意力解码器和时序注意力的计算公式为:
Figure GDA0003510027720000057
Figure GDA0003510027720000058
Figure GDA0003510027720000059
其中,
Figure GDA00035100277200000510
为视频向量V和图节点编码N的平均值。
进一步地,在步骤S33中,为每个场景图标注起始节点,在每次生成的起始时刻将起始图节点注意力赋为1,其余节点赋为0,在之后的生成过程中,节点的变化可分为5种情况,对应5种不同的流动注意力
Figure GDA0003510027720000061
(1)原地不动,一个节点对应多个词语的情况,
Figure GDA0003510027720000062
(2)移动一步,节点向前移动一步,
Figure GDA0003510027720000063
(M为邻接矩阵);
(3)移动两步,节点向前移动两步,
Figure GDA0003510027720000064
(4)移动三步,节点向前移动三步,
Figure GDA0003510027720000065
(5)节点无关,当前词语与节点内容无关,则使用常规方法计算注意力
Figure GDA0003510027720000066
以下为图节点流动注意力的计算公式:
Figure GDA0003510027720000067
Figure GDA0003510027720000068
Figure GDA0003510027720000069
其中,
Figure GDA00035100277200000610
代表5种不同情况的流动注意力。
进一步地,所述步骤S34中,所述计算权重的公式为:
Figure GDA00035100277200000611
Figure GDA00035100277200000612
其中,βt为多模态融合权重,Ct为多模态上下文向量,。
进一步地,所述步骤S35中,所述文本解码器的文本生成计算公式为:
Figure GDA00035100277200000613
其中,Language LSTM通过下式生成当前步的词概率分布:
Figure GDA00035100277200000614
所述反向传播算法的损失函数为:
Figure GDA00035100277200000615
其中,θ为场景图引导文本生成模型的参数集合。
本发明所述的一种视频描述方法,具有如下有益效果:
(1)本发明采用场景图作为视频描述中视频与文本两种模态的中间表示,有利于缓解两种模态在表示空间的差异性。
(2)本发明根据准确生成与可控生成的需求,设计了一种细粒度的场景图优化器以及场景图引导的文本生成模型。
(3)本发明在特定数据集上能够做到准确生成,生成结果的自动评估指标可以超过视频描述任务的基准模型。
(4)本发明可以在准确生成的基础上做到可控生成,在实际应用中,用户可以根据视频中感兴趣的实体或关系构造场景图,并利用该模型生成针对特定语义内容的视频描述。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为根据本发明一个实施例的生成视频准确描述与可控描述的示意图;
图2为根据本发明一个实施例的方法框架概览;
图3为根据本发明一个实施例的实体分类器的结构示意图;
图4为根据本发明一个实施例的模型结构流程图;
图5为根据本发明一个实施例的流注意力模块示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清查、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明使用细粒度场景图对视频中重要的语义信息做结构化表示,通过细粒度场景图优化器从视频中得到场景图,并利用场景图引导的文本生成模型充分学习场景图的语义与结构信息,辅助视频生成文本。通过该方法,用户可以使用细粒度场景图优化器得到包含视频描述数据集内容的场景图,从而得到与该数据集相符的准确文本。也可以选取视频中的实体、关系与属性,自行构造场景图,然后通过该方法,得到符合用户描述意图的多样文本,如图1所示。
场景图(Scene Graph)是一种包含三种节点(实体、实体间的关系、实体的属性)的图结构,节点之间通过有向或无向边进行连接。从视频(图像)与文本两种模态中都可以方便地得到场景图,它不仅能够表示两种模态中丰富的语义信息(实体,关系,属性),还可以通过连接节点来表示语义间的结构信息。基于场景图的优良特性,我们将场景图作为中间表示加入了视频描述模型(即场景图引导的文本生成模型)。
如图2所示,本发明提供一种生成视频文本的方法,并对视频描述数据集Charades进行了训练,该方法包括如下步骤:
S1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性;
S2、通过细粒度场景图优化器,将初步提取的实体、关系和属性转化为场景图,将场景图作为视频语义及其结构的表示;
S3、将视频和场景图输入场景图引导文本生成模型,生成符合视频和场景图内容的文本。如果场景图为准确场景图,生成准确的视频描述;如果场景图为多样场景图,生成多样可控的视频描述。
其中,步骤S1包括:
S11、从视频描述数据集中采样视频帧序列
Figure GDA0003510027720000081
以及对应的视频文本描述
Figure GDA0003510027720000082
其中Nv是接收的视频帧数量,Nw是句子中的词数。
S12、使用开源预训练场景图生成模型从视频帧中提取实体O、实体区域特征Fr、关系R和属性A。优选的,采用目前最为常用的开源预训练场景图生成模型motifs[8]作为预训练模型。
场景图生成(Scene Graph Generation,SGG)任务的输入是单个或多个图片,输出是匹配分值较高的前k(可调节的参数)个实体节点、关系节点以及属性节点,将这些节点进行合并组合,就可以得到完整的场景图。在实际应用中,比如,在Visual Genome数据集上(Visual Genome数据集里的每一张图片,收集了图片中不同区域的42种描述,提供了更加密集和完全的图像描述。这样,一张图像上就会存在丰富的注释描述)通过预训练场景图模型motifs从视频中提取场景图,会发现其噪声较大,生成的场景图与视频描述数据集Charades(这个数据集包括了9848个标注过的视频,每个视频都大概持续30秒,展示了三个大洲的267个不同的人的行为,超过15%的视频里出现的人数都大于1。每个视频都被不限形式的文本描述,并且还有动作标签,动作间隔,动作种类以及交互的物体)中的文本相差较大,无法用于生成准确的视频描述。在计算机视觉中,预训练数据与实际任务数据往往存在较大的偏差,在视频描述的场景下,预训练场景图模型不足以支撑视频描述数据集的准确场景图生成。因此,本发明设计了细粒度场景图优化器,来对预训练模型生成的场景图进行优化,使其可以用于特定数据的文本生成。
因此,在步骤S2中,细粒度场景图优化器将S1中提出的实体O、关系R、属性A等语义信息进行逐级优化,最终得到优化场景图,包括多样场景图SGi与准确场景图SGg。具体步骤包括:
S21、使用斯坦福的场景图解析工具从视频文本描述
Figure GDA0003510027720000091
中提取文本场景图,并将其和所述实体O、关系R和属性A进行对比,保留共同的部分,得到对齐场景图SG;
S22、细粒度场景图优化器包括多个跨模态分类器,将视频帧序列与所述实体O、关系R和属性4输入所述多个跨模态分类器,将对齐场景图SG的节点作为分类器的训练目标,使用反向传播算法训练所述多个跨模态分类器,从而得到所述细粒度场景图优化器;
S23、使用细粒度场景图优化器对上述实体O关系R和属性A进行分类,选择分类概率较高的前k(设置为10)个节点作为优化节点,最终将优化节点合并得到优化场景图,其中,以视频单帧为输入得到的场景图为多样场景图SGi,以视频帧序列作为输入提取的场景图为准确场景图SGg
其中,细粒度场景图优化器包括多个跨模态分类器,将视频帧序列与所述实体O、关系R和属性A输入所述多个跨模态分类器,将对齐场景图SG的节点作为分类器的训练目标,使用反向传播算法训练所述多个跨模态分类器,从而得到所述细粒度场景图优化器。
具体来说,各分类器的训练,使用对齐场景图与视频场景图节点自动标注各分类器的标签(label),在实体分类器中,若预训练场景图中的实体出现在对齐场景图中,则标注为1,否则为0。在实体组合分类器中,若实体组合出现在对应的对齐场景图中,则标注为1,否则为0。在关系分类器中,若实体组合与关系标签组成的三元组出现在对应的对齐场景图中,则标注为1,否则为0;在属性分类器中,若给定的实体与属性标签组成的二元组出现在对应的对齐场景图中,则标注为1,否则为0。将各分类器的标注数据记为Y。
实体分类器、实体组合分类器、关系分类器、属性分类器的计算与训练方法与实体分类器大致相同,不同之处在于处理多个语义标签时,会对其词向量进行串联。下面以实体分类器为例进行介绍。
如图3所示,实体分类器的输入是视频场景图中包含的Nv个含噪声的实体类别标签O,实体区域特征Fr,以及视频帧序列特征F,我们用双向LSTM对F进行编码得到视频向量V,将Fr与节点的词向量Embedding(O)串联并经过线性层得到与V维度相同的实体向量X。之后,用多模态处理单元MPU(Multi-modal Process Unit)对X与V进行计算处理,并通过多前馈神经网络FNN与sigmoid函数得到每个实体Object的概率值
Figure GDA0003510027720000101
Figure GDA0003510027720000102
与标签数据Y使用二元分类loss进行训练。具体公式如下:
V=BiLSTM(F)
Figure GDA0003510027720000103
Figure GDA0003510027720000104
Figure GDA0003510027720000105
其中,X为不同分类器的输入,其中实体分类器的输入为实体的word2vec向量Embedding(O||Fr),实体组合分类器的输入为Embedding(O1||O2),关系分类器的输入为Embedding(O1||R||O2),属性分类器的输入为Embedding(O||A);Y为分类器的标注数据,若输入X出现在对齐场景图SG中,则标注为1,否则标注为0;σ为sigmoid激活函数;
Figure GDA0003510027720000111
表示逐元素相乘,
Figure GDA0003510027720000112
表示逐元素相加,||表示向量串联;
Figure GDA0003510027720000113
为所述多个跨模态分类器的参数集合。
使用训练好的跨模态分类器对节点进行分类,选择分类概率较高的前k(设置为10)个节点作为优化节点,将重复的优化节点进行合并得到优化场景图,其中,以视频单帧为输入得到的场景图为多样场景图SGi,以视频帧序列作为输入提取的场景图为准确场景图SGg
在步骤S3中,如图4所示,场景图引导生成模型包括视频编码器、场景图编码器、时序注意力、流动注意力、注意力解码器、上下文融合模块与文本解码器。使用准确场景图SGg训练场景图引导文本生成模型,具体训练方法包括:
S31、使用图卷积网络GCN对准确场景图SGg的图节点x(包括O、R、A节点)进行编码计算,得到图节点编码
Figure GDA0003510027720000114
并构造场景图的邻接矩阵Mg,其中Ng为图节点数量;
S32、通过视频编码器(双向长短时记忆网络Bi-LSTM)对准确场景图对应的视频帧序列进行编码,得到视频帧向量
Figure GDA0003510027720000115
S33、使用序列模型LSTM分步循环生成文本,每一步代表一个词,当生成第t个词wt时(t∈[1,Nw]),首先将上一步的词wt-1输入到注意力解码器Attention LSTM进行解码,并对视频帧向量序列V应用时序注意力,对图节点序列N及邻接矩阵Mg应用场景图流动注意力,得到视频帧与图节点的上下文向量
Figure GDA0003510027720000116
Figure GDA0003510027720000117
S34、使用上下文融合模块计算视频与场景图两种不同输入的权重,并对两个来自不同输入的上下文向量进行加权求和,得到最终的上下文向量Ct
S35、使用文本解码器Language LSTM,对上下文向量Ct进行解码,并根据概率分布得到当前步的文本wt,通过反向传播算法训练场景图引导文本生成模型。
在步骤S31中,所述图卷积网络的计算公式为:
对于某输入节点xi
Figure GDA0003510027720000121
Figure GDA0003510027720000122
其中,σ为ReLU激活函数,Ni为节点xi在场景图中的邻居节点数。
在步骤S33中,序列模型LSTM指通用的文本生成序列模型LSTM(LSTM在生成文本时,从第一个词到最后一个词逐步生成),就是从注意力LSTM到语言Language LSTM,从wt-1到wt的文本生成模型。
首先将视频V与节点N输入注意力解码器,其次,生成模型对视频编码应用时序注意力(Temporal Attention),对图节点编码应用流动注意力(Flow Attention),使用两种注意力网络得到上下文向量(context vector)生成文本。
注意力解码器计算公式为:
Figure GDA0003510027720000123
其中,
Figure GDA0003510027720000124
为V和N的平均值。
通过以下公式得到时序注意力及视频上下文向量:
Figure GDA0003510027720000125
Figure GDA0003510027720000126
为了更好地挖掘与应用场景图中的结构信息,本发明设计了流动注意力对其进行编码,我们为每个场景图标注了起始节点,在每次生成的起始时刻将起始图节点注意力赋为1,其余节点赋为0,在之后的生成过程中,节点的变化可分为5种情况,如图5所示:
(6)原地不动,一个节点对应多个词语的情况,
Figure GDA0003510027720000127
(7)移动一步,节点向前移动一步,
Figure GDA0003510027720000128
(M为邻接矩阵);
(8)移动两步,节点向前移动两步,
Figure GDA0003510027720000129
(9)移动三步,节点向前移动三步,
Figure GDA00035100277200001210
(10)节点无关,当前词语与节点内容无关,则使用常规方法计算注意力
Figure GDA0003510027720000131
以下为图节点流动注意力的计算公式:
Figure GDA0003510027720000132
Figure GDA0003510027720000133
Figure GDA0003510027720000134
在步骤S34中,上下文融合模块用于对视频两种不同输入的上下文向量进行加权求和,得到最终的上下文向量Ct
Figure GDA0003510027720000135
Figure GDA0003510027720000136
在步骤S35中,将上下文向量输入文本解码器模块,逐词生成视频描述的文本:
Figure GDA0003510027720000137
Figure GDA0003510027720000138
Figure GDA0003510027720000139
其中,θ为场景图引导生成模型的参数集合,即图卷积网络、视频编码器、序列模型LSTM、上下文融合模块和文本解码器Language LSTM的参数。
用目前流行的pytorch深度学习框架实现细粒度场景图优化器
Figure GDA00035100277200001310
(包括步骤S21-S23)与场景图引导文本生成模型Pθ(包括步骤S31-S35),并使用Adam优化器更新模型参数,在视频描述数据集Charades进行实验。
本发明以场景图作为视频与文本模态的中间表示,相比传统端到端方法[1][2]与基于主体模型的方法[3],本方法能够捕捉到视频中的丰富语义信息,避免视频描述中的信息匮乏,能够生成更为准确的视频描述。本方法用图引导文本生成模型实现了对场景图语义信息与结构信息的充分建模,相比方法[4][5]的实体及实体关系更能挖掘视频中的动作信息,并针对视频中不同的场景实现可控多样视频描述。本方法用细粒度的场景图优化器实现了从视频到场景图的准确生成,并对场景图进行细粒度编码与解码,生成的视频描述与输入的场景图内容符合,相比方法[6][7]中的词性标注更具有可解释性与可应用性(相比词性标注,基于语义信息的视频描述的可控生成更符合实际应用场景)。
应用场景:用户希望根据自己关注的人物或内容,为视频生成个性化的描述或标题,用户可以根据自行选择视频中的对象,关系或属性,也可以对我们提供的参考场景图进行自由编辑,我们的模型可以根据用户意图构建场景图,并根据场景图生成与用户描述意图相符的视频描述或标题。
功能特性:用户对场景图的构建与编辑是一个灵活且直观的过程,场景图可以对视频与文本两种模态的丰富语义信息进行连通。
本领域普通技术人员可以理解:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (9)

1.一种生成视频描述的方法,其特征在于,所述方法包括:
S1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性;
S2、通过细粒度场景图优化器,将初步提取的实体、关系和属性转化为优化场景图,将优化场景图作为视频语义及其结构的表示;
S3、将视频和优化场景图输入场景图引导文本生成模型,生成符合视频和场景图内容的文本;场景图为准确场景图时,生成准确的视频描述,场景图为多样场景图时,生成多样可控的视频描述;
所述细粒度场景图优化器的训练方法包括:
S11、从训练集中提取视频帧序列以及对应的视频文本描述;
S12、使用所述开源的预训练场景图生成模型从视频帧中提取实体O、实体区域特征Fr、关系R和属性A;
S21、使用斯坦福的场景图解析工具从视频文本描述中提取文本场景图,并将其和所述实体O、关系R和属性A进行对比,保留共同的部分,得到对齐场景图SG;
S22、细粒度场景图优化器包括多个跨模态分类器,将视频帧序列与所述实体O、关系R和属性A输入所述多个跨模态分类器,将对齐场景图SG的节点作为分类器的训练目标,使用反向传播算法训练所述多个跨模态分类器,从而得到所述细粒度场景图优化器。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2还包括:
S23、使用细粒度场景图优化器对上述实体O关系R和属性A进行分类并优化节点,将优化节点合并得到优化场景图,其中,以视频单帧为输入得到的场景图为多样场景图SGi,以视频帧序列作为输入提取的场景图为准确场景图SGg
3.根据权利要求1所述的方法,其特征在于,所述步骤S22中,所述场景图优化器的训练公式为:
V=BiLSTM(F)
Figure FDA0003510027710000011
Figure FDA0003510027710000012
Figure FDA0003510027710000021
其中,X为所述多个跨模态分类器的输入,其中实体分类器的输入为实体的word2vec向量Embedding(O||Fr),实体组合分类器的输入为Embedding(O1||O2),关系分类器的输入为Embedding(O1||R||O2),属性分类器的输入为Embedding(O||A);Y为分类器的标注数据,若输入X出现在对齐场景图SG中,则标注为1,否则标注为0;σ为sigmoid激活函数;
Figure FDA0003510027710000022
表示逐元素相乘,
Figure FDA0003510027710000023
表示逐元素相加,||表示向量串联;
Figure FDA0003510027710000024
为所述多个跨模态分类器的参数集合;Ng为图节点数量。
4.根据权利要求1所述的方法,其特征在于,在所述步骤S3中,所述场景图引导文本生成模型的训练方法包括:
S31、使用图卷积网络GCN对准确场景图SGg的图节点x进行编码计算,得到图节点编码
Figure FDA0003510027710000025
并构造准确场景图的邻接矩阵Mg,其中Ng为图节点数量;
S32、通过预训练的视频编码器对视频帧序列进行编码,得到视频帧向量
Figure FDA0003510027710000026
S33、使用序列模型LSTM分步循环生成文本,每一步代表一个词,当生成第t个词wt时,t∈[1,Nw],首先将上一步的词wt-1输入到注意力解码器Attention LSTM进行解码,并对视频帧向量序列V应用时序注意力,对图节点序列N及邻接矩阵Mg应用场景图流动注意力,得到视频帧与图节点的上下文向量
Figure FDA0003510027710000027
Figure FDA0003510027710000028
S34、使用上下文融合模块计算视频与场景图两种不同输入的权重,并对两个来自不同输入的上下文向量进行加权求和,得到最终的上下文向量Ct
S35、使用文本解码器Language LSTM对上下文向量Ct进行解码,并根据概率分布得到当前步的文本wt,通过反向传播算法训练场景图引导文本生成模型。
5.根据权利要求4所述的方法,其特征在于,所述步骤S31中,所述图卷积网络的计算公式为:
对于输入节点xi
Figure FDA0003510027710000029
Figure FDA0003510027710000031
其中,σ为ReLU激活函数,Ni为节点xi在场景图中的邻居节点数。
6.根据权利要求4所述的方法,其特征在于,所述步骤S33中,所述注意力解码器和时序注意力的计算公式为:
Figure FDA0003510027710000032
Figure FDA0003510027710000033
Figure FDA0003510027710000034
其中,
Figure FDA0003510027710000035
为视频向量V和图节点编码N的平均值。
7.根据权利要求6所述的方法,其特征在于,在步骤S33中,为每个场景图标注起始节点,在每次生成的起始时刻将起始图节点注意力赋为1,其余节点赋为0,在之后的生成过程中,节点的变化可分为5种情况,对应5种不同的流动注意力
Figure FDA0003510027710000036
(1)原地不动,一个节点对应多个词语的情况,
Figure FDA0003510027710000037
(2)移动一步,节点向前移动一步,
Figure FDA0003510027710000038
M为邻接矩阵;
(3)移动两步,节点向前移动两步,
Figure FDA0003510027710000039
(4)移动三步,节点向前移动三步,
Figure FDA00035100277100000310
(5)节点无关,当前词语与节点内容无关,则使用常规方法计算注意力
Figure FDA00035100277100000311
以下为图节点流动注意力的计算公式:
Figure FDA00035100277100000312
Figure FDA00035100277100000313
Figure FDA00035100277100000314
其中,
Figure FDA00035100277100000315
代表5种不同情况的流动注意力。
8.根据权利要求4所述的方法,其特征在于,所述步骤S34中,所述计算视频与场景图两种不同输入的权重的公式为:
Figure FDA00035100277100000316
Figure FDA00035100277100000317
其中,βt为多模态融合权重,Ct为多模态上下文向量。
9.根据权利要求4所述的方法,其特征在于,所述步骤S35中,所述文本解码器的文本生成计算公式为:
Figure FDA0003510027710000041
其中,Language LSTM通过下式生成当前步的词概率分布:
Figure FDA0003510027710000042
所述反向传播算法的损失函数为:
Figure FDA0003510027710000043
其中,θ为场景图引导文本生成模型的参数集合。
CN202110854988.8A 2021-07-28 2021-07-28 一种生成视频描述的方法 Active CN113553445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110854988.8A CN113553445B (zh) 2021-07-28 2021-07-28 一种生成视频描述的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110854988.8A CN113553445B (zh) 2021-07-28 2021-07-28 一种生成视频描述的方法

Publications (2)

Publication Number Publication Date
CN113553445A CN113553445A (zh) 2021-10-26
CN113553445B true CN113553445B (zh) 2022-03-29

Family

ID=78104714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110854988.8A Active CN113553445B (zh) 2021-07-28 2021-07-28 一种生成视频描述的方法

Country Status (1)

Country Link
CN (1) CN113553445B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453120B (zh) * 2023-04-19 2024-04-05 浪潮智慧科技有限公司 基于时序场景图注意力机制的图像描述方法、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置
WO2020190112A1 (en) * 2019-03-21 2020-09-24 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data
CN111723937A (zh) * 2019-03-21 2020-09-29 北京三星通信技术研究有限公司 多媒体数据的描述信息的生成方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110418210B (zh) * 2019-07-12 2021-09-10 东南大学 一种基于双向循环神经网络和深度输出的视频描述生成方法
CN111160037B (zh) * 2019-12-02 2021-10-26 广州大学 一种支持跨语言迁移的细粒度情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020190112A1 (en) * 2019-03-21 2020-09-24 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data
CN111723937A (zh) * 2019-03-21 2020-09-29 北京三星通信技术研究有限公司 多媒体数据的描述信息的生成方法、装置、设备及介质
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置

Also Published As

Publication number Publication date
CN113553445A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
Saunders et al. Progressive transformers for end-to-end sign language production
CN108388900B (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
Cihan Camgoz et al. Subunets: End-to-end hand shape and continuous sign language recognition
Shi et al. American sign language fingerspelling recognition in the wild
Li et al. Residual attention-based LSTM for video captioning
CN112148888A (zh) 基于图神经网络的知识图谱构建方法
CN109829499B (zh) 基于同一特征空间的图文数据融合情感分类方法和装置
Elakkiya et al. Subunit sign modeling framework for continuous sign language recognition
Papalampidi et al. Movie summarization via sparse graph construction
CN115293348A (zh) 一种多模态特征提取网络的预训练方法及装置
CN113449801A (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
Koishybay et al. Continuous sign language recognition with iterative spatiotemporal fine-tuning
CN113553445B (zh) 一种生成视频描述的方法
Estevam et al. Dense video captioning using unsupervised semantic information
CN114943921A (zh) 一种融合多粒度视频语义信息的视频文本描述方法
Bie et al. RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model
CN117313709B (zh) 一种基于统计信息和预训练语言模型的生成文本检测方法
Guo et al. Continuous Sign Language Recognition Based on Spatial-Temporal Graph Attention Network.
Fan et al. Movie recommendation based on visual features of trailers
CN111259197A (zh) 一种基于预编码语义特征的视频描述生成方法
CN113722536B (zh) 基于双线性自适应特征交互与目标感知的视频描述方法
Zhou et al. Joint scence network and attention-guided for image captioning
CN114386412A (zh) 一种基于不确定性感知的多模态命名实体识别方法
Mishra et al. Environment descriptor for the visually impaired

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant