CN110826397B - 一种基于高阶低秩多模态注意力机制的视频描述方法 - Google Patents

一种基于高阶低秩多模态注意力机制的视频描述方法 Download PDF

Info

Publication number
CN110826397B
CN110826397B CN201910891869.2A CN201910891869A CN110826397B CN 110826397 B CN110826397 B CN 110826397B CN 201910891869 A CN201910891869 A CN 201910891869A CN 110826397 B CN110826397 B CN 110826397B
Authority
CN
China
Prior art keywords
video
description
modal
features
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910891869.2A
Other languages
English (en)
Other versions
CN110826397A (zh
Inventor
金涛
李英明
张仲非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910891869.2A priority Critical patent/CN110826397B/zh
Publication of CN110826397A publication Critical patent/CN110826397A/zh
Application granted granted Critical
Publication of CN110826397B publication Critical patent/CN110826397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于高阶低秩多模态注意力机制的视频描述方法,用于为给定视频片段生成简短准确的描述。具体包括如下步骤:获取用于训练视频描述生成模型的视频数据集,并定义算法目标;对视频数据集中的时序多模态特征建模;基于时序多模态特征在解码器上建立高阶低秩多模态注意力机制;使用所述模型生成输入视频的描述。本发明适用于真实视频场景的视频描述生成,面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于高阶低秩多模态注意力机制的视频描述方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于高阶低秩多模态注意力机制的视频描述方法。
背景技术
在现今社会,视频变成了人类社会不可或缺的一部分,可以说无处不在。这样的环境使得人们对于视频语义内容的研究也得到了很大的发展,目前对于视频的大多数研究主要集中在较低层次,比如分类,检测等。得益于循环神经网络的发展,视频描述生成这个新的任务也映入了人们的眼帘。给定一个视频片段,使用经过训练得到的网络模型,自动为视频片段生成一句描述。其在现实社会的应用也很广泛,比如,YouTube上每分钟会产生大约100个小时的视频,如果产生的视频资源没有被很好地标记,那么这些资源就没法被充分的利用,所以视频描述对于网上视频的搜索和检索有着至关重要的作用。此外,视频描述也使得“盲人电影”有了很好的发展,让盲人也能“观看”电影。
现有的视频描述生成方法大都采用编码器-解码器结构,使用编码器提取视频数据的信息并转化为特征,使用解码器将特征解码为语句描述。对于视频数据,编码器一般使用卷积神经网络与循环神经网络相结合的形式,提取的特征为时序多模态特征。解码器一般使用单独的循环神经网络结合注意力机制,但目前的注意力机制都忽略了多模态特征之间的关联信息,这会对视频描述的精度产生影响。
发明内容
为解决上述问题,本发明提供了一种基于高阶低秩多模态注意力机制的视频描述生成方法,用于总结给定视频的主要内容并生成准确的描述。本发明的方法在模型的编码器阶段提取了时序多模态特征;在解码器阶段,为多种时序特征建立了相互关联的高阶低秩注意力机制。本方法充分利用了视频数据中的多种模态以及相互的关联信息,能够为待测视频生成更加准确的描述。
为实现上述目的,本发明的技术方案为:
一种基于高阶低秩多模态注意力机制的视频描述方法,包括以下步骤:
S1、获取用于训练模型的视频数据集,所述视频数据集包括多个样本视频,并定义算法目标;
S2、对所述视频数据集中每个样本视频的时序多模态特征建模,得到样本视频的时序多模态特征,包括图像特征,运动特征,和音频特征;
S3、通过所述时序多模态特征在解码器上建立高阶低秩多模态注意力机制,基于样本视频的特征建立描述生成模型;
S4、使用所述描述生成模型生成输入视频的描述。
进一步的,步骤S1中,所述的视频数据集包括样本视频集Xtrain以及人工标注的视频描述集Ytrain
定义算法目标为:给定样本视频x={x1,x2,…,xL},生成此视频的描述语句y={y1,y2,…,yN};其中,xl代表第l个视频块,每个视频块包含固定的视频帧数且可以有重叠,L代表总视频块数,yn代表描述语句的第n个单词,N代表描述语句长度。
进一步的,步骤S2具体包括:
S21、将样本视频的每一个视频块xl中的中心图像输入二维卷积神经网络,提取该视频块的图像特征F={f1,f2,…,fL};将每一个视频块xl输入三维深度卷积神经网络,得到该视频块的运动特征M={m1,m2,…,mL};将每一个视频块xl输入音频卷积神经网络,得到该视频块的音频特征S={s1,s2,…,sL};
S22、将提取的时序多模态特征输入由循环神经网络构成的解码器。
进一步的,步骤S3具体包括:
S31、根据循环神经网络的输出ht,对步骤S21中得到的时序多模态特征建立注意力机制,首先关联ht与所有特征,其中Wf,Uf,bf,Wm,Um,bm,Ws,Us,bs是训练变量:
f′t,i=tanh(Wfht+Uffi+bf) 公式(1)
m′t,j=tanh(Wmht+Ummj+bm) 公式(2)
s′t,k=tanh(Wsht+Ussk+bs) 公式(3)
进而得到F′t={f′t,1,f′t,2,…,f′t,L},M′t={m′t,1,m′t,2,…,m′t,L},S′t={s′t,1,s′t,2,…,s′t,L};
S32、根据得到的关联特征,计算图像特征各个时刻i的注意力权重:
Figure BDA0002208995380000031
Figure BDA0002208995380000032
其中wf,
Figure BDA0002208995380000033
是训练变量,R代表秩,⊙代表点乘;
之后,计算运动特征各个时刻j的注意力权重,其中wm,
Figure BDA0002208995380000034
是训练变量:
Figure BDA0002208995380000035
Figure BDA0002208995380000036
最后,计算音频特征各个时刻k的注意力权重,其中ws,
Figure BDA0002208995380000037
是训练变量:
Figure BDA0002208995380000038
Figure BDA0002208995380000039
S33、根据计算得到的注意力权重,计算各种特征的加权平均值
Figure BDA00022089953800000310
Figure BDA00022089953800000311
Figure BDA00022089953800000312
Figure BDA00022089953800000313
S34、使用步骤S31-S33中得到的所有信息预测每个时刻的单词概率分布pt
Figure BDA00022089953800000314
S35、使用N个时刻积累的交叉熵损失函数训练描述生成模型,
Figure BDA0002208995380000041
其中
Figure BDA0002208995380000042
代表t时刻正确单词的概率,使用Adam优化算法和反向传播算法在损失函数L下训练整个描述生成模型。
进一步的,步骤S4中,使用所述训练好的模型为输入视频生成描述。
本发明的基于高阶低秩多模态注意力机制的视频描述方法,相比于现有的视频描述生成方法,具有以下有益效果:
首先,本发明引入多种视频特征之间的关联信息在解码器上建立多模态注意力机制,各种特征之间可以提供互补信息。
其次,本发明引入了低秩版本的多模态注意力机制,使得训练的效率大大提升。
本发明的视频描述方法,在智能视频分析系统里具有良好的应用价值,能够有效提高视频描述生成的准确度。例如,在视频类网站里,本发明的视频描述生成方法可以快速和准确地为视频片段生成准确的描述,为用户快速搜索视频提供方便。
附图说明
图1为本发明的基于高阶低秩多模态注意力机制的视频描述方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,基于高阶低秩多模态注意力机制的视频描述生成方法,包括以下步骤:
首先,获取用于训练视频描述生成模型的视频数据集。其中,所述的视频数据集包括样本视频集Xtrain以及人工标注的视频描述集Xtrain
定义算法目标为:给定样本视频x={x1,x2,…,xL},生成此视频的描述语句y={y1,y2,…,yN};其中,xl代表第l个视频块,每个视频块包含固定的视频帧数且可以有重叠,L代表总视频块数,yn代表描述语句的第n个单词,N代表描述语句长度。
其次,对视频数据集中的时序多模态特征建模。具体的,其包括如下步骤:
第一步,将样本视频的每一个视频块xl中的中心图像输入二维卷积神经网络,提取该视频块的图像特征F={f1,f2,…,fL};将每一个视频块xl输入三维深度卷积神经网络,得到该视频块的运动特征M={m1,m2,…,mL};将每一个视频块xl输入音频卷积神经网络,得到该视频块的音频特征S={s1,s2,…,sL};
第二步,将提取的时序多模态特征输入由循环神经网络构成的解码器。
之后,基于时序多模态特征在解码器上建立注意力机制。具体包括:
第一步,根据循环神经网络的输出ht,对前面步骤中得到的时序多模态特征建立注意力机制,首先关联ht与所有特征,其中
Wf,Uf,bf,Wm,Um,bm,Ws,Us,bs是训练变量:
f′t,i=tanh(Wfht+Uffi+bf) 公式(1)
m′t,j=tanh(Wmht+Ummj+bm) 公式(2)
s′t,k=tanh(Wsht+Ussk+bs) 公式(3)
进而得到F′t={f′t,1,f′t,2,…,f′t,L},M′t={m′t,1,m′t,2,…,m′t,L},S′t={S′t,1,S′t,2,…,S′t,L};
第二步,根据得到的关联特征,计算图像特征各个时刻i的注意力权重:
Figure BDA0002208995380000051
Figure BDA0002208995380000052
其中wf,
Figure BDA0002208995380000053
是训练变量,R代表秩,⊙代表点乘;
之后,计算运动特征各个时刻j的注意力权重,其中wm,
Figure BDA0002208995380000061
是训练变量:
Figure BDA0002208995380000062
Figure BDA0002208995380000063
最后,计算音频特征各个时刻k的注意力权重,其中ws,
Figure BDA0002208995380000064
是训练变量:
Figure BDA0002208995380000065
Figure BDA0002208995380000066
第三步,根据计算得到的注意力权重,计算各种特征的加权平均值
Figure BDA0002208995380000067
Figure BDA0002208995380000068
Figure BDA0002208995380000069
Figure BDA00022089953800000610
第四步,使用前三步得到的所有信息预测每个时刻的单词概率分布pt
Figure BDA00022089953800000611
第五步,使用N个时刻积累的交叉熵损失函数训练描述生成模型,
Figure BDA00022089953800000612
其中
Figure BDA00022089953800000613
代表t时刻正确单词的概率,使用Adam优化算法和反向传播算法在损失函数L下训练整个神经网络。
最后,使用所述模型生成输入视频的描述。
上述实施例中,本发明的视频描述生成方法使用了多种视频特征之间的互补信息在解码器上建立了一种新的多模态注意力机制。最后,利用训练好的模型给未标记的视频生成描述。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种应用于未加工视频的视频描述生成方法算法。本发明引入多种视频特征之间的关联信息在解码器上建立了一种新的多模态注意力机制,从而使得视频描述生成更加详细与准确。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于高阶低秩多模态注意力机制的视频描述生成方法,其特征在于,包括以下步骤:
S1、获取用于训练视频描述生成模型的视频数据集,所述视频数据集包括多个样本视频,并定义算法目标;
S2、对所述视频数据集中每个样本视频的时序多模态特征建模,得到样本视频的时序多模态特征,包括图像特征,运动特征,和音频特征,具体包括:
S21、将样本视频的每一个视频块xl中的中心图像输入二维卷积神经网络,提取该视频块的图像特征F={f1,f2,...,fL};将每一个视频块xl输入三维深度卷积神经网络,得到该视频块的运动特征M={m1,m2,...,mL};将每一个视频块xl输入音频卷积神经网络,得到该视频块的音频特征S={s1,s2,...,sL};
S22、将提取的时序多模态特征输入由循环神经网络构成的解码器;
S3、通过所述时序多模态特征在解码器上建立高阶低秩多模态注意力机制,基于样本视频的特征建立描述生成模型,具体包括:
S31、根据循环神经网络的输出ht,对步骤S21中得到的时序多模态特征建立注意力机制,首先关联ht与所有特征,其中Wf,Uf,bf,Wm,Um,bm,Ws,Us,bs是训练变量:
f′t,i=tanh(Wfht+Uffi+bf) 公式(1)
m′t,j=tanh(Wmht+Ummj+bm) 公式(2)
s′t,k=tanh(Wsht+Ussk+bs) 公式(3)
进而得到F′t={f′t,1,f′t,2,...,f′t,L},M′t={m′t,1,m′t,2,...,m′t,L},S′t={s′t,1,s′t,2,...,s′t,L};
S32、根据得到的关联特征,计算图像特征各个时刻i的注意力权重:
Figure FDA0003633966990000011
Figure FDA0003633966990000012
其中wf
Figure FDA0003633966990000013
是训练变量,R代表秩,⊙代表点乘;
之后,计算运动特征各个时刻j的注意力权重,其中wm
Figure FDA0003633966990000021
是训练变量:
Figure FDA0003633966990000022
Figure FDA0003633966990000023
最后,计算音频特征各个时刻k的注意力权重,其中ws
Figure FDA0003633966990000024
是训练变量:
Figure FDA0003633966990000025
Figure FDA0003633966990000026
S33、根据计算得到的注意力权重,计算各种特征的加权平均值
Figure FDA0003633966990000027
Figure FDA0003633966990000028
Figure FDA0003633966990000029
Figure FDA00036339669900000210
S34、使用步骤S31-S33中得到的所有信息预测每个时刻的单词概率分布pt
Figure FDA00036339669900000211
S35、使用N个时刻积累的交叉熵损失函数训练描述生成模型,
Figure FDA00036339669900000212
其中
Figure FDA00036339669900000213
代表t时刻正确单词的概率,使用Adam优化算法和反向传播算法在损失函数L下训练整个描述生成模型;
S4、使用所述描述生成模型生成输入视频的描述。
2.如权利要求1所述的基于高阶低秩多模态注意力机制的视频描述生成方法,其特征在于,步骤S1中,所述的视频数据集包括样本视频集Xtrain以及人工标注的视频描述集Ytrain
定义算法目标为:给定样本视频x={x1,x2,...,xL},生成此视频的描述语句y={y1,y2,...,yN};其中,xl代表第l个视频块,每个视频块包含固定的视频帧数且可以有重叠,L代表总视频块数,yn代表描述语句的第n个单词,N代表描述语句长度。
CN201910891869.2A 2019-09-20 2019-09-20 一种基于高阶低秩多模态注意力机制的视频描述方法 Active CN110826397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910891869.2A CN110826397B (zh) 2019-09-20 2019-09-20 一种基于高阶低秩多模态注意力机制的视频描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910891869.2A CN110826397B (zh) 2019-09-20 2019-09-20 一种基于高阶低秩多模态注意力机制的视频描述方法

Publications (2)

Publication Number Publication Date
CN110826397A CN110826397A (zh) 2020-02-21
CN110826397B true CN110826397B (zh) 2022-07-26

Family

ID=69548180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910891869.2A Active CN110826397B (zh) 2019-09-20 2019-09-20 一种基于高阶低秩多模态注意力机制的视频描述方法

Country Status (1)

Country Link
CN (1) CN110826397B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112135200B (zh) * 2020-08-13 2022-07-08 南京众智未来人工智能研究院有限公司 一种针对压缩视频的视频描述生成方法
CN113822969B (zh) * 2021-09-15 2023-06-09 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767410B1 (en) * 2014-10-03 2017-09-19 Google Inc. Rank-constrained neural networks
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
WO2018124309A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Corporation Method and system for multi-modal fusion model
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9864912B2 (en) * 2016-03-30 2018-01-09 Nec Corporation Large margin high-order deep learning with auxiliary tasks for video-based anomaly detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767410B1 (en) * 2014-10-03 2017-09-19 Google Inc. Rank-constrained neural networks
WO2018124309A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Corporation Method and system for multi-modal fusion model
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Microphone array speech enhancement based on tensor filtering methods;Jing Wang.et.al;《China Communications》;IEEE;20180516;第15卷(第4期);第141-152页 *
高阶多数据集建模新方法与应用研究;李超;《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》;20180615(第06期);I136-15 *

Also Published As

Publication number Publication date
CN110826397A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN111488807B (zh) 基于图卷积网络的视频描述生成系统
KR101855597B1 (ko) 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법
CN108960063B (zh) 一种面向事件关系编码的视频中多事件自然语言描述方法
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN109919114A (zh) 一种基于互补注意力机制循环卷积解码的视频描述方法
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
Nian et al. Learning explicit video attributes from mid-level representation for video captioning
CN113963304B (zh) 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN110826397B (zh) 一种基于高阶低秩多模态注意力机制的视频描述方法
CN112100440A (zh) 视频推送方法、设备及介质
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN116939320A (zh) 一种生成式多模态互利增强视频语义通信方法
CN117521012A (zh) 基于多模态上下文分层分步对齐的虚假信息检测方法
CN112883229A (zh) 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置
CN106993240B (zh) 基于稀疏编码的多视频摘要方法
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
CN116644759B (zh) 语句中方面类别及其语义极性的提取方法和系统
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及系统
CN109800327A (zh) 一种基于多跳注意力的视频摘要方法
Zhao et al. Research on video captioning based on multifeature fusion
CN113204670A (zh) 一种基于注意力模型的视频摘要描述生成方法及装置
Abreu et al. A bimodal learning approach to assist multi-sensory effects synchronization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant