CN109344288A - 一种基于多模态特征结合多层注意力机制的结合视频描述方法 - Google Patents

一种基于多模态特征结合多层注意力机制的结合视频描述方法 Download PDF

Info

Publication number
CN109344288A
CN109344288A CN201811092609.0A CN201811092609A CN109344288A CN 109344288 A CN109344288 A CN 109344288A CN 201811092609 A CN201811092609 A CN 201811092609A CN 109344288 A CN109344288 A CN 109344288A
Authority
CN
China
Prior art keywords
feature
video
word
information
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811092609.0A
Other languages
English (en)
Other versions
CN109344288B (zh
Inventor
田玲
罗光春
惠孛
刘贵松
杨彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811092609.0A priority Critical patent/CN109344288B/zh
Publication of CN109344288A publication Critical patent/CN109344288A/zh
Application granted granted Critical
Publication of CN109344288B publication Critical patent/CN109344288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态特征结合多层注意力机制的结合视频描述方法,本发明首先统计描述语句中出现的单词,形成词汇表,并为每个词进行编号,方便进行向量表示。然后提取三种特征数据,包括语义属性特征、2D‑CNN提取的图像信息特征和3D‑CNN提取的视频运动信息特征,再通过多层注意力机制对其进行多模态数据动态融合,得到视觉信息,然后根据当前上下文,调整对视觉信息的使用;最后,根据当前上下文及视觉信息,生成视频描述的单词。本发明通过多层注意力机制对视频的多模态特征进行融合后,再基于此生成视频的语义描述,有效提升了视频描述的准确性。

Description

一种基于多模态特征结合多层注意力机制的结合视频描述 方法
技术领域
本发明属于视频描述领域,具体涉及一种基于多模态特征结合多层注意力机制的结合视频描述方法。
背景技术
目前,使用给视频产生描述语句的方案主要分为基于模版的语言方法和序列学习方法。
其中,基于模板的语言方法首先将每个句子片段(例如,主语,动词,宾语)与来自可视内容的检测到的单词对齐,然后用预定义语言模板生成高度依赖于句子模板的句子。使用此方法生成的句式单一,不能生成语言模版之外的语句。
而序列学习方法则是通过设计一个编码-解码网络,首先利用CNN(卷积神经网络)对视频进行编码,然后通过RNN(循环神经网络)对其进行解码产生描述语句,由于RNN本身的性质使得它十分适用于产生自然语言语句。目前,注意力机制已经被广泛应用到序列学习方法中,然而,目前对注意力机制的使用仅仅局限在对视频提取特征后的单一模态特征中,而忽略了视频本身的多模态特征,因此,也使得注意力机制未能有效使用。
发明内容
本发明的发明目的在于:针对上述存在的问题,提出了一种基于多模态特征结合多层注意力机制的结合视频描述方法,针对视频提取多模态数据特征并结合注意力机制进行多模态数据融合,生成语义描述。
本发明的基于多模态特征结合多层注意力机制的结合视频描述方法,包括下列步骤:
步骤1:数据预处理:
统计描述语句中出现的单词,形成词汇表,并为词汇表中的每个单词编号;
对每个单词进行编码,得到每个单词的二进制向量表示;
步骤2:提取多源数据特征:
通过二维卷积神经网络提取视频中的图像信息的特征,得到第一特征信息其中N1表示提取的图像信息的特征数量;
通过三维卷积神经网络提取视频中的运动信息的特征,得到第二特征信息其中N2表示提取的运动信息的特征数量;
提取视频中的视频语义属性的特征,得到第三特征信息其中N3表示提取的视频语义属性的特征数量;
其中,特征信息X∈{F,V,A}的各特征维度相同,即特征的特征维度相同,i1=1,…,N1,i2=1,…,N2,i3=1,…,N3
步骤3:通过多层注意力机制来进行多模态数据动态融合:
步骤301:采用注意力机制分别关注三类特征信息F、V和A,得到产生第t个单词时的关注后的特征信息F(t)、V(t)和A(t)
其中,t个时刻关注后的特征信息特征数N∈{N1,N2,N3},表示第i个特征Xi的当前注意力权重,且
t个时刻的注意力权重向量的计算方式为:α(t)=softmax(e(t)),其中e(t)表示通过LSTM网络的隐藏状态和特征信息X产生的未正规化权重,且e(t)=wX·tanh(WXh(t-1)+UXX+bX),其中wX、WX、UX和bX表示LSTM网络的输入为特征信息X时的网络参数,UX表示输入层到隐藏层的权重矩阵,WX表示隐藏层到隐藏层的权重矩阵,wX表示隐藏层到输出层的权重向量,bX表示偏置项,均通过网络训练得到,训练样本的特征信息对应特征信息X;h(t-1)表示LSTM网络在t-1时刻的隐藏状态;
步骤302:拼接三类特征信息F(t)、V(t)和A(t),得到特征拼接矩阵Fu=[F(t);V(t);A(t)];
计算通过LSTM网络的隐藏状态和特征拼接矩阵Fu产生的未正规化权重ε(t)=w·tanh(Wh(t-1)+UX+b),其中w、W、U和b表示LSTM网络的输入为Fu时的网络参数,U表示输入层到隐藏层的权重矩阵,W表示隐藏层到隐藏层的权重矩阵,w表示隐藏层到输出层的权重向量,b表示偏置项,均通过网络训练得到,训练样本的特征信息对应特征拼接矩阵Fu;h(t-1)表示LSTM网络在t-1时刻的隐藏状态;
基于当前正规化权重ε(t)计算各类特征的融合权重β(t)=softmax(ε(t));
基于各类特征的融合权重,对矩阵Fu按照特征维度进行加权融合,得到t个时刻的视觉信息
步骤4:根据公式Z(t)=γ(t)WzFu(t)+(1-γ(t))Uzh(t-1)对视觉信息进行调整,得到调整后的视觉信息Z(t)
其中,Wz表示对应的输入层到隐藏层的权重矩阵,Uz表示对应的隐藏层到隐藏层的权重矩阵;γ(t)表示自适应权重,即通过上下文信息确定的下一个单词所需要的视觉信息的权重,用公式可以表示为γ(t)=σ(Wqh(t-1)+bq),Wq表示权重矩阵,bq表示偏置项,σ()为sigmoid激活函数;其为对应的网络参数,基于训练得到,在实时计算自适应权重γ(t)时,Wq、bq可视为预设值;
步骤5:将调整后的视觉信息Z(t)与上一次产生的单词对应的向量y(t-1)输入到LSTM中,得到词汇表中每个词作为当前产生的单词的概率,选取概率最大的单词作为当前产生的单词(第t个单词),并判断当前产生的单词是否为结束符,若是,则终止,否则继续执行步骤3,产生下一个单词。
综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明通过多层注意力机制对视频的多模态特征进行融合后,再基于此生成视频的语义描述,以有效提升视频描述的准确性。
附图说明
图1为整个方法的架构示意图;
图2为采用注意力关注2D-CNN提取的特征示意图;
图3为视觉信息动态调整示意图;
图4为LSTM产生单词的网络结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
参见图1,本发明针对视频提取多模态数据特征并结合注意力机制进行多模态数据融合,生成语义描述的具体步骤如下:
S1.数据预处理。
对视频描述的语句的句子进行分词处理,并统计所有出现的单词,形成词汇表V;然后向词汇表V中加入单词<Start>和单词<End>作为句子的开始符和结束符;同时,在每个视频描述语句句首加入<Start>,句末加上<End>。
然后对每个单词进行编码,得到每个单词的二进制向量表示。即将每个单词以one-hot(一位有效编码)的形式来表示。例如,词汇表V的大小为Nvoc,则每个单词将给定一个编号,其编号范围为[0,Nvoc],对于编号为4的单词,其one-hot形式为:[0,0,0,0,1,0,…,0]。并将<Start>和<End>的编号分别指定为0和1。
S2.提取多源数据特征。
提取视频中图像信息的特征、视频中运动信息的特征以及视频语义属性的特征,每种特征的具体提取方案如下:
S21.提取图像信息特征:
对每个视频,只对每个视频的前部分帧图像进行图像信息特征提取。例如只对视频的前240帧图像提取图像信息特征;
从待处理的视频序列中挑选出一定数量的代表性帧,并将其输入到训练好的VGG(VisualGeometry Group)网络中进行图像信息特征提取,得到的图像信息特征即为2D-CNN提取的特征。
例如对待处理的视频序列进行等间距划分,每份取一帧图像,得到对应的代表性帧,优选为各代表性帧的帧间隔相同;
本具体实施方式中,采用的VGG网络是已经使用ImageNet ILSVCRC12数据集训练好的19层卷积神经网络,且使用第6个全连接层(fc6)的输出获得图像信息特征表示,即4096维特征表示。若设置代表性帧的帧数为24个,则最终获得24个4096维向量。
S22.提取视频的运动信息特征:
对每个视频,只对每个视频的前部分帧图像进行运动信息特征提取。
将待处理的视频序列均分为多个视频片段,再将每个视频片段输入到训练好的C3D网络(3维卷积网络)中提取视频的运动信息特征,得到的视频的运动信息特征即为3D-CNN提取的特征;
本具体实施方式中,采用的C3D网络是已经使用Sports-1M视频数据集训练好的模型,且从C3D网络的fc6层中获取4096维特征。即所获取的特征维度与步骤S21的相同。
若只考虑前240帧图像,并将每24帧作为一个视频片段,即可获得10个视频片段。将每个视频片段输入到C3D网络中提取特征,并且从C3D网络的fc6层中获取4096维特征。最终,获得10个4096为向量。
S23.提取语义属性特征;
首先,设置语义属性集合,即从惯用的图像数据集中选择出现最频繁前Q个单词作为从图像中学习的语义属性集合,本具体实施中,从微软COCO数据集选择出现最频繁的1000个单词作为从图像中学习的语义属性集合;
基于所述语义属性集合,对每个视频的前部分帧图像进行语义属性特征提取,得到每个视频的语义属性特征(MIL Model特征)。
本具体实施方式中,只考虑每个视频的前240帧图像,即在提取上述三种属于特征时,所提取的视频序列相同;然后再采用Pan提出的方法(具体可参考文献《Pan Y,Yao T,LiH,et al.Video captioning with transferred semantic attributes[C]//CVPR.2017》),提取视频的语义属性。
S3.通过多层注意力机制来进行多模态数据动态融合。
将步骤S2中2D-CNN提取的特征、3D-CNN提取的特征和提取的语义属性特征进行融合。具体步骤如下:
S31.通过注意力机制关注2D-CNN提取的特征;其过程如图2所示,假设2D-CNN提取的特征F为[F1,F2,…,Fn],其中n表示提取的特征数量,并假设在产生第t时刻(即产生第t个单词的时刻)的时候,其注意力权重则通过注意力机制关注后的特征为:
其中,F(t)表示在t时刻2D-CNN经过注意力机制关注后的特征。对于注意力权重其计算方式为,首先通过LSTM(Long Short-Term Memory,长短期记忆)网络的隐藏状态和2D-CNN的特征产生未正规化的权重:
其中,wf、Wf、Uf和bf为LSTM的网络参数,其中Uf表示输入层到隐藏层的权重矩阵,Wf表示隐藏层到隐藏层的权重矩阵,wf表示隐藏层到输出层的权重向量,f表示偏置项,均通过网络训练获得;h(t-1)为LSTM网络在t-1时刻的隐藏状态。
基于未正规化的权重通过其的归一化指数函数得到到注意力权重
S32.通过注意力机制关注3D-CNN提取的特征;其过程原理和步骤S31一样,首先假设通过3D-CNN提取的特征V为[V1,V2,…,Vn],在t时刻,其注意力权重则通过注意力关注之后的特征为:
类似的,其注意力权重的计算方式为首先计算未正规化的权重:
其中wv、Wv、Uv和bv是LSTM的网络参数,然后,通过softmax函数获得注意力权重:
S33.通过注意力机制关注语义属性;其过程原理和步骤S31亦相同,首先设语义属性A为[A1,A2,…,An],在t时刻,其注意力权重则通过注意力关注之后的特征为:
类似的,其注意力权重的计算方式为首先计算未正规化的权重:
其中wa、Wa、Ua和ba是LSTM的网络参数,然后,通过softmax函数获得注意力权重:
S34.将步骤S31获得的特征F(t)、步骤S32获得的特征V(t)和步骤S33获得的特征A(t)通过注意力机制进行动态融合。
首先将这三种特征进行拼接,得到Fu=[F(t);V(t);A(t)];
然后通过注意力权重将这三种特征进行融合:其中表示三种特征各自的融合权重,Fui表示各类对应的特征,即在特征维度上进行加权融合,每类特征的权重为
类似的,其注意力权重的计算方式为首先计算未正规化的权重:
ε(t)=w·tanh(Wh(t-1)+UFu+b)
其中w、W、U和b是LSTM的网络参数,然后通过softmax函数获得注意力权重:
β(t)=softmax(ε(t))
S4.调整视觉信息的使用。
步骤S34得到的结果Fu(t)为在产生第t个词时所需要的视觉信息,由于并不是所有的词均需要视觉信息来产生,因此,通过一个自适应权重来调节视觉信息的使用。其网络结构如图3所示,其具体步骤如下:
S41.获得自适应权重;通过上下文信息来决定下一个单词所需要的视觉信息的权重:
γ(t)=σ(Wqh(t-1)+bq)
其中,Wd和bd是网络的参数,即Wd表示隐藏层间权重矩阵,bd表示偏置项,σ是sigmoid激活函数。
S42.调整视觉信息及上下文;通过S41的权重调整视觉信息及上下文信息,具体实现为:
Z(t)=γ)t)WzFu(t)+(1-γ(t))Uzh(t-1)
其中,Wz和Uz是网络的参数,即对应的权重矩阵。
S5.产生一个单词。
将步骤S42得到的结果Z(t)和上一次产生的单词对应的向量y(t-1)输入到LSTM中产生下一个单词,如图4所示为LSTM网络架构,具体而言,通过在LSTM的输出加上softmax层得到对词汇表中每个词的概率,然后选取最大概率对应的词作为产生的词。其详细步骤为:
S51.更新遗忘门fg,更新公式为:
fg(t)=σ(Ufgh(t-1)+WfgZ(t)+Tfgy(t-1)+bfg)
S52.更新输入门ig和部分状态s,更新公式为:
ig(t)=σ(Uigh(t-1)+WigZ(t)+Tigy(t-1)+big)
s(t)=tanh(Ush(t-1)+WsZ(t)+Tsy(t-1)+bs)
S53.更新细胞状态C,更新公式为:
C(t)=C(t-1)⊙fg(t)+ig(t)⊙s(t)
S54.更新输出门og和输出h:
og(t)=σ(Uogh(t-1)+WogZ(t)+Togy(t-1)+bog)
h(t)=og(t)⊙tanh(C(t))
S55.将输出转化为词汇表中所有词的概率p(t),计算公式为:
p(t)=softmax(Wph(t)+bp)
其中,所有Wx、Ux、Wx和bx是LSTM网络中的参数,x是变量的下标,在上述公式中x可取的集合为{fg,ig,s,og,p};是LSTM网络中的参数的具体值基于训练得到,可实际运算处理时,可视为预设值。⊙表示逐元素相乘。
本具体实施方式中,对于LSTM网络,其隐藏层单元设置为512。例如,通过步骤S1所获得的单词表大小为100,并设这些单词的编号为0到99,<Start>和<End>的编号分别为0和1。而h(t)是一个512维的向量,为了通过该512维的向量产生单词表中每个词的概率,首先需要将维度统一。因此,首先通过参数Wp将h(t)转化为100维(即转化为和词汇表大小相同的维度);设pw=Wph(t)+bp,则此时的pw为100的向量,且其中的每一维的大小,代表着当前产生该维所对应的单词的“可能性”,这个“可能性”并不是概率,但是它标志着,若该某维的值大,则产生该维对应的单词的可能性大,反之则产生该维对应的单词的可能性小,最后,通过softmax函数将该“可能性”转换为概率。然后,选取概率最大的单词作为产生的单词。例如,若最后得到概率为:p(t)=[0.003,0.015,0.024,0.013,0.381,…,0.037,可以看到索引为4的维度对应的值为0.381,是p(t)中值最大的,因此,在词汇表中,索引为4的单词即为当前所产生的单词。
若本次产生的单词是<End>,则终止,否则进入步骤S3。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (3)

1.基于多模态特征结合多层注意力机制的结合视频描述方法,其特征在于,包括下列步骤:
步骤1:数据预处理:
统计描述语句中出现的单词,形成词汇表,并为词汇表中的每个单词编号;
对每个单词进行编码,得到每个单词的二进制向量表示;
步骤2:提取多源数据特征:
通过二维卷积神经网络提取视频中的图像信息的特征,得到第一特征信息其中N1表示提取的图像信息的特征数量;
通过三维卷积神经网络提取视频中的运动信息的特征,得到第二特征信息其中N2表示提取的运动信息的特征数量;
提取视频中的视频语义属性的特征,得到第三特征信息其中N3表示提取的视频语义属性的特征数量;
其中,三类特征信息中的各特征的特征维度相同;
步骤3:通过多层注意力机制来进行多模态数据动态融合:
步骤301:采用注意力机制分别关注三类特征信息F、V和A,得到当前关注后的特征信息F(t)、V(t)和A(t),其中t表示当前时刻;
其中,当前关注后的特征信息X∈{F,V,A},特征数N∈{N1,N2,N3},表示第i个特征Xi的当前注意力权重,且
当前注意力权重向量的计算方式为:α(t)=softmax(e(t));
其中e(t)表示通过LSTM网络的隐藏状态和特征信息X产生的未正规化权重,且e(t)=wX·tanh(WXh(t-1)+UXX+bX),其中h(t-1)表示LSTM网络在上一时刻的隐藏状态,wX、WX、UX和bX表示LSTM网络的输入为特征信息X时的网络参数,UX表示输入层到隐藏层的权重矩阵,WX表示隐藏层到隐藏层的权重矩阵,wX表示隐藏层到输出层的权重向量,bX表示偏置项;
步骤302:拼接三类特征信息F(t)、V(t)和A(t),得到特征拼接矩阵Fu=[F(t);V(t);A(t)];
计算通过LSTM网络的隐藏状态和特征拼接矩阵Fu产生的未正规化权重ε(t)=w·tanh(Wh(t-1)+UX+b),其中w、W、U和b表示LSTM网络的输入为Fu时的网络参数,U表示输入层到隐藏层的权重矩阵,W表示隐藏层到隐藏层的权重矩阵,w表示隐藏层到输出层的权重向量,b表示偏置项;
基于当前正规化权重ε(t)计算各类特征的融合权重β(t)=softmax(ε(t));
基于各类特征的融合权重,对矩阵Fu按照特征维度进行加权融合,得到当前视觉信息
步骤4:根据公式Z(t)=γ(t)WzFu(t)+(1-γ(t))Uzh(t-1)对视觉信息进行调整,得到调整后的视觉信息Z(t)
其中,γ(t)表示通过上下文信息所确定的下一个单词所需要的视觉信息的权重,Wz表示对应的输入层到隐藏层的权重矩阵,Uz表示对应的隐藏层到隐藏层的权重矩阵;
步骤5:将调整后的视觉信息Z(t)与上一次产生的单词对应的向量y(t-1)输入到LSTM中,得到词汇表中每个词作为当前产生的单词的概率,选取概率最大的单词作为当前产生的单词,并判断当前产生的单词是否为结束符,若是,则终止,否则继续执行步骤3,产生下一个单词。
2.如权利要求1所述的方法,其特征在于,提取视频中的图像信息的特征具体为:从待处理的视频序列中挑选出一定数量的代表性帧,并将其输入到训练好的VGG网络中,基于VGG网络的全连接层的输出获得图像信息特征表示。
3.如权利要求1所述的方法,其特征在于,提取视频中的运动信息的特征具体为:将视频的前部分帧图像作为待处理的视频序列,将待处理的视频序列均分为多个视频片段,再将每个视频片段输入到训练好的三维卷积神经网络中,基于三维卷积神经网络的全连接层的输出获得运动信息的特征表示。
CN201811092609.0A 2018-09-19 2018-09-19 一种基于多模态特征结合多层注意力机制的结合视频描述方法 Active CN109344288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811092609.0A CN109344288B (zh) 2018-09-19 2018-09-19 一种基于多模态特征结合多层注意力机制的结合视频描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811092609.0A CN109344288B (zh) 2018-09-19 2018-09-19 一种基于多模态特征结合多层注意力机制的结合视频描述方法

Publications (2)

Publication Number Publication Date
CN109344288A true CN109344288A (zh) 2019-02-15
CN109344288B CN109344288B (zh) 2021-09-24

Family

ID=65305768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811092609.0A Active CN109344288B (zh) 2018-09-19 2018-09-19 一种基于多模态特征结合多层注意力机制的结合视频描述方法

Country Status (1)

Country Link
CN (1) CN109344288B (zh)

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109874029A (zh) * 2019-04-22 2019-06-11 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法
CN110059878A (zh) * 2019-04-15 2019-07-26 中国计量大学 基于cnn lstm光伏发电功率预测模型及其构建方法
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110298436A (zh) * 2019-06-28 2019-10-01 乐山金蜜工业卫士服务股份有限公司 基于指针生成网络的数据到文本的生成模型
CN110334689A (zh) * 2019-07-16 2019-10-15 北京百度网讯科技有限公司 视频分类方法和装置
CN110348420A (zh) * 2019-07-18 2019-10-18 腾讯科技(深圳)有限公司 手语识别方法、装置、计算机可读存储介质和计算机设备
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110503079A (zh) * 2019-08-30 2019-11-26 山东浪潮人工智能研究院有限公司 一种基于深度神经网络的监控视频描述方法
CN110633421A (zh) * 2019-09-09 2019-12-31 北京瑞莱智慧科技有限公司 特征提取、推荐以及预测方法、装置、介质和设备
CN110674783A (zh) * 2019-10-08 2020-01-10 山东浪潮人工智能研究院有限公司 一种基于多级预测架构的视频描述方法及系统
CN110826397A (zh) * 2019-09-20 2020-02-21 浙江大学 一种基于高阶低秩多模态注意力机制的视频描述方法
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法
CN110933518A (zh) * 2019-12-11 2020-03-27 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN110991290A (zh) * 2019-11-26 2020-04-10 西安电子科技大学 基于语义指导与记忆机制的视频描述方法
CN111046227A (zh) * 2019-11-29 2020-04-21 腾讯科技(深圳)有限公司 一种视频查重方法及装置
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置
CN111246256A (zh) * 2020-02-21 2020-06-05 华南理工大学 基于多模态视频内容和多任务学习的视频推荐方法
CN111291221A (zh) * 2020-01-16 2020-06-16 腾讯科技(深圳)有限公司 对数据源生成语义描述的方法、设备和电子设备
CN111582587A (zh) * 2020-05-11 2020-08-25 深圳赋乐科技有限公司 一种视频舆情的预测方法及预测系统
CN111723239A (zh) * 2020-05-11 2020-09-29 华中科技大学 一种基于多模态的视频标注方法
CN111767726A (zh) * 2020-06-24 2020-10-13 北京奇艺世纪科技有限公司 数据处理方法及装置
CN111783709A (zh) * 2020-07-09 2020-10-16 中国科学技术大学 针对教育视频的信息预测方法及装置
CN111916207A (zh) * 2020-08-07 2020-11-10 杭州深睿博联科技有限公司 一种基于多模态融合的疾病识别方法及装置
CN111931668A (zh) * 2020-08-14 2020-11-13 中国科学院重庆绿色智能技术研究院 一种基于自适应卷积神经网络的目标属性识别方法及系统
CN112052906A (zh) * 2020-09-14 2020-12-08 南京大学 一种基于指针网络的图像描述优化方法
CN112488111A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于多层级表达引导注意力网络的指示表达理解方法
CN113099374A (zh) * 2021-03-30 2021-07-09 四川省人工智能研究院(宜宾) 一种基于多重注意力视听融合的音频立体化方法
CN113099228A (zh) * 2021-04-30 2021-07-09 中南大学 一种视频编解码方法及系统
CN113312923A (zh) * 2021-06-18 2021-08-27 广东工业大学 一种球类赛事文字解说生成方法
CN113343921A (zh) * 2021-06-30 2021-09-03 北京达佳互联信息技术有限公司 视频识别方法、装置、电子设备及存储介质
CN113420606A (zh) * 2021-05-31 2021-09-21 华南理工大学 一种基于自然语言和机器视觉实现机器人自主导航的方法
CN113590874A (zh) * 2021-09-28 2021-11-02 山东力聚机器人科技股份有限公司 一种视频定位方法及装置、模型训练方法及设备
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN113934887A (zh) * 2021-12-20 2022-01-14 成都考拉悠然科技有限公司 一种基于语义解耦的无提议时序语言定位方法
CN113971208A (zh) * 2021-12-22 2022-01-25 山东建筑大学 基于混合注意力机制的视频对象定位方法及系统
CN114268846A (zh) * 2020-09-16 2022-04-01 镇江多游网络科技有限公司 一种基于注意机制的视频描述生成模型
CN114627413A (zh) * 2022-03-11 2022-06-14 电子科技大学 视频密集事件内容理解方法
CN115431279A (zh) * 2022-11-07 2022-12-06 佛山科学技术学院 弱刚度特性条件下基于视触融合的机械臂自主抓取方法
WO2023179429A1 (zh) * 2022-03-23 2023-09-28 长视科技股份有限公司 一种视频数据的处理方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124813A (ja) * 1997-07-03 1999-01-29 Fujitsu Ltd マルチモーダル入力統合システム
US20040086046A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a motion attention model
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107563498A (zh) * 2017-09-08 2018-01-09 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108229341A (zh) * 2017-12-15 2018-06-29 北京市商汤科技开发有限公司 分类方法和装置、电子设备、计算机存储介质、程序
CN108305296A (zh) * 2017-08-30 2018-07-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108416065A (zh) * 2018-03-28 2018-08-17 复旦大学 基于层级神经网络的图像-句子描述生成系统及方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124813A (ja) * 1997-07-03 1999-01-29 Fujitsu Ltd マルチモーダル入力統合システム
US20040086046A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a motion attention model
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN108305296A (zh) * 2017-08-30 2018-07-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN107563498A (zh) * 2017-09-08 2018-01-09 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108229341A (zh) * 2017-12-15 2018-06-29 北京市商汤科技开发有限公司 分类方法和装置、电子设备、计算机存储介质、程序
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108416065A (zh) * 2018-03-28 2018-08-17 复旦大学 基于层级神经网络的图像-句子描述生成系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUN XU等: "Learing Multimodal Attention LSTM Networks for video Captioning", 《MM "17:PROCEEDINGS OF THE 25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
SUJIN LEE等: "Multimodal Feature Learning for video captioning", 《HINDAWI:MATHEMATICAL PROBLEMS IN ENGINEERING》 *
赵士超: "视频动作识别中的深度特征融合方法与注意力模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法
CN110059878A (zh) * 2019-04-15 2019-07-26 中国计量大学 基于cnn lstm光伏发电功率预测模型及其构建方法
KR102477795B1 (ko) 2019-04-22 2022-12-14 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 비디오 캡션 생성 방법, 디바이스 및 장치, 그리고 저장 매체
CN109874029A (zh) * 2019-04-22 2019-06-11 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质
KR20210095208A (ko) * 2019-04-22 2021-07-30 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 비디오 캡션 생성 방법, 디바이스 및 장치, 그리고 저장 매체
CN109874029B (zh) * 2019-04-22 2021-02-12 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质
US11743551B2 (en) 2019-04-22 2023-08-29 Tencent Technology (Shenzhen) Company Limited Video caption generating method and apparatus, device, and storage medium
WO2020215988A1 (zh) * 2019-04-22 2020-10-29 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110175266B (zh) * 2019-05-28 2020-10-30 复旦大学 一种用于多段视频跨模态检索的方法
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110298436A (zh) * 2019-06-28 2019-10-01 乐山金蜜工业卫士服务股份有限公司 基于指针生成网络的数据到文本的生成模型
CN110334689A (zh) * 2019-07-16 2019-10-15 北京百度网讯科技有限公司 视频分类方法和装置
US11256920B2 (en) 2019-07-16 2022-02-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for classifying video
CN110334689B (zh) * 2019-07-16 2022-02-15 北京百度网讯科技有限公司 视频分类方法和装置
US11749029B2 (en) 2019-07-18 2023-09-05 Tencent Technology (Shenzhen) Company Limited Gesture language recognition method and apparatus, computer-readable storage medium, and computer device
CN110348420B (zh) * 2019-07-18 2022-03-18 腾讯科技(深圳)有限公司 手语识别方法、装置、计算机可读存储介质和计算机设备
CN110348420A (zh) * 2019-07-18 2019-10-18 腾讯科技(深圳)有限公司 手语识别方法、装置、计算机可读存储介质和计算机设备
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110503079A (zh) * 2019-08-30 2019-11-26 山东浪潮人工智能研究院有限公司 一种基于深度神经网络的监控视频描述方法
CN110633421A (zh) * 2019-09-09 2019-12-31 北京瑞莱智慧科技有限公司 特征提取、推荐以及预测方法、装置、介质和设备
CN110826397A (zh) * 2019-09-20 2020-02-21 浙江大学 一种基于高阶低秩多模态注意力机制的视频描述方法
CN110826397B (zh) * 2019-09-20 2022-07-26 浙江大学 一种基于高阶低秩多模态注意力机制的视频描述方法
CN110674783B (zh) * 2019-10-08 2022-06-28 山东浪潮科学研究院有限公司 一种基于多级预测架构的视频描述方法及系统
CN110674783A (zh) * 2019-10-08 2020-01-10 山东浪潮人工智能研究院有限公司 一种基于多级预测架构的视频描述方法及系统
CN110929092B (zh) * 2019-11-19 2023-07-04 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法
CN110991290B (zh) * 2019-11-26 2023-03-10 西安电子科技大学 基于语义指导与记忆机制的视频描述方法
CN110991290A (zh) * 2019-11-26 2020-04-10 西安电子科技大学 基于语义指导与记忆机制的视频描述方法
CN111046227A (zh) * 2019-11-29 2020-04-21 腾讯科技(深圳)有限公司 一种视频查重方法及装置
CN111046227B (zh) * 2019-11-29 2023-04-07 腾讯科技(深圳)有限公司 一种视频查重方法及装置
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN111046668B (zh) * 2019-12-04 2023-09-22 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置
CN110933518A (zh) * 2019-12-11 2020-03-27 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN110933518B (zh) * 2019-12-11 2020-10-02 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN111291221A (zh) * 2020-01-16 2020-06-16 腾讯科技(深圳)有限公司 对数据源生成语义描述的方法、设备和电子设备
CN111246256A (zh) * 2020-02-21 2020-06-05 华南理工大学 基于多模态视频内容和多任务学习的视频推荐方法
CN111582587B (zh) * 2020-05-11 2021-06-04 深圳赋乐科技有限公司 一种视频舆情的预测方法及预测系统
CN111723239B (zh) * 2020-05-11 2023-06-16 华中科技大学 一种基于多模态的视频标注方法
CN111582587A (zh) * 2020-05-11 2020-08-25 深圳赋乐科技有限公司 一种视频舆情的预测方法及预测系统
CN111723239A (zh) * 2020-05-11 2020-09-29 华中科技大学 一种基于多模态的视频标注方法
CN111767726A (zh) * 2020-06-24 2020-10-13 北京奇艺世纪科技有限公司 数据处理方法及装置
CN111767726B (zh) * 2020-06-24 2024-02-06 北京奇艺世纪科技有限公司 数据处理方法及装置
CN111783709B (zh) * 2020-07-09 2022-09-06 中国科学技术大学 针对教育视频的信息预测方法及装置
CN111783709A (zh) * 2020-07-09 2020-10-16 中国科学技术大学 针对教育视频的信息预测方法及装置
CN111916207A (zh) * 2020-08-07 2020-11-10 杭州深睿博联科技有限公司 一种基于多模态融合的疾病识别方法及装置
CN111916207B (zh) * 2020-08-07 2023-08-08 杭州深睿博联科技有限公司 一种基于多模态融合的疾病识别方法及装置
CN111931668A (zh) * 2020-08-14 2020-11-13 中国科学院重庆绿色智能技术研究院 一种基于自适应卷积神经网络的目标属性识别方法及系统
CN112052906A (zh) * 2020-09-14 2020-12-08 南京大学 一种基于指针网络的图像描述优化方法
CN112052906B (zh) * 2020-09-14 2024-02-02 南京大学 一种基于指针网络的图像描述优化方法
CN114268846A (zh) * 2020-09-16 2022-04-01 镇江多游网络科技有限公司 一种基于注意机制的视频描述生成模型
CN112488111A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于多层级表达引导注意力网络的指示表达理解方法
CN112488111B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于多层级表达引导注意力网络的指示表达理解方法
CN113099374A (zh) * 2021-03-30 2021-07-09 四川省人工智能研究院(宜宾) 一种基于多重注意力视听融合的音频立体化方法
CN113099228B (zh) * 2021-04-30 2024-04-05 中南大学 一种视频编解码方法及系统
CN113099228A (zh) * 2021-04-30 2021-07-09 中南大学 一种视频编解码方法及系统
CN113420606A (zh) * 2021-05-31 2021-09-21 华南理工大学 一种基于自然语言和机器视觉实现机器人自主导航的方法
CN113420606B (zh) * 2021-05-31 2022-06-14 华南理工大学 一种基于自然语言和机器视觉实现机器人自主导航的方法
CN113312923A (zh) * 2021-06-18 2021-08-27 广东工业大学 一种球类赛事文字解说生成方法
CN113343921B (zh) * 2021-06-30 2024-04-09 北京达佳互联信息技术有限公司 视频识别方法、装置、电子设备及存储介质
CN113343921A (zh) * 2021-06-30 2021-09-03 北京达佳互联信息技术有限公司 视频识别方法、装置、电子设备及存储介质
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN113779310B (zh) * 2021-09-10 2023-06-02 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN113590874A (zh) * 2021-09-28 2021-11-02 山东力聚机器人科技股份有限公司 一种视频定位方法及装置、模型训练方法及设备
CN113934887A (zh) * 2021-12-20 2022-01-14 成都考拉悠然科技有限公司 一种基于语义解耦的无提议时序语言定位方法
CN113971208A (zh) * 2021-12-22 2022-01-25 山东建筑大学 基于混合注意力机制的视频对象定位方法及系统
CN114627413A (zh) * 2022-03-11 2022-06-14 电子科技大学 视频密集事件内容理解方法
WO2023179429A1 (zh) * 2022-03-23 2023-09-28 长视科技股份有限公司 一种视频数据的处理方法、装置、电子设备及存储介质
CN115431279A (zh) * 2022-11-07 2022-12-06 佛山科学技术学院 弱刚度特性条件下基于视触融合的机械臂自主抓取方法

Also Published As

Publication number Publication date
CN109344288B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN109344288A (zh) 一种基于多模态特征结合多层注意力机制的结合视频描述方法
Li et al. Groupformer: Group activity recognition with clustered spatial-temporal transformer
CN110119786B (zh) 文本话题分类方法及装置
WO2021088510A1 (zh) 视频分类方法、装置、计算机以及可读存储介质
Zhang et al. A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction
KR101855597B1 (ko) 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법
CN108829677A (zh) 一种基于多模态注意力的图像标题自动生成方法
WO2021135193A1 (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN109684912A (zh) 一种基于信息损失函数的视频描述方法和系统
CN109597891A (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN110390363A (zh) 一种图像描述方法
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN109960747A (zh) 视频描述信息的生成方法、视频处理方法、相应的装置
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN108985370B (zh) 图像标注语句自动生成方法
Wang et al. Multiscale deep alternative neural network for large-scale video classification
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN112650886A (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
Li et al. A deep feature based multi-kernel learning approach for video emotion recognition
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
CN111143617A (zh) 一种图片或视频文本描述自动生成方法及系统
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
Song et al. LSTM-in-LSTM for generating long descriptions of images
Liu et al. Learning explicit shape and motion evolution maps for skeleton-based human action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant