CN108024158A - 利用视觉注意力机制的有监督视频摘要提取方法 - Google Patents
利用视觉注意力机制的有监督视频摘要提取方法 Download PDFInfo
- Publication number
- CN108024158A CN108024158A CN201711239795.1A CN201711239795A CN108024158A CN 108024158 A CN108024158 A CN 108024158A CN 201711239795 A CN201711239795 A CN 201711239795A CN 108024158 A CN108024158 A CN 108024158A
- Authority
- CN
- China
- Prior art keywords
- mrow
- moment
- video
- decoder
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及有监督的视频摘要提取技术,为使得摘要的自动生成方式类似于人选取摘要的决策过程,摘要的结果更接近人类的语义理解。本发明采用的技术方案是,利用视觉注意力机制的有监督视频摘要提取方法,步骤如下:1)对原始视频作预处理后,对视频进行镜头检测,分割成若干个视频镜头作为后续摘要提取的候选镜头;2)然后提取每一视频帧的视觉特征作为视频帧序列的特征,编码器和解码器都采用LSTM模型处理视频帧序列,并在解码器部分引入视觉注意力机制,融合历史的解码序列作为当前解码的输入部分;3)利用解码的输出信息,并结合动态规划方法,得到关键镜头和关键帧,生成视频摘要。本发明主要应用于视频摘要场合。
Description
技术领域
本发明涉及有监督的视频摘要提取技术,具体讲,涉及利用视觉注意力机制的有监督视频摘要提取方法。
背景技术
视频摘要是指利用计算机技术分析视频结构、理解视频内容,并从原始的多媒体数据中选取具有代表性的、有意义的部分,将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略。依据摘要的最终呈现形式,视频摘要通常分为两种形式:基于关键帧的静态视频摘要和基于关键镜头的动态视频摘要。
一直以来视频摘要提取是基于无监督学习,如图论、曲线分解、聚类等方法。近几年运用有监督的学习方法提取视频摘要已成为一种趋势,它通过主动学习人标注的视频摘要,使训练出的模型尽可能地与人的决策模式保持一致,提取的视频摘要更符合人类语义的理解,这是无监督学习很难达到的。目前有监督的学习方法主要有线性回归模型、二元SVM(支持向量机)分类器、seqDPP(序列行列式点阵列)等。
视频摘要解决的问题是从原始视频帧序列中提取关键帧序列或者关键镜头序列,其本质就是序列到序列(Sequence-to-Sequence,Seq2Seq)的预测问题。研究序列问题已有比较成熟的模型,如循环神经网络(Recurrent Neural Network,RNN)、长短时记忆模型(RNN with Long-short Term Memory,LSTM)。RNN系列模型在处理序列数据上有着极大的优势,能够深层次地挖掘对解决任务有用的序列信息。而基于视觉注意力机制的编-解码(Encoder-Decoder)框架是近年来解决此类任务的经典方案,在图像描述、视频描述、文本摘要、机器翻译等任务中有突出的表现。编码过程将输入序列压缩成固定长度的上下文向量,然后再将其解码成符合任务需求的输出序列。而在解码过程中引入了视觉注意力机制,每一时间节点的解码都受到历史解码序列的影响,并且不同时刻解码的输出向量影响程度不同,即对历史解码序列中每个位置的向量分配不同的注意力,指导网络更加准确地学习序列间的依赖性关系。注意力机制可分为软注意力机制和硬注意力机制,软注意力机制在每个位置都分配注意力权重,只是权重大小不同,可以用反向传播训练;而硬注意力机制在每个位置的注意力具有随机性,可以通过增强学习方法进行训练。
发明内容
为克服现有技术的不足,本发明旨在提出一种基于视觉注意力机制的有监督视频摘要提取方法,使得摘要的自动生成方式类似于人选取摘要的决策过程,摘要的结果更接近人类的语义理解。本发明采用的技术方案是,利用视觉注意力机制的有监督视频摘要提取方法,步骤如下:
1)对原始视频作预处理后,对视频进行镜头检测,分割成若干个视频镜头作为后续摘要提取的候选镜头;
2)然后提取每一视频帧的视觉特征作为视频帧序列的特征,编码器和解码器都采用LSTM模型处理视频帧序列,并在解码器部分引入视觉注意力机制,融合历史的解码序列作为当前解码的输入部分;
3)利用解码的输出信息,并结合动态规划方法,得到关键镜头和关键帧,生成视频摘要。
编码器由一层LSTM网络构成,输入序列是视频特征序列x=(x1,x2,…,xT),输出编码表征序列h=(h1,h2,…,hT),将其作为解码器的输入,序列中每个向量为编码器在每个时间节点的隐藏状态,其计算公式如下:
ht=f(ht-1,xt), (1)
其中ht,ht-1,xt分别为LSTM网络t时刻的隐藏状态、t-1时刻的隐藏层态、t时刻输入的特征向量的特征向量。
解码器也由一层LSTM网络构成,定义其输出的条件概率:
p(yi|{y1,...,yi-1},x)=g(ci,si,hi), (2)
si,hi,yi分别为解码器i时刻的隐藏状态、解码器的输入、解码器的输出,其中,hi对应编码器的ht,即i=t,i,t取值范围一致,都为1到T,si是LSTM网络在i时刻的隐藏状态,其公式如下:
si=f(ci,si-1,hi) (3)
其中ci是由解码器的1,2,...,i-1时刻输出序列加权融合而成的上下文向量,即由{y1,...,yi-1}加权和得到,ci包含了之前全部时刻的历史输出信息,但是对之前每一时刻输出的关注程度不同,视觉注意力机制指导网络去学习不同时刻的注意力权值,上下文向量ci计算公式如下:
其中yj为解码器在j时刻的输出,j∈{1,2,...,i-1},αij为对应i时刻yj的注意力权值,它由下式计算:
eij=a(si-1,yj),
生成eij的函数是一个多层感知器,该网络的输入由解码器i-1时刻的隐藏状态si-1、j时刻输出yj构成,eij代表j时刻解码器的输出对i时刻解码的影响程度。
具体的解码过程是:得到编码序列h=(h1,h2,…,hT)后,与上下文向量ci,上一时刻解码器的隐藏状态si-1一同构成解码器i时刻的输入,其中ci由公式(4)(5)计算得到,首先利用si-1,yj计算对应解码器j时刻输出的权值eij,再对其作归一化处理得到αij,最后由{y1,...,yi-1}和αij计算加权和得到ci,后续时刻如此往复,在最后一个时刻得到解码器的输出序列y={y1,...,yT}。
长短时记忆模型LSTM网络是RNN的变种模型,在RNN的基础上,增加长短时记忆单元,LSTM的核是记忆单元ct,受到输入门、遗忘门、输出门三种非线性门的调制,输入门it控制当前时刻的输入信息,遗忘门ft控制着对历史记忆信息的遗忘程度,而输出门ot决定了记忆单元对隐藏状态的影响程度,三个门和记忆单元协同合作,使LSTM具备学习复杂长距离依赖性关系的能力;
xt,ht代表t时刻LSTM网络的输入以及隐藏状态,ht-1,ct-1分别代表t-1时刻的隐藏状态以及记忆单元,Wi,Wf,Wo,Wc分别表示输入和隐藏状态到输入门、遗忘门、输出门、记忆单元的映射矩阵,在t时刻网络的前向传播中,首先由xt,ht-1计算it,ft,Ot,然后由ct-1,it,ft计算得到记忆单元ct,最后通过Ot,ct计算t时刻的隐藏状态ht,后续每个时刻依次按公式(6)更新以上参数。
训练阶段具体步骤如下:
1)对视频预处理后,用预训练的卷积神经网络(Convolutional Neural Network,CNN)提取第i帧视频帧的特征xi,构成视频特征序列x=(x1,x2,…,xT),T为序列长度,d为特征的维度;
2)将提取的视频特征x输入到编码器LSTM网络中,经公式(6)得到编码器的隐藏状态h=(h1,h2,…,hT),具体计算过程是:在t时刻网络的前向传播中,首先由xt,ht-1计算it,ft,ot,然后由ct-1,it,ft计算得到记忆单元ct,最后通过ot,ct计算t时刻的隐藏状态ht,网络循环计算T次,最终得到h,h将作为解码器的输入,参与解码器LSTM网络的运算,其中ht对应解码器t时刻的输入;
3)解码器i时刻的输入由ci,hi对应编码器的ht,si-1构成,其中ci具体的计算过程是:首先根据公式(5)利用si-1,yj计算对应解码器j时刻输出的权值eij,再对其作归一化处理得到αij,最后依据公式(4)由{y1,...,yi-1}和αij计算加权和得到ci。将ci,hi,si-1作为解码器i时刻的输入,根据公式(2)(3)计算出yi,在每个时间节点重复上述计算过程,直至T时刻得到对应输入视频序列的预测值y={y1,...,yT};
4)将预测值y与真实的标签数据作比较,计算损失函数均方差的值,然后进行随时间演化的反向传播BPTT(Backpropagation through time),更新网络参数,网络参数包括神经网络中输入到隐藏层,隐藏层与隐藏层之间以及隐藏层到输出的权值矩阵;
5)模型训练前设置超参数,超参数包括神经网络隐藏层的单元个数、学习率,训练时采用批量梯度下降法,每次迭代时都会将步骤1提取的批量(mini-batch)视频特征输入到编码器-解码器中,重复步骤2、3、4,不断地更新网络的参数,直至模型收敛,停止训练,转入测试阶段。
本发明的特点及有益效果是:
本发明主要利用引入视觉注意力机制的编-解码框架主动学习人手工标注的摘要,使训练好的模型能自动生成接近人类语义理解的视频摘要。其主要优势主要体现在:
(1)新颖性:提出了一种新颖的视觉注意力机制,结合编-解码框架首次用于视频摘要领域,极大地提高了自动生成摘要与人类手工标注摘要的吻合度。
(2)有效性:通过实验证明了本发明自动生成的视频摘要质量优于现有的有监督方法和部分无监督方法。
(3)实用性:简单可行,可以运用在视频跟踪、视频描述等其它领域。
附图说明:
图1是本发明提供的基于视觉注意力机制的视频摘要提取的流程图。其中实线部分为模型训练阶段,虚线部分为模型测试阶段。
具体实施方式
本发明将视频摘要看作是结构化的预测问题。使用循环神经网络中的长短时记忆模型来对视频帧之间的依赖性关系进行建模,并在模型中引入视觉注意力机制,提高生成视频摘要的质量。
本发明采用的具体步骤是:
1)对原始视频作预处理后,对视频进行镜头检测,分割成若干个视频镜头作为后续摘要提取的候选镜头;
2)然后提取每一视频帧的视觉特征作为视频帧序列的特征,编码器和解码器都采用LSTM模型处理视频帧序列,并在解码器部分引入视觉注意力机制,融合历史的解码序列作为当前解码的输入部分;
3)利用解码的输出信息,并结合动态规划方法,得到关键镜头和关键帧,生成视频摘要。
编码器由一层LSTM网络构成,输入序列是视频特征序列x=(x1,x2,…,xT),输出编码表征序列h=(h1,h2,…,hT),将其作为解码器的输入,序列中每个向量为编码器在每个时间节点的隐藏状态,其计算公式如下:
ht=f(ht-1,xt), (1)
其中ht,ht-1,xt分别为LSTM网络t时刻的隐藏状态、t-1时刻的隐藏层态、t时刻输入的特征向量。
解码器也由一层LSTM网络构成,定义其输出的条件概率:
p(yi|{y1,...,yi-1},x)=g(ci,si,hi), (2)
si,hi,yi分别为解码器i时刻的隐藏状态、解码器的输入(将编码器t时刻的输出ht作为解码器i时刻的输入,即i=t,i,t取值范围一致,都为1到T)、解码器的输出,其中si是LSTM网络在i时刻的隐藏状态,其公式如下:
si=f(ci,si-1,hi) (3)
其中ci是由解码器的1,2,...,i-1时刻输出序列加权融合而成的上下文向量,即由{y1,...,yi-1}加权和得到,ci包含了之前全部时刻的历史输出信息,但是对之前每一时刻输出的关注程度不同,视觉注意力机制指导网络去学习不同时刻的注意力权值。上下文向量ci计算公式如下:
其中yj为解码器在j时刻的输出,j∈{1,2,...,i-1},αij为对应i时刻yj的注意力权值,它由下式计算:
eij=a(si-1,yj),
生成eij的函数是一个多层感知器,该网络的输入由解码器i-1时刻的隐藏状态si-1、j时刻输出yj构成,eij代表j时刻解码器的输出对i时刻解码过程的影响程度。
具体的解码过程是:得到编码序列h=(h1,h2,…,hT)后,与上下文向量ci,上一时刻解码器的隐藏状态si-1一同构成解码器i时刻的输入。其中ci由公式(4)(5)计算得到,首先利用si-1,yj计算对应解码器j时刻输出的权值eij,再对其作归一化处理得到αij,最后由{y1,...,yi-1}和αij计算加权和得到ci。后续时刻如此往复,在最后一个时刻得到解码器的输出序列y={y1,...,yT}。
长短时记忆模型LSTM网络是RNN的变种模型,它在RNN的基础上,增加了长短时记忆单元(Long-short Term Memory),旨在解决长距离依赖问题。LSTM的核是记忆单元(ct),受到输入门、遗忘门、输出门三种非线性门的调制。输入门(it)控制当前时刻的输入信息,遗忘门(ft)控制着对历史记忆信息的遗忘程度,而输出门(ot)决定了记忆单元对隐藏状态的影响程度,三个门和记忆单元协同合作,使LSTM具备学习复杂长距离依赖性关系的能力。
xt,ht-1分别代表t时刻LSTM网络的输入以及t-1时刻的隐藏状态,Wi,Wf,Wo,Wc分别表示输入和隐藏状态到输入门、遗忘门、输出门、记忆单元的映射矩阵。在t时刻网络的前向传播中,首先由xt,ht-1计算it,ft,ot,然后由ct-1,it,ft计算得到记忆单元ct,最后通过ot,ct计算t时刻的隐藏状态ht,后续每个时刻依次按公式(6)更新以上参数。
下面结合附图和具体实例进一步详细说明本发明。
图1描述了视频摘要算法的流程图,包含了模型训练和模型测试阶段,训练阶段输入训练集的视频特征和标签数据,调整模型参数;测试阶段输入测试集的视频特征,直接生成视频摘要。训练阶段具体步骤如下:
1)对视频预处理后,用预训练的卷积神经网络(Convolutional Neural Network,CNN)提取第i帧视频帧的特征xi,构成视频特征序列x=(x1,x2,…,xT),T为序列长度,d为特征的维度;
2)将提取的视频特征x输入到编码器LSTM网络中,经公式(6)得到编码器的隐藏状态h=(h1,h2,…,hT),具体计算过程是:在t时刻网络的前向传播中,首先由xt,ht-1计算it,ft,ot,然后由ct-1,it,ft计算得到记忆单元ct,最后通过ot,ct计算t时刻的隐藏状态ht,网络循环计算T次,最终得到h。h将作为解码器的输入,参与解码器LSTM网络的运算,其中ht对应解码器t时刻的输入。
3)解码器i时刻的输入由ci,hi(对应编码器的ht),si-1构成,其中ci具体的计算过程是:首先根据公式(5)利用si-1,yj计算对应解码器j时刻输出的权值eij,再对其作归一化处理得到αij,最后依据公式(4)由{y1,...,yi-1}和αij计算加权和得到ci。将ci,hi,si-1作为解码器i时刻的输入,根据公式(2)(3)计算出yi。在每个时间节点重复上述计算过程,直至T时刻得到对应输入视频序列的预测值y={y1,...,yT}。
4)将预测值y与真实的标签数据作比较,计算损失函数均方差的值,然后进行随时间演化的反向传播BPTT(Backpropagation through time),更新网络参数(网络参数指的是神经网络中输入到隐藏层,隐藏层与隐藏层之间以及隐藏层到输出的权值矩阵,本文包括Wi,Wf,Wo,Wc等权值矩阵)。
5)模型训练前设置超参数,训练时采用批量梯度下降法,每次迭代时都会将步骤1提取的批量(mini-batch)视频特征输入到编码器-解码器中,重复步骤2、3、4,不断地更新网络参数,直至模型收敛,停止训练,转入测试阶段。
测试阶段的具体步骤如下:
1)将测试集中的视频特征输入到编码器-解码器中,重复训练阶段的步骤2、3,预测视频帧序列的重要性分数y={y1,...,yT};
2)在测试集上进行镜头检测,分割成若干个视频镜头作为提取摘要的候选镜头;然后依据y计算每个候选镜头的重要性分数,即对所包含视频帧的重要性分数求和;
3)结合镜头的重要性分数,在限制摘要长度条件下,利用动态规划求解最大化摘要的重要性分数的最优化问题,自动生成摘要;
4)将自动生成的摘要和手工标注的摘要作比较,计算F-score值(一种评价指标),用于性能评价。
Claims (6)
1.一种利用视觉注意力机制的有监督视频摘要提取方法,其特征是,步骤如下:
1)对原始视频作预处理后,对视频进行镜头检测,分割成若干个视频镜头作为后续摘要提取的候选镜头;
2)然后提取每一视频帧的视觉特征作为视频帧序列的特征,编码器和解码器都采用LSTM模型处理视频帧序列,并在解码器部分引入视觉注意力机制,融合历史的解码序列作为当前解码的输入部分;
3)利用解码的输出信息,并结合动态规划方法,得到关键镜头和关键帧,生成视频摘要。
2.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,编码器由一层LSTM网络构成,输入序列是视频特征序列x=(x1,x2,…,xT),输出编码表征序列h=(h1,h2,…,hT),将其作为解码器的输入,序列中每个向量为编码器在每个时间节点的隐藏状态,其计算公式如下:
ht=f(ht-1,xt), (1)
其中ht,ht-1,xt分别为LSTM网络t时刻的隐藏状态、t-1时刻的隐藏层态、t时刻输入的特征向量的特征向量。
3.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,解码器也由一层LSTM网络构成,定义其输出的条件概率:
p(yi|{y1,...,yi-1},x)=g(ci,si,hi), (2)
si,hi,yi分别为解码器i时刻的隐藏状态、解码器的输入、解码器的输出,其中,hi对应编码器的ht,即i=t,i,t取值范围一致,都为1到T,si是LSTM网络在i时刻的隐藏状态,其公式如下:
si=f(ci,si-1,hi) (3)
其中ci是由解码器的1,2,...,i-1时刻输出序列加权融合而成的上下文向量,即由{y1,...,yi-1}加权和得到,ci包含了之前全部时刻的历史输出信息,但是对之前每一时刻输出的关注程度不同,视觉注意力机制指导网络去学习不同时刻的注意力权值,上下文向量ci计算公式如下:
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>j</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</munderover>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mi>y</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中yj为解码器在j时刻的输出,j∈{1,2,...,i-1},αij为对应i时刻yj的注意力权值,它由下式计算:
<mrow>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>e</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>e</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
eij=a(si-1,yj), (5)
生成eij的函数是一个多层感知器,该网络的输入由解码器i-1时刻的隐藏状态si-1、j时刻输出yj构成,eij代表j时刻解码器的输出对i时刻解码的影响程度。
4.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,具体的解码过程是:得到编码序列h=(h1,h2,…,hT)后,与上下文向量ci,上一时刻解码器的隐藏状态si-1一同构成解码器i时刻的输入,其中ci由公式(4)(5)计算得到,首先利用si-1,yj计算对应解码器j时刻输出的权值eij,再对其作归一化处理得到αij,最后由{y1,...,yi-1}和αij计算加权和得到ci,后续时刻如此往复,在最后一个时刻得到解码器的输出序列y={y1,...,yT}。
5.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,长短时记忆模型LSTM网络是RNN的变种模型,在RNN的基础上,增加长短时记忆单元,LSTM的核是记忆单元ct,受到输入门、遗忘门、输出门三种非线性门的调制,输入门it控制当前时刻的输入信息,遗忘门ft控制着对历史记忆信息的遗忘程度,而输出门ot决定了记忆单元对隐藏状态的影响程度,三个门和记忆单元协同合作,使LSTM具备学习复杂长距离依赖性关系的能力;
<mrow>
<msub>
<mi>i</mi>
<mi>t</mi>
</msub>
<mo>=</mo>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>m</mi>
<mi>o</mi>
<mi>i</mi>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>i</mi>
</msub>
<msup>
<mrow>
<mo>&lsqb;</mo>
<msubsup>
<mi>x</mi>
<mi>t</mi>
<mi>T</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>h</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</msubsup>
<mo>&rsqb;</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>f</mi>
<mi>t</mi>
</msub>
<mo>=</mo>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>m</mi>
<mi>o</mi>
<mi>i</mi>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>f</mi>
</msub>
<msup>
<mrow>
<mo>&lsqb;</mo>
<msubsup>
<mi>x</mi>
<mi>t</mi>
<mi>T</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>h</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</msubsup>
<mo>&rsqb;</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>o</mi>
<mi>t</mi>
</msub>
<mo>=</mo>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>m</mi>
<mi>o</mi>
<mi>i</mi>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>o</mi>
</msub>
<msup>
<mrow>
<mo>&lsqb;</mo>
<msubsup>
<mi>x</mi>
<mi>t</mi>
<mi>T</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>h</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</msubsup>
<mo>&rsqb;</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
ht=ot⊙tanh(ct), (6)
xt,ht代表t时刻LSTM网络的输入以及隐藏状态,ht-1,ct-1分别代表t-1时刻的隐藏状态以及记忆单元,Wi,Wf,Wo,Wc分别表示输入和隐藏状态到输入门、遗忘门、输出门、记忆单元的映射矩阵,在t时刻网络的前向传播中,首先由xt,ht-1计算it,ft,ot,然后由ct-1,it,ft计算得到记忆单元ct,最后通过ot,ct计算t时刻的隐藏状态ht,后续每个时刻依次按公式(6)更新以上参数。
6.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,训练阶
段具体步骤如下:
1)对视频预处理后,用预训练的卷积神经网络(Convolutional Neural Network,CNN)提取第i帧视频帧的特征xi,构成视频特征序列x=(x1,x2,…,xT),T为序列长度,d为特征的维度;
2)将提取的视频特征x输入到编码器LSTM网络中,经公式(6)得到编码器的隐藏状态h=(h1,h2,…,hT),具体计算过程是:在t时刻网络的前向传播中,首先由xt,ht-1计算it,ft,ot,然后由ct-1,it,ft计算得到记忆单元ct,最后通过ot,ct计算t时刻的隐藏状态ht,网络循环计算T次,最终得到h,h将作为解码器的输入,参与解码器LSTM网络的运算,其中ht对应解码器t时刻的输入;
3)解码器i时刻的输入由ci,hi对应编码器的ht,si-1构成,其中ci具体的计算过程是:首先根据公式(5)利用si-1,yj计算对应解码器j时刻输出的权值eij,再对其作归一化处理得到αij,最后依据公式(4)由{y1,...,yi-1}和αij计算加权和得到ci。将ci,hi,si-1作为解码器i时刻的输入,根据公式(2)(3)计算出yi,在每个时间节点重复上述计算过程,直至T时刻得到对应输入视频序列的预测值y={y1,...,yT};
4)将预测值y与真实的标签数据作比较,计算损失函数均方差的值,然后进行随时间演化的反向传播BPTT(Backpropagation through time),更新网络参数,网络参数包括神经网络中输入到隐藏层,隐藏层与隐藏层之间以及隐藏层到输出的权值矩阵;
5)模型训练前设置超参数,超参数包括神经网络隐藏层的单元个数、学习率,训练时采用批量梯度下降法,每次迭代时都会将步骤1提取的批量(mini-batch)视频特征输入到编码器-解码器中,重复步骤2、3、4,不断地更新网络的参数,直至模型收敛,停止训练,转入测试阶段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711239795.1A CN108024158A (zh) | 2017-11-30 | 2017-11-30 | 利用视觉注意力机制的有监督视频摘要提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711239795.1A CN108024158A (zh) | 2017-11-30 | 2017-11-30 | 利用视觉注意力机制的有监督视频摘要提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108024158A true CN108024158A (zh) | 2018-05-11 |
Family
ID=62077533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711239795.1A Pending CN108024158A (zh) | 2017-11-30 | 2017-11-30 | 利用视觉注意力机制的有监督视频摘要提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108024158A (zh) |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960063A (zh) * | 2018-06-01 | 2018-12-07 | 清华大学深圳研究生院 | 一种面向事件关系编码的视频中多事件自然语言描述算法 |
CN109033094A (zh) * | 2018-07-18 | 2018-12-18 | 五邑大学 | 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 |
CN109189989A (zh) * | 2018-07-23 | 2019-01-11 | 北京市商汤科技开发有限公司 | 一种视频描述方法及装置、计算机设备和存储介质 |
CN109190472A (zh) * | 2018-07-28 | 2019-01-11 | 天津大学 | 基于图像与属性联合引导的行人属性识别方法 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109359214A (zh) * | 2018-10-15 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的视频描述生成方法、存储介质及终端设备 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
CN109413510A (zh) * | 2018-10-19 | 2019-03-01 | 深圳市商汤科技有限公司 | 视频摘要生成方法和装置、电子设备、计算机存储介质 |
CN109670453A (zh) * | 2018-12-20 | 2019-04-23 | 杭州东信北邮信息技术有限公司 | 一种提取短视频主题的方法 |
CN109800327A (zh) * | 2018-12-04 | 2019-05-24 | 天津大学 | 一种基于多跳注意力的视频摘要方法 |
CN109857909A (zh) * | 2019-01-22 | 2019-06-07 | 杭州一知智能科技有限公司 | 多粒度卷积自注意力上下文网络解决视频对话任务的方法 |
CN109871790A (zh) * | 2019-01-30 | 2019-06-11 | 天津大学 | 一种基于混合神经网络模型的视频去色方法 |
CN109874029A (zh) * | 2019-04-22 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、设备及存储介质 |
CN109889923A (zh) * | 2019-02-28 | 2019-06-14 | 杭州一知智能科技有限公司 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
CN109886496A (zh) * | 2019-02-27 | 2019-06-14 | 中南大学 | 一种基于气象信息的农产量预测方法 |
CN109885723A (zh) * | 2019-02-20 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种视频动态缩略图的生成方法、模型训练的方法及装置 |
CN109977861A (zh) * | 2019-03-25 | 2019-07-05 | 中国科学技术大学 | 离线手写体数学公式识别方法 |
CN110163449A (zh) * | 2019-05-31 | 2019-08-23 | 杭州电子科技大学 | 一种基于主动时空图卷积的机动车排污监测节点部署方法 |
CN110277091A (zh) * | 2019-05-06 | 2019-09-24 | 深圳市一么么科技有限公司 | 智能家具的语音识别方法及相关产品 |
CN110287374A (zh) * | 2019-06-14 | 2019-09-27 | 天津大学 | 一种基于分布一致性的自注意力视频摘要方法 |
CN110460463A (zh) * | 2019-07-24 | 2019-11-15 | 海南大学 | 基于深度神经网络的服务质量预测方法及其系统 |
CN110796058A (zh) * | 2019-10-23 | 2020-02-14 | 深圳龙岗智能视听研究院 | 一种基于关键帧提取和层次性表述的视频行为识别方法 |
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
CN110991290A (zh) * | 2019-11-26 | 2020-04-10 | 西安电子科技大学 | 基于语义指导与记忆机制的视频描述方法 |
CN111031315A (zh) * | 2019-11-18 | 2020-04-17 | 复旦大学 | 基于注意力机制和时间依赖性的压缩视频质量增强方法 |
CN111291804A (zh) * | 2020-01-22 | 2020-06-16 | 杭州电子科技大学 | 基于注意力机制的多传感器时间序列分析模型 |
CN111325068A (zh) * | 2018-12-14 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 基于卷积神经网络的视频描述方法及装置 |
CN111460979A (zh) * | 2020-03-30 | 2020-07-28 | 上海大学 | 一种基于多层时空框架的关键镜头视频摘要方法 |
CN111680190A (zh) * | 2020-06-09 | 2020-09-18 | 哈尔滨工业大学(威海) | 一种融合视觉语义信息的视频缩略图推荐方法 |
CN111914119A (zh) * | 2020-08-12 | 2020-11-10 | 山东大学 | 一种基于动静态特征融合的视频摘要方法 |
CN112468888A (zh) * | 2020-11-26 | 2021-03-09 | 广东工业大学 | 基于gru网络的视频摘要生成方法与系统 |
CN112712130A (zh) * | 2021-01-13 | 2021-04-27 | 清华大学 | 视觉理解模型训练方法、装置、计算机设备和存储介质 |
CN113139468A (zh) * | 2021-04-24 | 2021-07-20 | 西安交通大学 | 融合局部目标特征与全局特征的视频摘要生成方法 |
CN114979801A (zh) * | 2022-05-10 | 2022-08-30 | 上海大学 | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 |
CN115620213A (zh) * | 2022-12-15 | 2023-01-17 | 城云科技(中国)有限公司 | 一种多模态自监督渐进视频摘要模型、方法及装置 |
CN115731498A (zh) * | 2022-12-01 | 2023-03-03 | 石家庄铁道大学 | 一种联合强化学习和对比学习的视频摘要生成方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102088597A (zh) * | 2009-12-04 | 2011-06-08 | 成都信息工程学院 | 动静结合估计视频视觉显著度的方法 |
CN106778926A (zh) * | 2016-12-23 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于视觉注意模型的图像文字描述方法 |
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN107301864A (zh) * | 2017-08-16 | 2017-10-27 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
-
2017
- 2017-11-30 CN CN201711239795.1A patent/CN108024158A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102088597A (zh) * | 2009-12-04 | 2011-06-08 | 成都信息工程学院 | 动静结合估计视频视觉显著度的方法 |
CN106778926A (zh) * | 2016-12-23 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于视觉注意模型的图像文字描述方法 |
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
CN107301864A (zh) * | 2017-08-16 | 2017-10-27 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
Cited By (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960063B (zh) * | 2018-06-01 | 2021-07-02 | 清华大学深圳研究生院 | 一种面向事件关系编码的视频中多事件自然语言描述方法 |
CN108960063A (zh) * | 2018-06-01 | 2018-12-07 | 清华大学深圳研究生院 | 一种面向事件关系编码的视频中多事件自然语言描述算法 |
CN109033094A (zh) * | 2018-07-18 | 2018-12-18 | 五邑大学 | 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 |
CN109189989A (zh) * | 2018-07-23 | 2019-01-11 | 北京市商汤科技开发有限公司 | 一种视频描述方法及装置、计算机设备和存储介质 |
CN109189989B (zh) * | 2018-07-23 | 2020-11-03 | 北京市商汤科技开发有限公司 | 一种视频描述方法及装置、计算机设备和存储介质 |
CN109190472A (zh) * | 2018-07-28 | 2019-01-11 | 天津大学 | 基于图像与属性联合引导的行人属性识别方法 |
CN109190472B (zh) * | 2018-07-28 | 2021-09-14 | 天津大学 | 基于图像与属性联合引导的行人属性识别方法 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109344288B (zh) * | 2018-09-19 | 2021-09-24 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109359214A (zh) * | 2018-10-15 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的视频描述生成方法、存储介质及终端设备 |
CN109413510A (zh) * | 2018-10-19 | 2019-03-01 | 深圳市商汤科技有限公司 | 视频摘要生成方法和装置、电子设备、计算机存储介质 |
CN109413510B (zh) * | 2018-10-19 | 2021-05-18 | 深圳市商汤科技有限公司 | 视频摘要生成方法和装置、电子设备、计算机存储介质 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
CN109389091B (zh) * | 2018-10-22 | 2022-05-03 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
CN109800327A (zh) * | 2018-12-04 | 2019-05-24 | 天津大学 | 一种基于多跳注意力的视频摘要方法 |
CN111325068B (zh) * | 2018-12-14 | 2023-11-07 | 北京京东尚科信息技术有限公司 | 基于卷积神经网络的视频描述方法及装置 |
CN111325068A (zh) * | 2018-12-14 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 基于卷积神经网络的视频描述方法及装置 |
CN109670453A (zh) * | 2018-12-20 | 2019-04-23 | 杭州东信北邮信息技术有限公司 | 一种提取短视频主题的方法 |
CN109857909A (zh) * | 2019-01-22 | 2019-06-07 | 杭州一知智能科技有限公司 | 多粒度卷积自注意力上下文网络解决视频对话任务的方法 |
CN109871790B (zh) * | 2019-01-30 | 2022-12-16 | 天津大学 | 一种基于混合神经网络模型的视频去色方法 |
CN109871790A (zh) * | 2019-01-30 | 2019-06-11 | 天津大学 | 一种基于混合神经网络模型的视频去色方法 |
CN109885723A (zh) * | 2019-02-20 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种视频动态缩略图的生成方法、模型训练的方法及装置 |
CN109885723B (zh) * | 2019-02-20 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 一种视频动态缩略图的生成方法、模型训练的方法及装置 |
CN109886496A (zh) * | 2019-02-27 | 2019-06-14 | 中南大学 | 一种基于气象信息的农产量预测方法 |
CN109889923B (zh) * | 2019-02-28 | 2021-03-26 | 杭州一知智能科技有限公司 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
CN109889923A (zh) * | 2019-02-28 | 2019-06-14 | 杭州一知智能科技有限公司 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
CN109977861A (zh) * | 2019-03-25 | 2019-07-05 | 中国科学技术大学 | 离线手写体数学公式识别方法 |
WO2020215988A1 (zh) * | 2019-04-22 | 2020-10-29 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、设备及存储介质 |
CN109874029A (zh) * | 2019-04-22 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、设备及存储介质 |
CN109874029B (zh) * | 2019-04-22 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、设备及存储介质 |
US11743551B2 (en) | 2019-04-22 | 2023-08-29 | Tencent Technology (Shenzhen) Company Limited | Video caption generating method and apparatus, device, and storage medium |
CN110277091A (zh) * | 2019-05-06 | 2019-09-24 | 深圳市一么么科技有限公司 | 智能家具的语音识别方法及相关产品 |
CN110163449A (zh) * | 2019-05-31 | 2019-08-23 | 杭州电子科技大学 | 一种基于主动时空图卷积的机动车排污监测节点部署方法 |
CN110287374A (zh) * | 2019-06-14 | 2019-09-27 | 天津大学 | 一种基于分布一致性的自注意力视频摘要方法 |
CN110287374B (zh) * | 2019-06-14 | 2023-01-03 | 天津大学 | 一种基于分布一致性的自注意力视频摘要方法 |
CN110460463B (zh) * | 2019-07-24 | 2021-12-14 | 海南大学 | 基于深度神经网络的服务质量预测方法及其系统 |
CN110460463A (zh) * | 2019-07-24 | 2019-11-15 | 海南大学 | 基于深度神经网络的服务质量预测方法及其系统 |
CN110796058A (zh) * | 2019-10-23 | 2020-02-14 | 深圳龙岗智能视听研究院 | 一种基于关键帧提取和层次性表述的视频行为识别方法 |
CN111031315A (zh) * | 2019-11-18 | 2020-04-17 | 复旦大学 | 基于注意力机制和时间依赖性的压缩视频质量增强方法 |
CN111031315B (zh) * | 2019-11-18 | 2023-05-30 | 复旦大学 | 基于注意力机制和时间依赖性的压缩视频质量增强方法 |
CN110991290B (zh) * | 2019-11-26 | 2023-03-10 | 西安电子科技大学 | 基于语义指导与记忆机制的视频描述方法 |
CN110991290A (zh) * | 2019-11-26 | 2020-04-10 | 西安电子科技大学 | 基于语义指导与记忆机制的视频描述方法 |
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
CN111291804A (zh) * | 2020-01-22 | 2020-06-16 | 杭州电子科技大学 | 基于注意力机制的多传感器时间序列分析模型 |
CN111460979A (zh) * | 2020-03-30 | 2020-07-28 | 上海大学 | 一种基于多层时空框架的关键镜头视频摘要方法 |
CN111680190A (zh) * | 2020-06-09 | 2020-09-18 | 哈尔滨工业大学(威海) | 一种融合视觉语义信息的视频缩略图推荐方法 |
CN111680190B (zh) * | 2020-06-09 | 2023-07-18 | 哈尔滨工业大学(威海) | 一种融合视觉语义信息的视频缩略图推荐方法 |
CN111914119A (zh) * | 2020-08-12 | 2020-11-10 | 山东大学 | 一种基于动静态特征融合的视频摘要方法 |
CN111914119B (zh) * | 2020-08-12 | 2022-03-18 | 山东大学 | 一种基于动静态特征融合的视频摘要方法 |
CN112468888B (zh) * | 2020-11-26 | 2023-04-07 | 广东工业大学 | 基于gru网络的视频摘要生成方法与系统 |
CN112468888A (zh) * | 2020-11-26 | 2021-03-09 | 广东工业大学 | 基于gru网络的视频摘要生成方法与系统 |
CN112712130A (zh) * | 2021-01-13 | 2021-04-27 | 清华大学 | 视觉理解模型训练方法、装置、计算机设备和存储介质 |
CN112712130B (zh) * | 2021-01-13 | 2022-06-10 | 清华大学 | 视觉理解模型训练方法、装置、计算机设备和存储介质 |
CN113139468A (zh) * | 2021-04-24 | 2021-07-20 | 西安交通大学 | 融合局部目标特征与全局特征的视频摘要生成方法 |
CN114979801A (zh) * | 2022-05-10 | 2022-08-30 | 上海大学 | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 |
CN115731498A (zh) * | 2022-12-01 | 2023-03-03 | 石家庄铁道大学 | 一种联合强化学习和对比学习的视频摘要生成方法 |
CN115731498B (zh) * | 2022-12-01 | 2023-06-06 | 石家庄铁道大学 | 一种联合强化学习和对比学习的视频摘要生成方法 |
CN115620213A (zh) * | 2022-12-15 | 2023-01-17 | 城云科技(中国)有限公司 | 一种多模态自监督渐进视频摘要模型、方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108024158A (zh) | 利用视觉注意力机制的有监督视频摘要提取方法 | |
CN109284506B (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN108763284B (zh) | 一种基于深度学习和主题模型的问答系统实现方法 | |
CN106126507B (zh) | 一种基于字符编码的深度神经翻译方法及系统 | |
CN110929092B (zh) | 一种基于动态注意力机制的多事件视频描述方法 | |
CN109918671A (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN108229582A (zh) | 一种面向医学领域的多任务命名实体识别对抗训练方法 | |
CN109829541A (zh) | 基于学习自动机的深度神经网络增量式训练方法及系统 | |
CN110163299A (zh) | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 | |
CN107463609A (zh) | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 | |
CN112579778A (zh) | 基于多层次的特征注意力的方面级情感分类方法 | |
CN112561064B (zh) | 基于owkbc模型的知识库补全方法 | |
CN108563624A (zh) | 一种基于深度学习的自然语言生成方法 | |
CN110580287A (zh) | 基于迁移学习和on-lstm的情感分类方法 | |
CN110390397A (zh) | 一种文本蕴含识别方法及装置 | |
CN112527966B (zh) | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 | |
CN108932232A (zh) | 一种基于lstm神经网络的蒙汉互译方法 | |
CN110807069B (zh) | 一种基于强化学习算法的实体关系联合抽取模型构建方法 | |
CN114398976A (zh) | 基于bert与门控类注意力增强网络的机器阅读理解方法 | |
Luo et al. | English text quality analysis based on recurrent neural network and semantic segmentation | |
CN112527993A (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
Yang et al. | Sequence-to-sequence prediction of personal computer software by recurrent neural network | |
CN113887836B (zh) | 一种融合事件环境信息的叙述性事件预测方法 | |
CN116227560A (zh) | 基于DTW-former的时间序列预测模型及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180511 |
|
WD01 | Invention patent application deemed withdrawn after publication |