CN107484017A - 基于注意力模型的有监督视频摘要生成方法 - Google Patents

基于注意力模型的有监督视频摘要生成方法 Download PDF

Info

Publication number
CN107484017A
CN107484017A CN201710612360.0A CN201710612360A CN107484017A CN 107484017 A CN107484017 A CN 107484017A CN 201710612360 A CN201710612360 A CN 201710612360A CN 107484017 A CN107484017 A CN 107484017A
Authority
CN
China
Prior art keywords
video
lstm
sequence
decoder
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710612360.0A
Other languages
English (en)
Other versions
CN107484017B (zh
Inventor
冀中
熊凯琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710612360.0A priority Critical patent/CN107484017B/zh
Publication of CN107484017A publication Critical patent/CN107484017A/zh
Application granted granted Critical
Publication of CN107484017B publication Critical patent/CN107484017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及视频摘要技术,为提出基于注意力机制的有监督视频摘要方法,使得摘要结果更接近人类的语义理解,使得摘要生成过程近似于人类选取摘要的过程,从而能得到高质量的摘要结果。为此,本发明采用的技术方案是,基于注意力模型的有监督视频摘要生成方法,提取视频特征生成视频帧特征序列,使用长短时记忆模型LSTM作为编码器和解码器处理视频帧特征序列,LSTM编码器为双向LSTM的编码器,LSTM的解码器为包含注意力机制的基于单层LSTM的解码器;再结合分段技术,使用“0‑1背包”方法得到关键镜头和关键帧集合,生成视频摘要。本发明主要应用于视频摘要场合。

Description

基于注意力模型的有监督视频摘要生成方法
技术领域
本发明涉及视频摘要技术,具体讲,涉及基于注意力模型的有监督视频摘要生成方法。
背景技术
视频摘要是一种将视频内容以简略、浓缩的形式表现的技术,是对目标视频内容的总结。视频摘要技术有两种呈现形式,一种是基于关键帧的静态视频摘要,一种是基于关键镜头的动态视频摘要,一个理想的视频摘要能够使用户在最短时间内获得目标视频最丰富的信息。
现有的视频摘要技术大多基于无监督学习,但随着人工标注数据的日益丰富,有监督视频摘要逐渐引起了关注。同无监督学习技术不同,有监督学习方法直接从人工摘要中学习出一种更符合人类语义的子集选取框架。有监督视频摘要方法有seqDPP(序列行列式点阵列),vsLSTM(基于长短时记忆的视频摘要)等。
视频摘要解决的问题是从原始视频帧序列中提取关键帧序列或者关键镜头序列,可以看作是序列到序列问题。编-解码(Encoder-Decoder)框架是解决序列到序列问题的经典方案,编码过程将输入的序列编码成一个固定长度的向量,解码过程依据编码向量生成输出序列。视频的帧序列间关系复杂且不均匀,所以摘要的生成需要依赖高层次的语义理解,利用长短时记忆模型(LSTM)作为编码器能够学习到视频帧序列间的长期和短期的依赖关系,从而使视觉上相似但在不同时间段的帧不会在生成关键帧集时被忽略。
编-解码模型的一个重要拓展是加入了注意力机制。网络模型学习到的内部表示很难解释清楚,注意力模型通过捕获模型在执行特定任务时注意力集中的位置,增加了可解释性的维度,提高了学习能力。注意力机制可分为软注意力机制和硬注意力机制,软注意力机制是确定的,可以使用反向传播训练;硬注意力机制具有随机性,可以通过加强算法进行训练。注意力机制在图像描述、语言翻译、文本摘要等领域取得了很大的成功。
发明内容
为克服现有技术的不足,本发明旨在提出基于注意力机制的有监督视频摘要方法,使得摘要结果更接近人类的语义理解,使得摘要生成过程近似于人类选取摘要的过程,从而能得到高质量的摘要结果。为此,本发明采用的技术方案是,基于注意力模型的有监督视频摘要生成方法,提取视频特征生成视频帧特征序列,使用长短时记忆模型LSTM作为编码器和解码器处理视频帧特征序列,LSTM编码器为双向LSTM的编码器,LSTM的解码器为包含注意力机制的基于单层LSTM的解码器;再结合分段技术,使用“0-1背包”方法得到关键镜头和关键帧集合,生成视频摘要。
双向LSTM包含前向和后向LSTM,前向LSTM按时间顺序读入输入序列即从x1到xT,计算前向隐藏状态序列后向LSTM逆时间顺序读入输入序列即从xT到x1,计算后向隐藏状态序列最后将这两个隐藏状态序列连接在一起编码器的隐藏状态就包含了前向的信息和后向的信息。
LSTM的解码器中具体地,设定输出的条件概率:
p(yi|{y1,…,yi-1},x)=g(yi-1,si,ci), (1)
其中si是循环神经网络RNN在i时刻的隐藏状态,由下式计算:
si=f(si-1,yi-1,ci) (2)
每一个目标输出yi,都对应不同的编码向量ci,ci由编码器对输入序列的每个时刻的隐藏状态{h1,…,hT}组成,每个hi包含了输入序列的所有信息并且更关注输入的第i个元素周围的信息,通过这些隐藏状态的加权和来计算编码向量ci
每个隐藏状态hj的权重αij由下式计算:
eij=a(si-1,hj), (4)
生成eij的函数是一个多层神经网络的校准模型,基于解码器的第i-1个隐藏状态和编码器的第j个隐藏状态,刻画了输入的第j个元素对第i个输出元素的影响。
具体的解码步骤为,在得到编码器的隐藏状态{h1,…,hT}后,将其作为输入,同上一个解码器状态si-1结合,依据公式(4)获得αij,再利用公式(2)和公式(3)获得解码器第i个隐藏状态si和第i个输出yi,如此往复,直至得到整个输出序列y={y1,…,yT}。
对所述模型进行训练的步骤:
1)提取视频特征,首先将输入视频转换成帧序列,并提取每帧的特征向量xi,得到输入特征序列x=(x1,x2,…,xT);
2)将得到的视频特征序列输入到所述长短时记忆模型LSTM作为编码器和解码器的模型中,得到输出的重要性分数y={y1,…,yT},同人工标注的重要性分数进行比较,计算两者的均方误差;
3)同时利用输入的视频特征序列x=(x1,x2,…,xT)和得到的重要性分数y={y1,…,yT}对视频进行基于核的时域分割KTS(Kernel Temporal Segmentation),该分割方式首先使用特征序列的相似度计算核矩阵,然后以矩阵累积和的形式计算所有可能的段的段间方差,采用动态规划求解最佳分段方式;
4)结合得到的分段和重要性分数,将视频摘要的生成看作“0-1背包”问题,利用动态规划求解,生成摘要;
5)将得到的摘要同人工标注的摘要比较,通过F-score进行评价;
6)若F-score在模型训练的迭代过程中连续k次下降,则说明模型收敛,训练过程结束。
本发明的特点及有益效果是:
(1)新颖性:首次在视频摘要中引入长短时记忆模型(LSTM)和注意力机制的解码器,充分利用了输入视频序列包含的各种信息,提升生成的视频摘要质量。
(2)有效性:通过实验证明了本发明生成的视频摘要质量优于现有的其他有监督方法,同人工摘要的吻合度较高。
(3)实用性:简单可行,可以用在视频描述、行为识别等其他领域。
附图说明:
图1是本发明的基于注意力机制的视频摘要方法的流程图。虚线部分为模型训练过程。
具体实施方式
本发明涉及一种基于注意力模型机制的有监督视频摘要(或称视频浓缩)技术,它将视频摘要看作是对序列数据的结构预测。使用循环神经网络的长短时记忆模型来刻画视频帧序列间的相互联系,同时在模型中加入注意力机制,主动学习其他帧对当前处理的帧的影响程度,达到了有效利用视频的序列信息,提高视频摘要质量的目的。
本发明的目的在于提供一种基于注意力机制的有监督视频摘要方法。有监督的学习方法使得摘要结果更接近人类的语义理解,基于长短时记忆的编码过程充分考虑了目标视频帧间的长期依赖和短期依赖,编码向量具有更深层次的语义信息。注意力机制的引入使得摘要生成过程近似于人类选取摘要的过程,从而能得到高质量的摘要结果。
本发明将视频摘要问题看作是视频帧序列到关键镜头序列的问题,改进经典的编-解码器模型框架,使用长短时记忆模型(LSTM)作为编码器和解码器,首次在视频摘要问题中引入注意力机制,生成接近人工摘要的重要性分数序列。再结合分段技术,使用“0-1背包”方法得到关键镜头和关键帧集合。其主要技术原理如下:
编-解码框架(Encoder-Decoder)通常指利用循环神经网络作为编解码器的框架,由编码器和解码器两个部分组成:
编码器读取输入的向量序列x=(x1,x2,…,xT),存储到记忆单元c中,最普遍方法是:
ht=f(xt,ht-1), (5)
c=q({h1,…,hT}), (6)
其中表示时刻t的隐藏状态,隐藏单元c是由隐藏状态产生的编码向量。
解码器的作用是结合由编码器获得的编码向量以及之前的输出序列{y1,…,yt-1}生成下一个输出结果yt,具体为,解码器将输出为yt的概率由联合概率分解成有序的条件概率:
当y={y1,…,yT},若使用循环神经网络作为解码器,条件概率可以建模成:
p(yt|{y1,…,yt-1},c)=g(yt-1,st,c), (8)
其中g是一个输出为yt的概率的多层非线性函数,st是解码的循环神经网络的隐藏状态。
长短时记忆模型(LSTM)是循环神经网络的变种,主要解决序列间长距离依赖。使用长短时记忆模型作为编解码器的编码器和解码器,其方法具体原理如下:
长短时记忆模型(LSTM)的核是一个记忆单元c,在每个时间步长对截止到当前的所有输入进行编码。这些记忆单元被非线性的“门”调制,这些“门”决定是否保持“门”上的值。有三个“门”:1)输入门i控制LSTM保留当前输入(xt),2)遗忘门(f)控制是否忘记以前的记忆(ct),3)输出门(o)决定多少记忆转移到隐藏状态(ht)。每个时间步长的变化如下:
ht=ot⊙tanh(ct), (9)
这几个门的结合使得LSTM具有学习序列长时间复杂依赖的能力。在实际应用中,对于输入的序列x=(x1,x2,…,xT),每个时刻t输入相应的xt,依据公式(9)依次更新记忆单元,得到对应的记忆ct和隐藏状态ht
本发明提出了一种新型的视频摘要结构,包括基于双向LSTM的编码器,和包含注 意力机制的基于单层LSTM的解码器。
基于注意力机制的解码器:在新的结构中,我们重新定义了输出的条件概率:
p(yi|{y1,…,yi-1},x)=g(yi-1,si,ci), (10)
其中si是循环神经网络RNN在i时刻的隐藏状态,由下式计算:
si=f(si-1,yi-1,ci) (11)
同传统的编-解码器框架不同的是,这里的每一个目标输出yi,都对应不同的编码向量ci,ci由编码器对输入序列的每个时刻的隐藏状态{h1,…,hT}组成,每个hi包含了输入序列的所有信息并且更关注输入的第i个元素周围的信息。我们通过这些隐藏状态的加权和来计算编码向量ci
每个隐藏状态hj的权重αij由下式计算:
eij=a(si-1,hj), (13)
生成eij的函数是一个多层神经网络的校准模型,基于解码器的第i-1个隐藏状态和编码器的第j个隐藏状态,刻画了输入的第j个元素对第i个输出元素的影响。
具体的解码步骤为,在得到编码器的隐藏状态{h1,…,hT}后,将其作为输入,同上一个解码器状态si-1结合,依据公式(13)获得αij,再利用公式(11)和公式(12)获得解码器第i个隐藏状态si和第i个输出yi,如此往复,直至得到整个输出序列y={y1,…,yT}。
在解码器中引入注意力机制,降低了我们对编码器的要求。解码器可以有选择的索引编码器的隐藏状态,从而提升整个模型的性能。
双向长短时记忆LSTM编码器:在编-解码器框架中,普通的方法是编码器沿着时间顺序读取输入序列,即从x1读到xT。本发明将逆时间顺序情况考虑在内,使用双向长短时记忆LSTM模型。双向长短时记忆LSTM包含前向和后向长短时记忆模型。前向长短时记忆模型按时间顺序读入输入序列(从x1到xT),计算前向隐藏状态序列后向长短时记忆模型逆时间顺序读入输入序列(从xT到x1),计算后向隐藏状态序列最后将这两个隐藏状态序列连接在一起这样,编码器的隐藏状态就包含了前向的信息和后向的信息。
本发明的一个实例中:
图1描述了所提出的视频摘要算法的流程图。本发明所提出的算法是一个端到端的系统,首先对模型进行训练,调整参数。测试阶段输入视频,能够直接生成视频摘要结果。训练阶段具体步骤如下:
1.提取视频特征,首先将输入视频转换成帧序列,并提取每帧的特征向量xi,得到输入特征序列x=(x1,x2,…,xT)。
2.将得到的视频特征序列输入到改进的编-解码模型中,得到输出的重要性分数y={y1,…,yT},同人工标注的重要性分数进行比较,计算两者的均方误差。
3.同时利用输入的视频特征序列x=(x1,x2,…,xT)和得到的重要性分数y={y1,…,yT}对视频进行基于核的时域分割(Kernel Temporal Segmentation,KTS),该分割方式首先使用特征序列的相似度计算核矩阵,然后以矩阵累积和的形式计算所有可能的段的段间方差,采用动态规划求解最佳分段方式。
4.结合得到的分段和重要性分数,将视频摘要的生成看作“0-1背包”问题,利用动态规划求解,生成摘要。
5.将得到的摘要同人工标注的摘要比较,计算F-score(一种评价方法)。
6.若F-score在模型训练的迭代过程中连续k次下降,则说明模型收敛,训练过程结束(k>5即可)。

Claims (5)

1.一种基于注意力模型的有监督视频摘要生成方法,其特征是,提取视频特征生成视频帧特征序列,使用长短时记忆模型LSTM作为编码器和解码器处理视频帧特征序列,LSTM编码器为双向LSTM的编码器,LSTM的解码器为包含注意力机制的基于单层LSTM的解码器;再结合分段技术,使用“0-1背包”方法得到关键镜头和关键帧集合,生成视频摘要。
2.如权利要求1所述的基于注意力模型的有监督视频摘要生成方法,其特征是,双向LSTM包含前向和后向LSTM,前向LSTM按时间顺序读入输入序列即从x1到xT,计算前向隐藏状态序列后向LSTM逆时间顺序读入输入序列即从xT到x1,计算后向隐藏状态序列最后将这两个隐藏状态序列连接在一起编码器的隐藏状态就包含了前向的信息和后向的信息。
3.如权利要求1所述的基于注意力模型的有监督视频摘要生成方法,其特征是,LSTM的解码器中具体地,设定输出的条件概率:
p(yi|{y1,...,yi-1},x)=g(yi-1,si,ci) (1)
其中si是循环神经网络RNN在i时刻的隐藏状态,由下式计算:
si=f(si-1,yi-1,ci) (2)
每一个目标输出yi,都对应不同的编码向量ci,ci由编码器对输入序列的每个时刻的隐藏状态{h1,...,hT}组成,每个hi包含了输入序列的所有信息并且更关注输入的第i个元素周围的信息,通过这些隐藏状态的加权和来计算编码向量ci
<mrow> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msub> <mi>&amp;alpha;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
每个隐藏状态hj的权重αij由下式计算:
<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&amp;alpha;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>a</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
生成eij的函数是一个多层神经网络的校准模型,基于解码器的第i-1个隐藏状态和编码器的第j个隐藏状态,刻画了输入的第j个元素对第i个输出元素的影响。
4.如权利要求3所述的基于注意力模型的有监督视频摘要生成方法,其特征是,具体的解码步骤为,在得到编码器的隐藏状态{h1,...,hT}后,将其作为输入,同上一个解码器状态si-1结合,依据公式(4)获得αij,再利用公式(2)和公式(3)获得解码器第i个隐藏状态si和第i个输出yi,如此往复,直至得到整个输出序列y={y1,...,yT}。
5.如权利要求1所述的基于注意力模型的有监督视频摘要生成方法,其特征是,对所述模型进行训练的步骤:
1)提取视频特征,首先将输入视频转换成帧序列,并提取每帧的特征向量xi,得到输入特征序列x=(x1,x2,…,xT);
2)将得到的视频特征序列输入到所述长短时记忆模型LSTM作为编码器和解码器的模型中,得到输出的重要性分数y={y1,...,yT},同人工标注的重要性分数进行比较,计算两者的均方误差;
3)同时利用输入的视频特征序列x=(x1,x2,…,xT)和得到的重要性分数y={y1,...,yT}对视频进行基于核的时域分割KTS(Kernel Temporal Segmentation),该分割方式首先使用特征序列的相似度计算核矩阵,然后以矩阵累积和的形式计算所有可能的段的段间方差,采用动态规划求解最佳分段方式;
4)结合得到的分段和重要性分数,将视频摘要的生成看作“0-1背包”问题,利用动态规划求解,生成摘要;
5)将得到的摘要同人工标注的摘要比较,通过F-score进行评价;
6)若F-score在模型训练的迭代过程中连续k次下降,则说明模型收敛,训练过程结束。
CN201710612360.0A 2017-07-25 2017-07-25 基于注意力模型的有监督视频摘要生成方法 Active CN107484017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710612360.0A CN107484017B (zh) 2017-07-25 2017-07-25 基于注意力模型的有监督视频摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710612360.0A CN107484017B (zh) 2017-07-25 2017-07-25 基于注意力模型的有监督视频摘要生成方法

Publications (2)

Publication Number Publication Date
CN107484017A true CN107484017A (zh) 2017-12-15
CN107484017B CN107484017B (zh) 2020-05-26

Family

ID=60596760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710612360.0A Active CN107484017B (zh) 2017-07-25 2017-07-25 基于注意力模型的有监督视频摘要生成方法

Country Status (1)

Country Link
CN (1) CN107484017B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108170657A (zh) * 2018-01-04 2018-06-15 陆丽娜 一种自然语言长文本生成方法
CN108229363A (zh) * 2017-12-27 2018-06-29 北京市商汤科技开发有限公司 关键帧调度方法和装置、电子设备、程序和介质
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108734338A (zh) * 2018-04-24 2018-11-02 阿里巴巴集团控股有限公司 基于lstm模型的信用风险预测方法及装置
CN108763198A (zh) * 2018-05-11 2018-11-06 北京理工大学 一种生成式的学术论文中相关工作的自动产生方法
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN108932224A (zh) * 2018-05-18 2018-12-04 义语智能科技(上海)有限公司 实现独立于注意力机制的拷贝机制的方法及设备
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109214003A (zh) * 2018-08-29 2019-01-15 陕西师范大学 基于多层注意力机制的循环神经网络生成标题的方法
CN109213896A (zh) * 2018-08-06 2019-01-15 杭州电子科技大学 基于长短期记忆网络强化学习的水下视频摘要生成方法
CN109359214A (zh) * 2018-10-15 2019-02-19 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、存储介质及终端设备
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN109408630A (zh) * 2018-10-17 2019-03-01 杭州世平信息科技有限公司 一种根据犯罪事实的描述自动生成法院观点的方法
CN109413510A (zh) * 2018-10-19 2019-03-01 深圳市商汤科技有限公司 视频摘要生成方法和装置、电子设备、计算机存储介质
CN109508642A (zh) * 2018-10-17 2019-03-22 杭州电子科技大学 基于双向gru和注意力机制的船舶监控视频关键帧提取方法
CN109743642A (zh) * 2018-12-21 2019-05-10 西北工业大学 基于分层循环神经网络的视频摘要生成方法
CN109800327A (zh) * 2018-12-04 2019-05-24 天津大学 一种基于多跳注意力的视频摘要方法
CN109829579A (zh) * 2019-01-22 2019-05-31 平安科技(深圳)有限公司 最短路线计算方法、装置、计算机设备和存储介质
CN109889923A (zh) * 2019-02-28 2019-06-14 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN110060773A (zh) * 2019-04-22 2019-07-26 东华大学 基于双向lstm的阿尔茨海默症病情发展预测系统
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
WO2019169719A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 文摘自动提取方法、装置、计算机设备及存储介质
CN110263916A (zh) * 2019-05-31 2019-09-20 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110475129A (zh) * 2018-03-05 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
CN110659589A (zh) * 2019-09-06 2020-01-07 中国科学院自动化研究所 基于姿态和注意力机制的行人再识别方法、系统、装置
CN110796058A (zh) * 2019-10-23 2020-02-14 深圳龙岗智能视听研究院 一种基于关键帧提取和层次性表述的视频行为识别方法
CN111460979A (zh) * 2020-03-30 2020-07-28 上海大学 一种基于多层时空框架的关键镜头视频摘要方法
CN111526434A (zh) * 2020-04-24 2020-08-11 西北工业大学 基于转换器的视频摘要方法
CN111797225A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种文本摘要生成方法和装置
CN111836118A (zh) * 2019-04-19 2020-10-27 百度在线网络技术(北京)有限公司 视频处理方法、装置、服务器及存储介质
CN112052841A (zh) * 2020-10-12 2020-12-08 腾讯科技(深圳)有限公司 一种视频摘要的生成方法以及相关装置
CN113204670A (zh) * 2021-05-24 2021-08-03 合肥工业大学 一种基于注意力模型的视频摘要描述生成方法及装置
CN113538604A (zh) * 2020-04-21 2021-10-22 中移(成都)信息通信科技有限公司 图像生成方法、装置、设备及介质
CN114979801A (zh) * 2022-05-10 2022-08-30 上海大学 基于双向卷积长短期记忆网络的动态视频摘要算法及系统
CN115002559A (zh) * 2022-05-10 2022-09-02 上海大学 基于门控多头位置注意力机制的视频摘要算法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014235564A (ja) * 2013-06-02 2014-12-15 データ・サイエンティスト株式会社 評価方法、評価装置、およびプログラム
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
WO2016145379A1 (en) * 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
CN106326837A (zh) * 2016-08-09 2017-01-11 北京旷视科技有限公司 对象追踪方法和装置
CN106407178A (zh) * 2016-08-25 2017-02-15 中国科学院计算技术研究所 一种会话摘要生成方法及装置
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014235564A (ja) * 2013-06-02 2014-12-15 データ・サイエンティスト株式会社 評価方法、評価装置、およびプログラム
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
WO2016145379A1 (en) * 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106326837A (zh) * 2016-08-09 2017-01-11 北京旷视科技有限公司 对象追踪方法和装置
CN106407178A (zh) * 2016-08-25 2017-02-15 中国科学院计算技术研究所 一种会话摘要生成方法及装置

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108229363A (zh) * 2017-12-27 2018-06-29 北京市商汤科技开发有限公司 关键帧调度方法和装置、电子设备、程序和介质
US11164004B2 (en) 2017-12-27 2021-11-02 Beijing Sensetime Technology Development Co., Ltd. Keyframe scheduling method and apparatus, electronic device, program and medium
CN108170657A (zh) * 2018-01-04 2018-06-15 陆丽娜 一种自然语言长文本生成方法
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108319668B (zh) * 2018-01-23 2021-04-20 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN110475129A (zh) * 2018-03-05 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
WO2019169719A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 文摘自动提取方法、装置、计算机设备及存储介质
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN108734338A (zh) * 2018-04-24 2018-11-02 阿里巴巴集团控股有限公司 基于lstm模型的信用风险预测方法及装置
TWI788529B (zh) * 2018-04-24 2023-01-01 開曼群島商創新先進技術有限公司 基於lstm模型的信用風險預測方法及裝置
CN108763198B (zh) * 2018-05-11 2021-06-22 北京理工大学 一种生成式的学术论文中相关工作的自动产生方法
CN108763198A (zh) * 2018-05-11 2018-11-06 北京理工大学 一种生成式的学术论文中相关工作的自动产生方法
CN108932224B (zh) * 2018-05-18 2022-04-29 义语智能科技(上海)有限公司 实现独立于注意力机制的拷贝机制的方法及设备
CN108932224A (zh) * 2018-05-18 2018-12-04 义语智能科技(上海)有限公司 实现独立于注意力机制的拷贝机制的方法及设备
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109101896B (zh) * 2018-07-19 2022-03-25 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109213896A (zh) * 2018-08-06 2019-01-15 杭州电子科技大学 基于长短期记忆网络强化学习的水下视频摘要生成方法
CN109213896B (zh) * 2018-08-06 2021-06-01 杭州电子科技大学 基于长短期记忆网络强化学习的水下视频摘要生成方法
CN109214003B (zh) * 2018-08-29 2019-08-09 陕西师范大学 基于多层注意力机制的循环神经网络生成标题的方法
CN109214003A (zh) * 2018-08-29 2019-01-15 陕西师范大学 基于多层注意力机制的循环神经网络生成标题的方法
CN109359214A (zh) * 2018-10-15 2019-02-19 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、存储介质及终端设备
CN109508642B (zh) * 2018-10-17 2021-08-17 杭州电子科技大学 基于双向gru和注意力机制的船舶监控视频关键帧提取方法
CN109408630B (zh) * 2018-10-17 2021-10-29 杭州世平信息科技有限公司 一种根据犯罪事实的描述自动生成法院观点的方法
CN109508642A (zh) * 2018-10-17 2019-03-22 杭州电子科技大学 基于双向gru和注意力机制的船舶监控视频关键帧提取方法
CN109408630A (zh) * 2018-10-17 2019-03-01 杭州世平信息科技有限公司 一种根据犯罪事实的描述自动生成法院观点的方法
CN109413510A (zh) * 2018-10-19 2019-03-01 深圳市商汤科技有限公司 视频摘要生成方法和装置、电子设备、计算机存储介质
CN109413510B (zh) * 2018-10-19 2021-05-18 深圳市商汤科技有限公司 视频摘要生成方法和装置、电子设备、计算机存储介质
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN109389091B (zh) * 2018-10-22 2022-05-03 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN109800327A (zh) * 2018-12-04 2019-05-24 天津大学 一种基于多跳注意力的视频摘要方法
CN109743642B (zh) * 2018-12-21 2020-07-03 西北工业大学 基于分层循环神经网络的视频摘要生成方法
CN109743642A (zh) * 2018-12-21 2019-05-10 西北工业大学 基于分层循环神经网络的视频摘要生成方法
CN109829579A (zh) * 2019-01-22 2019-05-31 平安科技(深圳)有限公司 最短路线计算方法、装置、计算机设备和存储介质
CN109889923B (zh) * 2019-02-28 2021-03-26 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN109889923A (zh) * 2019-02-28 2019-06-14 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN111836118A (zh) * 2019-04-19 2020-10-27 百度在线网络技术(北京)有限公司 视频处理方法、装置、服务器及存储介质
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
CN110060773A (zh) * 2019-04-22 2019-07-26 东华大学 基于双向lstm的阿尔茨海默症病情发展预测系统
CN110060773B (zh) * 2019-04-22 2023-10-27 东华大学 基于双向lstm的阿尔茨海默症病情发展预测系统
CN110263916B (zh) * 2019-05-31 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110263916A (zh) * 2019-05-31 2019-09-20 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110287374B (zh) * 2019-06-14 2023-01-03 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110659589A (zh) * 2019-09-06 2020-01-07 中国科学院自动化研究所 基于姿态和注意力机制的行人再识别方法、系统、装置
CN110659589B (zh) * 2019-09-06 2022-02-08 中国科学院自动化研究所 基于姿态和注意力机制的行人再识别方法、系统、装置
CN110796058A (zh) * 2019-10-23 2020-02-14 深圳龙岗智能视听研究院 一种基于关键帧提取和层次性表述的视频行为识别方法
CN111460979A (zh) * 2020-03-30 2020-07-28 上海大学 一种基于多层时空框架的关键镜头视频摘要方法
CN113538604B (zh) * 2020-04-21 2024-03-19 中移(成都)信息通信科技有限公司 图像生成方法、装置、设备及介质
CN113538604A (zh) * 2020-04-21 2021-10-22 中移(成都)信息通信科技有限公司 图像生成方法、装置、设备及介质
CN111526434A (zh) * 2020-04-24 2020-08-11 西北工业大学 基于转换器的视频摘要方法
CN111797225A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种文本摘要生成方法和装置
CN111797225B (zh) * 2020-06-16 2023-08-22 北京北大软件工程股份有限公司 一种文本摘要生成方法和装置
CN112052841A (zh) * 2020-10-12 2020-12-08 腾讯科技(深圳)有限公司 一种视频摘要的生成方法以及相关装置
CN112052841B (zh) * 2020-10-12 2021-06-29 腾讯科技(深圳)有限公司 一种视频摘要的生成方法以及相关装置
CN113204670B (zh) * 2021-05-24 2022-12-09 合肥工业大学 一种基于注意力模型的视频摘要描述生成方法及装置
CN113204670A (zh) * 2021-05-24 2021-08-03 合肥工业大学 一种基于注意力模型的视频摘要描述生成方法及装置
CN115002559A (zh) * 2022-05-10 2022-09-02 上海大学 基于门控多头位置注意力机制的视频摘要算法及系统
CN114979801A (zh) * 2022-05-10 2022-08-30 上海大学 基于双向卷积长短期记忆网络的动态视频摘要算法及系统
CN115002559B (zh) * 2022-05-10 2024-01-05 上海大学 基于门控多头位置注意力机制的视频摘要算法及系统

Also Published As

Publication number Publication date
CN107484017B (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN107484017B (zh) 基于注意力模型的有监督视频摘要生成方法
CN110929092B (zh) 一种基于动态注意力机制的多事件视频描述方法
CN109582789B (zh) 基于语义单元信息的文本多标签分类方法
CN110210499B (zh) 一种图像语义描述的自适应生成系统
CN108763444B (zh) 利用分层编码解码器网络机制来解决视频问答的方法
CN108960063B (zh) 一种面向事件关系编码的视频中多事件自然语言描述方法
CN110069778B (zh) 中文融入嵌入词位置感知的商品情感分析方法
CN108024158A (zh) 利用视觉注意力机制的有监督视频摘要提取方法
CN109522403B (zh) 一种基于融合编码的摘要文本生成方法
CN107608943A (zh) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN109543820B (zh) 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN111291534A (zh) 面向中文长文本自动摘要的全局编码方法
WO2022041294A1 (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN110612537A (zh) 用于批归一化的循环高速路网络的系统和方法
Chen et al. Temporal-difference learning with sampling baseline for image captioning
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
Cascianelli et al. Full-GRU natural language video description for service robotics applications
CN111078866A (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN115841119B (zh) 一种基于图结构的情绪原因提取方法
Taylor Composable, distributed-state models for high-dimensional time series
CN113779224A (zh) 一种基于用户对话历史的个性化对话生成方法与系统
CN116863920B (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
CN109918484B (zh) 对话生成方法和装置
CN116977509A (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant