CN111325068A - 基于卷积神经网络的视频描述方法及装置 - Google Patents

基于卷积神经网络的视频描述方法及装置 Download PDF

Info

Publication number
CN111325068A
CN111325068A CN201811536611.2A CN201811536611A CN111325068A CN 111325068 A CN111325068 A CN 111325068A CN 201811536611 A CN201811536611 A CN 201811536611A CN 111325068 A CN111325068 A CN 111325068A
Authority
CN
China
Prior art keywords
training
video
convolution
decoder
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811536611.2A
Other languages
English (en)
Other versions
CN111325068B (zh
Inventor
潘滢炜
姚霆
梅涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201811536611.2A priority Critical patent/CN111325068B/zh
Publication of CN111325068A publication Critical patent/CN111325068A/zh
Application granted granted Critical
Publication of CN111325068B publication Critical patent/CN111325068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明实施例提供一种基于卷积神经网络的视频描述方法及装置,针对待描述视频提取出视觉特征序列后,将该视觉特征序列输入至编码器,由编码器对视觉特征序列进行计算,得到待描述视频的各视频帧的状态向量,然后根据各状态向量确定出平均池化结果并输入至解码器,由解码器根据平均池化结果生成与待描述视频相对应的描述结果。该过程中,利用基于卷积神经网络的编码器‑解码器对待描述视频进行描述,以得到符合人类自然语言且不呆板的描述结果,从而提升视频描述结果。基于卷积神经网络的编码器的前向卷积结构使得计算能够并行化,能够对待描述视频的长序列依赖关系进行建模,解码器能够避免递归神经网络容易出现的梯度弥散和爆炸问题。

Description

基于卷积神经网络的视频描述方法及装置
技术领域
本发明实施例涉及视频描述技术领域,尤其涉及一种基于卷积神经网络的视频描述方法及装置。
背景技术
目前,理解视频内容并使用自然语言对视频进行描述,是计算机视觉和多媒体领域中倍受关注的课题。视频描述是指针对给定的视频,通过观察该视频包含的内容,生成相应的句子。
传统的视频描述方法是采用递归神经网络学习视频描述模型,该视频描述模型包括编码器和解码器。训练好视频描述模型后,将待描述视频输入到视频描述模型,由视频描述模型对待描述视频进行学习,得到描述结果。示例性的,视频描述模型基于模板的方法,分析待描述视频,识别待描述视频中存在的物体,以及物体之间的关系,然后采用固定的语言模板,如主语+谓语+宾语,从所识别的物体中确定主语、宾语,并将物体之间的动作关系作为谓语,从而生成待描述视频的描述结果。
上述视频描述过程中,描述结果很大程度上依赖于给定的句子模板,导致生成的描述结果句式固定,句式过于单一,缺乏人类自然语言表达色彩。
发明内容
本发明实施例提供一种基于卷积神经网络的视频描述方法及装置,以实现提供视频描述质量的目的。
第一方面,本发明实施例提供的一种基于卷积神经网络的视频描述方法,包括:
对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列;
将所述视觉特征序列中的视觉特征依次输入编码器,得到各所述视频帧的状态向量,所述状态向量包含对应视频帧的上下文语义;
确定各所述视频帧的状态向量的平均池化结果;
将所述平均池化结果输入至解码器,以获得与所述待描述视频对应的描述结果,其中,所述编码器和所述解码器是通过卷积神经网络算法学习到的。
一种可行的设计中,所述将所述平均池化结果输入至解码器,以获得与所述待描述视频对应的描述结果,包括:
确定所述待描述视频的中间向量,所述中间向量是所述平均池化结果经过所述解码器中预设层数的卷积块后得到的;
根据所述中间向量和所述状态向量,确定时序注意力值;
根据所述时序注意力机制和所述中间向量,获得与所述待描述视频对应的描述结果。
一种可行的设计中,所述对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列之前,还包括:
利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器和/或所述解码器,所述训练集合包含至少一对训练视频和所述训练视频对应的描述结果。
一种可行的设计中,所述利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器,包括:
对于所述训练集中的每一个训练视频,对所述训练视频的每一视频帧提取视觉特征,得到训练视觉特征序列,所述训练视频包含N帧,所述训练视觉特征序列v=(v1,v2,……vN);
将所述训练视觉特征序列输入到待训练编码器,所述待训练编码器包含L个卷积块,L≥2且为整数;
对所述待训练编码器包含L个卷积块进行训练,得到所述编码器。
一种可行的设计中,所述对所述待训练编码器包含L个卷积块进行训练,得到所述编码器,包括:
根据第l-1个卷积块的输出结果,确定第l个卷积块的输出结果,其中,所述第l-1个卷积块的输出结果为
Figure BDA0001907041100000021
第l个卷积块的输出结果为
Figure BDA0001907041100000022
所述
Figure BDA0001907041100000023
表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果;
根据所述L个卷积块中各卷积块的输出结果,对所述L个卷积块进行训练,得到所述编码器。
一种可行的设计中,所述根据第l-1个卷积块的输出结果,确定第l个卷积块的输出结果,包括:
将所述pl-1中的子序列输入至所述第l个卷积块中的第一一维卷积,得到所述子序列中每个采样位置的偏移量,所述第l个卷积块的卷积核大小为k,所述pl-1中的子序列为
Figure BDA0001907041100000031
rn表示所述R中的第n个元素;
根据所述pl-1中的子序列的每个采样位置的偏移量,对所述pl-1中的子序列中对应的采样位置进行偏移,得到中间子序列;
将所述中间子序列输入至所述第l个卷积块的第二一维卷积,得到所述第二一维卷积的输出结果;
根据所述第二一维卷积的输出结果和门线性单元,确定所述第l个卷积块的输出结果。
一种可行的设计中,所述利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述解码器,包括:
对于所述训练集中的每一个训练视频,对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器,所述待训练解码器包含M个卷积块,M≥2且为整数;
对所述待训练解码器包含的M个卷积块进行训练,得到所述解码器。
一种可行的设计中,所述对所述待训练解码器包含的M个卷积块进行训练,得到所述解码器,包括:
根据第m-1个卷积块的输出结果,确定第m个卷积块的输出结果,其中,所述第m-1个的输出结果为
Figure BDA0001907041100000032
第m个卷积块的输出结果为
Figure BDA0001907041100000033
所述
Figure BDA0001907041100000034
表示第m个卷积块第t时刻的输出结果;
根据所述M个卷积块中各卷积块的输出结果,对所述M个卷积块进行训练,得到所述解码器。
一种可行的设计中,所述根据第m-1个卷积块的输出结果,确定第m个卷积块的输出结果,包括:
将所述qm-1中的子序列输入至所述第m个卷积块中的一维卷积,得到所述第m个卷积块的输出结果,所述第m个卷积块的卷积核大小为k,所述qm-1中的子序列为
Figure BDA0001907041100000041
一种可行的设计中,所述将所述qm-1中的子序列输入至所述第m个卷积块中的一维卷积,得到所述第m个卷积块的输出结果之后,还包括:
根据所述训练视频的各视频帧的所述状态向量和所述解码器,确定注意力分布函数。
第二方面,本发明实施例提供一种基于卷积神经网络的视频描述装置,包括:
提取模块,用于对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列
编码器模块,用于将所述视觉特征序列中的视觉特征依次输入编码器,得到各所述视频帧的状态向量,所述状态向量包含对应视频帧的上下文语义;
池化模块,用于确定各所述视频帧的状态向量的平均池化结果;
解码器模块,用于将所述平均池化结果输入至解码器,以获得与所述待描述视频对应的描述结果,其中,所述编码器和所述解码器是通过卷积神经网络算法学习到的。
一种可行的设计中,上述的装置还包括:
时序注意力模块,用于在所述解码器模块确定所述待描述视频的中间向量,所述中间向量是所述平均池化结果经过所述解码器中预设层数的卷积块后得到的之后,根据所述中间向量和所述状态向量,确定时序注意力值;
所述解码器模块,用于根据所述时序注意力机制和所述中间向量,获得与所述待描述视频对应的描述结果。
一种可行的设计中,上述的装置还包括:
训练模块,用于在所述提取模块对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列之前,利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器和/或所述解码器,所述训练集合包含至少一对训练视频和所述训练视频对应的描述结果。
一种可行的设计中,所述训练模块,在利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器时,对于所述训练集中的每一个训练视频,对所述训练视频的每一视频帧提取视觉特征,得到训练视觉特征序列,所述训练视频包含N帧,所述训练视觉特征序列v=(v1,v2,……vN);将所述训练视觉特征序列输入到待训练编码器,所述待训练编码器包含L个卷积块,L≥2且为整数;对所述待训练编码器包含L个卷积块进行训练,得到所述编码器。
一种可行的设计中,所述训练模块,在对所述待训练编码器包含L个卷积块进行训练,得到所述编码器时,根据第l-1个卷积块的输出结果,确定第l个卷积块的输出结果,其中,所述第l-1个卷积块的输出结果为
Figure BDA0001907041100000051
第l个卷积块的输出结果为
Figure BDA0001907041100000052
所述
Figure BDA0001907041100000053
表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果;根据所述L个卷积块中各卷积块的输出结果,对所述L个卷积块进行训练,得到所述编码器。
一种可行的设计中,所述训练模块,在根据第l-1个卷积块的输出结果,确定第l个卷积块的输出结果时,将所述pl-1中的子序列输入至所述第l个卷积块中的第一一维卷积,得到所述子序列中每个采样位置的偏移量,所述第l个卷积块的卷积核大小为k,所述pl-1中的子序列为
Figure BDA0001907041100000054
Figure BDA0001907041100000055
rn表示所述R中的第n个元素;根据所述pl-1中的子序列的每个采样位置的偏移量,对所述pl-1中的子序列中对应的采样位置进行偏移,得到中间子序列;将所述中间子序列输入至所述第l个卷积块的第二一维卷积,得到所述第二一维卷积的输出结果;根据所述第二一维卷积的输出结果和门线性单元,确定所述第l个卷积块的输出结果。
一种可行的设计中,所述训练模块,对于所述训练集中的每一个训练视频,对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器,所述待训练解码器包含M个卷积块,M≥2且为整数;对所述待训练解码器包含的M个卷积块进行训练,得到所述解码器。
一种可行的设计中,所述训练模块,在对所述待训练解码器包含的M个卷积块进行训练,得到所述解码器时,用于根据第m-1个卷积块的输出结果,确定第m个卷积块的输出结果,其中,所述第m-1个的输出结果为
Figure BDA0001907041100000061
第m个卷积块的输出结果为
Figure BDA0001907041100000062
所述
Figure BDA0001907041100000063
表示第m个卷积块第t时刻的输出结果;根据所述M个卷积块中各卷积块的输出结果,对所述M个卷积块进行训练,得到所述解码器。
一种可行的设计中,所述训练模块,在根据第m-1个卷积块的输出结果,确定第m个卷积块的输出结果时,用于将所述qm-1中的子序列输入至所述第m个卷积块中的一维卷积,得到所述第m个卷积块的输出结果,所述第m个卷积块的卷积核大小为k,所述qm-1中的子序列为
Figure BDA0001907041100000064
一种可行的设计中,所述训练模块,在将所述qm-1中的子序列输入至所述第m个卷积块中的一维卷积,得到所述第m个卷积块的输出结果之后,还用于根据所述训练视频的各视频帧的所述状态向量和所述解码器,确定注意力分布函数。
本发明实施例提供的基于卷积神经网络的视频描述方法及装置,针对待描述视频提取出视觉特征序列后,将该视觉特征序列输入至编码器,由编码器对视觉特征序列进行计算,得到待描述视频的各视频帧的状态向量,然后根据各状态向量确定出平均池化结果并输入至解码器,由解码器根据平均池化结果生成与待描述视频相对应的描述结果。该过程中,利用基于卷积神经网络的编码器-解码器对待描述视频进行描述,以得到符合人类自然语言且不呆板的描述结果,从而提升视频描述结果。基于卷积神经网络的编码器的前向卷积结构使得计算能够并行化,能够对待描述视频的长序列依赖关系进行建模,解码器能够避免递归神经网络容易出现的梯度弥散和爆炸问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于卷积神经网络的视频描述方法的流程图;
图2是本发明实施例提供的一种基于卷积神经网络的编码器-解码器的总体框架图;
图3A是本发明基于卷积神经网络的视频描述方法中一个时序可变形卷积块的示意图;
图3B是本发明基于卷积神经网络的视频描述方法中对时序可变形卷积块中偏移过程的示意图;
图3C是本发明实施例提供的一种基于卷积神经网络的视频描述方法中解码器的卷积块的举例示意图;
图4为本发明实施例提供的一种视频描述装置的结构示意图;
图5为本发明实施例提供的另一种视频描述装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着科技的不断发展,越来越多的用户利用移动设备拍摄视频并上传到互联网,使得通过互联网分享和传播的视频呈爆炸式增长。因此,理解视频内容并使用自然语言对该视频进行描述,成为计算机视觉和多媒体领域中备受关注的课题。对视频描述课题的研究能够推动检索引擎和智能机器人系统的发展,同时还能够辅助视力障碍人士更好的掌握现实世界的情况。
通常情况下,视频描述包括训练视频描述模型和利用训练好的视频描述模型对待描述视频进行描述两部分。现有的视频描述模型是基于递归神经网络的编码器-解码器,由于递归神经网络天然的递归特性,导致基于递归神经网络的编码器-解码器具有如下缺点:第一、在递归神经网络中,编码器-解码器每一时刻状态的计算依赖于前一时刻状态的计算,使得该类模型无法在训练过程中并行化,降低了图形处理器(graphics processingunit,GPU)的使用效率;第二、递归神经网络在对特征序列进行建模的过程中容易出现梯度弥散/爆炸问题,使得模型会忘记长依赖关系;第三,递归神经网络的非线性运算数据随着输入序列的长短而发生变化,使得对模型的优化变得困难。而且,利用基于递归神经网络的编码器-解码器对待描述视频进行视频描述时,基于模板的方法,分析待描述视频,识别待描述视频中存在的物体,以及物体之间的关系,然后采用固定的语言模板,如主语+谓语+宾语,从所识别的物体中确定主语、宾语,并将物体之间的动作关系作为谓语,从而生成待描述视频的描述结果。上述视频描述过程中,描述结果很大程度上依赖于给定的句子模板,导致生成的描述结果句式固定,句式过于单一,缺乏人类自然语言表达色彩。
综合上述可知:现有的视频描述方案和基于递归神经网络的编码器-解码器均存在弊端。有鉴于此,本发明实施例提供一种基于卷积神经网络的视频描述方法及装置,利用卷积神经网络训练编码器-解码器,并利用基于卷积神经网络的编码器-解码器对待描述视频进行描述,以得到符合人类自然语言且不呆板的描述结果,从而提升视频描述结果。
本发明实施例提供的基于卷积神经网络的视频描述方法可应用于需要对视频进行描述的任何场景,执行基于卷积神经网络的视频描述方法的视频描述装置可以设置在电子设备上,也可以设置在服务器上,电子设备例如可以是计算机设备、移动终端设备、自动驾驶车载设备、人机交互设备以及其他电子设备。下面,对本发明实施例所述的基于卷积神经网络的视频描述方法进行详细说明。示例性的,请参照图1。
图1是本发明实施例提供的一种基于卷积神经网络的视频描述方法的流程图。本实施例的执行主体是基于卷积神经网络的视频描述装置,该装置可以通过软件、硬件或者软硬件结合的方式实现,该装置可以是电子设备的部分或者全部,也可以是服务器的部分或全部。本实施以该基于卷积神经网络的视频描述方法应用于电子设备为例进行说明,本实施例包括:
101、对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列。
本发明实施例中,预先获取包含视频-描述对的训练集,利用卷积神经网络对该训练集中的视频-描述对进行学习,得到基于卷积神经网络的编码器-解码器。该基于卷积神经网络的编码器-解码器主要包括编码器和解码器,编码器由若干个时序可变形的卷积块堆叠而成,编码器用于根据每一视频帧的视觉特征,得到包含该视频帧的上下文语义的状态向量,也称之为中间状态向量。解码器由若干个偏移卷积块堆叠而成,用于根据待描述视频所有的视频帧的状态向量的平均池化结果,获得待描述视频的描述结果。
本步骤中,电子设备对待描述视频进行分帧处理,将待描述视频分为连续的视频帧。然后,对每一视频帧提取视觉特征,得到视觉特征序列。其中,视觉特征指视频的场景、视频的对象、对象的动作等。
102、将所述视觉特征序列中的视觉特征依次输入编码器,得到各所述视频帧的状态向量,所述状态向量包含对应视频帧的上下文语义。
本步骤中,将步骤101得到的视觉特征序列输入至视频描述模型的编码器中,得到每一视频帧对应的蕴含上下文语义的状态向量。
103、确定各所述视频帧的状态向量的平均池化结果。
本步骤中,根据各视频帧的状态向量,确定出一个平均池化结果。
104、将所述平均池化结果输入至解码器,以获得与所述待描述视频对应的描述结果。
其中,所述编码器和所述解码器是通过卷积神经网络算法学习到的。
本步骤中,将各视频帧的平均池化结果输入到视频描述模型的解码器中,由解码器对平均池化结果进行学习,得到待描述视频的视频描述结果。
图2是本发明实施例提供的一种基于卷积神经网络的编码器-解码器的总体框架图。根据图2可知,本发明实施例中,基于卷积神经网络的编码器-解码器包括编码器、解码器、平均池化和时序注意力机制。其中,编码器由若干个时序可变形的卷积块堆叠而成,解码器由若干个偏移卷积块堆叠而成。视频描述过程中,将待描述视频输入标准的卷积神经网络,如图2中最左边部分所示,利用该标准的卷积神经网络对待描述视频逐帧进行视觉特征提取,得到视觉特征序列。然后,将该视觉特征序列输入到由若干个时序可变性卷积块堆叠而成的时序可变形卷积编码器中,计算得到每一帧对应的蕴含上下文语义的状态向量。接着,将状态向量的平均池化结果输入到由偏移卷积块堆叠而成的卷积解码其中生成描述结果。
本发明实施例提供的基于卷积神经网络模的视频描述方法,针对待描述视频提取出视觉特征序列后,将该视觉特征序列输入至编码器,由编码器对视觉特征序列进行计算,得到待描述视频的各视频帧的状态向量,然后根据各状态向量确定出平均池化结果并输入至解码器,由解码器根据平均池化结果生成与待描述视频相对应的描述结果。该过程中,利用基于卷积神经网络的编码器-解码器对待描述视频进行描述,以得到符合人类自然语言且不呆板的描述结果,从而提升视频描述结果。
上述实施例中,将平均池化结果作为解码器的输入从而生成描述结果。然而,解码过程中t时刻生成的描述结果中的词语很可能仅仅和待描述视频中的部分视频帧相关,若简单的通过平均池化将编码器输出的状态向量压缩成一个全局特征,很可能会破坏待描述视频的时序结构并引入不相关的视频帧,得到的描述结果并不是最优的。因此,解码过程中,需要引入时序注意力机制,从待描述视频中确定出描述结果中的每个词语对应的视频帧,以精确定位和描述结果中的各个词语有关的视频帧,从而进一步提升视频描述结果。再请参照图2,引入时序注意力机制以后,如图中粗黑实线所示,解码器确定所述待描述视频的中间向量后发送给时序注意力模块,所述中间向量是所述平均池化结果经过所述解码器中预设层数的卷积块后得到的,例如图2中从下往上共3层;时序注意力模块根据所述中间向量和所述状态向量,确定时序注意力值并发送给解码器,如图中粗黑虚线所示;解密器根据所述时序注意力机制和所述中间向量,获得与所述待描述视频对应的描述结果。
以上是如何对待描述视频进行描述进行详细说明。下面,对如何训练视频描述模型,基于卷积神经网络的编码器-解码器进行详细说明。
一种可行的实现方式中,电子设备对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列之前,还利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器和/或所述解码器,所述训练集合包含至少一对训练视频和所述训练视频对应的描述结果。其中,训练基于卷积神经网络的编码器-解码器的过程包括收集训练数据阶段和训练阶段,下面的,对该两个阶段分别进行详细说明。
首先,收集训练数据阶段。
该阶段,从数据库中或网络上搜集视频,并通过人工描述方式等对搜集到的视频进行描述,得到视频-描述对,并将所有的视频-描述对存储在训练集中。例如,从微软研究视频描述语料库(microsoft research video description corpus,MSVD)中获得YouTube的1970个短的视频片段,每个视频片段例如为10帧左右,不同的视频片段的帧数可以相同或不同,每个视频大约有40个英文描述,合计共80000个视频-描述对。再如,从互联网搜集10000个视频,涵盖20个常见类别,平均每个视频大约有20个英文标注,合计共包含200000个视频-描述对。
其次,训练阶段。
本发明实施例中,训练阶段包括确定损失函数阶段、训练编码器阶段、训练解码器阶段和训练时序注意力分布阶段。
首先,确定损失函数阶段。
示例性的,对于训练集中的任意一个训练视频,假设该训练训练视频包含N个视频帧,该训练视频的描述结果为S,定义S=(w1,w2,...,wN)为包含N个词语的句子,v=(v1,v2,...vN)为该训练视频的视觉特征序列。利用待训练编码器对该视觉特征训练进行编码,输出结果为z=(z1,z2,...zN),其中,zi表示表示第i帧的状态向量,1≤i≤N,z=(z1,z2,...zN)蕴含了在自由位置上卷积采样的视频帧之间的上下文信息。随后,z=(z1,z2,...zN)经过平均池化后输入到待训练解码器中生成训练视频的描述结果。此外,本发明实施例利用时序注意力机制来精确定位视觉特征序列中和生成词语相关的部分,进一步提升结果。损失函数如下:
E(v,S)=-logPr(S|v);
给定输入视频的情况下,该损失函数也可以称之为负对数概率函数,该函数中的Pr表示概率(probablily)。利用联合概率计算的链式法则,上述的对数概率可以表示为:
Figure BDA0001907041100000111
本发明实施例中,解码过程中使用前向卷积操作生成描述结果。由于解码器中不存在递归依赖关系,并且所有的真实单词在训练过程中都可以得到,所以联合概率Pr(S|v)可以进行并行计算,从而克服基于递归神经网络的解码器无法并行计算的弊端。
其次,训练编码器阶段。
本发明实施例中,编码器的作用是将视觉序列作为输入然后产生编码了语义内容的状态向量。其中,编码器为时序可变形卷积编码器,该时序可变形编码器通过改进常规的时序卷积,能够学习到训练视频中的场景、动态等。同时,编码器中的前向卷积结果使得计算能够并行化。另外,为了能够对训练视频的长序列关系进行建模,编码器中叠加了时序可变形卷积块。
本发明实施例中,利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器时,对于训练集中的每一个训练视频,对该训练视频的每一个视频帧提取视觉特征,得到训练视觉特征训序列,该训练视频包含N帧,不同训练视频对于的N可以相同或不同,则训练视频对应的视觉特征序列为v=(v1,v2,...vN),将该训练视觉特征序列输入到包含L个卷积块的待训练编码器中,对该待训练编码器包含的L个卷积块进行训练,得到编码器。对待训练编码器包含L个卷积块进行训练,得到编码器的过程中,根据第l-1个卷积块的输出结果,确定第l个卷积块的输出结果,其中,所述第l-1个卷积块的输出结果为
Figure BDA0001907041100000121
第l个卷积块的输出结果为
Figure BDA0001907041100000122
所述
Figure BDA0001907041100000123
表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果,然后,根据所述L个卷积块中各卷积块的输出结果,对所述L个卷积块进行训练,得到所述编码器。示例性的,请参照图3A,图3A是本发明基于卷积神经网络的视频描述方法中一个时序可变形卷积块的示意图。
请参照图3A,令
Figure BDA0001907041100000124
为t时刻的子序列,Xt,可变形卷积块是指输入为以Xt为中心,将Xt左右两边的部分均作为输入,如图中的Xt-k/2到Xt+k/2
本发明实施例中,时序可变形卷积的计算分为偏移量计算过程和偏移过程。示例性的,可参见图3B。
图3B是本发明基于卷积神经网络的视频描述方法中对时序可变形卷积块中偏移过程的示意图。请参照图3B,偏移量计算过程中,首先,将pl-1中的子序列输入至所述第l个卷积块中的第一一维卷积,得到所述子序列中每个采样位置的偏移量,所述第l个卷积块的卷积核大小为k,所述pl-1中的子序列为
Figure BDA0001907041100000125
rn表示所述R中的第n个元素。第l个卷积块的第一一维卷积可以用变换矩阵
Figure BDA0001907041100000126
和偏置
Figure BDA0001907041100000127
表示,输入为X中个k元素的拼接,而输出为k个偏移
Figure BDA0001907041100000128
Figure BDA0001907041100000129
其中,Δri中的第n个元素
Figure BDA0001907041100000131
表示子序列X中第n个卷积采样位置的时序偏移量。
其次,利用得到的偏移量对原来的卷积采样位置进行偏移并输入到另外一个一维卷积中得到输出。该过程中,根据所述pl-1中的子序列的每个采样位置的偏移量,对所述pl-1中的子序列中对应的采样位置进行偏移,得到中间子序列;将所述中间子序列输入至所述第l个卷积块的第二一维卷积,得到所述第二一维卷积的输出结果;根据所述第二一维卷积的输出结果和门线性单元,确定所述第l个卷积块的输出结果。其中,第二一维卷积的输出结果为:
Figure BDA0001907041100000132
其中,
Figure BDA0001907041100000133
表示第二一维卷积中的变换矩阵,
Figure BDA0001907041100000134
表示偏置。应为时序偏移
Figure BDA0001907041100000135
通常为分数,所以
Figure BDA0001907041100000136
可以通过时序线性插值来得到:
Figure BDA0001907041100000137
其中,
Figure BDA0001907041100000138
表示序列中的任意位置,s枚举了pl-1中所有的整数位置,以及插值函数B(a,b)=max(0,1-|a-b|)。
除此之外,本发明实施例中还利用门线性单元(gated linear units,GLU)来使得梯度更容易反向传递。给定时序可变卷积的输出
Figure BDA0001907041100000139
GLU通过一个简单的门机制来计算输出:
Figure BDA00019070411000001310
其中,A,B∈RDr
Figure BDA00019070411000001311
表示点乘,σ(B)表示A中每一个元素和当前上下文相关的概率。引入残差连接后,使得编码器能够有更深的结构。所以,输出
Figure BDA00019070411000001312
最终等于:
Figure BDA00019070411000001313
通过叠加若干个时序可变形卷积块,编码器最后得到输出z=(z1,z2,...zN),其中,zi∈RDr表示第i个视频帧的编码特征,即状态向量。
再次,训练解码器阶段。
一种可行的实现方式中,训练解码器时,对于所述训练集中的每一个训练视频,对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器,所述待训练解码器包含M个卷积块,M≥2且为整数;对所述待训练解码器包含的M个卷积块进行训练,得到所述解码器。
示例性的,另解码器的输出为z=(z1,z2,...zN),对该输出进行平均池化得到
Figure BDA0001907041100000141
在每一个时刻的计算中,将
Figure BDA00019070411000001410
和训练视频对应的描述结果中的词语的嵌入表达式拼接在一起作为第一个偏移卷积块的输入。假设共有M个偏移卷积块,定义第m个卷积块的输出结果为
Figure BDA0001907041100000142
第m-1个的输出结果为
Figure BDA0001907041100000143
所述
Figure BDA0001907041100000144
表示第m个卷积块第t时刻的输出结果;根据所述M个卷积块中各卷积块的输出结果,对所述M个卷积块进行训练,得到所述解码器。
本实施例中,通过将第m-1个偏移卷积块的输出qm-1的子序列输入到一个卷积核大小为k的一维卷积和非线性单元GLU,然后加上残差分支输入,得到t时刻输出
Figure BDA0001907041100000145
和编码器不同的时,因为解码器在解码过程中无法得到未来信息,所以输入的qm-1子序列为
Figure BDA0001907041100000146
示例性的,可参见图3C,图3C是本发明实施例提供的一种基于卷积神经网络的视频描述方法中解码器的卷积块的举例示意图。一个卷积块的输入为t-k时刻到t时刻之间的内容。解码器中每个偏移卷积块操作如下:
Figure BDA0001907041100000147
其中,
Figure BDA0001907041100000148
Figure BDA0001907041100000149
表示第m个卷积块的变换矩阵和偏置。通过叠加若干个偏移卷积块,最后得到输出序列h=(h1,h2,...,hN),其中,ht∈RDf表示t时刻的解码器的状态。
最后,训练时序注意力分布阶段。
一种可行的实现方式中,所述将所述qm-1中的子序列输入至所述第m个卷积块中的一维卷积,得到所述第m个卷积块的输出结果之后,还包括:根据所述训练视频的各视频帧的所述状态向量和所述解码器,确定注意力分布函数。
通常情况下,解码过程中t时刻生成的词语仅仅和输入的视频内容的某些部分相关,简单的通过平均池化将编码器输出的状态向量压缩成一个全局特征,可能会破坏时频中的时序结构并引入不相关的视频内容。本发明实施例中,为避免该弊端,引入时序注意力机制,在每一个时刻t,利用时序注意力机制,根据状态向量和解码器的输出结果计算一个归一化的注意力分布:
Figure BDA0001907041100000151
其中,
Figure BDA0001907041100000152
表示at中的第i个元素,Wa∈R1xDa、Wz∈RDaxDr、Wh∈RDaxDf分别表示变换矩阵。λt∈RN表示归一化注意力分布,
Figure BDA0001907041100000153
表示第i帧状态向量zi的注意力概率。基于注意力概率分布,通过加权和的方式计算
Figure BDA0001907041100000154
Figure BDA0001907041100000155
然后,将
Figure BDA0001907041100000156
进一步的通过一个线性变换然后和ht结合在一起,用于生成下一个词语。
再请参照图2,确定注意力分布函数时,平均池化结果自下往上经过3层偏移卷积块后,得到中间向量,如图中粗黑实线部分所示,该中间向量被返回输入指时序注意力模块,时序注意力模块利用该中间向量和之前的状态向量,得到时序注意力值并返回给解码器,如图中的粗黑虚线所示,解码器根据时序注意力值和中间向量生成描述结果。
图4为本发明实施例提供的一种视频描述装置的结构示意图,该视频描述装置可以通过软件和/或硬件的方式实现。如图4所示,该视频描述装置100包括:
提取模块11,用于对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列
编码器模块12,用于将所述视觉特征序列中的视觉特征依次输入编码器,得到各所述视频帧的状态向量,所述状态向量包含对应视频帧的上下文语义;
池化模块13,用于确定各所述视频帧的状态向量的平均池化结果;
解码器模块14,用于将所述平均池化结果输入至解码器,以获得与所述待描述视频对应的描述结果,其中,所述编码器和所述解码器是通过卷积神经网络算法学习到的。
图5为本发明实施例提供的另一种视频描述装置的结构示意图,该视频描述装置在上述图4的基础上,进一步的,还包括:时序注意力模块15;
时序注意力模块15,用于在所述解码器模块14确定所述待描述视频的中间向量,所述中间向量是所述平均池化结果经过所述解码器中预设层数的卷积块后得到的之后,根据所述中间向量和所述状态向量,确定时序注意力值;
所述解码器模块14,用于根据所述时序注意力机制和所述中间向量,获得与所述待描述视频对应的描述结果。
再请参照图5,上述的视频描述装置进一步的,还包括:
训练模块16,用于在所述提取模块11对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列之前,利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器和/或所述解码器,所述训练集合包含至少一对训练视频和所述训练视频对应的描述结果。
一种可行的设计中,所述训练模块16,在利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器时,对于所述训练集中的每一个训练视频,对所述训练视频的每一视频帧提取视觉特征,得到训练视觉特征序列,所述训练视频包含N帧,所述训练视觉特征序列v=(v1,v2,……vN);将所述训练视觉特征序列输入到待训练编码器,所述待训练编码器包含L个卷积块,L≥2且为整数;对所述待训练编码器包含L个卷积块进行训练,得到所述编码器。
一种可行的设计中,所述训练模块16,在对所述待训练编码器包含L个卷积块进行训练,得到所述编码器时,根据第l-1个卷积块的输出结果,确定第l个卷积块的输出结果,其中,所述第l-1个卷积块的输出结果为
Figure BDA0001907041100000161
第l个卷积块的输出结果为
Figure BDA0001907041100000162
所述
Figure BDA0001907041100000163
表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果;根据所述L个卷积块中各卷积块的输出结果,对所述L个卷积块进行训练,得到所述编码器。
一种可行的设计中,所述训练模块16,在根据第l-1个卷积块的输出结果,确定第l个卷积块的输出结果时,将所述pl-1中的子序列输入至所述第l个卷积块中的第一一维卷积,得到所述子序列中每个采样位置的偏移量,所述第l个卷积块的卷积核大小为k,所述pl -1中的子序列为
Figure BDA0001907041100000171
Figure BDA0001907041100000172
rn表示所述R中的第n个元素;根据所述pl-1中的子序列的每个采样位置的偏移量,对所述pl-1中的子序列中对应的采样位置进行偏移,得到中间子序列;将所述中间子序列输入至所述第l个卷积块的第二一维卷积,得到所述第二一维卷积的输出结果;根据所述第二一维卷积的输出结果和门线性单元,确定所述第l个卷积块的输出结果。
一种可行的设计中,所述训练模块16,对于所述训练集中的每一个训练视频,对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器,所述待训练解码器包含M个卷积块,M≥2且为整数;对所述待训练解码器包含的M个卷积块进行训练,得到所述解码器。
一种可行的设计中,所述训练模块16,在对所述待训练解码器包含的M个卷积块进行训练,得到所述解码器时,用于根据第m-1个卷积块的输出结果,确定第m个卷积块的输出结果,其中,所述第m-1个的输出结果为
Figure BDA0001907041100000173
第m个卷积块的输出结果为
Figure BDA0001907041100000174
所述
Figure BDA0001907041100000175
表示第m个卷积块第t时刻的输出结果;根据所述M个卷积块中各卷积块的输出结果,对所述M个卷积块进行训练,得到所述解码器。
一种可行的设计中,所述训练模块16,在根据第m-1个卷积块的输出结果,确定第m个卷积块的输出结果时,用于将所述qm-1中的子序列和所述训练视频对应的描述结果中t时刻之前的词语输入至所述第m个卷积块中的一维卷积,得到所述第m个卷积块的输出结果,所述第m个卷积块的卷积核大小为k,所述qm-1中的子序列为
Figure BDA0001907041100000176
一种可行的设计中,所述训练模块16,在将所述qm-1中的子序列输入至所述第m个卷积块中的一维卷积,得到所述第m个卷积块的输出结果之后,还用于根据所述训练视频的各视频帧的所述状态向量和所述解码器,确定注意力分布函数。
本发明实施例提供的视频描述装置,其实现原理和技术可参见上述方法实施例,在此不再赘述。
图6为本发明实施例提供的一种电子设备的结构示意图。如图6所示,该电子设备200包括:
至少一个处理器21和存储器22;
所述存储器22存储计算机执行指令;
所述至少一个处理器21执行所述存储器22存储的计算机执行指令,使得所述至少一个处理器21执行如上所述的基于卷积神经网络的视频描述方法。
处理器21的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
可选地,该电子设备200还包括通信部件23。其中,处理器21、存储器22以及通信部件23可以通过总线24连接。
本发明实施例还提供一种存储介质,所述存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上所述的基于卷积神经网络的视频描述方法。
本发明实施例还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述基于卷积神经网络的视频描述方法。
在上述的实施例中,应该理解到,所描述的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(central processing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(industry standard architecture,ISA)总线、外部设备互连(peripheral component,PCI)总线或扩展工业标准体系结构(extendedIndustry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本发明附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits,ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于终端或服务器中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (20)

1.一种基于卷积神经网络的视频描述方法,其特征在于,包括:
对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列;
将所述视觉特征序列中的视觉特征依次输入编码器,得到各所述视频帧的状态向量,所述状态向量包含对应视频帧的上下文语义;
确定各所述视频帧的状态向量的平均池化结果;
将所述平均池化结果输入至解码器,以获得与所述待描述视频对应的描述结果,其中,所述编码器和所述解码器是通过卷积神经网络算法学习到的。
2.根据权利要求1所述的方法,其特征在于,所述将所述平均池化结果输入至解码器,以获得与所述待描述视频对应的描述结果,包括:
确定所述待描述视频的中间向量,所述中间向量是所述平均池化结果经过所述解码器中预设层数的卷积块后得到的;
根据所述中间向量和所述状态向量,确定时序注意力值;
根据所述时序注意力机制和所述中间向量,获得与所述待描述视频对应的描述结果。
3.根据权利要求1或2所述的方法,其特征在于,所述对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列之前,还包括:
利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器和/或所述解码器,所述训练集合包含至少一对训练视频和所述训练视频对应的描述结果。
4.根据权利要求3所述的方法,其特征在于,所述利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器,包括:
对于所述训练集中的每一个训练视频,对所述训练视频的每一视频帧提取视觉特征,得到训练视觉特征序列,所述训练视频包含N帧,所述训练视觉特征序列v=(v1,v2,……vN);
将所述训练视觉特征序列输入到待训练编码器,所述待训练编码器包含L个卷积块,L≥2且为整数;
对所述待训练编码器包含L个卷积块进行训练,得到所述编码器。
5.根据权利要求4所述的方法,其特征在于,所述对所述待训练编码器包含L个卷积块进行训练,得到所述编码器,包括:
根据第l-1个卷积块的输出结果,确定第l个卷积块的输出结果,其中,所述第l-1个卷积块的输出结果为
Figure FDA0001907041090000021
第l个卷积块的输出结果为
Figure FDA0001907041090000022
所述
Figure FDA0001907041090000023
表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果;
根据所述L个卷积块中各卷积块的输出结果,对所述L个卷积块进行训练,得到所述编码器。
6.根据权利要求5所述的方法,其特征在于,所述根据第l-1个卷积块的输出结果,确定第l个卷积块的输出结果,包括:
将所述pl-1中的子序列输入至所述第l个卷积块中的第一一维卷积,得到所述子序列中每个采样位置的偏移量,所述第l个卷积块的卷积核大小为k,所述pl-1中的子序列为
Figure FDA0001907041090000024
rn表示所述R中的第n个元素;
根据所述pl-1中的子序列的每个采样位置的偏移量,对所述pl-1中的子序列中对应的采样位置进行偏移,得到中间子序列;
将所述中间子序列输入至所述第l个卷积块的第二一维卷积,得到所述第二一维卷积的输出结果;
根据所述第二一维卷积的输出结果和门线性单元,确定所述第l个卷积块的输出结果。
7.根据权利要求3所述的方法,其特征在于,所述利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述解码器,包括:
对于所述训练集中的每一个训练视频,对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器,所述待训练解码器包含M个卷积块,M≥2且为整数;
对所述待训练解码器包含的M个卷积块进行训练,得到所述解码器。
8.根据权利要求7所述的方法,其特征在于,所述对所述待训练解码器包含的M个卷积块进行训练,得到所述解码器,包括:
根据第m-1个卷积块的输出结果,确定第m个卷积块的输出结果,其中,所述第m-1个卷积块的输出结果为
Figure FDA0001907041090000025
第m个卷积块的输出结果为
Figure FDA0001907041090000026
所述
Figure FDA0001907041090000027
表示第m个卷积块第t时刻的输出结果;
根据所述M个卷积块中各卷积块的输出结果,对所述M个卷积块进行训练,得到所述解码器。
9.根据权利要求8所述的方法,其特征在于,所述根据第m-1个卷积块的输出结果,确定第m个卷积块的输出结果,包括:
将所述qm-1中的子序列输入至所述第m个卷积块中的一维卷积,得到所述第m个卷积块的输出结果,所述第m个卷积块的卷积核大小为k,所述qm-1中的子序列为
Figure FDA0001907041090000031
10.根据权利要求9所述的方法,其特征在于,所述将所述qm-1中的子序列输入至所述第m个卷积块中的一维卷积,得到所述第m个卷积块的输出结果之后,还包括:
根据所述训练视频的各视频帧的所述状态向量和所述解码器,确定注意力分布函数。
11.一种基于卷积神经网络的视频描述装置,其特征在于,包括:
提取模块,用于对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列
编码器模块,用于将所述视觉特征序列中的视觉特征依次输入编码器,得到各所述视频帧的状态向量,所述状态向量包含对应视频帧的上下文语义;
池化模块,用于确定各所述视频帧的状态向量的平均池化结果;
解码器模块,用于将所述平均池化结果输入至解码器,以获得与所述待描述视频对应的描述结果,其中,所述编码器和所述解码器是通过卷积神经网络算法学习到的。
12.根据权利要求11所述的装置,其特征在于,还包括:
时序注意力模块,用于在所述解码器模块确定所述待描述视频的中间向量,所述中间向量是所述平均池化结果经过所述解码器中预设层数的卷积块后得到的之后,根据所述中间向量和所述状态向量,确定时序注意力值;
所述解码器模块,用于根据所述时序注意力机制和所述中间向量,获得与所述待描述视频对应的描述结果。
13.根据权利要求11或12所述的装置,其特征在于,还包括:
训练模块,用于在所述提取模块对待描述视频的每一视频帧提取视觉特征,得到视觉特征序列之前,利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器和/或所述解码器,所述训练集合包含至少一对训练视频和所述训练视频对应的描述结果。
14.根据权利要求13所述的装置,其特征在于,
所述训练模块,在利用卷积神经网络算法对训练集包含的视频-描述对进行训练,得到所述编码器时,对于所述训练集中的每一个训练视频,对所述训练视频的每一视频帧提取视觉特征,得到训练视觉特征序列,所述训练视频包含N帧,所述训练视觉特征序列v=(v1,v2,……vN);将所述训练视觉特征序列输入到待训练编码器,所述待训练编码器包含L个卷积块,L≥2且为整数;对所述待训练编码器包含L个卷积块进行训练,得到所述编码器。
15.根据权利要求14所述的装置,其特征在于,
所述训练模块,在对所述待训练编码器包含L个卷积块进行训练,得到所述编码器时,根据第l-1个卷积块的输出结果,确定第l个卷积块的输出结果,其中,所述第l-1个卷积块的输出结果为
Figure FDA0001907041090000041
第l个卷积块的输出结果为
Figure FDA0001907041090000042
所述
Figure FDA0001907041090000043
表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果;根据所述L个卷积块中各卷积块的输出结果,对所述L个卷积块进行训练,得到所述编码器。
16.根据权利要求15所述的装置,其特征在于,
所述训练模块,在根据第l-1个卷积块的输出结果,确定第l个卷积块的输出结果时,将所述pl-1中的子序列输入至所述第l个卷积块中的第一一维卷积,得到所述子序列中每个采样位置的偏移量,所述第l个卷积块的卷积核大小为k,所述pl-1中的子序列为
Figure FDA0001907041090000044
rn表示所述R中的第n个元素;根据所述pl-1中的子序列的每个采样位置的偏移量,对所述pl-1中的子序列中对应的采样位置进行偏移,得到中间子序列;将所述中间子序列输入至所述第l个卷积块的第二一维卷积,得到所述第二一维卷积的输出结果;根据所述第二一维卷积的输出结果和门线性单元,确定所述第l个卷积块的输出结果。
17.根据权利要求13所述的装置,其特征在于,
所述训练模块,对于所述训练集中的每一个训练视频,对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器,所述待训练解码器包含M个卷积块,M≥2且为整数;对所述待训练解码器包含的M个卷积块进行训练,得到所述解码器。
18.根据权利要求17所述的装置,其特征在于,
所述训练模块,在对所述待训练解码器包含的M个卷积块进行训练,得到所述解码器时,用于根据第m-1个卷积块的输出结果,确定第m个卷积块的输出结果,其中,所述第m-1个的输出结果为
Figure FDA0001907041090000051
第m个卷积块的输出结果为
Figure FDA0001907041090000052
所述
Figure FDA0001907041090000053
表示第m个卷积块第t时刻的输出结果;根据所述M个卷积块中各卷积块的输出结果,对所述M个卷积块进行训练,得到所述解码器。
19.根据权利要求18所述的装置,其特征在于,
所述训练模块,在根据第m-1个卷积块的输出结果,确定第m个卷积块的输出结果时,用于将所述qm-1中的子序列输入至所述第m个卷积块中的一维卷积,得到所述第m个卷积块的输出结果,所述第m个卷积块的卷积核大小为k,所述qm-1中的子序列为
Figure FDA0001907041090000054
20.根据权利要求19所述的装置,其特征在于,
所述训练模块,在将所述qm-1中的子序列输入至所述第m个卷积块中的一维卷积,得到所述第m个卷积块的输出结果之后,还用于根据所述训练视频的各视频帧的所述状态向量和所述解码器,确定注意力分布函数。
CN201811536611.2A 2018-12-14 2018-12-14 基于卷积神经网络的视频描述方法及装置 Active CN111325068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811536611.2A CN111325068B (zh) 2018-12-14 2018-12-14 基于卷积神经网络的视频描述方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811536611.2A CN111325068B (zh) 2018-12-14 2018-12-14 基于卷积神经网络的视频描述方法及装置

Publications (2)

Publication Number Publication Date
CN111325068A true CN111325068A (zh) 2020-06-23
CN111325068B CN111325068B (zh) 2023-11-07

Family

ID=71172629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811536611.2A Active CN111325068B (zh) 2018-12-14 2018-12-14 基于卷积神经网络的视频描述方法及装置

Country Status (1)

Country Link
CN (1) CN111325068B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191263A (zh) * 2021-04-29 2021-07-30 桂林电子科技大学 一种视频描述方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
US20170262705A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Recurrent networks with motion-based attention for video understanding
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN108960063A (zh) * 2018-06-01 2018-12-07 清华大学深圳研究生院 一种面向事件关系编码的视频中多事件自然语言描述算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
US20170262705A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Recurrent networks with motion-based attention for video understanding
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN108960063A (zh) * 2018-06-01 2018-12-07 清华大学深圳研究生院 一种面向事件关系编码的视频中多事件自然语言描述算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SUBHASHINI VENUGOPALAN 等: "Sequence to Sequence -- Video to Text", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
YINGWEI PAN 等: "Jointly Modeling Embedding and Translation to Bridge Video and Language", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191263A (zh) * 2021-04-29 2021-07-30 桂林电子科技大学 一种视频描述方法及装置

Also Published As

Publication number Publication date
CN111325068B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
Sang et al. PCANet: Pyramid convolutional attention network for semantic segmentation
CN109871736B (zh) 自然语言描述信息的生成方法及装置
CN113435451A (zh) 模型、模型的训练方法和装置、字符序列的识别和装置
CN111709406A (zh) 文本行识别方法及装置、可读存储介质、电子设备
CN111553267A (zh) 图像处理方法、图像处理模型训练方法及设备
CN112804558B (zh) 视频拆分方法、装置及设备
CN112597824A (zh) 行为识别方法、装置、电子设备和存储介质
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN111242068B (zh) 基于视频的行为识别方法、装置、电子设备和存储介质
CN111639547B (zh) 基于生成对抗网络的视频描述方法及系统
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN115880317A (zh) 一种基于多分支特征融合精炼的医学图像分割方法
CN115908991A (zh) 基于特征融合的图像描述模型方法、系统、设备及介质
CN114996495A (zh) 一种基于多原型和迭代增强的单样本图像分割方法及装置
CN114359035A (zh) 一种基于生成对抗网络的人体风格迁移方法、设备及介质
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
CN110659641A (zh) 一种文字识别的方法、装置及电子设备
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN113538254A (zh) 图像恢复方法、装置、电子设备及计算机可读存储介质
CN111325068A (zh) 基于卷积神经网络的视频描述方法及装置
CN116912268A (zh) 一种皮肤病变图像分割方法、装置、设备及存储介质
CN111445545A (zh) 一种文本转贴图方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant