CN111464881A - 基于自优化机制的全卷积视频描述生成方法 - Google Patents

基于自优化机制的全卷积视频描述生成方法 Download PDF

Info

Publication number
CN111464881A
CN111464881A CN201910047321.XA CN201910047321A CN111464881A CN 111464881 A CN111464881 A CN 111464881A CN 201910047321 A CN201910047321 A CN 201910047321A CN 111464881 A CN111464881 A CN 111464881A
Authority
CN
China
Prior art keywords
video
information
visual
model
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910047321.XA
Other languages
English (en)
Other versions
CN111464881B (zh
Inventor
张玥杰
房琨城
周练
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinjiang Hengyuan Technology Development Co ltd
Fudan University
Original Assignee
Jinjiang Hengyuan Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinjiang Hengyuan Technology Development Co ltd filed Critical Jinjiang Hengyuan Technology Development Co ltd
Priority to CN201910047321.XA priority Critical patent/CN111464881B/zh
Publication of CN111464881A publication Critical patent/CN111464881A/zh
Application granted granted Critical
Publication of CN111464881B publication Critical patent/CN111464881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明具体为面向视频的跨模态视频描述生成方法。本发明包括三个主要算法部分,即视频内容理解、显著视觉信息获取、自然语言描述生成。本发明使用新型卷积神经网络为基本模型对视频数据集生产自然语言描述,而未使用传统的循环神经网络,并根据堆叠结构的特性设计全新的注意力机制,计算当前词汇与视觉表示的相关度,同时获取每个时刻最关键的视觉信息。和传统视频描述生成方法相比,本方法所关注的视觉信息更为精确,生成的自然语言描述更加准确且符合日常表达方式。这对考虑视频与文本之间的多模态信息而进行视频理解和表达具有重要意义,能够提高模型对视觉信息的理解能力,增强用户体验,在跨媒体信息理解领域具有广泛应用价值。

Description

基于自优化机制的全卷积视频描述生成方法
技术领域
本发明属于跨媒体生成学习技术领域,具体涉及基于自优化机制的全卷积视频描述生成方法。
技术背景
随着通信和存储技术的发展,网络中视频数据不断增多。视频因其相比于图像和文字包含更大的信息量并更利于理解,这使得视频在很多时候成为一种更好的信息载体。虽然理解视频对于人类十分容易,但对于计算机完成这项工作十分困难。视频描述生成(Video Captioning)是一项非常重要的视觉理解任务,即为所提供的视频生成自然语言描述来描述视频的主要信息,以便通过自然语言描述可以十分简洁地了解视频所包含的语义信息。视频描述生成任务实现从视觉信息到文本信息的映射,随着视频信息的不断增加,该任务具有非常广阔的应用场景,如安防领域的异常描述、短视频评论生成、直播弹幕生成、盲人辅助、跨媒体检索与问答等。相比于图像相关任务,视频描述生成任务具有更大的挑战性,因为视频所包含的信息大部分是重复的冗余信息,包含非常重要的时序信息,且总体上当前视频的质量比图像更低,这些都给视频理解任务带来不小的难度。为更好地理解视频信息,模型不仅需要准确识别出视频中的显著对象、对象的属性、以及对象之间的关系,还需考虑对象自身随时序的变化和不同时间、不同对象之间的关系等等,最后将这些识别出来的信息进行整合,生成一个有意义的自然语言描述句子。
用于生成视频描述的方法大致可以分成两类,即基于语言模板的描述生成和基于序列化学习的描述生成。基于语言模板的方法需要人为预先设定一些语言规则和模板,然后根据模型在视频中所学习到的对象在模板中进行填充,并得到最终的描述。但该方法由于大部分规则都是人为设定,导致最大的问题就是生成的句子不准确并句子形式比较固定,未能很好地发挥出深度学习的能力。当前大部分工作使用的都是基于序列化学习的描述生成。由于近年来深度学习技术的不断进步,卷积神经网络在视觉信息理解任务上和循环神经网络在序列化任务上都取得十分优异的效果,因此序列化学习的描述生成通常使用编码器-解码器的模型架构。在编码器部分,模型使用卷积神经网络来处理视觉信息并将最终的输出传递给解码器;在解码器部分,根据编码器传递来的视觉信息依靠循环神经网络长时记忆的特性,生成最终的视频描述。
当前的序列化学习模型都是基于上述结构,该结构中最重要的一个环节就是作为序列化处理和生成的循环神经网络。但由于这些结构对于循环神经网络的依赖,导致其都有着循环神经网络的缺点。随着循环神经网络应用的不断加深,也发现诸多循环神经网络在视频描述生成任务中的问题。循环神经网络对序列化任务有着很好的效果,但其计算单元十分复杂,由于时序展开导致梯度在循环神经网络中的传递路径很长,且由于循环网络的计算单元十分复杂并在每个时刻需要前一时刻的输出作为当前输入,导致循环神经网络在训练时无法并行。上述这些问题都使得对于循环神经网络的训练变得十分困难并需要大量时间,这使得研究人员寻找不使用循环网络的模型结构来解决序列化问题,并已取得较大突破。
为解决在视频描述生成的任务中所存在的上述缺陷,最终生成更加精确的语言描述,需要解决以下关键问题:
(1)抛弃循环神经网络后,应该怎样构建语义模型,使得新提出的架构能够在减小训练难度的同时保证充分考虑时序信息的作用,最终生成出更加优良的语言描述;
(2)在对传统的编码器-解码器的结构进行修改后,怎样设计出新的注意力权重计算机制来匹配新的模型结构,使得模型可以在每个时刻关注于当前和输入词汇最匹配的视觉信息。
为此,非常有必要借鉴当前相关领域的前沿技术,同时从各个方面考虑以上问题,更加全面地分析与计算视觉信息和语义信息之间的相关度,生成更加精准的语义描述。本发明就是由此激发,从局部到整体,设计包含三个主要算法的一种新颖的技术框架,使用卷积神经网络作为语义模型和相关的视觉/语义特征提取方法,提出全新的视频描述模型,针对视频生成更好的语义内容表达。
发明内容
本发明的目的在于提出一种针对于视频的基于自优化机制的全卷积视频描述生成方法,以提升所生成语言描述的质量。
本发明的具体步骤包含:
步骤1、从多媒体数据集中采集所需要的视频数据,得到视频和所标注的视频描述;
步骤2、对视频进行采样,提取视频帧的视觉特征与对应描述的语义特征,并分别对视觉特征与语义特征进行处理,得到背后隐藏的视觉特征与语义特征;
步骤3、采用跨模态相关性分析算法,分析得到图像视觉特征和语义特征的相关性,并将这两种特征向量映射到同维度下的同构子空间中,构建同一向量空间的特征;
步骤4、使用堆叠的卷积神经网络作为语义模型,接收词汇表示和经过注意力机制选择的视觉辅助信息,在每个时刻对可能生成的词汇进行排序,并选择概率最大的词汇作为下一个时刻的输入,最终生成对于视频的自然语言描述;
步骤5、根据堆叠模型和视频包含的视觉信息,随着层数的堆叠,不断使模型关注不同层级中更为细致的视觉信息,从多个角度解析视觉信息,以实现自优化的注意力机制;
步骤6、根据堆叠模型和提出的自优化注意力机制,高层的模型使用低层已经学习到的信息,使得高层模型找到更加准确的区域,以实现继承注意力机制。
优选地,所述步骤1对于一段视频通常有多个自然语言描述与之对应,整理出在整个数据集中不常出现或者无用的标注词,整理的步骤如下:
步骤1.1:统计数据集标注中所有单词在数据集中出现的频率;
步骤1.2:过滤掉单词中带有数字的无意义单词;
步骤1.3:对于每个图像标注中在整个数据集出现频率较少的单词,将其认为是图像中次要的信息,并予以删除。
优选地,在步骤2进一步包含以下步骤:
步骤2.1、将视频的视觉表示根据每个视频的全局表示和局部表示,区分为两个层级,包含:视频帧全局信息、视频帧帧内区域局部信息;
步骤2.2、根据深度卷积网络的不同层级分为深层表示和浅层表示,深层表示包含更多全局信息,浅层表示包含更多细节信息。
优选地,步骤3跨模态相关性分析算法的具体操作过程为,将步骤2中得到的视频视觉特征向量拼成一个视觉特征矩阵
Figure BDA0001949633770000042
将语义特征向量拼成一个语义特征矩阵
Figure BDA0001949633770000043
在使用不同层级的特征时n代表数据集内的n个样本视频或是一个视频内的n个视频帧;
Figure BDA0001949633770000041
为视觉特征空间的向量矩阵,
Figure BDA0001949633770000044
为语义特征空间的向量矩阵,通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间向量矩阵;再通过线性加权方式对视觉特征与语义特征组合后,得到最终的跨模态相关性特征矩阵。
优选地,在步骤4中,使用堆叠的一维卷积模型作为语义模型;
每一层的卷积网络根据卷积核的大小接收k个词向量作为输入,并输出包含所有输入信息的向量;随着堆叠层数的增加,高层卷积的输出将包含输入句子的所有信息,并最终生成当前时刻的词汇。
优选地,所述步骤5中,对于视频所包含的视觉信息,将其分为视频帧层级和帧内区域层级;其中低层的堆叠模型关注视频帧层级信息,在高层的堆叠模型关注帧内区域层级信息;
所述视频帧层级的信息关注于时间信息和全局视觉信息,帧内区域层级的信息关注于空间和局部视觉信息;
堆叠结构的每一层都对前一结果进行优化,随着层数的增加产生更精确的结果,同时也需求更精准的视觉信息。
优选地,所述步骤6中,高层的模型在计算帧内区域层级的相关度时继承低层模型学习到的视频帧层级相关度;
当计算视频帧内区域的注意力权重时,每个区域的权重的表达式为α×β;其中,α代表当前区域所属的视频帧权重,β代表当前视频帧权重;
根据堆叠模型的结构,高层的堆叠模型首先计算当前视频帧内区域的注意力权重并表示为
Figure BDA0001949633770000051
然后高层的堆叠模型继承低层的堆叠模型学习到的注意力权重α,则一个视频帧区域权重的最终表示形式为
Figure BDA0001949633770000052
优选地,该方法进一步包含:
步骤7、将得到的语义信息和视觉信息间的关系,利用置信度矩阵进行标识,并根据置信度矩阵和所提供的视觉信息,得到一种新的加权后的视觉信息表示;
步骤8、将拼接后的跨模态特征输入至由堆叠卷积网络组成的语义模型,模型会根据输入的语义信息与视觉信息生成最终的自然语言描述。
优选地,步骤7中,在计算视频帧层级的视觉信息时直接将权重矩阵和每个帧的视觉表示相乘;
计算帧内区域层级的视觉信息时,使用已经得到的帧内区域层级的矩阵与帧内区域视觉表示相乘,且还要乘上视频帧层级的矩阵中针对于当前帧的权重矩阵。
优选地,步骤8的自然语言描述生成是基于所述的语义信息和视觉信息来语义生成模型生成下一个时刻的词汇,并最终得到整个生成的视频描述。
较之当前已有的相关视频描述生成方法而言,本发明所提出的方法在应用中存在两大优势,即训练速度更快、生成的描述更为精确。第一,训练速度快主要体现在,本方法的模型全部基于卷积神经网络而抛弃循环神经网络,循环神经网络在每个时刻都需要上一个时刻的输出作为当前时刻的输入,由此模型必须等待上一个时刻的计算结果,使得模型没有办法并行训练,而全卷积的模型则不存在这种情形。第二,生成的描述更为精准,因为本方法对视觉信息进行分级,并设计全新的自优化注意力来使模型不断优化对于视觉信息注意力权重的计算,从而整个模型可以得到更加精准的视觉信息。由于所得到的视觉信息更加准确,所以最终生成的描述可以比较准确地描述视频语义内容,并且生成的自然语言描述内容更加丰富。
综上所述,本发明针对视频描述生成任务中描述生成不准确、训练过慢、以及语义信息和视觉信息相关性不明确等问题,提出一种基于卷积神经网络的自优化视频描述生成方法。本发明方法可有效运用于针对大规模视频的描述生成中,生成更加准确的自然语言描述,提升可用性和用户体验。
附图说明
图1为本发明的流程图;
图2为同一视频不同层级的相关性矩阵。
具体实施方式
下面结合附图,详细介绍基于自优化机制的全卷积视频描述生成方法。
如附图1所示,本发明的具体步骤包含:
步骤1、从多媒体数据集中采集所需要的视频数据,得到视频和所标注的视频描述。
在步骤1中,对于一段视频通常有多个自然语言描述与之对应,整理出在整个数据集中不常出现或者无用的标注词,整理的步骤如下:
步骤1.1:统计数据集标注中所有单词在数据集中出现的频率;
步骤1.2:过滤掉那些单词中带有数字的无意义单词;
步骤1.3:对于每个图像标注中在整个数据集出现频率较少的单词,将其认为是图像中比较次要的信息,并予以删除。
步骤2、对视频进行采样,提取视频帧的视觉特征与对应描述的语义特征,并分别对视觉特征与语义特征进行处理,得到背后隐藏的视觉特征与语义特征。
在步骤2中,将视频的视觉表示根据每个视频的全局表示和局部表示,区分为视频帧全局信息和视频帧帧内区域局部信息两个层级,之后根据深度卷积网络的不同层级分为深层表示和浅层表示,深层表示包含更多全局信息,浅层表示包含更多细节信息。视频的视觉信息通过不同表示区域和不同层级的表示进行组合,可以得到相对于传统表示方法更加精确的视觉表示。视频帧和帧内区域包含的信息不同,其深层和浅层表示所包含的全局和局部信息也不相同,充分使用这些信息可以有效优化最终生成的自然语言描述。
步骤3、采用跨模态相关性分析算法,分析得到图像视觉特征和语义特征的相关性,并将这两种特征向量映射到同维度下的同构子空间中,构建同一向量空间的特征,实现媒体数据不同模态信息在相同信息空间的统一表示。
步骤3的具体操作过程为,将步骤2中得到的视频视觉特征向量拼成一个视觉特征矩阵
Figure BDA0001949633770000072
将语义特征向量拼成一个语义特征矩阵
Figure BDA0001949633770000073
在使用不同层级的特征时n代表数据集内的n个样本视频或是一个视频内的n个视频帧;令
Figure BDA0001949633770000071
为视觉特征空间的向量矩阵,
Figure BDA0001949633770000074
为语义特征空间的向量矩阵,通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间向量矩阵;空间向量矩阵最大化地保持图像视觉特征和语义特征的相关性,并提供其映射到同构子空间的映射关系;进而将图像的视觉特征向量和语义特征向量映射到同维度下的同构子空间中并构建跨模态拼接特征,实现媒体数据不同模态信息的统一表示;通过跨模态相关性分析得到两组空间向量矩阵,然后通过线性加权方式对视觉特征与语义特征组合,并得到最终的跨模态相关性特征矩阵。
步骤4、抛弃传统的循环神经网络,使用堆叠的卷积神经网络作为语义模型,接收词汇表示和经过注意力机制选择的视觉辅助信息,在每个时刻对可能生成的词汇进行排序,并选择概率最大的词汇作为下一个时刻的输入,最终生成对于视频的自然语言描述。
在步骤4中,使用堆叠的一维卷积模型作为语义模型;每一层的卷积网络根据卷积核的大小接收k个词向量作为输入,并输出包含所有输入信息的向量;随着堆叠层数的增加,高层卷积的输出将包含输入句子的所有信息,并最终生成当前时刻的词汇。而且,堆叠的卷积结构也是一种随着堆叠层数增加不断优化前一层输出的自优化结构,相比于传统的单层结构,可以生成相比循环网络更加精确的描述。相对于常用的循环神经网络,卷积网络易于训练、可以缩短梯度的传递路径,并加快模型的训练速度。
步骤5、根据堆叠模型的特点和视频包含的丰富视觉信息,随着层数的堆叠,不断使模型关注不同层级中更为细致的视觉信息,从多个角度解析视觉信息,以实现自优化的注意力机制。
步骤5中,在低层关注视频帧层面的信息,在高层关注视频帧内不同区域的视觉信息;根据堆叠模型随层数不断自优化的特性,提出自优化的注意力机制。对于视频所包含的视觉信息,可以将其分为视频帧和帧内区域两个层级,视频帧层级的信息关注于时间信息和全局视觉信息,帧内区域层级的信息关注于空间和局部视觉信息。视频帧所提供的信息更全面但更粗糙,帧内区域提供的信息更局部但更精确。因为堆叠结构的每一层都是对前一结果的优化,随着层数会产生更精确的结果,同时也需求更精准的视觉信息。
假设,每个视频包含有n个视频帧,则视频可以表示为视频帧的集合F={f1,f2,f3,...,fn},而每个视频帧又可以划分为k个区域fi={l1,l2,l3,...,lk}。句子则可表示为词汇的集合S={s1,s2,s3,...,st}以及对应的视觉注意力映射(α1,...,αd),则对于第t个时刻生成的词语st,其对应的视觉注意力映射为
Figure BDA0001949633770000081
根据所使用的视觉信息不同,n分别代表视频中所使用视频帧的个数或是一个视频帧内的区域个数。堆叠结构在低层计算视频帧的注意力映射,而在高层计算帧内区域的注意力映射。随着层数的堆叠,基于注意力机制所找到的视觉区域不断优化,可以给模型提供更加精准的视觉信息。
步骤6、根据堆叠模型和提出的自优化注意力机制,高层的模型使用低层已经学习到的信息,使得高层模型找到更加准确的区域。
进一步地,步骤6中,根据堆叠结构所提供的信息,提出继承注意力机制。如附图2所示,当计算视频帧内的注意力权重时,每个区域的权重可以表示为α×β,α代表当前区域所属的视频帧权重,β代表当前视频帧权重。根据步骤5所介绍的堆叠注意力模型可知,堆叠模型的低层只计算视频帧级别的权重,高层才会计算视频帧内区域的权重。根据堆叠模型的结构,高层模块首先计算当前视频帧内区域的注意力权重并表示为
Figure BDA0001949633770000091
然后继承低层模块已经学习到的注意力权重α,则一个视频帧区域权重的最终表示形式为
Figure BDA0001949633770000092
根据分层的注意力机制,不同的模块可以专注于特定的任务,所以能够得到更好的结果。
步骤7、将得到的语义信息和视觉信息间的关系,利用相应的置信度矩阵进行标识,并根据置信度矩阵和所提供的视觉信息,得到一种新的加权后的视觉信息表示。
步骤7中,根据上个步骤的计算,已经得到两个层级的权重矩阵,在计算视频帧层级的视觉信息时直接将权重矩阵和每个帧的视觉表示相乘即可。但对于帧内区域的视觉信息,该发明可根据已经得到的信息产生更加精确的结果。在计算帧内区域层级的视觉信息时,使用已经得到的帧内区域层级的矩阵与帧内区域视觉表示相乘,且还要乘上视频帧层级的矩阵中针对于当前帧的权重矩阵。
步骤8、将拼接后的跨模态特征输入至由堆叠卷积网络组成的语义模型,模型会根据输入的语义信息与视觉信息生成最终的自然语言描述。
步骤8的自然语言描述生成,具体是基于上一步骤所得到的语义信息和视觉信息,该发明的语义生成模型可依据这些信息生成下一个时刻的词汇,并最终得到整个生成的视频描述。
本发明的语义描述使用堆叠的卷积神经网络作为语义模型,堆叠层数为4。每一层的卷积网络会接收k个输入特征,并生成一个输出。在前两层使用视频帧层级的视觉信息,而在后两层使用帧内区域的视觉信息。由此,随着层数的累加,根据反向传播对于参数的更新,模型可以自优化地生成更加准确的权重矩阵,并最终生成更加精准的描述。
本发明和传统的循环神经网络结构、以及不使用自优化机制的全卷积结果生成语句进行对比,本发明所生成的视频描述语句相比于其他方法,在生成性能上具有较大提升。
尽管本发明的内容已经通过上述优选实例作了详细介绍,但应当认识到上述的描述不应被认为是本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (10)

1.一种基于自优化机制的全卷积视频描述生成方法,其特征在于,具体步骤包含:
步骤1、从多媒体数据集中采集所需要的视频数据,得到视频和所标注的视频描述;
步骤2、对视频进行采样,提取视频帧的视觉特征与对应描述的语义特征,并分别对视觉特征与语义特征进行处理,得到背后隐藏的视觉特征与语义特征;
步骤3、采用跨模态相关性分析算法,分析得到图像视觉特征和语义特征的相关性,并将这两种特征向量映射到同维度下的同构子空间中,构建同一向量空间的特征;
步骤4、使用堆叠的卷积神经网络作为语义模型,接收词汇表示和经过注意力机制选择的视觉辅助信息,在每个时刻对可能生成的词汇进行排序,并选择概率最大的词汇作为下一个时刻的输入,最终生成对于视频的自然语言描述;
步骤5、根据堆叠模型和视频包含的视觉信息,随着层数的堆叠,不断使模型关注不同层级中更为细致的视觉信息,从多个角度解析视觉信息,以实现自优化的注意力机制;
步骤6、根据堆叠模型和提出的自优化注意力机制,高层的模型使用低层已经学习到的信息,使得高层模型找到更加准确的区域,以实现继承注意力机制。
2.根据权利要求1所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,所述步骤1对于一段视频通常有多个自然语言描述与之对应,整理出在整个数据集中不常出现或者无用的标注词,整理的步骤如下:
步骤1.1:统计数据集标注中所有单词在数据集中出现的频率;
步骤1.2:过滤掉单词中带有数字的无意义单词;
步骤1.3:对于每个图像标注中在整个数据集出现频率较少的单词,将其认为是图像中次要的信息,并予以删除。
3.根据权利要求1所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,在步骤2进一步包含以下步骤:
步骤2.1、将视频的视觉表示根据每个视频的全局表示和局部表示,区分为两个层级,包含:视频帧全局信息、视频帧帧内区域局部信息;
步骤2.2、根据深度卷积网络的不同层级分为深层表示和浅层表示,深层表示包含更多全局信息,浅层表示包含更多细节信息。
4.根据权利要求3所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,步骤3跨模态相关性分析算法的具体操作过程为,将步骤2中得到的视频视觉特征向量拼成一个视觉特征矩阵
Figure FDA0001949633760000021
将语义特征向量拼成一个语义特征矩阵
Figure FDA0001949633760000022
在使用不同层级的特征时n代表数据集内的n个样本视频或是一个视频内的n个视频帧;
Figure FDA0001949633760000023
为视觉特征空间的向量矩阵,
Figure FDA0001949633760000024
为语义特征空间的向量矩阵,通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间向量矩阵;再通过线性加权方式对视觉特征与语义特征组合后,得到最终的跨模态相关性特征矩阵。
5.根据权利要求4所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,在步骤4中,使用堆叠的一维卷积模型作为语义模型;
每一层的卷积网络根据卷积核的大小接收k个词向量作为输入,并输出包含所有输入信息的向量;随着堆叠层数的增加,高层卷积的输出将包含输入句子的所有信息,并最终生成当前时刻的词汇。
6.根据权利要求5所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,所述步骤5中,对于视频所包含的视觉信息,将其分为视频帧层级和帧内区域层级;其中低层的堆叠模型关注视频帧层级信息,在高层的堆叠模型关注帧内区域层级信息;
所述视频帧层级的信息关注于时间信息和全局视觉信息,帧内区域层级的信息关注于空间和局部视觉信息;
堆叠结构的每一层都对前一结果进行优化,随着层数的增加产生更精确的结果,同时也需求更精准的视觉信息。
7.根据权利要求6所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,所述步骤6中,高层的模型在计算帧内区域层级的相关度时继承低层模型学习到的视频帧层级相关度;
当计算视频帧内区域的注意力权重时,每个区域的权重的表达式为α×β;其中,α代表当前区域所属的视频帧权重,β代表当前视频帧权重;
根据堆叠模型的结构,高层的堆叠模型首先计算当前视频帧内区域的注意力权重并表示为
Figure FDA0001949633760000031
然后高层的堆叠模型继承低层的堆叠模型学习到的注意力权重α,则一个视频帧区域权重的最终表示形式为
Figure FDA0001949633760000032
8.根据权利要求1-7任一项所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,该方法进一步包含:
步骤7、将得到的语义信息和视觉信息间的关系,利用置信度矩阵进行标识,并根据置信度矩阵和所提供的视觉信息,得到一种新的加权后的视觉信息表示;
步骤8、将拼接后的跨模态特征输入至由堆叠卷积网络组成的语义模型,模型会根据输入的语义信息与视觉信息生成最终的自然语言描述。
9.根据权利要求8所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,步骤7中,在计算视频帧层级的视觉信息时直接将权重矩阵和每个帧的视觉表示相乘;
计算帧内区域层级的视觉信息时,使用已经得到的帧内区域层级的矩阵与帧内区域视觉表示相乘,且还要乘上视频帧层级的矩阵中针对于当前帧的权重矩阵。
10.根据权利要求9所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,步骤8的自然语言描述生成是基于所述的语义信息和视觉信息来语义生成模型生成下一个时刻的词汇,并最终得到整个生成的视频描述。
CN201910047321.XA 2019-01-18 2019-01-18 基于自优化机制的全卷积视频描述生成方法 Active CN111464881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910047321.XA CN111464881B (zh) 2019-01-18 2019-01-18 基于自优化机制的全卷积视频描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910047321.XA CN111464881B (zh) 2019-01-18 2019-01-18 基于自优化机制的全卷积视频描述生成方法

Publications (2)

Publication Number Publication Date
CN111464881A true CN111464881A (zh) 2020-07-28
CN111464881B CN111464881B (zh) 2021-08-13

Family

ID=71679752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910047321.XA Active CN111464881B (zh) 2019-01-18 2019-01-18 基于自优化机制的全卷积视频描述生成方法

Country Status (1)

Country Link
CN (1) CN111464881B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818846A (zh) * 2021-01-29 2021-05-18 湖南科技学院 视频帧的特征提取方法、装置及电子设备
CN112860847A (zh) * 2021-01-19 2021-05-28 中国科学院自动化研究所 视频问答的交互方法及系统
CN113342997A (zh) * 2021-05-18 2021-09-03 成都快眼科技有限公司 一种基于文本行匹配的跨图文本阅读方法
CN113963304A (zh) * 2021-12-20 2022-01-21 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN113971208A (zh) * 2021-12-22 2022-01-25 山东建筑大学 基于混合注意力机制的视频对象定位方法及系统
CN116246213A (zh) * 2023-05-08 2023-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160004911A1 (en) * 2012-04-23 2016-01-07 Sri International Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108765383A (zh) * 2018-03-22 2018-11-06 山西大学 基于深度迁移学习的视频描述方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10122983B1 (en) * 2013-03-05 2018-11-06 Google Llc Creating a video for an audio file
US9998434B2 (en) * 2015-01-26 2018-06-12 Listat Ltd. Secure dynamic communication network and protocol
CN105760507B (zh) * 2016-02-23 2019-05-03 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN106777388B (zh) * 2017-02-20 2020-11-24 华南理工大学 一种双重补偿的多表哈希图像检索方法
CN107066973B (zh) * 2017-04-17 2020-07-21 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN108460114B (zh) * 2018-02-09 2021-08-31 福州大学 一种基于层次注意力模型的图像检索方法
CN108416065B (zh) * 2018-03-28 2021-08-31 复旦大学 基于层级神经网络的图像-句子描述生成系统及方法
CN108875904A (zh) * 2018-04-04 2018-11-23 北京迈格威科技有限公司 图像处理方法、图像处理装置和计算机可读存储介质
CN108763295B (zh) * 2018-04-18 2021-04-30 复旦大学 一种基于深度学习的视频近似拷贝检索算法
CN108830334B (zh) * 2018-06-25 2020-08-28 江西师范大学 一种基于对抗式迁移学习的细粒度目标判别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160004911A1 (en) * 2012-04-23 2016-01-07 Sri International Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108765383A (zh) * 2018-03-22 2018-11-06 山西大学 基于深度迁移学习的视频描述方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860847A (zh) * 2021-01-19 2021-05-28 中国科学院自动化研究所 视频问答的交互方法及系统
CN112860847B (zh) * 2021-01-19 2022-08-19 中国科学院自动化研究所 视频问答的交互方法及系统
CN112818846A (zh) * 2021-01-29 2021-05-18 湖南科技学院 视频帧的特征提取方法、装置及电子设备
CN113342997A (zh) * 2021-05-18 2021-09-03 成都快眼科技有限公司 一种基于文本行匹配的跨图文本阅读方法
CN113963304A (zh) * 2021-12-20 2022-01-21 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN113963304B (zh) * 2021-12-20 2022-06-28 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN113971208A (zh) * 2021-12-22 2022-01-25 山东建筑大学 基于混合注意力机制的视频对象定位方法及系统
CN116246213A (zh) * 2023-05-08 2023-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质

Also Published As

Publication number Publication date
CN111464881B (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN111464881B (zh) 基于自优化机制的全卷积视频描述生成方法
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN111914085B (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN109874029A (zh) 视频描述生成方法、装置、设备及存储介质
CN110826337A (zh) 一种短文本语义训练模型获取方法及相似度匹配算法
CN113392717B (zh) 一种基于时序特征金字塔的视频密集描述生成方法
CN114419387A (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
WO2023217163A1 (zh) 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN113516152B (zh) 一种基于复合图像语义的图像描述方法
Jain et al. Video captioning: a review of theory, techniques and practices
CN114443899A (zh) 视频分类方法、装置、设备及介质
CN112417092A (zh) 基于深度学习的智能化文本自动生成系统及其实现方法
CN115455171B (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
CN116205222A (zh) 一种基于多通道注意力融合的方面级情感分析系统及方法
CN115203409A (zh) 一种基于门控融合和多任务学习的视频情感分类方法
CN113128206A (zh) 基于单词重要性加权的问题生成方法
Ye et al. A joint-training two-stage method for remote sensing image captioning
CN113392265A (zh) 多媒体处理方法、装置及设备
CN116541492A (zh) 一种数据处理方法及相关设备
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN114491289A (zh) 一种双向门控卷积网络的社交内容抑郁检测方法
CN117313728A (zh) 实体识别方法、模型训练方法、装置、设备和存储介质
CN116543289B (zh) 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant