CN107979764B - 基于语义分割和多层注意力框架的视频字幕生成方法 - Google Patents

基于语义分割和多层注意力框架的视频字幕生成方法 Download PDF

Info

Publication number
CN107979764B
CN107979764B CN201711273239.6A CN201711273239A CN107979764B CN 107979764 B CN107979764 B CN 107979764B CN 201711273239 A CN201711273239 A CN 201711273239A CN 107979764 B CN107979764 B CN 107979764B
Authority
CN
China
Prior art keywords
video
attention
matrix
features
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711273239.6A
Other languages
English (en)
Other versions
CN107979764A (zh
Inventor
吴春雷
魏燚伟
王雷全
褚晓亮
崔学荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201711273239.6A priority Critical patent/CN107979764B/zh
Publication of CN107979764A publication Critical patent/CN107979764A/zh
Application granted granted Critical
Publication of CN107979764B publication Critical patent/CN107979764B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于语义分割与多模态注意力模型相结合的视频多字幕生成方法,包括:步骤1、从要生成字幕的视频中提取多帧图片;步骤2、利用全卷积实例感知语义分割模型,从视频提取某一反卷积层的特征信息;步骤3、提取视频的运动特征以及音频特征;步骤4、利用全卷积实例感知语义分割模型,从在步骤1中提取的图片中提取属性标签,其中,属性标签包含每帧图片中的物体信息;步骤5、并根据在前述步骤中提取的各个信息,生成不同模态的上下文矩阵,并对不同模态的上下文矩阵进行分层融合,生成融合后的上下文矩阵;步骤6、经由LSTM,通过多层感知机处理,得到作为字幕组成部分的单词;步骤7、将得到的所有单词进行串联组合,产生最终的字幕。

Description

基于语义分割和多层注意力框架的视频字幕生成方法
技术领域
本发明涉及计算机视觉和自然语言处理的技术领域,特别是涉及基于计算机视觉的三维特征提取技术和语义分割技术、以及基于自然语言处理的时序模型技术,更具体地,涉及基于全卷积语义分割和多层注意力框架的视频字幕生成方法。
背景技术
视频字幕生成指的是对一段视频自动生成自然语言描述。此类研究在人工智能和计算机视觉领域受到越来越多的关注。在当今社会,它具有非常广泛的应用,例如帮助盲人的日常生活,提高视频在线检索的质量等。除了相关应用之外,视频字幕生成技术对计算机视觉领域和跨模态技术的发展起到了巨大的推动作用。不同于单一的图像处理技术,视频字幕生成不仅要考虑到时间空间的相互协调,还要顾及到视频信息和语义信息的结合。
现有的对视频字幕生成方法的研究主要分为两大方向,分别是基于更多模态融合的方法、以及优化传统注意力模型的方法。
基于更多模态融合的方法以信息论为基础,尽可能地利用视频中的不同种类的信息,例如视频时空信息、分类信息和音频信息等。通过相关融合技术来提高生成字幕(描述)的质量。
优化传统注意力模型的方法主要受到图片描述中软注意力模型的启发。考虑到视频描述的动态性、多样性等特点,通过改变注意力的施加方式及位置来提高生成字幕的质量。
此外,一些科研院所提出了多模态融合技术,其不仅利用了不同的模态信息,还能有效的把不同信息融合在一起。
相比于上述传统方法,多模态融合技术在准确度和个性化方面具有优点。同时,多模态融合技术还存在很多的不足。例如,由于视频的特性,导致视频需要提取大量的图片特征,而对每一张图片都进行大小调整会丢失图片的结构信息,并且提取三维卷积和二维卷积看似提取出了不同的特征,但由于卷积的权值共享因素导致了大量信息的重复提取。目前,虽然利用注意力机制提升了模态之间的融合效果,但对不同模态利用同一注意力操作并没有考虑模态之间存在差异,这会导致模态间的信息交叉干扰。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于完全卷积语义分割和多层注意力模型相结合的视频字幕生成方法。本发明首次实现了把语义分割技术利用到视频字幕生成当中。具体地,以语义分割代替传统的视觉特征,并通过融合语义分割产生的相关词汇来优化视频字幕的质量。
根据本发明的实施例,提供了一种基于全卷积语义分割与多模态注意力模型相结合的视频多字幕生成方法,包括以下步骤:
步骤1、从要生成字幕的视频中提取多帧图片;
步骤2、利用全卷积实例感知语义分割模型,从所述视频提取某一反卷积层的特征信息;
步骤3、提取所述视频的运动特征以及音频特征;
步骤4、利用全卷积实例感知语义分割模型,从在所述步骤1中提取的图片中提取属性标签,其中,所述属性标签包含每一帧图片中的物体信息;
步骤5、并根据在前述步骤中提取的各个信息,生成不同模态的上下文矩阵,并对不同模态的上下文矩阵进行分层融合,生成融合后的上下文矩阵;
步骤6、初始化LSTM网络,将LSTM网络在前一时刻的隐藏层状态ht-1和融合后的
Figure GDA0002257480710000021
传入LSTM网络,得到当前时刻的状态ht,通过对ht做多层感知机处理,得到作为字幕组成部分的单词wordt
步骤7、判断是否在单词wordt中检测到停止标识,若检测到停止标识,则将得到的所有单词wordt进行串联组合,产生最终的字幕;若未检测到停止标识,则返回到步骤5。
由此,本发明提出了一种新的方法来生成视频描述,在各种普及的标准基准上表现出了较好的效果。与现有技术不同,本发明第一次提出了利用fcis(fullyconvolutional instance-aware semantic segmentation)与多层注意力相结合的方法,尽可能利用视频的有用信息,摒弃无用信息,并模拟现实情况提出动作与声音结合的方式。因此,本发明的方法不仅利用了fcis属性和特征突出化的有点,而且还科学地对不同模态施加注意力,让生成的句子(视频描述)更能够真实的反应视频的内容。本发明的方法能够极大地提高不同模态信息的利用率。
附图说明
图1为根据本发明的实施例的基于全卷积语义分割和多层注意力框架的视频字幕生成方法的架构示意图;
图2为本发明的实施例所采用的LSTM网络的结构示意图。
具体实施方式
下面,结合附图对技术方案的实施作进一步的详细描述。
本领域的技术人员能够理解,尽管以下的说明涉及到有关本发明的实施例的很多技术细节,但这仅为用来说明本发明的原理的示例、而不意味着任何限制。本发明能够适用于不同于以下例举的技术细节之外的场合,只要它们不背离本发明的原理和精神即可。
另外,为了避免使本说明书的描述限于冗繁,在本说明书中的描述中,可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理,这对于本领域的技术人员来说是可以理解的,并且这不会影响本说明书的公开充分性。
下面结合附图对具体实施方案进行详细描述。
本发明的目的在于针对每一时刻生成的词,减小对上一次时刻词的依赖,已达到更准确的描述图像的效果。
本发明分别采用C3D(三维卷积神经网络)、MFCC(倒谱系数)、fcis(全卷积语义分割)的全卷积来提取视频动作、时间和声音特征。并且本发明利用fcis的语义分割技术提取视频不同帧的属性。在t时刻,对于第一层注意力模型,主要对音频特征做注意力处理,对于第二层注意力模型,分别针对不同性质的模态信息做注意力处理,对于第三层注意力模型,通过对生成的LSTM的状态做注意力处理。整个模型的架构如图1所示。
图1为根据本发明的实施例的基于全卷积语义分割和多层注意力框架的视频字幕生成方法的架构示意图。如图1所示,FCIS特征(feature)代表对从视频中抽取的图像(帧)提取特征(对应上方的图像特征提取工作),FCIS实例(Instance)代表从视频图像中提取的属性标签,C3D特征(feature)代表提取的三维特征。音频特征(Audio feature)代表提取的声音特征。LSTM代表长短期记忆网络。注意力(Attention)代表不同模态的注意力操作。从图1中可以看出,本发明利用了层次型的注意力方法,用不同层的注意力来编码不同的模态。从图1中还可看出,本发明结合了FCIS的卷积操作和标签提取操作。这正明确了本发明所提出的基于全卷积语义分割(FCIS)和多层注意力相结合的方法。
根据本发明的实施例,提供了一种基于语义分割与多模态注意力模型相结合的视频多字幕生成方法,包括以下步骤(1)至(7),下面逐一说明。
步骤(1):利用OPENCV库,从要生成字幕的视频中提取关键帧,并保存成图片格式,如.jpg格式;
步骤(2):利用全卷积实例感知语义分割模型(Fully Convolutional Instance-aware Semantic Segmentation)代替传统的Resnet(残差网络)模型,从视频提取某一卷积层的特征信息。
步骤(3):利用C3D(三维卷积神经网络)提取视频的空间(三维)特征。利用小波变换技术提取视频中包含的音频特征;
其中,上述步骤(1)至(3)是独立执行的步骤;
步骤(4):利用全卷积实例感知语义分割模型,从在步骤(1)中保存的关键帧图片中提取提取属性标签。属性标签主要包含每一帧图像中的物体信息。如图片中有“人”这个物体,就会把“人”这个词存入属性标签中;
简而言之,上述步骤(1)-(3)是构建编码结构,步骤(4)构建解码结构。编码是用预先规定的方法将文字、数字或其它对象编成数码,或将信息、数据转换成规定的电脉冲信号。编码是信息从一种形式或格式转换为另一种形式的过程。解码,是编码的逆过程。
步骤(5):创建时序引导LSTM网络。其作用主要分为两点,一是提供了对不同模态实施注意力的依据,二是作为字幕生成方法的主体引导框架。以LSTM网络的t-1时刻的隐藏层状态
Figure GDA0002257480710000056
产生的注意力模态的注意力向量,并将其与空间嵌入后的不同模态的特征相互结和,产生不同模态的上下文矩阵ct,并根据视频的特性分层处理注意力模型,最后对不同层的上下文进行融合。其中,所述不同模态的注意力模型包括属性模态注意力模型、视觉模态注意力模型、动作模态注意力模型、声音模态注意力模型。
步骤(6):将ht-1和融合后的
Figure GDA0002257480710000051
传入LSTM得到
Figure GDA0002257480710000052
通过对
Figure GDA0002257480710000053
做多层感知机处理得到单词Wt
步骤(7):判断是否在单词Wt中检测到停止标识,若是,则将得到的所有单词Wt进行串联组合,产生视频字幕;若不是,重复执行步骤(5)至(6),直至检测到停止标识。
在步骤(1)至(4)中,可使用现有方法提取不同的特征,为了使本说明书的描述不限于冗繁,在此不再详述。
下面所以对步骤(5)至(6)的实现(公式)进行详解。
所述步骤(5)的实现:
一、属性模态注意力模型相关公式:
Words=Ins+wordt-1 (1)
Figure GDA0002257480710000054
公式(1)中,Ins代表在步骤(4)中提取的属性标签,wordt-1代表模型上一时刻生成的单词。而公式(1)的加号代表将属性标签和上一时刻生成的单词进行拼接的过程,Words代表所述拼接后生成的词(总和)。
公式(2)中,
Figure GDA0002257480710000055
代表施加注意力后的上下文矩阵,其中的上标W代表“Word”,主要用来说明是对这些“Word”(属性标签和上一时刻生成的词)施加注意力操作,下标t代表时间。funcw表示属性注意力函数。alpha代表对于不同Words分配的权重,其是一个向量,若有n个Words,那它就有n维。
下面是对属性注意力函数的说明。
使用nlp(自然语言处理)中的embedding(空间嵌入)方法并结合非线性化过程,将属性标签Words转化成一个N*L维的向量表示:
Figure GDA0002257480710000061
其中,N为维单词的个数,L为空间嵌入后的属性标签的维度,空间嵌入是一个对向量从低维空间到高维空间转化的过程,如向量本身的维度为m经过空间嵌入后可以变为L,L的具体大小根据情况而定,对于属性矩阵的每个区域,属性注意力模型回归函数softmax根据属性矩阵Words和LSTM在t-1时刻的状态ht-1产生权重向量
Figure GDA0002257480710000062
Figure GDA0002257480710000063
上标W代表word的意思,表示在对语义信息(属性标签)做注意力操作,而非其他的模态。
并进行归一化处理:
Figure GDA0002257480710000064
其中,
Figure GDA0002257480710000065
表示属性注意力模型中属性标签矩阵第i个区域(其中i代表第i个单词对应的向量,而对应到属性标签矩阵中就是第i个区域)在t时刻的权重;wordi,k和wordi,t分别表示属性矩阵Words的不同位置。
作为示例,经过属性注意力模型处理以后的属性上下文为
Figure GDA0002257480710000066
Figure GDA0002257480710000067
二、视觉模态注意力模型相关公式:
Multi_images=Opencv(video,num) (6)
Temporal_features=Fcis_deconv(Multi_images) (7)
Figure GDA0002257480710000071
其中,Multi_images代表在步骤(1)中提取的多帧图片,比如一个视频有150帧,从中提取100帧,那么Multi_images就代表100张图片的总和。而Opencv是一种通用的视频帧提取工具。video代表所要操作的视频,num代表需要提取帧的数量。Temporal_features代表通过全卷积语义分割网络提取的反卷积层的特征。Fcis_deconv代表Fcis(FullyConvolutional Instance-aware Semantic Segmentation)反卷积层函数。
Figure GDA0002257480710000072
表示施加注意力的图像上下文。其中V代表visual,表示是对视觉信息施加注意力操作。
其中,公式(6)表示利用现有opencv技术每几帧提取视频图片(关键帧)的过程。公式(7)表示利用Fcis的反卷积层来从多帧图片中提取反卷积特征,而t代表时刻序列,funcV代表视觉注意力函数,
Figure GDA0002257480710000073
代表对于不同帧分配的权重。
下面说明视觉注意力函数。
使用多张图片形成的时间特征作为特征输入,其被表示为一个N*L*D的三维矩阵(时间特征矩阵),具体形式如下:
Temporal_features={T1,T2........TD}
其中,Ti表示每一张图片的特征,其维度为(N,L),D表示图片(关键帧)个数。
对于时间特征矩阵Temporal_features的每一张图片的特征Ti,视觉注意力模型回归函数softmax根据时间特征矩阵Temporal_features和LSTM在t-1时刻的状态ht-1产生权重向量
Figure GDA0002257480710000074
Figure GDA0002257480710000075
其中,
Figure GDA0002257480710000076
表示视觉注意力模型中图像矩阵第i个区域(其中i代表第i帧对应的向量,而对应到图像矩阵中就是第i个区域。在t时刻的权重;Temporal_featuresi,k和Temporal_featuresi,t分别表示图像矩阵的不同位置。
经过视觉注意力模型处理以后的视觉上下文为
Figure GDA0002257480710000081
Figure GDA0002257480710000082
三、动作模态注意力模型相关公式:
Motion_features=C3D_conv(video) (11)
Figure GDA0002257480710000083
其中,公式(11)表示利用C3D(三维卷积神经网络)从目标视频提取三维特征,其中三维特征代表三维卷积特征,其是从一般的二维卷积特征发展而来,主要用来对视频中的动作提取特征(可参见Learning Spatiotemporal Features with 3D ConvolutionalNetworks),公式(12)中的funcM表示动作注意力函数,
Figure GDA0002257480710000084
表示动作注意力模型中第i个区域在t时刻的权重,t代表时间序列;其中:
Figure GDA0002257480710000085
其中,
Figure GDA0002257480710000086
表示动作注意力模型中动作矩阵第i个区域在t时刻的权重;Motion_featuresi,k和Motion_featuresi,t分别表示动作矩阵的不同位置。
经过动作注意力模型处理以后的动作上下文为
Figure GDA0002257480710000087
Figure GDA0002257480710000088
M代表motion的意思,表示在对动作信息做注意力操作,而非其他的模态。
四、声音模态注意力模型相关公式:
Audio_features=MFCC(audio) (15)
Figure GDA0002257480710000089
其中,公式(15)表示利用MFCC(倒频谱系数)对目标声音提取音频特征,公式(16)的funcA表示声音注意力函数,
Figure GDA00022574807100000810
表示声音注意力模型中第i个区域在t时刻的权重,t代表时间序列;
其中权重计算为:
Figure GDA0002257480710000091
其中,
Figure GDA0002257480710000092
表示声音注意力模型中声音矩阵第i个区域(第i个区域代表声音矩阵的第i行,没有实际意义)在t时刻的权重;Audio_featuresi,k和Audio_featuresi,t分别表示声音矩阵的不同位置。
经过声音注意力模型处理以后的声音上下文为
Figure GDA0002257480710000094
A代表audio的意思,表示在对声音信息做注意力操作,而非其他的模态。
五、注意力模型融合
一层注意力融合公式:
Figure GDA0002257480710000095
Figure GDA0002257480710000096
其中公式(19)中的concentrate代表级联操作。公式(20)的funcM_A表示融合注意力函数,
Figure GDA0002257480710000097
表示融合注意力模型中第i个区域在t时刻的权重,t代表时间序列;
Figure GDA0002257480710000098
二层注意力融合公式:
Figure GDA0002257480710000099
其中公式(21)表示通过相加操作对不同的注意力模型进行融合。
所述步骤(6)的公式为:
Figure GDA00022574807100000910
Figure GDA00022574807100000911
Figure GDA0002257480710000101
Figure GDA0002257480710000102
wordt=MLP(ht) (26)
其中,
Figure GDA0002257480710000103
表示LSTM的左分支,
Figure GDA0002257480710000104
表示LSTM的右分支,LSTM表示长短时记忆网络,ht-1表示LSTM的上一个状态,softmax表示回归函数,nonlinearization表示非线性化操作,ht表示LSTM当前状态,MLP表示多层感知机,wordt表示求得的单词。
本发明采用维度为K的one-hot向量来表示:
模型在t时刻产生的单词wordt的向量的维度为1x K。其中K表示词典的大小。
视频生成的句子用维度为C*K的向量W来表示:
W={w1,...,wc},wi∈RK
其中K表示词典的大小,C表示产生的句子的长度(单词数量)(单词的数量?)。
下面说明本发明的实施例所使用的LSTM网络。
图2为本发明的实施例所采用的LSTM网络的结构示意图。LSTM是循环神经网的特殊形式,它成功解决了循环神经网络的梯度消失和梯度爆炸问题,LSTM的核心是它在每个步骤中的存储单元Cell,每个存储单元由三个Gate(输入门(Input Gate)、遗忘门(ForgetGate)、输出门(Output Gate))和一个cell单元组成。Gate可使用sigmoid激活函数,而input和cell state可使用tanh来转换。
有关构造LSTM网络的具体方式、以及LSTM的Gates、Cell、输入变换和状态更新的具体定义,可从现有资料获得,这对于本领域的技术人员来说是熟知的。为了使本说明书的描述不限于冗繁,在此不再详述。
数据集及实验结果:
下面,选择流行的Youtube2Text和MSR-VTT dataset评估本发明的模型的性能Youtube2Text包含10000个视频片段(video clip),被分为训练,验证和测试集三部分。每个视频片段都被标注了大概20条英文句子。此外,MSR-VTT还提供了每个视频的类别信息(共计20类),这个类别信息算是先验的,在测试集中也是已知的。同时,视频都是包含音频信息的。YouTube2Text dataset(MSVD dataset)数据集同样由Microsoft Research提供,网址为https://www.microsoft.com/en-us/download/details.aspx?id=52422&from=http://research.microsoft.com/en-us/downloads/38cf15fd-b8df-477e-a4e4-a4680caa75af/default.aspx。该数据集包含1970段YouTube视频片段(时长在10-25s之间),每段视频被标注了大概40条英文句子。
实验结果如下表所示。
Figure GDA0002257480710000111
在这项工作中,本发明提出了一种新的方法来完成视频描述。在各种普及的标准基准上表现出了较好的效果。与以前的工作不同,本发明的方法第一次提出了利用fcis与多层注意力相结合的方法,尽可能的利用视频的有用信息,摒弃无用信息,并模拟现实情况提出动作与声音结合的方式。因此,本发明的方法不仅利用了fcis属性和特征突出化的有点,而且还科学的对不同模态施加注意力,让生成的句子更能够真实的反应视频的内容。本发明的模型能够最大化地提高不同模态信息的利用率。
最后,本领域的技术人员能够理解,对本发明的上述实施例能够做出各种修改、变型、以及替换,其均落入如所附权利要求限定的本发明的保护范围。

Claims (9)

1.一种基于全卷积语义分割与多模态注意力模型相结合的视频多字幕生成方法,包括以下步骤:
步骤1、从要生成字幕的视频中提取多帧图片;
步骤2、利用全卷积实例感知语义分割模型,从所述多帧图片提取某一反卷积层的特征信息;
步骤3、提取所述视频的运动特征以及音频特征;
步骤4、利用全卷积实例感知语义分割模型,从在所述步骤1中提取的图片中提取属性标签,其中,所述属性标签包含每一帧图片中的物体信息;
步骤5、并根据在前述步骤中提取的各个信息,生成不同模态的上下文矩阵,并对不同模态的上下文矩阵进行分层融合,生成融合后的上下文矩阵;
步骤6、初始化长短期记忆(LSTM)网络,将长短期记忆网络在前一时刻的隐藏层状态ht -1和融合后的
Figure FDA0002289212280000011
传入长短期记忆网络,得到当前时刻的状态ht,通过对ht做多层感知机处理,得到作为字幕组成部分的单词wordt
步骤7、判断是否在单词wordt中检测到停止标识,若检测到停止标识,则将得到的所有单词wordt进行串联组合,产生最终的字幕;若未检测到停止标识,则返回到步骤5。
2.根据权利要求1所述的方法,其中,在所述步骤3中,利用三维卷积神经网络提取所述视频的运动特征,利用小波变换来提取所述视频的音频特征。
3.根据权利要求1所述的方法,其中,所述不同模态的注意力模型包括属性模态注意力模型、视觉模态注意力模型、运动模态注意力模型、声音模态注意力模型。
4.根据权利要求3所述的方法,其中,在所述步骤5中,如下计算属性模态注意力模型的上下文矩阵
Figure FDA0002289212280000012
Figure FDA0002289212280000013
其中,Words=Ins+wordt-1(1)
其中,在公式(1)中,Ins代表在所述步骤4中提取的属性标签,wordt-1代表模型上一时刻生成的单词,公式(1)的加号代表将属性标签和上一时刻生成的单词进行串联拼接的过程,Words代表所述拼接后生成的单词,
在公式(2)中,
Figure FDA0002289212280000021
的上标W代表对这些单词施加属性注意力操作,下标t代表时间序列,funcw表示属性注意力函数,
Figure FDA0002289212280000022
代表对于不同单词分配的权重。
5.根据权利要求4所述的方法,其中,在所述步骤5中,如下计算视觉模态注意力模型的上下文矩阵
Figure FDA0002289212280000023
Figure FDA0002289212280000024
其中,Temporal_features=Fcis_deconv(Multi_images) (7)
Multi_images=Opencv(video,num) (6)
其中,Multi_images代表在步骤1中提取的多帧图片,Opencv是视频帧提取函数,video代表所要操作的视频,num代表需要提取帧的数量,Temporal_features代表在所述步骤2中提取的反卷积层的特征,Fcis_deconv代表反卷积层函数,
Figure FDA0002289212280000025
的上标V表示是对视觉信息施加注意力操作。
6.根据权利要求5所述的方法,其中,在所述步骤5中,如下计算运动模态注意力模型的上下文矩阵
Figure FDA0002289212280000026
Figure FDA0002289212280000027
其中,Motion_features=C3D_conv(video) (11)
其中,Motion_features表示视频的运动特征矩阵,C3D_conv表示三维卷积神经网络函数,funcM表示运动注意力函数;其中:
Figure FDA0002289212280000028
其中,
Figure FDA0002289212280000029
表示运动注意力模型中运动矩阵第i个区域在t时刻的权重;Motion_featuresi,k和Motion_featuresi,t分别表示运动特征矩阵的不同位置,L1表示运动特征矩阵的列数。
7.根据权利要求6所述的方法,其中,在所述步骤5中,如下计算声音模态注意力模型的上下文矩阵
Figure FDA0002289212280000031
Figure FDA0002289212280000032
其中,Audio_features=MFCC(audio)(15)
其中,Audio_features表示声音特征矩阵,MFCC表示倒频谱系数函数,audio表示所述视频的音频数据,funcA表示声音注意力函数;
其中权重计算为:
Figure FDA0002289212280000033
其中,
Figure FDA0002289212280000034
表示声音注意力模型中声音矩阵第i个区域在t时刻的权重,Audio_featuresi,k和Audio_featuresi,t分别表示声音矩阵的不同位置,L2表示声音矩阵的列数。
8.根据权利要求7所述的方法,其中,在所述步骤5中,通过如下步骤,对不同模态的上下文矩阵进行分层融合,生成融合后的上下文矩阵:
步骤5-1、一层注意力融合,生成上下文矩阵
Figure FDA0002289212280000035
Figure FDA0002289212280000036
其中,concentrate代表级联操作,funcM_A表示融合注意力函数,
Figure FDA0002289212280000037
表示融合注意力模型中第i个区域在t时刻的权重;
Figure FDA0002289212280000038
其中,A_M_contexti,t表示所述第i个区域的
Figure FDA0002289212280000039
Figure FDA00022892122800000310
的级联,L3表示上下文矩阵的列数;
步骤5-2、二层注意力融合,生成融合后的上下文矩阵
Figure FDA00022892122800000311
Figure FDA00022892122800000312
其中公式(21)表示通过相加操作对不同的注意力模型进行融合。
9.根据权利要求8所述的方法,其中,在所述步骤6,如下得到作为字幕组成部分的单词wordt
Figure FDA00022892122800000313
Figure FDA0002289212280000041
Figure FDA0002289212280000042
Figure FDA0002289212280000043
wordt=MLP(ht) (26)
其中,
Figure FDA0002289212280000044
表示长短期记忆网络的左分支,
Figure FDA0002289212280000045
表示LSTM的右分支,softmax表示回归函数,nonlinearization表示非线性化操作,MLP表示多层感知机函数。
CN201711273239.6A 2017-12-06 2017-12-06 基于语义分割和多层注意力框架的视频字幕生成方法 Expired - Fee Related CN107979764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711273239.6A CN107979764B (zh) 2017-12-06 2017-12-06 基于语义分割和多层注意力框架的视频字幕生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711273239.6A CN107979764B (zh) 2017-12-06 2017-12-06 基于语义分割和多层注意力框架的视频字幕生成方法

Publications (2)

Publication Number Publication Date
CN107979764A CN107979764A (zh) 2018-05-01
CN107979764B true CN107979764B (zh) 2020-03-31

Family

ID=62009136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711273239.6A Expired - Fee Related CN107979764B (zh) 2017-12-06 2017-12-06 基于语义分割和多层注意力框架的视频字幕生成方法

Country Status (1)

Country Link
CN (1) CN107979764B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665506B (zh) * 2018-05-10 2021-09-28 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机存储介质及服务器
CN108921032B (zh) * 2018-06-04 2022-04-29 创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN108959512B (zh) * 2018-06-28 2022-04-29 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109002852B (zh) * 2018-07-11 2023-05-23 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN109035233B (zh) * 2018-07-24 2021-09-21 西安邮电大学 视觉注意力网络系统及工件表面缺陷检测方法
CN109190683A (zh) * 2018-08-14 2019-01-11 电子科技大学 一种基于注意力机制和双模态图像的分类方法
CN109344288B (zh) * 2018-09-19 2021-09-24 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN109684449B (zh) * 2018-12-20 2021-12-10 电子科技大学 一种基于注意力机制的自然语言语义表征方法
CN109816039B (zh) * 2019-01-31 2021-04-20 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN109948721B (zh) * 2019-03-27 2021-07-09 北京邮电大学 一种基于视频描述的视频场景分类方法
CN111836111A (zh) * 2019-04-17 2020-10-27 微软技术许可有限责任公司 生成弹幕的技术
CN110136135B (zh) * 2019-05-17 2021-07-06 深圳大学 分割方法、装置、设备以及存储介质
CN110298361B (zh) * 2019-05-22 2021-05-04 杭州未名信科科技有限公司 一种rgb-d图像的语义分割方法和系统
CN110399934A (zh) * 2019-07-31 2019-11-01 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
CN110719436B (zh) * 2019-10-17 2021-05-07 浙江同花顺智能科技有限公司 一种会议文档信息获取方法、装置及其相关设备
CN110991290B (zh) * 2019-11-26 2023-03-10 西安电子科技大学 基于语义指导与记忆机制的视频描述方法
CN112183275A (zh) * 2020-09-21 2021-01-05 北京达佳互联信息技术有限公司 视频描述信息的生成方法、装置及服务器
CN112487937B (zh) * 2020-11-26 2022-12-06 北京有竹居网络技术有限公司 视频识别方法、装置、存储介质及电子设备
CN112489060B (zh) * 2020-12-07 2022-05-10 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN112597278A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 一种语义信息融合方法、装置、电子设备及存储介质
CN112738647B (zh) * 2020-12-28 2022-04-01 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN112820320B (zh) * 2020-12-31 2023-10-20 中国科学技术大学 跨模态注意力一致性网络自监督学习方法
CN113191263B (zh) * 2021-04-29 2022-05-13 桂林电子科技大学 一种视频描述方法及装置
CN113361462B (zh) * 2021-06-30 2022-11-08 北京百度网讯科技有限公司 视频处理和字幕检测模型的方法及装置
CN115359323B (zh) * 2022-08-31 2023-04-25 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
CN116310984B (zh) * 2023-03-13 2024-01-30 中国科学院微电子研究所 基于Token采样的多模态视频字幕生成方法
CN117376634B (zh) * 2023-12-08 2024-03-08 湖南快乐阳光互动娱乐传媒有限公司 一种短视频配乐方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105228033A (zh) * 2015-08-27 2016-01-06 联想(北京)有限公司 一种视频处理方法及电子设备
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107391646A (zh) * 2017-07-13 2017-11-24 清华大学 一种视频图像的语义信息提取方法及装置
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015065594A (ja) * 2013-09-25 2015-04-09 株式会社東芝 情報提供装置、情報提供方法および情報提供プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105228033A (zh) * 2015-08-27 2016-01-06 联想(北京)有限公司 一种视频处理方法及电子设备
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107391646A (zh) * 2017-07-13 2017-11-24 清华大学 一种视频图像的语义信息提取方法及装置
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法

Also Published As

Publication number Publication date
CN107979764A (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
JP7193252B2 (ja) 画像の領域のキャプション付加
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
CN112487182A (zh) 文本处理模型的训练方法、文本处理方法及装置
CN111581437A (zh) 一种视频检索方法及装置
CN113554737A (zh) 目标对象的动作驱动方法、装置、设备及存储介质
CN109919221B (zh) 基于双向双注意力机制图像描述方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN114676234A (zh) 一种模型训练方法及相关设备
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN115329779A (zh) 一种多人对话情感识别方法
CN113505193A (zh) 一种数据处理方法及相关设备
CN116861995A (zh) 多模态预训练模型的训练及多模态数据处理方法和装置
CN114390217A (zh) 视频合成方法、装置、计算机设备和存储介质
CN114021524A (zh) 一种情感识别方法、装置、设备及可读存储介质
CN114390218A (zh) 视频生成方法、装置、计算机设备和存储介质
CN114882862A (zh) 一种语音处理方法及相关设备
CN113392265A (zh) 多媒体处理方法、装置及设备
CN113609922A (zh) 基于模态匹配的连续手语语句识别方法
CN112668347B (zh) 文本翻译方法、装置、设备及计算机可读存储介质
CN113569068B (zh) 描述内容生成方法、视觉内容的编码、解码方法、装置
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN117609550A (zh) 视频标题生成方法和视频标题生成模型的训练方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200331

Termination date: 20211206