CN107979764A - 基于语义分割和多层注意力框架的视频字幕生成方法 - Google Patents

基于语义分割和多层注意力框架的视频字幕生成方法 Download PDF

Info

Publication number
CN107979764A
CN107979764A CN201711273239.6A CN201711273239A CN107979764A CN 107979764 A CN107979764 A CN 107979764A CN 201711273239 A CN201711273239 A CN 201711273239A CN 107979764 A CN107979764 A CN 107979764A
Authority
CN
China
Prior art keywords
video
represent
word
matrix
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711273239.6A
Other languages
English (en)
Other versions
CN107979764B (zh
Inventor
吴春雷
魏燚伟
王雷全
褚晓亮
崔学荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201711273239.6A priority Critical patent/CN107979764B/zh
Publication of CN107979764A publication Critical patent/CN107979764A/zh
Application granted granted Critical
Publication of CN107979764B publication Critical patent/CN107979764B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Abstract

本发明涉及基于语义分割与多模态注意力模型相结合的视频多字幕生成方法,包括:步骤1、从要生成字幕的视频中提取多帧图片;步骤2、利用全卷积实例感知语义分割模型,从视频提取某一反卷积层的特征信息;步骤3、提取视频的运动特征以及音频特征;步骤4、利用全卷积实例感知语义分割模型,从在步骤1中提取的图片中提取属性标签,其中,属性标签包含每帧图片中的物体信息;步骤5、并根据在前述步骤中提取的各个信息,生成不同模态的上下文矩阵,并对不同模态的上下文矩阵进行分层融合,生成融合后的上下文矩阵;步骤6、经由LSTM,通过多层感知机处理,得到作为字幕组成部分的单词;步骤7、将得到的所有单词进行串联组合,产生最终的字幕。

Description

基于语义分割和多层注意力框架的视频字幕生成方法
技术领域
本发明涉及计算机视觉和自然语言处理的技术领域,特别是涉及基于计 算机视觉的三维特征提取技术和语义分割技术、以及基于自然语言处理的时 序模型技术,更具体地,涉及基于全卷积语义分割和多层注意力框架的视频 字幕生成方法。
背景技术
视频字幕生成指的是对一段视频自动生成自然语言描述。此类研究在人 工智能和计算机视觉领域受到越来越多的关注。在当今社会,它具有非常广 泛的应用,例如帮助盲人的日常生活,提高视频在线检索的质量等。除了相 关应用之外,视频字幕生成技术对计算机视觉领域和跨模态技术的发展起到 了巨大的推动作用。不同于单一的图像处理技术,视频字幕生成不仅要考虑 到时间空间的相互协调,还要顾及到视频信息和语义信息的结合。
现有的对视频字幕生成方法的研究主要分为两大方向,分别是基于更多 模态融合的方法、以及优化传统注意力模型的方法。
基于更多模态融合的方法以信息论为基础,尽可能地利用视频中的不同 种类的信息,例如视频时空信息、分类信息和音频信息等。通过相关融合技 术来提高生成字幕(描述)的质量。
优化传统注意力模型的方法主要受到图片描述中软注意力模型的启发。 考虑到视频描述的动态性、多样性等特点,通过改变注意力的施加方式及位 置来提高生成字幕的质量。
此外,一些科研院所提出了多模态融合技术,其不仅利用了不同的模态 信息,还能有效的把不同信息融合在一起。
相比于上述传统方法,多模态融合技术在准确度和个性化方面具有优点。 同时,多模态融合技术还存在很多的不足。例如,由于视频的特性,导致视 频需要提取大量的图片特征,而对每一张图片都进行大小调整会丢失图片的 结构信息,并且提取三维卷积和二维卷积看似提取出了不同的特征,但由于 卷积的权值共享因素导致了大量信息的重复提取。目前,虽然利用注意力机 制提升了模态之间的融合效果,但对不同模态利用同一注意力操作并没有考 虑模态之间存在差异,这会导致模态间的信息交叉干扰。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于完全卷积语义分割 和多层注意力模型相结合的视频字幕生成方法。本发明首次实现了把语义分 割技术利用到视频字幕生成当中。具体地,以语义分割代替传统的视觉特征, 并通过融合语义分割产生的相关词汇来优化视频字幕的质量。
根据本发明的实施例,提供了一种基于全卷积语义分割与多模态注意力 模型相结合的视频多字幕生成方法,包括以下步骤:
步骤1、从要生成字幕的视频中提取多帧图片;
步骤2、利用全卷积实例感知语义分割模型,从所述视频提取某一反卷 积层的特征信息;
步骤3、提取所述视频的运动特征以及音频特征;
步骤4、利用全卷积实例感知语义分割模型,从在所述步骤1中提取的图 片中提取属性标签,其中,所述属性标签包含每一帧图片中的物体信息;
步骤5、并根据在前述步骤中提取的各个信息,生成不同模态的上下文 矩阵,并对不同模态的上下文矩阵进行分层融合,生成融合后的上下文矩阵;
步骤6、初始化LSTM网络,将LSTM网络在前一时刻的隐藏层状态ht-1和 融合后的传入LSTM网络,得到当前时刻的状态ht,通过对ht做多层 感知机处理,得到作为字幕组成部分的单词wordt
步骤7、判断是否在单词wordt中检测到停止标识,若检测到停止标识, 则将得到的所有单词wordt进行串联组合,产生最终的字幕;若未检测到停止 标识,则返回到步骤5。
由此,本发明提出了一种新的方法来生成视频描述,在各种普及的标准 基准上表现出了较好的效果。与现有技术不同,本发明第一次提出了利用fcis (fullyconvolutional instance-aware semantic segmentation)与多层注意力相结合 的方法,尽可能利用视频的有用信息,摒弃无用信息,并模拟现实情况提出 动作与声音结合的方式。因此,本发明的方法不仅利用了fcis属性和特征突 出化的有点,而且还科学地对不同模态施加注意力,让生成的句子(视频描 述)更能够真实的反应视频的内容。本发明的方法能够极大地提高不同模态 信息的利用率。
附图说明
图1为根据本发明的实施例的基于全卷积语义分割和多层注意力框架的 视频字幕生成方法的架构示意图;
图2为本发明的实施例所采用的LSTM网络的结构示意图。
具体实施方式
下面,结合附图对技术方案的实施作进一步的详细描述。
本领域的技术人员能够理解,尽管以下的说明涉及到有关本发明的实施 例的很多技术细节,但这仅为用来说明本发明的原理的示例、而不意味着任 何限制。本发明能够适用于不同于以下例举的技术细节之外的场合,只要它 们不背离本发明的原理和精神即可。
另外,为了避免使本说明书的描述限于冗繁,在本说明书中的描述中, 可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等 处理,这对于本领域的技术人员来说是可以理解的,并且这不会影响本说明 书的公开充分性。
下面结合附图对具体实施方案进行详细描述。
本发明的目的在于针对每一时刻生成的词,减小对上一次时刻词的依赖, 已达到更准确的描述图像的效果。
本发明分别采用C3D(三维卷积神经网络)、MFCC(倒谱系数)、fcis(全 卷积语义分割)的全卷积来提取视频动作、时间和声音特征。并且本发明利 用fcis的语义分割技术提取视频不同帧的属性。在t时刻,对于第一层注意力 模型,主要对音频特征做注意力处理,对于第二层注意力模型,分别针对不 同性质的模态信息做注意力处理,对于第三层注意力模型,通过对生成的 LSTM的状态做注意力处理。整个模型的架构如图1所示。
图1为根据本发明的实施例的基于全卷积语义分割和多层注意力框架的 视频字幕生成方法的架构示意图。如图1所示,FCIS特征(feature)代表对 从视频中抽取的图像(帧)提取特征(对应上方的图像特征提取工作),FCIS 实例(Instance)代表从视频图像中提取的属性标签,C3D特征(feature)代 表提取的三维特征。音频特征(Audio feature)代表提取的声音特征。LSTM 代表长短期记忆网络网络。注意力(Attention)代表不同模态的注意力操作。 从图1中可以看出,本发明利用了层次型的注意力方法,用不同层的注意力来编码不同的模态。从图1中还可看出,本发明结合了FCIS的卷积操作和标 签提取操作。这正明确了本发明所提出的基于全卷积语义分割(FCIS)和多 层注意力相结合的方法。
根据本发明的实施例,提供了一种基于语义分割与多模态注意力模型相 结合的视频多字幕生成方法,包括以下步骤(1)至(7),下面逐一说明。
步骤(1):利用OPENCV库,从要生成字幕的视频中提取关键帧,并保 存成图片格式,如.jpg格式;
步骤(2):利用全卷积实例感知语义分割模型(Fully Convolutional Instance-aware Semantic Segmentation)代替传统的Resnet(残差网络)模型, 从视频提取某一卷积层的特征信息。
步骤(3):利用C3D(三维卷积神经网络)提取视频的空间(三维)特 征。利用小波变换技术提取视频中包含的音频特征;
其中,上述步骤(1)至(3)是独立执行的步骤;
步骤(4):利用全卷积实例感知语义分割模型,从在步骤(1)中保存的 关键帧图片中提取提取属性标签。属性标签主要包含每一帧图像中的物体信 息。如图片中有“人”这个物体,就会把“人”这个词存入属性标签中;
简而言之,上述步骤(1)-(3)是构建编码结构,步骤(4)构建解码 结构。编码是用预先规定的方法将文字、数字或其它对象编成数码,或将信 息、数据转换成规定的电脉冲信号。编码是信息从一种形式或格式转换为另 一种形式的过程。解码,是编码的逆过程。
步骤(5):创建时序引导LSTM网络。其作用主要分为两点,一是提供 了对不同模态实施注意力的依据,二是作为字幕生成方法的主体引导框架。 以LSTM网络的t-1时刻的隐藏层状态产生的注意力模态的注意力向量, 并将其与空间嵌入后的不同模态的特征相互结和,产生不同模态的上下文矩 阵ct,并根据视频的特性分层处理注意力模型,最后对不同层的上下文进行 融合。其中,所述不同模态的注意力模型包括属性模态注意力模型、视觉模 态注意力模型、动作模态注意力模型、声音模态注意力模型。
步骤(6):将ht-1和融合后的传入LSTM得到通过对做多 层感知机处理得到单词Wt
步骤(7):判断是否在单词Wt中检测到停止标识,若是,则将得到的所 有单词Wt进行串联组合,产生视频字幕;若不是,重复执行步骤(5)至(6), 直至检测到停止标识。
在步骤(1)至(4)中,可使用现有方法提取不同的特征,为了使本说 明书的描述不限于冗繁,在此不再详述。
下面所以对步骤(5)至(6)的实现(公式)进行详解。
所述步骤(5)的实现:
一、属性模态注意力模型相关公式:
Words=Ins+wordt-1 (1)
公式(1)中,Ins代表在步骤(4)中提取的属性标签,wordt-1代表模型 上一时刻生成的单词。而公式(1)的加号代表将属性标签和上一时刻生成的 单词进行拼接的过程,Words代表所述拼接后生成的词(总和)。
公式(2)中,代表施加注意力后的上下文矩阵,其中的上标W 代表“Word”,主要用来说明是对这些“Word”(属性标签和上一时刻生成的 词)施加注意力操作,下标t代表时间。funcw表示属性注意力函数。alpha代 表对于不同Words分配的权重,其是一个向量,若有n个Words,那它就有n 维。
下面是对属性注意力函数的说明。
使用nlp(自然语言处理)中的embedding(空间嵌入)方法并结合非线 性化过程,将属性标签Words转化成一个N*L维的向量表示:
其中,N为维单词的个数,L为空间嵌入后的属性标签的维度,空间嵌 入是一个对向量从低维空间到高维空间转化的过程,如向量本身的维度为m 经过空间嵌入后可以变为L,L的具体大小根据情况而定,对于属性矩阵的每 个区域,属性注意力模型回归函数softmax根据属性矩阵Words和LSTM在t-1 时刻的状态ht-1产生权重向量
上标W代表word的意思,表示在对语义信息(属性标签)做注意力操作,而非其他的模态。
并进行归一化处理:
其中,表示属性注意力模型中属性标签矩阵第i个区域(其中i代 表第i个单词对应的向量,而对应到属性标签矩阵中就是第i个区域)在t时 刻的权重;wordi,k和wordi,t分别表示属性矩阵Words的不同位置。
作为示例,经过属性注意力模型处理以后的属性上下文为
二、视觉模态注意力模型相关公式:
Multi_images=Opencv(video,num) (6)
Temporal_features=Fcis_deconv(Multi_images) (7)
其中,Multi_images代表在步骤(1)中提取的多帧图片,比如一个视频 有150帧,从中提取100帧,那么Multi_images就代表100张图片的总和。而 Opencv是一种通用的视频帧提取工具。video代表所要操作的视频,num代 表需要提取帧的数量。Temporal_features代表通过全卷积语义分割网络提取的 反卷积层的特征。Fcis_deconv代表Fcis(FullyConvolutional Instance-aware Semantic Segmentation)反卷积层函数。表示施加注意力的图像上下文。 其中V代表visual,表示是对视觉信息施加注意力操作。
其中,公式(6)表示利用现有opencv技术每几帧提取视频图片(关键 帧)的过程。公式(7)表示利用Fcis的反卷积层来从多帧图片中提取反卷积 特征,而t代表时刻序列,funcV代表视觉注意力函数,代表对于不同帧 分配的权重。
下面说明视觉注意力函数。
使用多张图片形成的时间特征作为特征输入,其被表示为一个N*L*D的 三维矩阵(时间特征矩阵),具体形式如下:
Temporal_features={T1,T2........TD}
其中,Ti表示每一张图片的特征,其维度为(N,L),D表示图片(关 键帧)个数。
对于时间特征矩阵Temporal_features的每一张图片的特征Ti,视觉注意 力模型回归函数softmax根据时间特征矩阵Temporal_features和LSTM在t-1 时刻的状态ht-1产生权重向量
其中,表示视觉注意力模型中图像矩阵第i个区域(其中i代表第i 帧对应的向量,而对应到图像矩阵中就是第i个区域。在t时刻的权重; Temporal_featuresi,k和Temporal_featuresi,t分别表示图像矩阵的不同位置。
经过视觉注意力模型处理以后的视觉上下文为
三、动作模态注意力模型相关公式:
Motion_features=C3D_conv(video) (11)
其中,公式(11)表示利用C3D(三维卷积神经网络)从目标视频提取 三维特征,其中三维特征代表三维卷积特征,其是从一般的二维卷积特征发 展而来,主要用来对视频中的动作提取特征(可参见Learning Spatiotemporal Features with 3D ConvolutionalNetworks),公式(12)中的funcM表示动作注意 力函数,表示动作注意力模型中第i个区域在t时刻的权重,t代表时间 序列;其中:
其中,表示动作注意力模型中动作矩阵第i个区域在t时刻的权重;Motion_featuresi,k和Motion_featuresi,t分别表示动作矩阵的不同位置。
经过动作注意力模型处理以后的动作上下文为
M代表motion的意思,表示在对动作信息做注意力操作,而非其他的模 态。
四、声音模态注意力模型相关公式:
Audio_features=MFCC(audio) (15)
其中,公式(15)表示利用MFCC(倒频谱系数)对目标声音提取音频 特征,公式(16)的funcA表示声音注意力函数,表示声音注意力模型 中第i个区域在t时刻的权重,t代表时间序列;
其中权重计算为:
其中,表示声音注意力模型中声音矩阵第i个区域(第i个区域代 表声音矩阵的第i行,没有实际意义)在t时刻的权重;Audio_featuresi,k和 Audio_featuresi,t分别表示声音矩阵的不同位置。
经过声音注意力模型处理以后的声音上下文为
A代表audio的意思,表示在对声音信息做注意力操作,而非其他的模态。
五、注意力模型融合
一层注意力融合公式:
其中公式(13)中的concentrate代表级联操作。公式(19)的funcM_A表 示融合注意力函数,表示融合注意力模型中第i个区域在t时刻的权重, t代表时间序列;
二层注意力融合公式:
其中公式(21)表示通过相加操作对不同的注意力模型进行融合。
所述步骤(6)的公式为:
wordt=MLP(ht) (26)
其中,表示LSTM的左分支,表示LSTM的右分支,LSTM表示 长短时记忆网络,ht-1表示LSTM的上一个状态,softmax表示回归函数, nonlinearization表示非线性化操作,ht表示LSTM当前状态,MLP表示多层感 知机,wordt表示求得的单词。
本发明采用维度为K的one-hot向量来表示:
模型在t时刻产生的单词wordt的向量的维度为1x K。其中K表示词典的 大小。
视频生成的句子用维度为C*K的向量W来表示:
W={w1,...,wc},wi∈RK
其中K表示词典的大小,C表示产生的句子的长度(单词的数量)。
下面说明本发明的实施例所使用的LSTM网络。
图2为本发明的实施例所采用的LSTM网络的结构示意图。LSTM是循 环神经网的特殊形式,它成功解决了循环神经网络的梯度消失和梯度爆炸问 题,LSTM的核心是它在每个步骤中的存储单元Cell,每个存储单元由三个 Gate(输入门(Input Gate)、遗忘门(ForgetGate)、输出门(Output Gate)) 和一个cell单元组成。Gate可使用sigmoid激活函数,而input和cell state可 使用tanh来转换。
有关构造LSTM网络的具体方式、以及LSTM的Gates、Cell、输入变换 和状态更新的具体定义,可从现有资料获得,这对于本领域的技术人员来说 是熟知的。为了使本说明书的描述不限于冗繁,在此不再详述。
数据集及实验结果:
下面,选择流行的Youtube2Text和MSR-VTT dataset评估本发明的模型的 性能Youtube2Text包含10000个视频片段(video clip),被分为训练,验证和 测试集三部分。每个视频片段都被标注了大概20条英文句子。此外,MSR-VTT 还提供了每个视频的类别信息(共计20类),这个类别信息算是先验的,在 测试集中也是已知的。同时,视频都是包含音频信息的。YouTube2Text dataset (MSVD dataset)数据集同样由Microsoft Research提供,网址为 https://www.microsoft.com/en-us/download/details.aspx?id=52422&from=http:// research.microsoft.com/en-us/downloads/38cf15fd-b8df-477e-a4e4-a4680caa75af/d efault.aspx。该数据集包含1970段YouTube视频片段(时长在10-25s之间), 每段视频被标注了大概40条英文句子。
实验结果如下表所示。
在这项工作中,本发明提出了一种新的方法来完成视频描述。在各种普 及的标准基准上表现出了较好的效果。与以前的工作不同,本发明的方法第 一次提出了利用fcis与多层注意力相结合的方法,尽可能的利用视频的有用 信息,摒弃无用信息,并模拟现实情况提出动作与声音结合的方式。因此, 本发明的方法不仅利用了fcis属性和特征突出化的有点,而且还科学的对不 同模态施加注意力,让生成的句子更能够真实的反应视频的内容。本发明的 模型能够最大化地提高不同模态信息的利用率。
最后,本领域的技术人员能够理解,对本发明的上述实施例能够做出各 种修改、变型、以及替换,其均落入如所附权利要求限定的本发明的保护范 围。

Claims (9)

1.一种基于全卷积语义分割与多模态注意力模型相结合的视频多字幕生成方法,包括以下步骤:
步骤1、从要生成字幕的视频中提取多帧图片;
步骤2、利用全卷积实例感知语义分割模型,从所述视频提取某一反卷积层的特征信息;
步骤3、提取所述视频的运动特征以及音频特征;
步骤4、利用全卷积实例感知语义分割模型,从在所述步骤1中提取的图片中提取属性标签,其中,所述属性标签包含每一帧图片中的物体信息;
步骤5、并根据在前述步骤中提取的各个信息,生成不同模态的上下文矩阵,并对不同模态的上下文矩阵进行分层融合,生成融合后的上下文矩阵;
步骤6、初始化LSTM网络,将LSTM网络在前一时刻的隐藏层状态ht-1和融合后的传入LSTM网络,得到当前时刻的状态ht,通过对ht做多层感知机处理,得到作为字幕组成部分的单词wordt
步骤7、判断是否在单词wordt中检测到停止标识,若检测到停止标识,则将得到的所有单词wordt进行串联组合,产生最终的字幕;若未检测到停止标识,则返回到步骤5。
2.根据权利要求1所述的方法,其中,在所述步骤3中,利用三维卷积神经网络提取所述视频的运动特征,利用小波变换来提取所述视频的音频特征。
3.根据权利要求1所述的方法,其中,所述不同模态的注意力模型包括属性模态注意力模型、视觉模态注意力模型、运动模态注意力模型、声音模态注意力模型。
4.根据权利要求3所述的方法,其中,在所述步骤5中,如下计算属性模态注意力模型的上下文矩阵
其中,Words=Ins+wordt-1 (1)
其中,在公式(1)中,Ins代表在所述步骤4中提取的属性标签,wordt-1代表模型上一时刻生成的单词。而公式(1)的加号代表将属性标签和上一时刻生成的单词进行串联拼接的过程,Words代表所述拼接后生成的单词,
在公式(2)中,的上标W代表对这些单词施加属性注意力操作,下标t代表时间序列,funcw表示属性注意力函数,代表对于不同单词分配的权重。
5.根据权利要求4所述的方法,其中,在所述步骤5中,如下计算视觉模态注意力模型的上下文矩阵
其中,Temporal_features=Fcis_deconv(Multi_images) (7)
Multi_images=Opencv(video,num) (6)
其中,Multi_images代表在步骤1中提取的多帧图片,Opencv是视频帧提取函数,video代表所要操作的视频,num代表需要提取帧的数量,Temporal_features代表在所述步骤2中提取的反卷积层的特征,Fcis_deconv代表反卷积层函数,的上标V表示是对视觉信息施加注意力操作。
6.根据权利要求5所述的方法,其中,在所述步骤5中,如下计算运动模态注意力模型的上下文矩阵
其中,Motion_features=C3D_conv(video) (11)
其中,Motion_features表示视频的运动特征矩阵,C3D_conv表示三维卷积神经网络函数,funcM表示运动注意力函数,表示运动注意力模型中第i个区域在t时刻的权;其中:
其中,表示运动注意力模型中运动矩阵第i个区域在t时刻的权重;Motion_featuresi,k和Motion_featuresi,t分别表示运动特征矩阵的不同位置。
7.根据权利要求6所述的方法,其中,在所述步骤5中,如下计算声音模态注意力模型的上下文矩阵
其中,Audio_features=MFCC(audio) (15)
其中,Audio_features表示声音特征矩阵,MFCC表示倒频谱系数函数,audio表示所述视频的音频数据,funcA表示声音注意力函数,表示声音注意力模型中第i个区域在t时刻的权重;
其中权重计算为:
其中,表示声音注意力模型中声音矩阵第i个区域(第i个区域代表声音矩阵的第i行,没有实际意义)在t时刻的权重,Audio_featuresi,k和Audio_featuresi,t分别表示声音矩阵的不同位置。
8.根据权利要求7所述的方法,其中,在所述步骤5中,通过如下步骤,对不同模态的上下文矩阵进行分层融合,生成融合后的上下文矩阵:
步骤5-1、一层注意力融合,生成上下文矩阵
其中,
其中,concentrate代表级联操作,funcM_A表示融合注意力函数,表示融合注意力模型中第i个区域在t时刻的权重;
步骤5-2、二层注意力融合,生成融合后的上下文矩阵
其中公式(21)表示通过相加操作对不同的注意力模型进行融合。
9.根据权利要求8所述的方法,其中,在所述步骤6,如下得到作为字幕组成部分的单词wordt
wordt=MLP(ht) (26)
其中,表示LSTM的左分支,表示LSTM的右分支,ht-1表示LSTM的上一个状态,softmax表示回归函数,nonlinearization表示非线性化操作,ht表示LSTM当前状态,MLP表示多层感知机函数。
CN201711273239.6A 2017-12-06 2017-12-06 基于语义分割和多层注意力框架的视频字幕生成方法 Expired - Fee Related CN107979764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711273239.6A CN107979764B (zh) 2017-12-06 2017-12-06 基于语义分割和多层注意力框架的视频字幕生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711273239.6A CN107979764B (zh) 2017-12-06 2017-12-06 基于语义分割和多层注意力框架的视频字幕生成方法

Publications (2)

Publication Number Publication Date
CN107979764A true CN107979764A (zh) 2018-05-01
CN107979764B CN107979764B (zh) 2020-03-31

Family

ID=62009136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711273239.6A Expired - Fee Related CN107979764B (zh) 2017-12-06 2017-12-06 基于语义分割和多层注意力框架的视频字幕生成方法

Country Status (1)

Country Link
CN (1) CN107979764B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665506A (zh) * 2018-05-10 2018-10-16 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机存储介质及服务器
CN108921032A (zh) * 2018-06-04 2018-11-30 四川创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN108959512A (zh) * 2018-06-28 2018-12-07 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109002852A (zh) * 2018-07-11 2018-12-14 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN109035233A (zh) * 2018-07-24 2018-12-18 西安邮电大学 视觉注意力网络及工件表面缺陷检测方法
CN109190683A (zh) * 2018-08-14 2019-01-11 电子科技大学 一种基于注意力机制和双模态图像的分类方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN109684449A (zh) * 2018-12-20 2019-04-26 电子科技大学 一种基于注意力机制的自然语言语义表征方法
CN109816039A (zh) * 2019-01-31 2019-05-28 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN109948721A (zh) * 2019-03-27 2019-06-28 北京邮电大学 一种基于视频描述的视频场景分类方法
CN110136135A (zh) * 2019-05-17 2019-08-16 深圳大学 分割方法、装置、设备以及存储介质
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN110399934A (zh) * 2019-07-31 2019-11-01 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
CN110719436A (zh) * 2019-10-17 2020-01-21 浙江同花顺智能科技有限公司 一种会议文档信息获取方法、装置及其相关设备
CN110991290A (zh) * 2019-11-26 2020-04-10 西安电子科技大学 基于语义指导与记忆机制的视频描述方法
CN111640424A (zh) * 2019-03-01 2020-09-08 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN111836111A (zh) * 2019-04-17 2020-10-27 微软技术许可有限责任公司 生成弹幕的技术
CN111866598A (zh) * 2019-04-29 2020-10-30 腾讯美国有限责任公司 训练字幕模型的方法和装置、计算机设备及存储介质
CN112183275A (zh) * 2020-09-21 2021-01-05 北京达佳互联信息技术有限公司 视频描述信息的生成方法、装置及服务器
CN112489060A (zh) * 2020-12-07 2021-03-12 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN112487937A (zh) * 2020-11-26 2021-03-12 北京有竹居网络技术有限公司 视频识别方法、装置、存储介质及电子设备
CN112597278A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 一种语义信息融合方法、装置、电子设备及存储介质
CN112738647A (zh) * 2020-12-28 2021-04-30 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN112820320A (zh) * 2020-12-31 2021-05-18 中国科学技术大学 跨模态注意力一致性网络自监督学习方法
CN113191263A (zh) * 2021-04-29 2021-07-30 桂林电子科技大学 一种视频描述方法及装置
CN113361462A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 视频处理和字幕检测模型的方法及装置
CN115359323A (zh) * 2022-08-31 2022-11-18 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
CN116310984A (zh) * 2023-03-13 2023-06-23 中国科学院微电子研究所 基于Token采样的多模态视频字幕生成方法
CN117376634A (zh) * 2023-12-08 2024-01-09 湖南快乐阳光互动娱乐传媒有限公司 一种短视频配乐方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150089518A1 (en) * 2013-09-25 2015-03-26 Kabushiki Kaisha Toshiba Information providing apparatus, information providing method and non-transitory computer readable recording medium for recording an information providing program
CN105228033A (zh) * 2015-08-27 2016-01-06 联想(北京)有限公司 一种视频处理方法及电子设备
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法
CN107391646A (zh) * 2017-07-13 2017-11-24 清华大学 一种视频图像的语义信息提取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150089518A1 (en) * 2013-09-25 2015-03-26 Kabushiki Kaisha Toshiba Information providing apparatus, information providing method and non-transitory computer readable recording medium for recording an information providing program
CN105228033A (zh) * 2015-08-27 2016-01-06 联想(北京)有限公司 一种视频处理方法及电子设备
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107391646A (zh) * 2017-07-13 2017-11-24 清华大学 一种视频图像的语义信息提取方法及装置
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665506A (zh) * 2018-05-10 2018-10-16 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机存储介质及服务器
CN108665506B (zh) * 2018-05-10 2021-09-28 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机存储介质及服务器
CN108921032A (zh) * 2018-06-04 2018-11-30 四川创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN108921032B (zh) * 2018-06-04 2022-04-29 创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN108959512A (zh) * 2018-06-28 2018-12-07 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN108959512B (zh) * 2018-06-28 2022-04-29 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109002852A (zh) * 2018-07-11 2018-12-14 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN109035233A (zh) * 2018-07-24 2018-12-18 西安邮电大学 视觉注意力网络及工件表面缺陷检测方法
CN109035233B (zh) * 2018-07-24 2021-09-21 西安邮电大学 视觉注意力网络系统及工件表面缺陷检测方法
CN109190683A (zh) * 2018-08-14 2019-01-11 电子科技大学 一种基于注意力机制和双模态图像的分类方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109344288B (zh) * 2018-09-19 2021-09-24 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN109684449A (zh) * 2018-12-20 2019-04-26 电子科技大学 一种基于注意力机制的自然语言语义表征方法
CN109684449B (zh) * 2018-12-20 2021-12-10 电子科技大学 一种基于注意力机制的自然语言语义表征方法
CN109816039A (zh) * 2019-01-31 2019-05-28 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN109816039B (zh) * 2019-01-31 2021-04-20 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN111640424A (zh) * 2019-03-01 2020-09-08 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN109948721A (zh) * 2019-03-27 2019-06-28 北京邮电大学 一种基于视频描述的视频场景分类方法
CN109948721B (zh) * 2019-03-27 2021-07-09 北京邮电大学 一种基于视频描述的视频场景分类方法
US11877016B2 (en) 2019-04-17 2024-01-16 Microsoft Technology Licensing, Llc Live comments generating
CN111836111A (zh) * 2019-04-17 2020-10-27 微软技术许可有限责任公司 生成弹幕的技术
CN111866598A (zh) * 2019-04-29 2020-10-30 腾讯美国有限责任公司 训练字幕模型的方法和装置、计算机设备及存储介质
CN110136135B (zh) * 2019-05-17 2021-07-06 深圳大学 分割方法、装置、设备以及存储介质
CN110136135A (zh) * 2019-05-17 2019-08-16 深圳大学 分割方法、装置、设备以及存储介质
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN110298361B (zh) * 2019-05-22 2021-05-04 杭州未名信科科技有限公司 一种rgb-d图像的语义分割方法和系统
CN110399934A (zh) * 2019-07-31 2019-11-01 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
CN110719436A (zh) * 2019-10-17 2020-01-21 浙江同花顺智能科技有限公司 一种会议文档信息获取方法、装置及其相关设备
CN110991290B (zh) * 2019-11-26 2023-03-10 西安电子科技大学 基于语义指导与记忆机制的视频描述方法
CN110991290A (zh) * 2019-11-26 2020-04-10 西安电子科技大学 基于语义指导与记忆机制的视频描述方法
CN112183275A (zh) * 2020-09-21 2021-01-05 北京达佳互联信息技术有限公司 视频描述信息的生成方法、装置及服务器
CN112487937A (zh) * 2020-11-26 2021-03-12 北京有竹居网络技术有限公司 视频识别方法、装置、存储介质及电子设备
CN112489060A (zh) * 2020-12-07 2021-03-12 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN112597278A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 一种语义信息融合方法、装置、电子设备及存储介质
CN112738647A (zh) * 2020-12-28 2021-04-30 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN112820320B (zh) * 2020-12-31 2023-10-20 中国科学技术大学 跨模态注意力一致性网络自监督学习方法
CN112820320A (zh) * 2020-12-31 2021-05-18 中国科学技术大学 跨模态注意力一致性网络自监督学习方法
CN113191263B (zh) * 2021-04-29 2022-05-13 桂林电子科技大学 一种视频描述方法及装置
CN113191263A (zh) * 2021-04-29 2021-07-30 桂林电子科技大学 一种视频描述方法及装置
CN113361462B (zh) * 2021-06-30 2022-11-08 北京百度网讯科技有限公司 视频处理和字幕检测模型的方法及装置
CN113361462A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 视频处理和字幕检测模型的方法及装置
CN115359323A (zh) * 2022-08-31 2022-11-18 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
CN116310984A (zh) * 2023-03-13 2023-06-23 中国科学院微电子研究所 基于Token采样的多模态视频字幕生成方法
CN116310984B (zh) * 2023-03-13 2024-01-30 中国科学院微电子研究所 基于Token采样的多模态视频字幕生成方法
CN117376634A (zh) * 2023-12-08 2024-01-09 湖南快乐阳光互动娱乐传媒有限公司 一种短视频配乐方法、装置、电子设备和存储介质
CN117376634B (zh) * 2023-12-08 2024-03-08 湖南快乐阳光互动娱乐传媒有限公司 一种短视频配乐方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN107979764B (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN107979764A (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
KR102503413B1 (ko) 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체
JP2023545642A (ja) 目標対象の動作駆動方法、装置、機器及びコンピュータプログラム
Fan et al. A deep bidirectional LSTM approach for video-realistic talking head
CN107423398A (zh) 交互方法、装置、存储介质和计算机设备
CN108765279A (zh) 一种面向监控场景的行人人脸超分辨率重建方法
CN107798349A (zh) 一种基于深度稀疏自编码机的迁移学习方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
JP2022506501A6 (ja) 音響効果のテキスト注釈
WO2023284435A1 (zh) 生成动画的方法及装置
JP2022506501A (ja) 音響効果のテキスト注釈
CN111598979A (zh) 虚拟角色的面部动画生成方法、装置、设备及存储介质
CN110069611A (zh) 一种主题增强的聊天机器人回复生成方法及装置
Songsri-in et al. Face video generation from a single image and landmarks
CN113657272B (zh) 一种基于缺失数据补全的微视频分类方法及系统
CN112634413B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN112562045B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN116391209A (zh) 现实的音频驱动的3d化身生成
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
Fu Digital Image Art Style Transfer Algorithm Based on CycleGAN
CN116645456A (zh) 语音驱动数字人面部动画生成方法和装置
Liu et al. Real-time speech-driven animation of expressive talking faces
CN113469292A (zh) 视频合成模型的训练方法、合成方法、装置、介质和设备
Wang et al. Flow2Flow: Audio-visual cross-modality generation for talking face videos with rhythmic head
KR102591082B1 (ko) 딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200331

Termination date: 20211206