CN107391646B - 一种视频图像的语义信息提取方法及装置 - Google Patents

一种视频图像的语义信息提取方法及装置 Download PDF

Info

Publication number
CN107391646B
CN107391646B CN201710569482.6A CN201710569482A CN107391646B CN 107391646 B CN107391646 B CN 107391646B CN 201710569482 A CN201710569482 A CN 201710569482A CN 107391646 B CN107391646 B CN 107391646B
Authority
CN
China
Prior art keywords
time step
video
current time
lstm network
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710569482.6A
Other languages
English (en)
Other versions
CN107391646A (zh
Inventor
尹首一
杨建勋
欧阳鹏
刘雷波
魏少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710569482.6A priority Critical patent/CN107391646B/zh
Publication of CN107391646A publication Critical patent/CN107391646A/zh
Application granted granted Critical
Publication of CN107391646B publication Critical patent/CN107391646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种视频图像的语义信息提取方法及装置,涉及视频描述及视频标注技术领域,首先按一定的帧间隔提取视频的帧序列,通过卷积神经网络提取每帧图像的特征向量,将该特征向量作为LSTM网络编码器的输入,该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入,更新外部存储器EMM中的存储矩阵的内容;外部存储器EMM输出两个读向量,分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写,实现在编码阶段存储视频各帧图像的信息特征,在解码阶段通过预测单词的反馈,调整外部存储器下一时间步的输出,使得生成视频标注时可根据当前已经生成的单词序列调节上下文特征向量。

Description

一种视频图像的语义信息提取方法及装置
技术领域
本发明涉及视频描述及视频标注技术领域,尤其涉及一种视频图像的语义信息提取方法及装置。
背景技术
当前,随着互联网、数字化设备以及多媒体技术的发展,由于视频相比文字和图片更为生动,因此视频受到了多媒体用户更多的关注。目前微信、快手等短视频应用及各种网络直播平台的快速发展,使得视频在人们的生活中扮演着愈来愈重要的角色。为了便于人们更好的了解视频图像内容,对视频图像进行描述和标注,从而得到视频图像的语义信息格外重要。视频描述,就是根据一个视频的具体内容,使用自然语言描述视频内容的特征,使用应用拍摄短视频然后自动生成相应的描述是视频描述的一个重要应用。视频描述在人机接口、视频检索、为盲人描述电影等领域中发挥的作用也愈发显著。对视频进行标注、描述的最直接传统的方法是人工的方式,然而面对目前网络时代的海量视频,此种方式无疑是不可行的。随着机器学习技术的发展,使用计算机自动对视频生成描述语句的方法逐渐被提出,其标注效果也渐渐被提高。
目前,采用神经网络实现视频图像描述语句自动生成的比较主流的方法是Subhashini Venugopalan等人提出的序列到序列的可以端到端训练的编码-解码模型(Sequence to Sequence–Video to Text,2015 IEEE International Conference onComputer Vision)。该模型利用循环神经网络(Recurrent Neural Network,简称RNN),特别是长短期记忆网络(Long Short-Term Memory,简称LSTM),解决了不同视频帧数及描述语句单词数的变长问题。通过采用两层LSTM,第一层LSTM将视频流的帧序列通过卷积神经网络(Convolutional Neural Network,简称CNN)后的输出编码为一个定长向量,第二层LSTM实现解码过程,生成描述语句的单词序列。同时该模型学会了输入视频流各帧序列的时序结构以及产生的标注语句的序列结构,实现了视频和描述语句序列的同步训练。之后,很多学者相继提出了一些该模型的变种及拓展结构,如Yu Gao等人提出加入了注意力机制的序列到序列的模型,该模型能够从输入序列中获得更多的语义信息,提高了模型性能。Rasool Fakoor等人提出了一种结合注意力机制及记忆机制的视频标注模型,该模型由三个模块构成:时序模型、迭代注意力/记忆模型和一个解码模型。时序模型通过LSTM网络及软注意力机制实现对输入视频帧序列的处理,迭代注意力/记忆模型学会记住视频流全部帧和单词序列的关系,不仅考虑了局部的注意力,而且在单词产生阶段也考虑了输入视频流的所有帧。解码模型通过LSTM网络生成视频的描述单词。由于RNN、LSTM等循环网络不能满足更长序列对记忆能力的依赖,一些记忆网络被提出,如Westion提出的Memorynetworks(International Conference on Learning Representations,2015),能够有效记住更长的序列。Alex Graves等人在“Hybrid computing using a neural network withdynamic external memory”(Nature Publishing Group,538(7626),471–476,2016)中提出了一种将神经网络和动态外部存储器结合的神经图灵机(DNC)。该外部存储器可以由DNC的内核有选择性地写入和读取,该结构对序列数据的处理、记忆能力相比RNN、LSTM增强了很多。
上述的几种序列到序列的模型虽然能够实现视频描述的任务,但当输入视频的时间较长,提取的帧数较多时,这些模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降。
发明内容
本发明的实施例提供一种视频图像的语义信息提取方法及装置,以解决现有技术中的输入视频的时间较长,提取的帧数较多时,现有技术模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降的问题。
为达到上述目的,本发明采用如下技术方案:
一种视频图像的语义信息提取方法,包括:
步骤101、从预先设置的视频标注数据集中获取视频训练集和视频验证集;
步骤102、对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列;
步骤103、将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量;
步骤104、将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量;
步骤105、将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量;
步骤106、根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量;
重复执行步骤104至步骤106,直至根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值,完成视频训练,形成视频训练模型;
步骤107、获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
进一步的,在从预先设置的视频标注数据集中获取视频训练集和视频验证集之后,还包括:
获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表;所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti
具体的,在所述多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。
具体的,将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,包括:
根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵Mt′;
根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵Mt″;
根据所述第一更新存储矩阵Mt′和第二更新存储矩阵Mt″,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=Mt′+Mt″。
具体的,根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵Mt′,包括:
将LSTM网络编码器在当前时间步输出的特征向量ht′与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与一第一输入权重矩阵W′in相乘,生成第一特征向量pt′;其中,pt′=W′in[ht′;y′t-1];
根据公式:
Figure BDA0001349249760000041
将所述第一特征向量pt′进行解析,得到多个分向量
Figure BDA0001349249760000042
将分向量
Figure BDA0001349249760000043
和分向量
Figure BDA0001349249760000044
分别通过oneplus函数进行处理得到分向量
Figure BDA0001349249760000045
Figure BDA0001349249760000046
将分向量
Figure BDA0001349249760000047
和分向量
Figure BDA0001349249760000048
分别通过sigmoid函数进行处理得到分向量et′和gt′;
根据分向量
Figure BDA0001349249760000049
和分向量
Figure BDA00013492497600000410
采用计算余弦相似度方式得到当前时间步权重
Figure BDA00013492497600000411
根据公式:
Figure BDA00013492497600000412
确定当前时间步写权重
Figure BDA00013492497600000413
其中
Figure BDA00013492497600000414
为上一时间步写权重;
根据公式:
Figure BDA00013492497600000415
确定第一更新存储矩阵Mt′。
具体的,根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵Mt″,包括:
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与一第二输入权重矩阵W″in相乘,生成第二特征向量pt″;其中,pt″=W″in[h″t-1;y″t-1];
根据公式:
Figure BDA00013492497600000416
将所述第二特征向量pt″进行解析,得到多个分向量;
Figure BDA00013492497600000417
将分向量
Figure BDA00013492497600000418
和分向量
Figure BDA00013492497600000419
分别通过oneplus函数进行处理得到分向量
Figure BDA00013492497600000420
Figure BDA00013492497600000421
将分向量
Figure BDA0001349249760000051
和分向量
Figure BDA0001349249760000052
分别通过sigmoid函数进行处理得到分向量et″和gt″;
根据分向量
Figure BDA0001349249760000053
和分向量
Figure BDA0001349249760000054
采用计算余弦相似度方式得到当前时间步权重
Figure BDA0001349249760000055
根据公式:
Figure BDA0001349249760000056
确定当前时间步写权重
Figure BDA0001349249760000057
其中
Figure BDA0001349249760000058
为上一时间步写权重;
根据公式:
Figure BDA0001349249760000059
确定第二更新存储矩阵Mt″。
具体的,所述生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,包括:
根据分向量
Figure BDA00013492497600000510
和分向量
Figure BDA00013492497600000511
采用计算余弦相似度方式得到当前时间步读权重
Figure BDA00013492497600000512
根据公式:
Figure BDA00013492497600000513
确定当前时间步读向量rt′;
将当前时间步读向量rt′与LSTM网络编码器在当前时间步输出的特征向量ht′进行拼接,并与一第一输出权重矩阵W″out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′;其中,yt′=W″out[rt′;h′t];
将当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′作为下一时间步LSTM网络编码器的一个输入分量。
具体的,所述生成当前时间步LSTM网络解码器对外部存储器EMM的读向量,包括:
根据分向量
Figure BDA00013492497600000514
和分向量
Figure BDA00013492497600000515
采用计算余弦相似度方式得到当前时间步读权重
Figure BDA00013492497600000516
根据公式:
Figure BDA00013492497600000517
确定当前时间步读向量rt″;
将当前时间步读向量rt″与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与一第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的读向量yt″;其中,yt″=W″out[rt″;h″t-1]。
具体的,所述根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量,包括:
根据公式:
Figure BDA00013492497600000518
生成LSTM网络解码器在当前时间步输出的特征向量h″t;其中,
Figure BDA00013492497600000519
表示LSTM网络解码器的处理;h″t-1为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的;
将LSTM网络解码器在当前时间步输出的特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
具体的,根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值,完成视频训练,形成视频训练模型,包括:
根据各时间步的预测单词向量pret形成的语义标注的长度达到的预先设置的长度阈值为预先设置的固定值ti时,完成视频训练,形成视频训练模型。
进一步的,所述视频图像的语义信息提取方法,还包括根据各时间步的预测单词向量pret,采用公式
Figure BDA0001349249760000061
确定损失函数L(Θ);其中,N表示视频训练集中的视频个数;vi表示第i个视频;Θ为所有的可训练的参数;λ为正则化系数;
根据所述损失函数L(Θ)对LSTM网络进行反向传播调整网络参数。
一种视频图像的语义信息提取装置,包括:
视频获取单元,用于从预先设置的视频标注数据集中获取视频训练集和视频验证集;
视频帧图像提取单元,用于对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列;
视频帧图像的特征向量单元,用于将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量;
LSTM网络编码器处理单元,用于将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量;
存储矩阵内容更新单元,用于将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量;
预测单词向量确定单元,用于根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量;
重复执行LSTM网络编码器处理单元、存储矩阵内容更新单元和预测单词向量确定单元的执行过程;
视频训练模型形成单元,用于在根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值时,完成视频训练,形成视频训练模型。
视频验证集中的视频的语义标注信息生成单元,用于获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
进一步的,所述视频图像的语义信息提取装置,还包括:
词汇表生成单元,用于获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表;所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti
另外,在所述视频帧图像提取单元中的多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。
具体的,所述存储矩阵内容更新单元,包括:
第一更新存储矩阵生成模块,用于根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵Mt′;
第二更新存储矩阵生成模块,用于根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵Mt″;
存储矩阵内容更新模块,用于根据所述第一更新存储矩阵Mt′和第二更新存储矩阵Mt″,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=Mt′+Mt″。
此外,所述第一更新存储矩阵生成模块,具体用于:
将LSTM网络编码器在当前时间步输出的特征向量ht′与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与一第一输入权重矩阵W′in相乘,生成第一特征向量pt′;其中,pt′=W′in[ht′;y′t-1];
根据公式:
Figure BDA0001349249760000081
将所述第一特征向量pt′进行解析,得到多个分向量
Figure BDA0001349249760000082
将分向量
Figure BDA0001349249760000083
和分向量
Figure BDA0001349249760000084
分别通过oneplus函数进行处理得到分向量
Figure BDA0001349249760000085
Figure BDA0001349249760000086
将分向量
Figure BDA0001349249760000087
和分向量
Figure BDA0001349249760000088
分别通过sigmoid函数进行处理得到分向量et′和gt′;
根据分向量
Figure BDA0001349249760000089
和分向量
Figure BDA00013492497600000810
采用计算余弦相似度方式得到当前时间步权重
Figure BDA00013492497600000811
根据公式:
Figure BDA00013492497600000812
确定当前时间步写权重
Figure BDA00013492497600000813
其中
Figure BDA00013492497600000814
为上一时间步写权重;
根据公式:
Figure BDA00013492497600000815
确定第一更新存储矩阵Mt′。
此外,所述第二更新存储矩阵生成模块,具体用于:
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与一第二输入权重矩阵W″in相乘,生成第二特征向量pt″;其中,pt″=W″in[h″t-1;y″t-1];
根据公式:
Figure BDA00013492497600000816
将所述第二特征向量pt″进行解析,得到多个分向量;
Figure BDA00013492497600000817
将分向量
Figure BDA00013492497600000818
和分向量
Figure BDA00013492497600000819
分别通过oneplus函数进行处理得到分向量
Figure BDA00013492497600000820
Figure BDA00013492497600000821
将分向量
Figure BDA00013492497600000822
和分向量
Figure BDA00013492497600000823
分别通过sigmoid函数进行处理得到分向量et″和gt″;
根据分向量
Figure BDA00013492497600000824
和分向量
Figure BDA00013492497600000825
采用计算余弦相似度方式得到当前时间步权重
Figure BDA00013492497600000826
根据公式:
Figure BDA00013492497600000827
确定当前时间步写权重
Figure BDA00013492497600000828
其中
Figure BDA00013492497600000829
为上一时间步写权重;
根据公式:
Figure BDA00013492497600000830
确定第二更新存储矩阵Mt″。
另外,所述存储矩阵内容更新单元,具体还用于:
根据分向量
Figure BDA00013492497600000831
和分向量
Figure BDA00013492497600000832
采用计算余弦相似度方式得到当前时间步读权重
Figure BDA00013492497600000833
根据公式:
Figure BDA00013492497600000834
确定当前时间步读向量rt′;
将当前时间步读向量rt′与LSTM网络编码器在当前时间步输出的特征向量ht′进行拼接,并与一第一输出权重矩阵W′out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′;其中,yt′=W′out[rt′;h′t];
将当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′作为下一时间步LSTM网络编码器的一个输入分量。
另外,所述存储矩阵内容更新单元,具体还用于:
根据分向量
Figure BDA0001349249760000091
和分向量
Figure BDA0001349249760000092
采用计算余弦相似度方式得到当前时间步读权重
Figure BDA0001349249760000093
根据公式:
Figure BDA0001349249760000094
确定当前时间步读向量rt″;
将当前时间步读向量rt″与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与一第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的读向量yt″;其中,yt″=W″out[rt″;h″t-1]。
另外,所述预测单词向量确定单元,具体用于:
根据公式:
Figure BDA0001349249760000095
生成LSTM网络解码器在当前时间步输出的特征向量h″t;其中,
Figure BDA0001349249760000096
表示LSTM网络解码器的处理;
Figure BDA0001349249760000097
为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的;
将LSTM网络解码器在当前时间步输出的特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
此外,所述视频训练模型形成单元,具体用于:
根据各时间步的预测单词向量pret形成的语义标注的长度达到的预先设置的长度阈值为预先设置的固定值ti时,完成视频训练,形成视频训练模型。
进一步的,所述视频图像的语义信息提取装置,还包括反向传播调整网络参数单元,用于:
根据各时间步的预测单词向量pret,采用公式
Figure BDA0001349249760000098
确定损失函数L(Θ);其中,N表示视频训练集中的视频个数;vi表示第i个视频;Θ为所有的可训练的参数;λ为正则化系数;
根据所述损失函数L(Θ)对LSTM网络进行反向传播调整网络参数。
本发明实施例提供的一种视频图像的语义信息提取方法及装置,通过对视频按一定的帧间隔提取视频的帧序列,通过卷积神经网络提取每帧图像的特征向量,然后将该特征向量作为LSTM网络编码器的输入,该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入,通过一系列运算更新外部存储器EMM中的存储矩阵的内容;之后,外部存储器EMM输出两个读向量,分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写,实现在编码阶段存储视频各帧图像的信息特征,在解码阶段通过预测单词的反馈,调整外部存储器下一时间步的输出,使得生成视频标注时可以根据当前已经生成的单词序列调节上下文特征向量,避免了传统编码——解码模型中输入视频的时间较长,提取的帧数较多时,现有技术模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种视频图像的语义信息提取方法的流程图一;
图2为本发明实施例提供的一种视频图像的语义信息提取方法的流程图二;
图3为本发明实施例中的4帧图像的编码和解码过程示例示意图;
图4为本发明实施例提供的一种视频图像的语义信息提取装置的结构示意图一;
图5为本发明实施例提供的一种视频图像的语义信息提取装置的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种视频图像的语义信息提取方法,包括:
步骤101、从预先设置的视频标注数据集中获取视频训练集和视频验证集。
步骤102、对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列。
步骤103、将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量。
步骤104、将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量。
步骤105、将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器(External Memory Model,简称EMM)中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量。
步骤106、根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量。
重复执行步骤104至步骤106,直至根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值,完成视频训练,形成视频训练模型。
步骤107、获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
本发明实施例提供的一种视频图像的语义信息提取方法,通过对视频按一定的帧间隔提取视频的帧序列,通过卷积神经网络提取每帧图像的特征向量,然后将该特征向量作为LSTM网络编码器的输入,该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入,通过一系列运算更新外部存储器EMM中的存储矩阵的内容;之后,外部存储器EMM输出两个读向量,分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写,实现在编码阶段存储视频各帧图像的信息特征,在解码阶段通过预测单词的反馈,调整外部存储器下一时间步的输出,使得生成视频标注时可以根据当前已经生成的单词序列调节上下文特征向量,避免了传统编码——解码模型中输入视频的时间较长,提取的帧数较多时,现有技术模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降的问题。
为了使本领域的技术人员更好的了解本发明,下面列举一个更为详细的实施例,如图2所示,本发明实施例提供一种视频图像的语义信息提取方法,包括:
步骤201、从预先设置的视频标注数据集中获取视频训练集和视频验证集。
步骤202、获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表。
其中,所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti。如预先设置的固定值ti为20,对于单词数小于20的视频语义标注结果,在其视频语义标注结果的序列最后加入pad,以使所有的序列长度都等于20,pad的值为0。此外,在编码阶段,LSTM网络解码器不输入正确单词的词向量,因此,这些时间步的单词的词向量的输入也为pad。
步骤203、对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列。
具体的,在所述多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。对于帧数较少的视频,在帧序列的最后加上pad,值为0。此外,在解码阶段,LSTM网络编码器不进行帧序列的输入,这些时间步的输入视频帧序列也为pad。
步骤204、将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量。
此处的卷积神经网络可以为已经训练完成的VGGNet,GoogleNet等。
步骤205、将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量。
步骤206、将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量。
此处外部存储器EMM的存储矩阵M的大小为N×K,N表示存储矩阵的行数,K表示每一行可以存储的向量大小。
具体的,在步骤206中,将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,可以通过如下步骤(一)、(二)、(三)来实现:
(一)、根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵Mt′,其过程为:
将LSTM网络编码器在当前时间步输出的特征向量ht′与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与一第一输入权重矩阵W′in相乘,生成第一特征向量pt′;其中,pt′=W′in[ht′;y′t-1]。
根据公式:
Figure BDA0001349249760000131
将所述第一特征向量pt′进行解析,得到多个分向量
Figure BDA0001349249760000132
Figure BDA0001349249760000133
表示当前时间步得到的写键;
将分向量
Figure BDA0001349249760000134
和分向量
Figure BDA0001349249760000135
分别通过oneplus函数进行处理得到分向量
Figure BDA0001349249760000136
Figure BDA0001349249760000137
此处的oneplus函数定义为:oneplus(x)=1+log(1+ex),从而控制取值范围为[1,∞]。
Figure BDA0001349249760000138
表示当前时间步得到的写键的强度。
将分向量
Figure BDA0001349249760000139
和分向量
Figure BDA00013492497600001310
分别通过sigmoid函数进行处理得到分向量et′和gt′。此处的sigmoid函数定义为:
Figure BDA00013492497600001311
从而控制取值范围为[0,1]。
根据分向量
Figure BDA00013492497600001312
和分向量
Figure BDA00013492497600001313
采用计算余弦相似度方式得到当前时间步权重
Figure BDA00013492497600001314
即采用余弦相似度公式:
Figure BDA00013492497600001315
完成
Figure BDA00013492497600001316
的计算。
根据公式:
Figure BDA00013492497600001317
确定当前时间步写权重
Figure BDA00013492497600001318
其中
Figure BDA00013492497600001319
为上一时间步写权重。g′t表示一个插值门,控制上一时间步的写权重向当前时间步的写权重变化的程度。
根据公式:
Figure BDA0001349249760000141
确定第一更新存储矩阵Mt′。et′表示擦除向量,完成对上一时间步存储矩阵内容的擦除,et′的每一个元素的值在[0,1]之间,表示对存储矩阵中每一行擦除的程度。a′t表示加向量,将当前时间步的信息写入存储矩阵。
(二)、根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵Mt″,其过程为(此步骤中的函数和系数解释与上一步骤(一)相同或相似,此处不再赘述):
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与一第二输入权重矩阵W″in相乘,生成第二特征向量pt″;其中,pt″=W″in[h″t-1;y″t-1]。
根据公式:
Figure BDA0001349249760000142
将所述第二特征向量pt″进行解析,得到多个分向量;
Figure BDA0001349249760000143
将分向量
Figure BDA0001349249760000144
和分向量
Figure BDA0001349249760000145
分别通过oneplus函数进行处理得到分向量
Figure BDA0001349249760000146
Figure BDA0001349249760000147
将分向量
Figure BDA0001349249760000148
和分向量
Figure BDA0001349249760000149
分别通过sigmoid函数进行处理得到分向量et″和gt″。
根据分向量
Figure BDA00013492497600001410
和分向量
Figure BDA00013492497600001411
采用计算余弦相似度方式得到当前时间步权重
Figure BDA00013492497600001412
根据公式:
Figure BDA00013492497600001413
确定当前时间步写权重
Figure BDA00013492497600001414
其中
Figure BDA00013492497600001415
为上一时间步写权重。
根据公式:
Figure BDA00013492497600001416
确定第二更新存储矩阵Mt″。
(三)、根据所述第一更新存储矩阵Mt′和第二更新存储矩阵Mt″,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=Mt′+Mt″。
另外,在步骤206中,所述生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,可以通过如下方式实现:
根据分向量
Figure BDA00013492497600001417
和分向量
Figure BDA00013492497600001418
采用计算余弦相似度方式得到当前时间步读权重
Figure BDA00013492497600001419
即采用余弦相似度公式:
Figure BDA00013492497600001420
完成
Figure BDA0001349249760000151
的计算。
根据公式:
Figure BDA0001349249760000152
确定当前时间步读向量rt′。
将当前时间步读向量rt′与LSTM网络编码器在当前时间步输出的特征向量ht′进行拼接,并与一第一输出权重矩阵W′out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′;其中,yt′=W′out[rt′;h′t]。
将当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′作为下一时间步LSTM网络编码器的一个输入分量。
另外,在步骤206中,所述生成当前时间步LSTM网络解码器对外部存储器EMM的读向量可以通过如下方式实现:
根据分向量
Figure BDA0001349249760000153
和分向量
Figure BDA0001349249760000154
采用计算余弦相似度方式得到当前时间步读权重
Figure BDA0001349249760000155
根据公式:
Figure BDA0001349249760000156
确定当前时间步读向量rt″。
将当前时间步读向量rt″与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与一第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的读向量yt″;其中,yt″=W″out[rt″;h″t-1]。
步骤207、根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量。
此处,上述步骤207可以采用如下方式实现:
根据公式:
Figure BDA0001349249760000157
生成LSTM网络解码器在当前时间步输出的特征向量h″t;其中,
Figure BDA0001349249760000158
表示LSTM网络解码器的处理;h″t-1为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;需要说明的是,在训练阶段中,通过将正确的标注单词序列延后一个时间步的序列,作为LSTM网络解码器的一个输入分量,以实现LSTM网络学会单词之间的依赖性。如:
输入:<BOS>He is talking.
输出:He is talking.<EOS>
<BOS>表示开始标志,<EOS>表示结束标志。xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的。
将LSTM网络解码器在当前时间步输出的特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
重复执行步骤205至步骤207,直至根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值(可以是预先设置的固定值ti),完成视频训练,形成视频训练模型。
另外,在步骤207之后,还可以根据各时间步的预测单词向量pret,采用公式
Figure BDA0001349249760000161
确定损失函数L(Θ);其中,N表示视频训练集中的视频个数;vi表示第i个视频;Θ为所有的可训练的参数;λ为正则化系数。
根据所述损失函数L(Θ)对LSTM网络进行反向传播调整网络参数。
步骤208、获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
此处,为了快速并有效地生成标注序列,得到语义标注信息,和大多数图片标注生成任务一样,此处可以使用集束搜索算法(beam search)。即每一时间步,只保留分值最高的前K个标注序列。(K一般取3或5)。
为了使上述步骤201至步骤208更加直观,如图3所示,展示了4帧图像的编码和解码过程,最终形成的语义标注信息为“a man is talking”即一个人在说话。
本发明实施例提供的一种视频图像的语义信息提取方法,通过对视频按一定的帧间隔提取视频的帧序列,通过卷积神经网络提取每帧图像的特征向量,然后将该特征向量作为LSTM网络编码器的输入,该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入,通过一系列运算更新外部存储器EMM中的存储矩阵的内容;之后,外部存储器EMM输出两个读向量,分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写,实现在编码阶段存储视频各帧图像的信息特征,在解码阶段通过预测单词的反馈,调整外部存储器下一时间步的输出,使得生成视频标注时可以根据当前已经生成的单词序列调节上下文特征向量,避免了传统编码——解码模型中输入视频的时间较长,提取的帧数较多时,现有技术模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降的问题。
对应于上述图1和图2所示的方法实施例,如图4所示,本发明实施例还提供一种视频图像的语义信息提取装置,包括:
视频获取单元31,用于从预先设置的视频标注数据集中获取视频训练集和视频验证集。
视频帧图像提取单元32,用于对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列。
视频帧图像的特征向量单元33,用于将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量。
LSTM网络编码器处理单元34,用于将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量。
存储矩阵内容更新单元35,用于将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量。
预测单词向量确定单元36,用于根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量。
重复执行LSTM网络编码器处理单元34、存储矩阵内容更新单元35和预测单词向量确定单元36的执行过程。
视频训练模型形成单元37,用于在根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值时,完成视频训练,形成视频训练模型。
视频验证集中的视频的语义标注信息生成单元38,用于获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
进一步的,如图5所示,所述视频图像的语义信息提取装置,还包括:
词汇表生成单元39,用于获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表;所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti
另外,在所述视频帧图像提取单元32中的多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。
具体的,如图5所示,所述存储矩阵内容更新单元35,包括:
第一更新存储矩阵生成模块351,可以根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵Mt′。
第二更新存储矩阵生成模块352,用于根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵Mt″。
存储矩阵内容更新模块353,用于根据所述第一更新存储矩阵Mt′和第二更新存储矩阵Mt″,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=Mt′+Mt″。
此外,所述第一更新存储矩阵生成模块351,具体用于:
将LSTM网络编码器在当前时间步输出的特征向量ht′与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与一第一输入权重矩阵W′in相乘,生成第一特征向量pt′;其中,pt′=W′in[ht′;y′t-1]。
根据公式:
Figure BDA0001349249760000181
将所述第一特征向量pt′进行解析,得到多个分向量
Figure BDA0001349249760000182
将分向量
Figure BDA0001349249760000183
和分向量
Figure BDA0001349249760000184
分别通过oneplus函数进行处理得到分向量
Figure BDA0001349249760000185
Figure BDA0001349249760000186
将分向量
Figure BDA0001349249760000187
和分向量
Figure BDA0001349249760000188
分别通过sigmoid函数进行处理得到分向量et′和gt′。
根据分向量
Figure BDA0001349249760000189
和分向量
Figure BDA00013492497600001810
采用计算余弦相似度方式得到当前时间步权重
Figure BDA00013492497600001811
根据公式:
Figure BDA00013492497600001812
确定当前时间步写权重
Figure BDA00013492497600001813
其中
Figure BDA00013492497600001814
为上一时间步写权重。
根据公式:
Figure BDA00013492497600001815
确定第一更新存储矩阵Mt′。
此外,所述第二更新存储矩阵生成模块352,具体用于:
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与一第二输入权重矩阵W″in相乘,生成第二特征向量pt″;其中,pt″=W″in[h″t-1;y″t-1]。
根据公式:
Figure BDA0001349249760000191
将所述第二特征向量pt″进行解析,得到多个分向量;
Figure BDA0001349249760000192
将分向量
Figure BDA0001349249760000193
和分向量
Figure BDA0001349249760000194
分别通过oneplus函数进行处理得到分向量
Figure BDA0001349249760000195
Figure BDA0001349249760000196
将分向量
Figure BDA0001349249760000197
和分向量
Figure BDA0001349249760000198
分别通过sigmoid函数进行处理得到分向量et″和gt″。
根据分向量
Figure BDA0001349249760000199
和分向量
Figure BDA00013492497600001910
采用计算余弦相似度方式得到当前时间步权重
Figure BDA00013492497600001911
根据公式:
Figure BDA00013492497600001912
确定当前时间步写权重
Figure BDA00013492497600001913
其中
Figure BDA00013492497600001914
为上一时间步写权重。
根据公式:
Figure BDA00013492497600001915
确定第二更新存储矩阵Mt″。
另外,所述存储矩阵内容更新单元35,具体还用于:
根据分向量
Figure BDA00013492497600001916
和分向量
Figure BDA00013492497600001917
采用计算余弦相似度方式得到当前时间步读权重
Figure BDA00013492497600001918
根据公式:
Figure BDA00013492497600001919
确定当前时间步读向量rt′。
将当前时间步读向量rt′与LSTM网络编码器在当前时间步输出的特征向量ht′进行拼接,并与一第一输出权重矩阵W′out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′;其中,yt′=W′out[rt′;h′t]。
将当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′作为下一时间步LSTM网络编码器的一个输入分量。
另外,所述存储矩阵内容更新单元35,具体还用于:
根据分向量
Figure BDA00013492497600001920
和分向量
Figure BDA00013492497600001921
采用计算余弦相似度方式得到当前时间步读权重
Figure BDA00013492497600001922
根据公式:
Figure BDA00013492497600001923
确定当前时间步读向量rt″。
将当前时间步读向量rt″与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与一第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的读向量yt″;其中,yt″=W″out[rt″;h″t-1]。
另外,所述预测单词向量确定单元36,具体用于:
根据公式:
Figure BDA0001349249760000201
生成LSTM网络解码器在当前时间步输出的特征向量h″t;其中,
Figure BDA0001349249760000202
表示LSTM网络解码器的处理;h″t-1为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的。
将LSTM网络解码器在当前时间步输出的特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
此外,所述视频训练模型形成单元37,具体用于:
根据各时间步的预测单词向量pret形成的语义标注的长度达到的预先设置的长度阈值为预先设置的固定值ti时,完成视频训练,形成视频训练模型。
进一步的,所述视频图像的语义信息提取装置,还包括反向传播调整网络参数单元40,用于:
根据各时间步的预测单词向量pret,采用公式
Figure BDA0001349249760000203
确定损失函数L(Θ);其中,N表示视频训练集中的视频个数;vi表示第i个视频;Θ为所有的可训练的参数;λ为正则化系数。
根据所述损失函数L(Θ)对LSTM网络进行反向传播调整网络参数。
需要说明的是,本发明实施例提供的一种视频图像的语义信息提取装置的具体实现方式可以参见上述图1和图2对应的方法实施例,此处不再赘述。
本发明实施例提供的一种视频图像的语义信息提取装置,通过对视频按一定的帧间隔提取视频的帧序列,通过卷积神经网络提取每帧图像的特征向量,然后将该特征向量作为LSTM网络编码器的输入,该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入,通过一系列运算更新外部存储器EMM中的存储矩阵的内容;之后,外部存储器EMM输出两个读向量,分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写,实现在编码阶段存储视频各帧图像的信息特征,在解码阶段通过预测单词的反馈,调整外部存储器下一时间步的输出,使得生成视频标注时可以根据当前已经生成的单词序列调节上下文特征向量,避免了传统编码——解码模型中输入视频的时间较长,提取的帧数较多时,现有技术模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降的问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种视频图像的语义信息提取方法,其特征在于,包括:
步骤101、从预先设置的视频标注数据集中获取视频训练集和视频验证集;
步骤102、对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列;
步骤103、将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量;
步骤104、将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量;
步骤105、将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量;
步骤106、根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量;
重复执行步骤104至步骤106,直至根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值,完成视频训练,形成视频训练模型;
步骤107、获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
2.根据权利要求1所述的视频图像的语义信息提取方法,其特征在于,在从预先设置的视频标注数据集中获取视频训练集和视频验证集之后,还包括:
获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表;所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti
3.根据权利要求2所述的视频图像的语义信息提取方法,其特征在于,在所述多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。
4.根据权利要求3所述的视频图像的语义信息提取方法,其特征在于,将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,包括:
根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵M′t
根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵M″t
根据所述第一更新存储矩阵M′t和第二更新存储矩阵M″t,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=M′t+M″t
5.根据权利要求4所述的视频图像的语义信息提取方法,其特征在于,根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵M′t,包括:
将LSTM网络编码器在当前时间步输出的第三特征向量h′t与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与第一输入权重矩阵W′in相乘,生成第一特征向量p′t;其中,p′t=W′in[h′t;y′t-1];
根据公式:
Figure FDA0002253926130000021
将所述第一特征向量p′t进行解析,得到多个分向量
Figure FDA0002253926130000022
a′t,
Figure FDA0002253926130000023
和标量
Figure FDA0002253926130000024
将标量
Figure FDA0002253926130000025
和标量
Figure FDA0002253926130000026
分别通过oneplus函数进行处理得到标量
Figure FDA0002253926130000027
Figure FDA0002253926130000028
将分向量
Figure FDA0002253926130000029
和标量
Figure FDA00022539261300000210
分别通过sigmoid函数进行处理得到分向量e′t和标量g′t
根据分向量
Figure FDA00022539261300000211
和分向量
Figure FDA00022539261300000212
采用计算余弦相似度方式得到第一当前时间步权重
Figure FDA00022539261300000213
根据公式:
Figure FDA00022539261300000214
确定第一当前时间步写权重
Figure FDA00022539261300000215
其中
Figure FDA00022539261300000216
为第一上一时间步写权重;
根据公式:
Figure FDA00022539261300000217
确定第一更新存储矩阵M′t
6.根据权利要求5所述的视频图像的语义信息提取方法,其特征在于,根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵M″t,包括:
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与第二输入权重矩阵W″in相乘,生成第二特征向量p″t;其中,p″t=W″in[h″t-1;y″t-1];
根据公式:
Figure FDA0002253926130000031
将所述第二特征向量p″t进行解析,得到多个分向量
Figure FDA0002253926130000032
a″t,
Figure FDA0002253926130000033
和标量
Figure FDA0002253926130000034
将标量
Figure FDA0002253926130000035
和标量
Figure FDA0002253926130000036
分别通过oneplus函数进行处理得到标量
Figure FDA0002253926130000037
Figure FDA0002253926130000038
将分向量
Figure FDA0002253926130000039
和标量
Figure FDA00022539261300000310
分别通过sigmoid函数进行处理得到分向量e″t和标量g″t
根据分向量
Figure FDA00022539261300000311
和分向量
Figure FDA00022539261300000312
采用计算余弦相似度方式得到第二当前时间步权重
Figure FDA00022539261300000313
根据公式:
Figure FDA00022539261300000314
确定第二当前时间步写权重
Figure FDA00022539261300000315
其中
Figure FDA00022539261300000316
为第二上一时间步写权重;
根据公式:
Figure FDA00022539261300000317
确定第二更新存储矩阵M″t
7.根据权利要求6所述的视频图像的语义信息提取方法,其特征在于,所述生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,包括:
根据分向量
Figure FDA00022539261300000318
和分向量
Figure FDA00022539261300000319
采用计算余弦相似度方式得到第一当前时间步读权重
Figure FDA00022539261300000320
根据公式:
Figure FDA00022539261300000321
确定第一当前时间步读向量r′t
将第一当前时间步读向量r′t与LSTM网络编码器在当前时间步输出的第三特征向量h′t进行拼接,并与第一输出权重矩阵W′out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的第一读向量y′t;其中,y′t=W′out[r′t;h′t];
将当前时间步LSTM网络编码器对外部存储器EMM的第一读向量y′t作为下一时间步LSTM网络编码器的一个输入分量。
8.根据权利要求7所述的视频图像的语义信息提取方法,其特征在于,所述生成当前时间步LSTM网络解码器对外部存储器EMM的读向量,包括:
根据分向量
Figure FDA00022539261300000322
和分向量
Figure FDA00022539261300000323
采用计算余弦相似度方式得到第二当前时间步读权重
Figure FDA00022539261300000324
根据公式:
Figure FDA0002253926130000041
确定第二当前时间步读向量r″t
将第二当前时间步读向量r″t与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的第二读向量y″t;其中,y″t=W″out[r″t;h″t-1]。
9.根据权利要求8所述的视频图像的语义信息提取方法,其特征在于,所述根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量,包括:
根据公式:
Figure FDA0002253926130000042
生成LSTM网络解码器在当前时间步输出的第四特征向量h″t;其中,
Figure FDA0002253926130000043
表示LSTM网络解码器的处理;h″t-1为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的;
将LSTM网络解码器在当前时间步输出的第四特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
10.根据权利要求9所述的视频图像的语义信息提取方法,其特征在于,根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值,完成视频训练,形成视频训练模型,包括:
根据各时间步的预测单词向量pret形成的语义标注的长度达到的预先设置的长度阈值为预先设置的固定值ti时,完成视频训练,形成视频训练模型。
11.一种视频图像的语义信息提取装置,其特征在于,包括:
视频获取单元,用于从预先设置的视频标注数据集中获取视频训练集和视频验证集;
视频帧图像提取单元,用于对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列;
视频帧图像的特征向量单元,用于将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量;
LSTM网络编码器处理单元,用于将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量;
存储矩阵内容更新单元,用于将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量;
预测单词向量确定单元,用于根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量;
重复执行LSTM网络编码器处理单元、存储矩阵内容更新单元和预测单词向量确定单元的执行过程;
视频训练模型形成单元,用于在根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值时,完成视频训练,形成视频训练模型;
视频验证集中的视频的语义标注信息生成单元,用于获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
12.根据权利要求11所述的视频图像的语义信息提取装置,其特征在于,还包括:
词汇表生成单元,用于获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表;所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti
13.根据权利要求12所述的视频图像的语义信息提取装置,其特征在于,在所述视频帧图像提取单元中的多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。
14.根据权利要求13所述的视频图像的语义信息提取装置,其特征在于,所述存储矩阵内容更新单元,包括:
第一更新存储矩阵生成模块,用于根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵M′t
第二更新存储矩阵生成模块,用于根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵M″t
存储矩阵内容更新模块,用于根据所述第一更新存储矩阵M′t和第二更新存储矩阵M″t,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=M′t+M″t
15.根据权利要求14所述的视频图像的语义信息提取装置,其特征在于,所述第一更新存储矩阵生成模块,具体用于:
将LSTM网络编码器在当前时间步输出的第三特征向量h′t与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与第一输入权重矩阵W′in相乘,生成第一特征向量p′t;其中,p′t=W′in[h′t;y′t-1];
根据公式:
Figure FDA0002253926130000061
将所述第一特征向量p′t进行解析,得到多个分向量
Figure FDA0002253926130000062
a′t,
Figure FDA0002253926130000063
和标量
Figure FDA0002253926130000064
将标量
Figure FDA0002253926130000065
和标量
Figure FDA0002253926130000066
分别通过oneplus函数进行处理得到标量
Figure FDA0002253926130000067
Figure FDA0002253926130000068
将分向量
Figure FDA0002253926130000069
和标量
Figure FDA00022539261300000610
分别通过sigmoid函数进行处理得到分向量e′t和标量g′t
根据分向量
Figure FDA00022539261300000611
和分向量
Figure FDA00022539261300000612
采用计算余弦相似度方式得到第一当前时间步权重
Figure FDA00022539261300000613
根据公式:
Figure FDA00022539261300000614
确定第一当前时间步写权重
Figure FDA00022539261300000615
其中
Figure FDA00022539261300000616
为第一上一时间步写权重;
根据公式:
Figure FDA00022539261300000617
确定第一更新存储矩阵M′t
16.根据权利要求15所述的视频图像的语义信息提取装置,其特征在于,所述第二更新存储矩阵生成模块,具体用于:
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与第二输入权重矩阵W″in相乘,生成第二特征向量p″t;其中,p″t=W″in[h″t-1;y″t-1];
根据公式:
Figure FDA00022539261300000618
将所述第二特征向量p″t进行解析,得到多个分向量
Figure FDA00022539261300000619
a″t,
Figure FDA00022539261300000629
和标量
Figure FDA00022539261300000620
将标量
Figure FDA00022539261300000621
和标量
Figure FDA00022539261300000622
分别通过oneplus函数进行处理得到标量
Figure FDA00022539261300000623
Figure FDA00022539261300000624
将分向量
Figure FDA00022539261300000625
和标量
Figure FDA00022539261300000626
分别通过sigmoid函数进行处理得到分向量et″和标量g″t
根据分向量
Figure FDA00022539261300000627
和分向量
Figure FDA00022539261300000628
采用计算余弦相似度方式得到第二当前时间步权重
Figure FDA0002253926130000071
根据公式:
Figure FDA0002253926130000072
确定第二当前时间步写权重
Figure FDA0002253926130000073
其中
Figure FDA0002253926130000074
为第二上一时间步写权重;
根据公式:
Figure FDA0002253926130000075
确定第二更新存储矩阵M″t
17.根据权利要求16所述的视频图像的语义信息提取装置,其特征在于,所述存储矩阵内容更新单元,具体还用于:
根据分向量
Figure FDA0002253926130000076
和分向量
Figure FDA0002253926130000077
采用计算余弦相似度方式得到第一当前时间步读权重
Figure FDA0002253926130000078
根据公式:
Figure FDA0002253926130000079
确定第一当前时间步读向量rt′;
将第一当前时间步读向量rt′与LSTM网络编码器在当前时间步输出的第三特征向量h′t进行拼接,并与第一输出权重矩阵W′out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的第一读向量y′t;其中,y′t=W′out[r′t;h′t];
将当前时间步LSTM网络编码器对外部存储器EMM的第一读向量y′t作为下一时间步LSTM网络编码器的一个输入分量。
18.根据权利要求17所述的视频图像的语义信息提取装置,其特征在于,所述存储矩阵内容更新单元,具体还用于:
根据分向量
Figure FDA00022539261300000710
和分向量
Figure FDA00022539261300000711
采用计算余弦相似度方式得到第二当前时间步读权重
Figure FDA00022539261300000712
根据公式:
Figure FDA00022539261300000713
确定第二当前时间步读向量rt″;
将第二当前时间步读向量rt″与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的第二读向量y″t;其中,y″t=W″out[r″t;h″t-1]。
19.根据权利要求18所述的视频图像的语义信息提取装置,其特征在于,所述预测单词向量确定单元,具体用于:
根据公式:
Figure FDA00022539261300000714
生成LSTM网络解码器在当前时间步输出的第四特征向量h″t;其中,
Figure FDA00022539261300000715
表示LSTM网络解码器的处理;h″t-1为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的;
将LSTM网络解码器在当前时间步输出的第四特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
20.根据权利要求19所述的视频图像的语义信息提取装置,其特征在于,所述视频训练模型形成单元,具体用于:
根据各时间步的预测单词向量pret形成的语义标注的长度达到的预先设置的长度阈值为预先设置的固定值ti时,完成视频训练,形成视频训练模型。
CN201710569482.6A 2017-07-13 2017-07-13 一种视频图像的语义信息提取方法及装置 Active CN107391646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710569482.6A CN107391646B (zh) 2017-07-13 2017-07-13 一种视频图像的语义信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710569482.6A CN107391646B (zh) 2017-07-13 2017-07-13 一种视频图像的语义信息提取方法及装置

Publications (2)

Publication Number Publication Date
CN107391646A CN107391646A (zh) 2017-11-24
CN107391646B true CN107391646B (zh) 2020-04-10

Family

ID=60340611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710569482.6A Active CN107391646B (zh) 2017-07-13 2017-07-13 一种视频图像的语义信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN107391646B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107979764B (zh) * 2017-12-06 2020-03-31 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108200483B (zh) * 2017-12-26 2020-02-28 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108062538A (zh) * 2017-12-29 2018-05-22 成都智宝大数据科技有限公司 人脸识别方法及装置
CN108419094B (zh) * 2018-03-05 2021-01-29 腾讯科技(深圳)有限公司 视频处理方法、视频检索方法、装置、介质及服务器
CN108416059B (zh) * 2018-03-22 2021-05-18 北京市商汤科技开发有限公司 图像描述模型的训练方法和装置、设备、介质
CN108228915B (zh) * 2018-03-29 2021-10-26 华南理工大学 一种基于深度学习的视频检索方法
CN110460882B (zh) * 2018-05-07 2020-07-17 中国科学院声学研究所 一种基于数据特征降维编码的流媒体内容分发方法
US10853725B2 (en) * 2018-05-18 2020-12-01 Deepmind Technologies Limited Neural networks with relational memory
CN108984628B (zh) * 2018-06-20 2020-01-24 北京达佳互联信息技术有限公司 内容描述生成模型的损失值获取方法及装置
CN109189989B (zh) * 2018-07-23 2020-11-03 北京市商汤科技开发有限公司 一种视频描述方法及装置、计算机设备和存储介质
CN109409221A (zh) * 2018-09-20 2019-03-01 中国科学院计算技术研究所 基于帧选择的视频内容描述方法和系统
CN109359214A (zh) * 2018-10-15 2019-02-19 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、存储介质及终端设备
CN109360436B (zh) * 2018-11-02 2021-01-08 Oppo广东移动通信有限公司 一种视频生成方法、终端及存储介质
CN109284506B (zh) * 2018-11-29 2023-09-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN111476838A (zh) * 2019-01-23 2020-07-31 华为技术有限公司 图像分析方法以及系统
CN109800434B (zh) * 2019-01-25 2023-07-18 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法
CN110287799B (zh) * 2019-05-28 2021-03-19 东南大学 基于深度学习的视频ucl语义标引方法与装置
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法
CN110225368B (zh) * 2019-06-27 2020-07-10 腾讯科技(深圳)有限公司 一种视频定位方法、装置及电子设备
CN111818397B (zh) * 2020-06-29 2021-10-08 同济大学 一种基于长短时记忆网络变体的视频描述生成方法
CN112182292B (zh) * 2020-09-30 2024-02-09 百度(中国)有限公司 视频检索模型的训练方法、装置、电子设备及存储介质
CN112528883A (zh) * 2020-12-15 2021-03-19 杭州义顺科技有限公司 一种基于反思网络的教学场景视频描述生成方法
CN113810730B (zh) * 2021-09-17 2023-08-01 咪咕数字传媒有限公司 基于视频的实时文本生成方法、装置及计算设备
CN116046810B (zh) * 2023-04-03 2023-06-23 云南通衢工程检测有限公司 基于rpc盖板破坏荷载的无损检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165255B1 (en) * 2012-07-26 2015-10-20 Google Inc. Automatic sequencing of video playlists based on mood classification of each video and video cluster transitions
CN105701480A (zh) * 2016-02-26 2016-06-22 江苏科海智能系统有限公司 一种视频语义分析方法
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646227B2 (en) * 2014-07-29 2017-05-09 Microsoft Technology Licensing, Llc Computerized machine learning of interesting video sections

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165255B1 (en) * 2012-07-26 2015-10-20 Google Inc. Automatic sequencing of video playlists based on mood classification of each video and video cluster transitions
CN105701480A (zh) * 2016-02-26 2016-06-22 江苏科海智能系统有限公司 一种视频语义分析方法
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法

Also Published As

Publication number Publication date
CN107391646A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107391646B (zh) 一种视频图像的语义信息提取方法及装置
US10380996B2 (en) Method and apparatus for correcting speech recognition result, device and computer-readable storage medium
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN110444203B (zh) 语音识别方法、装置及电子设备
CN111581437A (zh) 一种视频检索方法及装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112104919B (zh) 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质
CN111930992A (zh) 神经网络训练方法、装置及电子设备
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN111709493B (zh) 对象分类方法、训练方法、装置、设备及存储介质
CN109961041B (zh) 一种视频识别方法、装置及存储介质
CN112364810A (zh) 视频分类方法及装置、计算机可读存储介质与电子设备
CN112804558B (zh) 视频拆分方法、装置及设备
CN116050496A (zh) 图片描述信息生成模型的确定方法及装置、介质、设备
CN117121015A (zh) 利用冻结语言模型的多模态少发式学习
CN117609550B (zh) 视频标题生成方法和视频标题生成模型的训练方法
CN117350360A (zh) 大模型的微调方法、装置、电子设备和存储介质
CN117171573A (zh) 多模态模型的训练方法、装置、设备和存储介质
CN113408704A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN116528017A (zh) 数字人视频的生成方法、装置、电子设备和存储介质
CN116208824A (zh) 标题生成方法、计算机设备、存储介质和计算机程序产品
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN111325068B (zh) 基于卷积神经网络的视频描述方法及装置
CN114792388A (zh) 图像描述文字生成方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant