CN107391646A - 一种视频图像的语义信息提取方法及装置 - Google Patents

一种视频图像的语义信息提取方法及装置 Download PDF

Info

Publication number
CN107391646A
CN107391646A CN201710569482.6A CN201710569482A CN107391646A CN 107391646 A CN107391646 A CN 107391646A CN 201710569482 A CN201710569482 A CN 201710569482A CN 107391646 A CN107391646 A CN 107391646A
Authority
CN
China
Prior art keywords
vector
video
time step
current time
lstm network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710569482.6A
Other languages
English (en)
Other versions
CN107391646B (zh
Inventor
尹首
尹首一
杨建勋
欧阳鹏
刘雷波
魏少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710569482.6A priority Critical patent/CN107391646B/zh
Publication of CN107391646A publication Critical patent/CN107391646A/zh
Application granted granted Critical
Publication of CN107391646B publication Critical patent/CN107391646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种视频图像的语义信息提取方法及装置,涉及视频描述及视频标注技术领域,首先按一定的帧间隔提取视频的帧序列,通过卷积神经网络提取每帧图像的特征向量,将该特征向量作为LSTM网络编码器的输入,该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入,更新外部存储器EMM中的存储矩阵的内容;外部存储器EMM输出两个读向量,分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写,实现在编码阶段存储视频各帧图像的信息特征,在解码阶段通过预测单词的反馈,调整外部存储器下一时间步的输出,使得生成视频标注时可根据当前已经生成的单词序列调节上下文特征向量。

Description

一种视频图像的语义信息提取方法及装置
技术领域
本发明涉及视频描述及视频标注技术领域,尤其涉及一种视频图像的语义信息提取方法及装置。
背景技术
当前,随着互联网、数字化设备以及多媒体技术的发展,由于视频相比文字和图片更为生动,因此视频受到了多媒体用户更多的关注。目前微信、快手等短视频应用及各种网络直播平台的快速发展,使得视频在人们的生活中扮演着愈来愈重要的角色。为了便于人们更好的了解视频图像内容,对视频图像进行描述和标注,从而得到视频图像的语义信息格外重要。视频描述,就是根据一个视频的具体内容,使用自然语言描述视频内容的特征,使用应用拍摄短视频然后自动生成相应的描述是视频描述的一个重要应用。视频描述在人机接口、视频检索、为盲人描述电影等领域中发挥的作用也愈发显著。对视频进行标注、描述的最直接传统的方法是人工的方式,然而面对目前网络时代的海量视频,此种方式无疑是不可行的。随着机器学习技术的发展,使用计算机自动对视频生成描述语句的方法逐渐被提出,其标注效果也渐渐被提高。
目前,采用神经网络实现视频图像描述语句自动生成的比较主流的方法是Subhashini Venugopalan等人提出的序列到序列的可以端到端训练的编码-解码模型(Sequence to Sequence–Video to Text,2015 IEEE International Conference onComputer Vision)。该模型利用循环神经网络(Recurrent Neural Network,简称RNN),特别是长短期记忆网络(Long Short-Term Memory,简称LSTM),解决了不同视频帧数及描述语句单词数的变长问题。通过采用两层LSTM,第一层LSTM将视频流的帧序列通过卷积神经网络(Convolutional Neural Network,简称CNN)后的输出编码为一个定长向量,第二层LSTM实现解码过程,生成描述语句的单词序列。同时该模型学会了输入视频流各帧序列的时序结构以及产生的标注语句的序列结构,实现了视频和描述语句序列的同步训练。之后,很多学者相继提出了一些该模型的变种及拓展结构,如Yu Gao等人提出加入了注意力机制的序列到序列的模型,该模型能够从输入序列中获得更多的语义信息,提高了模型性能。Rasool Fakoor等人提出了一种结合注意力机制及记忆机制的视频标注模型,该模型由三个模块构成:时序模型、迭代注意力/记忆模型和一个解码模型。时序模型通过LSTM网络及软注意力机制实现对输入视频帧序列的处理,迭代注意力/记忆模型学会记住视频流全部帧和单词序列的关系,不仅考虑了局部的注意力,而且在单词产生阶段也考虑了输入视频流的所有帧。解码模型通过LSTM网络生成视频的描述单词。由于RNN、LSTM等循环网络不能满足更长序列对记忆能力的依赖,一些记忆网络被提出,如Westion提出的Memorynetworks(International Conference on Learning Representations,2015),能够有效记住更长的序列。Alex Graves等人在“Hybrid computing using a neural network withdynamic external memory”(Nature Publishing Group,538(7626),471–476,2016)中提出了一种将神经网络和动态外部存储器结合的神经图灵机(DNC)。该外部存储器可以由DNC的内核有选择性地写入和读取,该结构对序列数据的处理、记忆能力相比RNN、LSTM增强了很多。
上述的几种序列到序列的模型虽然能够实现视频描述的任务,但当输入视频的时间较长,提取的帧数较多时,这些模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降。
发明内容
本发明的实施例提供一种视频图像的语义信息提取方法及装置,以解决现有技术中的输入视频的时间较长,提取的帧数较多时,现有技术模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降的问题。
为达到上述目的,本发明采用如下技术方案:
一种视频图像的语义信息提取方法,包括:
步骤101、从预先设置的视频标注数据集中获取视频训练集和视频验证集;
步骤102、对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列;
步骤103、将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量;
步骤104、将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量;
步骤105、将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量;
步骤106、根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量;
重复执行步骤104至步骤106,直至根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值,完成视频训练,形成视频训练模型;
步骤107、获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
进一步的,在从预先设置的视频标注数据集中获取视频训练集和视频验证集之后,还包括:
获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表;所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti
具体的,在所述多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。
具体的,将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,包括:
根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵Mt′;
根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵Mt″;
根据所述第一更新存储矩阵Mt′和第二更新存储矩阵Mt″,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=Mt′+Mt″。
具体的,根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵Mt′,包括:
将LSTM网络编码器在当前时间步输出的特征向量ht′与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与一第一输入权重矩阵W′in相乘,生成第一特征向量pt′;其中,pt′=W′in[ht′;y′t-1];
根据公式:将所述第一特征向量pt′进行解析,得到多个分向量
将分向量和分向量分别通过oneplus函数进行处理得到分向量
将分向量和分向量分别通过sigmoid函数进行处理得到分向量et′和gt′;
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重
根据公式:确定当前时间步写权重其中为上一时间步写权重;
根据公式:确定第一更新存储矩阵Mt′。
具体的,根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵Mt″,包括:
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与一第二输入权重矩阵W″in相乘,生成第二特征向量pt″;其中,pt″=W″in[h″t-1;y″t-1];
根据公式:将所述第二特征向量pt″进行解析,得到多个分向量;
将分向量和分向量分别通过oneplus函数进行处理得到分向量
将分向量和分向量分别通过sigmoid函数进行处理得到分向量et″和gt″;
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重
根据公式:确定当前时间步写权重其中为上一时间步写权重;
根据公式:确定第二更新存储矩阵Mt″。
具体的,所述生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,包括:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
根据公式:确定当前时间步读向量rt′;
将当前时间步读向量rt′与LSTM网络编码器在当前时间步输出的特征向量ht′进行拼接,并与一第一输出权重矩阵W″out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′;其中,yt′=W″out[rt′;h′t];
将当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′作为下一时间步LSTM网络编码器的一个输入分量。
具体的,所述生成当前时间步LSTM网络解码器对外部存储器EMM的读向量,包括:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
根据公式:确定当前时间步读向量rt″;
将当前时间步读向量rt″与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与一第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的读向量yt″;其中,yt″=W″out[rt″;h″t-1]。
具体的,所述根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量,包括:
根据公式:生成LSTM网络解码器在当前时间步输出的特征向量h″t;其中,表示LSTM网络解码器的处理;h″t-1为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的;
将LSTM网络解码器在当前时间步输出的特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
具体的,根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值,完成视频训练,形成视频训练模型,包括:
根据各时间步的预测单词向量pret形成的语义标注的长度达到的预先设置的长度阈值为预先设置的固定值ti时,完成视频训练,形成视频训练模型。
进一步的,所述视频图像的语义信息提取方法,还包括根据各时间步的预测单词向量pret,采用公式确定损失函数L(Θ);其中,N表示视频训练集中的视频个数;vi表示第i个视频;Θ为所有的可训练的参数;λ为正则化系数;
根据所述损失函数L(Θ)对LSTM网络进行反向传播调整网络参数。
一种视频图像的语义信息提取装置,包括:
视频获取单元,用于从预先设置的视频标注数据集中获取视频训练集和视频验证集;
视频帧图像提取单元,用于对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列;
视频帧图像的特征向量单元,用于将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量;
LSTM网络编码器处理单元,用于将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量;
存储矩阵内容更新单元,用于将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量;
预测单词向量确定单元,用于根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量;
重复执行LSTM网络编码器处理单元、存储矩阵内容更新单元和预测单词向量确定单元的执行过程;
视频训练模型形成单元,用于在根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值时,完成视频训练,形成视频训练模型。
视频验证集中的视频的语义标注信息生成单元,用于获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
进一步的,所述视频图像的语义信息提取装置,还包括:
词汇表生成单元,用于获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表;所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti
另外,在所述视频帧图像提取单元中的多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。
具体的,所述存储矩阵内容更新单元,包括:
第一更新存储矩阵生成模块,用于根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵Mt′;
第二更新存储矩阵生成模块,用于根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵Mt″;
存储矩阵内容更新模块,用于根据所述第一更新存储矩阵Mt′和第二更新存储矩阵Mt″,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=Mt′+Mt″。
此外,所述第一更新存储矩阵生成模块,具体用于:
将LSTM网络编码器在当前时间步输出的特征向量ht′与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与一第一输入权重矩阵W′in相乘,生成第一特征向量pt′;其中,pt′=W′in[ht′;y′t-1];
根据公式:将所述第一特征向量pt′进行解析,得到多个分向量
将分向量和分向量分别通过oneplus函数进行处理得到分向量
将分向量和分向量分别通过sigmoid函数进行处理得到分向量et′和gt′;
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重
根据公式:确定当前时间步写权重其中为上一时间步写权重;
根据公式:确定第一更新存储矩阵Mt′。
此外,所述第二更新存储矩阵生成模块,具体用于:
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与一第二输入权重矩阵W″in相乘,生成第二特征向量pt″;其中,pt″=W″in[h″t-1;y″t-1];
根据公式:将所述第二特征向量pt″进行解析,得到多个分向量;
将分向量和分向量分别通过oneplus函数进行处理得到分向量
将分向量和分向量分别通过sigmoid函数进行处理得到分向量et″和gt″;
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重
根据公式:确定当前时间步写权重其中为上一时间步写权重;
根据公式:确定第二更新存储矩阵Mt″。
另外,所述存储矩阵内容更新单元,具体还用于:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
根据公式:确定当前时间步读向量rt′;
将当前时间步读向量rt′与LSTM网络编码器在当前时间步输出的特征向量ht′进行拼接,并与一第一输出权重矩阵W′out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′;其中,yt′=W′out[rt′;h′t];
将当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′作为下一时间步LSTM网络编码器的一个输入分量。
另外,所述存储矩阵内容更新单元,具体还用于:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
根据公式:确定当前时间步读向量rt″;
将当前时间步读向量rt″与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与一第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的读向量yt″;其中,yt″=W″out[rt″;h″t-1]。
另外,所述预测单词向量确定单元,具体用于:
根据公式:生成LSTM网络解码器在当前时间步输出的特征向量h″t;其中,表示LSTM网络解码器的处理;为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的;
将LSTM网络解码器在当前时间步输出的特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
此外,所述视频训练模型形成单元,具体用于:
根据各时间步的预测单词向量pret形成的语义标注的长度达到的预先设置的长度阈值为预先设置的固定值ti时,完成视频训练,形成视频训练模型。
进一步的,所述视频图像的语义信息提取装置,还包括反向传播调整网络参数单元,用于:
根据各时间步的预测单词向量pret,采用公式确定损失函数L(Θ);其中,N表示视频训练集中的视频个数;vi表示第i个视频;Θ为所有的可训练的参数;λ为正则化系数;
根据所述损失函数L(Θ)对LSTM网络进行反向传播调整网络参数。
本发明实施例提供的一种视频图像的语义信息提取方法及装置,通过对视频按一定的帧间隔提取视频的帧序列,通过卷积神经网络提取每帧图像的特征向量,然后将该特征向量作为LSTM网络编码器的输入,该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入,通过一系列运算更新外部存储器EMM中的存储矩阵的内容;之后,外部存储器EMM输出两个读向量,分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写,实现在编码阶段存储视频各帧图像的信息特征,在解码阶段通过预测单词的反馈,调整外部存储器下一时间步的输出,使得生成视频标注时可以根据当前已经生成的单词序列调节上下文特征向量,避免了传统编码——解码模型中输入视频的时间较长,提取的帧数较多时,现有技术模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种视频图像的语义信息提取方法的流程图一;
图2为本发明实施例提供的一种视频图像的语义信息提取方法的流程图二;
图3为本发明实施例中的4帧图像的编码和解码过程示例示意图;
图4为本发明实施例提供的一种视频图像的语义信息提取装置的结构示意图一;
图5为本发明实施例提供的一种视频图像的语义信息提取装置的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种视频图像的语义信息提取方法,包括:
步骤101、从预先设置的视频标注数据集中获取视频训练集和视频验证集。
步骤102、对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列。
步骤103、将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量。
步骤104、将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量。
步骤105、将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器(External Memory Model,简称EMM)中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量。
步骤106、根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量。
重复执行步骤104至步骤106,直至根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值,完成视频训练,形成视频训练模型。
步骤107、获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
本发明实施例提供的一种视频图像的语义信息提取方法,通过对视频按一定的帧间隔提取视频的帧序列,通过卷积神经网络提取每帧图像的特征向量,然后将该特征向量作为LSTM网络编码器的输入,该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入,通过一系列运算更新外部存储器EMM中的存储矩阵的内容;之后,外部存储器EMM输出两个读向量,分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写,实现在编码阶段存储视频各帧图像的信息特征,在解码阶段通过预测单词的反馈,调整外部存储器下一时间步的输出,使得生成视频标注时可以根据当前已经生成的单词序列调节上下文特征向量,避免了传统编码——解码模型中输入视频的时间较长,提取的帧数较多时,现有技术模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降的问题。
为了使本领域的技术人员更好的了解本发明,下面列举一个更为详细的实施例,如图2所示,本发明实施例提供一种视频图像的语义信息提取方法,包括:
步骤201、从预先设置的视频标注数据集中获取视频训练集和视频验证集。
步骤202、获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表。
其中,所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti。如预先设置的固定值ti为20,对于单词数小于20的视频语义标注结果,在其视频语义标注结果的序列最后加入pad,以使所有的序列长度都等于20,pad的值为0。此外,在编码阶段,LSTM网络解码器不输入正确单词的词向量,因此,这些时间步的单词的词向量的输入也为pad。
步骤203、对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列。
具体的,在所述多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。对于帧数较少的视频,在帧序列的最后加上pad,值为0。此外,在解码阶段,LSTM网络编码器不进行帧序列的输入,这些时间步的输入视频帧序列也为pad。
步骤204、将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量。
此处的卷积神经网络可以为已经训练完成的VGGNet,GoogleNet等。
步骤205、将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量。
步骤206、将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量。
此处外部存储器EMM的存储矩阵M的大小为N×K,N表示存储矩阵的行数,K表示每一行可以存储的向量大小。
具体的,在步骤206中,将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,可以通过如下步骤(一)、(二)、(三)来实现:
(一)、根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵Mt′,其过程为:
将LSTM网络编码器在当前时间步输出的特征向量ht′与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与一第一输入权重矩阵W′in相乘,生成第一特征向量pt′;其中,pt′=W′in[ht′;y′t-1]。
根据公式:将所述第一特征向量pt′进行解析,得到多个分向量 表示当前时间步得到的写键;
将分向量和分向量分别通过oneplus函数进行处理得到分向量此处的oneplus函数定义为:oneplus(x)=1+log(1+ex),从而控制取值范围为[1,∞]。表示当前时间步得到的写键的强度。
将分向量和分向量分别通过sigmoid函数进行处理得到分向量et′和gt′。此处的sigmoid函数定义为:从而控制取值范围为[0,1]。
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重即采用余弦相似度公式:完成的计算。
根据公式:确定当前时间步写权重其中为上一时间步写权重。g′t表示一个插值门,控制上一时间步的写权重向当前时间步的写权重变化的程度。
根据公式:确定第一更新存储矩阵Mt′。et′表示擦除向量,完成对上一时间步存储矩阵内容的擦除,et′的每一个元素的值在[0,1]之间,表示对存储矩阵中每一行擦除的程度。a′t表示加向量,将当前时间步的信息写入存储矩阵。
(二)、根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵Mt″,其过程为(此步骤中的函数和系数解释与上一步骤(一)相同或相似,此处不再赘述):
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与一第二输入权重矩阵W″in相乘,生成第二特征向量pt″;其中,pt″=W″in[h″t-1;y″t-1]。
根据公式:将所述第二特征向量pt″进行解析,得到多个分向量;
将分向量和分向量分别通过oneplus函数进行处理得到分向量
将分向量和分向量分别通过sigmoid函数进行处理得到分向量et″和gt″。
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重
根据公式:确定当前时间步写权重其中为上一时间步写权重。
根据公式:确定第二更新存储矩阵Mt″。
(三)、根据所述第一更新存储矩阵Mt′和第二更新存储矩阵Mt″,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=Mt′+Mt″。
另外,在步骤206中,所述生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,可以通过如下方式实现:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
即采用余弦相似度公式:完成的计算。
根据公式:确定当前时间步读向量rt′。
将当前时间步读向量rt′与LSTM网络编码器在当前时间步输出的特征向量ht′进行拼接,并与一第一输出权重矩阵W′out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′;其中,yt′=W′out[rt′;h′t]。
将当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′作为下一时间步LSTM网络编码器的一个输入分量。
另外,在步骤206中,所述生成当前时间步LSTM网络解码器对外部存储器EMM的读向量可以通过如下方式实现:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
根据公式:确定当前时间步读向量rt″。
将当前时间步读向量rt″与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与一第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的读向量yt″;其中,yt″=W″out[rt″;h″t-1]。
步骤207、根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量。
此处,上述步骤207可以采用如下方式实现:
根据公式:生成LSTM网络解码器在当前时间步输出的特征向量h″t;其中,表示LSTM网络解码器的处理;h″t-1为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;需要说明的是,在训练阶段中,通过将正确的标注单词序列延后一个时间步的序列,作为LSTM网络解码器的一个输入分量,以实现LSTM网络学会单词之间的依赖性。如:
输入:<BOS>He is talking.
输出:He is talking.<EOS>
<BOS>表示开始标志,<EOS>表示结束标志。xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的。
将LSTM网络解码器在当前时间步输出的特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
重复执行步骤205至步骤207,直至根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值(可以是预先设置的固定值ti),完成视频训练,形成视频训练模型。
另外,在步骤207之后,还可以根据各时间步的预测单词向量pret,采用公式确定损失函数L(Θ);其中,N表示视频训练集中的视频个数;vi表示第i个视频;Θ为所有的可训练的参数;λ为正则化系数。
根据所述损失函数L(Θ)对LSTM网络进行反向传播调整网络参数。
步骤208、获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
此处,为了快速并有效地生成标注序列,得到语义标注信息,和大多数图片标注生成任务一样,此处可以使用集束搜索算法(beam search)。即每一时间步,只保留分值最高的前K个标注序列。(K一般取3或5)。
为了使上述步骤201至步骤208更加直观,如图3所示,展示了4帧图像的编码和解码过程,最终形成的语义标注信息为“a man is talking”即一个人在说话。
本发明实施例提供的一种视频图像的语义信息提取方法,通过对视频按一定的帧间隔提取视频的帧序列,通过卷积神经网络提取每帧图像的特征向量,然后将该特征向量作为LSTM网络编码器的输入,该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入,通过一系列运算更新外部存储器EMM中的存储矩阵的内容;之后,外部存储器EMM输出两个读向量,分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写,实现在编码阶段存储视频各帧图像的信息特征,在解码阶段通过预测单词的反馈,调整外部存储器下一时间步的输出,使得生成视频标注时可以根据当前已经生成的单词序列调节上下文特征向量,避免了传统编码——解码模型中输入视频的时间较长,提取的帧数较多时,现有技术模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降的问题。
对应于上述图1和图2所示的方法实施例,如图4所示,本发明实施例还提供一种视频图像的语义信息提取装置,包括:
视频获取单元31,用于从预先设置的视频标注数据集中获取视频训练集和视频验证集。
视频帧图像提取单元32,用于对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列。
视频帧图像的特征向量单元33,用于将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量。
LSTM网络编码器处理单元34,用于将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量。
存储矩阵内容更新单元35,用于将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量。
预测单词向量确定单元36,用于根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量。
重复执行LSTM网络编码器处理单元34、存储矩阵内容更新单元35和预测单词向量确定单元36的执行过程。
视频训练模型形成单元37,用于在根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值时,完成视频训练,形成视频训练模型。
视频验证集中的视频的语义标注信息生成单元38,用于获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
进一步的,如图5所示,所述视频图像的语义信息提取装置,还包括:
词汇表生成单元39,用于获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表;所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti
另外,在所述视频帧图像提取单元32中的多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。
具体的,如图5所示,所述存储矩阵内容更新单元35,包括:
第一更新存储矩阵生成模块351,可以根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵Mt′。
第二更新存储矩阵生成模块352,用于根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵Mt″。
存储矩阵内容更新模块353,用于根据所述第一更新存储矩阵Mt′和第二更新存储矩阵Mt″,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=Mt′+Mt″。
此外,所述第一更新存储矩阵生成模块351,具体用于:
将LSTM网络编码器在当前时间步输出的特征向量ht′与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与一第一输入权重矩阵W′in相乘,生成第一特征向量pt′;其中,pt′=W′in[ht′;y′t-1]。
根据公式:将所述第一特征向量pt′进行解析,得到多个分向量
将分向量和分向量分别通过oneplus函数进行处理得到分向量
将分向量和分向量分别通过sigmoid函数进行处理得到分向量et′和gt′。
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重
根据公式:确定当前时间步写权重其中为上一时间步写权重。
根据公式:确定第一更新存储矩阵Mt′。
此外,所述第二更新存储矩阵生成模块352,具体用于:
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与一第二输入权重矩阵W″in相乘,生成第二特征向量pt″;其中,pt″=W″in[h″t-1;y″t-1]。
根据公式:将所述第二特征向量pt″进行解析,得到多个分向量;
将分向量和分向量分别通过oneplus函数进行处理得到分向量
将分向量和分向量分别通过sigmoid函数进行处理得到分向量et″和gt″。
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重
根据公式:确定当前时间步写权重其中为上一时间步写权重。
根据公式:确定第二更新存储矩阵Mt″。
另外,所述存储矩阵内容更新单元35,具体还用于:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
根据公式:确定当前时间步读向量rt′。
将当前时间步读向量rt′与LSTM网络编码器在当前时间步输出的特征向量ht′进行拼接,并与一第一输出权重矩阵W′out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′;其中,yt′=W′out[rt′;h′t]。
将当前时间步LSTM网络编码器对外部存储器EMM的读向量yt′作为下一时间步LSTM网络编码器的一个输入分量。
另外,所述存储矩阵内容更新单元35,具体还用于:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
根据公式:确定当前时间步读向量rt″。
将当前时间步读向量rt″与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与一第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的读向量yt″;其中,yt″=W″out[rt″;h″t-1]。
另外,所述预测单词向量确定单元36,具体用于:
根据公式:生成LSTM网络解码器在当前时间步输出的特征向量h″t;其中,表示LSTM网络解码器的处理;h″t-1为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的。
将LSTM网络解码器在当前时间步输出的特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
此外,所述视频训练模型形成单元37,具体用于:
根据各时间步的预测单词向量pret形成的语义标注的长度达到的预先设置的长度阈值为预先设置的固定值ti时,完成视频训练,形成视频训练模型。
进一步的,所述视频图像的语义信息提取装置,还包括反向传播调整网络参数单元40,用于:
根据各时间步的预测单词向量pret,采用公式确定损失函数L(Θ);其中,N表示视频训练集中的视频个数;vi表示第i个视频;Θ为所有的可训练的参数;λ为正则化系数。
根据所述损失函数L(Θ)对LSTM网络进行反向传播调整网络参数。
需要说明的是,本发明实施例提供的一种视频图像的语义信息提取装置的具体实现方式可以参见上述图1和图2对应的方法实施例,此处不再赘述。
本发明实施例提供的一种视频图像的语义信息提取装置,通过对视频按一定的帧间隔提取视频的帧序列,通过卷积神经网络提取每帧图像的特征向量,然后将该特征向量作为LSTM网络编码器的输入,该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入,通过一系列运算更新外部存储器EMM中的存储矩阵的内容;之后,外部存储器EMM输出两个读向量,分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写,实现在编码阶段存储视频各帧图像的信息特征,在解码阶段通过预测单词的反馈,调整外部存储器下一时间步的输出,使得生成视频标注时可以根据当前已经生成的单词序列调节上下文特征向量,避免了传统编码——解码模型中输入视频的时间较长,提取的帧数较多时,现有技术模型通过编码生成的上下文向量不能包含全局的所有信息,尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉,导致模型性能下降的问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (22)

1.一种视频图像的语义信息提取方法,其特征在于,包括:
步骤101、从预先设置的视频标注数据集中获取视频训练集和视频验证集;
步骤102、对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列;
步骤103、将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量;
步骤104、将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量;
步骤105、将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量;
步骤106、根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量;
重复执行步骤104至步骤106,直至根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值,完成视频训练,形成视频训练模型;
步骤107、获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
2.根据权利要求1所述的视频图像的语义信息提取方法,其特征在于,在从预先设置的视频标注数据集中获取视频训练集和视频验证集之后,还包括:
获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表;所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti
3.根据权利要求2所述的视频图像的语义信息提取方法,其特征在于,在所述多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。
4.根据权利要求3所述的视频图像的语义信息提取方法,其特征在于,将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,包括:
根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵M′t
根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵M″t
根据所述第一更新存储矩阵M′t和第二更新存储矩阵M″t,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=M′t+M″t
5.根据权利要求4所述的视频图像的语义信息提取方法,其特征在于,根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵M′t,包括:
将LSTM网络编码器在当前时间步输出的特征向量h′t与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与一第一输入权重矩阵W′in相乘,生成第一特征向量p′t;其中,p′t=W′in[h′t;y′t-1];
根据公式:将所述第一特征向量p′t进行解析,得到多个分向量
将分向量和分向量分别通过oneplus函数进行处理得到分向量
将分向量和分向量分别通过sigmoid函数进行处理得到分向量e′t和g′t
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重
根据公式:确定当前时间步写权重其中为上一时间步写权重;
根据公式:确定第一更新存储矩阵M′t
6.根据权利要求5所述的视频图像的语义信息提取方法,其特征在于,根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵M″t,包括:
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与一第二输入权重矩阵W″in相乘,生成第二特征向量p″t;其中,p″t=W″in[h″t-1;y″t-1];
根据公式:将所述第二特征向量p″t进行解析,得到多个分向量;
将分向量和分向量分别通过oneplus函数进行处理得到分向量
将分向量和分向量分别通过sigmoid函数进行处理得到分向量et″和g″t
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重
根据公式:确定当前时间步写权重其中为上一时间步写权重;
根据公式:确定第二更新存储矩阵M″t
7.根据权利要求6所述的视频图像的语义信息提取方法,其特征在于,所述生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,包括:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
根据公式:确定当前时间步读向量rt′;
将当前时间步读向量rt′与LSTM网络编码器在当前时间步输出的特征向量h′t进行拼接,并与一第一输出权重矩阵W′out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量y′t;其中,y′t=W′out[rt′;h′t];
将当前时间步LSTM网络编码器对外部存储器EMM的读向量y′t作为下一时间步LSTM网络编码器的一个输入分量。
8.根据权利要求7所述的视频图像的语义信息提取方法,其特征在于,所述生成当前时间步LSTM网络解码器对外部存储器EMM的读向量,包括:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
根据公式:确定当前时间步读向量rt″;
将当前时间步读向量rt″与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与一第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的读向量y″t;其中,y″t=W″out[r″t;h″t-1]。
9.根据权利要求8所述的视频图像的语义信息提取方法,其特征在于,所述根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量,包括:
根据公式:生成LSTM网络解码器在当前时间步输出的特征向量h″t;其中,表示LSTM网络解码器的处理;h″t-1为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的;
将LSTM网络解码器在当前时间步输出的特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
10.根据权利要求9所述的视频图像的语义信息提取方法,其特征在于,根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值,完成视频训练,形成视频训练模型,包括:
根据各时间步的预测单词向量pret形成的语义标注的长度达到的预先设置的长度阈值为预先设置的固定值ti时,完成视频训练,形成视频训练模型。
11.根据权利要求10所述的视频图像的语义信息提取方法,其特征在于,还包括根据各时间步的预测单词向量pret,采用公式确定损失函数L(Θ);其中,N表示视频训练集中的视频个数;vi表示第i个视频;Θ为所有的可训练的参数;λ为正则化系数;
根据所述损失函数L(Θ)对LSTM网络进行反向传播调整网络参数。
12.一种视频图像的语义信息提取装置,其特征在于,包括:
视频获取单元,用于从预先设置的视频标注数据集中获取视频训练集和视频验证集;
视频帧图像提取单元,用于对视频训练集中的视频以预先设置的帧间隔提取视频帧图像,生成多个视频的帧序列;
视频帧图像的特征向量单元,用于将所述视频的帧序列通过卷积神经网络进行处理,获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量;
LSTM网络编码器处理单元,用于将视频帧图像的特征向量输入LSTM网络编码器中进行处理,生成LSTM网络编码器在当前时间步输出的特征向量;
存储矩阵内容更新单元,用于将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中,以更新外部存储器EMM的存储矩阵内容,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量,作为下一时间步LSTM网络编码器的一个输入分量,并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量;
预测单词向量确定单元,用于根据当前时间步LSTM网络解码器对外部存储器EMM的读向量,通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量,并确定当前时间步的预测单词向量;
重复执行LSTM网络编码器处理单元、存储矩阵内容更新单元和预测单词向量确定单元的执行过程;
视频训练模型形成单元,用于在根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值时,完成视频训练,形成视频训练模型;
视频验证集中的视频的语义标注信息生成单元,用于获取视频验证集中的视频,并调取所述视频训练模型,生成视频验证集中的视频的语义标注信息。
13.根据权利要求12所述的视频图像的语义信息提取装置,其特征在于,还包括:
词汇表生成单元,用于获取视频训练集中的视频对应的预先设置的视频语义标注结果,生成视频训练集中的视频的词汇表;所述视频语义标注结果的序列长度被设置为一预先设置的固定值ti
14.根据权利要求13所述的视频图像的语义信息提取装置,其特征在于,在所述视频帧图像提取单元中的多个视频的帧序列中,每个视频的帧序列的长度被设置为预先设置的帧序列长度值。
15.根据权利要求14所述的视频图像的语义信息提取装置,其特征在于,所述存储矩阵内容更新单元,包括:
第一更新存储矩阵生成模块,用于根据LSTM网络编码器在当前时间步输出的特征向量,生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第一更新存储矩阵M′t
第二更新存储矩阵生成模块,用于根据LSTM网络解码器在上一时间步输出的特征向量,生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容Mt-1的第二更新存储矩阵M″t
存储矩阵内容更新模块,用于根据所述第一更新存储矩阵M′t和第二更新存储矩阵M″t,形成当前时间步的外部存储器EMM的存储矩阵内容Mt;其中,Mt=M′t+M″t
16.根据权利要求15所述的视频图像的语义信息提取装置,其特征在于,所述第一更新存储矩阵生成模块,具体用于:
将LSTM网络编码器在当前时间步输出的特征向量h′t与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′t-1拼接,并与一第一输入权重矩阵W′in相乘,生成第一特征向量p′t;其中,p′t=W′in[h′t;y′t-1];
根据公式:将所述第一特征向量p′t进行解析,得到多个分向量
将分向量和分向量分别通过oneplus函数进行处理得到分向量
将分向量和分向量分别通过sigmoid函数进行处理得到分向量e′t和g′t
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重
根据公式:确定当前时间步写权重其中为上一时间步写权重;
根据公式:确定第一更新存储矩阵M′t
17.根据权利要求16所述的视频图像的语义信息提取装置,其特征在于,所述第二更新存储矩阵生成模块,具体用于:
将LSTM网络解码器在上一时间步输出的特征向量h″t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″t-1拼接,并与一第二输入权重矩阵W″in相乘,生成第二特征向量p″t;其中,p″t=W″in[h″t-1;y″t-1];
根据公式:将所述第二特征向量p″t进行解析,得到多个分向量;
将分向量和分向量分别通过oneplus函数进行处理得到分向量
将分向量和分向量分别通过sigmoid函数进行处理得到分向量et″和g″t
根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重
根据公式:确定当前时间步写权重其中为上一时间步写权重;
根据公式:确定第二更新存储矩阵M″t
18.根据权利要求17所述的视频图像的语义信息提取装置,其特征在于,所述存储矩阵内容更新单元,具体还用于:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
根据公式:确定当前时间步读向量rt′;
将当前时间步读向量rt′与LSTM网络编码器在当前时间步输出的特征向量h′t进行拼接,并与一第一输出权重矩阵W′out相乘,生成当前时间步LSTM网络编码器对外部存储器EMM的读向量y′t;其中,y′t=W′out[r′t;h′t];
将当前时间步LSTM网络编码器对外部存储器EMM的读向量y′t作为下一时间步LSTM网络编码器的一个输入分量。
19.根据权利要求18所述的视频图像的语义信息提取装置,其特征在于,所述存储矩阵内容更新单元,具体还用于:
根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重
根据公式:确定当前时间步读向量rt″;
将当前时间步读向量rt″与LSTM网络解码器在上一时间步输出的特征向量h″t-1进行拼接,并与一第二输出权重矩阵W″out相乘,生成当前时间步LSTM网络解码器对外部存储器EMM的读向量y″t;其中,y″t=W″out[r″t;h″t-1]。
20.根据权利要求19所述的视频图像的语义信息提取装置,其特征在于,所述预测单词向量确定单元,具体用于:
根据公式:生成LSTM网络解码器在当前时间步输出的特征向量h″t;其中,表示LSTM网络解码器的处理;h″t-1为LSTM网络解码器在上一时间步输出的特征向量;c″t-1表示LSTM网络解码器的cell值;xt为当前时间步的输入词嵌入向量,所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的;
将LSTM网络解码器在当前时间步输出的特征向量h″t经过LSTM网络解码器的一个全连接层进行处理,得到当前时间步的预测单词向量pret;其中,pret=WVh″t;其中,WV为一单词权重矩阵,V表示视频训练集中的视频的词汇表中的单词数量,当前时间步的预测单词向量pret为一个1×V的向量。
21.根据权利要求20所述的视频图像的语义信息提取装置,其特征在于,所述视频训练模型形成单元,具体用于:
根据各时间步的预测单词向量pret形成的语义标注的长度达到的预先设置的长度阈值为预先设置的固定值ti时,完成视频训练,形成视频训练模型。
22.根据权利要求21所述的视频图像的语义信息提取装置,其特征在于,还包括反向传播调整网络参数单元,用于:
根据各时间步的预测单词向量pret,采用公式确定损失函数L(Θ);其中,N表示视频训练集中的视频个数;vi表示第i个视频;Θ为所有的可训练的参数;λ为正则化系数;
根据所述损失函数L(Θ)对LSTM网络进行反向传播调整网络参数。
CN201710569482.6A 2017-07-13 2017-07-13 一种视频图像的语义信息提取方法及装置 Active CN107391646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710569482.6A CN107391646B (zh) 2017-07-13 2017-07-13 一种视频图像的语义信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710569482.6A CN107391646B (zh) 2017-07-13 2017-07-13 一种视频图像的语义信息提取方法及装置

Publications (2)

Publication Number Publication Date
CN107391646A true CN107391646A (zh) 2017-11-24
CN107391646B CN107391646B (zh) 2020-04-10

Family

ID=60340611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710569482.6A Active CN107391646B (zh) 2017-07-13 2017-07-13 一种视频图像的语义信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN107391646B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108062538A (zh) * 2017-12-29 2018-05-22 成都智宝大数据科技有限公司 人脸识别方法及装置
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108228915A (zh) * 2018-03-29 2018-06-29 华南理工大学 一种基于深度学习的视频检索方法
CN108416059A (zh) * 2018-03-22 2018-08-17 北京市商汤科技开发有限公司 图像描述模型的训练方法和装置、设备、介质、程序
CN108419094A (zh) * 2018-03-05 2018-08-17 腾讯科技(深圳)有限公司 视频处理方法、视频检索方法、装置、介质及服务器
CN109189989A (zh) * 2018-07-23 2019-01-11 北京市商汤科技开发有限公司 一种视频描述方法及装置、计算机设备和存储介质
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109360436A (zh) * 2018-11-02 2019-02-19 Oppo广东移动通信有限公司 一种视频生成方法、终端及存储介质
CN109359214A (zh) * 2018-10-15 2019-02-19 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、存储介质及终端设备
CN109409221A (zh) * 2018-09-20 2019-03-01 中国科学院计算技术研究所 基于帧选择的视频内容描述方法和系统
CN109800434A (zh) * 2019-01-25 2019-05-24 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法
CN110225368A (zh) * 2019-06-27 2019-09-10 腾讯科技(深圳)有限公司 一种视频定位方法、装置及电子设备
CN110287799A (zh) * 2019-05-28 2019-09-27 东南大学 基于深度学习的视频ucl语义标引方法与装置
CN110460882A (zh) * 2018-05-07 2019-11-15 中国科学院声学研究所 一种基于数据特征降维编码的流媒体内容分发方法
WO2019242278A1 (zh) * 2018-06-20 2019-12-26 北京达佳互联信息技术有限公司 内容描述生成模型的损失值获取方法及装置
CN111476838A (zh) * 2019-01-23 2020-07-31 华为技术有限公司 图像分析方法以及系统
CN111818397A (zh) * 2020-06-29 2020-10-23 同济大学 一种基于长短时记忆网络变体的视频描述生成方法
CN112119409A (zh) * 2018-05-18 2020-12-22 渊慧科技有限公司 具有关系存储器的神经网络
CN112182292A (zh) * 2020-09-30 2021-01-05 百度(中国)有限公司 视频检索模型的训练方法、装置、电子设备及存储介质
CN112528883A (zh) * 2020-12-15 2021-03-19 杭州义顺科技有限公司 一种基于反思网络的教学场景视频描述生成方法
CN113810730A (zh) * 2021-09-17 2021-12-17 咪咕数字传媒有限公司 基于视频的实时文本生成方法、装置及计算设备
CN116046810A (zh) * 2023-04-03 2023-05-02 云南通衢工程检测有限公司 基于rpc盖板破坏荷载的无损检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165255B1 (en) * 2012-07-26 2015-10-20 Google Inc. Automatic sequencing of video playlists based on mood classification of each video and video cluster transitions
US20160034786A1 (en) * 2014-07-29 2016-02-04 Microsoft Corporation Computerized machine learning of interesting video sections
CN105701480A (zh) * 2016-02-26 2016-06-22 江苏科海智能系统有限公司 一种视频语义分析方法
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165255B1 (en) * 2012-07-26 2015-10-20 Google Inc. Automatic sequencing of video playlists based on mood classification of each video and video cluster transitions
US20160034786A1 (en) * 2014-07-29 2016-02-04 Microsoft Corporation Computerized machine learning of interesting video sections
CN105701480A (zh) * 2016-02-26 2016-06-22 江苏科海智能系统有限公司 一种视频语义分析方法
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN107979764B (zh) * 2017-12-06 2020-03-31 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108200483B (zh) * 2017-12-26 2020-02-28 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108062538A (zh) * 2017-12-29 2018-05-22 成都智宝大数据科技有限公司 人脸识别方法及装置
CN108419094A (zh) * 2018-03-05 2018-08-17 腾讯科技(深圳)有限公司 视频处理方法、视频检索方法、装置、介质及服务器
CN108419094B (zh) * 2018-03-05 2021-01-29 腾讯科技(深圳)有限公司 视频处理方法、视频检索方法、装置、介质及服务器
US11368705B2 (en) 2018-03-05 2022-06-21 Tencent Technology (Shenzhen) Company Limited Video feature extraction and video content understanding method, apparatus, storage medium and server
US11934454B2 (en) 2018-03-05 2024-03-19 Tencent Technology (Shenzhen) Company Limited Video processing method and apparatus, video retrieval method and apparatus, storage medium, and server
CN108416059A (zh) * 2018-03-22 2018-08-17 北京市商汤科技开发有限公司 图像描述模型的训练方法和装置、设备、介质、程序
CN108416059B (zh) * 2018-03-22 2021-05-18 北京市商汤科技开发有限公司 图像描述模型的训练方法和装置、设备、介质
CN108228915A (zh) * 2018-03-29 2018-06-29 华南理工大学 一种基于深度学习的视频检索方法
CN110460882A (zh) * 2018-05-07 2019-11-15 中国科学院声学研究所 一种基于数据特征降维编码的流媒体内容分发方法
CN112119409B (zh) * 2018-05-18 2024-04-05 渊慧科技有限公司 具有关系存储器的神经网络
CN112119409A (zh) * 2018-05-18 2020-12-22 渊慧科技有限公司 具有关系存储器的神经网络
WO2019242278A1 (zh) * 2018-06-20 2019-12-26 北京达佳互联信息技术有限公司 内容描述生成模型的损失值获取方法及装置
CN109189989A (zh) * 2018-07-23 2019-01-11 北京市商汤科技开发有限公司 一种视频描述方法及装置、计算机设备和存储介质
CN109189989B (zh) * 2018-07-23 2020-11-03 北京市商汤科技开发有限公司 一种视频描述方法及装置、计算机设备和存储介质
CN109409221A (zh) * 2018-09-20 2019-03-01 中国科学院计算技术研究所 基于帧选择的视频内容描述方法和系统
CN109359214A (zh) * 2018-10-15 2019-02-19 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、存储介质及终端设备
WO2020077858A1 (zh) * 2018-10-15 2020-04-23 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、介质、终端及装置
CN109360436A (zh) * 2018-11-02 2019-02-19 Oppo广东移动通信有限公司 一种视频生成方法、终端及存储介质
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109284506B (zh) * 2018-11-29 2023-09-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN111476838A (zh) * 2019-01-23 2020-07-31 华为技术有限公司 图像分析方法以及系统
CN109800434B (zh) * 2019-01-25 2023-07-18 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN109800434A (zh) * 2019-01-25 2019-05-24 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法
CN110287799A (zh) * 2019-05-28 2019-09-27 东南大学 基于深度学习的视频ucl语义标引方法与装置
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法
CN110225368A (zh) * 2019-06-27 2019-09-10 腾讯科技(深圳)有限公司 一种视频定位方法、装置及电子设备
CN111818397A (zh) * 2020-06-29 2020-10-23 同济大学 一种基于长短时记忆网络变体的视频描述生成方法
CN112182292A (zh) * 2020-09-30 2021-01-05 百度(中国)有限公司 视频检索模型的训练方法、装置、电子设备及存储介质
CN112182292B (zh) * 2020-09-30 2024-02-09 百度(中国)有限公司 视频检索模型的训练方法、装置、电子设备及存储介质
CN112528883A (zh) * 2020-12-15 2021-03-19 杭州义顺科技有限公司 一种基于反思网络的教学场景视频描述生成方法
CN113810730A (zh) * 2021-09-17 2021-12-17 咪咕数字传媒有限公司 基于视频的实时文本生成方法、装置及计算设备
CN113810730B (zh) * 2021-09-17 2023-08-01 咪咕数字传媒有限公司 基于视频的实时文本生成方法、装置及计算设备
CN116046810A (zh) * 2023-04-03 2023-05-02 云南通衢工程检测有限公司 基于rpc盖板破坏荷载的无损检测方法

Also Published As

Publication number Publication date
CN107391646B (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN107391646A (zh) 一种视频图像的语义信息提取方法及装置
CN109785833A (zh) 用于智能设备的人机交互语音识别方法及系统
CN109543820B (zh) 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN108170686A (zh) 文本翻译方法及装置
CN107844481B (zh) 识别文本检错方法及装置
CN113516968B (zh) 一种端到端长时语音识别方法
Chen et al. Delving deeper into the decoder for video captioning
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113784199B (zh) 一种用于生成视频描述文本的系统、方法、存储介质与电子设备
Tang et al. Modelling student behavior using granular large scale action data from a MOOC
CN112417092A (zh) 基于深度学习的智能化文本自动生成系统及其实现方法
CN114091466A (zh) 一种基于Transformer和多任务学习的多模态情感分析方法及系统
Jhunjhunwala et al. Multi-action dialog policy learning with interactive human teaching
Yuan et al. Controllable video captioning with an exemplar sentence
CN115937369A (zh) 一种表情动画生成方法、系统、电子设备及存储介质
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
CN114491258A (zh) 基于多模态内容的关键词推荐系统及方法
CN117113270A (zh) 一种基于改进对齐方法的知识融合多模态交互方法及装置
CN115080723B (zh) 一种阅读理解问题的自动生成方法
Yin et al. Neural sign language translation with sf-transformer
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
Qian et al. Filtration network: A frame sampling strategy via deep reinforcement learning for video captioning
CN111680151A (zh) 一种基于层次化transformer的个性化商品评论摘要生成方法
CN117609553B (zh) 基于局部特征增强和模态交互的视频检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant