CN107239801A - 视频属性表示学习方法及视频文字描述自动生成方法 - Google Patents
视频属性表示学习方法及视频文字描述自动生成方法 Download PDFInfo
- Publication number
- CN107239801A CN107239801A CN201710505206.3A CN201710505206A CN107239801A CN 107239801 A CN107239801 A CN 107239801A CN 201710505206 A CN201710505206 A CN 201710505206A CN 107239801 A CN107239801 A CN 107239801A
- Authority
- CN
- China
- Prior art keywords
- video
- attribute
- msub
- training
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种视频属性表示学习方法,包括下述步骤:收集一批数据用于视频文字自动描述算法的训练与测试,数据要求每个视频对应几句对应的文字描述;定义训练集中的文字描述内容中出现的所有的名词、动词、和形容词作为对应视频的属性标注信息,则训练集中的每个视频都对应多个属性标签;将一段视频序列表示为单幅图像,从而将复杂困难的视频序列多分类问题转化为较为简单的单幅图片多标签分类问题。本发明还公开一种基于上述视频属性表示学习方法的视频文字描述自动生成方法。本发明的优点在于:提供一种高效的提取视频的属性特征表示,采用本发明的融合方法,能够得到完整的可反映视频属性语义信息的文字描述自动生成方法。
Description
技术领域
本发明涉及一种计算机视觉领域,更具体涉及一种视频文字描述自动生成方法。
背景技术
视频文字描述自动生成是指给定一段视频序列,通过算法自动的生成与视频内容相关的文字描述。由于视频内容的复杂性,传统的基于搜索模型或者基于语言模型的算法效果一直较差。近年来,随着深度学习技术的发展,基于卷积神经网络(CNN)加循环神经网络(RNN)的算法取得了令人振奋的效果。这一系列算法的基本步骤如下:(1)通过CNN(二维卷积或者三维卷积)提取视频的特征向量,随后将视频特征向量通过一个映射函数编码为语言模型需要的特征向量;(2)将步骤(1)获得的特征向量作为语言解码模型RNN的输入进而输出文字描述;(3)通过大量人工标注的视频-文本对训练集同时迭代优化步骤(1)中的编码模型和步骤(2)中的解码模型。
通过分析上述步骤易知在编解码模型固定的情况下,视频的特征提取对最终生成的文字描述效果占主导地位。目前的视频文字描述自动生成方法中的视频特征提取算法主要分为两大类:(1)在一个大规模的图片分类数据集中训练一个CNN模型,用此训练完成的CNN模型提取视频的每一帧或者采样帧的特征,然后通过级联、均值或池化等操作获得视频的特征向量;(2)预先在一个大规模视频分类数据集上训练一个三维卷积神经网络(3D-CNN)来提取输入视频的包含运动信息的特征。虽然这两类方法都取得了不错的效果,但这两类方法提取视频特征的模型都是在第三方数据集上进行训练,这就意味着视频文字描述数据集中的视频并未被利用进行视频特征提取的训练。显然,目前用于视频文字自动描述生成的视频特征提取算法丧失了大量视频的语义信息。
发明内容
本发明所要解决的技术问题之一在于提供了一种如何提取可用于视频文字描述自动生成的视频语义信息的视频属性表示学习方法。
本发明所要解决的技术问题之二在于提供了一种如何将提取到的视频语义信息与现有视频文字描述自动生成编解码模型融合,以提高最终生成文字描述的质量的视频文字描述自动生成方法。
本发明是通过以下技术方案解决上述技术问题之一的:一种视频属性表示学习方法,用于提取可用于视频文字描述自动生成的视频语义信息,包括下述步骤:
步骤1)收集一批数据用于视频文字自动描述算法的训练与测试,数据要求每个视频对应几句对应的文字描述;
步骤2)本发明定义训练集中的文字描述内容中出现的所有的名词、动词、和形容词作为对应视频的属性标注信息,则训练集中的每个视频都对应多个属性标签,因此视频的属性表示学习即可看作视频的多分类问题;
步骤3)直接对视频序列做多分类训练是极为困难的,为了解决此问题,本发明设计一种新颖高效的视频表示算法,可将一段视频序列表示为单幅图像,从而将复杂困难的视频序列多分类问题转化为较为简单的单幅图片多标签分类问题,该视频表示算法具体为:
首先在一个大规模图片分类数据集上训练一个深度卷积神经网络用于提取单幅图片特征,即训练一个映射函数H(k),其中k是输入图像,若此深度卷积神经网络的最后一层有d个神经元,则图像k通过映射函数H(k)会转换为一个d维特征向量,对于训练集中的每一个视频V,本发明对其平均采样n帧,则通过映射函数H(k)会获得n个d维图像特征向量{H(k1),H(k2),...H(kn)},根据这n个向量本发明构建一个d×n维的图像,此图像每一列即是输入视频的一个采样帧的特征H(k*),每一行都代表了对应图像特征维度在视频时序中的信息,本发明将此d×n维的图像称之为视频响应图像(VRM),由于其在一张图像中同时具备帧内容信息和视频运动信息,因此是一种高效的视频表示方法;
在训练集中的每一个视频都转化为一幅视频响应图像之后,步骤2)中复杂的视频多标签分类问题即转变为视频响应图像的多标签分类问题,本发明采用基于交叉熵损失函数的卷积神经网络根据视频响应图像训练一个视频属性表示向量提取网络,在训练完成之后,本发明提取卷积神经网络的最后一层作为视频响应图像对应视频的属性表示向量,记为Fatt(V)。
优选的,所述步骤1)中,将数据集按照9:1的比例分为训练集和测试集。
本发明是通过以下技术方案解决上述技术问题之二的:一种基于上述视频属性表示学习方法的视频文字描述自动生成方法,用于将上述经过视频属性表示学习方法提取到的视频语义信息与现有视频文字描述自动生成编解码模型融合,以提高最终生成文字描述的质量,具体包括下述步骤:
步骤1、首先在一个大规模图像单标签分类数据集上训练一个通用的图像视觉特征提取网络;
步骤2、收集用于视频文字描述自动生成的数据集,即每一个视频对应一组文字描述,依据上述视频属性表示学习方法得到视频的属性表示向量,记为Fatt(V);
步骤3、本发明设计的基于显示视频属性表示学习的视频文字自动描述生成模型如图4所示,在这一步骤中,融合视频帧视觉特征与视频属性特征;
步骤4、将融合视频属性特征与采样帧视觉特征的所有向量计算完成之后作为语言解码模型的输入,通过在训练集中训练即可获得视频文字描述自动生成的模型;
步骤5、在训练集中训练完成后,将测试集中的视频按照训练集中的处理方式做预处理提取特征之后送入步骤4中的视频文字自动描述生成模型,即可自动生成文字描述。
作为优化的技术方案,所述步骤3进一步具体为:
在视频特征编码阶段,每一采样帧对应的视频编码特征除了接受每一个视频采样帧的视觉特征F(I)之外,需同时接受视频的属性表示向量Fatt(V),如图1所示,对于t时刻视频编码特征xt,其有一半的维度接受整个视频属性特征Fatt(V)的映射,另一半维度接受当前时刻对应的视频采样帧的特征F(I)的映射,即:
其中W1和W2是需要学习的映射权重。
本发明对目前广泛使用的Sequence to Sequence模型进行扩展,使其在可以接受变长视频与文字描述的前提下同时学习到视频的帧视觉特征与整个视频的属性特征。整个模型由视频特征融合编码阶段和文字描述生成解码阶段两部分组成,且两部分在整个训练集中联合训练。两部分共享两组长短时记忆(LSTM)网络单元,一组用于处理视频特征(图4中第一行),一组用于处理文本特征(图4中第二行)。在视频特征融合编码阶段除了需要视频的每一个采样帧特征之外,同时需要本发明获得的视频属性表示向量,并利用本发明设计的算法进行融合,即每一个视觉LSTM单元同时接受当前时刻对应的采样帧的视觉特征F(I)与整个视频的属性特征Fatt(V)。注意在视频特征编码阶段并无文字描述输入、在文字描述生成解码阶段并无视频特征输入,其对应LSTM单元无相关特征输入,本发明以空符号<pad>在图4中表示。此外,在文字描述生成解码阶段本发明分别使用<BOS>和<EOS>作为解码的开始与结束符号;
本发明采用广泛使用的视频英语描述数据集MSVTT作为事例,对测试集中的视频实际生成的文字描述例子如图5所示。
本发明相比现有技术具有以下优点:本发明公开了一种视频表示算法,可以将一段视频序列表示为一张二维图像,同时保留了其帧视觉信息与时序信息。利用此视频表示算法,本发明公开了一种高效的视频属性表示学习方法,将复杂的视频属性表示学习转化为较易解决的图像多标签分类问题,从而可以高效的提取视频的属性特征表示。本发明还公开了一种融合方法,可以将本发明提出的属性特征与传统视频采样帧特征融合的方法,进而结合文字描述生成模型得到完整的可反映视频属性语义信息的文字描述自动生成方法。
附图说明
图1是本发明设计的将视频序列表示为一张图像的算法示意图;
图2是本发明设计的基于视频响应图的视频属性表示学习网络框架;
图3是本发明视频文字描述自动生成方法的过程示意图;
图4是本发明设计的基于显示视频属性表示的视频文字描述自动生成模型示意图;
图5是本发明的视频帧特征与视频属性表示向量融合示意图;
图6是本发明在公开数据集上的效果事例。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
一种视频属性表示学习方法,用于提取可用于视频文字描述自动生成的视频语义信息,包括下述步骤:
步骤1)收集一批数据用于视频文字自动描述算法的训练与测试,数据要求每个视频对应几句对应的文字描述;
步骤2)本发明定义训练集中的文字描述内容中出现的所有的名词、动词、和形容词作为对应视频的属性标注信息,则训练集中的每个视频都对应多个属性标签,因此视频的属性表示学习即可看作视频的多分类问题;
步骤3)直接对视频序列做多分类训练是极为困难的,为了解决此问题,本发明设计一种新颖高效的视频表示算法,可将一段视频序列表示为单幅图像,即令每一个视频都可以用一幅二维图像表示,构建示意图如图1所示,从而将复杂困难的视频序列多分类问题转化为较为简单的单幅图片多标签分类问题,模型如图2所示,该视频表示算法具体为:
首先在一个大规模图片分类数据集上训练一个深度卷积神经网络用于提取单幅图片特征,即训练一个映射函数H(k),其中k是输入图像,若此深度卷积神经网络的最后一层有d个神经元,则图像k通过映射函数H(k)会转换为一个d维特征向量,对于训练集中的每一个视频V,本发明对其平均采样n帧,则通过映射函数H(k)会获得n个d维图像特征向量{H(k1),H(k2),...H(kn)},根据这n个向量本发明构建一个d×n维的图像,此图像每一列即是输入视频的一个采样帧的特征H(k*),每一行都代表了对应图像特征维度在视频时序中的信息,本发明将此d×n维的图像称之为视频响应图像(VRM),由于其在一张图像中同时具备帧内容信息和视频运动信息,因此是一种高效的视频表示方法;
在训练集中的每一个视频都转化为一幅视频响应图像之后,步骤2)中复杂的视频多标签分类问题即转变为视频响应图像的多标签分类问题,本发明采用基于交叉熵损失函数的卷积神经网络根据视频响应图像训练一个视频属性表示向量提取网络,在训练完成之后,本发明提取卷积神经网络的最后一层作为视频响应图像对应视频的属性表示向量,记为Fatt(V)。
优选的,所述步骤1)中,将数据集按照9:1的比例分为训练集和测试集。
本发明还提供一种基于上述视频属性表示学习方法的视频文字描述自动生成方法,用于将上述经过视频属性表示学习方法提取到的视频语义信息与现有视频文字描述自动生成编解码模型融合,以提高最终生成文字描述的质量,请参阅图3,具体包括下述步骤:
一种基于上述视频属性表示学习方法的视频文字描述自动生成方法,用于将上述经过视频属性表示学习方法提取到的视频语义信息与现有视频文字描述自动生成编解码模型融合,以提高最终生成文字描述的质量,具体包括下述步骤:
步骤1、首先在一个大规模图像单标签分类数据集上训练一个通用的图像视觉特征提取网络;
步骤2、收集用于视频文字描述自动生成的数据集,即每一个视频对应一组文字描述,依据上述视频属性表示学习方法得到视频的属性表示向量,记为Fatt(V);
步骤3、本发明设计的基于显示视频属性表示学习的视频文字自动描述生成模型如图4所示,在这一步骤中,融合视频帧视觉特征与视频属性特征;
步骤4、将融合视频属性特征与采样帧视觉特征的所有向量计算完成之后作为语言解码模型的输入,通过在训练集中训练即可获得视频文字描述自动生成的模型;
步骤5、在训练集中训练完成后,将测试集中的视频按照训练集中的处理方式做预处理提取特征之后送入步骤4中的视频文字自动描述生成模型,即可自动生成文字描述。
作为优化的技术方案,所述步骤3进一步具体为:
在视频特征编码阶段,每一采样帧对应的视频编码特征除了接受每一个视频采样帧的视觉特征F(I)之外,需同时接受视频的属性表示向量Fatt(V),如图5所示,对于t时刻视频编码特征xt,其有一半的维度接受整个视频属性特征Fatt(V)的映射,另一半维度接受当前时刻对应的视频采样帧的特征F(I)的映射,即:
其中W1和W2是需要学习的映射权重。
本发明对目前广泛使用的Sequence to Sequence模型进行扩展,使其在可以接受变长视频与文字描述的前提下同时学习到视频的帧视觉特征与整个视频的属性特征。整个模型由视频特征融合编码阶段和文字描述生成解码阶段两部分组成,且两部分在整个训练集中联合训练。两部分共享两组长短时记忆(LSTM)网络单元,一组用于处理视频特征(图4中第一行),一组用于处理文本特征(图4中第二行)。在视频特征融合编码阶段除了需要视频的每一个采样帧特征之外,同时需要本发明获得的视频属性表示向量,并利用本发明设计的算法进行融合,即每一个视觉LSTM单元同时接受当前时刻对应的采样帧的视觉特征F(I)与整个视频的属性特征Fatt(V)。注意在视频特征编码阶段并无文字描述输入、在文字描述生成解码阶段并无视频特征输入,其对应LSTM单元无相关特征输入,本发明以空符号<pad>在图4中表示。此外,在文字描述生成解码阶段本发明分别使用<BOS>和<EOS>作为解码的开始与结束符号。
本发明采用广泛使用的视频英语描述数据集MSVTT作为事例,对测试集中的视频实际生成的文字描述例子如图6所示。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种视频属性表示学习方法,用于提取可用于视频文字描述自动生成的视频语义信息,其特征在于,包括下述步骤:
步骤1)收集一批数据用于视频文字自动描述算法的训练与测试,数据要求每个视频对应几句对应的文字描述;
步骤2)本发明定义训练集中的文字描述内容中出现的所有的名词、动词、和形容词作为对应视频的属性标注信息,则训练集中的每个视频都对应多个属性标签,因此视频的属性表示学习即看作视频的多分类问题;
步骤3)将一段视频序列表示为单幅图像,从而将复杂困难的视频序列多分类问题转化为较为简单的单幅图片多标签分类问题,具体为:
首先在一个大规模图片分类数据集上训练一个深度卷积神经网络用于提取单幅图片特征,即训练一个映射函数H(k),其中k是输入图像,若此深度卷积神经网络的最后一层有d个神经元,则图像k通过映射函数H(k)会转换为一个d维特征向量,对于训练集中的每一个视频V,对其平均采样n帧,则通过映射函数H(k)会获得n个d维图像特征向量{H(k1),H(k2),...H(kn)},根据这n个向量构建一个d×n维的图像,此图像每一列即是输入视频的一个采样帧的特征H(k*),每一行都代表了对应图像特征维度在视频时序中的信息,将此d×n维的图像称之为视频响应图像(VRM);
在训练集中的每一个视频都转化为一幅视频响应图像之后,步骤2)中复杂的视频多标签分类问题即转变为视频响应图像的多标签分类问题,训练一个视频属性表示向量提取网络,在训练完成之后,取卷积神经网络的最后一层作为视频响应图像对应视频的属性表示向量,记为Fatt(V)。
2.根据权利要求1所述的一种视频属性表示学习方法,其特征在于,所述步骤3)中,采用基于交叉熵损失函数的卷积神经网络根据视频响应图像训练一个视频属性表示向量提取网络。
3.根据权利要求1所述的一种视频属性表示学习方法,其特征在于,所述步骤1)中,将数据集按照9:1的比例分为训练集和测试集。
4.一种基于权利要求1至3任一项所述的视频属性表示学习方法的视频文字描述自动生成方法,用于将上述经过视频属性表示学习方法提取到的视频语义信息与现有视频文字描述自动生成编解码模型融合,最终生成文字描述,具体包括下述步骤:
步骤1、首先在一个大规模图像单标签分类数据集上训练一个通用的图像视觉特征提取网络;
步骤2、收集用于视频文字描述自动生成的数据集,即每一个视频对应一组文字描述,依据所述视频属性表示学习方法得到视频的属性表示向量,记为Fatt(V);
步骤3、融合视频帧视觉特征与视频属性特征;
步骤4、将融合视频属性特征与采样帧视觉特征的所有向量计算完成之后作为语言解码模型的输入,通过在训练集中训练即可获得视频文字描述自动生成的模型;
步骤5、在训练集中训练完成后,将测试集中的视频按照训练集中的处理方式做预处理提取特征之后送入步骤4中的视频文字自动描述生成模型,即自动生成文字描述。
5.根据权利要求4所述的一种视频文字描述自动生成方法,其特征在于,所述步骤3进一步具体为:
在视频特征编码阶段,每一采样帧对应的视频编码特征除了接受每一个视频采样帧的视觉特征F(I)之外,需同时接受视频的属性表示向量Fatt(V),对于t时刻视频编码特征xt,其有一半的维度接受整个视频属性特征Fatt(V)的映射,另一半维度接受当前时刻对应的视频采样帧的特征F(I)的映射,即:
<mrow>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>=</mo>
<mo>&lsqb;</mo>
<msub>
<mi>x</mi>
<msub>
<mi>t</mi>
<mn>1</mn>
</msub>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msub>
<mo>&rsqb;</mo>
<mo>=</mo>
<mo>&lsqb;</mo>
<msub>
<mi>W</mi>
<mn>1</mn>
</msub>
<mo>*</mo>
<msub>
<mi>F</mi>
<mrow>
<mi>a</mi>
<mi>t</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<msub>
<mi>W</mi>
<mn>2</mn>
</msub>
<mo>*</mo>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>I</mi>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
其中W1和W2是需要学习的映射权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710505206.3A CN107239801B (zh) | 2017-06-28 | 2017-06-28 | 视频属性表示学习方法及视频文字描述自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710505206.3A CN107239801B (zh) | 2017-06-28 | 2017-06-28 | 视频属性表示学习方法及视频文字描述自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107239801A true CN107239801A (zh) | 2017-10-10 |
CN107239801B CN107239801B (zh) | 2020-07-28 |
Family
ID=59987691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710505206.3A Active CN107239801B (zh) | 2017-06-28 | 2017-06-28 | 视频属性表示学习方法及视频文字描述自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107239801B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909014A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 一种基于深度学习的视频理解方法 |
CN108805036A (zh) * | 2018-05-22 | 2018-11-13 | 电子科技大学 | 一种新的非监督的视频语义提取方法 |
CN108921032A (zh) * | 2018-06-04 | 2018-11-30 | 四川创意信息技术股份有限公司 | 一种新的基于深度学习模型的视频语义提取方法 |
CN109408672A (zh) * | 2018-12-14 | 2019-03-01 | 北京百度网讯科技有限公司 | 一种文章生成方法、装置、服务器及存储介质 |
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN109948721A (zh) * | 2019-03-27 | 2019-06-28 | 北京邮电大学 | 一种基于视频描述的视频场景分类方法 |
CN109993194A (zh) * | 2018-01-02 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 数据处理方法、系统、电子设备和计算机可读介质 |
CN110046226A (zh) * | 2019-04-17 | 2019-07-23 | 桂林电子科技大学 | 一种基于分布词向量cnn-rnn网络的图像描述方法 |
CN110110145A (zh) * | 2018-01-29 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 描述文本生成方法及装置 |
CN110163115A (zh) * | 2019-04-26 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种视频处理方法、装置和计算机可读存储介质 |
CN110580500A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
CN110674772A (zh) * | 2019-09-29 | 2020-01-10 | 国家电网有限公司技术学院分公司 | 电力作业现场智能安全管控辅助系统及方法 |
CN110990631A (zh) * | 2019-12-16 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 视频筛选方法、装置、电子设备和存储介质 |
CN111242033A (zh) * | 2020-01-13 | 2020-06-05 | 南京大学 | 一种基于视频和文字对判别分析的视频特征学习方法 |
CN111538862A (zh) * | 2020-05-15 | 2020-08-14 | 北京百度网讯科技有限公司 | 用于解说视频的方法及装置 |
CN111767726A (zh) * | 2020-06-24 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN111832384A (zh) * | 2020-05-20 | 2020-10-27 | 东南大学 | 一种融合图像和声音信息的视频标注方法 |
CN112597341A (zh) * | 2018-05-25 | 2021-04-02 | 中科寒武纪科技股份有限公司 | 视频检索方法及视频检索映射关系生成方法、装置 |
CN113474793A (zh) * | 2020-01-24 | 2021-10-01 | 辉达公司 | 使用一个或更多个神经网络的指令生成 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140328570A1 (en) * | 2013-01-09 | 2014-11-06 | Sri International | Identifying, describing, and sharing salient events in images and videos |
CN105005772A (zh) * | 2015-07-20 | 2015-10-28 | 北京大学 | 一种视频场景检测方法 |
US20170083623A1 (en) * | 2015-09-21 | 2017-03-23 | Qualcomm Incorporated | Semantic multisensory embeddings for video search by text |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
-
2017
- 2017-06-28 CN CN201710505206.3A patent/CN107239801B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140328570A1 (en) * | 2013-01-09 | 2014-11-06 | Sri International | Identifying, describing, and sharing salient events in images and videos |
CN105005772A (zh) * | 2015-07-20 | 2015-10-28 | 北京大学 | 一种视频场景检测方法 |
US20170083623A1 (en) * | 2015-09-21 | 2017-03-23 | Qualcomm Incorporated | Semantic multisensory embeddings for video search by text |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
Non-Patent Citations (4)
Title |
---|
SUBHASHINI VENUGOPALAN等: "Translating Videos to Natural Language Using Deep Recurrent Neural Networks", 《ARXIV: COMPUTER VISION AND PATTERN RECOGNITION》 * |
ZHENXING NIU等: "Semantic Video Shot Segmentation Based on Color Ratio Feature and SVM", 《2008 INTERNATIONAL CONFERENCE ON CYBERWORLDS》 * |
刘海燕: "基于内容的视频场景摘要技术的研究", 《万方数据知识服务平台》 * |
赵洋洋等: "基于文本的自动视频摘要", 《第七届和谐人机环境联合学术会议(HHME2011)暨第20届全国多媒体技术、第7届全国普适计算、第7届全国人机交互联合学术会议论文集》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909014A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 一种基于深度学习的视频理解方法 |
CN109993194A (zh) * | 2018-01-02 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 数据处理方法、系统、电子设备和计算机可读介质 |
CN110110145B (zh) * | 2018-01-29 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 描述文本生成方法及装置 |
CN110110145A (zh) * | 2018-01-29 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 描述文本生成方法及装置 |
CN108805036A (zh) * | 2018-05-22 | 2018-11-13 | 电子科技大学 | 一种新的非监督的视频语义提取方法 |
CN108805036B (zh) * | 2018-05-22 | 2022-11-22 | 电子科技大学 | 一种非监督视频语义提取方法 |
CN112597341A (zh) * | 2018-05-25 | 2021-04-02 | 中科寒武纪科技股份有限公司 | 视频检索方法及视频检索映射关系生成方法、装置 |
CN108921032A (zh) * | 2018-06-04 | 2018-11-30 | 四川创意信息技术股份有限公司 | 一种新的基于深度学习模型的视频语义提取方法 |
CN108921032B (zh) * | 2018-06-04 | 2022-04-29 | 创意信息技术股份有限公司 | 一种新的基于深度学习模型的视频语义提取方法 |
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN109408672A (zh) * | 2018-12-14 | 2019-03-01 | 北京百度网讯科技有限公司 | 一种文章生成方法、装置、服务器及存储介质 |
CN109948721A (zh) * | 2019-03-27 | 2019-06-28 | 北京邮电大学 | 一种基于视频描述的视频场景分类方法 |
CN109948721B (zh) * | 2019-03-27 | 2021-07-09 | 北京邮电大学 | 一种基于视频描述的视频场景分类方法 |
CN110046226A (zh) * | 2019-04-17 | 2019-07-23 | 桂林电子科技大学 | 一种基于分布词向量cnn-rnn网络的图像描述方法 |
CN110046226B (zh) * | 2019-04-17 | 2021-09-24 | 桂林电子科技大学 | 一种基于分布词向量cnn-rnn网络的图像描述方法 |
CN110163115B (zh) * | 2019-04-26 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 一种视频处理方法、装置和计算机可读存储介质 |
CN110163115A (zh) * | 2019-04-26 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种视频处理方法、装置和计算机可读存储介质 |
CN110580500B (zh) * | 2019-08-20 | 2023-04-18 | 天津大学 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
CN110580500A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
CN110674772B (zh) * | 2019-09-29 | 2022-08-05 | 国家电网有限公司技术学院分公司 | 电力作业现场智能安全管控辅助系统及方法 |
CN110674772A (zh) * | 2019-09-29 | 2020-01-10 | 国家电网有限公司技术学院分公司 | 电力作业现场智能安全管控辅助系统及方法 |
CN110990631A (zh) * | 2019-12-16 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 视频筛选方法、装置、电子设备和存储介质 |
CN111242033A (zh) * | 2020-01-13 | 2020-06-05 | 南京大学 | 一种基于视频和文字对判别分析的视频特征学习方法 |
CN111242033B (zh) * | 2020-01-13 | 2024-01-09 | 南京大学 | 一种基于视频和文字对判别分析的视频特征学习方法 |
CN113474793A (zh) * | 2020-01-24 | 2021-10-01 | 辉达公司 | 使用一个或更多个神经网络的指令生成 |
CN111538862A (zh) * | 2020-05-15 | 2020-08-14 | 北京百度网讯科技有限公司 | 用于解说视频的方法及装置 |
CN111538862B (zh) * | 2020-05-15 | 2023-06-20 | 北京百度网讯科技有限公司 | 用于解说视频的方法及装置 |
CN111832384A (zh) * | 2020-05-20 | 2020-10-27 | 东南大学 | 一种融合图像和声音信息的视频标注方法 |
CN111767726A (zh) * | 2020-06-24 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN111767726B (zh) * | 2020-06-24 | 2024-02-06 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107239801B (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239801A (zh) | 视频属性表示学习方法及视频文字描述自动生成方法 | |
Chatterjee et al. | Diverse and coherent paragraph generation from images | |
CN107391609B (zh) | 一种双向多模态递归网络的图像描述方法 | |
CN110580500A (zh) | 一种面向人物交互的网络权重生成少样本图像分类方法 | |
CN111259804B (zh) | 一种基于图卷积的多模态融合手语识别系统及方法 | |
TWI707296B (zh) | 智慧教學顧問生成方法、系統、設備及儲存介質 | |
CN108090400A (zh) | 一种图像文本识别的方法和装置 | |
CN112070114B (zh) | 基于高斯约束注意力机制网络的场景文字识别方法及系统 | |
CN109582952A (zh) | 诗歌生成方法、装置、计算机设备和介质 | |
CN111143617A (zh) | 一种图片或视频文本描述自动生成方法及系统 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN110969681A (zh) | 一种基于gan网络的手写体书法文字生成方法 | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习系统及方法 | |
CN110321450A (zh) | 一种针对目标检测的数据辅助标注方法、装置及系统 | |
CN115374189B (zh) | 基于区块链的食品安全溯源方法、装置及设备 | |
CN109145946A (zh) | 一种智能图像识别和描述方法 | |
CN117055724A (zh) | 虚拟教学场景中生成式教学资源系统及其工作方法 | |
CN116049557A (zh) | 一种基于多模态预训练模型的教育资源推荐方法 | |
CN111813894A (zh) | 一种基于深度学习的自然语言情感识别方法 | |
CN110096987A (zh) | 一种基于双路3dcnn模型的哑语动作识别方法 | |
CN110728604B (zh) | 一种分析方法及装置 | |
CN110083726B (zh) | 一种基于ugc图片数据的目的地形象感知方法 | |
CN116306506A (zh) | 一种基于内容识别的智能邮件模板方法 | |
CN113722536B (zh) | 基于双线性自适应特征交互与目标感知的视频描述方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |