CN114511813B - 视频语义描述方法及装置 - Google Patents
视频语义描述方法及装置 Download PDFInfo
- Publication number
- CN114511813B CN114511813B CN202210412956.7A CN202210412956A CN114511813B CN 114511813 B CN114511813 B CN 114511813B CN 202210412956 A CN202210412956 A CN 202210412956A CN 114511813 B CN114511813 B CN 114511813B
- Authority
- CN
- China
- Prior art keywords
- frame
- image
- video
- convolution
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种视频语义描述方法及装置。方法包括:获取图像序列,并利用残差网络提取每帧图像中图像特征,基于卷积门控循环单元根据当前帧图像和前一帧图像的图像特征提取每帧图像的时间和空间关联性;基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度;根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至GRU中,获取语义,直至获取的下一视频帧的语义为结束标志位;将所有获取的语义进行组合,生成视频描述语句。
Description
技术领域
本发明实施例涉及视频图像处理技术领域,尤其涉及一种视频语义描述方法及装置。
背景技术
随着互联网的发展,视频数据呈现爆炸式增长。凭借人力难以充分提取如此庞大的视频数据中蕴含的信息。视频描述生成是视频智能分析领域具有代表性的技术,视频描述生成问题能否解决,标志着人工智能能否理解视频内容。视频描述生成任务的目标是使机器自动描述视频内容,具体来说,就是使机器对一段视频自动生成一段相应的文字,准确描述该视频的内容。视频描述生成领域早先的解决方法将问题分为两个阶段,第一个阶段是从视频中提取出语义内容,如主语、动词、宾语等,然后再根据概率模型和某种固定的模式生成完整的句子。这种方法中语句的生成是按照某种固定的模式,无法满足人类语言的丰富性,只能生成一些结构简单的句子。近年来,深度学习技术的应用提高了视频描述生成模型的效果。
在实现本发明的过程中,发明人发现如下技术问题:目前采用的时态注意力机制和分层递归神经编码器虽然考虑了时间视频信息的影响,却忽略了视频中的空间细节信息。进而降低了视频语义描述的准确性。
发明内容
本发明实施例提供一种视频语义描述方法及装置,以解决现有技术中采用神经网络模型描述视频语义准确性较低的技术问题。
第一方面,本发明实施例提供了一种视频语义描述方法,包括:
其中H 、W 和D分别表示特征的高度、宽度和通道的数量;
基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;
根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;
将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;
重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;
将所有获取的语义进行组合,生成视频描述语句。
进一步的,所述利用深度残差网络提取所述帧图像序列每帧图像中图像特征包括:
将 N个视频帧按照时间序列输入ResNet-200深度残差网络中,把所述ResNet-200深度残差网络res5c层的输出作为视频特征。
进一步的,所述基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性包括:
对于卷积门控循环单元进行如下配置:
对于卷积门控循环单元进行如下配置:
进一步的,所述根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征,包括:
更进一步的,所述将下一视频帧的时空特征、对应的词向量和隐藏状态输入至GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,包括:
对所述语义提取GRU神经模型进行如下配置:
第二方面,本发明实施例还提供了一种视频语义描述方法装置,包括:
时间和空间关联性提取模块,用于基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;
时空特征形成模块,根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;
语义提取模块,用于将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;并重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;
组合模块,用于将所有获取的语义进行组合,生成视频描述语句。
本发明实施例提供的视频语义描述方法及装置,通过从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征,基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度;根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;将所有获取的语义进行组合,生成视频描述语句。利用深度残差网络提取视频帧图像特征,可以快速提取帧图像中的重要变化信息,并通过卷积门控循环单元,建立相邻帧图像之间的时间和空间关联性,并充分考虑每帧图像中不同视觉区域的重要程度,并利用重要程度和图像特征的高度和宽度进行编码,并利用编码后的信息和时空特征确定语义,对语义进行组合形成视频语义描述。充分考虑了视频帧图像的时间、空间特征,得到具有时间信息和空间信息的视频表示。考虑了不同帧对词语的不同贡献,同时考虑同一帧不同视觉区域对词语的不同贡献度,从而能够生成更精准的词语。提升了视频语义描述的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一提供的视频语义描述方法的流程图;
图2为本发明实施例一提供的视频语义描述方法中编码的示意图;
图3是本发明实施例二提供的视频语义描述方法装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的视频语义描述方法的流程图,本实施例可适用于对视频进行语义描述的情况,该方法可以通过视频语义描述方法装置来执行,具体包括如下步骤:
步骤110、从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征。
根据视频帧率获取每个视频的序列帧,然后等间隔选取N帧图像,形成帧图像序列。由于视频中具有较多的帧图像,因此,如果针对每帧图像都分别提取帧图像特征,则会产生大量的数据,会对后期运算产生影响。同时帧图像具有连续性特征,因此,可以利用深度残差网络来提取帧图像序列中每帧图像中图像特征,以降低提取的数据量。深度残差收缩网络本质上是深度残差网络的一种改进版本,是一种较为新颖的深度神经网络算法。可以视作一种可训练的特征选择的过程。换言之,就是通过前面的卷积层将重要的特征变成绝对值较大的值,将冗余信息所对应的特征变成绝对值较小的值;通过子网络获得二者之间的界限,并且通过软阈值化将冗余特征置为零,同时使重要的特征有着非零的输出。
可选的,可以将帧图像序列输入到ResNet网络中,特别是ResNet-200网络,通过实验,ResNet-200网络可以取得更好的提取效果。由于ResNet-200输出是分类结果,因此,可以将络res5c层的输出作为视频特征输出。帧图像序列每帧图像中图像特征,其中H 、W 和D分别表示特征的高度、宽度和通道的数量。
步骤120、基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性。
GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Term Memory)一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。其可以使用较少的门控同时可以进行遗忘和选择记忆。并且可以利用隐藏状态可以提供当前帧图像的图像特征和前一帧图像的图像特征通过卷积提取出的特征。并且通过门控实现对有效特征的提取。在本实施例中,可以采用ConvolutionalGRU,以更好的提取图像特征。
示例性的,所述基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性包括:
对于卷积门控循环单元进行如下配置:
其中,所述共享参数可以根据经验设定。
步骤130、基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度。
对于视频中的每帧图像来说,其中可能包含多个物体,且分布于图像的不同位置,或者处于非中心位置,容易被忽视。为避免上述情况,在本实施例中,仍然可以利用Convolutional GRU计算每帧图像中不同视觉区域对不同词语的贡献度。
对于卷积门控循环单元进行如下配置:
步骤140、根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征。
图2为本发明实施例一提供的视频语义描述方法中编码的示意图,参考图2和下述描述,可以更为直观的了解编码过程。
在视频语义描述中,通常会采用卷积神经网络(CNN)作为编码器,获得给定图像或视频的固定长度的特征表示。在本实施例中,同样也需要进行编码,该编码能够充分体现视频帧的时空特征。可选的,在本实施例中,可以采用VLAD编码。
VLAD可以看做是一种简化的FV,其主要方法是通过聚类方法训练一个小的码本,对于每幅图像中的特征找到最近的码本聚类中心,随后所有特征与聚类中心的差值做累加,得到一个k*d的vlad矩阵,其中k是聚类中心个数,d是特征维数,随后将该矩阵扩展为一个(k*d)维的向量,并对其L2归一化,所得到的向量即为VLAD。
示例性的,所述根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征,可以包括:
步骤150、将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态。
在本实施例中,可以基于第二视频帧进行语义提取。所述第二视频帧可以为上述视频帧序列中的第二帧图像。所述预设语义字典可以作为针对该类视频设定的词汇表集合,其中可以包括提前定义好的一定数量词汇、开始符和结束符。由于第一视频帧采用起始符作为语义,因此,可以从第二视频帧开始提取语义。
示例性的,所述将下一视频帧的时空特征、对应的词向量和隐藏状态输入至GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,包括:
对所述语义提取GRU神经模型进行如下配置:
利用上述方式,可以提取出第二视频帧对应的语义词汇。
步骤160、重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位。
可以重复利用上述方式依次对视频帧序列中的其它帧图像进行处理,分别得到对应的语义词汇。同时,由于视频中最后一部分可能是无意义的字幕或者其它不相关内容。因此,在本实施例中,可以将输出得到的语义词汇与结束标志位进行匹配,在匹配一致时,可以确定为结束状态,不再将后续帧图像输入到语义提取GRU神经模型中。
步骤170、将所有获取的语义进行组合,生成视频描述语句。
示例性的,可以采用预设的语义描述模板或者训练好的神经网络模型,对上述获取的所有语义进行组合,最终形成视频描述语句。
本实施例通过从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征,基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度;根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;将所有获取的语义进行组合,生成视频描述语句。利用深度残差网络提取视频帧图像特征,可以快速提取帧图像中的重要变化信息,并通过卷积门控循环单元,建立相邻帧图像之间的时间和空间关联性,并充分考虑每帧图像中不同视觉区域的重要程度,并利用重要程度和图像特征的高度和宽度进行编码,并利用编码后的信息和时空特征确定语义,对语义进行组合形成视频语义描述。充分考虑了视频帧图像的时间、空间特征,得到具有时间信息和空间信息的视频表示。考虑了不同帧对词语的不同贡献,同时考虑同一帧不同视觉区域对词语的不同贡献度,从而能够生成更精准的词语。提升了视频语义描述的准确性。
实施例二
图3是本发明实施例二提供的视频语义描述装置的结构图,如图3所示,所述装置包括:
时间和空间关联性提取模块220,用于基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;
时空特征形成模块240,根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;
语义提取模块250,用于将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;并重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;
组合模块260,用于将所有获取的语义进行组合,生成视频描述语句。
本实施例提供的视频语义描述方法装置,通过从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征,基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度;根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;将所有获取的语义进行组合,生成视频描述语句。利用深度残差网络提取视频帧图像特征,可以快速提取帧图像中的重要变化信息,并通过卷积门控循环单元,建立相邻帧图像之间的时间和空间关联性,并充分考虑每帧图像中不同视觉区域的重要程度,并利用重要程度和图像特征的高度和宽度进行编码,并利用编码后的信息和时空特征确定语义,对语义进行组合形成视频语义描述。充分考虑了视频帧图像的时间、空间特征,得到具有时间信息和空间信息的视频表示。考虑了不同帧对词语的不同贡献,同时考虑同一帧不同视觉区域对词语的不同贡献度,从而能够生成更精准的词语。提升了视频语义描述的准确性。
本发明实施例所提供的视频语义描述方法装置可执行本发明任意实施例所提供的视频语义描述方法,具备执行方法相应的功能模块和有益效果。
相应的,可以以一种或多种程序设计语言或其组合来编写用于执行本发明提供的视频语义描述方法操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (4)
1.一种视频语义描述方法,其特征在于,包括:
其中H 、W 和D分别表示特征的高度、宽度和通道的数量;
基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;
根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;
将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;
重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;将所有获取的语义进行组合,生成视频描述语句;
所述基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性包括:
对于卷积门控循环单元进行如下配置:
对于卷积门控循环单元进行如下配置:
所述根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征,包括:
2.根据权利要求1所述的方法,其特征在于,所述利用深度残差网络提取所述帧图像序列每帧图像中图像特征包括:
将 N个视频帧按照时间序列输入ResNet-200深度残差网络中,把所述ResNet-200深度残差网络res5c层的输出作为视频特征。
4.一种视频语义描述方法装置,其特征在于,包括:
时间和空间关联性提取模块,用于基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;
时空特征形成模块,根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;
语义提取模块,用于将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;并重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;
组合模块,用于将所有获取的语义进行组合,生成视频描述语句;
所述时间和空间关联性提取模块,包括:
第一配置单元,用于对卷积门控循环单元进行如下配置:
所述贡献度计算模块,包括:
第二配置单元,用于对于卷积门控循环单元进行如下配置:
所述时空特征形成模块,用于:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210412956.7A CN114511813B (zh) | 2022-04-20 | 2022-04-20 | 视频语义描述方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210412956.7A CN114511813B (zh) | 2022-04-20 | 2022-04-20 | 视频语义描述方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114511813A CN114511813A (zh) | 2022-05-17 |
CN114511813B true CN114511813B (zh) | 2022-06-28 |
Family
ID=81554770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210412956.7A Active CN114511813B (zh) | 2022-04-20 | 2022-04-20 | 视频语义描述方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511813B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237856B (zh) * | 2023-11-13 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备、存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112004085A (zh) * | 2020-08-14 | 2020-11-27 | 北京航空航天大学 | 一种场景语义分割结果指导下的视频编码方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10685446B2 (en) * | 2018-01-12 | 2020-06-16 | Intel Corporation | Method and system of recurrent semantic segmentation for image processing |
EP3608844A1 (en) * | 2018-08-10 | 2020-02-12 | Naver Corporation | Methods for training a crnn and for semantic segmentation of an inputted video using said crnn |
CN110418210B (zh) * | 2019-07-12 | 2021-09-10 | 东南大学 | 一种基于双向循环神经网络和深度输出的视频描述生成方法 |
CN110991290B (zh) * | 2019-11-26 | 2023-03-10 | 西安电子科技大学 | 基于语义指导与记忆机制的视频描述方法 |
CN111488807B (zh) * | 2020-03-29 | 2023-10-10 | 复旦大学 | 基于图卷积网络的视频描述生成系统 |
CN113747168A (zh) * | 2020-05-29 | 2021-12-03 | 北京三星通信技术研究有限公司 | 多媒体数据描述模型的训练方法和描述信息的生成方法 |
CN112468888B (zh) * | 2020-11-26 | 2023-04-07 | 广东工业大学 | 基于gru网络的视频摘要生成方法与系统 |
CN112488014B (zh) * | 2020-12-04 | 2022-06-10 | 重庆邮电大学 | 基于门控循环单元的视频预测方法 |
CN113420179B (zh) * | 2021-06-24 | 2022-03-22 | 杭州电子科技大学 | 基于时序高斯混合空洞卷积的语义重构视频描述方法 |
CN114154016B (zh) * | 2021-11-24 | 2022-05-31 | 杭州电子科技大学 | 基于目标空间语义对齐的视频描述方法 |
-
2022
- 2022-04-20 CN CN202210412956.7A patent/CN114511813B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112004085A (zh) * | 2020-08-14 | 2020-11-27 | 北京航空航天大学 | 一种场景语义分割结果指导下的视频编码方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114511813A (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657230B2 (en) | Referring image segmentation | |
Gong et al. | Natural language inference over interaction space | |
JP7195365B2 (ja) | 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 | |
Yao et al. | Describing videos by exploiting temporal structure | |
US11113598B2 (en) | Dynamic memory network | |
CN111191078A (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
CN111400591B (zh) | 资讯信息推荐方法、装置、电子设备及存储介质 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN112036276B (zh) | 一种人工智能视频问答方法 | |
Wang et al. | Semantic supplementary network with prior information for multi-label image classification | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
Cheng et al. | A semi-supervised deep learning image caption model based on Pseudo Label and N-gram | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
Zhang et al. | The elements of temporal sentence grounding in videos: A survey and future directions | |
CN111027681B (zh) | 时序数据处理模型训练方法、数据处理方法、装置及存储介质 | |
CN113946706A (zh) | 基于参考前置描述的图像描述生成方法 | |
CN114511813B (zh) | 视频语义描述方法及装置 | |
CN114780775A (zh) | 一种基于内容选择和引导机制的图像描述文本生成方法 | |
Elbedwehy et al. | Efficient Image Captioning Based on Vision Transformer Models. | |
CN113240033A (zh) | 一种基于场景图高阶语义结构的视觉关系检测方法及装置 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
US11494431B2 (en) | Generating accurate and natural captions for figures | |
Song et al. | Exploring explicit and implicit visual relationships for image captioning | |
CN114661874B (zh) | 基于多角度语义理解与自适应双通道的视觉问答方法 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |