CN114511813B - 视频语义描述方法及装置 - Google Patents

视频语义描述方法及装置 Download PDF

Info

Publication number
CN114511813B
CN114511813B CN202210412956.7A CN202210412956A CN114511813B CN 114511813 B CN114511813 B CN 114511813B CN 202210412956 A CN202210412956 A CN 202210412956A CN 114511813 B CN114511813 B CN 114511813B
Authority
CN
China
Prior art keywords
frame
image
video
convolution
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210412956.7A
Other languages
English (en)
Other versions
CN114511813A (zh
Inventor
王慧云
曹先
王辰阳
高旭
于鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Urban Planning And Design Institute Co ltd
Original Assignee
Tianjin Urban Planning And Design Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Urban Planning And Design Institute Co ltd filed Critical Tianjin Urban Planning And Design Institute Co ltd
Priority to CN202210412956.7A priority Critical patent/CN114511813B/zh
Publication of CN114511813A publication Critical patent/CN114511813A/zh
Application granted granted Critical
Publication of CN114511813B publication Critical patent/CN114511813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种视频语义描述方法及装置。方法包括:获取图像序列,并利用残差网络提取每帧图像中图像特征,基于卷积门控循环单元根据当前帧图像和前一帧图像的图像特征提取每帧图像的时间和空间关联性;基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度;根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至GRU中,获取语义,直至获取的下一视频帧的语义为结束标志位;将所有获取的语义进行组合,生成视频描述语句。

Description

视频语义描述方法及装置
技术领域
本发明实施例涉及视频图像处理技术领域,尤其涉及一种视频语义描述方法及装置。
背景技术
随着互联网的发展,视频数据呈现爆炸式增长。凭借人力难以充分提取如此庞大的视频数据中蕴含的信息。视频描述生成是视频智能分析领域具有代表性的技术,视频描述生成问题能否解决,标志着人工智能能否理解视频内容。视频描述生成任务的目标是使机器自动描述视频内容,具体来说,就是使机器对一段视频自动生成一段相应的文字,准确描述该视频的内容。视频描述生成领域早先的解决方法将问题分为两个阶段,第一个阶段是从视频中提取出语义内容,如主语、动词、宾语等,然后再根据概率模型和某种固定的模式生成完整的句子。这种方法中语句的生成是按照某种固定的模式,无法满足人类语言的丰富性,只能生成一些结构简单的句子。近年来,深度学习技术的应用提高了视频描述生成模型的效果。
在实现本发明的过程中,发明人发现如下技术问题:目前采用的时态注意力机制和分层递归神经编码器虽然考虑了时间视频信息的影响,却忽略了视频中的空间细节信息。进而降低了视频语义描述的准确性。
发明内容
本发明实施例提供一种视频语义描述方法及装置,以解决现有技术中采用神经网络模型描述视频语义准确性较低的技术问题。
第一方面,本发明实施例提供了一种视频语义描述方法,包括:
从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征
Figure DEST_PATH_IMAGE001
其中H 、W 和D分别表示特征的高度、宽度和通道的数量;
基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;
基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态
Figure 515194DEST_PATH_IMAGE002
和视频内容
Figure DEST_PATH_IMAGE003
计算每帧图像中不同视觉区域对不同词语的贡献度;
根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;
将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;
重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;
将所有获取的语义进行组合,生成视频描述语句。
进一步的,所述利用深度残差网络提取所述帧图像序列每帧图像中图像特征包括:
将 N个视频帧按照时间序列输入ResNet-200深度残差网络中,把所述ResNet-200深度残差网络res5c层的输出作为视频特征。
进一步的,所述基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性包括:
对于卷积门控循环单元进行如下配置:
Figure 353706DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure 602285DEST_PATH_IMAGE006
Figure 466336DEST_PATH_IMAGE007
其中,
Figure 998817DEST_PATH_IMAGE008
Figure 86859DEST_PATH_IMAGE009
分别表示第 n 帧的视频特征和第 n-1 的计算输出,
Figure 822733DEST_PATH_IMAGE010
和表示2D卷积核,*表示卷积运算,
Figure 100002_DEST_PATH_IMAGE011
表示Sigmoid函数,
Figure 490475DEST_PATH_IMAGE012
表示元素级乘法,
Figure 100002_DEST_PATH_IMAGE013
分别表示GRU网络中的更新门和重置门,
Figure 352164DEST_PATH_IMAGE014
表示共享参数。
进一步的,所述基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态
Figure 100002_DEST_PATH_IMAGE015
和视频内容
Figure 17632DEST_PATH_IMAGE016
计算每帧图像中不同视觉区域对不同词语的贡献度,包括:
对于卷积门控循环单元进行如下配置:
Figure 100002_DEST_PATH_IMAGE017
Figure 506382DEST_PATH_IMAGE018
Figure 100002_DEST_PATH_IMAGE019
Figure 164765DEST_PATH_IMAGE020
Figure 100002_DEST_PATH_IMAGE021
Figure 422571DEST_PATH_IMAGE022
其中,F表示concat操作,
Figure 100002_DEST_PATH_IMAGE023
表示2D卷积核,
Figure 773787DEST_PATH_IMAGE024
Figure 280992DEST_PATH_IMAGE025
分别表示GRU网络中的更新门和重置门。
Figure 24957DEST_PATH_IMAGE026
为共享参数。
进一步的,所述根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征,包括:
利用如下方式将第n个视频帧聚合成一个时空特征
Figure 871690DEST_PATH_IMAGE027
Figure 675698DEST_PATH_IMAGE028
Figure 670199DEST_PATH_IMAGE029
表示第k个中心,
Figure 467122DEST_PATH_IMAGE030
表示在位置
Figure 168362DEST_PATH_IMAGE031
的点属于第k个中心的概率。
Figure 408851DEST_PATH_IMAGE032
表示图像位置的局部描述符,
Figure 100002_DEST_PATH_IMAGE033
为第t个视频帧的时空表示,并且作为视频语义生成模块的输入。
更进一步的,所述将下一视频帧的时空特征、对应的词向量和隐藏状态输入至GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,包括:
对所述语义提取GRU神经模型进行如下配置:
Figure 93910DEST_PATH_IMAGE034
Figure 100002_DEST_PATH_IMAGE035
Figure 897787DEST_PATH_IMAGE036
Figure 100002_DEST_PATH_IMAGE037
Figure 984691DEST_PATH_IMAGE038
Figure 100002_DEST_PATH_IMAGE039
为可训练参数,S定义为视频描述的向量表示
Figure 848611DEST_PATH_IMAGE040
, ET分别表示词语向量的长度和描述的长度;
通过线性变换层将映射到词语空间,使用softmax层生成词汇表中每个词作为当前产生单词的概率:
Figure 100002_DEST_PATH_IMAGE041
,将概率最大的单词作为语义。
第二方面,本发明实施例还提供了一种视频语义描述方法装置,包括:
图像特征提取模块,用于从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征
Figure 20966DEST_PATH_IMAGE042
,其中H 、W 和D分别表示特征的高度、宽度和通道的数量;
时间和空间关联性提取模块,用于基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;
贡献度计算模块,用于利用卷积门控循环单元中每帧图像对应的隐藏状态
Figure 910425DEST_PATH_IMAGE002
和视频内容
Figure 100002_DEST_PATH_IMAGE043
计算每帧图像中不同视觉区域对不同词语的贡献度;
时空特征形成模块,根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;
语义提取模块,用于将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;并重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;
组合模块,用于将所有获取的语义进行组合,生成视频描述语句。
本发明实施例提供的视频语义描述方法及装置,通过从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征,基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度;根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;将所有获取的语义进行组合,生成视频描述语句。利用深度残差网络提取视频帧图像特征,可以快速提取帧图像中的重要变化信息,并通过卷积门控循环单元,建立相邻帧图像之间的时间和空间关联性,并充分考虑每帧图像中不同视觉区域的重要程度,并利用重要程度和图像特征的高度和宽度进行编码,并利用编码后的信息和时空特征确定语义,对语义进行组合形成视频语义描述。充分考虑了视频帧图像的时间、空间特征,得到具有时间信息和空间信息的视频表示。考虑了不同帧对词语的不同贡献,同时考虑同一帧不同视觉区域对词语的不同贡献度,从而能够生成更精准的词语。提升了视频语义描述的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一提供的视频语义描述方法的流程图;
图2为本发明实施例一提供的视频语义描述方法中编码的示意图;
图3是本发明实施例二提供的视频语义描述方法装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的视频语义描述方法的流程图,本实施例可适用于对视频进行语义描述的情况,该方法可以通过视频语义描述方法装置来执行,具体包括如下步骤:
步骤110、从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征。
根据视频帧率获取每个视频的序列帧,然后等间隔选取N帧图像,形成帧图像序列。由于视频中具有较多的帧图像,因此,如果针对每帧图像都分别提取帧图像特征,则会产生大量的数据,会对后期运算产生影响。同时帧图像具有连续性特征,因此,可以利用深度残差网络来提取帧图像序列中每帧图像中图像特征,以降低提取的数据量。深度残差收缩网络本质上是深度残差网络的一种改进版本,是一种较为新颖的深度神经网络算法。可以视作一种可训练的特征选择的过程。换言之,就是通过前面的卷积层将重要的特征变成绝对值较大的值,将冗余信息所对应的特征变成绝对值较小的值;通过子网络获得二者之间的界限,并且通过软阈值化将冗余特征置为零,同时使重要的特征有着非零的输出。
可选的,可以将帧图像序列输入到ResNet网络中,特别是ResNet-200网络,通过实验,ResNet-200网络可以取得更好的提取效果。由于ResNet-200输出是分类结果,因此,可以将络res5c层的输出作为视频特征输出。帧图像序列每帧图像中图像特征
Figure 304366DEST_PATH_IMAGE044
,其中H 、W 和D分别表示特征的高度、宽度和通道的数量。
步骤120、基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性。
GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Term Memory)一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。其可以使用较少的门控同时可以进行遗忘和选择记忆。并且可以利用隐藏状态可以提供当前帧图像的图像特征和前一帧图像的图像特征通过卷积提取出的特征。并且通过门控实现对有效特征的提取。在本实施例中,可以采用ConvolutionalGRU,以更好的提取图像特征。
示例性的,所述基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性包括:
对于卷积门控循环单元进行如下配置:
Figure 683395DEST_PATH_IMAGE004
Figure 77467DEST_PATH_IMAGE005
Figure 505037DEST_PATH_IMAGE006
Figure 35376DEST_PATH_IMAGE007
其中,
Figure 100002_DEST_PATH_IMAGE045
Figure 303415DEST_PATH_IMAGE009
分别表示第 n 帧的视频特征和第 n-1的计算输出,
Figure 919204DEST_PATH_IMAGE046
U表示2D卷积核,*表示卷积运算,
Figure 100002_DEST_PATH_IMAGE047
表示Sigmoid函数,
Figure 681624DEST_PATH_IMAGE012
表示元素级乘法,
Figure 332048DEST_PATH_IMAGE048
分别表示GRU网络中的更新门和重置门,
Figure 100002_DEST_PATH_IMAGE049
表示共享参数。
其中,所述共享参数可以根据经验设定。
步骤130、基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度。
对于视频中的每帧图像来说,其中可能包含多个物体,且分布于图像的不同位置,或者处于非中心位置,容易被忽视。为避免上述情况,在本实施例中,仍然可以利用Convolutional GRU计算每帧图像中不同视觉区域对不同词语的贡献度。
示例性的,所述基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态
Figure 460670DEST_PATH_IMAGE050
和视频内容
Figure 100002_DEST_PATH_IMAGE051
计算每帧图像中不同视觉区域对不同词语的贡献度,可以包括:
对于卷积门控循环单元进行如下配置:
Figure 94914DEST_PATH_IMAGE017
Figure 864287DEST_PATH_IMAGE018
Figure 431534DEST_PATH_IMAGE019
Figure 510218DEST_PATH_IMAGE020
Figure 366178DEST_PATH_IMAGE021
Figure 939242DEST_PATH_IMAGE022
其中,F表示concat操作,
Figure 298679DEST_PATH_IMAGE052
表示2D卷积核,
Figure 100002_DEST_PATH_IMAGE053
Figure 79422DEST_PATH_IMAGE054
分别表示GRU网络中的更新门和重置门。
Figure 891521DEST_PATH_IMAGE055
为共享参数。
步骤140、根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征。
图2为本发明实施例一提供的视频语义描述方法中编码的示意图,参考图2和下述描述,可以更为直观的了解编码过程。
在视频语义描述中,通常会采用卷积神经网络(CNN)作为编码器,获得给定图像或视频的固定长度的特征表示。在本实施例中,同样也需要进行编码,该编码能够充分体现视频帧的时空特征。可选的,在本实施例中,可以采用VLAD编码。
VLAD可以看做是一种简化的FV,其主要方法是通过聚类方法训练一个小的码本,对于每幅图像中的特征找到最近的码本聚类中心,随后所有特征与聚类中心的差值做累加,得到一个k*d的vlad矩阵,其中k是聚类中心个数,d是特征维数,随后将该矩阵扩展为一个(k*d)维的向量,并对其L2归一化,所得到的向量即为VLAD。
示例性的,所述根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征,可以包括:
利用如下方式将第n个视频帧聚合成一个时空特征
Figure 533854DEST_PATH_IMAGE056
Figure 810115DEST_PATH_IMAGE057
Figure 246913DEST_PATH_IMAGE029
表示第k个中心,
Figure 795574DEST_PATH_IMAGE058
表示在位置
Figure 976020DEST_PATH_IMAGE059
的点属于第k个中心的概率,
Figure 100002_DEST_PATH_IMAGE060
表示图像位置的局部描述符,
Figure 575629DEST_PATH_IMAGE061
为第t个视频帧的时空表示。
步骤150、将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态。
在本实施例中,可以基于第二视频帧进行语义提取。所述第二视频帧可以为上述视频帧序列中的第二帧图像。所述预设语义字典可以作为针对该类视频设定的词汇表集合,其中可以包括提前定义好的一定数量词汇、开始符和结束符。由于第一视频帧采用起始符作为语义,因此,可以从第二视频帧开始提取语义。
示例性的,所述将下一视频帧的时空特征、对应的词向量和隐藏状态输入至GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,包括:
对所述语义提取GRU神经模型进行如下配置:
Figure 917748DEST_PATH_IMAGE034
Figure 219286DEST_PATH_IMAGE035
Figure 734581DEST_PATH_IMAGE036
Figure 188696DEST_PATH_IMAGE037
Figure 701717DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE062
为可训练参数,S定义为视频描述的向量表示
Figure 506862DEST_PATH_IMAGE063
,ET分别表示词语向量的长度和描述的长度;
通过线性变换层将
Figure DEST_PATH_IMAGE064
映射到词语空间,使用softmax层生成词汇表中每个词作为当前产生单词的概率:
Figure 481640DEST_PATH_IMAGE065
,将概率最大的单词作为语义。
利用上述方式,可以提取出第二视频帧对应的语义词汇。
步骤160、重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位。
可以重复利用上述方式依次对视频帧序列中的其它帧图像进行处理,分别得到对应的语义词汇。同时,由于视频中最后一部分可能是无意义的字幕或者其它不相关内容。因此,在本实施例中,可以将输出得到的语义词汇与结束标志位进行匹配,在匹配一致时,可以确定为结束状态,不再将后续帧图像输入到语义提取GRU神经模型中。
步骤170、将所有获取的语义进行组合,生成视频描述语句。
示例性的,可以采用预设的语义描述模板或者训练好的神经网络模型,对上述获取的所有语义进行组合,最终形成视频描述语句。
本实施例通过从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征,基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度;根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;将所有获取的语义进行组合,生成视频描述语句。利用深度残差网络提取视频帧图像特征,可以快速提取帧图像中的重要变化信息,并通过卷积门控循环单元,建立相邻帧图像之间的时间和空间关联性,并充分考虑每帧图像中不同视觉区域的重要程度,并利用重要程度和图像特征的高度和宽度进行编码,并利用编码后的信息和时空特征确定语义,对语义进行组合形成视频语义描述。充分考虑了视频帧图像的时间、空间特征,得到具有时间信息和空间信息的视频表示。考虑了不同帧对词语的不同贡献,同时考虑同一帧不同视觉区域对词语的不同贡献度,从而能够生成更精准的词语。提升了视频语义描述的准确性。
实施例二
图3是本发明实施例二提供的视频语义描述装置的结构图,如图3所示,所述装置包括:
图像特征提取模块210,用于从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征
Figure 790261DEST_PATH_IMAGE066
,其中H 、W 和D分别表示特征的高度、宽度和通道的数量;
时间和空间关联性提取模块220,用于基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;
贡献度计算模块230,用于利用卷积门控循环单元中每帧图像对应的隐藏状态
Figure 536500DEST_PATH_IMAGE067
和视频内容
Figure 100002_DEST_PATH_IMAGE068
计算每帧图像中不同视觉区域对不同词语的贡献度;
时空特征形成模块240,根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;
语义提取模块250,用于将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;并重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;
组合模块260,用于将所有获取的语义进行组合,生成视频描述语句。
本实施例提供的视频语义描述方法装置,通过从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征,基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度;根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;将所有获取的语义进行组合,生成视频描述语句。利用深度残差网络提取视频帧图像特征,可以快速提取帧图像中的重要变化信息,并通过卷积门控循环单元,建立相邻帧图像之间的时间和空间关联性,并充分考虑每帧图像中不同视觉区域的重要程度,并利用重要程度和图像特征的高度和宽度进行编码,并利用编码后的信息和时空特征确定语义,对语义进行组合形成视频语义描述。充分考虑了视频帧图像的时间、空间特征,得到具有时间信息和空间信息的视频表示。考虑了不同帧对词语的不同贡献,同时考虑同一帧不同视觉区域对词语的不同贡献度,从而能够生成更精准的词语。提升了视频语义描述的准确性。
本发明实施例所提供的视频语义描述方法装置可执行本发明任意实施例所提供的视频语义描述方法,具备执行方法相应的功能模块和有益效果。
相应的,可以以一种或多种程序设计语言或其组合来编写用于执行本发明提供的视频语义描述方法操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (4)

1.一种视频语义描述方法,其特征在于,包括:
从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征
Figure DEST_PATH_IMAGE002
其中H 、W 和D分别表示特征的高度、宽度和通道的数量;
基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;
基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态
Figure DEST_PATH_IMAGE004
和视频内容
Figure DEST_PATH_IMAGE006
计算每帧图像中不同视觉区域对不同词语的贡献度;
根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;
将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;
重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;将所有获取的语义进行组合,生成视频描述语句;
所述基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性包括:
对于卷积门控循环单元进行如下配置:
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
其中,
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE015
分别表示第 n 帧的视频特征和第 n-1 的计算输出,
Figure DEST_PATH_IMAGE017
和表示2D卷积核,*表示卷积运算,
Figure DEST_PATH_IMAGE019
表示Sigmoid函数,
Figure DEST_PATH_IMAGE021
表示元素级乘法,
Figure DEST_PATH_IMAGE023
分别表示GRU网络中的更新门和重置门,
Figure DEST_PATH_IMAGE025
表示共享参数;
所述基于卷积门控循环单元,利用卷积门控循环单元中每帧图像对应的隐藏状态
Figure DEST_PATH_IMAGE026
和视频内容
Figure DEST_PATH_IMAGE027
计算每帧图像中不同视觉区域对不同词语的贡献度,包括:
对于卷积门控循环单元进行如下配置:
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
其中,表示concat操作,
Figure DEST_PATH_IMAGE035
表示2D卷积核,
Figure DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE039
分别表示GRU网络中的更新门和重置门,
Figure DEST_PATH_IMAGE041
为共享参数;
所述根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征,包括:
利用如下方式将第n个视频帧聚合成一个时空特征
Figure DEST_PATH_IMAGE043
Figure DEST_PATH_IMAGE045
Figure DEST_PATH_IMAGE047
表示第k个中心,
Figure DEST_PATH_IMAGE049
表示在位置
Figure DEST_PATH_IMAGE051
的点属于第k个中心的概率,
Figure DEST_PATH_IMAGE053
表示图像位置
Figure DEST_PATH_IMAGE054
的局部描述符,
Figure DEST_PATH_IMAGE056
为第t个视频帧的时空表示。
2.根据权利要求1所述的方法,其特征在于,所述利用深度残差网络提取所述帧图像序列每帧图像中图像特征包括:
将 N个视频帧按照时间序列输入ResNet-200深度残差网络中,把所述ResNet-200深度残差网络res5c层的输出作为视频特征。
3.根据权利要求1所述的方法,其特征在于,所述将下一视频帧的时空特征、对应的词向量和隐藏状态输入至GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,包括:
对所述语义提取GRU神经模型进行如下配置:
Figure DEST_PATH_IMAGE057
Figure DEST_PATH_IMAGE058
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE061
Figure DEST_PATH_IMAGE063
为可训练参数,S定义为视频描述的向量表示
Figure DEST_PATH_IMAGE065
,ET分别表示词语向量的长度和描述的长度;
通过线性变换层将映射到词语空间,使用softmax层生成词汇表中每个词作为当前产生单词的概率:
Figure DEST_PATH_IMAGE067
,将概率最大的单词作为语义。
4.一种视频语义描述方法装置,其特征在于,包括:
图像特征提取模块,用于从视频中获取帧图像序列,并利用深度残差网络提取所述帧图像序列每帧图像中图像特征
Figure DEST_PATH_IMAGE068
,其中H、W 和D分别表示特征的高度、宽度和通道的数量;
时间和空间关联性提取模块,用于基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性;
贡献度计算模块,用于利用卷积门控循环单元中每帧图像对应的隐藏状态
Figure DEST_PATH_IMAGE069
和视频内容
Figure DEST_PATH_IMAGE070
计算每帧图像中不同视觉区域对不同词语的贡献度;
时空特征形成模块,根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码,形成视频帧的时空特征;
语义提取模块,用于将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中,获取第二时刻的语义,并获取得到下一视频帧对应的词向量和隐藏状态;并重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中,获取下一视频帧的语义,和对应的下一视频帧对应的词向量和隐藏状态,直至获取的下一视频帧的语义为结束标志位;
组合模块,用于将所有获取的语义进行组合,生成视频描述语句;
所述时间和空间关联性提取模块,包括:
第一配置单元,用于对卷积门控循环单元进行如下配置:
Figure 511501DEST_PATH_IMAGE007
Figure 428642DEST_PATH_IMAGE008
Figure 5117DEST_PATH_IMAGE010
Figure 931484DEST_PATH_IMAGE011
其中,
Figure 745857DEST_PATH_IMAGE013
Figure 365057DEST_PATH_IMAGE015
分别表示第 n 帧的视频特征和第 n-1 的计算输出,
Figure DEST_PATH_IMAGE071
和表示2D卷积核,*表示卷积运算,
Figure 428828DEST_PATH_IMAGE019
表示Sigmoid函数,
Figure 627728DEST_PATH_IMAGE021
表示元素级乘法,
Figure 827765DEST_PATH_IMAGE023
分别表示GRU网络中的更新门和重置门,
Figure 821129DEST_PATH_IMAGE025
表示共享参数;
所述贡献度计算模块,包括:
第二配置单元,用于对于卷积门控循环单元进行如下配置:
Figure 372196DEST_PATH_IMAGE028
Figure 109208DEST_PATH_IMAGE029
Figure 160822DEST_PATH_IMAGE030
Figure 590666DEST_PATH_IMAGE031
Figure 629029DEST_PATH_IMAGE032
Figure 904153DEST_PATH_IMAGE033
其中,表示concat操作,
Figure 78782DEST_PATH_IMAGE035
表示2D卷积核,
Figure DEST_PATH_IMAGE072
Figure 210686DEST_PATH_IMAGE039
分别表示GRU网络中的更新门和重置门,
Figure 736346DEST_PATH_IMAGE041
为共享参数;
所述时空特征形成模块,用于:
利用如下方式将第n个视频帧聚合成一个时空特征
Figure DEST_PATH_IMAGE073
Figure DEST_PATH_IMAGE074
Figure 143056DEST_PATH_IMAGE047
表示第k个中心,
Figure DEST_PATH_IMAGE075
表示在位置
Figure DEST_PATH_IMAGE076
的点属于第k个中心的概率,
Figure DEST_PATH_IMAGE077
表示图像位置
Figure DEST_PATH_IMAGE078
的局部描述符,
Figure DEST_PATH_IMAGE079
为第t个视频帧的时空表示。
CN202210412956.7A 2022-04-20 2022-04-20 视频语义描述方法及装置 Active CN114511813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210412956.7A CN114511813B (zh) 2022-04-20 2022-04-20 视频语义描述方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210412956.7A CN114511813B (zh) 2022-04-20 2022-04-20 视频语义描述方法及装置

Publications (2)

Publication Number Publication Date
CN114511813A CN114511813A (zh) 2022-05-17
CN114511813B true CN114511813B (zh) 2022-06-28

Family

ID=81554770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210412956.7A Active CN114511813B (zh) 2022-04-20 2022-04-20 视频语义描述方法及装置

Country Status (1)

Country Link
CN (1) CN114511813B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237856B (zh) * 2023-11-13 2024-03-01 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备、存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112004085A (zh) * 2020-08-14 2020-11-27 北京航空航天大学 一种场景语义分割结果指导下的视频编码方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10685446B2 (en) * 2018-01-12 2020-06-16 Intel Corporation Method and system of recurrent semantic segmentation for image processing
EP3608844A1 (en) * 2018-08-10 2020-02-12 Naver Corporation Methods for training a crnn and for semantic segmentation of an inputted video using said crnn
CN110418210B (zh) * 2019-07-12 2021-09-10 东南大学 一种基于双向循环神经网络和深度输出的视频描述生成方法
CN110991290B (zh) * 2019-11-26 2023-03-10 西安电子科技大学 基于语义指导与记忆机制的视频描述方法
CN111488807B (zh) * 2020-03-29 2023-10-10 复旦大学 基于图卷积网络的视频描述生成系统
CN113747168A (zh) * 2020-05-29 2021-12-03 北京三星通信技术研究有限公司 多媒体数据描述模型的训练方法和描述信息的生成方法
CN112468888B (zh) * 2020-11-26 2023-04-07 广东工业大学 基于gru网络的视频摘要生成方法与系统
CN112488014B (zh) * 2020-12-04 2022-06-10 重庆邮电大学 基于门控循环单元的视频预测方法
CN113420179B (zh) * 2021-06-24 2022-03-22 杭州电子科技大学 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN114154016B (zh) * 2021-11-24 2022-05-31 杭州电子科技大学 基于目标空间语义对齐的视频描述方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112004085A (zh) * 2020-08-14 2020-11-27 北京航空航天大学 一种场景语义分割结果指导下的视频编码方法

Also Published As

Publication number Publication date
CN114511813A (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
US11657230B2 (en) Referring image segmentation
Gong et al. Natural language inference over interaction space
JP7195365B2 (ja) 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
Yao et al. Describing videos by exploiting temporal structure
US11113598B2 (en) Dynamic memory network
CN111191078A (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN111400591B (zh) 资讯信息推荐方法、装置、电子设备及存储介质
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN112036276B (zh) 一种人工智能视频问答方法
Wang et al. Semantic supplementary network with prior information for multi-label image classification
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
Cheng et al. A semi-supervised deep learning image caption model based on Pseudo Label and N-gram
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
Zhang et al. The elements of temporal sentence grounding in videos: A survey and future directions
CN111027681B (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN113946706A (zh) 基于参考前置描述的图像描述生成方法
CN114511813B (zh) 视频语义描述方法及装置
CN114780775A (zh) 一种基于内容选择和引导机制的图像描述文本生成方法
Elbedwehy et al. Efficient Image Captioning Based on Vision Transformer Models.
CN113240033A (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
US11494431B2 (en) Generating accurate and natural captions for figures
Song et al. Exploring explicit and implicit visual relationships for image captioning
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant