CN105894043A - 一种视频描述语句生成方法及系统 - Google Patents
一种视频描述语句生成方法及系统 Download PDFInfo
- Publication number
- CN105894043A CN105894043A CN201610270084.XA CN201610270084A CN105894043A CN 105894043 A CN105894043 A CN 105894043A CN 201610270084 A CN201610270084 A CN 201610270084A CN 105894043 A CN105894043 A CN 105894043A
- Authority
- CN
- China
- Prior art keywords
- class
- word
- video flowing
- video
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Abstract
本发明提供一种视频描述语句生成方法及系统,对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。本发明创造性加入聚类这一过程,可以更好地对不同时间粒度的局部信息进行描述,防止采用等间隔采样不可避免会丢失部分局部信息的问题,即在减少局部信息丢失的前提下提升处理速度。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
Description
技术领域
本发明涉及一种视频描述领域,特别是涉及一种视频描述语句生成方法及系统。
背景技术
随着存储设备和数字化设备的使用以及多媒体技术的发展,多媒体数据呈现几何级数增长的趋势。如何高效组织和检索这些数据成为了当前一个亟待解决的问题。一般而言,用户倾向于用文本查找相关图像或视频,这使得标注技术受到了研究者们的广泛关注。视频标注实质是将多个相关的语义概念赋予到视频片段中,可分为基于人工的视频标注和基于机器学习的自动视频标注。完全使用人工标注是一项费时费力的工作,无法在大规模的数据集和概念集上应用。因此,使用机器学习方法来实现视频标注成为必然选择。
现有对视频的描述方式包括对视频的每一帧进行分析,以获取描述语句,但是这种方式的效率比较低。现有技术中,也有通过采用等间隔采样的方式,获取视频的相关描述,但是这种方式往往会不可避免的造成局部信息的丢失。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种视频描述语句生成方法及系统,用于解决现有技术中不能高效且准确的对视频进行描述的问题。
为实现上述目的及其他相关目的,本发明提供一种视频描述语句生成方法,包括:对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。
于本发明一具体实施例中,将所述视频流对应的所有帧划分为多个类的方式包括:根据各所述特征向量,计算相邻帧的相关系数,当所述相关系数大于预设系数阈值时,相应的两相邻帧被划分为一类。
于本发明一具体实施例中,将所述聚类结果输入循环神经网络后,根据当前单词与各所述类的相关性,获得与各所述类相关的单词,并据以获得与所述视频流对应的描述语句。
于本发明一具体实施例中,当当前单词与一所述类的相关性大于预设相关阈值时,所述单词为与所述类相关的单词。
于本发明一具体实施例中,将所述循环神经网络的内部状态也作为输入,以输出相应的单词,并据以获得具有时序特征的单词输出。
为实现上述目的及其他相关目的,本发明还提供一种视频描述语句生成系统,包括:特征向量生成模块,用以对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;划分模块,用以根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;描述语句生成模块,用以将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。
于本发明一具体实施例中,所述划分模块将所述视频流对应的所有帧划分为多个类的方式包括:根据各所述特征向量,计算相邻帧的相关系数,当所述相关系数大于预设系数阈值时,相应的两相邻帧被划分为一类。
于本发明一具体实施例中,所述描述语句生成模块将所述聚类结果输入循环神经网络后,还用以根据当前单词与各所述类的相关性,获得与各所述类相关的单词,并据以获得与所述视频流对应的描述语句。
于本发明一具体实施例中,当当前单词与一所述类的相关性大于预设相关阈值时,所述单词为与所述类相关的单词。
于本发明一具体实施例中,所述描述语句生成模块还用以将所述循环神经网络的内部状态也作为输入,以输出相应的单词,并据以获得具有时序特征的单词输出。
如上所述,本发明的视频描述语句生成方法及系统,对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。本发明创造性加入聚类这一过程,可以更好地对不同时间粒度的局部信息进行描述,防止采用等间隔采样不可避免会丢失部分局部信息的问题,即在减少局部信息丢失的前提下提升处理速度。
附图说明
图1显示为本发明的视频描述语句生成方法在一具体实施例中的流程示意图。
图2显示为本发明的视频描述语句生成方法在一具体实施例中的应用示意图。
图3显示为本发明的视频描述语句生成系统在一具体实施例中的模块示意图。
元件标号说明
1 视频描述语句生成系统
11 特征向量生成模块
12 划分模块
13 描述语句生成模块
S11~S13 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明的视频描述语句生成方法在一具体实施例中的流程示意图。
所述视频描述语句生成方法,包括以下步骤:
S11:对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;
S12:根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;于本发明一具体实施例中,将所述视频流对应的所有帧划分为多个类的方式包括:根据各所述特征向量,计算相邻帧的相关系数,当所述相关系数大于预设系数阈值时,相应的两相邻帧被划分为一类。优选的,所述相关系数与相邻帧的颜色特征、纹理特征、或者形状特征中的一者或多者有关。
S13:将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。优选的,对所述聚类结果再用注意力机制分别计算在生成描述语句时,计算当前生成单词与视频各帧聚类结果的相关性。所谓注意力机制,意在模仿人对图像的视觉关注机制,在此处则用于衡量哪些帧更为重要,与当前单词联系更为紧密。
于本发明一具体实施例中,将所述聚类结果输入循环神经网络后,根据当前单词与各所述类的相关性,获得与各所述类相关的单词,并据以获得与所述视频流对应的描述语句。
进一步的,当当前单词与一所述类的相关性大于预设相关阈值时,所述单词为与所述类相关的单词。优选的,将当前单词与所述类中包含的所有帧的特征向量分别进行相关性计算,并根据计算结果获取所述当前单词与所述类的相关性。
于本发明一具体实施例中,将所述循环神经网络的内部状态也作为输入,以输出相应的单词,并据以获得具有时序特征的单词输出。且通过训练,即可得到关于该视频的描述语句。
请参阅图2,显示为本发明的视频描述语句生成方法在一具体实施例中的应用示意图。
其中,大括号内部加上前面的卷积处理整个构成了框架的编码(encoder)部分,LSTM(Long Short-Term Memory,长短时间记忆)则对应于框架的解码(decoder)部分。“编码”(encoder)部分是对视频特征向量处理,“解码”(decoder)部分则对词向量进行处理。
首先将一个视频流通过卷积神经网络进行处理得到附图中所示的T×C卷积特征矩阵(T×C conv feature),其中T表示视频的帧数,C表示对应每帧特征向量的维度。然后对此处理结果进行聚类(clustering),聚类方法可计算前后两帧视频图像的相关系数,超过一定阈值聚为一类,从而得到T0×C,其中T0表示聚类得到的类别数目。接下来还需通过循环神经网络模型(LSTM word decoder)计算表示当前生成单词与视频聚出的各类别的相关性的权重值,如附图2中虚线所示。将权重系数(weights T0×1)与聚类结果(T0×C)相乘可得到T0×C的向量,如图中大括号右侧所示。
将编码(encoder)得到的视频特征整个输入LSTM,每次LSTM输出一个单词,将此刻内部状态也作为输入,以输出下一个单词,这就是循环网络的由来。这么做的原因是考虑到完整一句话中各个单词之间的时序相关。且通过训练,即可得到关于该视频的描述语句。例如,于本实施例中,得到的与所述视频流相关的视频描述语句为“A woman is cooking”以及“Someone is frying”。
请参阅图3,显示为本发明的视频描述语句生成系统在一具体实施例中的模块示意图。所述视频描述语句生成系统1,包括:
特征向量生成模块11,用以对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;
划分模块12,用以根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;于本发明一具体实施例中,所述划分模块将所述视频流对应的所有帧划分为多个类的方式包括:根据各所述特征向量,计算相邻帧的相关系数,当所述相关系数大于预设系数阈值时,相应的两相邻帧被划分为一类。优选的,所述相关系数与相邻帧的颜色特征、纹理特征、或者形状特征中的一者或多者有关。
描述语句生成模块13,用以将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。优选的,对所述聚类结果再用注意力机制分别计算在生成描述语句时,计算当前生成单词与视频各帧聚类结果的相关性。所谓注意力机制,意在模仿人对图像的视觉关注机制,在此处则用于衡量哪些帧更为重要,与当前单词联系更为紧密。
于本发明一具体实施例中,所述描述语句生成模块将所述聚类结果输入循环神经网络后,还用以根据当前单词与各所述类的相关性,获得与各所述类相关的单词,并据以获得与所述视频流对应的描述语句。
进一步的,当当前单词与一所述类的相关性大于预设相关阈值时,所述单词为与所述类相关的单词。优选的,将当前单词与所述类中包含的所有帧的特征向量分别进行相关性计算,并根据计算结果获取所述当前单词与所述类的相关性。
于本发明一具体实施例中,所述描述语句生成模块还用以将所述循环神经网络的内部状态也作为输入,以输出相应的单词,并据以获得具有时序特征的单词输出。且通过训练,即可得到关于该视频的描述语句。
所述视频描述语句生成系统1与如图1所示的视频描述语句生成方法的技术方案一一对应,关于上述实施例中对视频描述语句生成方法的描述均可应用于本实施例中。
综上所述,本发明的视频描述语句生成方法及系统,对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。本发明创造性加入聚类这一过程,可以更好地对不同时间粒度的局部信息进行描述,防止采用等间隔采样不可避免会丢失部分局部信息的问题,即在减少局部信息丢失的前提下提升处理速度。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种视频描述语句生成方法,其特征在于,包括:
对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;
根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;
将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。
2.根据权利要求1所述的视频描述语句生成方法,其特征在于:将所述视频流对应的所有帧划分为多个类的方式包括:
根据各所述特征向量,计算相邻帧的相关系数,当所述相关系数大于预设系数阈值时,相应的两相邻帧被划分为一类。
3.根据权利要求1所述的视频描述语句生成方法,其特征在于:将所述聚类结果输入循环神经网络后,根据当前单词与各所述类的相关性,获得与各所述类相关的单词,并据以获得与所述视频流对应的描述语句。
4.根据权利要求3所述的视频描述语句生成方法,其特征在于:当当前单词与一所述类的相关性大于预设相关阈值时,所述单词为与所述类相关的单词。
5.根据权利要求1所述的视频描述语句生成方法,其特征在于:将所述循环神经网络的内部状态也作为输入,以输出相应的单词,并据以获得具有时序特征的单词输出。
6.一种视频描述语句生成系统,其特征在于,包括:
特征向量生成模块,用以对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;
划分模块,用以根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;
描述语句生成模块,用以将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。
7.根据权利要求6所述的视频描述语句生成系统,其特征在于:所述划分模块将所述视频流对应的所有帧划分为多个类的方式包括:
根据各所述特征向量,计算相邻帧的相关系数,当所述相关系数大于预设系数阈值时,相应的两相邻帧被划分为一类。
8.根据权利要求6所述的视频描述语句生成系统,其特征在于:所述描述语句生成模块将所述聚类结果输入循环神经网络后,还用以根据当前单词与各所述类的相关性,获得与各所述类相关的单词,并据以获得与所述视频流对应的描述语句。
9.根据权利要求8所述的视频描述语句生成系统,其特征在于:当当前单词与一所述类的相关性大于预设相关阈值时,所述单词为与所述类相关的单词。
10.根据权利要求6所述的视频描述语句生成系统,其特征在于:所述描述语句生成模块还用以将所述循环神经网络的内部状态也作为输入,以输出相应的单词,并据以获得具有时序特征的单词输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610270084.XA CN105894043A (zh) | 2016-04-27 | 2016-04-27 | 一种视频描述语句生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610270084.XA CN105894043A (zh) | 2016-04-27 | 2016-04-27 | 一种视频描述语句生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105894043A true CN105894043A (zh) | 2016-08-24 |
Family
ID=56701944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610270084.XA Pending CN105894043A (zh) | 2016-04-27 | 2016-04-27 | 一种视频描述语句生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105894043A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN107909115A (zh) * | 2017-12-04 | 2018-04-13 | 上海师范大学 | 一种图像中文字幕生成方法 |
CN108683924A (zh) * | 2018-05-30 | 2018-10-19 | 北京奇艺世纪科技有限公司 | 一种视频处理的方法和装置 |
CN108881950A (zh) * | 2018-05-30 | 2018-11-23 | 北京奇艺世纪科技有限公司 | 一种视频处理的方法和装置 |
CN109522451A (zh) * | 2018-12-13 | 2019-03-26 | 连尚(新昌)网络科技有限公司 | 重复视频检测方法和装置 |
CN110210358A (zh) * | 2019-05-24 | 2019-09-06 | 北京大学 | 一种基于双向时序图的视频描述生成方法和装置 |
CN111133453A (zh) * | 2017-08-04 | 2020-05-08 | 诺基亚技术有限公司 | 人工神经网络 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308501A (zh) * | 2008-06-30 | 2008-11-19 | 腾讯科技(深圳)有限公司 | 生成视频摘要的方法、系统及设备 |
CN101464893A (zh) * | 2008-12-31 | 2009-06-24 | 清华大学 | 一种提取视频摘要的方法及装置 |
WO2014205649A1 (zh) * | 2013-06-25 | 2014-12-31 | 中国科学院自动化研究所 | 一种利用紧凑视频主题描述子进行视频检索的方法 |
CN105025392A (zh) * | 2015-06-25 | 2015-11-04 | 西北工业大学 | 基于摘要空间特征学习的视频摘要关键帧提取方法 |
CN105160310A (zh) * | 2015-08-25 | 2015-12-16 | 西安电子科技大学 | 基于3d卷积神经网络的人体行为识别方法 |
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
-
2016
- 2016-04-27 CN CN201610270084.XA patent/CN105894043A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308501A (zh) * | 2008-06-30 | 2008-11-19 | 腾讯科技(深圳)有限公司 | 生成视频摘要的方法、系统及设备 |
CN101464893A (zh) * | 2008-12-31 | 2009-06-24 | 清华大学 | 一种提取视频摘要的方法及装置 |
WO2014205649A1 (zh) * | 2013-06-25 | 2014-12-31 | 中国科学院自动化研究所 | 一种利用紧凑视频主题描述子进行视频检索的方法 |
CN105025392A (zh) * | 2015-06-25 | 2015-11-04 | 西北工业大学 | 基于摘要空间特征学习的视频摘要关键帧提取方法 |
CN105160310A (zh) * | 2015-08-25 | 2015-12-16 | 西安电子科技大学 | 基于3d卷积神经网络的人体行为识别方法 |
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
Non-Patent Citations (1)
Title |
---|
汪萌: "基于机器学习方法的视频标注研究", 《中国博士学位论文全文数据库 信息科技辑(月刊)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN111133453A (zh) * | 2017-08-04 | 2020-05-08 | 诺基亚技术有限公司 | 人工神经网络 |
CN107909115A (zh) * | 2017-12-04 | 2018-04-13 | 上海师范大学 | 一种图像中文字幕生成方法 |
CN108683924A (zh) * | 2018-05-30 | 2018-10-19 | 北京奇艺世纪科技有限公司 | 一种视频处理的方法和装置 |
CN108881950A (zh) * | 2018-05-30 | 2018-11-23 | 北京奇艺世纪科技有限公司 | 一种视频处理的方法和装置 |
CN108881950B (zh) * | 2018-05-30 | 2021-05-25 | 北京奇艺世纪科技有限公司 | 一种视频处理的方法和装置 |
CN108683924B (zh) * | 2018-05-30 | 2021-12-28 | 北京奇艺世纪科技有限公司 | 一种视频处理的方法和装置 |
CN109522451A (zh) * | 2018-12-13 | 2019-03-26 | 连尚(新昌)网络科技有限公司 | 重复视频检测方法和装置 |
CN109522451B (zh) * | 2018-12-13 | 2024-02-27 | 连尚(新昌)网络科技有限公司 | 重复视频检测方法和装置 |
CN110210358A (zh) * | 2019-05-24 | 2019-09-06 | 北京大学 | 一种基于双向时序图的视频描述生成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105894043A (zh) | 一种视频描述语句生成方法及系统 | |
Ji et al. | Full-duplex strategy for video object segmentation | |
Wu et al. | Interpretable video captioning via trajectory structured localization | |
CN111898696A (zh) | 伪标签及标签预测模型的生成方法、装置、介质及设备 | |
CN108229336A (zh) | 视频识别及训练方法和装置、电子设备、程序和介质 | |
CN107239801A (zh) | 视频属性表示学习方法及视频文字描述自动生成方法 | |
CN111539290B (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN110019793A (zh) | 一种文本语义编码方法及装置 | |
CN109874029A (zh) | 视频描述生成方法、装置、设备及存储介质 | |
CN108563622B (zh) | 一种具有风格多样性的绝句生成方法及装置 | |
CN109309878A (zh) | 弹幕的生成方法及装置 | |
CN111652202A (zh) | 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统 | |
CN109871736A (zh) | 自然语言描述信息的生成方法及装置 | |
CN112131368B (zh) | 对话生成方法、装置、电子设备及存储介质 | |
CN108664465A (zh) | 一种自动生成文本方法以及相关装置 | |
CN109784359A (zh) | 图像生成方法、装置、设备及可读存储介质 | |
Yang et al. | Learning to answer visual questions from web videos | |
Jiang et al. | Language-guided global image editing via cross-modal cyclic mechanism | |
Zhang et al. | Learning to detect salient object with multi-source weak supervision | |
CN109168003A (zh) | 一种生成用于视频预测的神经网络模型的方法 | |
CN109978139A (zh) | 图片自动生成描述的方法、系统、电子装置及存储介质 | |
CN115861462A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN109858610A (zh) | 一种卷积神经网络的加速方法、装置、设备及存储介质 | |
CN111046166B (zh) | 一种基于相似度修正的半隐式多模态推荐方法 | |
CN115512360A (zh) | 文本识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160824 |
|
RJ01 | Rejection of invention patent application after publication |