CN105894043A

CN105894043A - 一种视频描述语句生成方法及系统

Info

Publication number: CN105894043A
Application number: CN201610270084.XA
Authority: CN
Inventors: 郭大山; 刘幸偕; 方向忠; 阮志强; 徐宁; 张芩; 方大为; 江勤勇; 吴泳江; 吴轶峰; 祝晓清; 孙哲; 孔申勇; 高原; 杨哲峰
Original assignee: SHANGHAI GAOZHI COMMUNICATION RESEARCH INSTITUTE Co Ltd; SHANGHAI GAOZHI NETWORK CO Ltd; Shanghai Gaozhi Special Vehicle Co Ltd; Shanghai Gaozhi Science & Technology Development Co Ltd
Current assignee: SHANGHAI GAOZHI COMMUNICATION RESEARCH INSTITUTE Co Ltd; SHANGHAI GAOZHI NETWORK CO Ltd; Shanghai Gaozhi Special Vehicle Co Ltd; Shanghai Gaozhi Science & Technology Development Co Ltd; SHANGHAI GAOZHI SCIENCE AND Tech Dev Co Ltd
Priority date: 2016-04-27
Filing date: 2016-04-27
Publication date: 2016-08-24

Abstract

本发明提供一种视频描述语句生成方法及系统，对获取的视频流通过卷积神经网络进行处理，以获得与所述视频流的各帧分别对应的特征向量；根据各所述特征向量，计算相邻帧的相关性，并据以对所述视频流的所有帧进行聚类处理，以将所述视频流对应的所有帧划分为多个类；将所述聚类结果输入循环神经网络，以获得与所述视频流对应的描述语句。本发明创造性加入聚类这一过程，可以更好地对不同时间粒度的局部信息进行描述，防止采用等间隔采样不可避免会丢失部分局部信息的问题，即在减少局部信息丢失的前提下提升处理速度。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

Description

一种视频描述语句生成方法及系统

技术领域

本发明涉及一种视频描述领域，特别是涉及一种视频描述语句生成方法及系统。

背景技术

随着存储设备和数字化设备的使用以及多媒体技术的发展，多媒体数据呈现几何级数增长的趋势。如何高效组织和检索这些数据成为了当前一个亟待解决的问题。一般而言，用户倾向于用文本查找相关图像或视频，这使得标注技术受到了研究者们的广泛关注。视频标注实质是将多个相关的语义概念赋予到视频片段中，可分为基于人工的视频标注和基于机器学习的自动视频标注。完全使用人工标注是一项费时费力的工作，无法在大规模的数据集和概念集上应用。因此，使用机器学习方法来实现视频标注成为必然选择。

现有对视频的描述方式包括对视频的每一帧进行分析，以获取描述语句，但是这种方式的效率比较低。现有技术中，也有通过采用等间隔采样的方式，获取视频的相关描述，但是这种方式往往会不可避免的造成局部信息的丢失。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种视频描述语句生成方法及系统，用于解决现有技术中不能高效且准确的对视频进行描述的问题。

为实现上述目的及其他相关目的，本发明提供一种视频描述语句生成方法，包括：对获取的视频流通过卷积神经网络进行处理，以获得与所述视频流的各帧分别对应的特征向量；根据各所述特征向量，计算相邻帧的相关性，并据以对所述视频流的所有帧进行聚类处理，以将所述视频流对应的所有帧划分为多个类；将所述聚类结果输入循环神经网络，以获得与所述视频流对应的描述语句。

于本发明一具体实施例中，将所述视频流对应的所有帧划分为多个类的方式包括：根据各所述特征向量，计算相邻帧的相关系数，当所述相关系数大于预设系数阈值时，相应的两相邻帧被划分为一类。

于本发明一具体实施例中，将所述聚类结果输入循环神经网络后，根据当前单词与各所述类的相关性，获得与各所述类相关的单词，并据以获得与所述视频流对应的描述语句。

于本发明一具体实施例中，当当前单词与一所述类的相关性大于预设相关阈值时，所述单词为与所述类相关的单词。

于本发明一具体实施例中，将所述循环神经网络的内部状态也作为输入，以输出相应的单词，并据以获得具有时序特征的单词输出。

为实现上述目的及其他相关目的，本发明还提供一种视频描述语句生成系统，包括：特征向量生成模块，用以对获取的视频流通过卷积神经网络进行处理，以获得与所述视频流的各帧分别对应的特征向量；划分模块，用以根据各所述特征向量，计算相邻帧的相关性，并据以对所述视频流的所有帧进行聚类处理，以将所述视频流对应的所有帧划分为多个类；描述语句生成模块，用以将所述聚类结果输入循环神经网络，以获得与所述视频流对应的描述语句。

于本发明一具体实施例中，所述划分模块将所述视频流对应的所有帧划分为多个类的方式包括：根据各所述特征向量，计算相邻帧的相关系数，当所述相关系数大于预设系数阈值时，相应的两相邻帧被划分为一类。

于本发明一具体实施例中，所述描述语句生成模块将所述聚类结果输入循环神经网络后，还用以根据当前单词与各所述类的相关性，获得与各所述类相关的单词，并据以获得与所述视频流对应的描述语句。

于本发明一具体实施例中，所述描述语句生成模块还用以将所述循环神经网络的内部状态也作为输入，以输出相应的单词，并据以获得具有时序特征的单词输出。

如上所述，本发明的视频描述语句生成方法及系统，对获取的视频流通过卷积神经网络进行处理，以获得与所述视频流的各帧分别对应的特征向量；根据各所述特征向量，计算相邻帧的相关性，并据以对所述视频流的所有帧进行聚类处理，以将所述视频流对应的所有帧划分为多个类；将所述聚类结果输入循环神经网络，以获得与所述视频流对应的描述语句。本发明创造性加入聚类这一过程，可以更好地对不同时间粒度的局部信息进行描述，防止采用等间隔采样不可避免会丢失部分局部信息的问题，即在减少局部信息丢失的前提下提升处理速度。

附图说明

图1显示为本发明的视频描述语句生成方法在一具体实施例中的流程示意图。

图2显示为本发明的视频描述语句生成方法在一具体实施例中的应用示意图。

图3显示为本发明的视频描述语句生成系统在一具体实施例中的模块示意图。

元件标号说明

1 视频描述语句生成系统

11 特征向量生成模块

12 划分模块

13 描述语句生成模块

S11～S13 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明的视频描述语句生成方法在一具体实施例中的流程示意图。

所述视频描述语句生成方法，包括以下步骤：

S11：对获取的视频流通过卷积神经网络进行处理，以获得与所述视频流的各帧分别对应的特征向量；

S12：根据各所述特征向量，计算相邻帧的相关性，并据以对所述视频流的所有帧进行聚类处理，以将所述视频流对应的所有帧划分为多个类；于本发明一具体实施例中，将所述视频流对应的所有帧划分为多个类的方式包括：根据各所述特征向量，计算相邻帧的相关系数，当所述相关系数大于预设系数阈值时，相应的两相邻帧被划分为一类。优选的，所述相关系数与相邻帧的颜色特征、纹理特征、或者形状特征中的一者或多者有关。

S13：将所述聚类结果输入循环神经网络，以获得与所述视频流对应的描述语句。优选的，对所述聚类结果再用注意力机制分别计算在生成描述语句时，计算当前生成单词与视频各帧聚类结果的相关性。所谓注意力机制，意在模仿人对图像的视觉关注机制，在此处则用于衡量哪些帧更为重要，与当前单词联系更为紧密。

进一步的，当当前单词与一所述类的相关性大于预设相关阈值时，所述单词为与所述类相关的单词。优选的，将当前单词与所述类中包含的所有帧的特征向量分别进行相关性计算，并根据计算结果获取所述当前单词与所述类的相关性。

于本发明一具体实施例中，将所述循环神经网络的内部状态也作为输入，以输出相应的单词，并据以获得具有时序特征的单词输出。且通过训练，即可得到关于该视频的描述语句。

请参阅图2，显示为本发明的视频描述语句生成方法在一具体实施例中的应用示意图。

其中，大括号内部加上前面的卷积处理整个构成了框架的编码(encoder)部分，LSTM(Long Short-Term Memory,长短时间记忆)则对应于框架的解码(decoder)部分。“编码”(encoder)部分是对视频特征向量处理，“解码”(decoder)部分则对词向量进行处理。

首先将一个视频流通过卷积神经网络进行处理得到附图中所示的T×C卷积特征矩阵(T×C conv feature)，其中T表示视频的帧数，C表示对应每帧特征向量的维度。然后对此处理结果进行聚类(clustering)，聚类方法可计算前后两帧视频图像的相关系数，超过一定阈值聚为一类，从而得到T₀×C，其中T₀表示聚类得到的类别数目。接下来还需通过循环神经网络模型(LSTM word decoder)计算表示当前生成单词与视频聚出的各类别的相关性的权重值，如附图2中虚线所示。将权重系数(weights T₀×1)与聚类结果(T₀×C)相乘可得到T₀×C的向量，如图中大括号右侧所示。

将编码(encoder)得到的视频特征整个输入LSTM，每次LSTM输出一个单词，将此刻内部状态也作为输入，以输出下一个单词，这就是循环网络的由来。这么做的原因是考虑到完整一句话中各个单词之间的时序相关。且通过训练，即可得到关于该视频的描述语句。例如，于本实施例中，得到的与所述视频流相关的视频描述语句为“A woman is cooking”以及“Someone is frying”。

请参阅图3，显示为本发明的视频描述语句生成系统在一具体实施例中的模块示意图。所述视频描述语句生成系统1，包括：

特征向量生成模块11，用以对获取的视频流通过卷积神经网络进行处理，以获得与所述视频流的各帧分别对应的特征向量；

划分模块12，用以根据各所述特征向量，计算相邻帧的相关性，并据以对所述视频流的所有帧进行聚类处理，以将所述视频流对应的所有帧划分为多个类；于本发明一具体实施例中，所述划分模块将所述视频流对应的所有帧划分为多个类的方式包括：根据各所述特征向量，计算相邻帧的相关系数，当所述相关系数大于预设系数阈值时，相应的两相邻帧被划分为一类。优选的，所述相关系数与相邻帧的颜色特征、纹理特征、或者形状特征中的一者或多者有关。

描述语句生成模块13，用以将所述聚类结果输入循环神经网络，以获得与所述视频流对应的描述语句。优选的，对所述聚类结果再用注意力机制分别计算在生成描述语句时，计算当前生成单词与视频各帧聚类结果的相关性。所谓注意力机制，意在模仿人对图像的视觉关注机制，在此处则用于衡量哪些帧更为重要，与当前单词联系更为紧密。

于本发明一具体实施例中，所述描述语句生成模块还用以将所述循环神经网络的内部状态也作为输入，以输出相应的单词，并据以获得具有时序特征的单词输出。且通过训练，即可得到关于该视频的描述语句。

所述视频描述语句生成系统1与如图1所示的视频描述语句生成方法的技术方案一一对应，关于上述实施例中对视频描述语句生成方法的描述均可应用于本实施例中。

综上所述，本发明的视频描述语句生成方法及系统，对获取的视频流通过卷积神经网络进行处理，以获得与所述视频流的各帧分别对应的特征向量；根据各所述特征向量，计算相邻帧的相关性，并据以对所述视频流的所有帧进行聚类处理，以将所述视频流对应的所有帧划分为多个类；将所述聚类结果输入循环神经网络，以获得与所述视频流对应的描述语句。本发明创造性加入聚类这一过程，可以更好地对不同时间粒度的局部信息进行描述，防止采用等间隔采样不可避免会丢失部分局部信息的问题，即在减少局部信息丢失的前提下提升处理速度。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种视频描述语句生成方法，其特征在于，包括：

对获取的视频流通过卷积神经网络进行处理，以获得与所述视频流的各帧分别对应的特征向量；

根据各所述特征向量，计算相邻帧的相关性，并据以对所述视频流的所有帧进行聚类处理，以将所述视频流对应的所有帧划分为多个类；

将所述聚类结果输入循环神经网络，以获得与所述视频流对应的描述语句。

2.根据权利要求1所述的视频描述语句生成方法，其特征在于：将所述视频流对应的所有帧划分为多个类的方式包括：

根据各所述特征向量，计算相邻帧的相关系数，当所述相关系数大于预设系数阈值时，相应的两相邻帧被划分为一类。

3.根据权利要求1所述的视频描述语句生成方法，其特征在于：将所述聚类结果输入循环神经网络后，根据当前单词与各所述类的相关性，获得与各所述类相关的单词，并据以获得与所述视频流对应的描述语句。

4.根据权利要求3所述的视频描述语句生成方法，其特征在于：当当前单词与一所述类的相关性大于预设相关阈值时，所述单词为与所述类相关的单词。

5.根据权利要求1所述的视频描述语句生成方法，其特征在于：将所述循环神经网络的内部状态也作为输入，以输出相应的单词，并据以获得具有时序特征的单词输出。

6.一种视频描述语句生成系统，其特征在于，包括：

特征向量生成模块，用以对获取的视频流通过卷积神经网络进行处理，以获得与所述视频流的各帧分别对应的特征向量；

划分模块，用以根据各所述特征向量，计算相邻帧的相关性，并据以对所述视频流的所有帧进行聚类处理，以将所述视频流对应的所有帧划分为多个类；

描述语句生成模块，用以将所述聚类结果输入循环神经网络，以获得与所述视频流对应的描述语句。

7.根据权利要求6所述的视频描述语句生成系统，其特征在于：所述划分模块将所述视频流对应的所有帧划分为多个类的方式包括：

8.根据权利要求6所述的视频描述语句生成系统，其特征在于：所述描述语句生成模块将所述聚类结果输入循环神经网络后，还用以根据当前单词与各所述类的相关性，获得与各所述类相关的单词，并据以获得与所述视频流对应的描述语句。

9.根据权利要求8所述的视频描述语句生成系统，其特征在于：当当前单词与一所述类的相关性大于预设相关阈值时，所述单词为与所述类相关的单词。

10.根据权利要求6所述的视频描述语句生成系统，其特征在于：所述描述语句生成模块还用以将所述循环神经网络的内部状态也作为输入，以输出相应的单词，并据以获得具有时序特征的单词输出。