CN109241342A

CN109241342A - 基于深度线索的视频场景检索方法和系统

Info

Publication number: CN109241342A
Application number: CN201810811468.7A
Authority: CN
Inventors: 郭南; 叶笑春; 王达; 范东睿; 张�浩; 李文明
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2019-01-18
Anticipated expiration: 2038-07-23
Also published as: CN109241342B

Abstract

本发明涉及一种基于深度线索的视频场景检索方法和系统，包括：获取样本视频，并将样本视频作为输入视频；将输入视频分割为场景片段，根据场景片段的视频场景信息，提取深度线索，对深度线索构成的空间数据降维，作为空间信息描述子；对输入视频进行帧采样得到关键帧，提取关键帧的特征，作为彩色信息描述子；建立空间信息描述子与彩色信息描述子的索引关系，得到场景描述子；对所有样本视频的场景描述子建立视频场景特征库；获取待检索视频，并作为输入视频，得到待检索视频的空间描述子与彩色信息描述子，并根据待检索视频的空间描述子，检索视频场景特征库，得到初步检索结果，对初步检索结果进行彩色特征筛选得到待检索视频的最终检索结果。

Description

基于深度线索的视频场景检索方法和系统

技术领域

本发明涉及视频处理领域，并特别涉及一种基于深度线索的视频场景检索方法和系统。

背景技术

视频检索在视频样例库中索引并查询与输入内容相似的物体和场景，被应用到很多实际任务中，例如视频安全检测、智能视频监控、机器人导航和增强现实等。随着网络视频数据量逐渐增多，实际任务对视频内容识别与检索提出了更高的要求。依靠复杂的算法提高精确度难以同时满足应用对处理效率与准确率的要求。视频中包含对一个场景从不同角度拍摄的图像，这些多视图描述了整个场景的三维空间结构，是人单眼获取立体感的来源。即单相机视频场景片段中存在着表示三维空间结构的深度信息，在视频处理中增加深度信息能够同时提高速度与精确度。

对于视频内容识别与检索，当前方法的准确率与检索速度仍然难以满足实际检测任务需求。

1)输入信息不足是其中一个重要原因，目前的识别只是针对二维图像与视频，输入信息量相对不足，只能依靠复杂的算法增加正确识别的概率。本发明在在视频处理中增加深度信息能够同时提高速度与精确度；

2)视频检索的现有技术处理每个视频的关键帧，并根据最匹配的关键帧对视频进行排名，属于以图像检索图像或者图像检索视频的处理方式。以关键帧的形式进行特征聚合与检索，由于关键帧采样过于稀疏会降低识别的准确度，因此视频特征库占用内存很大。本发明以视频场景为单位进行检索，使用空间信息描述视频帧间的结构，减少视频描述特征的数据量；

3)当前方法在海量视频检索时，视频特征数据库庞大，检索速度太慢，难以满足应用需求，本发明分两步进行检索，减少了彩色图特征匹配的计算量，提高了检索速度。

4)目前基于深度信息的物体检测主要是基于三维点云、多视点图像、或三维模型。它们的缺点是需要专门设计的立体摄像机采集场景，绝大部分网络视频不满足这个前提条件；或者需要提供三维虚拟模型，限制了检测物体的类别。这些弊端限制了三维信息在视频处理上的应用。本发明的研究对象是存在于视频场景片段中的自由视点序列、多视点图像序列或视频，这在实际应用中都是常见的数据来源。

发明内容

本发明为了同时提高视频识别与检索的速度与准确度，提出了一种基于深度线索的视频场景识别与检索的方法。

具体地说，本发明公开了一种基于深度线索的视频场景检索方法，包括：

步骤1、获取样本视频，并将该样本视频作为输入视频，发送至步骤2；

步骤2、将输入视频分割为场景片段，根据该场景片段的视频场景信息，提取深度线索，对深度线索构成的空间数据降维，作为空间信息描述子；对输入视频进行帧采样得到关键帧，使用深度神经网络提取该关键帧的特征，作为彩色信息描述子；通过对该样本视频的空间描述子与彩色信息描述子建立索引关系，得到场景描述子；

步骤3、对所有样本视频的场景描述子建立视频场景特征库；

步骤4、获取待检索视频，并作为输入视频发送至步骤2，得到该待检索视频的空间描述子与彩色信息描述子，并根据该待检索视频的空间描述子，对该视频场景特征库进行检索，得到初步检索结果，对该初步检索结果进行彩色特征筛选得到该待检索视频的最终检索结果。

该基于深度线索的视频场景检索方法，其中步骤2中该深度线索的提取过程为：采用孪生网络对输入视频的视频帧进行特征提取，对空间信息进行综合描述，计算帧间的有效光流，将所有有效光流对应的空间结构进行组合，作为该深度线索。

该基于深度线索的视频场景检索方法，其中该步骤3还包括：

根据空间描述子数据与对应视频的名称，通过层次聚类构成视频场景特征库，该视频场景特征库中以层次聚类树的方式存储该场景描述子；

该基于深度线索的视频场景检索方法，其中步骤4中该彩色特征筛选包括：

根据该待检索视频的彩色信息描述子，在该视频场景特征库中检索与其匹配的彩色信息描述子，选取匹配的彩色信息描述子对应的视频，作为该最终检索结果。

该基于深度线索的视频场景检索方法，其中步骤2中该彩色信息描述子的提取过程包括：

选取当前场景片段开始与结束的两帧，用深度神经网络模型提取图像特征作为彩色信息描述子。

本发明还公开了一种基于深度线索的视频场景检索系统，其中包括：

样本获取模块，用于获取样本视频，并将该样本视频作为输入视频，发送至描述子提取模块；

描述子提取模块，用于将输入视频分割为场景片段，根据该场景片段的视频场景信息，提取深度线索，对深度线索构成的空间数据降维，作为空间信息描述子；对输入视频进行帧采样得到关键帧，使用深度神经网络提取该关键帧的特征，作为彩色信息描述子；通过对该样本视频的空间描述子与彩色信息描述子建立索引关系，得到场景描述子；

特征库建立模块，根据空间描述子数据与对应视频的名称，通过层次聚类构成视频场景特征库，该视频场景特征库中以层次聚类树的方式存储该场景描述子；检索模块，用于获取待检索视频，并作为输入视频发送至该描述子提取模块，得到该待检索视频的空间描述子与彩色信息描述子，并根据该待检索视频的空间描述子，对该场景特征库进行检索，得到初步检索结果，对该初步检索结果进行彩色特征筛选得到该待检索视频的最终检索结果。

该基于深度线索的视频场景检索系统，其中描述子提取模块中该深度线索的提取过程为：采用孪生网络对输入视频的视频帧进行特征提取，对空间信息进行综合描述，计算帧间的有效光流，将所有有效光流对应的空间结构进行组合，作为该深度线索。

该基于深度线索的视频场景检索系统，其中该特征库建立模块还包括：

根据空间描述子数据与对应视频的名称，通过层次聚类构成视频场景特征库，该视频场景特征库中以层次聚类树的方式存储该场景描述子。

该基于深度线索的视频场景检索系统，其中检索模块中该彩色特征筛选包括：

该基于深度线索的视频场景检索系统，其中描述子提取模块中该彩色信息描述子的提取过程包括：

本发明提取的空间信息的信息量较少，减少了进行彩色特征匹配的备选视频库，从而减少了计算量，提高检索的速度。由于深度信息相对于彩色图信息量较少，一个场景只对应一个空间信息描述子，并且视频帧之间的关系通过空间特征描述，视频关键帧允许的采样率较大，彩色特征相对减少，视频场景特征库的体积不会增加。

附图说明

图1为本发明处理流程图；

图2为本发明多组合孪生神经网络提取深度信息的示意图；

图3为本发明视频检索过程图。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

1.视频特征提取与建库流程为，首先将视频分割为场景片段，对视频场景信息提取深度线索，对深度线索构成的空间数据降维，作为视频片段的空间信息描述子；再对视频帧采样得到的关键帧，使用深度神经网络提取特征作为彩色信息描述子；对视频片段的空间描述子与彩色信息描述子建立索引关系生成场景描述子，场景描述子由空间描述子与彩色信息描述子组成，建立视频场景特征库。具体流程如下

1)首先将视频分割为场景片段，每个场景片段是连续的镜头，描述的是一个场景，即场景片段内容不存在转场。

2)对视频场景信息提取深度线索。

深度线索指反映场景主要空间结构的信息参数集合(包括被摄物体相对于相机的坐标)，主要通过搭建深度学习模型提取深度线索。视频帧间的光流(optical flow)往往反映了主要视角变化信息，由于原始视角变换随机性强，很难提取有效的深度值，本发明采用孪生网络对视频帧进行特征提取，对空间信息进行综合描述，计算帧间的有效光流，所有光流对应的空间结构组合就是该场景对应的深度线索。

有效光流：以1、2、3个视频帧为例，1与2之间计算光流，2与3之间也能计算光流，有效光流指所有帧共有的光流部分，由于遮挡、物体旋转形变导致每一帧仅有部分信息，所有帧共有的物体场景对应形成的光流在计算深度线索方面是有效的。

一组孪生网络由两个完全相同的神经网络组成，网络的最后一层馈送到对比损失函数，用来计算输入信息之间的相似度，多组孪生网络的简化计算过程如图2所示。

3)对深度线索构成的空间数据降维，作为视频片段的空间描述子。

主成分分析的方法对数据进行降维。

4)对视频帧采样得到的关键帧，采样方式是选取当前场景开始与结束的两帧，用VGG16深度神经网络模型提取图像特征作为彩色信息描述子，深度神经网络模型不局限于VGG16。

5)对视频片段的空间描述子与彩色信息描述子建立索引关系生成视频场景描述子，进一步对所有样例视频的场景描述子建立视频场景特征库。

建立的具体过程：

场景描述子是将空间描述子和彩色信息描述子表示成便于搜索的形式。

说明：根据图1，场景描述子包括空间信息与彩色信息，用于：从视频场景特征库中进行空间特征搜索时，只搜索空间特征部分；进行彩色特征搜索实现片段筛选时，只搜索彩色特征部分。

所有视频的描述子组成视频场景特征库，包括描述子与对应的视频名称。视频检索可以使用暴力逐个检索，对应的描述库中描述子与视频名称一一列出，没有结构。特别的，对于二值描述子，检索过程可以采用层次聚类算法检索，提高检索速度，比暴力检索速度快，那么对应的描述库，所有描述空间信息的二值特征建立为层次聚类树用于检索，但本发明不局限于二值描述子；层次聚类树检索方法在FLANN库中开源。

2.在检索过程中，用户输入待检索视频，提取特征描述子的处理过程与建库过程中提取特征的处理步骤1)、2)、3)、4)相同。检索时首先根据空间描述子在视频场景特征库中搜索，得到初步的检索结果(备选视频片段)，由于这些片段是根据空间信息检索到的，不一定都与输入的视频片段相似，我们对备选视频片段进行彩色特征筛选，得到最终的检索结果。视频检索过程如图3所示。

检索的具体过程：

首先查询深度特征，再查询彩色特征。

深度特征的数据量小，检索速度快；对根据深度特征查到的所有的视频，再查询对应的彩色特征，进行精确匹配。

筛选即根据输入视频的彩色特征描述子匹配视频场景特征库中的备选视频片段对应的彩色信息描述子部分，找到最匹配的视频，衡量匹配的方式之一是描述子之间差别最小，如二值特征描述子的汉明距离最小，但不局限于二值特征描述子。

视频场景特征库中每个视频场景描述子由两部分组成，空间信息与彩色信息，图1流程图描述了这个信息。筛选时根据输入视频的彩色特征描述子匹配。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

特征库建立模块，根据空间描述子数据与对应视频的名称，通过层次聚类构成视频场景特征库，该视频场景特征库中以层次聚类树的方式存储该场景描述子；检索模块，用于获取待检索视频，并作为输入视频发送至该描述子提取模块，得到该待检索视频的空间描述子与彩色信息描述子，并根据该待检索视频的空间描述子，对该视频场景特征库进行检索，得到初步检索结果，对该初步检索结果进行彩色特征筛选得到该待检索视频的最终检索结果。

根据空间描述子数据与对应视频的名称，通过层次聚类构成视频场景特征库，该视频场景特征库中以层次聚类树的方式存储该场景描述子；该基于深度线索的视频场景检索系统，其中检索模块中该彩色特征筛选包括：

本发明对视频场景信息提取深度线索用于视频场景的特征描述，从空间结构的角度描述视频场景，提高了场景描述的准确度，提高检索准确性；并且本发明采用空间特征检索与传统彩色特征检索相结合的两步检索方式，第一步空间特征检索降低了用于彩色特征检索的样例数量，降低了检索的计算量；因视频场景中的视角变化无规则，使用多组孪生网络提取视频场景的深度线索，可有效提取自由视点的深度信息；由于视频场景的视点间变化连续，信息的有效维度较低，降维后能降低特征的数据量，进而降低数据库的体积与检索时间。

Claims

1.一种基于深度线索的视频场景检索方法，其特征在于，包括：

步骤2、将输入视频分割为场景片段，根据该场景片段的视频场景信息，提取深度线索，对深度线索构成的空间数据降维，作为空间信息描述子；对输入视频进行帧采样得到关键帧，使用深度神经网络提取该关键帧的特征，作为彩色信息描述子，通过对该样本视频的空间描述子与彩色信息描述子建立索引关系，得到场景描述子；

步骤3、对所有样本视频的场景描述子建立视频场景特征库；

2.如权利要求1所述的基于深度线索的视频场景检索方法，其特征在于，步骤2中该深度线索的提取过程为：采用孪生网络对输入视频的视频帧进行特征提取，对空间信息进行综合描述，计算帧间的有效光流，将所有有效光流对应的空间结构进行组合，作为该深度线索。

3.如权利要求1所述的基于深度线索的视频场景检索方法，其特征在于，该步骤3还包括：

根据该场景描述子中的空间描述子数据与对应的视频名称，通过层次聚类构成视频场景特征库，该视频场景特征库中以层次聚类树的方式存储该场景描述子。

4.如权利要求3所述的基于深度线索的视频场景检索方法，其特征在于，步骤4中该彩色特征筛选包括：

5.如权利要求1所述的基于深度线索的视频场景检索方法，其特征在于，步骤2中该彩色信息描述子的提取过程包括：

6.一种基于深度线索的视频场景检索系统，其特征在于，包括：

描述子提取模块，用于将输入视频分割为场景片段，根据该场景片段的视频场景信息，提取深度线索，对深度线索构成的空间数据降维，作为空间信息描述子；对输入视频进行帧采样得到关键帧，使用深度神经网络提取该关键帧的特征，作为彩色信息描述子，建立空间描述子与彩色特征描述子之间的索引关系，组成场景描述子；

特征库建立模块，根据空间描述子数据与对应视频的名称，通过层次聚类构成视频场景特征库，该视频场景特征库中以层次聚类树的方式存储该场景描述子；

检索模块，用于获取待检索视频，并作为输入视频发送至该描述子提取模块，得到该待检索视频的空间描述子与彩色信息描述子，并根据该待检索视频的空间描述子，对该场景信息索引表进行检索，得到初步检索结果，对该初步检索结果进行彩色特征筛选得到该待检索视频的最终检索结果。

7.如权利要求6所述的基于深度线索的视频场景检索系统，其特征在于，描述子提取模块中该深度线索的提取过程为：采用孪生网络对输入视频的视频帧进行特征提取，对空间信息进行综合描述，计算帧间的有效光流，将所有有效光流对应的空间结构进行组合，作为该深度线索。

8.如权利要求6所述的基于深度线索的视频场景检索系统，其特征在于，该聚类模块还包括：

根据该场景描述子中的空间描述子数据与对应的视频名称，通过层次聚类构成视频场景特征库，该视频场景特征库中以层次聚类树的方式存储该场景信息索引表。

9.如权利要求8所述的基于深度线索的视频场景检索系统，其特征在于，检索模块中该彩色特征筛选包括：

10.如权利要求6所述的基于深度线索的视频场景检索系统，其特征在于，描述子提取模块中该彩色信息描述子的提取过程包括：