CN110427517A

CN110427517A - 一种基于场景词典树的图搜视频方法，装置及计算机可读存储介质

Info

Publication number: CN110427517A
Application number: CN201910648005.8A
Authority: CN
Inventors: 赵国强; 朱利霞; 王治国; 王瑢
Original assignee: Huarong Information Industry Co Ltd
Current assignee: Huarong Information Industry Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2019-11-08
Anticipated expiration: 2039-07-18
Also published as: CN110427517B

Abstract

本发明提供一种基于场景词典树的图搜视频方法，装置及计算机可读存储介质，建立视频场景特征库方法包括：对镜头图像进行分割；提取镜头全局特征；提取镜头图像中的关键帧；提取关键帧的关键帧特征；对全局特征进行聚类处理；配置局部特征压缩编码，得到场景特征库。图搜视频方法包括，将待查询图像生成查询图像特征向量；与场景进行相似度比较；将相似度比较结果进行相似度排序。本发明对场景进行关键帧提取，并对场景关键帧进行特征压缩编码得到，基于场景的关键帧特征向量，可有效进行特征压缩，大大缩小了存储空间和大幅度减少了相似度计算量，实现在海量数据中实时检索的功能。

Description

一种基于场景词典树的图搜视频方法，装置及计算机可读存储介质

技术领域

本发明涉及视频数据处理技术领域，尤其涉及一种基于场景词典树的图搜视频方法，装置及计算机可读存储介质。

背景技术

随着“平安城市”建设的不断深入，视频安防监控技术的更新换代、新技术的更迭以及未来的发展越来越受到各界的高度重视，视频检索成为当前视频技术发展的主要方面之一，图搜视频解决了当前针对海量视频内容的精准快速检索的硬伤。

以图搜视频的技术包括经典的模式识别、深度学习领域相关技术，其原理是通过经典的模式识别技术和深度学习技术的融合，达到海量视频搜索在精准度、速度上的最佳组合。在互联网安全领域，目前对图像、视频内容的审核，都无法做到自动审核，还很大程度上要依赖人力，通过以图搜视频技术，可以自动审核图片或者视频中包含的内容信息，这就提高了互联网安全领域的图像以及视频内容的过滤和审核效率。类似的应用场景还存在于安防、电视媒体、个人图片以及视频管理应用等诸多领域。

视频的本质就是图像序列，所以以图搜视频，面临的一个最直接的问题就是数据量非常庞大，一秒钟的视频就相当于25-30张图片，因此需要一个非常好的方法来把这些图像序列的特征进行紧凑快速有效的融合，而不是简单的把每帧图片分别进行特征提取然后采用以图搜图的方式实现视频搜索。简而言之，相比较以图搜图，以图搜视频必须要通过视频为单位进行特征提取，才能在实际应用中达到实施的可能，这是相对于以图搜图，以图搜视频的重点和难点。

视频数据可以分为四个层次：视频、场景、镜头和图像帧。视频检索一般分为镜头检索和片段检索。片段概念等价于场景概念，是由一连串语义相关的连续镜头构成，不同的是片段可以是一段完整场景的部分或全部。目前大多是研究集中在镜头检索上。但是从用户的角度来分析，他们对视频的数据库的查询通常会是一个视频片段很少是单个物理镜头。从信息量角度分析，由几个镜头组成的视频片段有比单个镜头更多的语义，它可以表示用户感兴趣的事件，因此，查询的结果也比较有意义。例如在新闻中检索感兴趣的事件、电影中检索喜欢的情节、体育节目中检索喜爱的体育运动、电视台检索某条广告是否播出等。

目前图搜视频存在的问题：

(1)目前的图搜视频，单纯的检索到相似的某一帧或单个镜头不符合用户需求；

(2)海量视频数据在提取的特征量很大，不仅占用较大的存储空间，而且在计算相似度时，大大增加了计算量；

(3)在全局特征提取时，全局特征是基于镜头进行特征提取，在以图搜视频时，需要达到的目的是根据一张图像可以搜索到相似的视频场景。

发明内容

本发明提供一种以视频场景为单位，用图像快速、准确检索相似视频场景功能的基于场景词典树的图搜视频方法，

其中，建立视频场景特征库方法包括：

步骤一，对镜头图像进行分割；

步骤二，提取镜头全局特征；

步骤三，提取镜头图像中的关键帧；

步骤四，提取关键帧的关键帧特征；

步骤五，对全局特征进行聚类处理；

步骤六，配置局部特征压缩编码，得到场景特征库。

本发明提供的图搜视频方法包括：

将待查询图像生成查询图像特征向量；

与场景进行相似度比较；

将相似度比较结果进行相似度排序。

本发明还提供一种基于场景词典树的图搜视频方法的装置，包括：存储器，用于存储计算机程序及基于场景词典树的图搜视频方法；处理器，用于执行所述计算机程序及基于场景词典树的图搜视频方法，以实现基于场景词典树的图搜视频方法的步骤。

本发明还提供一种具有基于场景词典树的图搜视频方法的计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现基于场景词典树的图搜视频方法的步骤。

从以上技术方案可以看出，本发明具有以下优点：

本发明提出了基于场景词典树的以图搜视频的方法，其特点如下：

(1)将视频进行镜头检测和全局特征提取，并进一步进行镜头聚类，得到视频场景，对视频场景建立索引；

(2)对场景进行关键帧提取，并对场景关键帧进行特征压缩编码得到，基于场景的关键帧特征向量，可有效进行特征压缩，大大缩小了存储空间和大幅度减少了相似度计算量，实现在海量数据中实时检索的功能；

(3)相似度比较，将图像进行特征提取压缩编码，之后与场景中关键帧进行比较，根据相似度，对视频场景进行排序。

本发明实现在海量视频的快速、准确检索。

附图说明

为了更清楚地说明本发明的技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为基于场景词典树的图搜视频方法流程图；

图2为视频场景特征库建立流程图；

图3为系统流程图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将运用具体的实施例及附图，对本发明保护的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明中涉及的场景是构成视频的单元，一个场景由多个镜头组成。

BoF为视觉词典向量，是对图像特征进行聚类、构建码本、建立视觉词典的一种方法；

FV为Fisher Vector，是一种图像特征表达方法。

本发明提供的一种基于场景词典树的图搜视频方法中涉及了建立视频场景特征库方法和图搜视频方法。具体的如图1至3所示，

其中本发明的实施例中，建立视频场景特征库方法包括：

步骤一，对镜头图像进行分割；

步骤二，提取镜头全局特征；

步骤三，提取镜头图像中的关键帧；

步骤四，提取关键帧的关键帧特征；

步骤五，对全局特征进行聚类处理；

步骤六，配置局部特征压缩编码，得到场景特征库

具体过程如下：

1)镜头分割。

采用基于直方图镜头分割算法。基于直方图的算法是最普遍的分割方法，简单方便，而且对大多数视频能得到较好的分割效果。具体是将相邻两帧之间的各个像素的灰度、亮度等分为N个等级，再针对每个等级统计像素数值做成直方图比较，给出两个图像的直方图，直方图计算公式如下：

其中，N为图像帧像素的总数。h_m(i)-h_n(i)表示的是两帧在i的这个像素值的直方图的距离。设定阈值u，当距离D大于阈值u时，说明检测到镜头转变。

2)提取镜头全局特征

利用FV(Fisher Vectors)提取镜头的全局特征。FV本质是用似然函数的梯度向量表示一幅图像。假设一幅图像，有T个描述子，那么图像I可以表示为X＝{x_t，t＝1，...，T}。并且假设特征的每个x_t维度符合一定的分布而且这些分布之间相互独立。就可以将图像的概率分布表示为各个维度上概率分布的乘积。那么图像I的概率分布表示：其中λ表示参数集λ＝{w_i，μ_i，∑_i，i＝1，...，K}，取对数：

接着K个高斯分布的线性组合逼近，假设高斯混合分布参数也是λ，于是：

其中，p_i表示高斯分布，w表示组合系数D表示特征向量的维度，这里假设协方差矩阵是对角矩阵，也就是特征的不同维度之间的相互独立。根据公式(3)、(4)对公式(2)进行求偏导，即可得到Fisher Vector，即为镜头的全局变量。

3)关键帧提取

关键帧必须能够反映镜头中主要事件，数据量应尽量小，且计算量不宜太复杂。本发明采用基于帧平均法，具体步骤如下：

(1)计算所有帧在某个位置上像素的平均值；

(2)将镜头中该点位置的像素值最接近平均值的帧作为关键帧。

4)关键帧特征提取

采用传统特征SIFT进行关键帧的特征提取，SIFT特征即尺度不变特征变换，具有如下特点：(1)局部特征，对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变化、噪声也保持一定程度的稳定性；(2)区分性好，信息量丰富，适用于在海量特征数据库中进行快速、准确的匹配；(3)多量性，即使少数的几个物体也可以产生大量的SIFT特征向量；(4)高速性，SIFT特征匹配可以达到实时的要求；(5)可扩展性，可以很方便的与其他形式的特征向量进行联合因此，本发明利用SIFT特征进行关键帧表达。

5)全局特征聚类

利用K-Means，根据提取的镜头全局变量FV对镜头进行聚类，得到以场景为单位的视频信息。

6)局部特征压缩编码

利用BoF算法对场景中的所有关键帧的特征进行压缩编码。具体步骤如下：

(1)关键帧图像局部特征SIFT，得到特征集合U；

(2)对特征集合U进行分层聚类得到一个具有h层，每层最多有k个聚类中心的词典树；

(3)计算关键帧的词典向量。基于图像特征提取阶段提取到的图像特征和构建的视觉词典树，计算每张图像的每个图像特征距离词典树节点的距离，将每个图像特征归入距离最近的词典树节点中，然后统计每个节点中包含此张图像的特征个数，得到该图像在词典树各个节点出现的频率向量F^j。图像特征的词典向量公式为：

其中W_T＝lpg(N/N_T)，其中N表示图像库的图像总数，N_T表示对于节点T中的特征涵盖的图像数量。将关键帧根据场景分来进行索引存储，这样最后得到场景特征库。

本发明提供的图搜视频方法实施例中，以图搜索相似视频。主要包括三部分：生成查询图像特征向量、与场景进行相似度比较、相似度排序。

1)生成查询图像特征向量，提取SIFT特征，使用第一阶段词典树，生成查询图像词典向量。

2)计算相似度，对某个场景中所有的关键帧词典向量，利用欧式距离计算距离，进行累加，计算公式如下：

其中sim(q_i，scene_j)表示查询图像q_i与第j个场景scene_j的相似度，表示查询图像的词典向量，表示场景j的第l个关键帧的词典向量，p表示词典向量的维数。对公示进行归一化，得到最后的计算相似度的公式，如下：

得到查询图像与视频场景的相似度。

3)相似度排序

根据相似度，对场景进行排序，将前n个场景视频作为查询结果进行保存。

实施例中图搜视频的关键技术：

(1)关键帧提取，关键帧可有效表示视频信息，可大幅度缩小计算量；

(2)特征提取，全局特征和局部特征；

(3)视频聚类，将相似视频片段进行聚类；

(4)相似度计算，根据输入的图像，计算图像与视频片段的相似度。

作为本发明图搜视频方法的另一个实施方式还包括：

将待查找镜头图像，提取镜头全局特征；

利用FV(Fisher Vectors)提取待查找镜头图像的全局特征。假设一幅图像，有T个描述子，那么图像I可以表示为X＝{x_t，t＝1，...，T}。并且假设特征的每个x_t维度符合一定的分布而且这些分布之间相互独立。就可以将图像的概率分布表示为各个维度上概率分布的乘积。那么图像I的概率分布表示：其中λ表示参数集λ＝{w_i，μ_i，∑_i，i＝1，...，K}，取对数：

其中，p_i表示高斯分布，w表示组合系数D表示特征向量的维度，这里假设协方差矩阵是对角矩阵，也就是特征的不同维度之间的相互独立。根据公式(3)、(4)对公式(2)进行求偏导，即可得到Fisher Vector，即为待查找镜头图像的全局变量。

提取镜头全局特征中的关键帧特征；

这里采用基于帧平均法，具体步骤如下：计算所有帧在某个位置上像素的平均值；将镜头中该点位置的像素值最接近平均值的帧作为关键帧。

将关键帧特征以及关键帧特征所对应的场景配置为一个辨识特征区；

每个待查找镜头图像的镜头全局特征配置多个辨识特征区，即为B_i＝(i＝1,……n)；

对任意辨识特征区B_i，利用式下式计算辨识特征区B_i与其周围辨识特征区的匹配度m₁,m₂,K,m_n，

式中ac为辨识特征区灰度调节参数，B为辨识特征区，B_i为B周围的第i个辨识特征区，将匹配度m₁,m₂,K,m_n和辨识特征区B_i所包含的预设数量的B₁,B₂,K,B_n进行归一化处理，得到一个待查找镜头图像的多维图像特征向量；

通过下式计算每维图像特征向量的方差，并获取每个图像特征向量值以及方差最大的图像特征向量值；

式中v_i为特征值，为该维特征的均值，m为索引图像块的数目；

以所述方差最大的图像特征向量所对应的辨识特征区作为多维树的根节点，将小于方差最大的图像特征向量的图像特征向量配置到第一子树中，将大于方差最大的图像特征向量的图像特征向量配置到第二子树中，形成镜头图像检索树；

当然这里还可以基于其他条件分出多种条件下的子树。

从镜头图像检索树的根节点开始检索，利用下式计算待辨识特征区与镜头图像检索树中辨识特征区的相似度，

式中PF为待查询图像生成的查询图像特征向量，PF_i为图像库的图像特征向量，b为辨识特征区灰度调节参数，预设查询比对图像特征向量阈值，将cf_i与预设查询比对图像特征向量阈值进行比对；

如果cf_i在预设查询比对图像特征向量阈值内，则将当前图像库的图像特征向量作为待查询图像生成的查询图像特征向量相似的图像；

如果cf_i未在预设查询比对图像特征向量阈值内则继续检索。

这样基于场景特征库来进行待查找镜头图像的提取和查找。可以滤出多数干扰项，能够实现快速，大范围的找到相似或相同图像，满足用的需要。

本发明还提供了一种基于场景词典树的图搜视频方法的装置，包括：存储器，用于存储计算机程序及基于场景词典树的图搜视频方法；处理器，用于执行所述计算机程序及基于场景词典树的图搜视频方法，以实现基于场景词典树的图搜视频方法的步骤。

基于场景词典树的图搜视频方法的装置可以实现在硬件，软件，固件或它们的任何组合。所述的各种特征为模块，单元或组件可以一起实现在集成逻辑装置或分开作为离散的但可互操作的逻辑器件或其他硬件设备。在一些情况下，电子电路的各种特征可以被实现为一个或多个集成电路器件，诸如集成电路芯片或芯片组。

在装置中，上述基于场景词典树的图搜视频方法的实现可以基于处理器或者集成电路装置实现，诸如集成电路芯片或芯片组。可替换地或附加地，如果软件或固件中实现，所述技术可实现至少部分地由计算机可读的数据存储介质，包括指令，当执行时，使处理器执行一个或更多的上述方法。例如，计算机可读的数据存储介质可以存储诸如由处理器执行的指令。

本发明还提供一种具有基于场景词典树的图搜视频方法的计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现基于场景词典树的图搜视频方法的步骤。

基于场景词典树的图搜视频方法的计算机可读存储介质可以包括包装材料。数据的计算机可读介质可以包括计算机存储介质，诸如随机存取存储器(RAM)，只读存储器(ROM)，非易失性随机存取存储器(NVRAM)，电可擦可编程只读存储器(EEPROM)，闪存，磁或光学数据存储介质，和类似物。在一些实施例中，一种制造产品可包括一个或多个计算机可读存储媒体。

可以实现对基于场景词典树的图搜视频方法的存储，以便于多个客户端，多个服务器，多个终端使用。

在一些实施例中，计算机可读存储介质可以包括非易失性介质。术语“非暂态”所述存储介质可以指示不包含在载波或传播信号。在某些实施例中，非临时性存储介质可以存储数据，它可以随时间改变(例如，RAM或者高速缓存)中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于场景词典树的图搜视频方法，其特征在于，建立视频场景特征库方法包括：

步骤一，对镜头图像进行分割；

步骤二，提取镜头全局特征；

步骤三，提取镜头图像中的关键帧；

步骤四，提取关键帧的关键帧特征；

步骤五，对全局特征进行聚类处理；

步骤六，配置局部特征压缩编码，得到场景特征库。

2.根据权利要求1所述的基于场景词典树的图搜视频方法，其特征在于，图搜视频方法包括：

将待查询图像生成查询图像特征向量；

与场景进行相似度比较；

将相似度比较结果进行相似度排序。

3.根据权利要求2所述的基于场景词典树的图搜视频方法，其特征在于，

步骤将待查询图像生成查询图像特征向量还包括：

对待查询图像提取SIFT特征，使用第一阶段词典树，生成查询图像词典向量；

步骤与场景进行相似度比较还包括：

对某个场景中所有的关键帧词典向量，利用欧式距离计算距离，进行累加，计算公式如下：

其中sim(q_i，scene_j)表示查询图像q_i与第j个场景scene_j的相似度，表示查询图像的词典向量，表示场景j的第l个关键帧的词典向量，p表示词典向量的维数；对公示进行归一化，通过相似度的公式，如下：

得到查询图像与视频场景的相似度；

步骤将相似度比较结果进行相似度排序还包括：

4.根据权利要求1或2所述的基于场景词典树的图搜视频方法，其特征在于，

步骤一还包括：

将相邻两帧之间的各个像素的灰度、亮度等分为N个等级，再针对每个等级统计像素数值做成直方图比较，给出两个图像的直方图，直方图计算公式如下：

其中，N为图像帧像素的总数；h_m(i)-h_n(i)表示的是两帧在i的这个像素值的直方图的距离；设定阈值u，当距离D大于阈值u时，检测到镜头转变。

5.根据权利要求1或2所述的基于场景词典树的图搜视频方法，其特征在于，

步骤三还包括：

(1)计算所有帧在预设位置上像素的平均值；

6.根据权利要求1或2所述的基于场景词典树的图搜视频方法，其特征在于，步骤六还包括：

(1)关键帧图像局部特征SIFT，得到特征集合U；

(3)计算关键帧的词典向量。

7.根据权利要求6所述的基于场景词典树的图搜视频方法，其特征在于，

步骤计算关键帧的词典向量还包括：

基于图像特征提取阶段提取到的图像特征和构建的视觉词典树，计算每张图像的每个图像特征距离词典树节点的距离，将每个图像特征归入距离最近的词典树节点中，统计每个节点中包含此张图像的特征个数，得到该图像在词典树各个节点出现的频率向量F^j；图像特征的词典向量公式为：

其中W_T＝log(N/N_T)，其中N表示图像库的图像总数，N_T表示对于节点T中的特征涵盖的图像数量；将关键帧根据场景分来进行索引存储，得到场景特征库。

8.一种基于场景词典树的图搜视频方法的装置，其特征在于，包括：

存储器，用于存储计算机程序及基于场景词典树的图搜视频方法；

处理器，用于执行所述计算机程序及基于场景词典树的图搜视频方法，以实现如权利要求1至7任意一项所述基于场景词典树的图搜视频方法的步骤。

9.一种具有基于场景词典树的图搜视频方法的计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至7任意一项所述基于场景词典树的图搜视频方法的步骤。