CN107040740A

CN107040740A - 基于信息散度的视频大数据冗余删除方法

Info

Publication number: CN107040740A
Application number: CN201710281352.2A
Authority: CN
Inventors: 甘新标; 刘杰; 杨灿群; 徐涵; 胡庆丰; 龚春叶; 李胜国; 邹丹; 晏益慧; 黄嘉昆; 熊成伟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2017-08-11
Anticipated expiration: 2037-04-26
Also published as: CN107040740B

Abstract

本发明公开了一种基于信息散度的视频大数据冗余删除方法，目的是提出一种冗余视频数据删除方法，节省存储容量，减少视频大数据计算分析时间，提高视频大数据维护管理的效率。技术方案是先将视频大数据用视频大数据集V来表示，对V进行归一化，然后定义面向视频图像帧矢量的K‑L散度和信息量分布矩阵M_L，确认各视频图像帧矢量对V的信息量贡献，删除V中的信息量贡献最小的冗余视频图像帧。采用本发明能缓解视频数据的存储压力，提高视频数据存储效率，加快视频大数据计算分析速率，提升整个大数据视频应用系统的运营效率。

Description

基于信息散度的视频大数据冗余删除方法

技术领域

本发明涉及冗余删除方法，尤其涉及信息领域视频大数据冗余的删除方法。

背景技术

随着社会信息化不断推进，信息存储应用领域越来越广泛，在过去的5年内全球数字化信息量增长迅速，已从之前的TB级上升到PB级，甚至EB级。随着大数据时代的来临，数据增长将是大型企业部署lT设施的最大挑战，随着数据规模和数据体积的持续增大，一方面需要投入巨额资金购置存储容量，另一方面数据的计算分析运营成本也将显著增加。

研究表明，在备份和归档存储等应用系统所保存的数据中，高达80％～90％的数据是冗余的，而随着时间推移，冗余数据的比例也将继续上升。因此，存储系统中数据高冗余问题受到越来越多研究人员的关注，如何缩减存储系统数据存储容量已成为一个热门的研究课题，而重复数据冗余删除技术是其中一种容量优化技术，它通过消除存储系统中冗余的数据，缩减系统中实际存储的数据或通过网络传输的数据，在备份、长期归档和数据灾难恢复等方面已得到了广泛的应用。在工业界，DataDomain DDFs，IBM Diligent，EMC的Avarma，Veritas的PureDisk以及CommVault的Shpana是比较知名的冗余数据删除产品，这些产品通常可以达到20：1的冗余数据删除率；同时，学术界也进行了深入研究，包括美国的MIT、OSU、UC和Stanford等大学，德国Paderbom大学，英国剑桥大学，以及中国的CUHK、清华大学、国防科技大学以及华中科技大学等高校。

冗余数据删除是基于数据自身的冗余度来检测数据流中的相同数据对象，只传输和存储唯一的数据对象副本，并使用指向唯一数据对象副本的引用或关联来替换其他冗余。相比于传统的数据压缩技术，冗余数据删除技术不仅可以消除文件内的数据重复，还能消除共享数据集内文件之间的数据重复。根据实施冗余数据删除操作位置的不同，分为源和目标端冗余数据删除；根据实施冗余数据删除操作时机的不同，分为离线、近线和在线删除；根据实施冗余数据删除操作粒度的不同，分为文件级和块级删除；根据冗余数据删除所服务数据实体的存储与访问方式的不同，分为主存储和从存储删除。

无论是源和目标端冗余数据删除、离线、近线和在线删除、文件级和块级删除，还是主存储和从存储删除，冗余数据删除的对象几乎都是重复数据删除，对于非简单重复而有关联关系的冗余数据即一个数据对象可以由其它数据对象来表示的冗余数据，上述各种数据删除技术就无能为力了。

大数据时代，视频数据量庞大，种类繁多，结构复杂，很多统计问题中将信息量作为统计的基本度量，如非线性统计问题，数据挖掘问题，投影寻踪问题等，在这些涉及到随机分布之间差异的问题中提出了大量的度量准则，一般称之为信息散度，即使用基于概率分布Q的编码来编码来自概率分布P的样本所需要的额外的比特数，是一种描述两个概率分布差异的一种方法。最早的信息散度是Kullback和Leibler提出的相对熵，也称K-L距离或K-L散度，是一种用来描述两信息量差异的方法。随着大数据时代的兴起，具有关联关系的视频数据冗余现象将越来越突出，面向视频大数据的冗余数据删除变得更加紧迫和重要。

如何基于K-L散度，解决面向视频大数据的冗余数据删除难题是本领域技术人员关注的重要技术问题。

发明内容

本发明要解决的技术问题在于：针对非简单重复而有关联关系的冗余视频数据，提出一种基于信息散度的视频大数据冗余删除方法，节省存储容量，减少视频大数据计算分析时间，提高视频大数据维护管理的效率。

为了解决上述技术问题，本发明的具体技术方案为：

第一步、将视频大数据进行归一化。具体方法如下：

1.1将视频大数据用视频大数据集V来表示，

V∈R^L×N，视频大数据以数字化形式呈现，R表示实数，R^L×N表示规模为L×N的实数矩阵，每个视频均由多个视频图像帧组成，N为V中的视频个数，L是V中的N个视频中视频图像帧的个数的最大值(对于视频图像帧数小于L的视频，其对应的视频图像帧可以补0填充，因此V中的每个视频中视频图像帧的个数可以均为L)，L和N均为正整数，V_i表示V中N个视频的第i个视

频图像帧组成的矢量集合，简称视频图像帧矢量，1≤i≤L，V_i＝[v_i1,v_i2,…v_ij,…v_iN]，v_ij表示V_i中第j个视频的第i个视频图像帧，v_ij是实数，1≤j≤N；

1.2将V中的V₁,V₂,…,V_i,…V_L进行归一化，得到归一化后的视频图像帧矢量具体步骤如下：

1.2.1定义变量i＝1；

1.2.2定义变量j＝1；

1.2.3定义变量sum＝0；

1.2.4执行sum＝sum+v_ij；

1.2.5j＝j+1；

1.2.6若j≤N，转1.2.4，否则，转1.2.7；

1.2.7将V_i中的v_i1,v_i2,…v_ij,…v_iN分别除以sum，得到归一化后的视频图像帧

1.2.8i＝i+1；

1.2.9若i≤L，转1.2.2，否则，转1.3；

1.3将归一化后的视频图像帧对应依次赋值给v_i1,v_i2,…v_ij,…v_iN；

1.4将归一化后的视频图像帧矢量对应依次赋值给V₁,V₂,…,V_i,…V_L；

第二步、定义面向视频图像帧矢量的K-L散度，第i组视频图像帧矢量V_i相对于第i'组视频图像帧矢量V_i'的K-L散度M_L(V_i||V_i')定义为：

式(1)表示的意义是使用V_i'的信息表示V_i的信息所需要的额外比特数。所以，相对于视频图像帧V_i'来说，如果从V中去掉视频图像帧V_i，V便损失了大小为M_L(V_i||V_i')的信息量,另一方面，相对于视频图像帧V_i来说，如果去掉视频图像帧V_i'，V便损失了大小为M_L(V_i'||V_i)的信息量。

第三步、为了分析V中视频图像帧之间的相关性，定义V的信息量分布矩阵M_L如公式(2)所示：

即:

M_L_i,i'＝M_L(V_i||V_i') (3)

M_L_i,i'表示M_L中第i行第i'列处的元素，1≤i≤L，1≤i'≤L。M_L中的第i行用M_L_i表示，M_L_i中M_L_i,i＝0，假设除了M_L_i,i，最小的元素为M_L_i,i'，将视频图像帧矢量V_i从V中移除，则视频图像帧V_i的大小为M_L_i,i'的信息量随之丢失，视频图像帧V_i的信息量将由最接近它的视频图像帧矢量V_i'表示。因此，将视频图像帧V_i从V中移除造成的信息量损失为M_L_i,i'，即视频图像帧V_i对V的信息贡献量是M_L_i,i'，由于V_i对V的信息贡献量遵循短板原理，所以视频图像帧V_i对V的信息贡献量是M_L_i中最小的元素。

第四步、确认V₁,V₂,…,V_i,…V_L对V的信息量贡献，V_i对V的信息量贡献contribution(i)为M_L_i中最小的元素值。

即：contribution(i)＝min{M_L_i,1,M_L_i,2,…,M_L_i,i',…M_L_i,L} (4)

第五步、删除V中的信息量贡献最小的冗余视频图像帧。具体步骤如下：

5.1设定需要从V中保留的视频图像帧数K，1≤K≤L；

5.2计算V的信息量分布矩阵M_L。具体步骤如下：

5.2.1定义变量i＝1；

5.2.2定义变量i'＝1；

5.2.3根据公式(1)计算M_L(V_i||V_i')；

5.2.4根据公式(3)令M_L_i,i'＝M_L(V_i||V_i')；

5.2.5i'＝i'+1；

5.2.6若i'≤L，转5.2.3，否则转5.2.7；

5.2.7i＝i+1；

5.2.8若i≤L，转5.2.2，否则转5.3；

5.3定义删除的视频图像帧矢量集合

5.4确定最小贡献量，具体步骤如下：

5.4.1定义变量i＝1；

5.4.2定义变量L'＝L；

5.4.3根据式(4)计算contribution(i)；

5.4.4i＝i+1；

5.4.5若i≤L，转5.4.3，否则，转5.4.6；

5.4.6遴选视频大数据集合V中的最小信息贡献量的视频图像帧，方法是：

令

contribution＝min{contribution(1),contribution(2),…contribution(ii),…,contribution(L')}，contribution表示V₁,V₂,…,V_ii,…V_L'对V的最小信息贡献量，1≤ii≤L'，令g为contribution对应的视频图像帧矢量的编号；

5.5更新V＝V-{V_g}，L'＝L'-1，即，在V中删除编号g对应的视频图像帧矢量V_g，且V中视频图像帧矢量个数减少1个；

5.6更新S＝S+{V_g}，即将最小贡献量视频图像帧矢量V_g加入集合S；

5.7令num(S)为S中的视频图像帧矢量的数目；

5.8若num(S)＜L-K，转5.4.6；否则，转第六步。

第六步、结束。

采用本发明可以达到以下技术效果：

1.第四步和第五步将视频大数据集合中贡献最小的视频数据帧矢量删除，缓解了视频数据的存储压力，提高了视频数据存储效率；

2.由于存储的视频冗余数据减少，加快了视频大数据计算分析速率，提升了整个大数据视频应用系统的运营效率。

附图说明

图1为本发明基于信息散度的视频大数据冗余删除方法总体流程图。

具体实施方式

图1为本发明的总体流程图，其具体实施步骤如下：

第一步、将视频大数据进行归一化。具体方法如下：

1.1将视频大数据用视频大数据集V来表示，

V∈R^L×N，视频大数据以数字化形式呈现，R表示实数，R^L×N表示规模为L×N的实数矩阵，每个视频均由多个视频图像帧组成，N为V中的视频个数，L是V中的N个视频中视频图像帧的个数的最大值，L和N均为正整数，V_i表示V中N个视频的第i个视频图像帧组成的矢量集合，简称视频图像帧矢量，1≤i≤L，V_i＝[v_i1,v_i2,…v_ij,…v_iN]，v_ij表示V_i中第j个视频的第i个视频图像帧，v_ij是实数，1≤j≤N；

1.2.1定义变量i＝1；

1.2.2定义变量j＝1；

1.2.3定义变量sum＝0；

1.2.4执行sum＝sum+v_ij；

1.2.5j＝j+1；

1.2.6若j≤N，转1.2.4，否则，转1.2.7；

1.2.8i＝i+1；

1.2.9若i≤L，转1.2.2，否则，转1.3；

1.4将归一化后的视频图像帧矢量对应依次赋值给V₁,V₂,…,V_i,V_L；

第三步、定义V的信息量分布矩阵M_L如公式(2)所示：

即:

M_L_i,i'＝M_L(V_i||V_i') (3)

M_L_i,i'表示M_L中第i行第i'列处的元素，1≤i≤L，1≤i'≤L。M_L中的第i行用M_L_i表示，M_L_i中M_L_i,i＝0，假设除了M_L_i,i，最小的元素为M_L_i,i'，将视频图像帧矢量V_i从V中移除，则视频图像帧V_i的大小为M_L_i,i'的信息量随之丢失，视频图像帧V_i的信息量将由最接近它的视频图像帧矢量V_i'表示。因此，将视频图像帧V_i从V中移除造成的信息量损失为M_L_i,i'，即视频图像帧V_i对V的信息贡献量是M_L_i,i'。

第四步、确认V₁,V₂,…,V_i,V_L对V的信息量贡献，V_i对V的信息量贡献contribution(i)为M_L_i中最小的元素值。

即：contribution(i)＝min{M_L_i,1,M_L_i,2,…,M_L_i,i',…M_L_i,L} (4)

5.1设定需要从V中保留的视频图像帧数K，1≤K≤L；

5.2计算V的信息量分布矩阵M_L。具体步骤如下：

5.2.1定义变量i＝1；

5.2.2定义变量i'＝1；

5.2.3根据公式(1)计算M_L(V_i||V_i')；

5.2.4根据公式(3)令M_L_i,i'＝M_L(V_i||V_i')；

5.2.5i'＝i'+1；

5.2.6若i'≤L，转5.2.3，否则转5.2.7；

5.2.7i＝i+1；

5.2.8若i≤L，转5.2.2，否则转5.3；

5.3定义删除的视频图像帧矢量集合

5.4确定最小贡献量，具体步骤如下：

5.4.1定义变量i＝1；

5.4.2定义变量L'＝L；

5.4.3根据式(4)计算contribution(i)；

5.4.4i＝i+1；

5.4.5若i≤L，转5.4.3，否则，转5.4.6；

5.4.6遴选视频大数据集合V中的最小信息贡献量的视频图像帧，方法是：令contribution＝min{contribution(1),contribution(2),…contribution(ii),…,contribution(L')}，contribution表示V₁,V₂,…,V_ii,…V_L'对V的最小信息贡献量，1≤ii≤L'，令g为contribution对应的视频图像帧矢量的编号；

5.5更新V＝V-{V_g}，L'＝L'-1，即，在V中删除编号g对应的视频图像帧矢量V_g；

5.7令num(S)为S中的视频图像帧矢量的数目；

5.8若num(S)＜L-K，转5.4.6；否则，转第六步。

第六步、结束。

Claims

1.一种基于信息散度的视频大数据冗余删除方法，其特征在于包括以下步骤

第一步、将视频大数据进行归一化，具体方法如下：

1.1将视频大数据用视频大数据集V来表示，

1.2将V中的V₁,V₂,…,V_i,…V_L进行归一化，得到归一化后的视频图像帧和归一化后的视频图像帧矢量

式(1)表示的意义是使用V_i'的信息表示V_i的信息所需要的额外比特数，相对于视频图像帧V_i'来说，如果从V中去掉视频图像帧V_i，V便损失了大小为M_L(V_i||V_i')的信息量,相对于视频图像帧V_i来说，如果去掉视频图像帧V_i'，V便损失了大小为M_L(V_i'||V_i)的信息量；

第三步、定义V的信息量分布矩阵M_L如公式(2)所示：

即:

M_L_i,i'＝M_L(V_i||V_i') (3)

M_L_i,i'表示M_L中第i行第i'列处的元素，1≤i≤L，1≤i'≤L；M_L中的第i行用M_L_i表示，M_L_i中M_L_i,i＝0，假设除了M_L_i,i，最小的元素为M_L_i,i'，将视频图像帧矢量V_i从V中移除，则视频图像帧V_i的大小为M_L_i,i'的信息量随之丢失，视频图像帧V_i的信息量将由最接近它的视频图像帧矢量V_i'表示；

即：contribution(i)＝min{M_L_i,1,M_L_i,2,…,M_L_i,i',…M_L_i,L} (4)

第五步、删除V中的信息量贡献最小的冗余视频图像帧，具体步骤如下：

5.1设定需要从V中保留的视频图像帧数K，1≤K≤L；

5.2计算V的信息量分布矩阵M_L；

5.3定义删除的视频图像帧矢量集合

5.4确定最小贡献量，具体步骤如下：

5.4.1定义变量i＝1；

5.4.2定义变量L'＝L；

5.4.3根据式(4)计算contribution(i)；

5.4.4i＝i+1；

5.4.5若i≤L，转5.4.3，否则，转5.4.6；

令

contribution＝min{contribution(1),contribution(2),…contribution(ii),…,contribution(L')}，

contribution表示V₁,V₂,…,V_ii,…V_L'对V的最小信息贡献量，1≤ii≤L'，

令g为contribution对应的视频图像帧矢量的编号；

5.5更新V＝V-{V_g}，L'＝L'-1；

5.6更新S＝S+{V_g}；

5.7令num(S)为S中的视频图像帧矢量的数目；

5.8若num(S)＜L-K，转5.4.6；否则，转第六步；

第六步、结束。

2.如权利要求1所述的一种基于信息散度的视频大数据冗余删除方法，其特征在于1.2步所述将V中的V₁,V₂,…,V_i,…V_L进行归一化的具体步骤如下：

1.2.1定义变量i＝1；

1.2.2定义变量j＝1；

1.2.3定义变量sum＝0；

1.2.4执行sum＝sum+v_ij；

1.2.5j＝j+1；

1.2.6若j≤N，转1.2.4，否则，转1.2.7；

1.2.7将V_i中的v_i1,v_i2,…v_ij,…v_iN分别除以sum，得到归一化后的视频图像帧也即得到归一化后的

1.2.8i＝i+1；

1.2.9若i≤L，转1.2.2，否则，归一化结束。

3.如权利要求1所述的一种基于信息散度的视频大数据冗余删除方法，其特征在于5.2步所述计算V的信息量分布矩阵M_L的具体步骤如下：

5.2.1定义变量i＝1；

5.2.2定义变量i'＝1；

5.2.3根据公式(1)计算M_L(V_i||V_i')；

5.2.4根据公式(3)令M_L_i,i'＝M_L(V_i||V_i')；

5.2.5i'＝i'+1；

5.2.6若i'≤L，转5.2.3，否则转5.2.7；

5.2.7i＝i+1；

5.2.8若i≤L，转5.2.2，否则计算结束，得到M_L。