CN110674347B

CN110674347B - 视觉屏蔽双层ap视频摘要生成方法

Info

Publication number: CN110674347B
Application number: CN201910823672.5A
Authority: CN
Inventors: 刘佶鑫; 余丹
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2022-04-01
Anticipated expiration: 2039-09-02
Also published as: CN110674347A

Abstract

本发明公开一种视觉屏蔽双层AP视频摘要生成方法，首先，利用压缩感知技术得到压缩之后的视频，使视频具有视觉屏蔽的效果以保护被监控对象隐私，同时数据量大大缩小；然后，对压缩后的视频提取PHOG特征，对得到的特征经过第一步AP聚类，得到第一阶段的视频摘要；最后，我们对第一阶段的关键帧提取PHOG和Hist融合特征，将融合后的PHOG‑Hist特征进行第二步AP聚类，得到最终的视频摘要。本发明在保护被监控对象隐私的同时大大降低数据量，实现了快速提取关键帧同时兼顾安全监控与隐私保护，具有冗余度低和漏帧少的优势，且计算复杂度低，实时性强，对视觉屏蔽后的视频具有鲁棒性优势。

Description

视觉屏蔽双层AP视频摘要生成方法

技术领域

本发明属于图像处理技术领域，具体涉及一种视觉屏蔽双层AP视频摘要生成方法。

背景技术

近年来，多媒体技术、计算机网络发展迅猛，信息化程度不断提高，传统的信息检索系统己经无法处理这些数量巨大且迅速增长的媒体数据，因此人们迫切需要一种新的自动化的方法来处理、分析和检索网上海量的多媒体数据，尤其是视频数据。视频的流媒体特性使其在处理、分析和内容理解上是最具挑战性的数据类型，基于关键帧提取视频摘要是获取视频基本内容的途径之一。视频的关键帧提取就是用尽可能少的静态图像来最大化地表示出原始视频的主要内容，该主要内容既可以是用户需要重点关注的视频内容，也可以是视频内容前后发生明显变化的部分。视频数据的这种摘要形式可以节省更多的存储空间和阅览时间，这在视频分析、视频压缩和视频检索等许多其他应用中有非常重要的作用。

随着智能家居的兴起与4G、光纤等网络带宽速度的大幅度提高，视频图像的数据量呈几何级的增长态势，针对视频数据，如何对其进行索引从而最终快速准确的进行检索成为迫切的需求。而对于类似于居家环境或网约车等公共场所的监控，不论是被监控的老人或小孩，还是网约车的司机或乘客，都不愿意自己的行为被完全地暴露在监控的视频中，因此，我们在保护被监控对象的人身安全的同时，还要保护被监控对象的隐私。如何做到快速提取关键帧，同时兼顾安全监控与隐私保护，现有的视频摘要技术并没有有效的解决方案。

发明内容

本发明的目的是针对现有技术存在的问题，提供一种视觉屏蔽双层AP视频摘要生成方法，解决部分涉及隐私保护场景下的视频的关键帧提取问题，该方法将视频经过压缩感知技术得到压缩之后的视频，使视频具有视觉屏蔽的效果，以达到保护被监控对象隐私的目的，同时数据量大大缩小，通过双层吸引子传播算法的应用，使得提出的关键帧提取方法具有冗余度低和漏帧少的优势，且计算复杂度低，实时性强，对视觉屏蔽后的视频具有鲁棒性优势。

为实现上述目的，本发明采用的技术方案是：

视觉屏蔽双层AP视频摘要生成方法，包括以下步骤：

步骤1，获取待处理视频；

步骤2，对待处理视频进行视觉屏蔽，得到降维后的视频；

步骤3，对降维后的视频的每一帧提取PHOG特征得到N维特征序列{b₁,b₂,…,b_N}；

步骤4，对N维特征序列{b₁,b₂,…,b_N}进行分组，每N_τ帧为一组，分出S组；

步骤5，采用AP算法对S组特征序列分别聚类，得到第一阶段的S组关键帧；

步骤6，合并S组关键帧，得到第一阶段的关键帧序列；

步骤7，提取第一阶段关键帧的灰度直方图特征，与对应的PHOG特征进行融合得到PHOG-Hist融合特征序列{c₁,c₂,…,c_N1}；

步骤8，采用AP算法对融合特征序列{c₁,c₂,…,c_N1}进行聚类，得到最终的输出视频摘要。

优选地，步骤1进一步包括：随机产生与待处理视频的长和宽一致的观测矩阵，利用观测矩阵对待处理视频的每一帧进行降维。

优选地，步骤5进一步包括：

步骤5.1，对第一组特征序列计算序列之间的相似度矩阵s₁如下：

其中p(i)为聚类点之间的偏好度信息；

步骤5.2，初始化AP算法中的代表度矩阵r(i,j)＝0和吸引度矩阵a(i,j)＝0；

步骤5.3，通过迭代产生聚类中心：

r^(t)(i,j)←λr^(t-1)(i,j)+(1-λ){s(i,j)-max_j≠j′[a^t-1(i,j')+s(i,j')]}

j＝arc max{r(i,j)+a(i,j)}时，选择j点为聚类中心，得到τ₁个聚类中心，对应τ₁帧关键帧keyF1＝keyF1_i i∈[1,...,τ₁]；

步骤5.4，对第2组，…，第S组特征序列分别计算序列之间的相似度矩阵s₂，…，s_S，由步骤5.2和步骤5.3得到另外S-1组关键帧keyF2,...,keyFS。

优选地，步骤6进一步包括：

步骤6.1，合并S组关键帧，组成一个N1帧的关键帧序列作为第一阶段得到N1帧的关键帧序列：keyF＝[keyF1,keyF2,...,keyFS]。

优选地，步骤7进一步包括：

步骤7.1，提取第一阶段得到的N1帧关键帧的灰度直方图特征H＝{h₁,h₂,...,h_N1}，获取对应的PHOG特征P＝{p₁,p₂,...,p_N1}；

步骤7.2，分别求出两个特征序列中的特征值的最大值max(H)和max(P)，对步骤7.1中的H和P中的元素进行归一化处理，得到归一化后的灰度直方图特征和PHOG特征：H_norm＝H/max(H)和P_norm＝P/max(P)；

步骤7.3，将归一化后的灰度直方图特征和PHOG特征进行融合得到PHOG-Hist融合特征序列

优选地，步骤8进一步包括：

步骤8.1，采用AP算法对N1维融合特征序列进行聚类，其过程类似于步骤5.1-5.3，得到的聚类中心对应的帧就是最终的输出视频摘要。

与现有技术相比，本发明的有益效果是：本发明针对有隐私保护需求的视频，提出视觉屏蔽双层AP视频摘要生成方法，该方法对视觉屏蔽压缩感知编码后的视频再进行双层吸引子传播聚类，在保护视频中内容隐私的情况下得到输出的关键帧，实现了快速提取关键帧同时兼顾安全监控与隐私保护，该方法具有冗余度低和漏帧少的优势，且计算复杂度低，实时性强，对视觉屏蔽后的视频具有鲁棒性优势。

附图说明

图1为根据实施例的本发明方法的流程示意图；

图2为根据实施例的本发明中图像降维效果的示意图；

图3为根据实施例的本发明视觉屏蔽压缩感知编码的原理示意图。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种视觉屏蔽双层AP视频摘要生成方法，该方法对视觉屏蔽压缩感知编码后的视频再进行双层吸引子传播聚类，在保护视频中内容隐私的情况下得到输出的关键帧，实现了快速提取关键帧同时兼顾安全监控与隐私保护。

作为一种实施方式，如图1所示，本发明方法主要包括两个阶段，视觉屏蔽压缩感知编码阶段与双层吸引子传播提取视频摘要阶段，具体步骤如下：

视觉屏蔽压缩感知编码阶段：

步骤一：获取待处理视频后，利用压缩感知理论对视频的每一帧进行视觉屏蔽，得到CS降维后的视频。

如图2所示，对视频帧作CS降维处理后，人眼已经完全看不清图像内容，在没有先验知识的情况下，我们虽然无法预知图片中的信息，但降维之后的图片依旧保留着原本图片的大量信息，因为帧与帧之间的差异依旧存在。

视觉屏蔽压缩感知编码的原理过程如图3所示。这里取图片的4*4小块举例说明得到二层压缩感知编码后(CS2层)的对应一个像素点的计算过程。其中，字母{a1,…,a16；b1,…,b16；c1,…,c4；d1,…,d4；e1}分别代表对应像素点的像素值，CS0表示进行降维的原始图片的4*4小块，Φ^CS0和Φ^CS1分别为随机生成的与原始层图片和一层压缩感知编码后(CS1层)的图片大小一致的测量矩阵的对应CS0的部分，CS1层图片的像素值由原始层图片与Φ^CS0对应的像素值计算得到，CS2层图片的像素值由CS1层图片与Φ^CS1对应的像素值计算得到，具体计算过程由公式(1)和公式(2)表示。

CS1层图片的像素值计算：

CS2层图片的像素值计算：

e₁＝c₁×d₁+c₂×d₂+c₃×d₃+c₄×d₄ (2)

从图3的举例可以得到一张完整图片的降维过程：首先随机产生一个与图片大小一致的测量矩阵，图片的每4个像素点与测量矩阵对应位置的4个像素点根据公式(1)计算得到CS1层图片对应的像素值，以此类推，得到CS1层图像每一点的像素值；再将CS1层图像作为待降维的图片，随机产生一个与CS1层图片大小一致的测量矩阵，以同样的方式得到CS2层的图片。CS3层及更低维的图片也以相同的方式获取。

对于视频的降维，就是随机产生一个与视频的长和宽一致的观测矩阵，利用该观测矩阵分别将视频的每一帧图片降维到CS1层，得到CS1层的视频；再将CS1层视频作为待降维的视频，随机产生一个与CS1层视频长宽一致的测量矩阵，以同样的方式得到CS2层的视频。CS3层及更低维的视频参考CS1层及CS2层的视频获取方式获得。

双层吸引子传播提取视频摘要阶段：

步骤二：分阶段对视觉屏蔽后的视频提取视频摘要。

第1步，对降维后的视频的每一帧提取PHOG特征得到N维特征序列{b₁,b₂,...,b_N}，对特征序列{b₁,b₂,...,b_N}每N_τ帧为一组，一共分出S组；

第2步，采用AP算法对S组特征序列分别聚类，得到第一阶段的S组关键帧：

先对第一组特征序列计算序列之间的相似度矩阵s₁如公式(3)所示：

其中p(i)为聚类点之间的偏好度信息。

其次，初始化AP算法中的代表度矩阵r(i,j)＝0和吸引度矩阵a(i,j)＝0，通过公式(4)和公式(5)迭代产生聚类中心：

r^(t)(i，j)←λr^(t-1)(i，j)+(1-λ){s(i，j)-max_j≠j′[a^t-1(i，j')+s(i，j (4)

同时，对第2组，…，第S组特征序列分别计算序列之间的相似度矩阵s₂，…，s_S，由AP算法得到另外S-1组关键帧keyF2,...,keyFS。

最后，合并S组关键帧，组成一个N1帧的关键帧序列作为第一阶段得的关键帧序列：keyF＝[keyF1,keyF2,...,keyFS]。

第3步，提取第一阶段关键帧的灰度直方图特征，与对应的PHOG特征进行融合得到PHOG-Hist融合特征序列{c₁,c₂,...,c_N1}：

首先，提取第一阶段得到的N1帧关键帧的灰度直方图特征H＝{h₁,h₂,...,h_N1}，获取对应的PHOG特征P＝{p₁,p₂,...,p_N1}；

其次，分别求出两个特征序列中的特征值的最大值max(H)和max(P)，对上一步中的H和P中的元素进行归一化处理，得到归一化后的灰度直方图特征和PHOG特征：H_norm＝H/max(H)和P_norm＝P/max(P)；

最后，将归一化后的灰度直方图特征和PHOG特征进行融合得到PHOG-Hist融合特征序列

第4步，采用AP算法对对融合特征序列{c₁,c₂,...,c_N1}进行AP聚类，由于经过一次聚类后，需要聚类的帧数大大减少，其过程类似于第2步中一组特征序列的聚类过程，只需进行一次AP聚类即可得到最终输出的视频摘要。

本发明的专利点在于步骤一、步骤二。任何对于步骤一、步骤二的使用，都在本发明的保护领域之内。凡是利用本发明说明书以及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

本发明公开了一种视觉屏蔽双层AP视频摘要生成方法。该方法针对视觉屏蔽域的视频数据提出了一种新的关键帧提取算法。首先，本文将视频经过压缩感知技术得到压缩之后的视频，使视频具有视觉屏蔽的效果(保护被监控对象隐私)同时数据量大大缩小。然后，我们对压缩后的视频提取PHOG特征，对得到的特征经过第一步AP聚类，得到第一阶段的视频摘要；最后，我们对第一阶段的关键帧提取PHOG和Hist融合特征，将融合后的PHOG-Hist特征进行第二步AP聚类，得到最终的视频摘要。本文基于压缩感知视觉编码后的视频数据提出的关键帧提取方法具有冗余度低和漏帧少的优势，且计算复杂度低，实时性强，对视觉屏蔽后的视频具有鲁棒性优势。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.视觉屏蔽双层AP视频摘要生成方法，其特征在于，包括以下步骤：

步骤1，获取待处理视频；

步骤2，获取待处理视频后，利用压缩感知理论对视频的每一帧进行视觉屏蔽，得到CS降维后的视频；

对于视频的降维，就是随机产生一个与视频的长和宽一致的观测矩阵，利用该观测矩阵分别将视频的每一帧图片降维到CS1层，得到CS1层的视频；再将CS1层视频作为待降维的视频，随机产生一个与CS1层视频长宽一致的测量矩阵，以同样的方式得到CS2层的视频；CS3层及更低维的视频参考CS1层及CS2层的视频获取方式获得；

步骤6，合并S组关键帧，得到第一阶段的关键帧序列；

2.根据权利要求1所述的视觉屏蔽双层AP视频摘要生成方法，其特征在于，步骤5进一步包括：

其中p(i)为聚类点之间的偏好度信息；

步骤5.3，通过迭代产生聚类中心：

r^(t)(i,j)←λr^(t-1)(i,j)+(1-λ){s(i,j)-max_j≠j'[a^t-1(i,j')+s(i,j')]}

j＝arc max{r(i,j)+a(i,j)}时，选择j点为聚类中心，得到τ₁个聚类中心，对应τ₁帧关键帧keyF1＝keyF1_ii∈[1,...,τ₁]；

3.根据权利要求2所述的视觉屏蔽双层AP视频摘要生成方法，其特征在于，步骤6进一步包括：

4.根据权利要求3所述的视觉屏蔽双层AP视频摘要生成方法，其特征在于，步骤7进一步包括：

5.根据权利要求4所述的视觉屏蔽双层AP视频摘要生成方法，其特征在于，步骤8进一步包括：