CN111104913A

CN111104913A - 一种基于结构及相似度的视频提取ppt方法

Info

Publication number: CN111104913A
Application number: CN201911335327.3A
Authority: CN
Inventors: 郑茜颖; 邱建滨; 陈伊涵; 王帅; 曾青耀; 魏海云; 邱纯乾
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-05
Anticipated expiration: 2039-12-23
Also published as: CN111104913B

Abstract

本发明涉及一种基于结构及相似度的视频提取PPT方法，首先，采集视频的第一帧图像；对帧图像进行颜色空间转换、高斯滤波、膨胀、Canny边缘检测、轮廓检测，找到其中的目标区域；然后，利用多边形拟合、透视变换对目标区域进行处理，将目标区域转化为矩形；相隔2秒在视频中再取新帧，重复上述的操作，获取第二图的PPT目标区域；最后，对两PPT图片进行相似度比较和差异度比较，接着留下第二幅PPT图，重复执行上述操作直至视频结束；对所有保存的图片进行再裁剪和时间序列筛选处理，以PDF文件形式保存。本发明提供一种从视频中简单、快速提取PPT内容图片并且以PDF文件形式保存的方法。

Description

一种基于结构及相似度的视频提取PPT方法

技术领域

本发明涉及图像处理技术领域，特别是一种基于结构及相似度的视频提取PPT方法。

背景技术

Microsoft Office PowerPoint，是微软公司的演示文稿软件，功能强大，应用广泛。在当今信息化时代中，随着应用水平的逐步提高，PPT正成为人们工作生活中的重要组成部分，在各行各业中占据着举足轻重的地位。人们可以通过传统方法，比如U盘拷贝、邮箱传递等，可以获取他们所需要的PPT内容。但是现在在大多数的会议、讲座等场合，人们手里可能只有一份关于会议、讲座现场的视频，无法通过传统方法获取所需要的PPT内容，无法高效且迅速地获取所需要的信息，使相关视频的利用率下降。因此需要一种能够从视频中提取所需要的PPT内容并合理存放，这样才能够有效的整理好讲座现场的视频，深化知识的应用。

目前从视频中提取PPT存在以下几个难点问题：如何判断提取的PPT内容图片是否属于相同页，如何判断PPT区域被遮挡，不进行提取操作，若存在PPT换页动画情况下该如何进行提取操作。

发明内容

有鉴于此，本发明的目的是提供一种基于结构及相似度的视频提取PPT方法，要通过对帧图像进行预处理、多层次的比较操作，完成从视频中精确定位并提取PPT内容图片的目标，并将其以PDF文件形式保存，便于用户使用。

本发明采用以下方案实现：一种基于结构及相似度的视频提取PPT方法，包括以下步骤：

步骤S1：通过视频采集设备采集含有PPT内容的视频，并上传到PC端，直接读取视频的长、宽和总帧数，提取视频的第一帧图像，作为起始图像；

步骤S2：对图像依次进行颜色空间转换、高斯滤波、膨胀操作去除干扰边缘和噪声点，然后利用Canny算子对膨胀操作后的图像进行边缘检测，再采用轮廓检测寻找图片中所有可能的轮廓，最后找到其中面积最大的轮廓，即目标区域；

步骤S3：利用多边形拟合和透视变换操作对目标区域进行裁剪和视角矫正，将目标区域转化为矩形；

步骤S4：相隔2秒再次在步骤S1的视频中取一帧视频图像，作为新帧，重复上述步骤S2到步骤S3的操作，获取第二图的PPT目标区域；

步骤S5：对两PPT图片进行相似度比较和差异度比较操作，然后留下第二幅PPT图，重复执行上述步骤S4和步骤S5直至视频结束；

步骤S6：将所有最终得到的PPT内容图片进行再裁剪和时间序列筛选处理，最后以PDF文件形式保存。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：首先通过颜色空间转换将彩色图像转变为灰度图像，用以消除帧图像的背景区域存在的颜色信息干扰；接着采用高斯滤波的方式对图像冗余的轮廓信息进行滤除；然后采用形态学膨胀操作扩张图像中的高亮部分，缩小黑暗部分的面积；最后对图像进行Canny边缘检测，找到图像中物体的真实边缘；

步骤S22：利用轮廓检测对边缘检测结果进行拓扑分析，找到其中所有可能的最外层轮廓而忽略轮廓中的孔边界，最后提取所有可能轮廓中面积最大的轮廓作为PPT目标区域。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：通过对目标区域进行多边形拟合，用以减少目标区域轮廓点集中的点的数量；

步骤S32：对拟合结果以外的图像进行裁剪处理，只留下目标区域；将多边形拟合结果的四个顶点作为透视变换的四个原始点，变换到四个规定点上，使目标区域转化矩形。

进一步地，所述步骤S5具体包括以下步骤：

步骤S51：通过结构相似性(SSIM)来衡量两张图片是否为相似图片，结构相似性的范围为0到1；若结构相似性小于阈值，则继续进行差异度比较处理，若结构相似性大于阈值，则说明两张图片为相似图片，不进行差异度比较、保存处理；给定两个图像x和y，两张图像的结构相似性按照以下方式求出：

其中μ_x为x的平均值，μ_y为y的平均值，

是x的方差，

是y的方差，σ_xy是x和y的协方差，c₁＝(k₁L)²，c₂＝(k₂L)²是用来维持稳定的常数，L是像素值的动态范围，k₁＝0.01，k₂＝0.03；

步骤S52：将两张PPT图片利用结构相似性(SSIM)计算它们的结构差距图，并且在新帧所对应的PPT图片中用红色矩形框将两者的结构差距框出，计算所有矩形框的总面积(不重复的)占据PPT图片总面积的比例，若大于所设定的阈值，则表明二者结构差距过大，应认为是不同页的PPT内容，故保存旧帧对应的PPT图片，且此时若新帧是视频的最后一帧时，也同时保存其对应的PPT图片；若小于所设定的阈值，则表明二者结构差距不大，应认为是同页的PPT内容，故不保存旧帧对应的PPT图片，且此时若新帧是视频的最后一帧时，保存新帧对应的PPT图片；

步骤S53：以视频的总帧数作为判断视频结束的约束条件，视频总帧数降低到0时证明本视频结束；每次在读取新帧之前将视频总帧数减去2秒所对应的帧数，若视频总帧数小于2秒所对应的帧数，直接将视频的最后一帧图像作为新帧，视频总帧数置为0。

进一步地，所述步骤S6具体包括以下步骤：

步骤S61：对图像的四周用黑色边框进行图片扩展，然后按顺序进行图像灰度化、高斯滤波、膨胀、Canny边缘检测、轮廓检测、多边形拟合，最后将拟合区域以外的图像进行裁剪，只保留拟合区域的图像；最后通过透视变换获得PPT图片；

步骤S62：比较相邻两张PPT图片对应时间序列的间隔与所设置的时间间隔阈值，若前后两张PPT图片对应时间序列的间隔小于时间间隔阈值，那么将相邻两张PPT图片中的后一张去除，只保留前一张PPT图片；以此规则按顺序检查所有相邻PPT图片的时间序列间隔，完成异常PPT图片的排除，同时把时间序列加入图片中，所有提取结果以一个PDF文件形式保存。

与现有技术相比，本发明具有以下有益效果：

本发明通过对帧图像进行预处理操作和多次比较实现从视频中提取PPT内容图片。可以很好辨别PPT内容是否属于不同页的情况，并通过相应处理从视频中得到不同页的PPT内容。通过本发明，人们能够从会议、讲座现场以及课堂教学现场的视频之中高效且迅速地提取所需要的PPT内容并合理存放，使得相关视频利用率提升，增加了学习效率，深化知识的应用。

附图说明

图1为本发明实施例的流程框图。

图2为本发明实施例的经过颜色空间转换后的图像。

图3为本发明实施例的经过Canny算子边缘检测的图像。

图4为本发明实施例的经过透视变换操作后的图像。

图5为本发明实施例的经过再裁剪处理的图像。

图6为本发明实施例的有遮挡物时的图像。

图7为本发明实施例的为具有PPT换页动画的图像。

图8为本发明实施例的具有该页PPT开始时间的图像。

图9为本发明实施例的同页PPT内容判断图；其中，图9(a)为同页PPT前一帧图像，图9(b)为同一页PPT后一帧图像，图9(c)为同页两帧图像的结构差异图，图9(d)不同页PPT前一帧图像，图9(e)为不同页PPT后一帧图像，图9(f)为不同页PPT的结构差异图。

图10为本发明实施例的PDF文件形式保存的图像。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供一种基于结构及相似度的视频提取PPT方法，

通过对视频间隔取帧进行提取、比较，利用Canny边缘检测、轮廓检测等预处理定位PPT区域，接着通过多边形拟合、透视变换提取PPT内容图片，最后通过再裁剪和筛选操作去除黑色边框和异常PPT图片，并将每页PPT在视频中首次出现的时间标于图片右下角。

包括以下步骤：

步骤S1：通过手机或者其他视频采集设备采集含有PPT内容的视频，并上传到PC端，直接读取视频的长、宽和总帧数，提取视频的第一帧图像，作为起始图像；

较佳的，在本实施例中，打开手机、相机的录像功能，采集含有PPT内容的视频，在程序中读取视频的总帧数，并将视频的第一帧图像作为起始图像。

在本实施例中，所述步骤S2具体包括以下步骤：

步骤S21：通过颜色空间转换将彩色图形转变为灰度图像，用以消除帧图像的背景区域存在的颜色信息干扰，使图像所含信息量大大减少，大幅减少图像处理的计算量，方便后续计算；接着采用高斯滤波的方式对图像冗余的轮廓信息进行滤除；然后采用形态学膨胀操作扩张图像中的高亮部分，缩小黑暗部分的面积；

最后对图像进行Canny边缘检测，找到图像中物体的真实边缘。

在本实施例中，所述步骤S3具体包括以下步骤：

步骤S31：通过对目标区域进行多边形拟合，用以减少目标区域轮廓点集中的点的数量。

在本实施例中，所述步骤S5具体包括以下步骤：

步骤S51：通过结构相似性(SSIM)来衡量两张图片是否为相似图片，结构相似性的范围为0到1；若结构相似性小于阈值(本实施例中为0.9)，则继续进行差异度比较处理，若结构相似性大于阈值，则说明两张图片为相似图片，不进行差异度比较、保存处理；给定两个图像x和y，两张图像的结构相似性按照以下方式求出：

其中μ_x为x的平均值，μ_y为y的平均值，

是x的方差，

步骤S52：将两张PPT图片利用结构相似性(SSIM)计算它们的结构差距图，并且在新帧所对应的PPT图片中用红色矩形框将两者的结构差距框出，计算所有矩形框的总面积(不重复的)占据PPT图片总面积的比例，若大于所设定的阈值(本实施例为0.6)，则表明二者结构差距过大，应认为是不同页的PPT内容，故保存旧帧对应的PPT图片，且此时若新帧是视频的最后一帧时，也同时保存其对应的PPT图片；若小于所设定的阈值，则表明二者结构差距不大，应认为是同页的PPT内容，故不保存旧帧对应的PPT图片，且此时若新帧是视频的最后一帧时，保存新帧对应的PPT图片；

在本实施例中，所述步骤S6具体包括以下步骤：

步骤S62：比较相邻两张PPT图片对应时间序列的间隔与所设置的时间间隔阈值(本实施例为2秒)，若前后两张PPT图片对应时间序列的间隔小于时间间隔阈值，那么将相邻两张PPT图片中的后一张去除，只保留前一张PPT图片；以此规则按顺序检查所有相邻PPT图片的时间序列间隔，完成异常PPT图片的排除，同时把时间序列加入图片中，所有提取结果以一个PDF文件形式保存。

较佳的，在本实施例中，图2到图3是帧图像经过步骤2的处理得到的，分别对应颜色空间转换、Canny边缘检测的处理方法。可以由结果看出，经过预处理可以消除背景颜色的影响，在帧图像中有效的检测出PPT区域边缘。

手机拍摄的角度不一定正对PPT区域，如图2所示。故本实例首先对得到的目标区域进行多边形拟合降低轮廓点集中点的数量，接着将多边形拟合结果的四个顶点作为透视变换的四个原始点，并将其变换到四个规定点上，以此消除由于拍摄角度不垂直带来的影响，如图4所示。利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，保持承影面上投影几何图形不变。

在图4中还含有一定的黑色边框，故在本实例中将该图片进行再裁剪操作，目的去除这些黑色边框且不损失PPT内容。首先对图像的四周用黑色边框进行图像扩展，接着按顺序进行图像灰度化、高斯滤波、膨胀、Canny边缘检测、轮廓检测、多边形拟合，最后将拟合区域以外的图像进行裁剪，只保留拟合区域的图像。最后通过透视变换获得PPT图片，如图5所示；

采用步骤3处理过程的另一优点是：可以在PPT区域遭到遮挡时有效的识别，从而不进行任何提取操作。当有遮挡物进入PPT区域并遮挡了一部分内容时，如图6所示。对其经过Canny边缘检测、轮廓检测，将提取得到的目标区域进行多边形拟合，得到的拟合结果是含有不止4个点的点集，表明此时的PPT区域可能遭到了物体的遮挡，不对其进行操作并重新取帧。

通过比较相邻两张PPT对应时间序列的间隔与我们所设置的时间间隔阈值(2秒)，来判断是否存在图7所示的动画情况，若前后两张PPT对应时间序列的间隔小于时间间隔阈值，则说明出现了如图所示的异常情况，那么将相邻两张PPT图片中的后一张去除，只保留前一张PPT图片。以此规则按顺序检查所有相邻PPT图片的时间序列间隔，完成具有动画的PPT图片排除。

本实例还提供PPT图片的第一次在视频中出现的时间，如图8所示。将经过筛选处理后的相邻两张PPT图片的时间进行错位，前一张所对应的时间作为后一张的开始时间，并标于后一张PPT图片的右下角，而直接将第一张PPT图片的时间设置为0。

本实例在相似度的基础上，再使用差异度比较来判别两张图片是否属于同一张PPT，如图9所示。用红色矩形框将两者的结构差距框出，计算所有矩形框的总面积(不重复的)占据PPT图像总面积的比例。若小于所设定的阈值，则表明二者结构差距不大，应认为是同页的PPT内容，如图9(a)～(c)；若大于所设定的阈值，则表明二者结构差距过大，应认为是不同页的PPT内容，如图9(d)～(f)。最终结果以PDF文件形式保存，如图10所示。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于结构及相似度的视频提取PPT方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于结构及相似度的视频提取PPT方法，其特征在于：所述步骤S2具体包括以下步骤：

3.根据权利要求1所述的一种基于结构及相似度的视频提取PPT方法，其特征在于：所述步骤S3具体包括以下步骤：

4.根据权利要求1所述的一种基于结构及相似度的视频提取PPT方法，其特征在于：所述步骤S5具体包括以下步骤：

步骤S51：通过结构相似性来衡量两张图片是否为相似图片，结构相似性的范围为0到1；若结构相似性小于阈值，则继续进行差异度比较处理，若结构相似性大于阈值，则说明两张图片为相似图片，不进行差异度比较、保存处理；给定两个图像x和y，两张图像的结构相似性按照以下方式求出：

其中μ_x为x的平均值，μ_y为y的平均值，

是x的方差，

步骤S52：将两张PPT图片利用结构相似度计算它们的结构差距图，并且在新帧所对应的PPT图片中用红色矩形框将两者的结构差距框出，计算所有矩形框的总面积占据PPT图片总面积的比例，若大于所设定的阈值，则表明二者结构差距过大，应认为是不同页的PPT内容，故保存旧帧对应的PPT图片，且此时若新帧是视频的最后一帧时，也同时保存其对应的PPT图片；若小于所设定的阈值，则表明二者结构差距不大，应认为是同页的PPT内容，故不保存旧帧对应的PPT图片，且此时若新帧是视频的最后一帧时，保存新帧对应的PPT图片；

5.根据权利要求1所述的一种基于结构及相似度的视频提取PPT方法，其特征在于：所述步骤S6具体包括以下步骤：