CN113706401B

CN113706401B - 一种基于手机摄像头的幻灯片自动拍摄及智能剪辑方法

Info

Publication number: CN113706401B
Application number: CN202110758340.0A
Authority: CN
Inventors: 宋凤义; 张士坤; 葛天翼; 钱征宇
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2024-05-10
Anticipated expiration: 2041-07-05
Also published as: CN113706401A

Abstract

本发明公开了一种幻灯片自动拍摄及智能剪辑方法，主要功能模块包括：幻灯片区域精准推荐及图像质量提升技术，以及基于幻灯片内容差异分析的智能剪辑技术。包括如下步骤：自动拍摄过程：(1)基于图像内容理解和图像处理的幻灯片区域多候选推荐；(2)融入用户反馈信息的幻灯片区域精准推荐；(3)幻灯片区域的图像质量提升，包括：几何校准、颜色校准、对比度校准。智能剪辑过程：(4)幻灯片冗余判定，包括：新幻灯片判定、同一张幻灯片中的动态局部区域判定；(5)智能整合，包括：多张幻灯片的连续拼接，同一张幻灯片中的动态局部区域的动画合成。上述技术为用户提供了一种无人工干预、非主动配合的高质量幻灯片会议记录自动化技术方案。

Description

一种基于手机摄像头的幻灯片自动拍摄及智能剪辑方法

技术领域

本发明涉及计算机视觉技术领域，主要为对幻灯片图像的处理，具体涉及一种基于手机摄像头的幻灯片自动拍摄及智能剪辑方法。

背景技术

诸如智能手机的手持数字设备广泛普及，随之的软件配套也不断丰富和完善。基于手机摄像头的拍摄技术希望能够具有一定扫描意义上的功能，具有传统扫描设备难以匹敌的便利性，成为人们工作学习中的重要需求。这种基于移动数字终端的拍摄扫描技术也扩展了“拍摄和扫描”概念的内涵，比如，本发明中所关注的幻灯片自动拍摄及剪辑技术，也会从一个新的角度来定义该特定场景下的拍摄和扫描的概念。幻灯片自动拍摄及剪辑技术预设功能为：能够基于手机摄像头对在自由场景下呈现的幻灯片画面，能够非人工干预地进行幻灯片核心区域的拍摄及幻灯片播放动画的智能剪辑，最终形成一个精简地幻灯片记录文件。

实现这些预设功能的关键在于幻灯片这一显著区域的自动检测技术、幻灯片图像内容分析技术、图像画质增强技术，以及幻灯片差异化分析及编辑，利用这些技术可以从照片中自动择取幻灯片区域，并通过相似度对比辨别不同页幻灯片以及整合幻灯片内容。最终实现对幻灯片的自动拍摄及编辑。

发明内容

本发明所要解决的技术问题在于，提供一种融入用户反馈的从照片中提取出目标区域的方法，可以对幻灯片图像进行差异分析的手段以及将所拍摄到的幻灯片内容进行整合的方式。

为解决上述技术问题，本发明基于手机摄像头的幻灯片自动拍摄及智能剪辑方法，包括如下步骤：

1)自动拍摄过程：

(1)基于图像内容理解和图像处理的幻灯片区域多候选推荐；

(2)融入用户反馈信息的幻灯片区域精准推荐；

(3)幻灯片区域的图像质量提升，包括：几何校准、颜色校准、对比度校准。

2)智能剪辑过程：

(4)幻灯片冗余判定，包括：新幻灯片判定、同一张幻灯片中的动态局部区域判定；

(5)智能整合，包括：多张幻灯片的连续拼接，同一张幻灯片中的动态局部区域的动画合成。

步骤(1)中描述的基于图像内容理解和图像处理的幻灯片区域多候选推荐，具体包括如下步骤：

图像内容理解：

①构建基于深度神经网络的端到端学习的幻灯片检测模型，模型输出幻灯片区域的位置框，用于后续处理。

图像处理：

②分析像素的全局对比度，作为区分显著物体与混乱背景的依据，从而实现背景区域排除分析。

③选取使前景和背景类间方差最大的值作为阈值分割图片的前景和背景。

④筛选出图片中所有的闭合轮廓图。

⑤排除掉轮廓图中非四边形以及图像大小不符合预设的闭合轮廓图。

⑥进行最小外包矩形计算，保留包含幻灯片内容的最小矩形图片。

步骤(2)中描述的融入用户反馈信息的幻灯片区域精准推荐，具体包括如下步骤：

①分析用户调整后的候选图片，记录该图片的角度、大小、方向、亮度等要素。

②根据上步记录的要素，构造出符合用户喜好的候选框。

③以改进后的候选框为标准，对候选图片进行精准筛选与推荐。

步骤(3)对图片进行角度校正，得到正方向姿态的候选图片，并推荐给用户。

步骤(4)中描述的幻灯片冗余判定，包括：新幻灯片判定、同一张幻灯片中的动态局部区域判定，具体包括如下步骤：

①对图片中的特征点如拐点或者角点做提取对比，采用欧氏相似度判断是否为同一页幻灯片。

②若判定为同一页幻灯片的不同动画放映效果，则计算结构相似性指数作为区分度标记出差异区域位置，并单独将此差异区域保存。

步骤(5)中描述的智能整合，包括：多张幻灯片的连续拼接，同一张幻灯片中的动态局部区域的动画合成。

基于步骤(4)的判断结果可分为以下情况：

①若为不同页幻灯片，则直接对两张幻灯图片整页拼接。

②若为同页幻灯片的不同动画放映，则利用LaTeX排版系统，将步骤(4)保存的差异区域拼接到同页幻灯片的起始页。

本发明的有益效果为：

1、本发明在候选框选取阶段实现了前景幻灯片与拍摄背景的自动分割，相对有效地防止了在前景和背景边缘处的相互干扰问题，为后续智能整合环节提供高质量的幻灯片检测，提高自动扫描的质量；

2、在整合步骤，将相同幻灯片的动画差异部分整合至一张幻灯片，使得幻灯片内容连贯有序的同时，大大节省了移动数字终端的存储资源。

附图说明

图1为本发明的方法流程示意图。

图2为本发明用于幻灯片显著区域分割的二值化图片。

图3为本发明基于几何校正得到的最终幻灯片区域图。

图4为本发明中用户反馈的目标区域框(虚线框所示)。

图5为本发明基于SSIM方法预测出的差异区域(均用方框标注在内容改变前/后的两图中)，其中，(a)为幻灯片内容改变之前图，(b)图为幻灯片内容改变之后的图。

图6为本发明基于高斯滤波去噪后的差异区域(均用方框标注在内容改变前/后的两图中)，其中，(a)为幻灯片内容改变之前图，(b)图为幻灯片内容改变之后的图。

图7为本发明中基于深度学习方法的差异区域预测模型架构示意图。

图8为本发明基于深度学习方法的差异区域预测结果图。

图9为本发明智能整合流程示意图。

图10为本发明智能整合中差异区域检测结果图，其中，X图和Y图为同一页幻灯片的不同动画放映效果，且Y图比X图多出方框部分的差异区域。

图11为本发明智能整合中截取的差异区域。

图12为本发明智能整合中差异部分拼接后的效果图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

如图1所示，基于手机摄像头的幻灯片自动拍摄及智能剪辑方法，包括以下步骤：

1)自动拍摄过程：

(1)基于图像内容理解和图像处理的幻灯片区域多候选推荐；

(2)融入用户反馈信息的幻灯片区域精准推荐；

2)智能剪辑过程：

1、基于图像内容理解和图像处理的幻灯片区域多候选推荐。采用图像处理方法来寻找候选框，具体步骤如下：

1)基于图像内容理解的幻灯片检测。(11)收集训练样本。(12)标注幻灯片区域框。(13) 构建基于深度神经网络的检测模型。(14)进行模型训练，自动学习出幻灯片高亮区域区别于其他区域的统计特征作为辨识幻灯片与背景区域的差异的依据。(15)给定测试图像，模型预测出幻灯片区域的位置框。本发明基于幻灯片区域的高亮特性，显著区别于图像其它区域内容，因此，采用对象检测的方法获得幻灯片的区域，该方法基于统计特征辨识幻灯片与背景区域的差异，具有较高的鲁棒性，但是敏感度较低，幻灯片预测框不精确，因此后续采用图像处理的方式提高幻灯片预测框精度。

2)基于图像处理的幻灯片区域检测。(21)在(15)输出的位置框的基础之上放大1.2 倍，在放大后的区域内进行后续处理。(22)分析像素的全局对比度，作为区分显著物体与混乱背景的依据，从而实现背景区域排除。(23)遍历计算前景和背景之间的类间方差，选取使得类间方差达到最大的值为阈值进行二值化分割，将图片分为前景和背景两部分。具体实现结果如图2所示。(24)进一步对所得图片进行遍历筛选，排除掉非闭合轮廓。(25)排除掉候选图中的非四边形轮廓，以及大小不符合预设的四边形轮廓。(26)进一步对所保留的图片进行最小外包矩形计算，以此保存包含幻灯片区域的最小四边形候选图。(27)通过计算轮廓图四个顶点的坐标，修正轮廓图的方向。

3)对目标区域进行了几何校正来获取到的最终图像，如图3所示。

2、融入用户反馈信息的幻灯片区域精准推荐；

1)分析用户调整后的候选图片，如图4所示，虚线框是用户微调后的框图，更好地涵盖幻灯片区域，采用模板匹配的方法，把用户调整后的幻灯片区域框作为基本模板，提取该框周围稳定特征的较小邻域作为精准模板，这里假定用户个性化标定的框临近背景和幻灯片内部的两个方向上的较小邻域内的特征比较稳定。在后续拍摄图像帧中，基于基本模板进行幻灯片框的粗筛选，基于精确模板进行精准筛选与推荐。

另一方面，在修正后的区域内，构建上述1中的统计指标，包括对像素对比度，类间方差等信息，作为先验信息，来指导约束上述1步骤中的算法在后续连续帧中的执行。在进行轮廓筛选的步骤时，将用户优化后的推荐框特征考虑在内，优化筛选条件。同时在进行外包矩形计算时也可以将这些特征考虑在内，求取出尽量和用户的推荐框尽量靠近的外包矩形框。

2)筛选轮廓图时特征优化：获取用户进行优化后的推荐框的四个点坐标，利用这四个点坐标进行四边形的构造，在之后的轮廓图筛选中优先去寻找与该四边形最相近的四边形轮廓，将这种轮廓图作为推荐框输出。同样在考虑面积大小时将要求大小改成用户的推荐框的面积大小。

根据上述步骤以改进后的候选框为标准，来影响候选框的构建，以及对候选图片进行精准筛选与推荐，构造出符合用户喜好的候选框。

3、幻灯片冗余判定，包括：新幻灯片判定、同一张幻灯片中的动态局部区域判定；

对推荐的候选框进行相似度对比，假如是同一页幻灯片上的动画放映效果，则幻灯片的前后两张图片的大部分背景区域内容应该是近似的，差异在于动画变化的内容；假如是不同的两张幻灯片，则图片整体都会呈现出较大变化。

基于以上原因，选用尺度不变特征变换方法，对图片中的拐点或者角点做提取对比，通过欧式距离计算特征点间的长度来标记图像差异，最后得出相似度。以70％为阈值，相似度达到70％即可判定为同一页幻灯片，否则归为不同页幻灯片。据此可以判别系列图片是否属于同一页幻灯片：即判断幻灯片图片是同一页幻灯片的不同动画效果，还是属于两页不同的幻灯片。

4、框选出幻灯片图片间的差异区域并返回差异区域内容与差异区域坐标

1)首先对图片进行高斯去噪，在尽量不影响原来差异区域的识别结果的前提下，消除环境因素对差异框选的影响，使框选结果更加准确。相比较伽马矫正只针对亮度的调节，追求更好的人眼视觉效果，然而对算法识别则影响不大。而高斯滤波通过多层模糊与不断地进行平均运算可以消除几乎所有的光照影响，其好处是可以调整模糊层数与计算核数来调整去噪程度，使得具有较大面积的差异区域里不再有噪点，对于分散在其他区域的零散噪点也基本可以去除。图6展示了去噪后的两张图片，基于高斯滤波技术，调整模糊次数和高斯核数，最终很多噪声小点被去除。

2)基于相似度度量指标的差异区域检测。以结构相似性指数(SSIM)为指标，计算两幅幻灯片间的相似度，根据相似度标记出差异区域位置，从而实现差异区域的框选，将差异部分的坐标以及宽与高返回，并单独将此差异区域保存。如图8所示，可以很明显看到许多小方框，是因为拍摄时的光照导致一些光斑，在两张图片比较时，可以看出在幻灯片的差异部分被准确选出，这证明不会影响到差异区域的选择，但是对于无差异区域会造成影响。

3)基于深度模型端到端学习的差异框预测

传统手段在进行差异区域框选前，需要提前对图片进行去噪，基于深度学习的方法可以以端到端的方式进行差异框的直接预测。如图7，给出了该模型的主要架构，输入为576×324 的三通道的两张图片，使用空间金字塔池化层(SPP-NET)替换掉了最后一个池化层，可以使神经网络适应任意尺寸的输入。空间金字塔池化层结构能够产生固定大小的表示,而不关心输入图像的尺寸或比例。金字塔池化对物体形变十分鲁棒。在本问题中可能会涉及到角度带来的变形，利用空间金字塔池化层，可以一方面处理变形，另一方面是能够对生活场景中拍摄的照片直接对齐。在使用图像处理的手段中，对于图片还有额外的规整化比如角度旋转和边缘对齐，但是利用空间金字塔池化层可以免去标准化的复杂过程。图5给出了预测结果。

5、基于差异区域框检测的结果，对拍摄到的幻灯片图片进行智能整合；

智能整合在功能上希望实现对幻灯片信息的高度整合，其核心是整理出简洁准确的幻灯片信息，同时也要保证内容没有遗漏和冗余。在相似度比较与差异区域框选的基础上，进行智能整合，大致流程如图9所示。

1)新幻灯片判断模块。在同一页幻灯片的判断中，若为不同页幻灯片则两张幻灯片均完整保存。

2)动画侦测模块。若为同一页幻灯片的不同动画放映，则依据差异区域标记出的位置框信息，对幻灯片进行动画合成。

3)动画合成模块。对于动画合成模块，目标设定为满足两点要求：实现对于幻灯片内容的整合具有不重复也不遗息，以及实现基于幻灯片内容分析后能准确的将每一个动画信息单元正确整合。

对于第一点要求，当动画侦测模块结果准确，区域内信息不丢失，坐标返回正确的情况下，合成中的内容应该是符合内容不重复且不遗漏这一要求。

对于第二点要求，则需要能依据返回的差异区域内容图片以及坐标信息做准确的整合。一种方法是直接将差异区域拼贴到这一页幻灯片最开始的一张上，这种方法的缺陷是一旦出现动画重叠、变换等复杂问题，则会导致拼接时信息丢失。

另一种方法是使用排版编程语言LaTeX进行灵活地排版。使用语句如下：

\begin{picture}(1,1)

\put(位置信息){\includegraphics[width＝4cm]{图像块插入图片内容}}

\end{picture}

因为算法会返回信息内容的图片以及信息所在的区域坐标，所以在LaTeX中要使用图片信息和区域坐标来更好的拼接出来预期的动画效果，如图10所示。对排版参数中的“相对偏移位置”可以按照差异模块算法返回的坐标进行设定，同时对排版参数中的“插入图片内容”则使用检测出的差异区域的图像块，如图11所示。利用此语句，可以将差异部分的图片直接放入LaTeX中来进行处理。既可以使用LaTeX里的beamer来做幻灯片，也可以直接制作出对应动画信息的文档。对幻灯片内容的拼接整合结果如图12所示。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于手机摄像头的幻灯片自动拍摄及智能剪辑方法，其特征在于：包括如下步骤：

1) 自动拍摄过程：

(1)基于图像内容理解和图像处理的幻灯片区域多候选推荐；

(2)融入用户反馈信息的幻灯片区域精准推荐；

(3)幻灯片区域的图像质量提升，包括：几何校准、颜色校准、对比度校准；

2) 智能剪辑过程：

(5)智能整合，包括：多张幻灯片的连续拼接，同一张幻灯片中的动态局部区域的动画合成；

所述步骤(1)基于图像内容理解和图像处理的幻灯片区域多候选推荐，具体包括如下步骤：

(21) 构建基于深度神经网络的端到端学习的幻灯片检测模型，模型输出幻灯片区域的预测位置框；

(22)在步骤(21)输出的预测位置框基础之上，放大1.2倍，在放大后的区域内，设定梯度较大的点作为边缘提取的主要参照获取边缘特征图；

(23)筛选出图片中所有的闭合轮廓图；

(24)排除掉轮廓图中非四边形以及图像大小不符合预设的闭合轮廓图；

(25)进行最小外包矩形计算，保留包含幻灯片内容的最小矩形图片；

(26)对图片进行几何校正，得到正方向的多个候选图片，并推荐给用户；

所述步骤 (2) 中融入用户反馈信息的幻灯片区域精准推荐，具体包括如下步骤：

(31) 采用模板匹配的方法，把用户调整后的幻灯片区域框作为基本模板；

(32)提取该框周围稳定特征的较小邻域作为精准模板，假定用户个性化标定的框临近背景和幻灯片内部的两个方向上的较小邻域内的特征比较稳定；

(33)在后续拍摄图像帧中，基于基本模板进行幻灯片框的粗筛选，基于精确模板进行精准筛选与推荐；

所述步骤 (4) 中幻灯片冗余判定，包括：新幻灯片判定、同一张幻灯片中的动态局部区域判定，具体包括如下步骤：

(41) 幻灯片的差异分析：对比前后两帧图像中幻灯片区域的差异，预测差异区域；差异分析可以通过两种方式：基于一定的相似度指标的计算方式，以及基于深度神经网络模型的端到端的学习方式，即，在大量的幻灯片图像上学习出的特征空间中进行差异分析，输出幻灯片内容区域及内容新增区域的坐标；

(42)如果相似度达到70%，则认为是一张新的幻灯片；

(43)同时判定内容新增区域是否与前序内容区域是否有交叠，如果有交叠，则认为是同一张幻灯片；

所述步骤 (5) 中智能整合，包括：多张幻灯片的连续拼接，同一张幻灯片中的动态局部区域的动画合成，其基于步骤（4）的判断结果可分为以下情况：

(51)若为不同页幻灯片，则直接对两张幻灯图片整页拼接；

(52)若为同一页幻灯片的多区域间断动态展示，则利用LaTeX排版，将步骤（4）保存的差异区域拼接到同页幻灯片中。