CN103974074A

CN103974074A - 一种教育视频与幻灯片同步方法

Info

Publication number: CN103974074A
Application number: CN201410160442.2A
Authority: CN
Inventors: 王斌; 王敏; 郑昱; 高新波; 关钦; 沈钧戈; 牛振兴; 王旭洋
Original assignee: XIDIAN-NINGBO INFORMATION TECHNOLOGY INSTITUTE
Current assignee: XIDIAN-NINGBO INFORMATION TECHNOLOGY INSTITUTE
Priority date: 2014-04-21
Filing date: 2014-04-21
Publication date: 2014-08-06

Abstract

本发明涉及一种教育视频与幻灯片同步方法，其实现步骤是：（1）教育视频解压；（2）幻灯片格式转换；（3）幻灯片区域定位；（4）幻灯片镜头分割；（5）提取关键帧；（6）幻灯片识别。本发明突出了融合边缘和区域信息，图像的纹理信息和空间信息以及多特征融合，更为有效的描述了同步系统，提高了教育视频与幻灯片同步的准确率。通过本发明提供的方法，能将教育视频内出现的幻灯片信息通过单独的播放窗口进行播放显示，并且播放显示的幻灯片内容与时刻与教育视频内出现的幻灯片的内容和时刻保持同步。

Description

一种教育视频与幻灯片同步方法

技术领域

本发明属于图像处理技术领域，更进一步涉及教育视频与幻灯片同步方法。

背景技术

在线学习或网络学习是一种通过应用信息科技和互联网技术进行内容传播和快速学习的方法，随着计算机和网络技术的快速发展，在线学习在远程教育中发挥着越来越重要的作用。其中教育视频能成为在线学习的重要素材，一部分原因要归功于多媒体技术的快速发展，它使得教育视频的制作、存储和传输变得相当简单，容易操作。但在检索和浏览教育视频中，通常会遇到教育视频中的关键信息模糊受损（视频中幻灯片模糊看不清），影响学习效率。

发明内容

本发明所要解决的技术问题是针对上述现有技术提供一种教育视频与幻灯片同步方法，该方法能在教育视频播放的同时，将视频内出现的幻灯片信息通过单独的播放窗口进行播放显示，并且播放显示的幻灯片内容与时刻与教育视频内出现的幻灯片的内容和时刻保持同步。

本发明解决上述技术问题所采用的技术方案为：一种教育视频与幻灯片同步方法，其特征在于：开设两个播放窗口，其中第一播放窗口用于播放教育视频，第二播放窗口用于播放幻灯片，通过如下步骤实现第一播放窗口内教育视频中涉及的幻灯片与第二播放窗口中播放的幻灯片进行同步：

步骤1、教育视频解压：对教育视频进行解压缩，解压缩时每隔1秒提取一个教育视频帧，得到教育视频帧集；

步骤2、原始幻灯片格式转换：将教育视频中播放的原始幻灯片由PPT格式或PDF格式转换为图像格式，每一页原始幻灯片得到一幅原始幻灯片图像，所有原始幻灯片图像集合在一起得到原始幻灯片图像集；

步骤3、幻灯片区域定位：

挑选出教育视频帧集中包含有幻灯片的教育视频帧，将这些包含有幻灯片的教育视频帧从教育视频帧集中分割出来，将分割出来的包含有幻灯片的教育视频帧称为幻灯片教育视频帧，找到幻灯片教育视频帧中幻灯片所有的区域，将幻灯片所在的区域另存为图像格式，将这些幻灯片教育视频帧中的幻灯片所在区域的图像称为待同步幻灯片图像；

步骤4、幻灯片镜头分割：根据步骤3得到的待同步幻灯片图像，将教育视频帧集中的幻灯片教育视频帧分割成多个镜头；

步骤5、提取关键帧：对已经分割的幻灯片镜头进行关键帧提取，即每一个幻灯片镜头下，提取其中待同步幻灯片图像内容不同的幻灯片教育视频帧，将这些提取出的待同步幻灯片图像内容不同的幻灯片教育视频帧称为关键幻灯片教育视频帧

步骤6、在原始幻灯片图像集中对关键幻灯片教育视频帧中的待同步幻灯片图像进行图像检索，找出相似度最高的原始幻灯片图像，然后在关键幻灯片教育视频帧播放的时刻，将找出的与该关键幻灯片教育视频帧中待同步幻灯片图像相似度最高的原始幻灯片图像在第二播放窗口内进行播放显示。

作为改进，所述t取值为0.5～1.5。

再改进，所述步骤3通过如下步骤对教育视频帧中幻灯片的区域进行定位：

步骤3-1、将每一幅教育视频帧转化到HSV颜色空间，获得其中的亮度通道；

步骤3-2、采用最大类间方差法，按照每一幅教育视频帧的灰度特性，将每一幅教育视频帧中幻灯片区域和背景区域区分开，如果无法区分幻灯片区域和背景区域，则该教育视频帧不包含有幻灯片，如果能区分幻灯片区域和背景区域，则该教育视频帧包含有幻灯片，该教育视频帧即为幻灯片教育视频帧，然后获取该幻灯片教育视频帧中的幻灯片区域；

步骤3-3、对步骤3-2中得到的幻灯片区域的二值图像进行开运算和孔洞填充操作，将幻灯片区域从背景中分离出来成为一个独立的区域，从而获得幻灯片区域的初始位置；

步骤3-4、利用Canny边缘检测算法，对步骤3-3中得到在初始位置内的幻灯片图像进行降噪，寻找初始位置内的幻灯片图像中的亮度梯度，在初始位置内的幻灯片图像中跟踪边缘，得到幻灯片区域的待确认的中间过渡位置；

步骤3-5、利用Hough变换的不受图像旋转特性，对在待确认的中间过渡位置内的幻灯片图像做两次Hough变换，分别检测出幻灯片图像处在水平位置上的线段和处在竖直位置上的线段；

步骤3-6，根据步骤3-4检测出的水平线段和竖直线段，组合出多个矩形，将多个矩形进行合并，合并后的矩形就是幻灯片所在的区域。

再改进，所述步骤4通过如下步骤对幻灯片镜头进行分割：

步骤4-1、将步骤3定位出来的待同步幻灯片图像进行分层网格划分，第0层为待同步幻灯片图像的原图像，第1层将待同步幻灯片图像的原图像以均匀网格划分为4块图像，第2层将待同步幻灯片图像的原图像以均匀网格划分为16块图像；

步骤4-2、提取每层中每块图像的LBP特征，得到对应的LBP图像，然后分别生成每一层待同步幻灯片图像的LBP图像直方图；

步骤4-3，将待同步幻灯片图像各层的LBP图像直方图进行加权处理，第0层权值为1/4，第1层的权值为1/4，第1层的权值为1/2，然后将三个加权处理后的LBP图像直方图进行线性连接，得到一个1×(256×21)=1×5376的直方图向量，本步骤中，加权处理的含义为相乘；

步骤4-4，按照曼哈顿距离的计算公式，计算相邻两帧待同步幻灯片图像的相似度；

D_{k, k + 1} = Σ_{i = 1}^{N} | H_{k} (i) - H_{k + 1} (i) |

其中H_k(i)为第k帧待同步幻灯片图像的直方图向量，H_k+1(i)为第k+1帧待同步幻灯片图像的直方图向量，D_k,k+1为第k帧待同步幻灯片图像和第k+1帧待同步幻灯片图像的直方图差分，N为直方图的维数；

第k帧待同步幻灯片图像和第k+1帧待同步幻灯片图像的相似度越大，第k帧待同步幻灯片图像和第k+1帧待同步幻灯片图像的直方图差分越小；

步骤4-5，采用基于滑动窗的自适应阈值结合全局阈值来判定教育视频镜头的边界，滑动窗口长度为5，自适应阈值为m+s，镜头记作Slide_Shots。

μ = \frac{1}{2 N + 1} Σ_{i = k - N}^{k + N} D_{i, i + 1}

σ = \sqrt{\frac{2}{2 N + 1} Σ_{i = k - N}^{k + N} {(D_{i, i + 1} - μ)}^{2}}

其中μ,σ为滑动窗口中帧间直方图差分的均值和标准差；D_i,i+1为第i帧待同步幻灯片图像和第i+1帧待同步幻灯片图像的直方图差分；

找出了教育视频镜头的边界，就能得到不同的幻灯片镜头，因此就能将教育视频帧集中的幻灯片教育视频帧分割成多个镜头，这里，每一个幻灯片镜头包含一张或多张连续的幻灯片教育视频帧。

再改进，所述步骤6包括如下步骤：

步骤6-1、分别对关键幻灯片教育视频帧中的待同步幻灯片图像提取SIFT特征，分别对应得到待同步幻灯片图像的SIFT特征向量；

步骤6-2、对原始幻灯片图像集中的原始幻灯片提取SIFT特征，得到原始幻灯片的SIFT特征向量数据库；

步骤6-3、按照下式，对关键幻灯片教育视频帧中的待同步幻灯片图像和每一张原始幻灯片的进行SIFT特征相似度计算,记作SIFT_Similarity：

SIFT_Similarity = d (f_{i}^{(a)} f_{j}^{(a)}) = \sqrt{Σ_{k = 1}^{128} {(f_{i}^{(a)} (k) - f_{j}^{b} (k))}^{2}}

其中，SIFT_Similarity表示关键幻灯片教育视频帧中的待同步幻灯片图像和每一张原始幻灯片图像的SIFT特征相似度，f_i ^(a)∈F_a，f_i ^(b)∈F_b,f_a表示的是关键幻灯片教育视频帧中的待同步幻灯片图像的SIFT特征向量，F_b表示的是原始幻灯片图像的SIFT特征向量，每一个图像含有128维的SIFT特征向量；

步骤6-4，按照下式，对关键幻灯片教育视频帧中的待同步幻灯片图像和每一张原始幻灯片图像进行基于边缘变化率的相似度计算，记作ECR_Similarity：

ECR_Similarity=ECR=max ({ECR}_{A}^{OUT}, {ECR}_{B}^{IN}) =max (\frac{Σ {EC}_{A OUT}}{Σ E_{A}}, \frac{Σ {EC}_{B}^{IN}}{Σ E_{B}})

其中，ECR_Similarity示关键幻灯片教育视频帧中的待同步幻灯片图像和每一张原始幻灯片的基于边缘变化率的相似度，其中∑E_A表示关键幻灯片教育视频帧中的待同步幻灯片图像中像素值为1的像素的总数目，∑E_B表示原始幻灯片图像中像素值为1的像素的总数目，表示关键幻灯片教育视频帧中的待同步幻灯片图像膨胀后获得的边缘变化图像中像素值为1的像素的总数目，表示原始幻灯片图像膨胀后获得的边缘图像中像素值为1的像素的总数目；

步骤6-5，按照下式，对关键幻灯片教育视频帧中的待同步幻灯片图像和每一张原始幻灯片图像进行基于投影法的相似度计算，记作PP_Similarity：

PP_Similarity=1-Distance ({UV}_{A'} {UV}_{B}) = Σ_{i = 1}^{M + N} \min {{UV}_{A} (i), {UV}_{B} (i)} / Σ_{i = 1}^{M + N} {UV}_{A} (i)

其中：UV_A表示的是关键幻灯片教育视频帧中的待同步幻灯片图像的投影向量，UV_A的计算方法为：UV_A=〔U_A,V_A〕/∑DE_A，∑DE_A为关键幻灯片教育视频帧中的待同步幻灯片图像膨胀后获得的边缘图像中像素值为1的像素的总数目，U_A表示关键幻灯片教育视频帧中的待同步幻灯片图像膨胀后获得的边缘图像的行投影向量：V_A表示关键幻灯片教育视频帧中的待同步幻灯片图像膨胀后获得的边缘图像的列投影向量；

UV_B表示的是原始幻灯片图像的投影向量，UV_B=〔U_B,V_B〕/∑DE_B，∑DE_B为原始幻灯片图像膨胀后获得的边缘图像中像素值为1的像素的总数目，U_B表示原始幻灯片图像膨胀后获得的边缘图像的行投影向量，V_B表示原始幻灯片图像膨胀后获得的边缘图像的列投影向量；

M+N表示的是图像的行数和列数之和；

步骤6-6、按照下式，将步骤6-3、6-4、6-5得到三种特征相似度进行融合，作为关键幻灯片教育视频帧中的待同步幻灯片图像和每一张原始幻灯片图像之间的相似度：

Similarity=(ECR_Similarity+PP_Similarity)×SIFT_Similarity

其中，ECR_Similarity∈[0,1]，PP_Similarity∈[0,1]，SIFT_Similarity∈N

步骤6-7，在原始幻灯片图像的SIFT特征向量数据库中，找出与关键幻灯片教育视频帧中的待同步幻灯片图像相似度较高的原始幻灯片图像作为关键幻灯片教育视频帧中的同步幻灯片图像。

与现有技术相比，本发明的优点在于：通过本发明提供的方法，能将教育视频内出现的幻灯片信息通过单独的播放窗口进行播放显示，并且播放显示的幻灯片内容与时刻与教育视频内出现的幻灯片的内容和时刻保持同步。

附图说明

图1为本发明实施例中教育视频与幻灯片同步方法的流程图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提供了一种教育视频与幻灯片同步方法，其开设两个播放窗口，其中第一播放窗口用于播放教育视频，第二播放窗口用于播放幻灯片，同时，通过如下步骤实现第一播放窗口内教育视频中涉及的幻灯片与第二播放窗口中播放的幻灯片进行同步，参见图1所示：

步骤3、幻灯片区域定位：

本步骤中，通过如下详细步骤实现对幻灯片教育视频帧中幻灯片的区域进行定位：

步骤3-3、对步骤3-2中得到的幻灯片区域的二值图像进行开运算和孔洞填充操作，

将幻灯片区域从背景中分离出来成为一个独立的区域，从而获得幻灯片区域的初始位置；

步骤3-6，根据步骤3-4检测出的水平线段和竖直线段，组合出多个矩形，将多个矩形进行合并，合并后的矩形就是幻灯片所在的区域；

本步骤的定位方法融合边缘和区域信息，克服了现有技术中背景像素对基于边缘定位方法干扰以及存在遮挡时基于边缘定位方法过度收缩的缺点，使得本发明具有更好的定位效果；

本步骤中，又是通过如下步骤对教育视频中涉及到幻灯片的镜头进行分割：

D_{k, k + 1} = Σ_{i = 1}^{N} | H_{k} (i) - H_{k + 1} (i) |

μ = \frac{1}{2 N + 1} Σ_{i = k - N}^{k + N} D_{i, i + 1}

σ = \sqrt{\frac{2}{2 N + 1} Σ_{i = k - N}^{k + N} {(D_{i, i + 1} - μ)}^{2}}

其中μ,σ为滑动窗口中帧间直方图差分的均值和标准差；,为第i帧待同步幻灯片图像和第i+1帧待同步幻灯片图像的直方图差分；

找出了教育视频镜头的边界，就能得到不同的幻灯片镜头，因此就能将教育视频帧集中的幻灯片教育视频帧分割成多个镜头，这里，每一个幻灯片镜头，可能包含一张或多张连续的幻灯片教育视频帧；

本步骤4-5中应用的技术为常规技术，其中的参数全局阈值的作用是用来粗略的进行镜头的划分，滤掉一些伪镜头边界，全局阈值的选取方法很多，一般是取待同步幻灯片图像的平均灰度值；

本步骤利用了基于空间金字塔LBP直方图对幻灯片镜头进行分割，利用了图像的纹理信息和空间信息，克服现有技术中时间复杂度很高的缺点，使得本发明信息更加健全，时间复杂度降低很多，获得较高的查全率和适当的查准率；

步骤5、提取关键帧：对已经分割的幻灯片镜头进行关键帧提取，即每一个幻灯片镜头下，提取其中待同步幻灯片图像内容不同的幻灯片教育视频帧，将这些提取出的待同步幻灯片图像内容不同的幻灯片教育视频帧称为关键幻灯片教育视频帧；

步骤6、在原始幻灯片图像集中对关键幻灯片教育视频帧中的待同步幻灯片图像进行图像检索，找出相似度最高的原始幻灯片图像，然后在关键幻灯片教育视频帧播放的时刻，将找出的与该关键幻灯片教育视频帧中待同步幻灯片图像相似度最高的原始幻灯片图像在第二播放窗口内进行播放显示；

本步骤中，又是通过如下步骤找出与关键幻灯片教育视频帧中的待同步幻灯片图像相似度最高的原始幻灯片图像：

SIFT_Similarity = d (f_{i}^{(a)} f_{j}^{(a)}) = \sqrt{Σ_{k = 1}^{128} {(f_{i}^{(a)} (k) - f_{j}^{b} (k))}^{2}}

ECR_Similarity=ECR=max ({ECR}_{A}^{OUT}, {ECR}_{B}^{IN}) =max (\frac{Σ {EC}_{A OUT}}{Σ E_{A}}, \frac{Σ {EC}_{B}^{IN}}{Σ E_{B}})

PP_Similarity=1-Distance ({UV}_{A'} {UV}_{B}) = Σ_{i = 1}^{M + N} \min {{UV}_{A} (i), {UV}_{B} (i)} / Σ_{i = 1}^{M + N} {UV}_{A} (i)

M+N表示的是图像的行数和列数之和；

Similarity=(ECR_Similarity+PP_Similarity)×SIFT_Similarity其中，ECR_Similarity∈[0,1]，PP_Similarity∈[0,1]，SIFT_Similarity∈N

步骤6-7，在原始幻灯片图像的SIFT特征向量数据库中，找出与关键幻灯片教育视频帧中的待同步幻灯片图像相似度较高的原始幻灯片图像作为关键幻灯片教育视频帧中的同步幻灯片图像；

本步骤融合了多特征融合对待同步幻灯片图像进行识别，克服了现有技术中基于特征识别方法中准确度不高缺点，使得本发明具有更好的识别准确率。

Claims

1.一种教育视频与幻灯片同步方法，其特征在于：开设两个播放窗口，其中第一播放窗口用于播放教育视频，第二播放窗口用于播放幻灯片，通过如下步骤实现第一播放窗口内教育视频中涉及的幻灯片与第二播放窗口中播放的幻灯片进行同步：

步骤3、幻灯片区域定位：

2.根据权利要求1所述的教育视频与幻灯片同步方法，其特征在于：所述t取值为0.5～1.5。

3.根据权利要求1所述的教育视频与幻灯片同步方法，其特征在于：所述步骤3通过如下步骤对教育视频帧中幻灯片的区域进行定位：

4.根据权利要求1所述的教育视频与幻灯片同步方法，其特征在于：所述步骤4通过如下步骤对幻灯片镜头进行分割：

D_{k, k + 1} = Σ_{i = 1}^{N} | H_{k} (i) - H_{k + 1} (i) |

μ = \frac{1}{2 N + 1} Σ_{i = k - N}^{k + N} D_{i, i + 1}

σ = \sqrt{\frac{2}{2 N + 1} Σ_{i = k - N}^{k + N} {(D_{i, i + 1} - μ)}^{2}}

其中μ,σ为滑动窗口中帧间直方图差分的均值和标准差；D_i,i+1为第i帧待同步幻灯片图像和第i+1帧待同步幻灯片图像的直方图差分；全局阈值取待同步幻灯片图像的平均灰度值；

5.根据权利要求1所述的教育视频与幻灯片同步方法，其特征在于：所述步骤6包括如下步骤：

SIFT_Similarity = d (f_{i}^{(a)} f_{j}^{(a)}) = \sqrt{Σ_{k = 1}^{128} {(f_{i}^{(a)} (k) - f_{j}^{b} (k))}^{2}}

其中，SIFT_Similarity表示关键幻灯片教育视频帧中的待同步幻灯片图像和每一张原始幻灯片图像的SIFT特征相似度，f_i ^(a)∈F_a，f_j ^(b)∈F_b,F_a表示的是关键幻灯片教育视频帧中的待同步幻灯片图像的SIFT特征向量，F_b表示的是原始幻灯片图像的SIFT特征向量，每一个图像含有128维的SIFT特征向量；

ECR_Similarity=ECR=max ({ECR}_{A}^{OUT}, {ECR}_{B}^{IN}) =max (\frac{Σ {EC}_{A OUT}}{Σ E_{A}}, \frac{Σ {EC}_{B}^{IN}}{Σ E_{B}})

PP_Similarity=1-Distance ({UV}_{A'} {UV}_{B}) = Σ_{i = 1}^{M + N} \min {{UV}_{A} (i), {UV}_{B} (i)} / Σ_{i = 1}^{M + N} {UV}_{A} (i)

其中：UV_A表示的是关键幻灯片教育视频帧中的待同步幻灯片图像的投影向量，UV_A的计算方法为：UV_A=〔U_A，V_A〕/∑DE_A，∑DE_A为关键幻灯片教育视频帧中的待同步幻灯片图像膨胀后获得的边缘图像中像素值为1的像素的总数目，U_A表示关键幻灯片教育视频帧中的待同步幻灯片图像膨胀后获得的边缘图像的行投影向量：V_A表示关键幻灯片教育视频帧中的待同步幻灯片图像膨胀后获得的边缘图像的列投影向量；

M+N表示的是图像的行数和列数之和；

Similarity=(ECR_Similarity+PP_Similarity)×SIFT_Similarity

其中，ECR_Similarity∈[0,1]，PP_Similarity∈[0,1]，SIFT_Similarity∈N

步骤6-7、在原始幻灯片图像的SIFT特征向量数据库中，找出与关键幻灯片教育视频帧中的待同步幻灯片图像相似度较高的原始幻灯片图像作为关键幻灯片教育视频帧中的同步幻灯片图像。