CN108462878B - 基于关键帧和指示符运动模型的教学视频压缩算法 - Google Patents
基于关键帧和指示符运动模型的教学视频压缩算法 Download PDFInfo
- Publication number
- CN108462878B CN108462878B CN201810309591.9A CN201810309591A CN108462878B CN 108462878 B CN108462878 B CN 108462878B CN 201810309591 A CN201810309591 A CN 201810309591A CN 108462878 B CN108462878 B CN 108462878B
- Authority
- CN
- China
- Prior art keywords
- frame
- indicator
- video
- effective
- teaching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/587—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于关键帧和指示符运动模型的教学视频压缩算法,将多媒体教学授课场景中的幻灯投影区域视为教学视频的有效区域,充分利用有效区域图像帧间变化速度慢的特点,同时将鼠标光标和激光笔投映点的运动作为典型的教学指点过程建模,利用变化检测将视频帧分为关键帧、有效帧和冗余帧,利用区域分割、变化检测、指示符检测及建模等技术实现了教学视频压缩。相比现有通用方法,本发明压缩算法在相同PSNR值下可使码率平均降低约80%,且编解码过程满足实时要求,无需额外人工剪辑,可大幅提高在线教学视频的制作与传输效率,同时还可为数码相机提供专门的教学视频录制功能,可大幅降低教学视频的录制对内存空间的占用。
Description
技术领域
本发明属于视频处理技术领域,具体涉及一种基于关键帧和指示符运动模型的教学视频压缩算法。
背景技术
计算机辅助的多媒体教学方式能够展示更丰富更形象的教学内容。计算机技术的高速发展及个人计算机的普及使多媒体教学迅速发展成为当今主流的课堂教学方式。近年来,伴随网络技术的发展兴起的慕课、微课等在线课程正在引发新的教育变革,相比传统课堂,在线课程没有时空局限,极大地扩展了知识的传播速度和范围。在多媒体教学过程中,除了ppt课件的展示,还可能会涉及软件操作、程序调试、教学指点等演示过程,只拷贝ppt课件或录制音频均无法重现完整的教学过程。因此,能够完整真实地记录多媒体教学过程的教学视频成为在线课程的核心资源。采用普通商用DV录制一段分辨率为1280×720、帧率为30fps持续45分钟的教学视频,其文件大小可达2G左右;而且在保证画面清晰度(特别是PPT区域文字的辨识度)前提下,使用常规视频压缩算法取得的压缩比不高。因此,大幅提高压缩比、简化教学视频的处理过程将给在线课程的制作、分享与更新带来更大的便利。
通用视频压缩编码标准的发展可分为三个阶段:以H.261、H.262、MPEG-1、MPEG-2等为代表的第一代视频压缩编码标准,以H.264、MPEG-4、AVS等为代表的第二代视频压缩编码标准,以及以H.265/HEVC为代表的新一代压缩编码标准。基于运动估计的帧间预测编码及变换编码技术的MPEG-4和H.264仍然是当前最常用的视频压缩编码标准。H.265标准在H.264基础上对帧内预测、帧间预测、变换量化以及熵编码等关键技术进行改进,进一步提高了视频压缩效率,平均比特率可节省49.3%,但同时也增加了算法的复杂度,存在实时编码难度大、解码难度大、实现硬件要求较高等问题,因此目前尚未全面普及。很多研究工作致力于研究提高第二代压缩标准的压缩比或降低第三代标准的时间复杂度的方法,例如,Schwarz等人提出使用拉格朗日编码控制的方法提高MPEG-4编码效率,该算法在不同光强和比特率下压缩后的画面PSNR值均高于原算法。Manjanaik等人在H.264基础上提出了基于高斯脉冲沿对角线左下方向的帧内预测模式,在图像质量不变的前提下,平均可降低视频文件30%的比特率。Sharabayko等人提出了H.265/HEVC视频压缩的帧内预测模式的快速搜索算法,在平均只增加1.9%比特率的前提下可节省41%的运算时间。
由于教学视频的特殊性及其广泛的应用,专门针对教学视频的特点设计的非通用压缩算法可取得更好的压缩效果。例如,Derk等人采用直接获取教学平台中PPT画面的方式录制教学视频,无需摄像机拍摄,视频清晰度高,但需要使用信号转换设备连接教学平台和录制视频的主机,且操作相对繁琐。Mittal等人利用相位相关及内容自适应技术实现对教学视频的压缩,通过对视频内容进行分类标记、分割后,根据不同内容选择不同的压缩策略,该方法对视频部分的压缩比最高可达到1244:1,但压缩后PSNR值最高只有34.8dB,画面失真现象明显。古佳等人利用帧间压缩和基于小波变换的帧内压缩方法对教学视频中的幻灯片内容进行压缩,该方法只能处理单色视频,且压缩后视频分辨率明显降低。
近些年来,基于内容分析的视频编码技术成为提高编码性能的重要方法,这种方法通过分析视觉相关性消除视觉冗余及知识冗余。针对教学视频,通常需要对投影区域内容进行变化检测,检测视频中是否存在有效的运动目标,并以此判断是否存在冗余。因此,变化检测技术是基于内容分析的编码技术的关键。背景差分法广泛应用于变化检测,例如,Barnich等人提出的ViBe非参数化前景检测算法采用随机背景更新策略,具有背景建模速度快、计算量小的优点,但存在无法消除阴影、检测结果中目标不完整且存在鬼影等问题。另一种常用的变化检测方法是混合高斯背景建模法(Gaussian Mixed Model,简称GMM),该方法通过背景模型实时更新以适应场景的变化,提高背景学习效果。这种方法检测精度较高,能够克服阴影对检测效果的影响,在对变化检测的精度和对快速运动的小目标检测方面均优于ViBe算法,同时对光照变化和复杂背景有很好的适应性。很多研究工作改善了混合高斯模型的性能,例如,Wang等人提出了结合三帧差法和改进更新策略的混合高斯背景建模算法,提高了混合高斯建模法的计算效率和精度。Sun等人提出了基于局部背景特征向量的高斯混合模型聚类算法,实现了对快速移动的红外小目标的精确检测,但这种方法只能实现对红外目标的检测与跟踪。
目前,考虑到教学视频具有场景固定、有效信息集中在投影区域且变化速度慢等显著的特点,没有充分利用这些特点的通用压缩算法对教学视频的压缩效果不尽如人意,而专门针对教学视频的压缩研究相对较少。鉴于此,本发明提出一种基于关键帧和指示符运动模型的教学视频压缩算法。
发明内容
本发明所要解决的技术问题是:针对现有技术的不足,提供一种基于关键帧和指示符运动模型的教学视频压缩算法,该压缩算法相比现有通用方法,在同等画面清晰度情况下可获得大幅的码率降低,且编解码过程满足实时要求,无需额外人工剪辑,可大幅提高在线教学视频的制作与传输效率,为慕课、微课等在线课程视频网站的视频制作及分享提供高效的解决方案,还可为数码相机提供专门的教学视频录制功能。
本发明解决上述技术问题所采用的技术方案为:基于关键帧和指示符运动模型的教学视频压缩算法,包括以下步骤:
步骤1、投影区域分割:
读取视频帧,对教学视频的每帧原始视频帧进行预处理,然后采取类矩形区域检测结合亮度值统计的方法检测投影区域,将确定的投影区域分割出来并视其为有效区域;
步骤2、投影区域变化检测:
根据自适应高斯混合建模算法对分割得到的有效区域进行变化检测,检测过程中舍弃阴影检测过程;根据前景检测结果,将前景为空的无变化帧定义为冗余帧并舍弃,将前景有变化的帧定义为有效帧,将每段连续有效帧中的第一帧和最后一帧定义为关键帧;
步骤3、鼠标光标和激光笔投映点检测与建模:
对鼠标光标和激光笔投映点建立指示符运动模型,在包含指示符运动的有效帧中,检测并记录鼠标光标和激光笔投映点的位置,识别指示符的类型,将预存的指示符模型图像在关键帧上的检测位置处再现;
步骤4、基于关键帧和有效帧的编码算法:
针对关键帧采用JPEG2000无损压缩并写入视频码流,针对幻灯片切换、过渡动画或教鞭指点导致的连续变化的有效帧采用H.264编码标准中基于帧间预测的有损压缩并写入视频码流;针对包含指示符运动的有效帧,对指示符运动模型参数进行编码并写入视频码流,将指示符出现的连续有效帧的首帧视为关键帧,舍弃其余有效帧,同时反复调用该关键帧作为指示符运动模型的背景,依次调用指示符模型图像叠加在相应位置处;
将原始视频的音频单独分离出来并保存为MP3格式,并与视频码流一起封装到MP4格式文件中;
步骤5、压缩码流播放算法:
基于OpenCV与MFC,针对关键帧编码及指示符运动模型,设计一种LVPlayer播放器进行视频回放;
通过该LVPlayer播放器读取视频帧类型,若为冗余帧,则进行下一视频帧的读取;若不是冗余帧,则判断是否为关键帧,如果是关键帧,则播放关键帧,持续到出现不包含指示符的有效帧或下一帧关键帧;如果不是关键帧,则判断是否为包含指示符运动的有效帧,如果是包含指示符运动的有效帧,则读取指示符信息,在关键帧上绘制指示符,再进行下一视频帧的读取;如果不是包含指示符运动的有效帧,则停止播放关键帧,转为播放有效帧压缩码流,再进行下一视频帧的读取。
在多媒体教学过程中,投影区域是展示信息的主要区域,课堂展示的多媒体信息内容依靠投影仪投影在屏幕上。为适应后续分割及检测算法的输入要求并尽量消除噪声对后期图像处理的影响,本发明首先对教学视频的每帧原始视频帧进行预处理。由于幻灯片投映区域会被投影仪光源照得更亮,而不同的拍摄角度可能导致投映区域发生形变,使得投影区域的形状不一定是方正的矩形,因此本发明采取类矩形区域检测结合亮度值统计的方法检测投影区域,将确定的投影区域分割出来并视其为教学视频中的有效区域。
在教学过程中,切换软件、幻灯片翻页以及每页中新条目的出现等情况是投影区域中常见的有效变化,除此之外每一页教学演示文稿往往长时间处于静止状态,对大量教学视频的统计表明,这个过程往往持续数分钟,即可能连续数千帧中投影区域展示的内容保持不变,存在大量冗余信息。采用教鞭、激光笔以及鼠标指点演示文稿展示的内容是教学视频中另一种常见且独有的现象,其中虽然激光笔或鼠标的指点运动也是一种包含有效信息的变化,但这种变化中运动目标面积基本固定,且变化部分面积不大,对背景图像的影响很小。考虑到教学视频中常见变化现象的特点,本发明改进了Zivkovic等人提出的自适应高斯混合建模算法(GMM)用于检测投影区域中的各种变化。该方法根据视频中的每个像素在时域上的分布情况构建图像中各个像素的灰度分布模型,利用大量像素样本值的概率密度统计信息(如模式数量、每个模式的均值和标准差)表示背景,使用统计差分估计目标像素值。高斯混合模型的背景是动态更新的,只有当由前景像素匹配生成的混合高斯模型被频繁匹配时,才将该模型判定为背景模型,因此这种方法对光照变化有较好的适应能力,具有抗噪能力强、检测精度高的优点。相比自适应高斯混合建模法,ViBe算法检测精度较低,特别对于激光笔投映点这样快速运动的小目标,会频繁出现漏检的情况,况且由于ViBe算法利用第一帧初始化背景模型,当运动目标的运动状态发生变化时,背景模型的更新速率难以与背景变化同步,容易导致检测出虚假目标,即鬼影现象。而混合高斯背景模型使用多个高斯分布表征图像中各像素点的特征,在获得新一帧图像后,根据高斯分布的方差和均值匹配情况更新背景模型,背景模型更新及时,能够很好地消除鬼影现象。然而,与ViBe算法相比,高斯混合模型计算量更大。为提高其运行效率,针对幻灯片投影区域出现阴影的几率小且阴影部分通常不包含有效信息的特点,本发明在投影区域变化检测步骤中舍弃了经典高斯混合模型中的阴影检测过程,提高了算法执行效率。
鼠标指针和激光笔等指示符经常用于辅助教师指点当前授课的内容,是教学视频中的重要指示信息。因此,在连续的有效帧中,通常包含大量激光笔或鼠标的指点运动,本发明算法中提出一种指示符运动模型,通过检测激光笔投映点及鼠标光标的位置,通过预存的指示符模型图像将指示符再现在固定的背景图像中。在包含指示符运动的有效帧中,投影区域会检测到微小的变化,此时背景内容并未发生改变,检测并记录指示符位置,将预存的指示符图像在关键帧上的检测位置处再现,这样就可将一段连续的有效帧用一幅关键帧、预存的指示符模板图像以及每帧中指示符的位置信息取代,可大幅减少有效帧序列的码率。
步骤1的投影区域分割过程为:
步骤1-1:读取视频帧,使用均值滤波、灰度化及形态学开运算对教学视频的每帧原始视频帧进行预处理;
步骤1-2:使用Canny算子检测预处理后的图像边缘,累计概率霍夫变换检测边缘中的直线,并建立检测到的直线的集合;
步骤1-3:在所有直线围成的四边形中找出内角在80°和100°之间的候选矩形区域,并建立候选矩形区域的集合,计算各候选矩形区域的平均亮度,并建立候选矩形区域的平均亮度集合,取各候选矩形区域中平均亮度最大的矩形区域作为投影区域,并视该投影区域为有效区域。
考虑到教学视频录制过程中,摄像机有可能小幅移动,因此本发明中,每隔50视频帧重复步骤1一次,并加入图像矫正以适应前次检测的大小。
由于摄像机帧率和曝光时间等因素的影响,教学视频中运动的鼠标光标在速度较快时会发生形变,而运动的激光笔投映点则带有不同程度的拖影。本申请人对包含指示符运动的大量视频帧的统计分析显示,虽然指示符形状不固定,但其面积与投影区域的面积之比在一定范围内变化。随机选取8000帧包含指示符运动的视频帧进行测试,统计结果表明,指示符占有效区域面积的1.5%至4.0%之间。然而在投影区域检测到的运动目标中,面积占比在此范围内的除了指示符外还有其他变化较小的过渡动画效果等。指示符运动区别于其他变化的主要特点是:指示符在画面中是一块连通的区域,且区域内像素之间的颜色信息差别较小。因此本发明提出通过计算前景不同像素块颜色分量的欧氏距离,设置阈值对前景进行筛选。经过对20000帧光照条件不同的指示符运动视频帧检测实验结果的统计,阈值取15时检测准确率可达到87%。由于鼠标光标和激光笔投映点在颜色上有明显区别,激光笔投映点颜色是红色,而鼠标光标是白色,在HSV颜色空间容易分辨鼠标光标和激光笔投映点,经对不同光照条件的指示符视频帧的测试与统计,发现鼠标光标H(色调)分量平均值在75~110之间,而激光笔投映点H分量平均值在165~200之间,两者数值差距明显。针对上述特点,本发明提出了基于灰度及颜色信息的指示符检测与识别算法,即步骤3的鼠标光标和激光笔投映点检测与建模过程为:
步骤3-1:计算前景图像与投影区域的面积之比x,若x的值为1.5%~4.0%,则计算前景图像中连通区域的个数y,如果y=1,则随机选取前景图像中两个不重合的尺寸大小为3×3的像素块P和Q,计算像素块P和Q的HSV平均值的欧式距离d,计算公式为:
其中,Ph为像素块P的h分量平均值,Qh为像素块Q的h分量平均值,Ps为像素块P的s分量平均值,Qs为像素块Q的s分量平均值,Pv为像素块P的v分量平均值,Qv为像素块Q的v分量平均值;
将不同像素块颜色分量的欧氏距离的阈值设置为t,将前景图像的中心坐标记为p;
将d与t进行比较,若d<t,则判断Ph的范围,如果75<Ph<110,则记录指示符类型为“鼠标”,并将预存的鼠标模型图像在中心坐标p处再现;如果Ph>165且Ph<200,则记录指示符类型为“激光笔”,并将预存的激光笔模型图像在中心坐标p处再现。
为进一步提高指示符的检测正确率,提出一种数组运算法纠正部分误检情况,即步骤3结束后,采用以下数组运算法纠正部分误检情况:
将每段连续有效帧中检测出来的指示符类型存放在一维数组中,其中检测为鼠标光标的帧标记为A,检测为激光笔投映点的帧标记为B,未检测到指示符的帧标记为C;
取一维数组中任意连续的10个标记,若C的个数少于或等于3,则将C置为其前一个非C的标记,同时位置也采用前一个非C标记的位置;
取一维数组中任意连续的3个标记a1、a2、a3,若a1=a3且a1!=a2,则令a2=a1。
实验结果表明,采用上述数组运算法可使平均检测准确率提高2.4%。例如:
原标记序列为:……ACABAAABAAABBCBBABBBAAA……
纠正后的序列为:……AAAAAAAAAAABBBBBBBBBAAA……
上述指示符检测与识别方法计算复杂度低,且较低误检和漏检率均不会对压缩后视频质量和大小造成很大影响,误检为指示符的情况只是导致某一帧错加了指示符,对压缩后的视频质量影响甚微,少数漏检情况会使部分包含指示符的有效帧采用通用有损压缩算法,对比特数的影响也较小。
由于压缩后的码流中只包含原视频中的关键帧和部分有效帧,剔除了冗余帧和包含指示符运动的有效帧,视频总帧数远少于原视频,导致在相同帧率下视频总时长大幅减小。若使用普通播放器进行播放将出现画面快速变化,音画不同步现象。为实现音画同步,重现包含指示符运动轨迹的完整教学视频内容,本发明步骤5中基于OpenCV与MFC,针对关键帧编码及指示符运动模型,设计了一种LVPlayer播放器进行视频回放。
与现有技术相比,本发明的优点在于:本发明针对教学视频的特点,提出一种基于关键帧和指示符运动模型的教学视频压缩算法,将多媒体教学授课场景中的幻灯投影区域视为教学视频的有效区域,充分利用有效区域图像帧间变化速度慢的特点,同时将鼠标光标和激光笔投映点的运动作为典型的教学指点过程建模,利用变化检测将视频帧分为关键帧、有效帧和冗余帧,利用区域分割、变化检测、指示符检测及建模等技术实现了一种基于关键帧和指示符运动模型的教学视频压缩算法。该方法只保留原始视频帧中的投影区域,去除帧间变化小的冗余帧和包含指示符运动的有效帧,在大幅减少数据量的同时,还可保护授课教师个人隐私。在压缩编码过程中,针对持续较长时间静止的关键帧采取无损压缩策略,保证诸如每页PPT课件等关键帧中有效信息的清晰度;采用常用的基于运动估计的帧间预测编码技术对有效帧进行压缩编码,在保证效率的同时尽量提高压缩比;针对包含指示符运动的有效帧,利用指示符运动模型参数代替普通的时域压缩技术,进一步减少数码率。最后设计了一种专门的播放器播放处理后的视频码流。实验结果表明,对关键帧采用无损压缩最大限度地保证了关键信息的画面质量;去除冗余帧及包含指示符的有效帧可大幅提高压缩比;提出的指示符运动模型是去除包含指示符的有效帧的完美替代,可在保证再现指点教学过程的同时再现更清晰的背景图像。对有效区域的分割不仅能降低码率,还能保护授课人隐私。压缩后的码流可通过专门设计的LVPlayer播放器播放。压缩性能对比实验结果表明,相比现有通用方法,本发明压缩算法在相同PSNR值下可使码率平均降低约80%,且编解码过程满足实时要求,无需额外人工剪辑,可大幅提高在线教学视频的制作与传输效率,为提高在线教学视频的制作与传输效率提供了高效的解决方案,同时还可为数码相机提供专门的教学视频录制功能,可大幅降低教学视频的录制对内存空间的占用。
附图说明
图1为本发明中编码算法的流程图;
图2为本发明中播放算法的流程图;
图3为混合高斯背景模型和ViBe算法的背景检测结果对比图;
图4为不同算法对40段教学视频编码的RD曲线;
图5为不同算法在码率为500Kbps时的压缩效果示例图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
实施例的基于关键帧和指示符运动模型的教学视频压缩算法,包括以下步骤:
步骤1、投影区域分割:读取视频帧,对教学视频的每帧原始视频帧进行预处理,然后采取类矩形区域检测结合亮度值统计的方法检测投影区域,将确定的投影区域分割出来并视其为有效区域;具体的投影区域分割过程为:
步骤1-1:读取视频帧,使用均值滤波、灰度化及形态学开运算对教学视频的每帧原始视频帧进行预处理;
步骤1-2:使用Canny算子检测预处理后的图像边缘,累计概率霍夫变换检测边缘中的直线,并建立检测到的直线的集合;
步骤1-3:在所有直线围成的四边形中找出内角在80°和100°之间的候选矩形区域,并建立候选矩形区域的集合,计算各候选矩形区域的平均亮度,并建立候选矩形区域的平均亮度集合,取各候选矩形区域中平均亮度最大的矩形区域作为投影区域,并视该投影区域为有效区域;
每隔50视频帧重复步骤1一次,并加入图像矫正以适应前次检测的大小;
步骤2、投影区域变化检测:
根据自适应高斯混合建模算法对分割得到的有效区域进行变化检测,检测过程中舍弃阴影检测过程;根据前景检测结果,将前景为空的无变化帧定义为冗余帧并舍弃,将前景有变化的帧定义为有效帧,将每段连续有效帧中的第一帧和最后一帧定义为关键帧;
步骤3、鼠标光标和激光笔投映点检测与建模:
对鼠标光标和激光笔投映点建立指示符运动模型,在包含指示符运动的有效帧中,检测并记录鼠标光标和激光笔投映点的位置,识别指示符的类型,将预存的指示符模型图像在关键帧上的检测位置处再现;具体的鼠标光标和激光笔投映点检测与建模过程为:
步骤3-1:计算前景图像与投影区域的面积之比x,若x的值为1.5%~4.0%,则计算前景图像中连通区域的个数y,如果y=1,则随机选取前景图像中两个不重合的尺寸大小为3×3的像素块P和Q,计算像素块P和Q的HSV平均值的欧式距离d,计算公式为:
其中,Ph为像素块P的h分量平均值,Qh为像素块Q的h分量平均值,Ps为像素块P的s分量平均值,Qs为像素块Q的s分量平均值,Pv为像素块P的v分量平均值,Qv为像素块Q的v分量平均值;
将不同像素块颜色分量的欧氏距离的阈值设置为t,将前景图像的中心坐标记为p;
将d与t进行比较,若d<t,则判断Ph的范围,如果75<Ph<110,则记录指示符类型为“鼠标”,并将预存的鼠标模型图像在中心坐标p处再现;如果Ph>165且Ph<200,则记录指示符类型为“激光笔”,并将预存的激光笔模型图像在中心坐标p处再现;
步骤3结束后,采用以下数组运算法纠正部分误检情况:
将每段连续有效帧中检测出来的指示符类型存放在一维数组中,其中检测为鼠标光标的帧标记为A,检测为激光笔投映点的帧标记为B,未检测到指示符的帧标记为C;
取一维数组中任意连续的10个标记,若C的个数少于或等于3,则将C置为其前一个非C的标记,同时位置也采用前一个非C标记的位置;
取一维数组中任意连续的3个标记a1、a2、a3,若a1=a3且a1!=a2,则令a2=a1;
步骤4、基于关键帧和有效帧的编码算法:
针对关键帧采用JPEG2000无损压缩并写入视频码流,针对幻灯片切换、过渡动画或教鞭指点导致的连续变化的有效帧采用H.264编码标准中基于帧间预测的有损压缩并写入视频码流;针对包含指示符运动的有效帧,对指示符运动模型参数进行编码并写入视频码流,将指示符出现的连续有效帧的首帧视为关键帧,舍弃其余有效帧,同时反复调用该关键帧作为指示符运动模型的背景,依次调用指示符模型图像叠加在相应位置处;
将原始视频的音频单独分离出来并保存为MP3格式,并与视频码流一起封装到MP4格式文件中;
步骤5、压缩码流播放算法:
基于OpenCV与MFC,针对关键帧编码及指示符运动模型,设计一种LVPlayer播放器进行视频回放;
通过该LVPlayer播放器读取视频帧类型,若为冗余帧,则进行下一视频帧的读取;若不是冗余帧,则判断是否为关键帧,如果是关键帧,则播放关键帧,持续到出现不包含指示符的有效帧或下一帧关键帧;如果不是关键帧,则判断是否为包含指示符运动的有效帧,如果是包含指示符运动的有效帧,则读取指示符信息,在关键帧上绘制指示符,再进行下一视频帧的读取;如果不是包含指示符运动的有效帧,则停止播放关键帧,转为播放有效帧压缩码流,再进行下一视频帧的读取。
上述教学视频压缩算法的编码算法的流程图见图1。播放算法的流程图见图2,播放器的输入信息包括分离出来的音频文件、压缩后的视频码流、指示符坐标和类型、指示符模型图片、视频帧类型标记以及视频帧率等信息。
上述教学视频压缩算法基于Windows10环境下的Visual Studio 2015结合OpenCV的软件环境,计算机配置为Intel(R)Core(TM)i5-4200H CPU 2.80GHz。采用三脚架放置JVCGC-P100BAC数码摄像机拍摄教学视频,拍摄过程中镜头可发生小范围位移或变焦,选择1920×1080和1280×720两种分辨率拍摄测试视频数据,视频帧率为50fps,视频保存格式为mp4。数据采集的光照条件共有4种:白天晴天、白天阴天、傍晚、夜晚有光源(日光灯)。取教学视频中包含投影区域的首帧作为初始背景图像建立混合高斯背景模型。为确定初始高斯分布个数,取四种光照条件的教学视频各3000帧进行实验测试,对比不同初始高斯分布个数的检测效果发现,当初始高斯分布个数设置为5时检测效果最好,高斯分布个数大于5时检测效果提升不明显而耗时增加明显。将用于训练混合高斯模型中背景的帧数设置为500帧,学习速率为0.002,实验结果能够较好地保证背景更新频率的实时性,同时尽量避免漏检。为验证算法有效性,分别从变化检测、指示符检测与识别、视频压缩效果三个方面分析实验结果。
针对教学视频中的变化检测,分别采用混合高斯背景模型和ViBe算法进行对比试验,使用两种算法对包含指示符快速运动、慢速运动或静止状态的3228帧教学视频进行对比测试,检测结果如表1所示(其中GMM代表混合高斯背景模型),从表1中可看出,混合高斯背景模型对指示符的检测准确率明显高于ViBe算法,且漏检率也明显低于ViBe算法,这主要得益于自适应混合高斯背景模型的动态背景更新机制,而ViBe算法背景更新速度慢,当画面中的目标运动状态发生变化时,背景更新速度跟不上画面的变化,容易将已经静止的目标误检为前景或造成对快速运动小目标的漏检。图3为混合高斯背景模型和ViBe算法的背景检测结果对比图,其中第1行是原视频帧,第2行是ViBe算法的变化检测结果,第3行是混合高斯背景模型的检测结果,第1列是一段视频帧的第325帧,第2列是第354帧,第3列是第368帧,第4列是第380帧。如图3所示,针对某段测试视频,从第325帧到第354帧,ViBe算法和混合高斯背景建模均能检测出投影区域变化,但从第354帧到第368帧,ViBe算法背景模型未更新,误将第368帧已经静止的部分检测为前景;直到第380帧时,画面已保持静止,混合高斯背景建模没有检测到运动目标,但ViBe算法仍检测到有运动目标存在,出现误检。
表1混合高斯模型和ViBe算法的对比实验结果
针对指示符的检测与识别,随机选取20000帧视频帧测试检测效果,其中7680帧为鼠标光标运动帧,7850帧为激光笔投映点运动帧,4470帧为无指示符运动的有效帧。经测试,算法对鼠标光标检测准确率为87.75%,召回率为95.73%,F1-measure值为0.92;对激光笔投映点检测准确率为86.25%,召回率为95.18%,F1-measure值为0.90。虽然检测准确率不足90%,但指示符的误检和漏检对压缩后的视频质量不会产生太大影响。然而使用指示符建模的方法后,对包含指示符运动的连续有效帧的压缩比可提高为原来的百倍以上,对包含指示符运动的有效帧采用指示符模型及采用通用压缩后的比较如表2所示,其中IM(Indicator modeling)为采用指示符建模的压缩方法,non-IM为不采用指示符建模的标准压缩方法。从表2中可看出,采用指示符模型后对原视频的压缩比相比通用H.264压缩算法提高了百倍以上,同时画面也拥有更高的PSNR值,压缩比的大幅提高得益于采用指示符模板图像和位置信息代替删除的连续有效帧,较高的画面质量则是由于调用了采用无损压缩的关键帧作为背景。另外,连续的包含指示符的有效帧数越多、图像帧的分辨率越高,采用基于指示符模型的方法压缩比越大,这主要因为帧数的增加对于基于指示符模型的压缩方法来说只是增加了位置坐标信息,而分辨率的提高对小面积的指示符模板图像影响甚微。
表2采用指示符模型与采用H.264的压缩效果对比
为测试本发明算法对教学视频的压缩性能,采用峰值信噪比PSNR(Peak Signalto Noise Ratio,简称PSNR)衡量压缩后的视频画质。PSNR是原图像与被处理图像之间的均方误差相对于(2n-1)2的对数值(即信号最大值的平方,其中n是每个采样值的比特数),单位是dB。分别采用三种方法对40段教学视频编码的RD曲线如图4所示,从图4中可看出,提出的方法在不同码率下的性能均远超H.264和MPEG-4算法。在相同PSNR值的条件下,本发明算法压缩后的视频码率相比H.264算法平均降低了87.95%,相比MPEG-4算法平均降低了89.8%。H.264和MPEG-4算法在码率低于400Kbps时画面的PSNR值均达不到30dB,画面中有效信息丢失较多,而本发明算法压缩后的视频在码率大于800Kbps时画面PSNR值便可达到38dB,即使在码率为300Kbps的情况下压缩后画面PSNR值也能达到36dB以上,这主要是由于本发明算法针对关键帧采用无损压缩,最大限度地保证了关键信息的清晰度,而H.264和MPEG-4算法采用统一的有损压缩算法,即使在码率达到2500Kbps时PSNR值仍不能达到38dB,远低于本发明算法的39.57dB。同时,指示符运动模型的引入以及去除冗余帧和部分有效帧的方法在基本不影响画面质量的同时,大幅降低了码率。部分压缩后的截图如图5所示,图5中(a)为原始视频帧示例图,(b)为本发明算法压缩后的效果图,(c)为MPEG-4算法压缩后的效果图,(d)为H.264算法压缩后的效果图。从图5中可看出,MPEG-4及H.264算法在码率为500Kbps时,部分图像信息丢失严重,导致画面失真,字迹模糊不清,甚至出现“马赛克”现象,关键的图片及文字无法识别的情况将严重影响教学视频发挥其应有的作用。本发明提出的算法分别对关键帧和部分有效帧编码,在较低的数码率下依然能保持高的视频质量,特别是对持续时间较长的每页演示文稿或关键图片信息采取无损编码策略,最大限度地保证了关键信息的画面质量。
对分辨率为1280×720的视频帧,本发明算法处理每帧平均耗时0.015s(每秒可处理66帧);对分辨率为1920×1080的视频帧,本发明算法处理每帧平均耗时0.028s(每秒可处理35帧),基本可达到实时处理的要求。
Claims (5)
1.基于关键帧和指示符运动模型的教学视频压缩算法,其特征在于,包括以下步骤:
步骤1、投影区域分割:
读取视频帧,对教学视频的每帧原始视频帧进行预处理,然后采取类矩形区域检测结合亮度值统计的方法检测投影区域,将确定的投影区域分割出来并视其为有效区域;
步骤2、投影区域变化检测:
根据自适应高斯混合建模算法对分割得到的有效区域进行变化检测,检测过程中舍弃阴影检测过程;根据前景检测结果,将前景为空的无变化帧定义为冗余帧并舍弃,将前景有变化的帧定义为有效帧,将每段连续有效帧中的第一帧和最后一帧定义为关键帧;
步骤3、鼠标光标和激光笔投映点检测与建模:
对鼠标光标和激光笔投映点建立指示符运动模型,在包含指示符运动的有效帧中,检测并记录鼠标光标和激光笔投映点的位置,识别指示符的类型,将预存的指示符模型图像在关键帧上的检测位置处再现;
步骤4、基于关键帧和有效帧的编码算法:
针对关键帧采用JPEG2000无损压缩并写入视频码流,针对除关键帧和包含指示符运动的有效帧之外的有效帧采用H.264编码标准中基于帧间预测的有损压缩并写入视频码流;针对包含指示符运动的有效帧,对指示符运动模型参数进行编码并写入视频码流,舍弃除关键帧之外的有效帧,同时反复调用指示符出现的连续有效帧的首帧作为指示符运动模型的背景,依次调用指示符模型图像叠加在相应位置处;
将原始视频的音频单独分离出来并保存为MP3格式,并与视频码流一起封装到MP4格式文件中;
步骤5、压缩码流播放算法:
基于OpenCV与MFC,针对关键帧编码及指示符运动模型,设计一种LVPlayer播放器进行视频回放;
通过该LVPlayer播放器读取视频帧类型,若为冗余帧,则进行下一视频帧的读取;若不是冗余帧,则判断是否为关键帧,如果是关键帧,则播放关键帧,持续到出现不包含指示符的有效帧或下一帧关键帧;如果不是关键帧,则判断是否为包含指示符运动的有效帧,如果是包含指示符运动的有效帧,则读取指示符信息,在关键帧上绘制指示符,再进行下一视频帧的读取;如果不是包含指示符运动的有效帧,则停止播放关键帧,转为播放有效帧压缩码流,再进行下一视频帧的读取。
2.根据权利要求1所述的基于关键帧和指示符运动模型的教学视频压缩算法,其特征在于,步骤1的投影区域分割过程为:
步骤1-1:读取视频帧,使用均值滤波、灰度化及形态学开运算对教学视频的每帧原始视频帧进行预处理;
步骤1-2:使用Canny算子检测预处理后的图像边缘,累计概率霍夫变换检测边缘中的直线,并建立检测到的直线的集合;
步骤1-3:在所有直线围成的四边形中找出内角在80°和100°之间的候选矩形区域,并建立候选矩形区域的集合,计算各候选矩形区域的平均亮度,并建立候选矩形区域的平均亮度集合,取各候选矩形区域中平均亮度最大的矩形区域作为投影区域,并视该投影区域为有效区域。
3.根据权利要求2所述的基于关键帧和指示符运动模型的教学视频压缩算法,其特征在于,每隔50视频帧重复步骤1一次,并加入图像矫正以适应前次检测的大小。
4.根据权利要求1所述的基于关键帧和指示符运动模型的教学视频压缩算法,其特征在于,步骤3的鼠标光标和激光笔投映点检测与建模过程为:
步骤3-1:计算前景图像与投影区域的面积之比x,若x的值为1.5%~4.0%,则计算前景图像中连通区域的个数y,如果y=1,则随机选取前景图像中两个不重合的尺寸大小为3×3的像素块P和Q,计算像素块P和Q的HSV平均值的欧式距离d,计算公式为:
其中,Ph为像素块P的h分量平均值,Qh为像素块Q的h分量平均值,Ps为像素块P的s分量平均值,Qs为像素块Q的s分量平均值,Pv为像素块P的v分量平均值,Qv为像素块Q的v分量平均值;
将不同像素块颜色分量的欧氏距离的阈值设置为t,将前景图像的中心坐标记为p;
将d与t进行比较,若d<t,则判断Ph的范围,如果75<Ph<110,则记录指示符类型为“鼠标”,并将预存的鼠标模型图像在中心坐标p处再现;如果Ph>165且Ph<200,则记录指示符类型为“激光笔”,并将预存的激光笔模型图像在中心坐标p处再现。
5.根据权利要求4所述的基于关键帧和指示符运动模型的教学视频压缩算法,其特征在于,步骤3结束后,采用以下数组运算法纠正部分误检情况:
将每段连续有效帧中检测出来的指示符类型存放在一维数组中,其中检测为鼠标光标的帧标记为A,检测为激光笔投映点的帧标记为B,未检测到指示符的帧标记为C;
取一维数组中任意连续的10个标记,若C的个数少于或等于3,则将C置为其前一个非C的标记,同时位置也采用前一个非C标记的位置;
取一维数组中任意连续的3个标记a1、a2、a3,若a1=a3且a1!=a2,则令a2=a1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810309591.9A CN108462878B (zh) | 2018-04-09 | 2018-04-09 | 基于关键帧和指示符运动模型的教学视频压缩算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810309591.9A CN108462878B (zh) | 2018-04-09 | 2018-04-09 | 基于关键帧和指示符运动模型的教学视频压缩算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108462878A CN108462878A (zh) | 2018-08-28 |
CN108462878B true CN108462878B (zh) | 2020-10-09 |
Family
ID=63235541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810309591.9A Active CN108462878B (zh) | 2018-04-09 | 2018-04-09 | 基于关键帧和指示符运动模型的教学视频压缩算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108462878B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993699A (zh) * | 2019-04-02 | 2019-07-09 | 上海飞来飞去新媒体展示设计有限公司 | 一种利用画面变形及反变形的vr有效分辨率提升算法 |
CN113554008B (zh) * | 2021-09-18 | 2021-12-31 | 深圳市安软慧视科技有限公司 | 静态物体区域内检测方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004363655A (ja) * | 2003-05-30 | 2004-12-24 | Tdk Corp | マルチメディアデータの処理装置及び処理方法 |
CN1859571A (zh) * | 2006-06-01 | 2006-11-08 | 上海交通大学 | 低码率下屏幕编码方法 |
CN101447998A (zh) * | 2008-12-25 | 2009-06-03 | 广东威创视讯科技股份有限公司 | 桌面共享方法及系统 |
CN102006475A (zh) * | 2010-11-18 | 2011-04-06 | 无锡中星微电子有限公司 | 一种视频编解码装置和方法 |
CN102404574A (zh) * | 2011-11-30 | 2012-04-04 | 江苏奇异点网络有限公司 | 面向低速宽带的网络教育视频压缩方法 |
CN105847774A (zh) * | 2016-05-05 | 2016-08-10 | Tcl集团股份有限公司 | 投影仪输出模式切换方法及系统 |
-
2018
- 2018-04-09 CN CN201810309591.9A patent/CN108462878B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004363655A (ja) * | 2003-05-30 | 2004-12-24 | Tdk Corp | マルチメディアデータの処理装置及び処理方法 |
CN1859571A (zh) * | 2006-06-01 | 2006-11-08 | 上海交通大学 | 低码率下屏幕编码方法 |
CN101447998A (zh) * | 2008-12-25 | 2009-06-03 | 广东威创视讯科技股份有限公司 | 桌面共享方法及系统 |
CN102006475A (zh) * | 2010-11-18 | 2011-04-06 | 无锡中星微电子有限公司 | 一种视频编解码装置和方法 |
CN102404574A (zh) * | 2011-11-30 | 2012-04-04 | 江苏奇异点网络有限公司 | 面向低速宽带的网络教育视频压缩方法 |
CN105847774A (zh) * | 2016-05-05 | 2016-08-10 | Tcl集团股份有限公司 | 投影仪输出模式切换方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108462878A (zh) | 2018-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190392651A1 (en) | Motion compensation of geometry information | |
US7085401B2 (en) | Automatic object extraction | |
CA2979177C (en) | Detecting segments of a video program | |
CN102567727B (zh) | 一种背景目标替换方法和装置 | |
CN102572502B (zh) | 一种用于视频质量评价的关键帧的选取方法 | |
CN112203095A (zh) | 视频运动估计方法、装置、设备及计算机可读存储介质 | |
CN1207924C (zh) | 取决于图像的面部检测方法 | |
CN109214999A (zh) | 一种视频字幕的消除方法及装置 | |
RU2008143242A (ru) | Адаптивное воспроизведение телевизионного содержимого, основанное на дополнительных кадрах содержимого | |
CN110866473B (zh) | 目标对象的跟踪检测方法及装置、存储介质、电子装置 | |
KR101668930B1 (ko) | 비디오 분석 인코딩 | |
CN108462878B (zh) | 基于关键帧和指示符运动模型的教学视频压缩算法 | |
CN108564057A (zh) | 一种基于opencv的人物相似度系统的建立方法 | |
CN110691246B (zh) | 视频编码方法、装置及电子设备 | |
CN113965814B (zh) | 基于视频会议场景的多会场关键帧提取方法及系统 | |
EP3139341A1 (en) | Methods, systems and apparatus for specular highlight reconstruction | |
TW201327416A (zh) | 動態背景的前景偵測方法 | |
CN116095291A (zh) | 一种用于媒体流图像传输的图像预处理方法 | |
CN111988520B (zh) | 一种画面切换方法、装置、电子设备及存储介质 | |
CN114743002A (zh) | 基于弱监督学习的视频目标分割方法 | |
CN114387440A (zh) | 一种视频裁剪方法、装置及存储介质 | |
CN110769258A (zh) | 一种用于特定场景多语义区域的图像压缩方法及系统 | |
CN111899184A (zh) | 图像缺陷修复、神经网络训练方法、装置、设备和系统 | |
Cheng et al. | LSCD: A Large-Scale Screen Content Dataset for Video Compression | |
CN117061824B (zh) | 流媒体视频补帧方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |