CN111104913A - 一种基于结构及相似度的视频提取ppt方法 - Google Patents

一种基于结构及相似度的视频提取ppt方法 Download PDF

Info

Publication number
CN111104913A
CN111104913A CN201911335327.3A CN201911335327A CN111104913A CN 111104913 A CN111104913 A CN 111104913A CN 201911335327 A CN201911335327 A CN 201911335327A CN 111104913 A CN111104913 A CN 111104913A
Authority
CN
China
Prior art keywords
ppt
video
pictures
image
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911335327.3A
Other languages
English (en)
Other versions
CN111104913B (zh
Inventor
郑茜颖
邱建滨
陈伊涵
王帅
曾青耀
魏海云
邱纯乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201911335327.3A priority Critical patent/CN111104913B/zh
Publication of CN111104913A publication Critical patent/CN111104913A/zh
Application granted granted Critical
Publication of CN111104913B publication Critical patent/CN111104913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于结构及相似度的视频提取PPT方法,首先,采集视频的第一帧图像;对帧图像进行颜色空间转换、高斯滤波、膨胀、Canny边缘检测、轮廓检测,找到其中的目标区域;然后,利用多边形拟合、透视变换对目标区域进行处理,将目标区域转化为矩形;相隔2秒在视频中再取新帧,重复上述的操作,获取第二图的PPT目标区域;最后,对两PPT图片进行相似度比较和差异度比较,接着留下第二幅PPT图,重复执行上述操作直至视频结束;对所有保存的图片进行再裁剪和时间序列筛选处理,以PDF文件形式保存。本发明提供一种从视频中简单、快速提取PPT内容图片并且以PDF文件形式保存的方法。

Description

一种基于结构及相似度的视频提取PPT方法
技术领域
本发明涉及图像处理技术领域,特别是一种基于结构及相似度的视频提取PPT方法。
背景技术
Microsoft Office PowerPoint,是微软公司的演示文稿软件,功能强大,应用广泛。在当今信息化时代中,随着应用水平的逐步提高,PPT正成为人们工作生活中的重要组成部分,在各行各业中占据着举足轻重的地位。人们可以通过传统方法,比如U盘拷贝、邮箱传递等,可以获取他们所需要的PPT内容。但是现在在大多数的会议、讲座等场合,人们手里可能只有一份关于会议、讲座现场的视频,无法通过传统方法获取所需要的PPT内容,无法高效且迅速地获取所需要的信息,使相关视频的利用率下降。因此需要一种能够从视频中提取所需要的PPT内容并合理存放,这样才能够有效的整理好讲座现场的视频,深化知识的应用。
目前从视频中提取PPT存在以下几个难点问题:如何判断提取的PPT内容图片是否属于相同页,如何判断PPT区域被遮挡,不进行提取操作,若存在PPT换页动画情况下该如何进行提取操作。
发明内容
有鉴于此,本发明的目的是提供一种基于结构及相似度的视频提取PPT方法,要通过对帧图像进行预处理、多层次的比较操作,完成从视频中精确定位并提取PPT内容图片的目标,并将其以PDF文件形式保存,便于用户使用。
本发明采用以下方案实现:一种基于结构及相似度的视频提取PPT方法,包括以下步骤:
步骤S1:通过视频采集设备采集含有PPT内容的视频,并上传到PC端,直接读取视频的长、宽和总帧数,提取视频的第一帧图像,作为起始图像;
步骤S2:对图像依次进行颜色空间转换、高斯滤波、膨胀操作去除干扰边缘和噪声点,然后利用Canny算子对膨胀操作后的图像进行边缘检测,再采用轮廓检测寻找图片中所有可能的轮廓,最后找到其中面积最大的轮廓,即目标区域;
步骤S3:利用多边形拟合和透视变换操作对目标区域进行裁剪和视角矫正,将目标区域转化为矩形;
步骤S4:相隔2秒再次在步骤S1的视频中取一帧视频图像,作为新帧,重复上述步骤S2到步骤S3的操作,获取第二图的PPT目标区域;
步骤S5:对两PPT图片进行相似度比较和差异度比较操作,然后留下第二幅PPT图,重复执行上述步骤S4和步骤S5直至视频结束;
步骤S6:将所有最终得到的PPT内容图片进行再裁剪和时间序列筛选处理,最后以PDF文件形式保存。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:首先通过颜色空间转换将彩色图像转变为灰度图像,用以消除帧图像的背景区域存在的颜色信息干扰;接着采用高斯滤波的方式对图像冗余的轮廓信息进行滤除;然后采用形态学膨胀操作扩张图像中的高亮部分,缩小黑暗部分的面积;最后对图像进行Canny边缘检测,找到图像中物体的真实边缘;
步骤S22:利用轮廓检测对边缘检测结果进行拓扑分析,找到其中所有可能的最外层轮廓而忽略轮廓中的孔边界,最后提取所有可能轮廓中面积最大的轮廓作为PPT目标区域。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:通过对目标区域进行多边形拟合,用以减少目标区域轮廓点集中的点的数量;
步骤S32:对拟合结果以外的图像进行裁剪处理,只留下目标区域;将多边形拟合结果的四个顶点作为透视变换的四个原始点,变换到四个规定点上,使目标区域转化矩形。
进一步地,所述步骤S5具体包括以下步骤:
步骤S51:通过结构相似性(SSIM)来衡量两张图片是否为相似图片,结构相似性的范围为0到1;若结构相似性小于阈值,则继续进行差异度比较处理,若结构相似性大于阈值,则说明两张图片为相似图片,不进行差异度比较、保存处理;给定两个图像x和y,两张图像的结构相似性按照以下方式求出:
Figure BDA0002330343640000031
其中μx为x的平均值,μy为y的平均值,
Figure BDA0002330343640000032
是x的方差,
Figure BDA0002330343640000033
是y的方差,σxy是x和y的协方差,c1=(k1L)2,c2=(k2L)2是用来维持稳定的常数,L是像素值的动态范围,k1=0.01,k2=0.03;
步骤S52:将两张PPT图片利用结构相似性(SSIM)计算它们的结构差距图,并且在新帧所对应的PPT图片中用红色矩形框将两者的结构差距框出,计算所有矩形框的总面积(不重复的)占据PPT图片总面积的比例,若大于所设定的阈值,则表明二者结构差距过大,应认为是不同页的PPT内容,故保存旧帧对应的PPT图片,且此时若新帧是视频的最后一帧时,也同时保存其对应的PPT图片;若小于所设定的阈值,则表明二者结构差距不大,应认为是同页的PPT内容,故不保存旧帧对应的PPT图片,且此时若新帧是视频的最后一帧时,保存新帧对应的PPT图片;
步骤S53:以视频的总帧数作为判断视频结束的约束条件,视频总帧数降低到0时证明本视频结束;每次在读取新帧之前将视频总帧数减去2秒所对应的帧数,若视频总帧数小于2秒所对应的帧数,直接将视频的最后一帧图像作为新帧,视频总帧数置为0。
进一步地,所述步骤S6具体包括以下步骤:
步骤S61:对图像的四周用黑色边框进行图片扩展,然后按顺序进行图像灰度化、高斯滤波、膨胀、Canny边缘检测、轮廓检测、多边形拟合,最后将拟合区域以外的图像进行裁剪,只保留拟合区域的图像;最后通过透视变换获得PPT图片;
步骤S62:比较相邻两张PPT图片对应时间序列的间隔与所设置的时间间隔阈值,若前后两张PPT图片对应时间序列的间隔小于时间间隔阈值,那么将相邻两张PPT图片中的后一张去除,只保留前一张PPT图片;以此规则按顺序检查所有相邻PPT图片的时间序列间隔,完成异常PPT图片的排除,同时把时间序列加入图片中,所有提取结果以一个PDF文件形式保存。
与现有技术相比,本发明具有以下有益效果:
本发明通过对帧图像进行预处理操作和多次比较实现从视频中提取PPT内容图片。可以很好辨别PPT内容是否属于不同页的情况,并通过相应处理从视频中得到不同页的PPT内容。通过本发明,人们能够从会议、讲座现场以及课堂教学现场的视频之中高效且迅速地提取所需要的PPT内容并合理存放,使得相关视频利用率提升,增加了学习效率,深化知识的应用。
附图说明
图1为本发明实施例的流程框图。
图2为本发明实施例的经过颜色空间转换后的图像。
图3为本发明实施例的经过Canny算子边缘检测的图像。
图4为本发明实施例的经过透视变换操作后的图像。
图5为本发明实施例的经过再裁剪处理的图像。
图6为本发明实施例的有遮挡物时的图像。
图7为本发明实施例的为具有PPT换页动画的图像。
图8为本发明实施例的具有该页PPT开始时间的图像。
图9为本发明实施例的同页PPT内容判断图;其中,图9(a)为同页PPT前一帧图像,图9(b)为同一页PPT后一帧图像,图9(c)为同页两帧图像的结构差异图,图9(d)不同页PPT前一帧图像,图9(e)为不同页PPT后一帧图像,图9(f)为不同页PPT的结构差异图。
图10为本发明实施例的PDF文件形式保存的图像。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于结构及相似度的视频提取PPT方法,
通过对视频间隔取帧进行提取、比较,利用Canny边缘检测、轮廓检测等预处理定位PPT区域,接着通过多边形拟合、透视变换提取PPT内容图片,最后通过再裁剪和筛选操作去除黑色边框和异常PPT图片,并将每页PPT在视频中首次出现的时间标于图片右下角。
包括以下步骤:
步骤S1:通过手机或者其他视频采集设备采集含有PPT内容的视频,并上传到PC端,直接读取视频的长、宽和总帧数,提取视频的第一帧图像,作为起始图像;
步骤S2:对图像依次进行颜色空间转换、高斯滤波、膨胀操作去除干扰边缘和噪声点,然后利用Canny算子对膨胀操作后的图像进行边缘检测,再采用轮廓检测寻找图片中所有可能的轮廓,最后找到其中面积最大的轮廓,即目标区域;
步骤S3:利用多边形拟合和透视变换操作对目标区域进行裁剪和视角矫正,将目标区域转化为矩形;
步骤S4:相隔2秒再次在步骤S1的视频中取一帧视频图像,作为新帧,重复上述步骤S2到步骤S3的操作,获取第二图的PPT目标区域;
步骤S5:对两PPT图片进行相似度比较和差异度比较操作,然后留下第二幅PPT图,重复执行上述步骤S4和步骤S5直至视频结束;
步骤S6:将所有最终得到的PPT内容图片进行再裁剪和时间序列筛选处理,最后以PDF文件形式保存。
较佳的,在本实施例中,打开手机、相机的录像功能,采集含有PPT内容的视频,在程序中读取视频的总帧数,并将视频的第一帧图像作为起始图像。
在本实施例中,所述步骤S2具体包括以下步骤:
步骤S21:通过颜色空间转换将彩色图形转变为灰度图像,用以消除帧图像的背景区域存在的颜色信息干扰,使图像所含信息量大大减少,大幅减少图像处理的计算量,方便后续计算;接着采用高斯滤波的方式对图像冗余的轮廓信息进行滤除;然后采用形态学膨胀操作扩张图像中的高亮部分,缩小黑暗部分的面积;
最后对图像进行Canny边缘检测,找到图像中物体的真实边缘。
步骤S22:利用轮廓检测对边缘检测结果进行拓扑分析,找到其中所有可能的最外层轮廓而忽略轮廓中的孔边界,最后提取所有可能轮廓中面积最大的轮廓作为PPT目标区域。
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31:通过对目标区域进行多边形拟合,用以减少目标区域轮廓点集中的点的数量。
步骤S32:对拟合结果以外的图像进行裁剪处理,只留下目标区域;将多边形拟合结果的四个顶点作为透视变换的四个原始点,变换到四个规定点上,使目标区域转化矩形。
在本实施例中,所述步骤S5具体包括以下步骤:
步骤S51:通过结构相似性(SSIM)来衡量两张图片是否为相似图片,结构相似性的范围为0到1;若结构相似性小于阈值(本实施例中为0.9),则继续进行差异度比较处理,若结构相似性大于阈值,则说明两张图片为相似图片,不进行差异度比较、保存处理;给定两个图像x和y,两张图像的结构相似性按照以下方式求出:
Figure BDA0002330343640000081
其中μx为x的平均值,μy为y的平均值,
Figure BDA0002330343640000082
是x的方差,
Figure BDA0002330343640000083
是y的方差,σxy是x和y的协方差,c1=(k1L)2,c2=(k2L)2是用来维持稳定的常数,L是像素值的动态范围,k1=0.01,k2=0.03;
步骤S52:将两张PPT图片利用结构相似性(SSIM)计算它们的结构差距图,并且在新帧所对应的PPT图片中用红色矩形框将两者的结构差距框出,计算所有矩形框的总面积(不重复的)占据PPT图片总面积的比例,若大于所设定的阈值(本实施例为0.6),则表明二者结构差距过大,应认为是不同页的PPT内容,故保存旧帧对应的PPT图片,且此时若新帧是视频的最后一帧时,也同时保存其对应的PPT图片;若小于所设定的阈值,则表明二者结构差距不大,应认为是同页的PPT内容,故不保存旧帧对应的PPT图片,且此时若新帧是视频的最后一帧时,保存新帧对应的PPT图片;
步骤S53:以视频的总帧数作为判断视频结束的约束条件,视频总帧数降低到0时证明本视频结束;每次在读取新帧之前将视频总帧数减去2秒所对应的帧数,若视频总帧数小于2秒所对应的帧数,直接将视频的最后一帧图像作为新帧,视频总帧数置为0。
在本实施例中,所述步骤S6具体包括以下步骤:
步骤S61:对图像的四周用黑色边框进行图片扩展,然后按顺序进行图像灰度化、高斯滤波、膨胀、Canny边缘检测、轮廓检测、多边形拟合,最后将拟合区域以外的图像进行裁剪,只保留拟合区域的图像;最后通过透视变换获得PPT图片;
步骤S62:比较相邻两张PPT图片对应时间序列的间隔与所设置的时间间隔阈值(本实施例为2秒),若前后两张PPT图片对应时间序列的间隔小于时间间隔阈值,那么将相邻两张PPT图片中的后一张去除,只保留前一张PPT图片;以此规则按顺序检查所有相邻PPT图片的时间序列间隔,完成异常PPT图片的排除,同时把时间序列加入图片中,所有提取结果以一个PDF文件形式保存。
较佳的,在本实施例中,图2到图3是帧图像经过步骤2的处理得到的,分别对应颜色空间转换、Canny边缘检测的处理方法。可以由结果看出,经过预处理可以消除背景颜色的影响,在帧图像中有效的检测出PPT区域边缘。
手机拍摄的角度不一定正对PPT区域,如图2所示。故本实例首先对得到的目标区域进行多边形拟合降低轮廓点集中点的数量,接着将多边形拟合结果的四个顶点作为透视变换的四个原始点,并将其变换到四个规定点上,以此消除由于拍摄角度不垂直带来的影响,如图4所示。利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度,破坏原有的投影光线束,保持承影面上投影几何图形不变。
在图4中还含有一定的黑色边框,故在本实例中将该图片进行再裁剪操作,目的去除这些黑色边框且不损失PPT内容。首先对图像的四周用黑色边框进行图像扩展,接着按顺序进行图像灰度化、高斯滤波、膨胀、Canny边缘检测、轮廓检测、多边形拟合,最后将拟合区域以外的图像进行裁剪,只保留拟合区域的图像。最后通过透视变换获得PPT图片,如图5所示;
采用步骤3处理过程的另一优点是:可以在PPT区域遭到遮挡时有效的识别,从而不进行任何提取操作。当有遮挡物进入PPT区域并遮挡了一部分内容时,如图6所示。对其经过Canny边缘检测、轮廓检测,将提取得到的目标区域进行多边形拟合,得到的拟合结果是含有不止4个点的点集,表明此时的PPT区域可能遭到了物体的遮挡,不对其进行操作并重新取帧。
通过比较相邻两张PPT对应时间序列的间隔与我们所设置的时间间隔阈值(2秒),来判断是否存在图7所示的动画情况,若前后两张PPT对应时间序列的间隔小于时间间隔阈值,则说明出现了如图所示的异常情况,那么将相邻两张PPT图片中的后一张去除,只保留前一张PPT图片。以此规则按顺序检查所有相邻PPT图片的时间序列间隔,完成具有动画的PPT图片排除。
本实例还提供PPT图片的第一次在视频中出现的时间,如图8所示。将经过筛选处理后的相邻两张PPT图片的时间进行错位,前一张所对应的时间作为后一张的开始时间,并标于后一张PPT图片的右下角,而直接将第一张PPT图片的时间设置为0。
本实例在相似度的基础上,再使用差异度比较来判别两张图片是否属于同一张PPT,如图9所示。用红色矩形框将两者的结构差距框出,计算所有矩形框的总面积(不重复的)占据PPT图像总面积的比例。若小于所设定的阈值,则表明二者结构差距不大,应认为是同页的PPT内容,如图9(a)~(c);若大于所设定的阈值,则表明二者结构差距过大,应认为是不同页的PPT内容,如图9(d)~(f)。最终结果以PDF文件形式保存,如图10所示。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (5)

1.一种基于结构及相似度的视频提取PPT方法,其特征在于:包括以下步骤:
步骤S1:通过视频采集设备采集含有PPT内容的视频,并上传到PC端,直接读取视频的长、宽和总帧数,提取视频的第一帧图像,作为起始图像;
步骤S2:对图像依次进行颜色空间转换、高斯滤波、膨胀操作去除干扰边缘和噪声点,然后利用Canny算子对膨胀操作后的图像进行边缘检测,再采用轮廓检测寻找图片中所有可能的轮廓,最后找到其中面积最大的轮廓,即目标区域;
步骤S3:利用多边形拟合和透视变换操作对目标区域进行裁剪和视角矫正,将目标区域转化为矩形;
步骤S4:相隔2秒再次在步骤S1的视频中取一帧视频图像,作为新帧,重复上述步骤S2到步骤S3的操作,获取第二图的PPT目标区域;
步骤S5:对两PPT图片进行相似度比较和差异度比较操作,然后留下第二幅PPT图,重复执行上述步骤S4和步骤S5直至视频结束;
步骤S6:将所有最终得到的PPT内容图片进行再裁剪和时间序列筛选处理,最后以PDF文件形式保存。
2.根据权利要求1所述的一种基于结构及相似度的视频提取PPT方法,其特征在于:所述步骤S2具体包括以下步骤:
步骤S21:首先通过颜色空间转换将彩色图像转变为灰度图像,用以消除帧图像的背景区域存在的颜色信息干扰;接着采用高斯滤波的方式对图像冗余的轮廓信息进行滤除;然后采用形态学膨胀操作扩张图像中的高亮部分,缩小黑暗部分的面积;最后对图像进行Canny边缘检测,找到图像中物体的真实边缘;
步骤S22:利用轮廓检测对边缘检测结果进行拓扑分析,找到其中所有可能的最外层轮廓而忽略轮廓中的孔边界,最后提取所有可能轮廓中面积最大的轮廓作为PPT目标区域。
3.根据权利要求1所述的一种基于结构及相似度的视频提取PPT方法,其特征在于:所述步骤S3具体包括以下步骤:
步骤S31:通过对目标区域进行多边形拟合,用以减少目标区域轮廓点集中的点的数量;
步骤S32:对拟合结果以外的图像进行裁剪处理,只留下目标区域;将多边形拟合结果的四个顶点作为透视变换的四个原始点,变换到四个规定点上,使目标区域转化矩形。
4.根据权利要求1所述的一种基于结构及相似度的视频提取PPT方法,其特征在于:所述步骤S5具体包括以下步骤:
步骤S51:通过结构相似性来衡量两张图片是否为相似图片,结构相似性的范围为0到1;若结构相似性小于阈值,则继续进行差异度比较处理,若结构相似性大于阈值,则说明两张图片为相似图片,不进行差异度比较、保存处理;给定两个图像x和y,两张图像的结构相似性按照以下方式求出:
Figure FDA0002330343630000021
其中μx为x的平均值,μy为y的平均值,
Figure FDA0002330343630000022
是x的方差,
Figure FDA0002330343630000023
是y的方差,σxy是x和y的协方差,c1=(k1L)2,c2=(k2L)2是用来维持稳定的常数,L是像素值的动态范围,k1=0.01,k2=0.03;
步骤S52:将两张PPT图片利用结构相似度计算它们的结构差距图,并且在新帧所对应的PPT图片中用红色矩形框将两者的结构差距框出,计算所有矩形框的总面积占据PPT图片总面积的比例,若大于所设定的阈值,则表明二者结构差距过大,应认为是不同页的PPT内容,故保存旧帧对应的PPT图片,且此时若新帧是视频的最后一帧时,也同时保存其对应的PPT图片;若小于所设定的阈值,则表明二者结构差距不大,应认为是同页的PPT内容,故不保存旧帧对应的PPT图片,且此时若新帧是视频的最后一帧时,保存新帧对应的PPT图片;
步骤S53:以视频的总帧数作为判断视频结束的约束条件,视频总帧数降低到0时证明本视频结束;每次在读取新帧之前将视频总帧数减去2秒所对应的帧数,若视频总帧数小于2秒所对应的帧数,直接将视频的最后一帧图像作为新帧,视频总帧数置为0。
5.根据权利要求1所述的一种基于结构及相似度的视频提取PPT方法,其特征在于:所述步骤S6具体包括以下步骤:
步骤S61:对图像的四周用黑色边框进行图片扩展,然后按顺序进行图像灰度化、高斯滤波、膨胀、Canny边缘检测、轮廓检测、多边形拟合,最后将拟合区域以外的图像进行裁剪,只保留拟合区域的图像;最后通过透视变换获得PPT图片;
步骤S62:比较相邻两张PPT图片对应时间序列的间隔与所设置的时间间隔阈值,若前后两张PPT图片对应时间序列的间隔小于时间间隔阈值,那么将相邻两张PPT图片中的后一张去除,只保留前一张PPT图片;以此规则按顺序检查所有相邻PPT图片的时间序列间隔,完成异常PPT图片的排除,同时把时间序列加入图片中,所有提取结果以一个PDF文件形式保存。
CN201911335327.3A 2019-12-23 2019-12-23 一种基于结构及相似度的视频提取ppt方法 Active CN111104913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911335327.3A CN111104913B (zh) 2019-12-23 2019-12-23 一种基于结构及相似度的视频提取ppt方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911335327.3A CN111104913B (zh) 2019-12-23 2019-12-23 一种基于结构及相似度的视频提取ppt方法

Publications (2)

Publication Number Publication Date
CN111104913A true CN111104913A (zh) 2020-05-05
CN111104913B CN111104913B (zh) 2023-03-24

Family

ID=70423075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911335327.3A Active CN111104913B (zh) 2019-12-23 2019-12-23 一种基于结构及相似度的视频提取ppt方法

Country Status (1)

Country Link
CN (1) CN111104913B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832455A (zh) * 2020-06-30 2020-10-27 北京小米松果电子有限公司 获取内容图像的方法、装置、存储介质和电子设备
CN112287914A (zh) * 2020-12-27 2021-01-29 平安科技(深圳)有限公司 Ppt视频段提取方法、装置、设备及介质
CN113794815A (zh) * 2021-08-25 2021-12-14 中科云谷科技有限公司 用于提取视频关键帧的方法、装置及控制器
CN114155473A (zh) * 2021-12-09 2022-03-08 成都智元汇信息技术股份有限公司 基于帧补偿的切图方法、电子设备及介质
CN114189646A (zh) * 2020-09-15 2022-03-15 深圳市万普拉斯科技有限公司 终端控制方法、装置、电子设备和存储介质
CN114261713A (zh) * 2022-01-29 2022-04-01 马鞍山钢铁股份有限公司 一种基于视觉感知的皮带偏移预警系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160277779A1 (en) * 2013-12-04 2016-09-22 Baidu Online Network Technology (Beijing) Co., Ltd Method and apparatus for processing video image
CN110414352A (zh) * 2019-06-26 2019-11-05 深圳市容会科技有限公司 从视频文件中提取ppt文件信息的方法及相关设备
CN110427819A (zh) * 2019-06-26 2019-11-08 深圳市容会科技有限公司 一种识别图像中ppt边框的方法及相关设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160277779A1 (en) * 2013-12-04 2016-09-22 Baidu Online Network Technology (Beijing) Co., Ltd Method and apparatus for processing video image
CN110414352A (zh) * 2019-06-26 2019-11-05 深圳市容会科技有限公司 从视频文件中提取ppt文件信息的方法及相关设备
CN110427819A (zh) * 2019-06-26 2019-11-08 深圳市容会科技有限公司 一种识别图像中ppt边框的方法及相关设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BASANT KUMAR等: "Development of improved SSIM quality index for compressed medical images", 《2013 IEEE SECOND INTERNATIONAL CONFERENCE ON IMAGE INFORMATION PROCESSING (ICIIP-2013)》, 9 January 2014 (2014-01-09) *
郑德品: "基于结构相似度的图像质量评价方法研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》, 15 May 2008 (2008-05-15) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832455A (zh) * 2020-06-30 2020-10-27 北京小米松果电子有限公司 获取内容图像的方法、装置、存储介质和电子设备
CN114189646A (zh) * 2020-09-15 2022-03-15 深圳市万普拉斯科技有限公司 终端控制方法、装置、电子设备和存储介质
CN114189646B (zh) * 2020-09-15 2023-03-21 深圳市万普拉斯科技有限公司 终端控制方法、装置、电子设备和存储介质
CN112287914A (zh) * 2020-12-27 2021-01-29 平安科技(深圳)有限公司 Ppt视频段提取方法、装置、设备及介质
CN113794815A (zh) * 2021-08-25 2021-12-14 中科云谷科技有限公司 用于提取视频关键帧的方法、装置及控制器
CN114155473A (zh) * 2021-12-09 2022-03-08 成都智元汇信息技术股份有限公司 基于帧补偿的切图方法、电子设备及介质
CN114261713A (zh) * 2022-01-29 2022-04-01 马鞍山钢铁股份有限公司 一种基于视觉感知的皮带偏移预警系统及方法

Also Published As

Publication number Publication date
CN111104913B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN111104913B (zh) 一种基于结构及相似度的视频提取ppt方法
CN110569699B (zh) 对图片进行目标采样的方法及装置
US9235759B2 (en) Detecting text using stroke width based text detection
US7519231B2 (en) Hierarchical scheme for blur detection in a digital image
CN108805116B (zh) 图像文本检测方法及其系统
EP3114687B1 (en) Method and device for processing a picture
CN104978578B (zh) 手机拍照文本图像质量评估方法
CN107945111B (zh) 一种基于surf特征提取结合cs-lbp描述符的图像拼接方法
US8155396B2 (en) Method, apparatus, and program for detecting faces
CN111695540B (zh) 视频边框识别方法及裁剪方法、装置、电子设备及介质
CN105678213B (zh) 基于视频特征统计的双模式蒙面人事件自动检测方法
CN111415302B (zh) 图像处理方法、装置、存储介质及电子设备
CN112784835B (zh) 圆形印章的真实性识别方法、装置、电子设备及存储介质
CN109948521B (zh) 图像纠偏方法和装置、设备及存储介质
CN111915635A (zh) 支持自阅卷的试题解析信息生成方法及系统
CN111797832B (zh) 一种图像感兴趣区域自动生成方法及系统及图像处理方法
US7440636B2 (en) Method and apparatus for image processing
CN117459661A (zh) 一种视频处理方法、装置、设备及机器可读存储介质
Taya et al. Detecting tampered regions in JPEG images via CNN
CN110728316A (zh) 一种课堂行为检测方法、系统、装置和存储介质
TWI384418B (zh) 採用區域架構之影像處理方法及系統
CN111144256B (zh) 基于视频动态分析的电子表格公式合成与错误检测方法
CN113569645A (zh) 基于图像检测的轨迹生成方法、装置及系统
JP2004151815A (ja) 特定領域抽出方法、特定領域抽出装置、特定領域抽出プログラム及びそのプログラムを記録した記録媒体
CN113117341B (zh) 图片处理方法及装置、计算机可读存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant