CN113205100A - 面向幻灯片智能截图的翻页误截识别方法 - Google Patents

面向幻灯片智能截图的翻页误截识别方法 Download PDF

Info

Publication number
CN113205100A
CN113205100A CN202110312746.6A CN202110312746A CN113205100A CN 113205100 A CN113205100 A CN 113205100A CN 202110312746 A CN202110312746 A CN 202110312746A CN 113205100 A CN113205100 A CN 113205100A
Authority
CN
China
Prior art keywords
image
window
miscut
slide
page turning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110312746.6A
Other languages
English (en)
Other versions
CN113205100B (zh
Inventor
张晖
叶子皓
赵海涛
孙雁飞
朱洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110312746.6A priority Critical patent/CN113205100B/zh
Publication of CN113205100A publication Critical patent/CN113205100A/zh
Application granted granted Critical
Publication of CN113205100B publication Critical patent/CN113205100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Studio Circuits (AREA)

Abstract

本发明公开了一种面向幻灯片智能截图场景的翻页误截识别方法,包括页面重叠和拼接两种情况的识别方法。识别图像E是否由X、Y重叠而成的步骤包括:利用透明度公式的反推公式计算透明度矩阵A,处理A中的异常值后计算A的均值和方差;根据A的均值和方差判断图像重叠情况。识别图像F是否由图像Z与其他图像拼接而成的步骤包括:在图像Z中选取若干窗口,根据窗口内像素值方差进行筛选,得到待匹配窗口集合{WZ};对{WZ}中的每个窗口都到F中进行图像匹配,去除匹配值过低的窗口对,得到匹配的窗口对集合{(WZ,WF)};根据{(WZ,WF)}计算得到位移向量集合{V};统计{V}中数据得到直方图,根据直方图判断图像拼接情况。

Description

面向幻灯片智能截图的翻页误截识别方法
技术领域
本发明涉及图像处理领域,具体涉及一种面向幻灯片智能截图的翻页误截识别方法。
背景技术
在学术研讨会、商务发布会等直播场景中会出现许多与演讲配套的幻灯片,这些幻灯片往往含有巨大的信息量,进而催生了将这些幻灯片截图保存、留档的需求。采用人工截图的方式保存幻灯片页面存在效率低、成本高等问题,因此采用软件自动截图的方式是首选。软件截取幻灯片可以采用画面差异度变化则截图的基本思路,画面差异度指视频中相邻两个关键帧之间的差异程度,当检测到直播画面中画面差异度出现峰值时说明画面发生一次突变对应幻灯片的翻页动作,依次便可进行幻灯片截图。但是采用画面差异度的方式截图会有一些误截问题,主要表现在幻灯片的翻页过程被检测并截取。常见的幻灯片翻页过程包括渐变型和位移型。渐变型翻页时,画面从旧幻灯片逐渐变化为新幻灯片,此时的画面实际上是新旧两张幻灯片的重叠,基于画面差异度的幻灯片检测方法会将这一重叠的图片当作新的幻灯片而检测,称之为重影误截。位移型翻页时,旧幻灯片向某个方向移动同时新幻灯片从画面外移动到画面内,此时的画面实际上是新旧两张幻灯片一部分的拼接,基于画面差异度的幻灯片检测方法同样会将这一拼接的图片当作新的幻灯片而检测,称之为拼接误截。
发明内容
针对上述问题,本发明提供了面向幻灯片智能截图的翻页误截识别方法,其目的在于判断一张图像是否是由其他图像重叠或拼接而来,可以用于判断类似上文中重影误截、拼接误截的问题。
一种面向幻灯片智能截图的翻页误截识别方法,如图3所示,用于对重影误截和拼接误截两种翻页误截情况进行识别,该方法包括:
(一)图像X、E、Y是基于画面差异度从视频中识别并连续截取的三张幻灯片图像,识别图像E是否属于重影误截的具体步骤如下:
步骤1:根据图像X、Y和E,计算透明度矩阵A;
步骤2:将透明度矩阵A中的无穷值inf修改为同符号的图像像素的最大灰度值、非数值NaN修改为其他有限数的均值,得到修改后的矩阵A′;
步骤3:计算A′的均值μ和方差σ2
Figure BDA0002990541730000021
Figure BDA0002990541730000022
其中n为A′的元素总数;
步骤4:若σ2小于预设第一阈值,则图像E是由图像X、Y重叠而成,属于重影误截,且重叠透明度为μ,否则图像E不属于重影误截;
(二)图像Z、F是基于画面差异度从视频中识别并连续截取的两张幻灯片图片,识别图像F是否属于拼接误截的具体步骤如下:
步骤(1):在图像Z中选取若干窗口,得到待匹配窗口集合{WZ};
步骤(2):将{WZ}中每个窗口与F进行匹配,得到匹配窗口对集合{(WZ,WF)};
步骤(3):根据{(WZ,WF)},计算得到位移向量集合{V},其中V表示起点为WZ、终点为WF的向量;
步骤(4):将{V}中相同的向量作为一个分组,每个分组内向量的数量作为直方高度,得到直方图,若{V}中位移向量数量与待匹配窗口数之比超过预设第二阈值、且直方图中最高的直方高度与{V}中位移向量数量之比超过预设第三阈值,则图像F由图像Z和其他图像拼接而成,属于拼接误截,否则不属于拼接误截。
进一步,步骤1中透明度矩阵A使用如下公式进行计算:
Figure BDA0002990541730000023
式中
Figure BDA0002990541730000027
表示按元素除。
进一步,步骤2中使用如下公式将非数值NaN修改为其他有限数:
Figure BDA0002990541730000024
式中A(i,j)表示A中第i行第j列元素。
进一步,步骤3中A′的均值μ和方差σ2的计算公式为:
Figure BDA0002990541730000025
Figure BDA0002990541730000026
其中n为A′的元素总数。
进一步,步骤(1)中采用滑动窗口法选取窗口,并选取窗口内像素方差大于预设第四阈值的窗口作为待匹配窗口,其中窗口内像素方差的计算公式如下:
Figure BDA0002990541730000031
式中W(i,j)表示窗口W内坐标(i,j)的像素,μ(W)表示窗口W内像素均值,m表示窗口W内像素数量。
进一步,步骤(2)中的匹配过程如下:
将WZ作为滤波矩阵在图像F上逐像素移动并计算,得到差异图DIFF:
DIFF(i,j)=diff(Wz,F[i:i+h,j:j+w])
其中DIFF(i,j)表示差异图DIFF中坐标(i,j)的像素值,h和w为Wz的高和宽,F[i:i+h,j:j+w]表示图像F中第i至i+h行、第j至j+w列范围的子图,diff(WZ,F(i:i+h,j:j+w))表示WZ和F(i:i+h,j:j+w)的差异值;
DIFF中最小像素值对应的位置即为WZ的匹配位置。
进一步,diff(·,·)定义如下:
diff(·,·)定义如下:
Figure BDA0002990541730000032
其中x和y表示同尺寸图像,k为x或y的像素总数,rx、gx、bx分别为图像x的红、绿、蓝通道图像,ry、gy、by分别为图像y的红、绿、蓝通道图像。
进一步,步骤(4)中拼接向量为直方图中直方高度最大所代表的位移向量,Z按照拼接向量平移后将与F部分重合。
有益效果:本发明能有效解决幻灯片智能截图场景中幻灯片在翻页时产生的重影误截和拼接误截问题。
附图说明
图1是重影误截的例图,其中(a)、(b)、(c)分别是X、E、Y;
图2是拼接误截的例图,其中(a)、(b)、分别是Z、F;
图3是本发明的方法流程图。
具体实施方式
下面结合附图以及具体实施例对本发明的技术方案作进一步阐述:
以图1为例说明本发明针对幻灯片翻页过程中页面重叠时产生的重影误截的识别过程。如图1中(a)、(b)、(c)所示的X、E、Y是由一种基于画面差异度从视频中识别并连续截取的三张幻灯片图片。其中E为X、Y重叠而成,其满足透明度叠加公式E=aX+(1-a)Y,其中a为透明度,该公式表明E由X和Y透明化后叠加而成。
步骤1:利用透明度叠加公式的反推公式计算透明度矩阵A:
Figure BDA0002990541730000041
式中
Figure BDA0002990541730000043
表示按元素除,因此矩阵A是与X、Y和E都同型的矩阵,A中的元素为对应像
素的透明度,根据透明度叠加公式可以发现如果E为X、Y叠加而成那么矩阵A中的所有元素理论上应该是相同的。
步骤2:当E并非X、Y叠加而成时,矩阵A中很可能出现大量异常值需要额外处理,包括无穷值inf和非数值NaN。其中inf源自除法中出现非零数除以零的情况,NaN源自除法中出现零除以零的情况。为了方便后续处理,需要将inf修改为同符号的图像像素的最大灰度值,因为A中最大的有限数即为像素可能的最大灰度值,本例中为255。因为NaN会在零除以零时产生,所以其理论上可以等于任何值,为了最小化后续步骤中方差的计算,所以修改NaN为其他有限数的均值,即:
Figure BDA0002990541730000042
修改异常值后的透明度矩阵为A′。
步骤3:实际上由于图片噪点、计算精度等原因,即使E是X、Y叠加而成的,其对应的透明度矩阵A′中的元素也不会全部相等,因此需要用统计方法来容忍一定的误差因素,需要计算透明度矩阵A′的均值μ和方差σ2
Figure BDA0002990541730000051
其中n为矩阵A′的元素总数,其中方差代表了数据的集中程度,根据以上步骤对附图1所示图像进行计算,所得均值μ=0.4033、方差σ2=0.8127。
步骤4:根据透明度矩阵A′的均值和方差判断图像重叠情况,方差越小说明数据越集中,也就说明矩阵A′中的元素越接近相等,所以当方差小于预设的重影阈值t时可以认为图像E由X和Y重叠而成,可以判断E为幻灯片翻页误截,重叠透明度即为A′的均值,判断过程表示为公式如下:
Figure BDA0002990541730000052
本例中重影阈值t=5,此时σ2<t,E为重影误截图像,重叠透明度为0.4033。
以图2为例说明本发明针对幻灯片翻页过程中页面重叠时产生的拼接误截的识别过程。如图2中(a)、(b)所示的Z、F是由一种基于画面差异度从视频中识别并连续截取的两张幻灯片图片。其中F为拼接图像,F中的部分区域与Z中的部分区域完全相同,另一部分区域则来自下一页幻灯片。
步骤1:在图像Z中选取若干窗口,选取方法可以采用滑动窗口法,设定窗口的尺寸和移动次数,让窗口在F中按步长不断移动,每次移动得到一个窗口。本例中选择窗口尺寸为100×100,且水平滑动10步、竖直滑动6步,共生成60个窗口。对于纯色背景等无内容的窗口进行下一步的匹配容易出现多个匹配点的问题,而像素值方差可以一定程度的反应图片中内容的多少,所以应当再根据窗口内像素方差进行筛选,像素方差计算如下:
Figure BDA0002990541730000053
式中W(i,j)表示窗口W内坐标(i,j)的像素,μ(W)表示窗口W内像素均值,m表示窗口W内像素数量。仅保留像素方差大于预设阈值的窗口,本例阈值取100,即σ2>100时保留,本例中保留了52个窗口,得到待匹配窗口集合{WX}。
步骤2:从{WX}中选择窗口WX到E中进行图像匹配,图像匹配是指在E中寻找与WX差异最小的部分WE,差异程度称为差异值,图像的匹配操作是一种基于差异值的图像滤波操作,将WX作为滤波矩阵在E上逐像素移动并计算画面差异度,其计算过程可以表示为:
DIFF(i,j)=diff(Wz,F[i:i+h,j:j+w]) (公式6)
其中DIFF(i,j)表示差异图DIFF中坐标(i,j)的像素,h和w为Wz的高和宽,F[i:i+h,j:j+w]表示图像F中第i至i+h行、第j至j+w列范围的子图,diff表示图像差异值,定义如下:
Figure BDA0002990541730000061
其中x和y为同尺寸图像,k为x或y的像素总数,rx、gx、bx分别为图像x的红、绿、蓝通道图像,ry、gy、by分别为图像y的红、绿、蓝通道图像。
DIFF中每个像素都表示WZ在当前位置的与F的画面差异程度,所以DIFF中最小值所在的位置就是WZ最匹配的位置。对{WZ}中的每个窗口都匹配完成后,可能有些窗口无法匹配,此时对应匹配窗口的差异值较高,去除差异值大于差异阈值的窗口对,本例中差异阈值取0.002,得到匹配的窗口对集合{(WZ,WF)},其中共有27对匹配窗口,如附图2中Z、F的线框所示。图Z的框中数字表示窗口标号,图F的框中数字表示窗口标号和差异值(为了显示效果,差异值均被乘以100后显示),窗口标号相同的两个线框即为一对匹配窗口(WZ,WF)。
步骤3:根据窗口对集合{(WZ,WF)},计算得到位移向量集合{V},其中位移向量V是起点为WZ、终点为WF的向量,可以窗口左上角坐标作差的方式计算V,窗口对(WZ,WF)的V表明了WZ按照V移动后将与F较为重合。本例中,{V}包含24个(0,-203)、2个(1,-203)和1个(0,0)。
步骤4:将{V}中相同的向量作为一个分组,分组内向量的数量作为直方高度,统计{V}得到直方图。若{V}中向量数量与滑动窗口数之比超过预设阈值tW,且直方图中最高的直方高度与{V}中向量数量之比超过预设阈值tV,则可以认为F的一部分与Z的一部分完全相同,即F由Z和其他图像拼接而成,拼接向量即为直方图中最高直方所代表的向量,Z按照拼接向量平移后将与F部分重合。本例中,取tW=0.33,tV=0.6,此时有
Figure BDA0002990541730000062
Figure BDA0002990541730000071
可以判断F为拼接误截图像,拼接向量为(0,-203)。
应当指出,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也在本申请权利要求的保护范围内。

Claims (8)

1.面向幻灯片智能截图的翻页误截识别方法,用于对重影误截和拼接误截两种翻页误截情况进行识别,其特征在于,该方法包括:
(一)图像X、E、Y是基于画面差异度从视频中识别并连续截取的三张幻灯片图像,识别图像E是否属于重影误截的具体步骤如下:
步骤1:根据图像X、Y和E,计算透明度矩阵A;
步骤2:将透明度矩阵A中的无穷值inf修改为同符号的图像像素的最大灰度值、非数值NaN修改为其他有限数的均值,得到修改后的矩阵A′;
步骤3:计算A′的均值μ和方差σ2
Figure FDA0002990541720000011
Figure FDA0002990541720000012
其中n为A′的元素总数;
步骤4:若σ2小于预设第一阈值,则图像E是由图像X、Y重叠而成,属于重影误截,且重叠透明度为μ,否则图像E不属于重影误截;
(二)图像Z、F是基于画面差异度从视频中识别并连续截取的两张幻灯片图片,识别图像F是否属于拼接误截的具体步骤如下:
步骤(1):在图像Z中选取若干窗口,得到待匹配窗口集合{WZ};
步骤(2):将{WZ}中每个窗口与F进行匹配,得到匹配窗口对集合{(WZ,WF)};
步骤(3):根据{(WZ,WF)},计算得到位移向量集合{V},其中V表示起点为WZ、终点为WF的向量;
步骤(4):将{V}中相同的向量作为一个分组,每个分组内向量的数量作为直方高度,得到直方图,若{V}中位移向量数量与待匹配窗口数之比超过预设第二阈值、且直方图中最高的直方高度与{V}中位移向量数量之比超过预设第三阈值,则图像F由图像Z和其他图像拼接而成,属于拼接误截,否则不属于拼接误截。
2.根据权利要求1所述的面向幻灯片智能截图的翻页误截识别方法,其特征在于,步骤1中透明度矩阵A使用如下公式进行计算:
Figure FDA0002990541720000013
式中“÷”表示按元素除。
3.根据权利要求1所述的面向幻灯片智能截图的翻页误截识别方法,其特征在于,步骤2中使用如下公式将非数值NaN修改为其他有限数:
Figure FDA0002990541720000021
式中A(i,j)表示A中第i行第j列元素。
4.根据权利要求1所述的面向幻灯片智能截图的翻页误截识别方法,其特征在于,步骤3中A′的均值μ和方差σ2的计算公式为:
Figure FDA0002990541720000022
Figure FDA0002990541720000023
其中n为A′的元素总数。
5.根据权利要求1所述的面向幻灯片智能截图的翻页误截识别方法,其特征在于,步骤(1)中采用滑动窗口法选取窗口,并选取窗口内像素方差大于预设第四阈值的窗口作为待匹配窗口,其中窗口内像素方差的计算公式如下:
Figure FDA0002990541720000024
式中W(i,j)表示窗口W内坐标(i,j)的像素,μ(W)表示窗口W内像素均值,m表示窗口W内像素数量。
6.根据权利要求1所述的面向幻灯片智能截图的翻页误截识别方法,其特征在于,步骤(2)中的匹配过程如下:
将WZ作为滤波矩阵在图像F上逐像素移动并计算,得到差异图DIFF:
DIFF(i,j)=diff(Wz,F[i:i+h,j:j+w])
其中DIFF(i,j)表示差异图DIFF中坐标(i,j)的像素值,h和w为Wz的高和宽,F[i:i+h,j:j+ω]表示图像F中第i至i+h行、第j至j+w列范围的子图,diff(WZ,F(i:i+h,j:j+w))表示WZ和F(i:i+h,j:j+w)的差异值;
DIFF中最小像素值对应的位置即为WZ的匹配位置。
7.根据权利要求6所述的面向幻灯片智能截图的翻页误截识别方法,其特征在于,diff(·,·)定义如下:
Figure FDA0002990541720000031
其中x和μ表示同尺寸图像,k为x或y的像素总数,rx、gx、bx分别为图像x的红、绿、蓝通道图像,ry、gy、by分别为图像y的红、绿、蓝通道图像。
8.根据权利要求1所述的面向幻灯片智能截图的翻页误截识别方法,其特征在于,步骤(4)中拼接向量为直方图中直方高度最大所代表的位移向量,Z按照拼接向量平移后将与F部分重合。
CN202110312746.6A 2021-03-24 2021-03-24 面向幻灯片智能截图的翻页误截识别方法 Active CN113205100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110312746.6A CN113205100B (zh) 2021-03-24 2021-03-24 面向幻灯片智能截图的翻页误截识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110312746.6A CN113205100B (zh) 2021-03-24 2021-03-24 面向幻灯片智能截图的翻页误截识别方法

Publications (2)

Publication Number Publication Date
CN113205100A true CN113205100A (zh) 2021-08-03
CN113205100B CN113205100B (zh) 2022-07-29

Family

ID=77025569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110312746.6A Active CN113205100B (zh) 2021-03-24 2021-03-24 面向幻灯片智能截图的翻页误截识别方法

Country Status (1)

Country Link
CN (1) CN113205100B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276769A (zh) * 2018-03-13 2019-09-24 上海狮吼网络科技有限公司 一种视频画中画架构中直播内容定位方法
CN112528748A (zh) * 2020-11-16 2021-03-19 南京邮电大学 一种从视频中识别并截取静态幻灯片的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276769A (zh) * 2018-03-13 2019-09-24 上海狮吼网络科技有限公司 一种视频画中画架构中直播内容定位方法
CN112528748A (zh) * 2020-11-16 2021-03-19 南京邮电大学 一种从视频中识别并截取静态幻灯片的方法

Also Published As

Publication number Publication date
CN113205100B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
KR102140340B1 (ko) 컨볼루션 뉴럴 네트워크를 통해 이미지 위변조를 탐지하는 시스템 및 이를 이용하여 무보정 탐지 서비스를 제공하는 방법
Zhao et al. Detecting digital image splicing in chroma spaces
US8401333B2 (en) Image processing method and apparatus for multi-resolution feature based image registration
CN109829445B (zh) 一种视频流中的车辆检测方法
CN109740572B (zh) 一种基于局部彩色纹理特征的人脸活体检测方法
CN107590447A (zh) 一种文字标题识别方法及装置
CN103198311B (zh) 基于拍摄的图像来识别字符的方法及装置
CN108764039B (zh) 神经网络、遥感影像的建筑物提取方法、介质及计算设备
US20090169107A1 (en) Apparatus and method of recognizing image feature pixel point
WO2021139197A1 (zh) 一种图像处理方法及装置
US20100158409A1 (en) Method to Generate Object Focused Thumbnails for Digital Images
US9256792B2 (en) Image processing apparatus, image processing method, and program
KR100843513B1 (ko) 영상보정을 통한 얼굴 인식 방법
EP2423850B1 (en) Object recognition system and method
CN109447970B (zh) 基于能量转移和均匀缩放的图像重定向方法
CN113205100B (zh) 面向幻灯片智能截图的翻页误截识别方法
EP2466903B1 (en) A method and device for disparity range detection
CN114168052A (zh) 多图显示方法、装置、设备及存储介质
CN110782463B (zh) 分割方式的确定方法、装置、显示方法和设备、存储介质
CN115861922B (zh) 一种稀疏烟火检测方法、装置、计算机设备及存储介质
CN112990263B (zh) 一种用于密集小目标的高分辨率图像的数据增强方法
CN108182391B (zh) 一种基于教育视频自动提取不重复的幻灯片方法
CN105677669A (zh) 一种全景拼接图像排序方法及装置
CN108629786B (zh) 图像边缘检测方法及装置
KR101015646B1 (ko) 얼굴검출장치 및 이를 이용한 얼굴검출방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant