CN113794815A - 用于提取视频关键帧的方法、装置及控制器 - Google Patents

用于提取视频关键帧的方法、装置及控制器 Download PDF

Info

Publication number
CN113794815A
CN113794815A CN202110983987.3A CN202110983987A CN113794815A CN 113794815 A CN113794815 A CN 113794815A CN 202110983987 A CN202110983987 A CN 202110983987A CN 113794815 A CN113794815 A CN 113794815A
Authority
CN
China
Prior art keywords
video frame
target video
frame
image
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110983987.3A
Other languages
English (en)
Inventor
向超前
黄跃峰
廖超
虢彦
张保华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zoomlion Heavy Industry Science and Technology Co Ltd
Zhongke Yungu Technology Co Ltd
Original Assignee
Zoomlion Heavy Industry Science and Technology Co Ltd
Zhongke Yungu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zoomlion Heavy Industry Science and Technology Co Ltd, Zhongke Yungu Technology Co Ltd filed Critical Zoomlion Heavy Industry Science and Technology Co Ltd
Priority to CN202110983987.3A priority Critical patent/CN113794815A/zh
Publication of CN113794815A publication Critical patent/CN113794815A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于提取视频关键帧的方法、装置及控制器。该方法包括:获取在时间上依次相邻的第一视频帧、第二视频帧和目标视频帧;分别对第一视频帧和第二视频帧以及第二视频帧和目标视频帧进行差值处理以得到第一相邻差值图和第二相邻差值图;确定目标视频帧与第二视频帧的相似度;根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动;在目标视频帧包含运动且相似度小于第一设定值的情况下,确定目标视频帧为前景关键帧;在目标视频帧不包含运动且相似度小于第二设定值的情况下,确定目标视频帧为背景关键帧,结合抽帧处理策略,可以保证本帧在一定冗余的情况下,提高选取关键帧的效率与质量。

Description

用于提取视频关键帧的方法、装置及控制器
技术领域
本发明涉及混凝土搅拌站智能监控技术领域,具体地,涉及一种用于提取视频关键帧的方法、装置及控制器。
背景技术
在混凝土领域中,需要对搅拌站进、卸料口对齐视频数据进行关键帧的提取。目前,针对固定视角的运动场景视频关键帧的选取策略是基于抽帧处理,即间隔一定时间选取一张视频帧作为关键帧。现有技术的抽帧处理无法区分前景视频帧和背景视频帧,导致后续需要花费大量人力进行前景视频帧和背景视频帧的区分,抽帧处理对样本间的差异性进行定量描述,容易遗漏高质量的关键帧,难以做到样本质量与样本数量的平衡,最终导致选取的关键帧质量较低。
发明内容
本发明的目的是提供一种用于提取视频关键帧的方法、装置及控制器,用以解决现有技术的抽帧质量较低的问题。
为了实现上述目的,本发明第一方面提供一种用于提取视频关键帧的方法,该方法包括:
获取在时间上依次相邻的第一视频帧、第二视频帧和第三视频帧;
将第三视频帧确定为目标视频帧;
对第一视频帧和第二视频帧进行差值处理以得到第一相邻差值图;
对第二视频帧和目标视频帧进行差值处理以得到第二相邻差值图;
确定目标视频帧与第二视频帧的相似度;
根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动;
在目标视频帧包含运动且相似度小于第一设定值的情况下,确定目标视频帧为前景关键帧;
在目标视频帧不包含运动且相似度小于第二设定值的情况下,确定目标视频帧为背景关键帧。
在本发明的实施例中,该方法还包括:
分别对第一视频帧、第二视频帧和目标视频帧进行图像滤波;
分别对滤波后的第一视频帧、第二视频帧和目标视频帧进行图像锐化。
在本发明的实施例中,根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动包括:
分别对第一相邻差值图和第二相邻差值图进行二值化处理;
分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理;
对形态学处理后的第一相邻差值图和第二相邻差值图进行与运算并滤除小面积连通区域以得到二值运动图像;
将二值运动图像中孤立的连通区域聚合成目标连通区域,并求出目标连通区域的外接矩形;
根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动。
在本发明的实施例中,分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理包括:
分别对二值化处理后的第一相邻差值图和第二相邻差值图进行腐蚀处理和膨胀处理。
在本发明的实施例中,根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动包括:
计算外接矩形的面积与目标视频帧的图像面积的比值;
在外接矩形的面积与目标视频帧的图像面积的比值大于设定阈值的情况下,确定目标视频帧包含运动;
在外接矩形的面积与目标视频帧的图像面积的比值不大于设定阈值的情况下,确定目标视频帧不包含运动。
在本发明的实施例中,确定目标视频帧与第二视频帧的相似度包括:
利用结构相似性算法计算目标视频帧与第二视频帧的相似度。
在本发明的实施例中,相似度满足以下公式:
Figure BDA0003230083940000031
c1=(k1L)2
c2=(k2L)2
其中,SSIM(x,y)为目标视频帧和第二视频帧的相似度;x和y分别为目标视频帧和第二视频帧;μx和μy分别为目标视频帧和第二视频帧的图像灰度矩阵的平均值;σx 2和σy 2分别为目标视频帧和第二视频帧的图像灰度矩阵的方差值;σxy为目标视频帧和第二视频帧的图像灰度矩阵的协方差;c1和c2为用来维持稳定的常数;L为像素值的动态范围;k1=0.01;k2=0.03。
在本发明的实施例中,该方法还包括:
计算目标视频帧的帧号;
判断目标视频帧的帧号是否满足抽帧规则;
在目标视频帧包含运动且满足抽帧规则的情况下,判定目标视频帧为前景关键帧;
在目标视频帧不包含运动且满足抽帧规则的情况下,判定目标视频帧为背景关键帧。
本发明第二方面提供一种控制器,被配置成执行上述的用于提取视频关键帧的方法。
本发明第三方面提供一种用于提取视频关键帧的装置,该装置包括:
视频采集模块,用于采集固定视角的运动场景视频;
上述的控制器。
本发明第四方面提供一种混凝土机械设备,包括上述的用于提取视频关键帧的装置。
通过上述技术方案,抽取三张时间上依次相邻的视频帧,判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度,从而在抽帧的同时能够区分前景关键帧和背景关键帧,不需要后续花费大量人力进行区分,结合抽帧处理策略,可以保证本帧在一定冗余的情况下,提高了选取关键帧的效率与质量。
本发明的其它特征和优点将在随后的具体实施例部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施例一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明一实施例提供的一种用于提取视频关键帧的方法的流程示意图;
图2是本发明实施例提供的一种用于判断目标视频帧是否包含运动的方法的流程示意图;
图3是本发明另一实施例提供的一种用于提取视频关键帧的方法的流程示意图;
图4是本发明实施例提供的控制器的结构框图;
图5是本发明实施例提供的一种用于提取视频关键帧的装置的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施例进行详细说明。应当理解的是,此处所描述的具体实施例仅用于说明和解释本发明,并不用于限制本发明。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
图1是本发明一实施例提供的一种用于提取视频关键帧的方法的流程示意图。参见图1,本发明实施例提供一种用于提取视频关键帧的方法,该方法可以包括下列步骤:
步骤S11、获取在时间上依次相邻的第一视频帧、第二视频帧和第三视频帧;
步骤S12、将第三视频帧确定为目标视频帧;
步骤S13、对第一视频帧和第二视频帧进行差值处理以得到第一相邻差值图;
步骤S14、对第二视频帧和目标视频帧进行差值处理以得到第二相邻差值图;
步骤S15、确定目标视频帧与第二视频帧的相似度;
步骤S16、根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动;
步骤S17、在目标视频帧包含运动且相似度小于第一设定值的情况下,确定目标视频帧为前景关键帧;
步骤S18、在目标视频帧不包含运动且相似度小于第二设定值的情况下,确定目标视频帧为背景关键帧。
本发明实施例的用于提取视频关键帧的方法可以应用于混凝土机械设备,可以包括但不限于搅拌站搅拌车进、卸料口对齐视频关键帧选取等。在本发明的实施例中,视频都是由静止的画面组成的,这些静止的画面被称为帧。考虑计算效率、对运动检测敏感性以及算法的抗干扰能力,本发明实施例需要选择三帧帧差法进行运动检测,因此需要读入在时间上依次相邻的三帧视频,即第一视频帧、第二视频帧和第三视频帧。将第三视频帧确定为目标视频帧,基于目标视频帧和时间上相邻的前两帧视频,利用三帧差法运动检测。三帧差法是相邻两帧差分算法的一种改进算法,选取连续三帧视频图像进行差分运算,该算法的基本原理是先选取视频帧中连续三帧图像并分别计算相邻两帧的差分图像,将差分图像通过选取适当的阈值进行二值化处理,得到二值化图像,最后在相邻二值差值图进行逻辑与运算,获取共同部分,从而获得运动目标的轮廓信息。当视频中存在移动的物体时,相邻帧之间在灰度上会有差别,求取两帧图像灰度差的绝对值,则静止的物体在差值图像上表现出来全都是0,而移动的物体特别是移动物体的轮廓处由于存在灰度变化为非0,这样就能大致计算出移动物体的位置、轮廓和移动路径。
在本发明的实施例中,分别在第一视频帧和第二视频帧之间以及第二视频帧和目标视频帧之间进行差值处理,得到两张相邻差值图,即第一相邻差值图和第二相邻差值图,以便根据两张相邻差值图判断目标视频帧是否包含运动。同时,计算目标视频帧与第二视频帧的相似度,从而根据目标视频帧是否包含运动,与对应的设定值进行比较,从而确定目标视频帧是不是可以提取的关键帧。
在本发明的实施例中,确定目标视频帧与第二视频帧的相似度可以通过图像结构相似性(Structural Similarity,SSIM)算法计算。SSIM是一种衡量两幅图像相似度的指标,自然图像具有极高的结构性,表现图像的像素间存在着很强的相关性,尤其是在空间相似的情况下。这些相关性在视觉场景中携带着关于物体结构的重要信息,利用SSIM算子计算目标视频帧与第二视频帧的相似度可以得到目标视频帧的差异性,使得视频帧间差异化可量化。在本发明的实施例中,前景关键帧即包含运动的关键帧,背景关键帧即不包含运动的关键帧。在目标视频帧包含运动的情况下,可以设定第一设定值,在相似度小于第一设定值的情况下,可以确定目标视频帧为前景关键帧。在目标视频帧不包含运动的情况下,可以设定第二设定值,在相似度小于第二设定值的情况下,可以确定目标视频帧为背景关键帧。
通过上述技术方案,抽取三张时间上依次相邻的视频帧,判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度,从而在抽帧的同时能够区分前景关键帧和背景关键帧,不需要后续花费大量人力进行区分,提高了选取关键帧的效率与质量。
在本发明的实施例中,该方法还可以包括:
分别对第一视频帧、第二视频帧和目标视频帧进行图像滤波;
分别对滤波后的第一视频帧、第二视频帧和目标视频帧进行图像锐化。
具体地,图像滤波即在尽量保留图像细节特征的条件下对目标图像的噪声进行控制,是图像预处理中不可缺少的操作,其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。图像锐化是补偿图像的轮廓,增强图像的边缘及灰度跳变的部分,使图像变得清晰,分为空间域处理和频域处理两类。图像锐化是为了突出图像上地物的边缘、轮廓,或某些线性目标要素的特征。这种滤波方法提高了地物边缘与周围像元之间的反差,因此也被称为边缘增强。通过对第一视频帧、第二视频帧和目标视频帧进行图像滤波和图像锐化,可以提取图像中用于认识和识别图像特征的参量,为图像识别准备数据。
图2是本发明实施例提供的一种用于判断目标视频帧是否包含运动的方法的流程示意图。参见图2,步骤S16、根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动可以包括:
S21、分别对第一相邻差值图和第二相邻差值图进行二值化处理;
S22、分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理;
S23、对形态学处理后的第一相邻差值图和第二相邻差值图进行与运算并滤除小面积连通区域以得到二值运动图像;
S24、将二值运动图像中孤立的连通区域聚合成目标连通区域,并求出目标连通区域的外接矩形;
S25、根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动。
在本发明的实施例中,判断目标视频帧是否包含运动可以根据第一相邻差值图和第二相邻差值图进行判断。在第一相邻差值图和第二相邻差值图相差太大的情况下,可以判定目标视频帧包含运动,在第一相邻差值图和第二相邻差值图的变化在变化阈值内,可以判定目标视频帧不包含运动。具体地,分别对第一相邻差值图和第二相邻差值图进行二值化处理,图像二值化是指将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在图像处理中,图像的二值化可以使图像中数据量大为减少,从而能凸显出目标视频帧的轮廓。
二值化处理后,在分别对第一相邻差值图和第二相邻差值图进行形态学处理。形态学即数学形态学,是图像处理中应用最为广泛的技术之一,用于从图像中提取对表达和描绘区域形状有意义的图像分量,使得后续的识别工作能够抓住目标视频帧最为本质的形状特征。在本发明的实施例中,分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理可以包括:分别对二值化处理后的第一相邻差值图和第二相邻差值图进行腐蚀处理和膨胀处理。腐蚀和膨胀是两种最基本也是最重要的形态学处理,其他大多数形态学处理也是基于腐蚀和膨胀两种基本运算复合而成。腐蚀处理可以消融物体的边界,而具体的腐蚀结果与图像本身和结构元素的形状有关。膨胀处理和腐蚀处理对子集合求补和反射运算是彼此对偶的。膨胀处理可以使得物体的边界扩大,具体的膨胀结果与图像本身和结构元素的形状有关。图像二值化之后,容易使一个连通的物体断裂为两个部分,这会给后续的图像分析造成困扰,因此需要借助膨胀桥接断裂的缝隙。
形态学处理后,可以对第一相邻差值图和第二相邻差值图进行与运算,进一步滤除相关伪运动区域,并滤除小面积连通区域以得到二值运动图像。接着将最终的二值运动图像中各个孤立连通区域聚合成目标连通区域,并利用聚合后的目标连通区域求取其外接矩形。利用外接矩形与图像面积的比值作为判别目标视频帧是否包含运动。
在本发明的实施例中,根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动可以包括:
计算外接矩形的面积与目标视频帧的图像面积的比值;
在外接矩形的面积与目标视频帧的图像面积的比值大于设定阈值的情况下,确定目标视频帧包含运动;
在外接矩形的面积与目标视频帧的图像面积的比值不大于设定阈值的情况下,确定目标视频帧不包含运动。
具体地,在外接矩形占比较大的情况下,表示目标视频帧包含运动,在外接矩形占比较小的情况下,表示目标视频帧不包含运动。
通过上述技术方案,可以更加高效并且精确地判断出目标视频帧是否包含运动,为之后的区分前景关键帧和背景关键帧提供了有力依据。
在本发明的实施例中,步骤S15、确定目标视频帧与第二视频帧的相似度可以包括:
利用结构相似性算法计算目标视频帧与第二视频帧的相似度。
在本发明的实施例中,相似度可以满足以下公式:
Figure BDA0003230083940000101
c1=(k1L)2
c2=(k2L)2
其中,SSIM(x,y)为目标视频帧和第二视频帧的相似度;x和y分别为目标视频帧和第二视频帧;μx和μy分别为目标视频帧和第二视频帧的图像灰度矩阵的平均值;σx 2和σy 2分别为目标视频帧和第二视频帧的图像灰度矩阵的方差值;σxy为目标视频帧和第二视频帧的图像灰度矩阵的协方差;c1和c2为用来维持稳定的常数;L为像素值的动态范围;k1=0.01;k2=0.03。
具体地,SSIM是一种衡量两幅图像相似度的指标,自然图像具有极高的结构性,表现图像的像素间存在着很强的相关性,尤其是在空间相似的情况下。这些相关性在视觉场景中携带着关于物体结构的重要信息,利用SSIM算子计算目标视频帧与第二视频帧的相似度可以得到目标视频帧的差异性,使得计算效率更高。作为结构相似性理论的实现,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。使用SSIM算法比较目标视频帧和第二视频帧的相似度,通过感知结构信息来评价失真更接近人眼。
需要说明的是,本发明实施例中确定目标视频帧与第二视频帧的相似度的方法不限于上述的SSIM算法,还可以是其他用于确定目标视频帧与第二视频帧的相似度的方法。
图3是本发明另一实施例提供的一种用于提取视频关键帧的方法的流程示意图。参见图3,该方法还可以包括:
步骤S31、计算目标视频帧的帧号;
步骤S32、判断目标视频帧的帧号是否满足抽帧规则;
步骤S33、在目标视频帧包含运动且满足抽帧规则的情况下,判定目标视频帧为前景关键帧;
步骤S34、在目标视频帧不包含运动且满足抽帧规则的情况下,判定目标视频帧为背景关键帧。
在本发明的实施例中,如果只通过判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度抽取前景关键帧和背景关键帧,可能会造成关键帧数量过少的情况。因此,本发明实施例还可以设定抽帧规则,例如,每间隔设定数目的视频帧抽取一张作为关键帧,这样,在目标视频帧包含运动的情况下,判断目标视频帧是否满足抽帧规则,在目标视频帧满足抽帧规则的情况下,判定为前景关键帧;在目标视频帧不包含运动的情况下,判断目标视频帧是否满足抽帧规则,在目标视频帧满足抽帧规则的情况下,判定为背景关键帧。通过上述技术方案,可以丰富视频关键帧的样本数目。
图4是本发明实施例提供的控制器的结构框图。参见图4,本发明提供一种控制器,被配置成执行上述的用于提取视频关键帧的方法。在本申请的实施例中,该控制器可以包括处理器410和存储器420。存储器420可以存储有指令,该指令在被处理器410执行时可以使得处理器410执行之前实施例中描述的用于提取视频关键帧的方法。
具体地,在本发明的实施例中,处理器410被配置成:
获取在时间上依次相邻的第一视频帧、第二视频帧和第三视频帧;
将第三视频帧确定为目标视频帧;
对第一视频帧和第二视频帧进行差值处理以得到第一相邻差值图;
对第二视频帧和目标视频帧进行差值处理以得到第二相邻差值图;
确定目标视频帧与第二视频帧的相似度;
根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动;
在目标视频帧包含运动且相似度小于第一设定值的情况下,确定目标视频帧为前景关键帧;
在目标视频帧不包含运动且相似度小于第二设定值的情况下,确定目标视频帧为背景关键帧。
本发明实施例的用于提取视频关键帧的方法可以应用于混凝土机械设备,可以包括但不限于搅拌站搅拌车进、卸料口对齐视频关键帧选取等。在本发明的实施例中,视频都是由静止的画面组成的,这些静止的画面被称为帧。考虑计算效率、对运动检测敏感性以及算法的抗干扰能力,本发明实施例需要选择三帧帧差法进行运动检测,因此需要读入在时间上依次相邻的三帧视频,即第一视频帧、第二视频帧和第三视频帧。将第三视频帧确定为目标视频帧,基于目标视频帧和时间上相邻的前两帧视频,利用三帧差法运动检测。三帧差法是相邻两帧差分算法的一种改进算法,选取连续三帧视频图像进行差分运算,该算法的基本原理是先选取视频帧中连续三帧图像并分别计算相邻两帧的差分图像,将差分图像通过选取适当的阈值进行二值化处理,得到二值化图像,最后在相连二值差值图进行逻辑与运算,获取共同部分,从而获得运动目标的轮廓信息。当视频中存在移动的物体时,相邻帧之间在灰度上会有差别,求取两帧图像灰度差的绝对值,则静止的物体在差值图像上表现出来全都是0,而移动的物体特别是移动物体的轮廓处由于存在灰度变化为非0,这样就能大致计算出移动物体的位置、轮廓和移动路径。
在本发明的实施例中,分别在第一视频帧和第二视频帧之间以及第二视频帧和目标视频帧之间进行差值处理,得到两张相邻差值图,即第一相邻差值图和第二相邻差值图,以便根据两张相邻差值图判断目标视频帧是否包含运动。同时,计算目标视频帧与第二视频帧的相似度,从而根据目标视频帧是否包含运动,与对应的设定值进行比较,从而确定目标视频帧是不是可以提取的关键帧。
在本发明的实施例中,确定目标视频帧与第二视频帧的相似度可以通过图像结构相似性(Structural Similarity,SSIM)算法计算。SSIM是一种衡量两幅图像相似度的指标,自然图像具有极高的结构性,表现图像的像素间存在着很强的相关性,尤其是在空间相似的情况下。这些相关性在视觉场景中携带着关于物体结构的重要信息,利用SSIM算子计算目标视频帧与第二视频帧的相似度可以得到目标视频帧的差异性,使得视频帧间差异化可量化。在本发明的实施例中,前景关键帧即包含运动的关键帧,背景关键帧即不包含的关键帧。在目标视频帧包含运动的情况下,可以设定第一设定值,在相似度小于第一设定值的情况下,可以确定目标视频帧为前景关键帧。在目标视频帧不包含运动的情况下,可以设定第二设定值,在相似度小于第二设定值的情况下,可以确定目标视频帧为背景关键帧。
通过上述技术方案,抽取三张时间上依次相邻的视频帧,判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度,从而在抽帧的同时能够区分前景关键帧和背景关键帧,不需要后续花费大量人力进行区分,提高了选取关键帧的效率与质量。
进一步地,处理器410还被配置成:
分别对第一视频帧、第二视频帧和目标视频帧进行图像滤波;
分别对滤波后的第一视频帧、第二视频帧和目标视频帧进行图像锐化。
具体地,图像滤波即在尽量保留图像细节特征的条件下对目标图像的噪声进行控制,是图像预处理中不可缺少的操作,其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。图像锐化是补偿图像的轮廓,增强图像的边缘及灰度跳变的部分,使图像变得清晰,分为空间域处理和频域处理两类。图像锐化是为了突出图像上地物的边缘、轮廓,或某些线性目标要素的特征。这种滤波方法提高了地物边缘与周围像元之间的反差,因此也被称为边缘增强。通过对第一视频帧、第二视频帧和目标视频帧进行图像滤波和图像锐化,可以提取图像中用于认识和识别图像特征的参量,为图像识别准备数据。
进一步地,处理器410还被配置成:
根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动可以包括:
分别对第一相邻差值图和第二相邻差值图进行二值化处理;
分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理;
对形态学处理后的第一相邻差值图和第二相邻差值图进行与运算并滤除小面积连通区域以得到二值运动图像;
将二值运动图像中孤立的连通区域聚合成目标连通区域,并求出目标连通区域的外接矩形;
根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动。
在本发明的实施例中,判断目标视频帧是否包含运动可以根据第一相邻差值图和第二相邻差值图进行判断。在第一相邻差值图和第二相邻差值图相差太大的情况下,可以判定目标视频帧包含运动,在第一相邻差值图和第二相邻差值图的变化在变化阈值内,可以判定目标视频帧不包含运动。具体地,分别对第一相邻差值图和第二相邻差值图进行二值化处理,图像二值化是指将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在图像处理中,图像的二值化可以使图像中数据量大为减少,从而能凸显出目标视频帧的轮廓。
二值化处理后,在分别对第一相邻差值图和第二相邻差值图进行形态学处理。形态学即数学形态学,是图像处理中应用最为广泛的技术之一,用于从图像中提取对表达和描绘区域形状有意义的图像分量,使得后续的识别工作能够抓住目标视频帧最为本质的形状特征。在本发明的实施例中,分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理可以包括:分别对二值化处理后的第一相邻差值图和第二相邻差值图进行腐蚀处理和膨胀处理。腐蚀和膨胀是两种最基本也是最重要的形态学处理,其他大多数形态学处理也是基于腐蚀和膨胀两种基本运算复合而成。腐蚀处理可以消融物体的边界,而具体的腐蚀结果与图像本身和结构元素的形状有关。膨胀处理和腐蚀处理对子集合求补和反射运算是彼此对偶的。膨胀处理可以使得物体的边界扩大,具体的膨胀结果与图像本身和结构元素的形状有关。图像二值化之后,容易使一个连通的物体断裂为两个部分,这会给后续的图像分析造成困扰,因此需要借助膨胀桥接断裂的缝隙。
形态学处理后,可以对第一相邻差值图和第二相邻差值图进行与运算,进一步滤除相关伪运动区域,并滤除小面积连通区域以得到二值运动图像。接着将最终的二值运动图像中各个孤立连通区域聚合成目标连通区域,并利用聚合后的目标连通区域求取其外接矩形。利用外接矩形与图像面积的比值作为判别目标视频帧是否包含运动。
进一步地,处理器410还被配置成:
根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动可以包括:
计算外接矩形的面积与目标视频帧的图像面积的比值;
在外接矩形的面积与目标视频帧的图像面积的比值大于设定阈值的情况下,确定目标视频帧包含运动;
在外接矩形的面积与目标视频帧的图像面积的比值不大于设定阈值的情况下,确定目标视频帧不包含运动。
具体地,在外接矩形占比较大的情况下,表示目标视频帧包含运动,在外接矩形占比较小的情况下,表示目标视频帧不包含运动。
通过上述技术方案,可以更加高效并且精确地判断出目标视频帧是否包含运动,为之后的区分前景关键帧和背景关键帧提供了有力依据。
进一步地,处理器410还被配置成:
确定目标视频帧与第二视频帧的相似度可以包括:
利用结构相似性算法计算目标视频帧与第二视频帧的相似度。
在本发明的实施例中,相似度可以满足以下公式:
Figure BDA0003230083940000161
c1=(k1L)2
c2=(k2L)2
其中,SSIM(x,y)为目标视频帧和第二视频帧的相似度;x和y分别为目标视频帧和第二视频帧;μx和μy分别为目标视频帧和第二视频帧的图像灰度矩阵的平均值;σx 2和σy 2分别为目标视频帧和第二视频帧的图像灰度矩阵的方差值;σxy为目标视频帧和第二视频帧的图像灰度矩阵的协方差;c1和c2为用来维持稳定的常数;L为像素值的动态范围;k1=0.01;k2=0.03。
具体地,SSIM是一种衡量两幅图像相似度的指标,自然图像具有极高的结构性,表现图像的像素间存在着很强的相关性,尤其是在空间相似的情况下。这些相关性在视觉场景中携带着关于物体结构的重要信息,利用SSIM算子计算目标视频帧与第二视频帧的相似度可以得到目标视频帧的差异性,使得计算效率更高。作为结构相似性理论的实现,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。使用SSIM算法比较目标视频帧和第二视频帧的相似度,通过感知结构信息来评价失真更接近人眼。
需要说明的是,本发明实施例中确定目标视频帧与第二视频帧的相似度的方法不限于上述的SSIM算法,还可以是其他用于确定目标视频帧与第二视频帧的相似度的方法。
进一步地,处理器410还被配置成:
计算目标视频帧的帧号;
判断目标视频帧的帧号是否满足抽帧规则;
在目标视频帧包含运动且满足抽帧规则的情况下,判定目标视频帧为前景关键帧;
在目标视频帧不包含运动且满足抽帧规则的情况下,判定目标视频帧为背景关键帧。
在本发明的实施例中,如果只通过判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度抽取前景关键帧和背景关键帧,可能会造成关键帧数量过少的情况。因此,本发明实施例还可以设定抽帧规则,例如,每间隔设定数目的视频帧抽取一张作为关键帧,这样,在目标视频帧包含运动的情况下,判断目标视频帧是否满足抽帧规则,在目标视频帧满足抽帧规则的情况下,判定为前景关键帧;在目标视频帧不包含运动的情况下,判断目标视频帧是否满足抽帧规则,在目标视频帧满足抽帧规则的情况下,判定为背景关键帧。通过上述技术方案,可以丰富视频关键帧的样本数目。
处理器410的示例可以包括但不限于通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、其他任何类型的集成电路(IC)以及状态机等等。处理器可以执行信号编码、数据处理、功率控制、输入/输出处理。
存储器420的示例可以包括但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被处理器访问的信息。
图5是本发明实施例提供的一种用于提取视频关键帧的装置的结构示意图。参见图5,本发明还提供一种用于提取视频关键帧的装置,该装置可以包括:
视频采集模块51,用于采集固定视角的运动场景视频;
上述的控制器52。
在本发明的实施例中,视频采集模块51与控制器52电连接,视频采集模块采集固定视角的运动场景视频,将视频传输至控制器,控制器抽取三张时间上依次相邻的视频帧,判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度,从而在抽帧的同时能够区分前景关键帧和背景关键帧,不需要后续花费大量人力进行区分,结合抽帧处理策略,可以保证本帧在一定冗余的情况下,提高了选取关键帧的效率与质量。
本发明还提供一种混凝土机械设备,可以包括上述的用于提取视频关键帧的装置。
以上结合附图详细描述了本发明的优选实施例,但是,本发明并不限于上述实施例中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施例中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施例之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (11)

1.一种用于提取视频关键帧的方法,其特征在于,所述方法包括:
获取在时间上依次相邻的第一视频帧、第二视频帧和第三视频帧;
将所述第三视频帧确定为目标视频帧;
对所述第一视频帧和所述第二视频帧进行差值处理以得到第一相邻差值图;
对所述第二视频帧和所述目标视频帧进行差值处理以得到第二相邻差值图;
确定所述目标视频帧与所述第二视频帧的相似度;
根据所述第一相邻差值图和所述第二相邻差值图判断所述目标视频帧是否包含运动;
在所述目标视频帧包含运动且所述相似度小于第一设定值的情况下,确定所述目标视频帧为前景关键帧;
在所述目标视频帧不包含运动且所述相似度小于第二设定值的情况下,确定所述目标视频帧为背景关键帧。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
分别对所述第一视频帧、所述第二视频帧和所述目标视频帧进行图像滤波;
分别对滤波后的所述第一视频帧、所述第二视频帧和所述目标视频帧进行图像锐化。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一相邻差值图和所述第二相邻差值图判断所述目标视频帧是否包含运动包括:
分别对所述第一相邻差值图和所述第二相邻差值图进行二值化处理;
分别对二值化处理后的所述第一相邻差值图和所述第二相邻差值图进行形态学处理;
对形态学处理后的所述第一相邻差值图和所述第二相邻差值图进行与运算并滤除小面积连通区域以得到二值运动图像;
将所述二值运动图像中孤立的连通区域聚合成目标连通区域,并求出所述目标连通区域的外接矩形;
根据所述外接矩形的面积与所述目标视频帧的图像面积的比值判断所述目标视频帧是否包含运动。
4.根据权利要求3所述的方法,其特征在于,所述分别对二值化处理后的所述第一相邻差值图和所述第二相邻差值图进行形态学处理包括:
分别对所述二值化处理后的所述第一相邻差值图和所述第二相邻差值图进行腐蚀处理和膨胀处理。
5.根据权利要求3所述的方法,其特征在于,所述根据所述外接矩形的面积与所述目标视频帧的图像面积的比值判断所述目标视频帧是否包含运动包括:
计算所述外接矩形的面积与所述目标视频帧的图像面积的比值;
在所述外接矩形的面积与所述目标视频帧的图像面积的比值大于设定阈值的情况下,确定所述目标视频帧包含运动;
在所述外接矩形的面积与所述目标视频帧的图像面积的比值不大于设定阈值的情况下,确定所述目标视频帧不包含运动。
6.根据权利要求1所述的方法,其特征在于,所述确定所述目标视频帧与所述第二视频帧的相似度包括:
利用结构相似性算法计算所述目标视频帧与所述第二视频帧的相似度。
7.根据权利要求6所述的方法,其特征在于,所述相似度满足以下公式:
Figure FDA0003230083930000031
c1=(k1L)2
c2=(k2L)2
其中,SSIM(x,y)为所述目标视频帧和所述第二视频帧的相似度;x和y分别为所述目标视频帧和所述第二视频帧;μx和μy分别为所述目标视频帧和所述第二视频帧的图像灰度矩阵的平均值;σx 2和σy 2分别为所述目标视频帧和所述第二视频帧的图像灰度矩阵的方差值;σxy为所述目标视频帧和所述第二视频帧的图像灰度矩阵的协方差;c1和c2为用来维持稳定的常数;L为像素值的动态范围;k1=0.01;k2=0.03。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算所述目标视频帧的帧号;
判断所述目标视频帧的帧号是否满足抽帧规则;
在所述目标视频帧包含运动且满足抽帧规则的情况下,判定所述目标视频帧为前景关键帧;
在所述目标视频帧不包含运动且满足抽帧规则的情况下,判定所述目标视频帧为背景关键帧。
9.一种控制器,其特征在于,被配置成执行根据权利要求1至8中任一项所述的用于提取视频关键帧的方法。
10.一种用于提取视频关键帧的装置,其特征在于,所述装置包括:
视频采集模块,用于采集固定视角的运动场景视频;
根据权利要求9所述的控制器。
11.一种混凝土机械设备,其特征在于,包括根据权利要求10所述的用于提取视频关键帧的装置。
CN202110983987.3A 2021-08-25 2021-08-25 用于提取视频关键帧的方法、装置及控制器 Pending CN113794815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110983987.3A CN113794815A (zh) 2021-08-25 2021-08-25 用于提取视频关键帧的方法、装置及控制器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110983987.3A CN113794815A (zh) 2021-08-25 2021-08-25 用于提取视频关键帧的方法、装置及控制器

Publications (1)

Publication Number Publication Date
CN113794815A true CN113794815A (zh) 2021-12-14

Family

ID=79182250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110983987.3A Pending CN113794815A (zh) 2021-08-25 2021-08-25 用于提取视频关键帧的方法、装置及控制器

Country Status (1)

Country Link
CN (1) CN113794815A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243073A (zh) * 2022-07-22 2022-10-25 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810711A (zh) * 2014-03-03 2014-05-21 郑州日兴电子科技有限公司 一种用于监控系统视频的关键帧提取方法及其系统
US20150326833A1 (en) * 2014-05-12 2015-11-12 Sony Corporation Image processing method, image processing device and monitoring system
CN107844779A (zh) * 2017-11-21 2018-03-27 重庆邮电大学 一种视频关键帧提取方法
CN110458144A (zh) * 2019-08-21 2019-11-15 杭州品茗安控信息技术股份有限公司 物体区域入侵检测方法、系统、装置及可读存储介质
CN111104913A (zh) * 2019-12-23 2020-05-05 福州大学 一种基于结构及相似度的视频提取ppt方法
CN113298059A (zh) * 2021-07-27 2021-08-24 昆山高新轨道交通智能装备有限公司 受电弓异物入侵检测方法、装置、计算机设备、系统及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810711A (zh) * 2014-03-03 2014-05-21 郑州日兴电子科技有限公司 一种用于监控系统视频的关键帧提取方法及其系统
US20150326833A1 (en) * 2014-05-12 2015-11-12 Sony Corporation Image processing method, image processing device and monitoring system
CN107844779A (zh) * 2017-11-21 2018-03-27 重庆邮电大学 一种视频关键帧提取方法
CN110458144A (zh) * 2019-08-21 2019-11-15 杭州品茗安控信息技术股份有限公司 物体区域入侵检测方法、系统、装置及可读存储介质
CN111104913A (zh) * 2019-12-23 2020-05-05 福州大学 一种基于结构及相似度的视频提取ppt方法
CN113298059A (zh) * 2021-07-27 2021-08-24 昆山高新轨道交通智能装备有限公司 受电弓异物入侵检测方法、装置、计算机设备、系统及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243073A (zh) * 2022-07-22 2022-10-25 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备及存储介质
CN115243073B (zh) * 2022-07-22 2024-05-14 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108805023B (zh) 一种图像检测方法、装置、计算机设备及存储介质
WO2018099136A1 (zh) 一种低照度图像降噪方法、装置及存储介质
CN104766076B (zh) 一种视频图像文字的检测方法和装置
CN106934806B (zh) 一种基于结构清晰度的无参考图失焦模糊区域分割方法
US10062195B2 (en) Method and device for processing a picture
CN111027546B (zh) 一种字符分割方法、装置以及计算机可读存储介质
KR101177626B1 (ko) 물체 검출 장치 및 방법
CN114742799B (zh) 基于自监督异构网络的工业场景未知类型缺陷分割方法
WO2017135120A1 (en) Computationally efficient frame rate conversion system
CN110599453A (zh) 一种基于图像融合的面板缺陷检测方法、装置及设备终端
CN111159150A (zh) 一种数据扩充方法及装置
CN111967345A (zh) 一种实时判定摄像头遮挡状态的方法
Chen et al. Color channel-based smoke removal algorithm using machine learning for static images
CN112949453A (zh) 烟火检测模型的训练方法、烟火检测方法及设备
CN114359665A (zh) 全任务人脸识别模型的训练方法及装置、人脸识别方法
CN113794815A (zh) 用于提取视频关键帧的方法、装置及控制器
CN114898273A (zh) 一种视频监控异常检测方法、装置及设备
CN111027564A (zh) 基于深度学习一体化的低照度成像车牌识别方法及装置
CN110728692A (zh) 一种基于Scharr算子改进的图像边缘检测方法
CN112686122B (zh) 人体及影子的检测方法、装置、电子设备、存储介质
CN112215266B (zh) 一种基于小样本学习的x光图像违禁物品检测方法
US7646892B2 (en) Image inspecting apparatus, image inspecting method, control program and computer-readable storage medium
CN114913588A (zh) 一种应用于复杂场景下的人脸图像修复及识别方法
CN105321178A (zh) 一种基于稀疏主成分分析的图像分割的方法及装置
CN112329572B (zh) 一种基于边框和闪光点的快速静态活体检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination