CN113112519B - 基于感兴趣目标分布的关键帧筛选方法 - Google Patents

基于感兴趣目标分布的关键帧筛选方法 Download PDF

Info

Publication number
CN113112519B
CN113112519B CN202110439224.2A CN202110439224A CN113112519B CN 113112519 B CN113112519 B CN 113112519B CN 202110439224 A CN202110439224 A CN 202110439224A CN 113112519 B CN113112519 B CN 113112519B
Authority
CN
China
Prior art keywords
frame
shot
video frame
video
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110439224.2A
Other languages
English (en)
Other versions
CN113112519A (zh
Inventor
傅志中
蒲博建
徐进
周宁
李宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110439224.2A priority Critical patent/CN113112519B/zh
Publication of CN113112519A publication Critical patent/CN113112519A/zh
Application granted granted Critical
Publication of CN113112519B publication Critical patent/CN113112519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/181Segmentation; Edge detection involving edge growing; involving edge linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于感兴趣目标分布的关键帧筛选方法,属于图像处理技术领域。本发明包括:采用多种特征提取方式对各视频帧图像进行特征提取,并对提取的特征向量进行归一化处理;计算每种特征向量下的相邻帧间的特征距离,所有种特征距离的加权和得到相邻帧间差异;基于邻帧间差异曲线根据局部自适应双阈值实现镜头分割,以及基于神经网络对各视频帧图像进行目标检测处理;对获取的镜头内视频帧进行检测,获取目标的类别、位置、检测框的面积;基于目标检测结果,根据视频帧中目标分布和数量的差异来对镜头内的视频帧图像进行进一步分割为子镜头;在子镜头边界内选取目标信息丰富度最高的帧作为关键帧。本发明可应用于监控视频、影视视频。

Description

基于感兴趣目标分布的关键帧筛选方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于感兴趣目标分布的关键帧筛选方法。
背景技术
随着我国城市智能化和物联网技术的发展,监控视频系统已经用于各行各业。监控视频虽然具有表现力强、蕴涵信息量大、形象生动等优点,但其变化大以及巨大的数据量以及抽象程度低等缺点,使得对它们的管理和检索相当困难。随着视频数据的快速增长(大约每10年视频数据总量将增加50倍),对人力资源和存储器的需求必定会越来越高。随着技术的进步,关键帧提取等技术的出现将为这个问题的解决提供科学方案。
关键帧提取技术主要是将视频中的冗余信息去除,保留具有代表性的视频帧,这些帧可以很好的代表整个视频的内容,最大化的减少数据存储量。传统的关键帧提取方法主要基于图像的底层特征例如纹理特征、颜色特征等,再通过不同筛选算法处理获取不同的关键帧,例如基于镜头的关键帧提取、基于内容的关键帧提取、基于聚类算法的关键帧提取等。但是这些算法也存在着不能自适应设置关键帧提取阈值、提取灵活度低、视频图像信息利用过于片面等缺点,其次,传统的关键帧提取都是基于图像的底层特征,不能很好的反应视频的目标信息,提取出的关键帧不能很好的包含目标对象(感兴趣的内容),容易造成目标缺失等问题。
发明内容
本发明实施例提供了一种基于感兴趣目标分布的关键帧筛选方法,可用于提高提取关键帧的鲁棒性,从而提升基于所得到的关键帧进行镜头分割的准确性。
本发明的基于感兴趣目标分布的关键帧筛选方法,包括下列步骤:
1、基于感兴趣目标分布的关键帧筛选方法,其特征在于,包括下列步骤:
步骤1:采用M种特征提取方式,对待处理视频的每个视频帧图像进行特征向量提取,得到各视频帧图像的M种特征向量,其中M为正整数;
步骤2:分别对每一种特征向量进行归一化处理,得到视频帧图像归一化后的特征向量,并基于相邻帧的归一化后的特征向量之间的欧式距离,得到相邻帧之间的M种帧间距离,基于相邻帧之间的M种帧间距离的加权和得到相邻帧的帧间差异;
步骤3:基于帧间差异曲线,根据局部自适应双阈值对待处理视频进行镜头分割,获取镜头边界,其中,第一局部自适应阈值大于第二局部自适应阈值,且第一、二局部自适应阈值均与视频局部帧间差异正相关;
步骤4:基于用于目标检测的神经网络对各镜头内的视频帧进行检测,获取目标检测结果,包括目标的类别、位置和检测框面积;
步骤5:基于步骤4的目标检测结果,根据视频帧中目标分布和数量的差异对各镜头内的视频帧图像进行子镜头分割;
步骤6:在子镜头边界内选取目标信息丰富度最高的帧作为关键帧,获取关键帧筛选结果。
进一步的,步骤3中,基于第一局部自适应阈值进行突变镜头的检测,基于第二局部自适应阈值进行渐变镜头的检测。
进一步的,将第一、二局部自适应阈值设置为:
计算前一个选区的镜头的边界帧到当前帧的相邻帧的帧间差异的平均相邻差异md;
将第一局部自适应阈值设置为μhigh=α·md;
将第二局部自适应阈值设置为μlow=β·md;
其中,系数α和β满足:α>β>0。
进一步的,α的优值范围为[8.0,15.0],β的取值范围为[3.5,8.5]。
进一步的,为了尽可能的防止关键帧的误检,基于全局阈值来对第一局部自适应阈值做进一步的限定。定义gμ表示全局阈值,其与待处理视频的相邻帧的帧间差异的均值正相关,并将当前的第一局部自适应阈值更新为:max(μhigh,gμ)。
进一步的,突变镜头和渐变镜头的检测为:
突变镜头的检测:
定义fi表示当前视频帧,其中,视频帧号i≥2;
判断当前视频帧fi与其前一帧fi-1的帧间差异d(fi-1,fi)是否小于μhigh,若是,则执行渐变镜头的检测;否则,计算当前视频帧fi的前一帧fi-1与fi之后的第一指定帧之间的第一帧间差异,以及当前视频帧fi的前两帧fi-1与fi之后的第二指定帧之间的第二帧间差异,基于第一帧间差异和第二帧间差异的均值得到均值td,并判断td是否大于μhigh,若是,则当前视频帧fi为突变边界,并将fi加入镜头边界集;若否,则将当前视频帧fi为加入异常标记集,其中,镜头边界集和异常标记集的初始值均为空集,第一指定帧小于第二指定帧;否则,对当前视频帧fi的后一帧进行突变镜头的检测;
渐变镜头的检测:
判断帧间差异d(fi-1,fi)是否小于μlow,若是,则对当前视频帧fi的后一帧进行突变镜头的检测;否则,依次遍历当前视频帧fi之后的任意视频帧fi+γ,计算当前视频帧fi的前一帧fi-1与视频帧fi+γ之间的帧间差异d(fi-1,fi+γ),并判断帧间差异d(fi-1,fi+γ)是否大于或等于μhigh,若是,则视频帧fi+γ作为渐变镜头的结束帧,并将视频帧fi+γ加入镜头边界集中;若否,则确定帧间隔数γ是否大于指定上限,若是,则视频帧fi+γ为为渐变镜头的结束帧,并将视频帧fi+γ加入镜头边界集中。
进一步的,步骤5包括:
按照指定的比例对视频帧图像尺寸进行缩小,得到包括视频帧图像在内的多个图像区域(即多个图像区域的中心点重合,但是图像区域尺寸不同),并为每个图像区域Ik设置一个权重系数wk,且图像区域尺寸越小,权重系数wk越大;
根据目标检测结果,对基于镜头边界所确定的镜头中的视频帧进行子镜头分割处理:
从镜头的第2帧开始,依次遍历镜头中的每个视频帧,对当前视频帧fi,统计视频帧fi的视频帧图像的检测框的中心点处于图像区域尺寸小于视频帧图像尺寸的图像区域的类别和各类别的数量,并与当前视频帧fi的前一帧fi-1比较,若各类别的数量相同,则计算当前视频帧fi的前一帧fi-1的对应检测框的交并比(即同一检测目标的检测框),若所述交并比的均值低于指定阈值,则将该视频帧fi-1划分为子镜头边界。
进一步的,步骤6包括:
确定每个检测目标的检测框的中心点所位于的图像区域,并获取各图像区域内的检测框面积sk
基于图像区域Ik的权重系数wk与其内的检测框面积sk进行加权求和,得到每个检测框所对应的检测目标的目标信息丰富度w;
选取各子镜头内目标信息丰富度w最大的视频帧作为当前子镜头的关键帧,若子镜头不包含目标信息,则选取该子镜头内与前一子镜头的关键帧的帧间距离最大的视频帧作为关键帧。
此外,步骤6还可以包括对得到的关键帧进行去冗余处理,得到最终的关键帧筛选结果。
本发明实施例提供的技术方案至少带来如下有益效果:
1.本发明实施例结合了传统技术和深度学习技术,提取出图像的底层特征和深度特征,并进行多特征融合,该特征对目标的表达能力更充分,镜头分割更为准确,提高了本发明实施例所提取的关键帧的鲁棒性。
2.本发明实施例提供一种基于局部自适应双阈值的镜头分割方式,摆脱了传统镜头分割算法需要人工设定关键帧阈值的问题,从而能够灵活、准确的实现镜头分割。
3.本发明实施例引入了目标检测技术,在镜头内通过目标信息丰富度选取关键帧,提取的关键帧代表性更好,而且可以更改感兴趣目标而选取不同的关键帧,更加具有应用价值。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种基于感兴趣目标分布的关键帧筛选方法的流程图;
图2是本发明实施例中,渐变镜头检测流程图;
图3是本发明实施例中,非均匀分块划分图像模板示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
针对目前视频关键帧提取技术存在的一些问题,本发明实施例提供了一种基于感兴趣目标分布的关键帧筛选方法,以解决现有关键帧筛选方法中存在的图像底层特征不够语义化、关键帧提取阈值不能自适应生成的技术问题,从而提高关键帧筛选的灵活度,并充分利用了视频图像的主要目标信息,结合深度学习技术,提供了一种新的关键帧筛选方式。
参见图1,本发明实施例提供的于感兴趣目标分布的关键帧筛选方法,包括以下步骤:
步骤1:特征提取。
采用多种特征提取方式,对待处理视频(为了便于描述,将其记为视频V)的每一帧图像(视频帧)进行特征提取,得到每一帧的多种特征向量。
示例性,特征提取方式包括但不限于:HSV颜色空间直方图、方向梯度直方图、光流法运动信息、VGG网络提取的深度特征。
在一种可能的实现方式中,所述步骤1包括:
1-1)读取视频V中的一帧图像fi(i=1,2,…,N),将图像由RGB颜色空间转换到HSV颜色空间,H、S、V各分量转换公式如下:
Figure BDA0003034358750000051
然后对HSV颜色空间进行非均匀量化,设定{H,S,V}量化级数为{Qh,Qs,Qv},以16:4:4比例进行量化。其中,Qh,Qs,Qv分别表示颜色分量H,S,V的量化级数。
量化后共产生Qh×Qs×Qv的颜色子空间,量化后的颜色空间按Qh:Qs:Qv的比例将各颜色分量融合为特征矢量Lhsv,计算公式如下:
Lhsv=H×Qs×Qv+S×Qs+V
1-2)计算方向梯度直方图HOG计算视频帧的形状特征。
首先通过梯度算子[-1,0,1]和[-1,0,1T与视频帧图像进行卷积运算,得到水平和垂直的梯度分量Gx和Gy,设像素点为(x,y),该点像素值为P(x,y),定义Gx(x,y)、Gy(x,y)分别为该像素点的水平梯度方向和垂直梯度方向,并按照下式计算出像素点(x,y)的梯度大小G(x,y)、梯度方向θ(x,y)
Gx(x,y)=P(x+1,y)-P(x-1,y)
Gy(x,y)=G(x,y+1)-G(x,y-1)
Figure BDA0003034358750000052
Figure BDA0003034358750000053
其中,上标“T”表示转置。
然后将图像划分为多个大小相同的正方块,即单元块,例如划分为8*8的单元块,并统计分析各单元块中的每个像素点的梯度方向,得到梯度方向直方图,表示为向量Vhog,然后对每个单元块的梯度方向直方图进行归一化,得到最终的特征向量Lhog
1-3)基于图像金字塔的光流法计算图像运动特征。
假设视频帧相邻两幅图像的灰度图为fi,fi+1,fi(x,y)表示图像fi在(x,y)位置处的灰度值,设图像fi上的像素点(x,y)匹配到图像fi+1上的像素点为:(x+dx,y+dy),可使得灰度值fi(x,y)与fi+1(x+dx,y+dy)之间的误差最小,则位移(dx,dy)成为这两点的光流。
设邻域窗口的大小为w,计算图像fi+1与光流矢量d相加后与图像fi的最小差值的函数ε的公式如下所示:
Figure BDA0003034358750000061
其中,(ux,uy)表示当前邻域窗口的起始位置。
然后对图像进行金字塔分层,上层图像每次缩放为下层图像的一半,分辨率低的图像分配在最顶层,原始图像分配在最底层。在图像金字塔最顶层进行光流估计,递归求解到最底层,金字塔层设为li,每一层的计算公式为:
Figure BDA0003034358750000062
其中,
Figure BDA0003034358750000063
表示图像在第li层运算中的当前邻域窗口的起始位置,
Figure BDA0003034358750000064
表示图像在第li层运算中的光流初始值,
Figure BDA0003034358750000065
表示在第li层运算中的光流误差,每一层光流估计结果传递到下一层计算公式为如下所示,最顶层的光流初值设置为0:
gl-1=2(gl+dl)
然后通过构建特征金字塔,示例性的,可将图像金字塔层数设置为3层,以固定比例1/2缩小,最终计算出视频帧图像的运动特征向量Llk
1-4)采用预训练好的神经网络视频帧图像深度特征。
示例性的,可采用ImageNet(用于视觉对象识别软件研究的大型可视化数据库)预训练好的VGG13网络提取视频帧图像深度特征。首先,对视频帧图像进行尺寸归一化处理,以使其与待提取特征的神经网络的输入相匹配。例如将视频帧图像缩放为224*224大小。对于VGG13网络而言,其网络模型一共包括13个卷积层,每一层的输出作为下一层的输入,每一层会输出一个特征图(Feature map),为四维张量,将归一化后的视频帧图像作为VGG13的输入,采取网络最后一层输出的特征作为深度特征Lvgg
步骤2:计算帧间差异。
利用欧式距离计算各特征向量的距离并归一化,利用不同加权系数进行加权获得相邻视频帧间特征差异。
在一种可能的实现方式中,所述步骤2包括:
2-1)在提取HSV颜色空间直方图特征Lhsv、方向梯度直方图特征Lhog、L-K光流法运动特征Llk、VGG网络深度特征Lvgg四种特征后,首先对各特征向量进行归一化处理,归一化公式如下:
Figure BDA0003034358750000071
其中,fi表示视频帧图像的序号,取值为f1~fn,n表示视频V包括的视频帧图像数,
Figure BDA0003034358750000072
为视频帧图像提取的特征向量。
对四种特征向量Lhsv、Lhog、Llk、Lvgg归一化后,分别计算帧间的特征向量的距离(简称帧间距离或特征距离),由于特征维度较高,向量距离的计算采用简单直接的欧式距离计算,欧式距离计算公式如下:
Figure BDA0003034358750000073
其中,m表示特征向量种数,
Figure BDA0003034358750000074
表示视频帧fi的第j种归一化后的特征向量。
2-2)根据视频帧图像的各帧间距离dhsv,dhog,dlk,dvgg,对各帧间距离以合理的系数进行加权求和,得到总帧间距离,总帧间距离加权公式为:
d=α1·dhsv2·dhog3·dlk4·dvgg
其中α1234为权重因子,取值范围皆在[0,1],满足α1234=1。
进一步的,在充分考虑到深度特征的特征语义化程度更高的前提下,采用权重因子比例为0.2:0.2:0.2:0.4。采用这种方法可以直接快速的将各物理意义不同和取值范围不同的特征向量进行融合处理,最终得到总帧间距离,即帧间差异。
步骤3:镜头分割。
根据相邻帧间差异曲线,根据局部自适应双阈值实现镜头分割。
在一种可能的实现方式中,所述步骤3包括:
3-1)设定自适应阈值μhigh和μlow,μhigh和μlow可以根据滑动窗口大小而调整,设fi为当前帧,计算前一个选取的镜头边界帧(若前面没有选取到镜头边界,则取视频帧图像的第一帧f1)到当前帧的平均总帧间距离值md,即视频局部帧间差异,其计算方式如下:
Figure BDA0003034358750000081
其中,N表示前一个选取的镜头边界帧(或f1)到当前帧的帧数。
通过局部平均帧间距离可以设置自适应阈值μhigh和μlow,计算方式如下:
μhigh=α·md,μlow=β·md,α>β>0
利用不同类型的视频进行分析对比,α的优值范围为[8.0,15.0],β的取值范围为[3.5,8.5]之间能取得较好结果,优选的,可将α设置为10.5,β设置为4.5。
3-2)设定全局阈值gμ,由于在镜头内部的内容变化相差不会太大,在一些镜头内部的帧间差异平均值会十分接近0,导致无论视频帧只是出现微小的变化,也会引起相邻帧间差异的突然变大而超过设置的阈值,导致误检为关键帧,为了防止这种情况,可以增设一个全局阈值gμ,设置的依据是突变帧的相邻帧间差异应该大于整段视频的帧间差异平均值。gμ设置方式如下所示:
Figure BDA0003034358750000082
其中,n表示视频V包括的视频帧图像数,d(fi,fi+1)表示帧间差异θ为调节因子。θ的取值范围为[0,0.1]。优选的,可将θ的取值置为0.06。
若镜头内部的平均帧间差异接近于0,μhigh也会偏低,若μhigh<gμ,要求相邻帧帧间差异必须大于gμ才能判定为突变帧,即将μhigh更新为:max(μhigh,gμ)。
3-3)突变镜头的检测,设视频帧集为{f},从{f}的第二帧f2开始计算总帧间距离(帧间差异),若d(fi-1,fi)<μhigh,进入步骤3-4),否则判断fi是否镜头突变边界还是闪光等误判,根据对不同类型的视频的统计分析,视频中闪光帧往往会持续2~8帧,因此,可以通过计算fi-1,fi-2分别与后面的fi+9与fi+10的平均帧间差异均值td来判断闪光结束后视频内容是否出现了突变,计算方式如下:
Figure BDA0003034358750000083
若td>μhigh,则当前帧被判定为突变边界,将该边界值加入镜头边界集{bf}中,继续判断后续视频帧,否则可判定当前帧为变化帧(由闪光,剪辑等原因造成的),并将其加入异常标记集合{ef}中。
3-4)渐变镜头的检测。
镜头的渐变转化与摄像机的运动或者镜头缓慢变化等都会使得视频帧间差异度发生缓慢变化,镜头渐变处的相邻帧间差异相比较突变时小得多,不易检测,但是当前帧与后续帧的帧间差异会逐渐增大,且通常会大于μhigh,基于此,可以实现对渐变帧的检测。
如果当前帧间距离d(fi-1,fi)<μlow,判断下一预选边界帧序号,如果d(fi-1,fi)≥μlow,进入渐变边界判断流程,参见图2,如果当前帧fi进入渐变帧判断流程,依次判断是否满足d(fi-1,fi+n)≥μhigh,若不满足,则令n++(帧间隔数n自增1,初始值为1)后继续判断,否则判定fi+n为渐变镜头结束帧,根据对多种类型视频的统计与分析,视频渐变镜头的渐变过程基本不会超过12帧的范围,如果n>τ,可以直接判定fi+n为渐变镜头结束帧,并将视频帧图像fi+n添加进入{bf}中。其中τ设置为12。
步骤4:目标检测。利用目标检测网络对获取的镜头内视频帧进行检测,获取目标的类别、位置、检测框的面积s。本实施例中,采用的目标检测网络为YOLOv4-tiny网络。
步骤5:子镜头分割。
对镜头再进行子镜头分割,根据步骤4目标检测的结果,对镜头内的视频帧图像进行进一步分割为子镜头边界。
在一种可能的实现方式中,所述步骤5包括:
5-1)由于人类视觉的自动聚焦性,视频帧图像越中心的区域越是视频最想表达、突出展示的内容。基于此特性,可利用等面积矩形非均匀的环形划分图像,如图3所示,环形划分的矩形最外层的宽高为图像的宽高,由外及内以一定比例缩小,权重系数由w4至w1逐渐增加。基于此设计能更好的体现空间信息,同时也避免复杂背景、边缘物体运动对关键帧选取的影响。
5-2)根据步骤目标检测的结果,对步骤3获取的每一个镜头进行处理。
设镜头中视频帧可以表示为{f1,f2,…,fm},从f2开始依此对后序帧判断,设当前视频帧为fi,统计检测框中心点处于区域1~3(权重w1至w3所对应的区域,且区域数量可基于实际应用场景进行调整)的类别和各类别的数量,与fi-1比较,若检测出的各类别的数量相同,判断对应检测框的交并比IoU,交并比表示两个检测框的交集与并集的比值。最理想情况是完全重叠,即比值为1,计算公式如下所示:
Figure BDA0003034358750000091
其中area(A)∩area(B)表示框A与B的重叠的面积,area(A)∪area(B)表示A与B相并的面积。
通过计算所有检测出来的目标对应的检测框的IoU,并取平均值得到平均IoU,若该值低于指定值(优选值可设置为0.5),表示fi-1与fi的目标分布有较大变化,划分fi-1为子镜头边界,若平均IoU大于或等于指定值或者该帧未检测出目标信息,则跳过fi,判断镜头下一帧fi+1直到判断到终止帧。
步骤6:筛选关键帧。
在镜头边界内选取目标信息丰富度最高的帧作为关键帧,得到最终关键帧集合。
在一种可能的实现方式中,所述步骤6包括:
6-1)通过目标信息丰富度w筛选子镜头中关键帧,目标信息丰富度w为:每个检测目标的检测边框的中心点位于分块划分的某区域就使用该区域的设定权重对该区域内的检测框面积进行加权计算,计算公式如下:
w=s1·w1+s2·w2+s3·w3+s4·w4
其中,s1~s4表示区域1~3内的检测框面积。
然后,通过选取子镜头内目标信息丰富度w的最大的帧作为本镜头的关键帧,其次,若子镜头不包含感兴趣目标信息,则选取该子镜头内与前一子镜头的关键帧的帧间距离最大的作为关键帧,最终得到初选关键帧。
6-2)关键帧去冗余。
视频由于镜头的切换或者剪辑等原因会出现相似镜头出现在不连续的时间点,造成相似的关键帧被提取,所以通过对初选关键帧的检测目标数量与分布对比,方法如步骤5-2),若视频帧中目标类别数量一致且检测框平均IoU高于指定值(例如0.5)表示这两张关键帧冗余,例如镜头的切换导致第1个子镜头选取关键帧和第3个子镜头选取的关键帧相似,可以保留第1个子镜头的关键帧而去除冗余的第3个子镜头的关键帧,降低提取关键帧的冗余度。
通过本发明提取出的关键帧图像序列,代表性更强,不仅提取的关键帧富含感兴趣目标信息,完整性高,而且可以通过感兴趣目标的设定而自动调整关键帧的选取,对于监控视频、影视视频具有很高的应用价值。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (8)

1.基于感兴趣目标分布的关键帧筛选方法,其特征在于,包括下列步骤:
步骤1:采用M种特征提取方式,对待处理视频的每个视频帧图像进行特征向量提取,得到各视频帧图像的M种特征向量,其中M为正整数;
步骤2:分别对每一种特征向量进行归一化处理,得到视频帧图像归一化后的特征向量,基于相邻帧的归一化后的特征向量之间的欧式距离,得到相邻帧之间的M种帧间距离,基于相邻帧之间的M种帧间距离的加权和得到相邻帧的帧间差异;
步骤3:基于帧间差异曲线,根据局部自适应双阈值对待处理视频进行镜头分割,获取镜头边界,其中,第一局部自适应阈值μhigh大于第二局部自适应阈值μlow,且第一、二局部自适应阈值μhigh、μlow均与视频局部帧间差异正相关;基于第一局部自适应阈值μhigh进行突变镜头的检测,基于第二局部自适应阈值μlow进行渐变镜头的检测;
突变镜头的检测为:
定义fi表示当前视频帧,其中,视频帧号i≥2;
判断当前视频帧fi与其前一帧fi-1的帧间差异d(fi-1,fi)是否小于μhigh,若是,则执行渐变镜头的检测;否则,计算当前视频帧fi的前一帧fi-1与fi之后的第一指定帧之间的第一帧间差异,以及当前视频帧fi的前两帧fi-2与fi之后的第二指定帧之间的第二帧间差异,基于第一帧间差异和第二帧间差异的均值得到均值td,并判断td是否大于μhigh,若是,则当前视频帧fi为突变边界,并将fi加入镜头边界集;若否,则将当前视频帧fi为加入异常标记集,其中,镜头边界集和异常标记集的初始值均为空集,第一指定帧小于第二指定帧;
渐变镜头的检测为:
判断帧间差异d(fi-1,fi)是否小于μlow,若是,则对当前视频帧fi的后一帧进行突变镜头的检测;否则,依次遍历当前视频帧fi之后的任意视频帧fi+γ,计算当前视频帧fi的前一帧fi-1与视频帧fi+γ之间的帧间差异d(fi-1,fi+γ),并判断帧间差异d(fi-1,fi+γ)是否大于或等于μhigh,若是,则视频帧fi+γ作为渐变镜头的结束帧,并将视频帧fi+γ加入镜头边界集中;若否,则确定帧间隔数γ是否大于指定上限,若是,则视频帧fi+γ为为渐变镜头的结束帧,并将视频帧fi+γ加入镜头边界集中;
步骤4:基于用于目标检测的神经网络对各镜头内的视频帧进行检测,获取目标检测结果,包括目标的类别、位置和检测框面积;
步骤5:基于步骤4的目标检测结果,根据视频帧中目标分布和数量的差异对各镜头内的视频帧图像进行子镜头分割;
步骤6:在子镜头边界内选取目标信息丰富度最高的帧作为关键帧,获取关键帧筛选结果。
2.如权利要求1所述的方法,其特征在于,将第一、二局部自适应阈值μhigh、μlow设置为:
计算前一个选区的镜头的边界帧到当前帧的相邻帧的帧间差异的平均相邻差异md;
将第一局部自适应阈值设置为μhigh=α·md;
将第二局部自适应阈值设置为μlow=β·md;
其中,系数α和β满足:α>β>0。
3.如权利要求2所述的方法,其特征在于,定义gμ表示全局阈值,其与待处理视频的相邻帧的帧间差异的均值正相关,并将当前的第一局部自适应阈值更新为:max(μhigh,gμ)。
4.如权利要求1所述的方法,其特征在于,第一指定帧与第二指定帧的间隔帧数为1。
5.如权利要求1所述的方法,其特征在于,步骤5包括:
按照指定的比例对视频帧图像尺寸进行缩小,得到包括视频帧图像在内的多个图像区域,并为每个图像区域Ik设置一个权重系数wk,且图像区域尺寸越小,权重系数wk越大;
根据目标检测结果,对基于镜头边界所确定的镜头中的视频帧进行子镜头分割处理:
从镜头的第2帧开始,依次遍历镜头中的每个视频帧,对当前视频帧fi,统计视频帧fi的视频帧图像的检测框的中心点处于图像区域尺寸小于视频帧图像尺寸的图像区域的类别和各类别的数量,并与当前视频帧fi的前一帧fi-1比较,若各类别的数量相同,则计算当前视频帧fi的前一帧fi-1的对应检测框的交并比,若所述交并比的均值低于指定阈值,则将该视频帧fi-1划分为子镜头边界。
6.如权利要求1所述的方法,其特征在于,步骤6包括:
确定每个检测目标的检测框的中心点所位于的图像区域,并获取各图像区域内的检测框面积sk
基于图像区域Ik的权重系数wk与其内的检测框面积sk进行加权求和,得到每个检测框所对应的检测目标的目标信息丰富度w;
选取各子镜头内目标信息丰富度w最大的视频帧作为当前子镜头的关键帧,若子镜头不包含目标信息,则选取该子镜头内与前一子镜头的关键帧的帧间距离最大的视频帧作为关键帧。
7.如权利要求6所述的方法,其特征在于,还包括对得到的关键帧进行去冗余处理,得到最终的关键帧筛选结果。
8.如权利要求1所述的方法,其特征在于,所述M种特征提取方式包括:HSV颜色空间直方图、方向梯度直方图、光流法运动信息和基于神经网络的特征提取。
CN202110439224.2A 2021-04-23 2021-04-23 基于感兴趣目标分布的关键帧筛选方法 Active CN113112519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110439224.2A CN113112519B (zh) 2021-04-23 2021-04-23 基于感兴趣目标分布的关键帧筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110439224.2A CN113112519B (zh) 2021-04-23 2021-04-23 基于感兴趣目标分布的关键帧筛选方法

Publications (2)

Publication Number Publication Date
CN113112519A CN113112519A (zh) 2021-07-13
CN113112519B true CN113112519B (zh) 2023-04-18

Family

ID=76719547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110439224.2A Active CN113112519B (zh) 2021-04-23 2021-04-23 基于感兴趣目标分布的关键帧筛选方法

Country Status (1)

Country Link
CN (1) CN113112519B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537119B (zh) * 2021-07-28 2022-08-30 国网河南省电力公司电力科学研究院 基于改进Yolov4-tiny的输电线路连接部件检测方法
CN113850299B (zh) * 2021-09-01 2024-05-14 浙江爱达科技有限公司 一种自适应阈值的胃肠道胶囊内镜视频关键帧提取方法
CN114422848A (zh) * 2022-01-19 2022-04-29 腾讯科技(深圳)有限公司 视频分割方法、装置、电子设备及存储介质
CN115811610B (zh) * 2023-01-13 2023-05-05 安徽医科大学 一种适用于无线内窥镜的图传方法及系统
CN117831136B (zh) * 2024-03-04 2024-05-07 贵州省种畜禽种质测定中心 基于远程监控的牛异常行为检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398855A (zh) * 2008-10-24 2009-04-01 清华大学 一种视频关键帧提取方法和系统
CN106792005A (zh) * 2017-01-17 2017-05-31 南通同洲电子有限责任公司 一种基于音视频结合的内容检测方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719271A (zh) * 2009-11-05 2010-06-02 浙江传媒学院 基于混合投影函数和支持向量机的视频镜头边界检查方法
US8947600B2 (en) * 2011-11-03 2015-02-03 Infosys Technologies, Ltd. Methods, systems, and computer-readable media for detecting scene changes in a video
CN104794737B (zh) * 2015-04-10 2017-12-15 电子科技大学 一种深度信息辅助粒子滤波跟踪方法
CN104867161B (zh) * 2015-05-14 2018-03-23 国家电网公司 一种视频处理方法及装置
CN104954791B (zh) * 2015-07-01 2018-01-30 中国矿业大学 矿井无线分布式视频编码中的关键帧实时选取方法
CN105657580B (zh) * 2015-12-30 2018-11-13 北京工业大学 一种胶囊内镜视频摘要生成方法
CN105761263A (zh) * 2016-02-19 2016-07-13 浙江大学 一种基于镜头边界检测和聚类的视频关键帧提取方法
CN106851437A (zh) * 2017-01-17 2017-06-13 南通同洲电子有限责任公司 一种提取视频摘要的方法
CN108491796B (zh) * 2018-03-22 2021-10-22 电子科技大学 一种时域周期点目标检测方法
CN111078943B (zh) * 2018-10-18 2023-07-04 山西医学期刊社 一种视频文本摘要生成方法及装置
CN110188625B (zh) * 2019-05-13 2021-07-02 浙江大学 一种基于多特征融合的视频精细结构化方法
CN110929560B (zh) * 2019-10-11 2022-10-14 杭州电子科技大学 融合目标检测与跟踪的视频半自动目标标注方法
CN112579823B (zh) * 2020-12-28 2022-06-24 山东师范大学 基于特征融合和增量滑动窗口的视频摘要生成方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398855A (zh) * 2008-10-24 2009-04-01 清华大学 一种视频关键帧提取方法和系统
CN106792005A (zh) * 2017-01-17 2017-05-31 南通同洲电子有限责任公司 一种基于音视频结合的内容检测方法

Also Published As

Publication number Publication date
CN113112519A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN113112519B (zh) 基于感兴趣目标分布的关键帧筛选方法
CN110956094B (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN114187491B (zh) 一种遮挡物体检测方法和装置
JP4653155B2 (ja) 画像処理方法及び装置
CN105184763B (zh) 图像处理方法和装置
CN110309781B (zh) 基于多尺度光谱纹理自适应融合的房屋损毁遥感识别方法
CN111882586B (zh) 一种面向剧场环境的多演员目标跟踪方法
CN111291826B (zh) 基于相关性融合网络的多源遥感图像的逐像素分类方法
Varnousfaderani et al. Weighted color and texture sample selection for image matting
CN105184808B (zh) 一种光场图像前后景自动分割方法
WO2005066896A2 (en) Detection of sky in digital color images
CN113076871A (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
CN106157330B (zh) 一种基于目标联合外观模型的视觉跟踪方法
CN111860587B (zh) 一种用于图片小目标的检测方法
CN107622239A (zh) 一种层次化局部结构约束的遥感图像指定建筑区检测方法
CN112418087A (zh) 一种基于神经网络的水下视频鱼类识别方法
CN113052170A (zh) 一种无约束场景下的小目标车牌识别方法
CN111241987B (zh) 基于代价敏感的三支决策的多目标模型视觉追踪方法
CN110188625B (zh) 一种基于多特征融合的视频精细结构化方法
CN115909221A (zh) 图像识别方法、系统、计算机设备及可读存储介质
CN111091129A (zh) 一种基于多重颜色特征流形排序的图像显著区域提取方法
CN114708615A (zh) 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质
CN115114963B (zh) 基于卷积神经网络的智能流媒体视频大数据分析方法
CN116485894A (zh) 视频场景建图与定位方法、装置、电子设备及存储介质
CN116311218A (zh) 基于自注意力特征融合的带噪植株点云语义分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant