CN111510792B - 基于自适应加权图差异分析的视频摘要生成方法及系统 - Google Patents
基于自适应加权图差异分析的视频摘要生成方法及系统 Download PDFInfo
- Publication number
- CN111510792B CN111510792B CN202010441082.9A CN202010441082A CN111510792B CN 111510792 B CN111510792 B CN 111510792B CN 202010441082 A CN202010441082 A CN 202010441082A CN 111510792 B CN111510792 B CN 111510792B
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- image
- difference
- shot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 51
- 238000004458 analytical method Methods 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000000691 measurement method Methods 0.000 abstract description 5
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000005286 illumination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于自适应加权图差异分析的视频摘要生成方法及系统,获取待生成摘要的视频;对待生成摘要的视频,基于图建模进行视频表示;基于视频表示结果,利用自适应加权度量和自适应阈值检测视频镜头边界;对待生成摘要的视频的每个镜头提取关键帧。本公开基于自适应权重学习的图结构差异分析方法解决了帧间差异分析中存在的难以选择恰当差异度量方法的问题以及受限于固定阈值的问题,从而提高了本公开检测各种不同类型镜头转换的鲁棒性和视频摘要的准确性。
Description
技术领域
本公开涉及静态视频摘要自动生成(视频关键帧提取)技术领域,特别是涉及基于自适应加权图差异分析的视频摘要生成方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
近年来,随着摄影设备和视频软件的普及,使得互联网上各种视频数据爆炸性增长。用户有效地浏览、检索、存储海量的视频数据为一个巨大的挑战。为了解决这些问题,研究人员非常重视开发自动视频摘要技术。自动视频摘要技术可以解决这些问题,它生成一个的视频流的精简版本,只保留其最具信息和代表性的内容。
自动视频摘要技术可以分为两类:静态视频摘要(静态关键帧)和动态视频摘要(动态视频浏览)。当前,在视频关键帧提取领域,利用镜头边界检测提取关键帧已被广泛应用。
基于镜头边界检测提取关键帧的方法中,通常采用特定的度量方式比较连续帧之间的差异,其中的显著性差异(差异得分大于预定义阈值)表明在当前被检测的位置可能存在镜头边界。
发明人发现,虽然这种策略具有一定效果,但仍存在三个不足之处。
其一,比较连续帧之间的差异忽略视频的动态性。简单连续帧之间的差异分析容易受到局部噪音的干扰,产生过多的镜头边界误检。
其二,基于不同的视频特征,存在多种不同的差异度量方法。虽然各种度量方式对视频镜头边界检测显示出一定的有效性,但它们对各种镜头边界检测效果不同。对于某一视频,使用哪种度量方式对镜头边界检测更重要,有时是难以捉摸的,这主要取决于视频的结构。
其三,大多数通过分析帧间差异检测镜头边界的方法都需要预定义的镜头边界检测阈值,这些阈值往往都是固定,容易造成镜头边界的误检。
发明内容
为了解决现有技术的不足,本公开提供了基于自适应加权图差异分析的视频摘要生成方法及系统;
第一方面,本公开提供了基于自适应加权图差异分析的视频摘要生成方法;
基于自适应加权图差异分析的视频摘要生成方法,包括:
获取待生成摘要的视频;
对待生成摘要的视频,基于图建模进行视频表示;
基于视频表示结果,利用自适应加权度量和自适应阈值检测视频镜头边界;
对待生成摘要的视频的每个镜头提取关键帧。
第二方面,本公开提供了基于自适应加权图差异分析的视频摘要生成系统;
基于自适应加权图差异分析的视频摘要生成系统,包括:
获取模块,其被配置为:获取待生成摘要的视频;
视频表示模块,其被配置为:对待生成摘要的视频,基于图建模进行视频表示;
镜头边界检测模块,其被配置为:基于视频表示结果,利用自适应加权度量和自适应阈值检测视频镜头边界;
关键帧提取模块,其被配置为:对待生成摘要的视频的每个镜头提取关键帧。
第三方面,本公开还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本公开还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本公开的有益效果是:
(1)本公开考虑视频动态性,引入中值图概念,通过计算中值图选择最能代表当前镜头内容的帧,将该帧与当前被检测的帧进行差异分析。
(2)本公开提出自适应加权度量的图差异度量设计。根据视频结构,基于机器学习的方法自适应融合各种图差异度量的检测优势,学习更准确和可靠的差异度量,增强检测各类镜头转换的鲁棒性和准确性。
(3)本公开提出基于自适应阈值的假设检验检测镜头边界。根据视频的动态波动,计算当前镜头的自适应阈值,增强检测各类镜头转换的鲁棒性和准确性。
(4)本公开基于图模型对视频帧图像特征进行建模;通过计算中值图选择最能代表当前镜头内容的帧,将该帧与当前镜头的被检测帧进行差异分析;通过分析五种面向图结构的距离度量方法,提出一种基于机器学习的、面向图结构的自适应加权度量方法来检测镜头边界,进而采用K-Means聚类提取镜头中的关键帧并据此生成视频摘要。
(5)本公开基于自适应的权重调整策略来融合不同图结构差异度量方法的检测优势,从而可进行更准确、可靠的视频内容的差异度量,同时基于自适应阈值的假设检验检测镜头边界以实现完全无监督的视频摘要自动生成的任务。
(6)本公开基于自适应权重学习的图结构差异分析方法解决了帧间差异分析中存在的难以选择恰当差异度量方法的问题以及受限于固定阈值的问题,从而提高了本公开检测各种不同类型镜头转换的鲁棒性和视频摘要的准确性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为第一个实施例的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步地说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了基于自适应加权图差异分析的视频摘要生成方法;
如图1所示,基于自适应加权图差异分析的视频摘要生成方法,包括:
S101:获取待生成摘要的视频;
S102:对待生成摘要的视频,基于图建模进行视频表示;
S103:基于视频表示结果,利用自适应加权度量和自适应阈值检测视频镜头边界;
S104:对待生成摘要的视频的每个镜头提取关键帧。
作为一个或多个实施例,所述获取待生成摘要的视频步骤之后,所述对待生成摘要的视频,基于图建模进行视频表示步骤之前,还包括:S101-1对待生成摘要的视频进行预处理;所述对待生成摘要的视频进行预处理具体包括:
S101-11:对待生成摘要的视频进行采样;
S101-12:将采样的每个视频帧的尺寸进行统一;
S101-13:将尺寸统一后的每个视频帧进行均等分割,每个视频帧均得到若干个图像块。
示例性的,所述对待生成摘要的视频进行预处理具体包括:
首先,对于一个给定的视频流中,以预定义的采样率提取包含N帧的视频帧集F={f1,f2,f3,...,fN}。帧fi表示时间i的视频帧。
其次,考虑到视频帧局部噪音影响,将视频帧集F中的视频帧大小固定为256×192,然后将视频帧均等分割成k个补丁。因此,每个帧fi表示为fi={fi 1,fi 2,fi 3,...,fi k},其中,fi k表示帧fi的第k个补丁。
作为一个或多个实施例,所述S102中,对待生成摘要的视频,基于图建模进行视频表示;具体步骤包括:
S1021:进行视频特征提取,得到每个视频帧中每个图像块的目标特征;
S1022:基于每个视频帧中每个图像块的目标特征,建立每个视频帧的图结构;
S1023:对每个视频帧的图结构表示为邻接矩阵,对每个邻接矩阵进行正则化处理;
S1024:将视频帧集合中的所有帧图像进行S1021到S1023同样的处理,得到对应的邻接矩阵集合。
进一步地,所述S1021中,进行视频特征提取,得到每个视频帧中每个图像块的目标特征;具体步骤包括:
对每个视频帧中每个图像块分别提取HSV颜色直方图特征和CENTRIST特征;对每个视频帧中每个图像块的HSV颜色直方图特征和CENTRIST特征进行拼接,得到每个视频帧中每个图像块的目标特征。
应理解的,所述S1021中,进行视频特征提取,得到每个视频帧中每个图像块的目标特征;特征提取作为关键帧提取的第一步,在视频表示中起着至关重要的作用,对后续的提取过程有着至关重要的影响。
应理解的,所述HSV颜色直方图特征,颜色特征可能是所有视觉特征中最具表现力的。采用HSV颜色直方图来描述视频帧的视觉内容。因为它计算速度快,并且对相机位置的小变化、噪声也是鲁棒的。此外,HSV可以有效地将RGB分为强度(亮度)和颜色信息,这更像是人类感知颜色的方式。为了计算HSV直方图,我们对色调(H)、饱和度(S)和明度(V)的每个分量采用颜色量化步骤,具体如下:色调分量16个,饱和度和明度分量各4个。因此,每个帧补丁用256维(16×4×4)HSV直方图表示为:
应理解的,所述CENTRIST特征(CT值直方图),描述物体边缘轮廓的信息,广泛应用于行人检测、场景识别等领域。CT值计算的是一种相对灰度分布特性,因此对光照变化和噪音干扰都有一定的鲁棒性。而且,CENTRIST特征忽略具体灰度值,这样做的好处在于计算效率高。
具体来说,先采用Sobel边缘检测算子,消去局部纹理特征,然后计算图像中相邻像素的对比信息,即比较1个像素与其周围8个相邻像素的灰度值大小来确定八位的二进制数CT值,则取值范围是[0,255]。对帧补丁进行遍历,在CT值直方图上统计出每个CT值出现的频率。因此,我们得到每个帧补丁的256维CT值直方图。
应理解的,对每个视频帧中每个图像块的HSV颜色直方图特征和CENTRIST特征进行拼接,得到每个视频帧中每个图像块的目标特征,是指:
F={b1,b2,...,bi,...,bn}∈R512×k×N (3)
应理解的,镜头检测和关键帧选择面临两个挑战。一是由于局部内容、光照条件、拍摄角度、拍摄距离的变化而导致的过度分割;另一个是渐变镜头的关键帧漏检。在过度分割问题中,虚警的镜头边界两边内容并没有发生整体的结构变化。而在关键帧丢失检测问题中,丢失的关键帧的背景与其相邻的关键帧相似,但表达了完全不同的结构和空间信息。HSV-CT直方图只能表达视频帧的一维统计信息。因此,有必要探索一种合适的模型来充分表现视频帧的结构和空间信息,从而有效地反映视频流中的结构变化。本公开设计图模型来表示视频帧的内容。
进一步地,所述S1022中,基于每个视频帧中每个图像块的目标特征,建立每个视频帧的图结构;具体步骤包括:
将每个图像块的目标特征的频率分量作为图结构中的节点;
将每个图像块的任意两个节点进行连接作为图结构中的边;
计算两个节点频率幅值之间的曼哈顿距离作为边的权值。
示例性的,基于HSV-CT直方图提取的特征,将每一帧补丁建模为一个无向加权图(UWG),即,Gp={V,E},其构造如下:
1)将V中的v(i)(1<<i<<X)(X=512)表示为HSV-CT直方图的第i个频率分量,即图中的一个节点。
2)每两个节点v(i)和v(j)连接作为边ei,j,计算两节点的频率幅值之间的曼哈顿距离作为边的权值di,j。
3)我们将图Gp表示为邻接矩阵Ap,即,Ap={di,j},对矩阵进行正则化。
视频帧集F建模为一系列无向加权图G,即,G={G1,G2,...,Gi,...,Gn},使得图元之间的强连通性成为决定视频帧结构特征的关键因素。
最后,图序列G表示为邻接矩阵序列A,即,A={A1,A2,...,Ai,...,An}。
作为一个或多个实施例,S103中,基于视频表示结果,利用自适应加权度量和自适应阈值检测视频镜头边界;具体步骤包括:
S1031:假设当前镜头的开始帧为第j帧,当前被检测的帧为第l帧,则从第j帧图像到第l-1帧图像中,计算中值图对应的帧图像;j为正整数,l为正整数,其中j<l-1;
S1032:计算被检测帧图像与中值图对应的帧图像的五种差异度量,对五种差异度量进行自适应加权求和,得到被检测帧图像与中值图对应的帧图像之间的差异度;
S1033:基于自适应阈值的假设检验判断被检测帧图像与中值图对应的帧图像之间的差异度变化的显著性,进而检测视频镜头边界;
S1034:重复S1031-S1033,完成所有镜头边界的检测。
示例性的,所述S1031:选择中值图对应的帧图像;具体步骤包括:
其中,SumD(G,G')计算为:
SumD(·)的公式见下述的等式(7)。在等式(4)中,是一个相对于其他剩余图的距离之和最小的图。显然,等式(4)保证了该帧与其余帧的最大相似性,即,相对于其他剩余帧的距离之和最小。此外,等式(5)为克服帧差分析中对局部噪声的敏感性提供了支持。
应理解的,由于视频的动态性,简单连续帧之间的差异分析容易受到局部噪音的干扰,产生过多的镜头边界误检。因此,我们引入中值图概念,通过计算中值图选择最能代表当前镜头内容的帧,将该帧与当前被检测的帧进行差异分析,进而检测镜头边界。在图论中,中值图是表示图集的有效工具。
进一步地,所述五种差异度量,分别是指:边权绝对差之和距离、熵距离、光谱距离、模态距离和夹角余弦值。
进一步地,所述边权绝对差之和距离,是指:
使用边权值的差之和来表示一对图G和G'之间的距离,其公式如下:
为了消除奇异样本数据带来的负面影响以及节点间的数量级差异,将其归一化为:
其中Δi,j计算为
因此,基于边权绝对差之和距离的差异度量可以最后规范化为:
其中D为归一化因子。
应理解的,在各种度量中,边权绝对差之和距离SDEWE在图分析中得到了广泛的应用。人们普遍认为,如果两个无向图共享相似的边,则它们是相似的,因此可以计算这两个图中每对节点之间的边权绝对差之和,以测量它们的差异。
进一步地,所述熵距离,是指:
图G和G'之间的熵距离表示为,
ED(G,G')=|E(G)-E(G')| (10)
其中E(·)是边缘的类似熵度量,E(G)通过以下公式计算:
因此,基于熵的差异度量公式定义如下,
其中D为归一化因子。
应理解的,图熵是基于著名的香农熵来度量图的结构复杂性。图熵测度在离散数学、计算机科学、生物学、化学、统计学等领域具有广泛的适用性。基于熵的度量通过图的顶点数、边数、权重、顶点度序列、扩展度序列等结构信息来度量图的结构复杂性。由于帧的图模型中节点的数目是固定的,因此我们只关注图的连通性变化。
进一步地,所述光谱距离,是指:
SD(G,G')=||S(G)-S(G')||2 (14)
其中S(G)是由图G的严格降序排列的特征值组成的向量,||·||是L2范数。
类似地,基于光谱距离的差异度量公式如下,
其中D为归一化因子。
应理解的,图的矩阵表示的使用鼓励了研究人员研究这些图的特征值。图谱由Biggs定义为图的按多重性严格降序排列的特征值。根据谱图理论,如果两个UWG的频谱接近,则它们是相似的。因此,谱距旨在根据两个图的谱失真来测量它们之间的差异,谱距的概念是在特征值之间定义一个距离函数。
进一步地,所述模态距离,是指:
图G和G'之间的模态距离表示为,
M(G,G')=||π(G)-π(G')||2 (16)
其中,π(G)是图G的Perron向量,||·||是L2范数。
类似地,基于模态距离的差异度量可以被提出为
其中D为归一化因子。
应理解的,Perron-Frobenius定理表明,任何非负矩阵A都有一个非负主特征值P,称为Perron根或PerronFrobenius根,其对应的特征向量π是所谓的Perron向量,可以看作是一个很好的图形表示的候选者。图的Perron向量的研究在web PageRank、人口统计等领域有着广泛的应用。
进一步地,所述夹角余弦值,是指:
在内积空间中测量A和A'之间的余弦角作为一种差异度量。
其中A和A'之间的矩阵内积可以写为
<A,A'>=tr(A'T,A) (19)
其中T代表转置,tr(·)代表矩阵的迹。由上述矩阵内积导出的Frobenius范数||·||被计算通过
||A||=<A,A>1/2 (20)
由于邻接矩阵中的元素都是非负的,因此我们得到了cosθ∈[0,1]。更具体地说,cosθ=0表示G和G是垂直的,即完全不相同,而cosθ=1表示θ=0,即G和G之间的最佳相似性。
类似地,基于夹角余弦值的差异度量可以被提出为
LCD=1-cosθ (21)
应理解的,Frobenius内积使我们能够定义两个给定对称矩阵之间的夹角余弦。
应理解的,为了测量帧间图模型的差异性,我们考虑从其他领域获得的五个可用于UWG图的差异度量,并在必要时对它们进行修改/扩展,以便与我们的问题结合起来。
作为一个或多个实施例,所述S1032中,对五种差异度量进行自适应加权求和,得到被检测帧图像与中值图对应的帧图像之间的差异度;具体步骤包括:
S10321:输入视频镜头的前r个无向加权图UWG作为学习数据集。
S10322:从该学习数据集中计算五种差异度量并通过将规范化为避免局部连续帧差异的噪音,其中max{Li}是查找学习数据中最大值的函数,其中min{Li}是查找学习数据中最小值的函数;L1=LSumD,L2=LED,L3=LSD,L4=LMD,L5=LCD。
通过以下公式计算自适应权重wi
其中wi是度量i的权重。
应理解的,虽然这几种度量方式中,有几种度量显示出在整体上对镜头边界检测更有希望,但它们的检测性能仍然不能令人满意,因为他们对于不同的视频的镜头边界检测具有区分能力。对于某一视频,使用哪种度量方式对镜头边界检测更重要,有时是难以捉摸的,这主要取决于视频的结构。因此,我们利用基于机器学习的方法来自适应地学习更准确和可靠的自适应加权度量LD_weight。
这种方案的基本思想是:一个镜头中,帧的图模型可以表现出类似的结构,随后,我们可以使用这些镜头开始部分的帧的相似图作为学习数据集来进行图的自适应加权度量学习。
不同的差异度量可以捕获隐藏在图中的不同模式的差异。假设所提出的度量1-5反映了潜在模式1-5的差异。回想一下,我们将镜头的前r帧的图模型视为相似的,并将这些相似的图用作学习集S。然而,由于视频的动态性和噪音等原因,并不是每个度量都彼此相似。而稳定度量比不稳定度量更适用于后续变化检测的假设,并且应该为它们分配更高的权重。我们很难从变化很大的度量中检测出变化,这是合理的。
进一步地,所述S1033中,基于自适应阈值的假设检验判断被检测帧图像与中值图对应的帧图像之间的差异度变化的显著性,进而检测视频镜头边界;具体步骤包括:
基于等式(23),遵循在变化检测内容中使用的典型高斯分布,使用3-σ控制图进行自适应阈值。
通过零假设测试来检测镜头边界:
H0:Count<k-1,不存在镜头边界;
H1:Count>=k-1,存在镜头边界; (26)
对于视频帧集F,帧在镜头中表示相似内容,并遵循相同的数据分布。镜头边界检测可以通过分析当前帧间差异来实现,其中显著性差异表明在当前被检测的位置可能存在一个边界。
将视频帧分割成k个补丁,同时要求假设H1中z的值大于k-1是因为局部变化在镜头检测中可能会引起误报,利用该策略,可以通过抑制每对帧补丁局部变化的影响来降低镜头检测的错误率。
如果两帧的k个差异得分中至少存在k-1个差异得分大于自适应阈值,则当前被检测帧是镜头边界,标记该镜头边界(当前被检测帧的上一帧的索引号为上一镜头的结尾帧索引号和当前被检测帧的索引号为下一镜头的开始帧索引号),并开始一个新镜头的检测过程;否则,继续检测。
作为一个或多个实施例,所述S104中,对待生成摘要的视频的每个镜头提取关键帧;具体步骤包括:基于K-mean聚类提取关键帧。
基于K-mean聚类提取关键帧,具体步骤包括:
使用one-cluster来对每个镜头中的帧进行分组,选择镜头中最接近聚类质心的帧作为最终视频摘要的关键帧:
其中Gr是当前视频镜头Si中帧fr对应的图模型,ci是镜头Si通过典型的k-means算法得到的聚类质心。
应理解的,在视频镜头的边界检测完成后,下一步就是在提取每个镜头中选择最具信息性和代表性的帧作为关键帧。关键帧可以选择开始帧或中间帧、最接近簇质心的帧(由聚类过程产生)和其他方法。
实施例二
本实施例提供了基于自适应加权图差异分析的视频摘要生成系统;
基于自适应加权图差异分析的视频摘要生成系统,包括:
获取模块,其被配置为:获取待生成摘要的视频;
视频表示模块,其被配置为:对待生成摘要的视频,基于图建模进行视频表示;
镜头边界检测模块,其被配置为:基于视频表示结果,利用自适应加权度量和自适应阈值检测视频镜头边界;
关键帧提取模块,其被配置为:对待生成摘要的视频的每个镜头提取关键帧。
此处需要说明的是,上述获取模块、视频表示模块、镜头边界检测模块和关键帧提取模块对应于实施例一中的步骤S101至S104,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (9)
1.基于自适应加权图差异分析的视频摘要生成方法,其特征是,包括:
获取待生成摘要的视频;
对待生成摘要的视频,基于图建模进行视频表示;
基于视频表示结果,利用自适应加权度量和自适应阈值检测视频镜头边界;具体步骤包括:
S1031:假设当前镜头的开始帧为第j帧,当前被检测的帧为第l帧,则从第j帧图像到第l-1帧图像中,计算中值图对应的帧图像;
S1032:计算被检测帧图像与中值图对应的帧图像的五种差异度量,对五种差异度量进行自适应加权求和,得到被检测帧图像与中值图对应的帧图像之间的差异度;所述五种差异度量,分别是指:边权绝对差之和距离、熵距离、光谱距离、模态距离和夹角余弦值;
S1033:基于自适应阈值的假设检验判断被检测帧图像与中值图对应的帧图像之间的差异度变化的显著性,进而检测视频镜头边界;
S1034:重复S1031-S1033,完成所有镜头边界的检测;
对待生成摘要的视频的每个镜头提取关键帧。
2.如权利要求1所述的方法,其特征是,所述获取待生成摘要的视频步骤之后,所述对待生成摘要的视频,基于图建模进行视频表示步骤之前,还包括:对待生成摘要的视频进行预处理;所述对待生成摘要的视频进行预处理具体包括:
对待生成摘要的视频进行采样;
将采样的每个视频帧的尺寸进行统一;
将尺寸统一后的每个视频帧进行均等分割,每个视频帧均得到若干个图像块。
3.如权利要求1所述的方法,其特征是,对待生成摘要的视频,基于图建模进行视频表示;具体步骤包括:
进行视频特征提取,得到每个视频帧中每个图像块的目标特征;
基于每个视频帧中每个图像块的目标特征,建立每个视频帧的图结构;
对每个视频帧的图结构表示为邻接矩阵,对每个邻接矩阵进行正则化处理;
将视频帧集合中的所有帧图像进行同样的处理,得到对应的邻接矩阵集合。
4.如权利要求3所述的方法,其特征是,进行视频特征提取,得到每个视频帧中每个图像块的目标特征;具体步骤包括:
对每个视频帧中每个图像块分别提取HSV颜色直方图特征和CENTRIST特征;对每个视频帧中每个图像块的HSV颜色直方图特征和CENTRIST特征进行拼接,得到每个视频帧中每个图像块的目标特征。
5.如权利要求3或4所述的方法,其特征是,基于每个视频帧中每个图像块的目标特征,建立每个视频帧的图结构;具体步骤包括:
将每个图像块的目标特征的频率分量作为图结构中的节点;
将每个图像块的任意两个节点进行连接作为图结构中的边;
计算两个节点频率幅值之间的曼哈顿距离作为边的权值。
6.如权利要求1所述的方法,其特征是,所述S1032中,对五种差异度量进行自适应加权求和,得到被检测帧图像与中值图对应的帧图像之间的差异度;具体步骤包括:
S10321:输入视频镜头的前r个无向加权图UWG作为学习数据集;
S10322:从该学习数据集中计算五种差异度量并通过将规范化为其中max{Li}是查找学习数据中最大值的函数,其中min{Li}是查找学习数据中最小值的函数;L1=LSumD,L2=LED,L3=LSD,L4=LMD,L5=LCD;
通过以下公式计算自适应权重wi
其中wi是度量i的权重。
7.基于自适应加权图差异分析的视频摘要生成系统,其特征是,包括:
获取模块,其被配置为:获取待生成摘要的视频;
视频表示模块,其被配置为:对待生成摘要的视频,基于图建模进行视频表示;
镜头边界检测模块,其被配置为:基于视频表示结果,利用自适应加权度量和自适应阈值检测视频镜头边界;具体步骤包括:
S1031:假设当前镜头的开始帧为第j帧,当前被检测的帧为第l帧,则从第j帧图像到第l-1帧图像中,计算中值图对应的帧图像;
S1032:计算被检测帧图像与中值图对应的帧图像的五种差异度量,对五种差异度量进行自适应加权求和,得到被检测帧图像与中值图对应的帧图像之间的差异度;所述五种差异度量,分别是指:边权绝对差之和距离、熵距离、光谱距离、模态距离和夹角余弦值;
S1033:基于自适应阈值的假设检验判断被检测帧图像与中值图对应的帧图像之间的差异度变化的显著性,进而检测视频镜头边界;
S1034:重复S1031-S1033,完成所有镜头边界的检测;
关键帧提取模块,其被配置为:对待生成摘要的视频的每个镜头提取关键帧。
8.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010441082.9A CN111510792B (zh) | 2020-05-22 | 2020-05-22 | 基于自适应加权图差异分析的视频摘要生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010441082.9A CN111510792B (zh) | 2020-05-22 | 2020-05-22 | 基于自适应加权图差异分析的视频摘要生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111510792A CN111510792A (zh) | 2020-08-07 |
CN111510792B true CN111510792B (zh) | 2022-04-15 |
Family
ID=71872337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010441082.9A Active CN111510792B (zh) | 2020-05-22 | 2020-05-22 | 基于自适应加权图差异分析的视频摘要生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111510792B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579823B (zh) * | 2020-12-28 | 2022-06-24 | 山东师范大学 | 基于特征融合和增量滑动窗口的视频摘要生成方法及系统 |
CN116705180B (zh) * | 2023-08-08 | 2023-10-31 | 山东北国发展集团有限公司 | 基于多维数据分析的n2o催化分解监测方法及系统 |
CN117610105B (zh) * | 2023-12-07 | 2024-06-07 | 上海烜翊科技有限公司 | 一种面向系统设计结果自动生成的模型视图结构设计方法 |
CN117541969B (zh) * | 2024-01-09 | 2024-04-16 | 四川大学 | 一种基于语义和图像增强的色情视频检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105761263A (zh) * | 2016-02-19 | 2016-07-13 | 浙江大学 | 一种基于镜头边界检测和聚类的视频关键帧提取方法 |
CN106851437A (zh) * | 2017-01-17 | 2017-06-13 | 南通同洲电子有限责任公司 | 一种提取视频摘要的方法 |
CN110472484A (zh) * | 2019-07-02 | 2019-11-19 | 山东师范大学 | 基于多视图特征的视频关键帧提取方法、系统及设备 |
CN110795599A (zh) * | 2019-10-18 | 2020-02-14 | 山东师范大学 | 基于多尺度图的视频突发事件监测方法及系统 |
CN111078943A (zh) * | 2018-10-18 | 2020-04-28 | 山西医学期刊社 | 一种视频文本摘要生成方法及装置 |
-
2020
- 2020-05-22 CN CN202010441082.9A patent/CN111510792B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105761263A (zh) * | 2016-02-19 | 2016-07-13 | 浙江大学 | 一种基于镜头边界检测和聚类的视频关键帧提取方法 |
CN106851437A (zh) * | 2017-01-17 | 2017-06-13 | 南通同洲电子有限责任公司 | 一种提取视频摘要的方法 |
CN111078943A (zh) * | 2018-10-18 | 2020-04-28 | 山西医学期刊社 | 一种视频文本摘要生成方法及装置 |
CN110472484A (zh) * | 2019-07-02 | 2019-11-19 | 山东师范大学 | 基于多视图特征的视频关键帧提取方法、系统及设备 |
CN110795599A (zh) * | 2019-10-18 | 2020-02-14 | 山东师范大学 | 基于多尺度图的视频突发事件监测方法及系统 |
Non-Patent Citations (2)
Title |
---|
Characterization of abrupt/gradual video shot transitions as unsmoothed/smoothed;Chun-Shien Lu;《2002 IEEE Workshop on Multimedia Signal Processing》;20021211;全文 * |
鲁棒的镜头边界检测与基于运动信息的视频摘要生成;张剑;《计算机辅助设计与图形学学报》;20100615;第22卷(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111510792A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111510792B (zh) | 基于自适应加权图差异分析的视频摘要生成方法及系统 | |
CN108470354B (zh) | 视频目标跟踪方法、装置和实现装置 | |
CN111611643B (zh) | 户型矢量化数据获得方法、装置、电子设备及存储介质 | |
CN110334762B (zh) | 一种基于四叉树结合orb和sift的特征匹配方法 | |
Gopalakrishnan et al. | Random walks on graphs to model saliency in images | |
Zou et al. | Harf: Hierarchy-associated rich features for salient object detection | |
US20180247126A1 (en) | Method and system for detecting and segmenting primary video objects with neighborhood reversibility | |
CN112579823B (zh) | 基于特征融合和增量滑动窗口的视频摘要生成方法及系统 | |
Hasija et al. | Fish species classification using graph embedding discriminant analysis | |
WO2016138838A1 (zh) | 基于投影极速学习机的唇语识别方法和装置 | |
CN107230188B (zh) | 一种视频运动阴影消除的方法 | |
CN104036284A (zh) | 基于Adaboost算法的多尺度行人检测方法 | |
CN109840518B (zh) | 一种结合分类与域适应的视觉追踪方法 | |
CN110991547A (zh) | 一种基于多特征最优融合的图像显著性检测方法 | |
Wu et al. | Improving pedestrian detection with selective gradient self-similarity feature | |
CN111753119A (zh) | 一种图像搜索方法、装置、电子设备及存储介质 | |
Kheirkhah et al. | A hybrid face detection approach in color images with complex background | |
CN111625683A (zh) | 基于图结构差异分析的视频摘要自动生成方法及系统 | |
CN113963295A (zh) | 视频片段中地标识别方法、装置、设备及存储介质 | |
CN107085725B (zh) | 一种通过基于自适应码本的llc聚类图像区域的方法 | |
CN113344047A (zh) | 基于改进K-means算法的压板状态识别方法 | |
CN111461139B (zh) | 一种复杂场景下的多目标视觉显著性分层检测方法 | |
CN113128251A (zh) | 一种鱼脸特征检测算法 | |
Dai et al. | Retracted: efficient object analysis by leveraging deeply-trained object proposals prediction model | |
Werner et al. | Saliency-guided object candidates based on gestalt principles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231009 Address after: Room 1811, Building 2, Deluxe Lijing Huangdong Community, No. 236 Youyi West Road, Beilin District, Xi'an City, Shaanxi Province, 710000 Patentee after: Xi'an Yuandi Wufeng Network Technology Co.,Ltd. Address before: 250014 No. 88, Wenhua East Road, Lixia District, Shandong, Ji'nan Patentee before: SHANDONG NORMAL University |
|
TR01 | Transfer of patent right |