CN110472484B - 基于多视图特征的视频关键帧提取方法、系统及设备 - Google Patents
基于多视图特征的视频关键帧提取方法、系统及设备 Download PDFInfo
- Publication number
- CN110472484B CN110472484B CN201910589924.2A CN201910589924A CN110472484B CN 110472484 B CN110472484 B CN 110472484B CN 201910589924 A CN201910589924 A CN 201910589924A CN 110472484 B CN110472484 B CN 110472484B
- Authority
- CN
- China
- Prior art keywords
- frame
- lbp
- clustering
- shot
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本公开涉及视频关键帧提取与视频摘要自动化生成领域,特别是涉及基于多视图特征的视频关键帧提取方法、系统及设备。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
视频数据是一种典型的非结构化数据,其数据模型不清晰、数据结构不规则的特点使其比结构化数据更难以标准化,决定了一般的数据管理方法无法对其进行有效的检索和处理,例如基于关键帧提取的视频摘要等应用。当前,在视频关键帧提取领域,利用聚类算法提取关键帧已被广泛应用,但传统的基于聚类的关键帧提取算法有以下弊端:
(1)需要依赖阈值输入来界定聚类核心的数目,阈值大小将直接或间接决定关键帧提取的数目,进而影响关键帧提取效果;
(2)将提取特征值后的每一帧视为同等无差别的基本元素来处理,导致帧之间的顺序关系错乱,形成的视频摘要无法体现原有视频内容的情节发展;
(3)利用帧图像的颜色直方图作为图像特征值,忽略掉图像的轮廓、亮度、饱和度等特征信息导致特征值提取不够充分。
上述问题不同程度上影响了关键帧提取的可靠性,也从根本上决定了一般的关键帧提取方法存在适用场景单一、鲁棒性差等不足。
发明内容
为了解决现有技术的不足,本公开提供了基于多视图特征的视频关键帧提取方法、系统及设备;该方法通过分割镜头、按序提取关键帧和综合利用图像轮廓特征值使提取的关键帧更具有代表性,增强了算法的鲁棒性,提高了提取视频摘要的可读性。
第一方面,本公开提供了基于多视图特征的视频关键帧提取方法;
基于多视图特征的视频关键帧提取方法,包括如下步骤:
采样步骤:设定采样率对原始视频流进行采样,将视频流提取为若干帧图像;
特征提取步骤:对采样步骤提取的每一帧图像分别提取三种特征值:RGB (RGBcolor mode,RGB色彩模式)特征值、HSV(Hexcone Model,六角锥体模型)特征值和LBP(Local Binary Pattern,局部二值模式)特征值;
关键帧提取步骤:根据镜头划分步骤中的镜头划分结果,在每个镜头内分别对提取的RGB、HSV和LBP特征值进行单核心聚类计算,将聚类结果归一化处理后进行求和运算,取求和结果最小的帧为该镜头的关键帧。
第二方面,本公开还提供了基于多视图特征的视频关键帧提取系统;
基于多视图特征的视频关键帧提取系统,包括:
采样模块,其被配置为设定采样率对原始视频流进行采样,将视频流提取为若干帧图像;
镜头划分模块,其被配置为应用平均哈希法(Average Hash Algorithm,AHA) 对提取的所有帧计算每连续相邻两帧图像哈希值的汉明距离,若汉明距离大于阈值则判定为镜头边界,否则不划分镜头边界;
特征提取模块,其被配置为对采样模块提取的每一帧图像分别提取三种特征值:RGB(RGB color mode,RGB色彩模式)特征值、HSV(Hexcone Model,六角锥体模型)特征值和LBP(Local Binary Pattern,局部二值模式)特征值;
关键帧提取模块,其被配置为根据镜头划分模块中的镜头划分结果,在每个镜头内分别对提取的RGB、HSV和LBP特征值进行单核心聚类计算,将聚类结果归一化处理后进行求和运算,取求和结果最小的帧为该镜头的关键帧。
第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。
与现有技术相比,本公开的有益效果是:
(1)利用分割镜头的数目作为聚类算法的阈值输入,将聚类算法簇数目的阈值问题转移为分割镜头算法中的汉明距离选取问题,对提取效果影响更小。
(2)引入改进的LBP算子记录图像轮廓信息,弥补了一般算法特征值提取中缺少图像轮廓信息的不足,使图像特征值提取更全面。
(3)对图像多视图特征值分别聚类,对所得数据归一化处理取最优解,多视图使特征值描述画面更加全面和充分,确保提取的关键帧在整个镜头内更具代表性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明方法总流程概览图。
图2为本发明利用平均哈希法分割镜头流程示意图。
图3为本发明由多视图特征聚类流程示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
镜头:视频数据中包含一段连续相似帧的基本单元,一个镜头中的帧大致处于同一色调,拥有相差不大的画面内容,其所要展现的情节信息往往是连续且相似的。
关键帧:能够代表一组镜头中的主要信息的一帧或若干帧图像,通过关键帧就可简洁的表达出该组镜头的主要内容。
图像特征值:由图像在计算机中的像素矩阵中提取出来的具有代表意义的、能够区分不同图像性质的一组或多组多维向量或矩阵。
多视图特征:一幅图像可由不同的形式表示描述,例如由RGB色彩模式表示为Ep=[R,G,B],R,G,B∈[0,255],由HSV色彩模式表示为Ep′=[H,S,V], H∈[0°,360°];S,V∈[0%,100%]。多视图即在不同角度不同表示形式下提取、应用图像特征。
实施例一,本实施例提供了基于多视图特征的视频关键帧提取方法;
基于多视图特征的视频关键帧提取方法,包括如下步骤:
步骤(1):设定采样率对原始视频流进行采样,将视频流提取为若干帧图像;
步骤(3):对步骤(1)提取的每一帧图像分别提取三种特征值:RGB(RGB colormode,RGB色彩模式)特征值、HSV(Hexcone Model,六角锥体模型) 特征值和LBP(LocalBinary Pattern,局部二值模式)特征值;
步骤(4):根据步骤(2)中的镜头划分结果,在每个镜头内分别对提取的 RGB、HSV和LBP特征值进行单核心聚类计算,将聚类结果归一化处理后进行求和运算,取求和结果最小的帧为该镜头的关键帧。
进一步地,设定采样率对原始视频流进行采样,将视频流提取为若干帧图像;具体步骤包括:
步骤(1-2):获取原始视频流,遍历原始视频流中每一帧对视频流每隔r帧提取一帧保存为帧图像。
进一步地,如图2所示,应用平均哈希法(Average Hash Algorithm,AHA) 对提取的所有帧计算每连续相邻两帧图像哈希值的汉明距离,若汉明距离大于阈值则判定为镜头边界,否则不划分镜头边界;具体步骤包括:
步骤(2-1):设置窗口大小为SWsize,滑动步长为SWstep的滑动窗口SW,对提取的所有帧图像以滑动窗口的形式遍历;
步骤(2-2):对遍历过程中每个状态下滑动窗口SW,由平均哈希法计算SW内所有图像的哈希值序列;
步骤(2-3):计算步骤(2-2)中滑动窗口SW内相邻帧图像哈希序列的汉明距离,若汉明距离大于阈值则标记窗口SW内的后一帧为镜头边界,该帧至上一镜头边界帧之间的所有帧标记为同一镜头;若汉明距离小于阈值则不做处理,继续下一帧滑动窗口检测;
步骤(2-4):记录步骤(2-3)中所有的镜头边界帧索引,划分镜头完成。
进一步地,步骤(3)中提取特征值,具体步骤包括:
步骤(3-1):根据公式计算步骤(1) 中提取的每一帧图像的RGB特征值VRGB,Ri、Gi、Bi分别表示图像中第i个像素色彩值在红色通道R(Red)、绿色通道G(Green)、蓝色通道B(Blue)上的分量值,n为图像像素总数;
步骤(3-2):根据公式计算每一帧图像的HSV特征值VHSV,Hi、Si、Vi分别表示图像中第i个像素色彩值在色调H(Hue)、饱和度S(Saturation)、亮度V(Value)上的分量值,n为图像像素总数;
步骤(3-3):利用改进的LBP算子计算每一帧图像的LBP特征值 VLBP=[F0,F1,F2,…,FLBP-max],其中LBP-max为VLBP的最大维度索引常数, Fi,0≤i≤(LBP-max)为VLBP在每一维度上的常数值。
步骤(3-4):记录保存步骤(3-1)到步骤(3-3)中提取每一帧图像的RGB 特征值、HSV特征值和LBP特征值,提取特征值完成。
更进一步地,步骤(3-3)中提取LBP特征值方法具体为:
步骤(3-3-1):将图像按序均等划分为若干个n×n像素的LBP算子窗口,舍弃剩余边界像素;
步骤(3-3-2):计算整幅帧图像中每个窗口的LBP算子结果,每个LBP算子计算返回一个0~255的十进制整数;
若单个窗口中的所有像素灰度值均与基准像素相等,则舍弃该窗口,继续计算该帧图像中的其他窗口的LBP算子;待所有窗口的LBP算子计算完毕,进入步骤(3-3-3);
若不相等,则计算该窗口的LBP算子并返回一个0~255的十进制整数,继续计算其他窗口的LBP算子;待所有窗口的LBP算子计算完毕,进入步骤 (3-3-3);
步骤(3-3-3):组合该帧图像中所有窗口的单个LBP算子计算结果为若干个十进制数字构成的集合,统计该集合中0~LBP-max各个十进制数字出现的频度Fi:
其中,N为该镜头内的帧数目,为计算单个十进制数字 an的出现频数函数,an来自于将原始的8位LBP算子0-1序列{LBP set}转为十进制数字,即an∈[0,255],bi∈{LBP set},若an中出现i则 fi(an)值为1,否则为0,最终得到的LBP-max维向量 VLBP=[F0,F1,F2,…,FLBP-max]作为当前帧图像的LBP特征向量值。
进一步地,如图3所示,步骤(4)中多视图聚类方法具体为:
步骤(4-4):由MIN-MAX标准化(Min-max normalization,离差标准化) 算法对三种视图的聚类运算输出结果进行归一化处理,处理后第i帧三种视图特征下的距聚类核心的距离分别为和将处理后的值以帧为单位加和作为该帧与聚类核心的加权距离总值Distancei:
步骤(4-5):根据步骤(4-4)的加权距离总值Distancei,取单个镜头内加权距离总值Distancei最小的帧作为当前组镜头的关键帧,记当前组镜头的关键帧的帧索引为Kj,其中j为该组镜头的索引号;
步骤(4-6):遍历由步骤(2)划分的每组镜头,重复步骤(4-1)至步骤(4-5),将每组镜头的关键帧索引Kj插入关键帧集合K={K1,K2,K3,…,Kj},由关键帧集合K中的元素值作为索引值提取每组镜头的关键帧保存为视频摘要。
更进一步地,单核心聚类运算具体为:
步骤(4-1-1):在特征向量取值范围内,随机选取初始聚类核心;
步骤(4-1-2):计算每一帧特征向量与步骤(4-1-1)中初始聚类核心的欧氏距离Ei:
其中,d为向量维度数目,RGB和HSV特征向量VRGB、VHSV为3维向量,此时d=3;LBP特征向量VLBP为LBP-max维向量,此时d=LBP-max。
计算镜头内所有帧特征向量的欧氏距离总和D:
其中,N为该镜头内的帧数目;
步骤(4-1-4):重复步骤(4-1-2)和步骤(4-1-3)至D′≥D,输出Ei值列表。
下述实施例为本申请的一种典型的实施方式,结合示例图表述如下:
如图1所示,算法总体可分为四个步骤:采样(Sampling)、分割镜头(Shotdetection)、提取特征值(Extract eigenvalues)、聚类(Clustering),采样过程将视频流的所有帧按一定采样率“稀释”提取以提高效率;而后利用平均哈希法 (AHA)分割镜头,在每个镜头内对每一帧提取三类特征值,最后运行基于多视图特征的聚类算法。
基于多视图特征的视频关键帧提取方法,包括如下步骤:
步骤(2):遍历视频流,每隔r帧提取一帧f并保存,遍历结束后将提取的帧作为所有帧集合FA={f1,f2,f3,…,fN},N为视频提取总帧数;
步骤(3):设置窗口大小SWsize=2,窗口步长SWstep=1的滑动窗口 SWp={fp,fp+1},1≤p≤N-1;
步骤(4):根据平均哈希法对每一滑动窗口内的相邻两帧fp和fp+1,1≤p≤ N-1分别计算其哈希值序列,令计算结果分别为hashp和hashp+1;
步骤(5):计算hashp和hashp+1的汉明距离Dhaming(p,p+1);
步骤(7):将p从1自增至N-1遍历所有帧集合FA,重复步骤(4)、(5)、 (6)得到镜头边界帧索引集合Iedge={p0,p1,p2,…,pM-1,pM},p0为初始第一帧,即p0=0,pM为最后一帧,即pM=N,p1~pM-1均为步骤(6)计算而得。
至此,划分镜头完成,总计划分M个镜头,得到镜头边界帧索引集合Iedge用于后续步骤界定单个镜头。
进一步地,步骤(4)中计算第p帧的哈希值序列方法详细为:
步骤(4-1):压缩图像至8×8共64像素,去除高频和细节只保留基本明暗结构。
步骤(4-2):将图像灰度处理去除色彩信息,将图片转为64位灰度图像。
步骤(4-4):遍历所有像素并将每一点灰度值与图像的平均灰度值比较,大于等于平均值该像素记为1,小于则记为0。
步骤(4-5):将步骤(4-4)的结果组合为64位二进制数,即为该帧的哈希值序列hashp。
进一步地,步骤(5)中计算两哈希值hashp和hashp+1的汉明距离Dhaming方法具体为:
步骤(5-1):设置两指针分别指向两哈希序列起始位。
步骤(5-3):遍历两长度相等的哈希值序列hashp和hashp+1,对每一位重复执行步骤(5-1)和步骤(5-2),将步骤(5-2)中的异或运算结果根据公式计算hashp和hashp+1的汉明距离Dhaming(p,p+1)。
划分镜头过程结束后,紧接上述步骤(7),开始提取特征值过程:
步骤(12):组合帧fp中J个窗口的LBP算子计算结果为若干个十进制数字构成的集合{L1,L2,L3,…,LJ},设置LBP特征向量维度索引范围最大值 LBP-max=9,统计集合{L1,L2,L3,…,LJ}中0~9各个十进制数字出现的频度,得到的九维向量作为该幅图像的LBP特征向量。
至此,提取特征值过程完成,包括RGB、HSV和LBP三种特征值,最终提取过程综合利用三种视图的特征信息。
进一步地,步骤(11)中计算单个LBP算子结果的方法具体为:
步骤(11-2):按序自窗口左上角顺时针一次遍历各像素点,将各像素点的灰度值Gi与窗口基准灰度Gbase比较,若Gi>Gbase则记该像素点为1,若 Gi≤Gbase则记该像素点为0,i为窗口中的像素个数,范围为1≤i≤8。
步骤(11-3):按序自窗口左上角顺时针遍历组合步骤(11-2)中各像素对比结果为二进制0-1字符串。
进一步地,步骤(12)中计算帧fp的LBP特征值方法具体为:
步骤(12-1):帧fp中J个窗口的LBP算子计算结果集合{L1,L2,L3,…,LJ}中, Li,1≤i≤J为0~255的十进制数字,设置LBP特征向量维度索引范围最大值 LBP-max=9,根据公式统计集合 {L1,L2,L3,…,LJ}中Li′,1≤i′≤J的数字出现频度,函数fi(an)定义为计算单个十进制数字an的出现的频数函数,若an中出现i则fi(an)值为1,否则为0,即表达式:
提取特征值过程结束后,紧接上述步骤(13),开始多视图提取关键帧过程:
步骤(14):根据步骤(7)中得到的镜头边界帧索引集合Iedge= {p0,p1,p2,…,pM-1,pM}得到镜头Sm的前后边界帧索引pm-1和pm,1≤m≤M。
步骤(20):根据MIN-MAX标准化,由公式分别对内元素进行归一化处理,上述公式中Di *为归一化处理后单个元素值,Di为原值,Dmax、Dmin分别为待处理列表或集合中的元素最大值和最小值,令归一化处理后的数据列表分别为
步骤(23):创建列表K用于存放关键帧索引,将m由1自增至M遍历所有镜头Sm,1≤m≤M,每次遍历皆重复执行步骤(14)至步骤(22),将每次遍历执行步骤(22)的输出结果即索引号i,pm-1≤i≤pm依次插入到新建列表K 中。
进一步地,步骤(17)、步骤(18)和步骤(19)中的单核心聚类算法具体为:
步骤(17-1):在第p个镜头Sp的输入向量数据中,由每一维最小值和最大值范围内,随机生成聚类核心每一维的向量值vi,构成初始聚类核心 Vc={v1,v2,v3,…,vd},d∈{3,9},i为维度索引,0≤i≤d。
步骤(17-2):根据公式计算输入数据的第i帧fi的特征向量Vi与当前聚类核心Vc的欧氏距离Ei,d为向量维度数目, RGB和HSV特征向量VRGB、VHSV为3维向量,此时d=3;LBP特征向量VLBP为 9维向量,此时d=9。
步骤(17-5):重复执行步骤(17-2)、步骤(17-3)和步骤(17-4)至D′≥D算法收敛,按序输出此时镜头Sm收敛状态下i值列表Listm,聚类算法结束。
实施例二,本实施例还提供了基于多视图特征的视频关键帧提取系统;
基于多视图特征的视频关键帧提取系统,包括:
采样模块,其被配置为设定采样率对原始视频流进行采样,将视频流提取为若干帧图像;
镜头划分模块,其被配置为应用平均哈希法(Average Hash Algorithm,AHA) 对提取的所有帧计算每连续相邻两帧图像哈希值的汉明距离,若汉明距离大于阈值则判定为镜头边界,否则不划分镜头边界;
特征提取模块,其被配置为对采样模块提取的每一帧图像分别提取三种特征值:RGB(RGB color mode,RGB色彩模式)特征值、HSV(Hexcone Model,六角锥体模型)特征值和LBP(Local Binary Pattern,局部二值模式)特征值;
关键帧提取模块,其被配置为根据镜头划分模块中的镜头划分结果,在每个镜头内分别对提取的RGB、HSV和LBP特征值进行单核心聚类计算,将聚类结果归一化处理后进行求和运算,取求和结果最小的帧为该镜头的关键帧。
实施例三,本实施例还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成方法中的各个操作,为了简洁,在此不再赘述。
所述电子设备可以是移动终端以及非移动终端,非移动终端包括台式计算机,移动终端包括智能手机(Smart Phone,如Android手机、IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。
应理解,在本公开中,该处理器可以是中央处理单元CPU,该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外一点,所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
步骤(2-1):设置窗口大小为SWsize,滑动步长为SWstep的滑动窗口SW,对提取的所有帧图像以滑动窗口的形式遍历;
步骤(2-2):对遍历过程中每个状态下滑动窗口SW,由平均哈希法计算SW内所有图像的哈希值序列;
步骤(2-3):计算步骤(2-2)中滑动窗口SW内相邻帧图像哈希序列的汉明距离,若汉明距离大于阈值则标记窗口SW内的后一帧为镜头边界,该帧至上一镜头边界帧之间的所有帧标记为同一镜头;若汉明距离小于阈值则不做处理,继续下一帧滑动窗口检测;
步骤(2-4):记录步骤(2-3)中所有的镜头边界帧索引,划分镜头完成。
4.如权利要求1所述的方法,其特征是,提取特征值,具体步骤包括:
步骤(3-3):利用改进的LBP算子计算每一帧图像的LBP特征值VLBP=[F0,F1,F2,…,FLBP-max],其中LBP-max为VLBP的最大维度索引常数,Fi,0≤i≤(LBP-max)为VLBP在每一维度上的常数值;
步骤(3-4):记录保存步骤(3-1)到步骤(3-3)中提取每一帧图像的RGB特征值、HSV特征值和LBP特征值,提取特征值完成。
5.如权利要求4所述的方法,其特征是,步骤(3-3)中提取LBP特征值方法具体为:
步骤(3-3-1):将图像按序均等划分为若干个n×n像素的LBP算子窗口,舍弃剩余边界像素;
步骤(3-3-2):计算整幅帧图像中每个窗口的LBP算子结果,每个LBP算子计算返回一个0~255的十进制整数;
若单个窗口中的所有像素灰度值均与基准像素相等,则舍弃该窗口,继续计算该帧图像中的其他窗口的LBP算子;待所有窗口的LBP算子计算完毕,进入步骤(3-3-3);
若不相等,则计算该窗口的LBP算子并返回一个0~255的十进制整数,继续计算其他窗口的LBP算子;待所有窗口的LBP算子计算完毕,进入步骤(3-3-3);
步骤(3-3-3):组合该帧图像中所有窗口的单个LBP算子计算结果为若干个十进制数字构成的集合,统计该集合中0~LBP-max各个十进制数字出现的频度Fi:
6.如权利要求1所述的方法,其特征是,多视图聚类具体为:
步骤(4-4):由MIN-MAX标准化算法对三种视图的聚类运算输出结果进行归一化处理,处理后第i帧三种视图特征下的距聚类核心的距离分别为和将处理后的值以帧为单位加和作为该帧与聚类核心的加权距离总值Distancei:
步骤(4-5):根据步骤(4-4)的加权距离总值Distancei,取单个镜头内加权距离总值Distancei最小的帧作为当前组镜头的关键帧,记当前组镜头的关键帧的帧索引为Kj,其中j为该组镜头的索引号;
步骤(4-6):遍历由步骤(2)划分的每组镜头,重复步骤(4-1)至步骤(4-5),将每组镜头的关键帧索引Kj插入关键帧集合K={K1,K2,K3,…,Kj},由关键帧集合K中的元素值作为索引值提取每组镜头的关键帧保存为视频摘要。
7.如权利要求6所述的方法,其特征是,单核心聚类运算具体为:
步骤(4-1-1):在特征向量取值范围内,随机选取初始聚类核心;
步骤(4-1-2):计算每一帧特征向量与步骤(4-1-1)中初始聚类核心的欧氏距离Ei:
其中,d为向量维度数目,RGB和HSV特征向量VRGB、VHSV为3维向量,此时d=3;LBP特征向量VLBP为LBP-max维向量,此时d=LBP-max;
计算镜头内所有帧特征向量的欧氏距离总和D:
其中,N为该镜头内的帧数目;
步骤(4-1-4):重复步骤(4-1-2)和步骤(4-1-3)至D′≥D,输出Ei值列表。
8.基于多视图特征的视频关键帧提取系统,其特征是,包括:
采样模块,其被配置为设定采样率对原始视频流进行采样,将视频流提取为若干帧图像;
特征提取模块,其被配置为对采样模块提取的每一帧图像分别提取三种特征值:RGB特征值、HSV特征值和LBP特征值;
关键帧提取模块,其被配置为根据镜头划分模块中的镜头划分结果,在每个镜头内分别对提取的RGB、HSV和LBP特征值进行单核心聚类计算,将聚类结果归一化处理后进行求和运算,取求和结果最小的帧为该镜头的关键帧。
9.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910589924.2A CN110472484B (zh) | 2019-07-02 | 2019-07-02 | 基于多视图特征的视频关键帧提取方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910589924.2A CN110472484B (zh) | 2019-07-02 | 2019-07-02 | 基于多视图特征的视频关键帧提取方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472484A CN110472484A (zh) | 2019-11-19 |
CN110472484B true CN110472484B (zh) | 2021-11-09 |
Family
ID=68507295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910589924.2A Active CN110472484B (zh) | 2019-07-02 | 2019-07-02 | 基于多视图特征的视频关键帧提取方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472484B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325096B (zh) * | 2020-01-19 | 2021-04-20 | 北京字节跳动网络技术有限公司 | 直播流采样方法、装置及电子设备 |
CN111510792B (zh) * | 2020-05-22 | 2022-04-15 | 山东师范大学 | 基于自适应加权图差异分析的视频摘要生成方法及系统 |
CN112861609B (zh) * | 2020-12-30 | 2024-04-09 | 中国电子科技集团公司信息科学研究院 | 一种多线程的内容关键帧识别效率提高方法 |
CN113297899B (zh) * | 2021-03-23 | 2023-02-03 | 上海理工大学 | 一种基于深度学习的视频哈希算法 |
CN114155473B (zh) * | 2021-12-09 | 2022-11-08 | 成都智元汇信息技术股份有限公司 | 基于帧补偿的切图方法、电子设备及介质 |
CN114494985B (zh) * | 2022-04-18 | 2022-07-19 | 山东西曼克技术有限公司 | 基于图像处理的物流转运机器人工作异常检测方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398855A (zh) * | 2008-10-24 | 2009-04-01 | 清华大学 | 一种视频关键帧提取方法和系统 |
CN102314681A (zh) * | 2011-07-08 | 2012-01-11 | 太原理工大学 | 基于子镜头分割的自适应关键帧提取方法 |
CN103065153A (zh) * | 2012-12-17 | 2013-04-24 | 西南科技大学 | 一种基于色彩量化和聚类的视频关键帧提取方法 |
CN103942751A (zh) * | 2014-04-28 | 2014-07-23 | 中央民族大学 | 一种视频关键帧提取方法 |
CN104537124A (zh) * | 2015-01-28 | 2015-04-22 | 苏州德沃智能系统有限公司 | 多视图度量学习方法 |
CN105761263A (zh) * | 2016-02-19 | 2016-07-13 | 浙江大学 | 一种基于镜头边界检测和聚类的视频关键帧提取方法 |
CN106412619A (zh) * | 2016-09-28 | 2017-02-15 | 江苏亿通高科技股份有限公司 | 一种基于hsv颜色直方图和dct感知哈希的镜头边界检测方法 |
CN107220585A (zh) * | 2017-03-31 | 2017-09-29 | 南京邮电大学 | 一种基于多特征融合镜头聚类的视频关键帧提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605666B (zh) * | 2013-10-28 | 2017-01-11 | 复旦大学 | 一种进行广告检测的视频拷贝检测方法 |
-
2019
- 2019-07-02 CN CN201910589924.2A patent/CN110472484B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398855A (zh) * | 2008-10-24 | 2009-04-01 | 清华大学 | 一种视频关键帧提取方法和系统 |
CN102314681A (zh) * | 2011-07-08 | 2012-01-11 | 太原理工大学 | 基于子镜头分割的自适应关键帧提取方法 |
CN103065153A (zh) * | 2012-12-17 | 2013-04-24 | 西南科技大学 | 一种基于色彩量化和聚类的视频关键帧提取方法 |
CN103942751A (zh) * | 2014-04-28 | 2014-07-23 | 中央民族大学 | 一种视频关键帧提取方法 |
CN104537124A (zh) * | 2015-01-28 | 2015-04-22 | 苏州德沃智能系统有限公司 | 多视图度量学习方法 |
CN105761263A (zh) * | 2016-02-19 | 2016-07-13 | 浙江大学 | 一种基于镜头边界检测和聚类的视频关键帧提取方法 |
CN106412619A (zh) * | 2016-09-28 | 2017-02-15 | 江苏亿通高科技股份有限公司 | 一种基于hsv颜色直方图和dct感知哈希的镜头边界检测方法 |
CN107220585A (zh) * | 2017-03-31 | 2017-09-29 | 南京邮电大学 | 一种基于多特征融合镜头聚类的视频关键帧提取方法 |
Non-Patent Citations (2)
Title |
---|
一种基于聚类的关键帧提取算法;蒋元友;《数字技术与应用》;20141231;全文 * |
一种改进的多视图聚类集成算法;邓强 等;《计算机科学》;20170131;第44卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110472484A (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472484B (zh) | 基于多视图特征的视频关键帧提取方法、系统及设备 | |
Li et al. | Example-based image colorization using locality consistent sparse representation | |
Varga et al. | Fully automatic image colorization based on Convolutional Neural Network | |
WO2020238515A1 (zh) | 图像匹配方法、装置、设备、介质和程序产品 | |
Fang et al. | A superpixel-based variational model for image colorization | |
WO2020248848A1 (zh) | 智能化异常细胞判断方法、装置及计算机可读存储介质 | |
WO2020024744A1 (zh) | 一种图像特征点检测方法、终端设备及存储介质 | |
WO2022166865A1 (zh) | 一种文字图像的阴影消除方法、装置及电子设备 | |
WO2022166258A1 (zh) | 行为识别方法、装置、终端设备及计算机可读存储介质 | |
CN109948420B (zh) | 人脸比对方法、装置及终端设备 | |
CN110502664A (zh) | 视频标签索引库创建方法、视频标签生成方法及装置 | |
CN111507183A (zh) | 一种基于多尺度密度图融合空洞卷积的人群计数方法 | |
WO2020143165A1 (zh) | 一种翻拍图像的识别方法、系统及终端设备 | |
CN114640881A (zh) | 视频帧对齐方法、装置、终端设备及计算机可读存储介质 | |
CN111709305B (zh) | 一种基于局部图像块的人脸年龄识别方法 | |
Cai et al. | Fcsr-gan: End-to-end learning for joint face completion and super-resolution | |
CN113850748A (zh) | 点云质量的评估系统及方法 | |
CN117373100B (zh) | 基于差分量化局部二值模式的人脸识别方法及系统 | |
CN111160107A (zh) | 一种基于特征匹配的动态区域检测方法 | |
WO2021164329A1 (zh) | 图像处理方法、装置、通信设备及可读存储介质 | |
CN106228165A (zh) | 一种照片分类的方法和移动终端 | |
CN111860239B (zh) | 按键识别方法、装置、终端设备及计算机可读存储介质 | |
Ali et al. | A meta-heuristic method for reassemble bifragmented intertwined JPEG image files in digital forensic investigation | |
CN116383470A (zh) | 一种具有隐私保护的图像搜索方法 | |
CN116469172A (zh) | 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231010 Address after: 710100 No. 4, 2nd floor, backyard, No. 118 South Chang'an Street, Weiqu Street Office, Chang'an District, Xi'an City, Shaanxi Province Patentee after: Xi'an Yunshang Fengma Network Technology Co.,Ltd. Address before: No.1 Daxue Road, University Science Park, Changqing District, Jinan City, Shandong Province Patentee before: SHANDONG NORMAL University |