CN108470077B - 一种视频关键帧提取方法、系统及设备和存储介质 - Google Patents
一种视频关键帧提取方法、系统及设备和存储介质 Download PDFInfo
- Publication number
- CN108470077B CN108470077B CN201810523467.2A CN201810523467A CN108470077B CN 108470077 B CN108470077 B CN 108470077B CN 201810523467 A CN201810523467 A CN 201810523467A CN 108470077 B CN108470077 B CN 108470077B
- Authority
- CN
- China
- Prior art keywords
- frame
- boundary
- image
- candidate
- target area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种视频关键帧提取方法、系统及设备和计算机可读存储介质,该方法包括:获取视频数据,并根据视频数据确定候选帧集;确定候选帧集中每一帧图像的目标区域,并对目标区域进行目标角度的标注;利用候选帧集和标注后的目标区域训练神经网络,其中,所述神经网络的参数包括所述目标区域的置信度和所述目标角度;将视频数据中的每一帧图像输入训练完成的神经网络中,输出所述目标区域的边界框,得到边界框集;通过筛选所述边界框集得到关键帧集。本申请提供的视频关键帧提取方法通过神经网络输出目标区域的边界框后,由于边界框的数据量远小于整个视频数据量,且边界框的参数较少,算法简单,计算量小,可以实现视频关键帧的实施提取。
Description
技术领域
本申请涉及图像处理技术领域,更具体地说,涉及一种视频关键帧提取方法、系统及设备和一种计算机可读存储介质。
背景技术
近年来,随着视频监控技术的提高,越来越多的监控场景使用到在线摄像头。在某些特定的情况下,视频监控系统安装在一些人无法经常涉足的地方,如地铁内部接触网监控、火车供电线的监控、锅炉底部安全检测、大型高压塔的监控等。在这种情况下,视频信息存在大量的冗余,如何提取关键帧,并快速获取视频所表达的信息成为了一个急需解决的问题。关键帧是视频帧集合中信息最丰富且最能表达视频内容的帧图像,这些帧图像的集合便可以替代该视频。
现有技术中的视频关键帧提取方法基于图像特征,通过对帧图像进行特征提取,并比较特征矩阵,然后进行提取。由于需要对视频数据中的所有帧图像进行特征提取,算法比较复杂且计算量巨大等,一般无法进行实时的视频关键帧获取。
因此,如何简化视频关键帧提取的算法,实现视频关键帧的实时提取是本领域技术人员需要解决的问题。
发明内容
本申请的目的在于提供一种视频关键帧提取方法、系统及设备和一种计算机可读存储介质,简化了视频关键帧提取的算法,实现了视频关键帧的实时提取。
为实现上述目的,本申请提供了一种视频关键帧提取方法,包括:
获取视频数据,并根据所述视频数据确定候选帧集;
确定所述每一帧图像的目标区域,并对所述目标区域进行目标角度的标注;
利用所述候选帧集和标注后的目标区域训练神经网络,其中,所述神经网络的参数包括所述目标区域的置信度和所述目标角度;
将所述视频数据中的每一帧图像输入训练完成的神经网络中,输出所述目标区域的边界框,得到边界框集;
通过筛选所述边界框集得到关键帧集。
其中,确定所述每一帧图像的目标区域,并对所述目标区域进行目标角度的标注,包括:
S11:计算目标帧图像的第一图像熵;
S12:确定所述每一帧图像的目标区域,并对所述目标区域进行随机角度的标注,并计算标注后的目标区域的第二图像熵;
S13:当所述第一图像熵与所述第二图像熵满足预设条件时,将所述随机角度作为所述目标帧图像的目标角度;
重复S11-S13直至所述候选帧集的每一帧图像全部标注完成。
其中,所述预设条件具体为:
|eH-eH|<S;
其中,H为所述第一图像熵,H'为所述第二图像熵,S为所述目标帧图像对应的常量。
其中,所述神经网络的损失函数具体为:
其中,r1、r2、r3为所述神经网络的权重参数,B为Batch量,即所述候选帧集中图像帧的数量,S为所述神经网络输出边界框的边框大小,c为边界框或目标区域的类别,classes为类的集合,[xi,yi,wi,hi,Ci,pi(c),θi(c)]为所述神经网络输出的第i个边界框的参数值,为标注后的第i个目标区域的参数值,(x,y)为边界框或目标区域的中心点坐标,w为边界框或目标区域的宽,h为边界框或目标区域的高,C为边界框或目标区域的置信度,p(c)为类的概率,θ(c)为边界框或目标区域的角度,/>表示目标落入第i个边界框中,/>表示目标落入第j个图像帧的第i个边界框中,/>表示目标未落入第j个图像帧的第i个边界框中。
其中,所述通过筛选所述边界框集得到关键帧集,包括:
利用非极大值抑制算法剔除所述边界框集中的重复边界框,得到候选边界框集;
确定所述候选边界框集中每一边界框所属的帧图像,组成候选关键帧集;
将所述候选关键帧集中时间相邻的帧图像分为一类,并确定每类中信息量最大的帧图像,得到关键帧集。
其中,所述利用非极大值抑制算法剔除所述边界框集中的重复边界框,得到候选边界框集,包括:
S21:计算所述边界框集中所有边界框的pC值;其中,所述pC值为所述边界框的置信度与所述边界框类别的置信度的乘积;
S22:剔除所述边界框集中pC值中小于第一预设值的边界框;
S23:将当前边界框集中pC值最大的边界框确定为目标边界框,将所述目标边界框加入所述候选边界框集中,并剔除所述目标边界框;
S24:将当前边界框集中pC值最大的边界框确定为候选边界框,并计算所述候选边界框与所述候选边界框集中边界框之间的IoU值;
S25:判断所述IoU值是否小于第二预设值,若是,则将所述候选边界框加入所述候选边界框集中,并进入S26,若否,则进入S26;
S26:剔除所述候选边界框,重新进入S24直至所述边界框集中的边界框全部剔除完成。
其中,所述确定每类中信息量最大的帧图像,包括:
通过信息量公式计算所有帧图像的信息量,并确定每类中信息量最大的帧图像;其中,所述信息量公式具体为:
其中,θ为所述目标角度,C1为所述边界框的置信度,C2为所述边界框类别的置信度,(x1,y1)、(x2,y2)为所述边界框的对角坐标,Sorti为第i帧图像帧的信息量。
为实现上述目的,本申请提供了一种视频关键帧提取系统,包括:
获取模块,用于获取视频数据,并根据所述视频数据确定候选帧集;
标注模块,用于对所述候选帧集的每一帧图像进行随机角度的标注以确定所述每一帧图像的目标区域;
训练模块,用于利用所述候选帧集和标注后的目标区域训练神经网络,其中,所述神经网络的参数包括所述目标区域的置信度和所述目标角度;
输入模块,用于将所述视频数据中的每一帧图像输入训练完成的神经网络中,输出所述目标区域的边界框,得到边界框集;
筛选模块,用于通过筛选所述边界框集得到关键帧集。
为实现上述目的,本申请提供了一种视频关键帧提取设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述视频关键帧提取方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述视频关键帧提取方法的步骤。
通过以上方案可知,本申请提供的一种视频关键帧提取方法,包括:获取视频数据,并根据所述视频数据确定候选帧集;确定所述每一帧图像的目标区域,并对所述目标区域进行目标角度的标注;利用所述候选帧集和标注后的目标区域训练神经网络,其中,所述神经网络的参数包括所述目标区域的置信度和所述目标角度;将所述视频数据中的每一帧图像输入训练完成的神经网络中,输出所述目标区域的边界框,得到边界框集;通过筛选所述边界框集得到关键帧集。
本申请提供的视频关键帧提取方法,通过神经网络输出目标区域的边界框,边界框的参数较少,可以只包含对角的坐标位置、角度和置信度等,因此边界框的数据量远小于整个视频数据的数据量,与现有技术需要提取多维特征再进行特征分析的方案相比,算法简单,计算量小,可以实现视频关键帧的实施提取。本申请还公开了一种视频关键帧提取系统及设备和一种计算机可读存储介质,同样能实现上述技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种视频关键帧提取方法的流程图;
图2为本申请实施例公开的另一种视频关键帧提取方法的流程图;
图3为本申请实施例公开的一种视频关键帧提取系统的结构图;
图4为本申请实施例公开的一种视频关键帧提取设备的结构图;
图5为本申请实施例公开的另一种视频关键帧提取设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种视频关键帧提取方法,简化了视频关键帧提取的算法,实现了视频关键帧的实时提取。
参见图1,本申请实施例公开的一种视频关键帧提取方法的流程图,如图1所示,包括:
S101:获取视频数据,并根据所述视频数据确定候选帧集;
在具体实施中,为获取神经网络的训练数据,需要从视频数据中提取候选帧集。具体的,可以利用背景法去除每一帧图像的背景后采用图像熵定义,即计算每一帧图像的图像熵,并根据所有的图像熵确定初始化熵值,选取图像熵大于初始化熵值的帧图像作为候选帧集。
进一步的,作为一种优选实施方式,为了加快视频的处理速度,增加随机性,可以对上述的候选帧集进行筛选。此处不对具体的筛选方式进行限定,本领域技术人员可以根据实际情况灵活选择。例如,以每5、10或15对候选帧集进行提取,以获取精简的候选帧集。
S102:确定所述每一帧图像的目标区域,并对所述目标区域进行目标角度的标注;
需要说明的是,本实施例不限定确定目标区域的具体方式,既可以手工标注也可以利用图像识别技术确定目标区域。选取最佳的目标角度对该目标区域进行标注,即对该目标区域进行目标角度的旋转操作,以得到神经网络的训练数据。
在具体实施中,可以包括以下步骤:
S21:计算目标帧图像的第一图像熵;
其中,图像熵H的具体计算公式为:
其中,i为像素的灰度值,0≤i≤255,j为邻域灰度均值,0≤j≤255,f(i,j)为特征二元组(i,j)出现的频数,N为图像的尺度。
S22:确定所述每一帧图像的目标区域,并对所述目标区域进行随机角度的标注,并计算标注后的目标区域的第二图像熵;
所述预设条件具体为:
|eH-eH′|<S;
其中,H为所述第一图像熵,H'为所述第二图像熵,S为所述目标帧图像对应的常量。
S23:当所述第一图像熵与所述第二图像熵满足预设条件时,将所述随机角度作为所述目标帧图像的目标角度;
重复S21-S23直至所述候选帧集的每一帧图像全部标注完成。
S103:利用所述候选帧集和标注后的目标区域训练神经网络,其中,所述神经网络的参数包括所述目标区域的置信度和所述目标角度;
本实施例采用的神经网络由图像目标检测网络YOLO改良而来,具体表现为在原YOLO中多增加额外卷积,并用1*1滤波减少网络参数,并将额外输出与原始输出合并。该神经网络最终输出参数与原有网络多出2维,分别是所述目标区域的置信度和所述目标角度。在训练神经网络的过程中需要根据输出的损失函数LOSS值,手动调节相应的权重参数(r1、r2、r3),三者需满足:
r1+r2+r3=1;
同时在训练神经网络的过程中,还需对学习率L,衰减因子α,批量包batch等参数的进行调节,以加快图像目标检测网络训练周期。另外,需要对损失函数LOSS进行相应的改变,以符合改进的神经网络。具体的,损失函数由多个损失组成,对每一个损失函数确给予一个权重参数,并根据网络在总体样本训练中所输出的损失进行调节,找到最优的权重参数。改进后的神经网络继承了原有网络的所有优点,对每张图像的检测时间20ms,能够检测最大视频帧率为50Hz。
所述神经网络的损失函数具体为:
其中,r1、r2、r3为所述神经网络的权重参数,B为Batch量,即所述候选帧集中图像帧的数量,S为所述神经网络输出边界框的边框大小,c为边界框或目标区域的类别,classes为类的集合,[xi,yi,wi,hi,Ci,pi(c),θi(c)]为所述神经网络输出的第i个边界框的参数值,为标注后的第i个目标区域的参数值,(x,y)为边界框或目标区域的中心点坐标,w为边界框或目标区域的宽,h为边界框或目标区域的高,C为边界框或目标区域的置信度,p(c)为类的概率,θ(c)为边界框或目标区域的角度,/>表示目标落入第i个边界框中,/>表示目标落入第j个图像帧的第i个边界框中,/>表示目标未落入第j个图像帧的第i个边界框中。
S104:将所述视频数据中的每一帧图像输入训练完成的神经网络中,输出所述目标区域的边界框,得到边界框集;
S105:通过筛选所述边界框集得到关键帧集。
在具体实施中,将S101中视频数据中的每一帧图像输入训练完成的神经网络中。优选的,在输入之前,可以将每一帧图像进行标准化处理,即将每一帧图像初始化为固定的大小,例如448*448*3,以便作为神经网络的输入。视频数据经训练完成的神经网络后输出边界框,在上述例子中,输出边界框的大小为(7,7,class),其中,class为边界框的类,再对边界框进行筛选以便提取关键帧。检测结果组成的集合如下:{P(i)|(x1,y1,x2,y2,C1,C2,θ)i},P(i)为第i帧图像的检测结果,即第i帧图像包含的边界框,θ为所述目标角度,C1为所述边界框的置信度,C2为所述边界框类别的置信度,(x1,y1)、(x2,y2)为所述边界框的对角坐标。筛选关键帧的具体步骤将在下一实施例进行详细介绍。
本申请实施例提供的视频关键帧提取方法,通过神经网络输出目标区域的边界框,边界框的参数较少,可以只包含对角的坐标位置、角度和置信度等,因此边界框的数据量远小于整个视频数据的数据量,与现有技术需要提取多维特征再进行特征分析的方案相比,算法简单,计算量小,可以实现视频关键帧的实施提取。
本申请实施例公开了一种视频关键帧提取方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图2,本申请实施例提供的另一种视频关键帧提取方法的流程图,如图2所示,包括:
S201:获取视频数据,并根据所述视频数据确定候选帧集;
S202:确定所述每一帧图像的目标区域,并对所述目标区域进行目标角度的标注;
S203:利用所述候选帧集和标注后的目标区域训练神经网络,其中,所述神经网络的参数包括所述目标区域的置信度和所述目标角度;
S204:将所述视频数据中的每一帧图像输入训练完成的神经网络中,输出所述目标区域的边界框,得到边界框集;
S205:利用非极大值抑制算法剔除所述边界框集中的重复边界框,得到候选边界框集;
在具体实施中,首先根据非极大值抑制算法剔除所述边界框集中的重复边界框,所述重复边界框包括重复的边界框和相似度较高的边界框。具体可以包括以下步骤:
S51:计算所述边界框集中所有边界框的pC值;其中,所述pC值为所述边界框的置信度与所述边界框类别的置信度的乘积;
S52:剔除所述边界框集中pC值中小于第一预设值的边界框;
具体的,第一预设值一般为0至1之间,由于边界框的pC值小于预设值时,圈出目标区域的概率较小,因此可剔除此类边界框以提高提取效率。
S53:将当前边界框集中pC值最大的边界框确定为目标边界框,将所述目标边界框加入所述候选边界框集中,并剔除所述目标边界框;
S54:将当前边界框集中pC值最大的边界框确定为候选边界框,并计算所述候选边界框与所述候选边界框集中边界框之间的IoU值;
具体的,IoU的具体公式为:
其中,C为所述候选边界框集中的任一边界框,G为所述候选边界框,area()为所述目标边界框或所述候选边界框的区域。
S55:判断所述IoU值是否小于第二预设值,若是,则将所述候选边界框加入所述候选边界框集中,并进入S56,若否,则进入S56;
具体的,第二预设值可取0.5,当IoU值小于0.5时,可认为该候选边界框与候选边界框集中的所有边界框都不存在相似情况,可将该候选边界框加入候选边界框集中,反之,则剔除该候选边界框。
S56:剔除所述候选边界框,重新进入S24直至所述边界框集中的边界框全部剔除完成。
S206:确定所述候选边界框集中每一边界框所属的帧图像,组成候选关键帧集;
在具体实施中,帧图像的组成为{P(i)|(x1,y1,x2,y2,C1,C2,θ)i},P(i)为第i帧图像的检测结果,即第i帧图像包含的边界框,θ为所述目标角度,C1为所述边界框的置信度,C2为所述边界框类别的置信度,(x1,y1)、(x2,y2)为所述边界框的对角坐标。
S207:将所述候选关键帧集中时间相邻的帧图像分为一类,并确定每类中信息量最大的帧图像,得到关键帧集。
例如,i值为{2,3,4,5,18,19,20,21,22,23,24,40,41,...},则将i为{2,3,4,5}的视频帧分为第一组,i为{18,19,20,21,22,23,24}的视频帧分为第二组,依次类推。根据分组情况,确定关键帧的个数,即关键帧的个数与组的个数相对应。
分组后将每组中的信息量最大值作为关键帧,在具体实施中,可以通过信息量公式计算所有帧图像的信息量,并确定每类中信息量最大的帧图像;其中,所述信息量公式具体为:
其中,θ为所述目标角度,C1为所述边界框的置信度,C2为所述边界框类别的置信度,(x1,y1)、(x2,y2)为所述边界框的对角坐标,Sorti为第i帧图像帧的信息量。
下面对本申请实施例提供的一种视频关键帧提取系统进行介绍,下文描述的一种视频关键帧提取系统与上文描述的一种视频关键帧提取方法可以相互参照。
参见图3,本申请实施例提供的一种视频关键帧提取系统的结构图,如图3所示,包括:
获取模块301,用于获取视频数据,并根据所述视频数据确定候选帧集;
标注模块302,用于对所述候选帧集的每一帧图像进行随机角度的标注以确定所述每一帧图像的目标区域;
训练模块303,用于利用所述候选帧集和标注后的目标区域训练神经网络,其中,所述神经网络的参数包括所述目标区域的置信度和所述目标角度;
输入模块304,用于将所述视频数据中的每一帧图像输入训练完成的神经网络中,输出所述目标区域的边界框,得到边界框集;
筛选模块305,用于通过筛选所述边界框集得到关键帧集。
本申请实施例提供的视频关键帧提取系统,通过神经网络输出目标区域的边界框,边界框的参数较少,可以只包含对角的坐标位置、角度和置信度等,因此边界框的数据量远小于整个视频数据的数据量,与现有技术需要提取多维特征再进行特征分析的方案相比,算法简单,计算量小,可以实现视频关键帧的实施提取。
在上述实施例的基础上,作为一种优选实施方式,所述标注模块302包括:
第一计算单元,用于计算目标帧图像的第一图像熵;
第二计算单元,用于确定所述每一帧图像的目标区域,并对所述目标区域进行随机角度的标注,并计算标注后的目标区域的第二图像熵;
第一确定单元,用于当所述第一图像熵与所述第二图像熵满足预设条件时,将所述随机角度作为所述目标帧图像的目标角度,启动所述第一计算单元的工作流程直至所述候选帧集的每一帧图像全部标注完成。
在上述实施例的基础上,作为一种优选实施方式,所述预设条件具体为:
|eH-eH′|<S;
其中,H为所述第一图像熵,H'为所述第二图像熵,S为所述目标帧图像对应的常量。
在上述实施例的基础上,作为一种优选实施方式,所述神经网络的损失函数具体为:
其中,r1、r2、r3为所述神经网络的权重参数,B为Batch量,即所述候选帧集中图像帧的数量,S为所述神经网络输出边界框的边框大小,c为边界框或目标区域的类别,classes为类的集合,[xi,yi,wi,hi,Ci,pi(c),θi(c)]为所述神经网络输出的第i个边界框的参数值,为标注后的第i个目标区域的参数值,(x,y)为边界框或目标区域的中心点坐标,w为边界框或目标区域的宽,h为边界框或目标区域的高,C为边界框或目标区域的置信度,p(c)为类的概率,θ(c)为边界框或目标区域的角度,/>表示目标落入第i个边界框中,/>表示目标落入第j个图像帧的第i个边界框中,/>表示目标未落入第j个图像帧的第i个边界框中。
在上述实施例的基础上,作为一种优选实施方式,所述筛选模块305包括:
剔除单元,用于利用非极大值抑制算法剔除所述边界框集中的重复边界框,得到候选边界框集;
第二确定单元,用于确定所述候选边界框集中每一边界框所属的帧图像,组成候选关键帧集;
分类单元,用于将所述候选关键帧集中时间相邻的帧图像分为一类,并确定每类中信息量最大的帧图像,得到关键帧集。
在上述实施例的基础上,作为一种优选实施方式,所述剔除单元包括:
第三计算子单元,用于计算所述边界框集中所有边界框的pC值;其中,所述pC值为所述边界框的置信度与所述边界框类别的置信度的乘积;
第一剔除子单元,用于剔除所述边界框集中pC值中小于第一预设值的边界框;
第二剔除子单元,用于将当前边界框集中pC值最大的边界框确定为目标边界框,将所述目标边界框加入所述候选边界框集中,并剔除所述目标边界框;
第四计算子单元,用于将当前边界框集中pC值最大的边界框确定为候选边界框,并计算所述候选边界框与所述候选边界框集中边界框之间的IoU值;
判断子单元,用于判断所述IoU值是否小于第二预设值,若是,则将所述候选边界框加入所述候选边界框集中,并启动所述第三剔除子单元的工作流程,若否,则启动所述第三剔除子单元的工作流程;
第三剔除子单元,用于剔除所述候选边界框,启动所述第四计算子单元的工作流程直至所述边界框集中的边界框全部剔除完成。
在上述实施例的基础上,作为一种优选实施方式,所述分类单元具体为将所述候选关键帧集中时间相邻的帧图像分为一类,通过信息量公式计算所有帧图像的信息量,并确定每类中信息量最大的帧图像,得到关键帧集的单元;其中,所述信息量公式具体为:
其中,θ为所述目标角度,C1为所述边界框的置信度,C2为所述边界框类别的置信度,(x1,y1)、(x2,y2)为所述边界框的对角坐标,Sorti为第i帧图像帧的信息量。
本申请还提供了一种视频关键帧提取设备,参见图4,本申请实施例提供的一种视频关键帧提取设备的结构图,如图4所示,包括:
存储器100,用于存储计算机程序;
处理器200,用于执行所述计算机程序时可以实现上述实施例所提供的步骤。
具体的,存储器100包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令,该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。处理器200为视频关键帧提取设备提供计算和控制能力,执行所述存储器100中保存的计算机程序时,可以实现上述实施例提供的步骤。
本申请实施例提供的视频关键帧提取设备,通过神经网络输出目标区域的边界框,边界框的参数较少,可以只包含对角的坐标位置、角度和置信度等,因此边界框的数据量远小于整个视频数据的数据量,与现有技术需要提取多维特征再进行特征分析的方案相比,算法简单,计算量小,可以实现视频关键帧的实施提取。
在上述实施例的基础上,作为优选实施方式,参见图5,所述视频关键帧提取设备还包括:
输入接口300,与处理器200相连,用于获取外部导入的计算机程序、参数和指令,经处理器200控制保存至存储器100中。该输入接口300可以与输入装置相连,接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是键盘、触控板或鼠标等。显示单元400,与处理器200相连,用于显示处理器200发送的数据。该显示单元400可以为PC机上的显示屏、液晶显示屏或者电子墨水显示屏等。具体的,在本实施例中,显示单元400可以显示视频关键帧的提取结果,提取速度等。
网络端口500,与处理器200相连,用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术,如移动高清链接技术(MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。
视频采集器600,与处理器200相连,用于获取视频数据,然后将视频数据发送至处理器200进行数据分析处理,后续处理器200可以将处理结果发送至显示单元400进行显示,或者传输至处理器100进行保存,又或者可以通过网络端口500发送至预设的数据接收终端。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (9)
1.一种视频关键帧提取方法,其特征在于,包括:
获取视频数据,并根据所述视频数据确定候选帧集;
确定每一帧图像的目标区域,并对所述目标区域进行目标角度的标注;
利用所述候选帧集和标注后的目标区域训练神经网络,其中,所述神经网络的参数包括所述目标区域的置信度和所述目标角度;
将所述视频数据中的每一帧图像输入训练完成的神经网络中,输出所述目标区域的边界框,得到边界框集;
通过筛选所述边界框集得到关键帧集;
其中,所述通过筛选所述边界框集得到关键帧集,包括:
利用非极大值抑制算法剔除所述边界框集中的重复边界框,得到候选边界框集;
确定所述候选边界框集中每一边界框所属的帧图像,组成候选关键帧集;
将所述候选关键帧集中时间相邻的帧图像分为一类,并确定每类中信息量最大的帧图像,得到关键帧集。
2.根据权利要求1所述视频关键帧提取方法,其特征在于,确定所述每一帧图像的目标区域,并对所述目标区域进行目标角度的标注,包括:
S11:计算目标帧图像的第一图像熵;
S12:确定所述每一帧图像的目标区域,并对所述目标区域进行随机角度的标注,并计算标注后的目标区域的第二图像熵;
S13:当所述第一图像熵与所述第二图像熵满足预设条件时,将所述随机角度作为所述目标帧图像的目标角度;
重复S11-S13直至所述候选帧集的每一帧图像全部标注完成。
3.根据权利要求2所述视频关键帧提取方法,其特征在于,所述预设条件具体为:
|eH-eH’|<S;
其中,H为所述第一图像熵,H'为所述第二图像熵,S为所述目标帧图像对应的常量。
4.根据权利要求1所述视频关键帧提取方法,其特征在于,所述神经网络的损失函数具体为:
其中,r1、r2、r3为所述神经网络的权重参数,B为Batch量,即所述候选帧集中图像帧的数量,S为所述神经网络输出边界框的边框大小,c为边界框或目标区域的类别,classes为类的集合,[xi,yi,wi,hi,Ci,pi(c),θi(c)]为所述神经网络输出的第i个边界框的参数值,为标注后的第i个目标区域的参数值,(x,y)为边界框或目标区域的中心点坐标,w为边界框或目标区域的宽,h为边界框或目标区域的高,C为边界框或目标区域的置信度,p(c)为类的概率,θ(c)为边界框或目标区域的角度,/>表示目标落入第i个边界框中,/>表示目标落入第j个图像帧的第i个边界框中,/>表示目标未落入第j个图像帧的第i个边界框中。
5.根据权利要求1所述视频关键帧提取方法,其特征在于,所述利用非极大值抑制算法剔除所述边界框集中的重复边界框,得到候选边界框集,包括:
S21:计算所述边界框集中所有边界框的pC值;其中,所述pC值为所述边界框的置信度与所述边界框类别的置信度的乘积;
S22:剔除所述边界框集中pC值中小于第一预设值的边界框;
S23:将当前边界框集中pC值最大的边界框确定为目标边界框,将所述目标边界框加入所述候选边界框集中,并剔除所述目标边界框;
S24:将当前边界框集中pC值最大的边界框确定为候选边界框,并计算所述候选边界框与所述候选边界框集中边界框之间的IoU值;
S25:判断所述IoU值是否小于第二预设值,若是,则将所述候选边界框加入所述候选边界框集中,并进入S26,若否,则进入S26;
S26:剔除所述候选边界框,重新进入S24直至所述边界框集中的边界框全部剔除完成。
6.根据权利要求1所述视频关键帧提取方法,其特征在于,所述确定每类中信息量最大的帧图像,包括:
通过信息量公式计算所有帧图像的信息量,并确定每类中信息量最大的帧图像;其中,所述信息量公式具体为:
其中,θ为所述目标角度,C1为所述边界框的置信度,C2为所述边界框类别的置信度,(x1,y1)、(x2,y2)为所述边界框的对角坐标,Sorti为第i帧图像帧的信息量。
7.一种视频关键帧提取系统,其特征在于,包括:
获取模块,用于获取视频数据,并根据所述视频数据确定候选帧集;
标注模块,用于对所述候选帧集的每一帧图像进行随机角度的标注以确定所述每一帧图像的目标区域;
训练模块,用于利用所述候选帧集和标注后的目标区域训练神经网络,其中,所述神经网络的参数包括所述目标区域的置信度和目标角度;
输入模块,用于将所述视频数据中的每一帧图像输入训练完成的神经网络中,输出所述目标区域的边界框,得到边界框集;
筛选模块,用于通过筛选所述边界框集得到关键帧集;
其中,所述筛选模块具体用于:
利用非极大值抑制算法剔除所述边界框集中的重复边界框,得到候选边界框集;确定所述候选边界框集中每一边界框所属的帧图像,组成候选关键帧集;将所述候选关键帧集中时间相邻的帧图像分为一类,并确定每类中信息量最大的帧图像,得到关键帧集。
8.一种视频关键帧提取设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述视频关键帧提取方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述视频关键帧提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810523467.2A CN108470077B (zh) | 2018-05-28 | 2018-05-28 | 一种视频关键帧提取方法、系统及设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810523467.2A CN108470077B (zh) | 2018-05-28 | 2018-05-28 | 一种视频关键帧提取方法、系统及设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108470077A CN108470077A (zh) | 2018-08-31 |
CN108470077B true CN108470077B (zh) | 2023-07-28 |
Family
ID=63261467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810523467.2A Active CN108470077B (zh) | 2018-05-28 | 2018-05-28 | 一种视频关键帧提取方法、系统及设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108470077B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558811B (zh) * | 2018-11-12 | 2023-04-07 | 中山大学 | 一种基于运动前景关注及非监督的关键帧提取的动作识别方法 |
CN110427810B (zh) * | 2019-06-21 | 2023-05-30 | 北京百度网讯科技有限公司 | 视频定损方法、装置、拍摄端及机器可读存储介质 |
CN110430443B (zh) * | 2019-07-11 | 2022-01-25 | 平安科技(深圳)有限公司 | 视频镜头剪切的方法、装置、计算机设备及存储介质 |
CN111079741A (zh) * | 2019-12-02 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 图像边框位置检测方法、装置、电子设备及存储介质 |
CN113221929A (zh) * | 2020-02-05 | 2021-08-06 | 华为技术有限公司 | 一种图像处理方法以及相关设备 |
CN113297514A (zh) * | 2020-04-13 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 图像处理方法、装置、电子设备和计算机存储介质 |
CN112016437B (zh) * | 2020-08-26 | 2023-02-10 | 中国科学院重庆绿色智能技术研究院 | 一种基于人脸视频关键帧的活体检测方法 |
CN112070085B (zh) * | 2020-09-04 | 2023-07-28 | 中山大学 | 基于双级联深度网络的无人机多特征点检测方法及装置 |
CN112241470B (zh) * | 2020-09-24 | 2024-02-02 | 北京影谱科技股份有限公司 | 一种视频分类方法及系统 |
CN112468888B (zh) * | 2020-11-26 | 2023-04-07 | 广东工业大学 | 基于gru网络的视频摘要生成方法与系统 |
CN112418344B (zh) * | 2020-12-07 | 2023-11-21 | 汇纳科技股份有限公司 | 一种训练方法、目标检测方法、介质及电子设备 |
CN112966588B (zh) * | 2021-03-02 | 2023-05-30 | 南昌黑鲨科技有限公司 | 视频数据标注方法、系统、获取神经网络深度学习的数据源的方法及计算机可读存储介质 |
CN113095239B (zh) * | 2021-04-15 | 2024-07-23 | 湖南鸭梨数字科技有限公司 | 一种关键帧提取方法、终端及计算机可读存储介质 |
CN113573137B (zh) * | 2021-07-01 | 2023-08-08 | 厦门美图之家科技有限公司 | 视频画布边界检测方法、系统、终端设备及存储介质 |
CN116109598A (zh) * | 2023-02-17 | 2023-05-12 | 上海杏脉信息科技有限公司 | 甲状腺结节识别装置、方法、存储介质及电子设备 |
CN116453010B (zh) * | 2023-03-13 | 2024-05-14 | 彩虹鱼科技(广东)有限公司 | 基于光流rgb双路特征海洋生物目标检测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750383A (zh) * | 2012-06-28 | 2012-10-24 | 中国科学院软件研究所 | 一种面向视频内容的螺旋摘要生成方法 |
CN104284240A (zh) * | 2014-09-17 | 2015-01-14 | 小米科技有限责任公司 | 视频浏览方法及装置 |
CN104715023A (zh) * | 2015-03-02 | 2015-06-17 | 北京奇艺世纪科技有限公司 | 基于视频内容的商品推荐方法和系统 |
CN105761263A (zh) * | 2016-02-19 | 2016-07-13 | 浙江大学 | 一种基于镜头边界检测和聚类的视频关键帧提取方法 |
CN107169411A (zh) * | 2017-04-07 | 2017-09-15 | 南京邮电大学 | 一种基于关键帧和边界约束dtw的实时动态手势识别方法 |
-
2018
- 2018-05-28 CN CN201810523467.2A patent/CN108470077B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750383A (zh) * | 2012-06-28 | 2012-10-24 | 中国科学院软件研究所 | 一种面向视频内容的螺旋摘要生成方法 |
CN104284240A (zh) * | 2014-09-17 | 2015-01-14 | 小米科技有限责任公司 | 视频浏览方法及装置 |
CN104715023A (zh) * | 2015-03-02 | 2015-06-17 | 北京奇艺世纪科技有限公司 | 基于视频内容的商品推荐方法和系统 |
CN105761263A (zh) * | 2016-02-19 | 2016-07-13 | 浙江大学 | 一种基于镜头边界检测和聚类的视频关键帧提取方法 |
CN107169411A (zh) * | 2017-04-07 | 2017-09-15 | 南京邮电大学 | 一种基于关键帧和边界约束dtw的实时动态手势识别方法 |
Non-Patent Citations (3)
Title |
---|
Qi Wang, et al.Improving cross-dimensional weighting pooling with multi-scale feature fusion for image retrieval.《Neurocomputing》.2019,第363卷第17-26页. * |
Zhao LL,et al.AN EFFICIENT KEY-FRAME-FREE PREDICTION METHOD FOR MGS OF H.264/SVC.18th IEEE International Conference on Image Processing (ICIP).2012,第3542-3545页. * |
庞亚俊.基于先验的动作视频关键帧提取.《河南理工大学学报( 自然科学版)》.2016,第35卷(第6期),第862-868页. * |
Also Published As
Publication number | Publication date |
---|---|
CN108470077A (zh) | 2018-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108470077B (zh) | 一种视频关键帧提取方法、系统及设备和存储介质 | |
CN110929774B (zh) | 图像中目标物的分类方法、模型训练方法和装置 | |
US8750573B2 (en) | Hand gesture detection | |
US8792722B2 (en) | Hand gesture detection | |
US8594385B2 (en) | Predicting the aesthetic value of an image | |
CN109241861B (zh) | 一种数学公式识别方法、装置、设备及存储介质 | |
CN111368636B (zh) | 目标分类方法、装置、计算机设备和存储介质 | |
CN106716443A (zh) | 传感器元件阵列中的特征计算 | |
CN101937513A (zh) | 信息处理设备、信息处理方法和程序 | |
CN114155546B (zh) | 一种图像矫正方法、装置、电子设备和存储介质 | |
CN110163239A (zh) | 一种基于超像素和条件随机场的弱监督图像语义分割方法 | |
CN108875482B (zh) | 物体检测方法和装置、神经网络训练方法和装置 | |
CN114937179B (zh) | 垃圾图像分类方法、装置、电子设备及存储介质 | |
CN105550641B (zh) | 基于多尺度线性差分纹理特征的年龄估计方法和系统 | |
WO2021208617A1 (zh) | 进出站识别方法、装置、终端及存储介质 | |
CN113343958B (zh) | 一种文本识别方法、装置、设备及介质 | |
JPWO2015146113A1 (ja) | 識別辞書学習システム、識別辞書学習方法および識別辞書学習プログラム | |
CN113486881B (zh) | 一种文本识别方法、装置、设备及介质 | |
CN113887630A (zh) | 图像分类方法、装置、电子设备和存储介质 | |
CN116630753A (zh) | 一种基于对比学习的多尺度小样本目标检测方法 | |
CN108710915B (zh) | 基于多核学习的多特征融合胃镜图像处理方法 | |
CN115512207A (zh) | 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法 | |
CN116092101A (zh) | 训练方法、图像识别方法、装置、设备及可读存储介质 | |
Zhang et al. | Encoding local binary descriptors by bag-of-features with hamming distance for visual object categorization | |
CN115019305A (zh) | 一种根尖细胞的识别方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |