CN113610821A - 视频镜头边界定位方法、装置及电子设备 - Google Patents

视频镜头边界定位方法、装置及电子设备 Download PDF

Info

Publication number
CN113610821A
CN113610821A CN202110923476.2A CN202110923476A CN113610821A CN 113610821 A CN113610821 A CN 113610821A CN 202110923476 A CN202110923476 A CN 202110923476A CN 113610821 A CN113610821 A CN 113610821A
Authority
CN
China
Prior art keywords
frame
boundary
target
video frame
target video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110923476.2A
Other languages
English (en)
Inventor
范清
唐大闰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Miaozhen Information Technology Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110923476.2A priority Critical patent/CN113610821A/zh
Publication of CN113610821A publication Critical patent/CN113610821A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种视频镜头边界定位方法、装置及电子设备,涉及图像检测技术领域,本发明使用神经网络模型预测初始边界帧,并附加一个基于分块平均梯度的后处理来解决整体运动变化小,但局部运动变化剧烈的相邻镜头边界定位不准确的问题,与现有的基于直方图差分的方法和基于深度学习的方法相比,在不明显损失定位速度的情况下,提高了定位准确度。

Description

视频镜头边界定位方法、装置及电子设备
技术领域
本发明涉及图像检测技术领域,尤其是涉及一种视频镜头边界定位方法、装置及电子设备。
背景技术
视频镜头边界定位是视频内容理解重要的步骤之一。视频镜头在语义上是一个相对独立的视频单位。在时序上,镜头表现为帧内对象在时域上连续的一组动作。镜头边界定位是指检测并定位出镜头的边界帧,将视频分割为独立镜头的过程。
镜头边界定位算法的基本思想是根据相邻镜头间的物理特征差异来确定镜头的边界帧。为了让视频镜头切换更加平滑,两个相邻镜头之间往往插有若干缓冲帧,整体上视觉变化不显著,使得边界检测成为一个难题。另外,在视频拍摄过程中,摄像设备存在抖动、噪声、光照强度变化等情况,也很大地影响了镜头边界点位的效果。
目前的镜头边界定位方法包括基于直方图差分的方法和基于深度学习的方法。其中,直方图是描述图像颜色特征分布的一种方法,通过直方图的相似度可以判断图像之间的相似情况,并且以此来判断是否有图像场景的临界变化,实现镜头边界定位。然而,由于视频镜头变换十分复杂,特别是对于整体运动变化小,但局部运动变化剧烈的相邻镜头,现有的基于直方图差分的方法和基于深度学习的方法均定位不够准确。
发明内容
本发明的目的在于提供一种视频镜头边界定位方法、装置及电子设备,以提升定位准确度。
本发明实施例提供了一种视频镜头边界定位方法,包括:
根据训练好的神经网络模型,确定待检测的目标视频的至少一个初始边界帧;
对于每个所述初始边界帧,计算得到该初始边界帧对应的视频帧序列中的每个目标视频帧的分块平均梯度;其中,该初始边界帧对应的视频帧序列中的各个目标视频帧为所述目标视频中,以该初始边界帧为中心,预设范围内的各个视频帧;所述目标视频帧的分块平均梯度包括将所述目标视频帧划分为多个子区域时每个所述子区域的平均像素灰度值的梯度;
根据该初始边界帧对应的视频帧序列中的各个所述目标视频帧的分块平均梯度,从各个所述目标视频帧中确定该初始边界帧对应的目标边界帧;
将各个所述初始边界帧对应的目标边界帧确定为所述目标视频的镜头边界定位结果。
进一步地,所述计算得到该初始边界帧对应的视频帧序列中的每个目标视频帧的分块平均梯度,包括:
对于该初始边界帧对应的视频帧序列中的每个目标视频帧,按照预设划分方式将该目标视频帧划分为多个子区域;
计算得到每个所述子区域的平均像素灰度值;
根据各个所述子区域的平均像素灰度值,计算得到每个所述子区域对应的梯度幅值;
由各个所述子区域对应的梯度幅值,构造得到该目标视频帧的分块平均梯度矩阵。
进一步地,所述目标视频帧的分块平均梯度为由所述目标视频帧的各个所述子区域的平均像素灰度值的梯度幅值构造得到的分块平均梯度矩阵;所述根据该初始边界帧对应的视频帧序列中的各个所述目标视频帧的分块平均梯度,从各个所述目标视频帧中确定该初始边界帧对应的目标边界帧,包括:
计算得到该初始边界帧对应的视频帧序列中的每个所述目标视频帧的边界特征矩阵,所述目标视频帧的边界特征矩阵为所述目标视频帧的分块平均梯度矩阵与所述目标视频帧的前一个视频帧的分块平均梯度矩阵的差;
统计得到每个所述边界特征矩阵对应的目标元素个数,所述边界特征矩阵对应的目标元素个数为所述边界特征矩阵中元素值大于预设梯度阈值的元素个数;
根据各个所述边界特征矩阵对应的目标元素个数,确定该初始边界帧对应的目标边界帧。
进一步地,所述根据各个所述边界特征矩阵对应的目标元素个数,确定该初始边界帧对应的目标边界帧,包括:
将目标元素个数大于预设数量的边界特征矩阵所对应的目标视频帧,确定为候选边界帧;
当存在一个所述候选边界帧时,将所述候选边界帧确定为该初始边界帧对应的目标边界帧;
当存在多个所述候选边界帧时,将位于所述视频帧序列中的最后一个候选边界帧确定为该初始边界帧对应的目标边界帧。
进一步地,所述方法还包括:
获取多个样本视频和每个所述样本视频的边界帧标注数据,每个所述样本视频均包括预设帧数个视频帧;
根据多个所述样本视频及其边界帧标注数据,对待训练的神经网络模型进行训练,得到训练后的神经网络模型。
进一步地,所述获取多个样本视频和每个所述样本视频的边界帧标注数据,包括:
从ClipShots数据集中获取原始视频及其边界帧标注数据;
对所述原始视频及其边界帧标注数据进行拆分处理,得到多个样本视频和每个所述样本视频的边界帧标注数据。
本发明实施例还提供了一种视频镜头边界定位装置,包括:
第一确定模块,用于根据训练好的神经网络模型,确定待检测的目标视频的至少一个初始边界帧;
梯度计算模块,用于对于每个所述初始边界帧,计算得到该初始边界帧对应的视频帧序列中的每个目标视频帧的分块平均梯度;其中,该初始边界帧对应的视频帧序列中的各个目标视频帧为所述目标视频中,以该初始边界帧为中心,预设范围内的各个视频帧;所述目标视频帧的分块平均梯度包括将所述目标视频帧划分为多个子区域时每个所述子区域的平均像素灰度值的梯度;
第二确定模块,用于根据该初始边界帧对应的视频帧序列中的各个所述目标视频帧的分块平均梯度,从各个所述目标视频帧中确定该初始边界帧对应的目标边界帧;
第三确定模块,用于将各个所述初始边界帧对应的目标边界帧确定为所述目标视频的镜头边界定位结果。
进一步地,所述梯度计算模块具体用于:
对于该初始边界帧对应的视频帧序列中的每个目标视频帧,按照预设划分方式将该目标视频帧划分为多个子区域;
计算得到每个所述子区域的平均像素灰度值;
根据各个所述子区域的平均像素灰度值,计算得到每个所述子区域对应的梯度幅值;
由各个所述子区域对应的梯度幅值,构造得到该目标视频帧的分块平均梯度矩阵。
本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的视频镜头边界定位方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的视频镜头边界定位方法。
本发明实施例提供的视频镜头边界定位方法、装置及电子设备中,该方法包括:根据训练好的神经网络模型,确定待检测的目标视频的至少一个初始边界帧;对于每个初始边界帧,确定该初始边界帧对应的视频帧序列中的每个目标视频帧的分块平均梯度;其中,该初始边界帧对应的视频帧序列中的各个目标视频帧为目标视频中,以该初始边界帧为中心,预设范围内的各个视频帧;目标视频帧的分块平均梯度包括将目标视频帧划分为多个子区域时每个子区域的平均像素灰度值的梯度;根据该初始边界帧对应的视频帧序列中的各个目标视频帧的分块平均梯度,从各个目标视频帧中确定该初始边界帧对应的目标边界帧;将各个初始边界帧对应的目标边界帧确定为目标视频的镜头边界定位结果。本发明实施例使用神经网络模型预测初始边界帧,并附加一个基于分块平均梯度的后处理来解决整体运动变化小,但局部运动变化剧烈的相邻镜头边界定位不准确的问题,与现有的基于直方图差分的方法和基于深度学习的方法相比,在不明显损失定位速度的情况下,提高了定位准确度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种视频镜头边界定位方法的流程示意图;
图2为本发明实施例提供的另一种视频镜头边界定位方法的流程示意图;
图3为本发明实施例提供的一种神经网络的结构示意图;
图4为本发明实施例提供的一种视频镜头边界定位装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在广告视频中为了不破坏镜头连贯性,需要快速、准确的定位到镜头边界以便在一个完整的镜头之后插入广告商提供内容。目前常用基于深度学习的方法来预测镜头边界,然而,由于视频镜头变换十分复杂,这种方法定位不够准确。基于此,本发明实施例提供的一种鲁棒的视频镜头边界定位方法、装置及电子设备,在不明显损失定位速度的情况下,可以有效提升边界定位准确性,在实际应用中起到了很好的效果。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种视频镜头边界定位方法进行详细介绍。
本发明实施例提供了一种视频镜头边界定位方法,该方法可以由具有数据处理能力的电子设备执行,该电子设备可以为手机、笔记本电脑或台式机等。参见图1所示的一种视频镜头边界定位方法的流程示意图,该方法主要包括如下步骤S102~步骤S108:
步骤S102,根据训练好的神经网络模型,确定待检测的目标视频的至少一个初始边界帧。
将待检测的目标视频输入训练好的神经网络模型,得到神经网络模型输出的至少一个初始边界帧。该神经网络模型可以但不限于为基于3D CNN(Convolutional NeuralNetworks,卷积神经网络)的模型,通过诸如基于3D CNN的模型对待检测的目标视频进行推理,可以得到目标视频中每一个视频帧是边界帧的概率(范围为0~1),模型以阈值0.5离散化输出的概率为0或1,0代表非边界帧,1代表边界帧。
步骤S104,对于每个初始边界帧,确定该初始边界帧对应的视频帧序列中的每个目标视频帧的分块平均梯度;其中,该初始边界帧对应的视频帧序列中的各个目标视频帧为目标视频中,以该初始边界帧为中心,预设范围内的各个视频帧;目标视频帧的分块平均梯度包括将目标视频帧划分为多个子区域时每个子区域的平均像素灰度值的梯度。
可以通过加窗方式确定该初始边界帧对应的视频帧序列,上述预设范围等于窗口的长度。窗口的长度可以根据实际需求设置,例如窗口的长度为32,则可以在步骤S102中模型输出为1的位置(即初始边界帧所在的位置)为中心,添加一个长度为32的窗口,模型输出为1的位置左右各16帧,窗口内的这33个视频帧构成了该初始边界帧对应的视频帧序列。
为了便于理解,在一些可能的实施例中,上述步骤S104可以通过如下子步骤1~子步骤4实现:
子步骤1,对于该初始边界帧对应的视频帧序列中的每个目标视频帧,按照预设划分方式将该目标视频帧划分为多个子区域。
上述预设划分方式可以根据实际需求设置,例如将每个目标视频帧均均匀分割成16×16个子区域。
子步骤2,计算得到每个子区域的平均像素灰度值。
计算每个子区域中各个像素点的灰度值的平均值,得到该子区域的平均像素灰度值。
子步骤3,根据各个子区域的平均像素灰度值,计算得到每个子区域对应的梯度幅值。
平均像素灰度值函数H(u,v)在子区域(u,v)的梯度(即一阶微分)是一个具有大小和方向的矢量,设Gu,Gv分别表示沿u方向和v方向的梯度,那么这个梯度矢量可以表示为下述公式1:
Figure BDA0003208310900000081
这个矢量的幅度(即梯度幅值)可以表示为下述公式2:
Figure BDA0003208310900000082
子步骤4,由各个子区域对应的梯度幅值,构造得到该目标视频帧的分块平均梯度矩阵。
以目标视频帧被划分为16×16个子区域为例,目标视频帧的分块平均梯度矩阵Mi可以表示为下述公式3:
Figure BDA0003208310900000083
其中,Mi表示目标视频帧fi的分块平均梯度矩阵,Gx,y(1≤x≤16,1≤y≤16)表示子区域(x,y)对应的梯度幅值。
步骤S106,根据该初始边界帧对应的视频帧序列中的各个目标视频帧的分块平均梯度,从各个目标视频帧中确定该初始边界帧对应的目标边界帧。
为了便于理解,在一些可能的实施例中,上述步骤S106可以通过如下子步骤a~子步骤c实现:
子步骤a,计算得到该初始边界帧对应的视频帧序列中的每个目标视频帧的边界特征矩阵,目标视频帧的边界特征矩阵为目标视频帧的分块平均梯度矩阵与该目标视频帧的前一个视频帧的分块平均梯度矩阵的差。
可以按照视频帧序列中目标视频帧的排列顺序(如从左至右),依次计算窗口中各个目标视频帧的边界特征矩阵,由于未计算第一个目标视频帧的前一个视频帧的分块平均梯度矩阵,因此,在计算边界特征矩阵时可以不考虑第一个目标视频帧。边界特征矩阵定义为相邻帧的分块平均梯度矩阵的差,可以表示为下述公式4:
Fi=Mi-Mi-1 (公式4)
其中,Fi表示目标视频帧fi的边界特征矩阵,Mi表示目标视频帧fi的分块平均梯度矩阵,Mi-1表示目标视频帧fi-1的分块平均梯度矩阵。
子步骤b,统计得到每个边界特征矩阵对应的目标元素个数,该边界特征矩阵对应的目标元素个数为该边界特征矩阵中元素值大于预设梯度阈值的元素个数。
预设梯度阈值可以根据实际需求设置,这里不做限定,例如,预设梯度阈值为0.3,则统计每个边界特征矩阵中元素值大于0.3的元素个数,得到该边界特征矩阵对应的目标元素个数。
子步骤c,根据各个边界特征矩阵对应的目标元素个数,确定该初始边界帧对应的目标边界帧。
对于上述子步骤c,在一种可能的实现方式中,可以将目标元素个数大于预设数量的边界特征矩阵所对应的目标视频帧,确定为候选边界帧;当存在一个候选边界帧时,将该候选边界帧确定为该初始边界帧对应的目标边界帧;当存在多个候选边界帧时,将位于视频帧序列中的最后一个候选边界帧确定为该初始边界帧对应的目标边界帧。
上述预设数量的设置与划分的子区域数量有关,例如预设数量设置为子区域数量的0.6倍,向上或向下取整,若子区域数量为256,则预设数量可以为153或154。以预设数量为154为例,若一个边界特征矩阵对应的目标元素个数为188,则确定该边界特征矩阵对应的目标视频帧为候选边界帧。
对于上述子步骤c,在另一种可能的实现方式中,可以将每个边界特征矩阵对应的目标元素个数除以边界特征矩阵的元素总个数,得到每个边界特征矩阵对应的目标占比;将目标占比大于预设比值的边界特征矩阵所对应的目标视频帧,确定为候选边界帧;当存在一个候选边界帧时,将该候选边界帧确定为该初始边界帧对应的目标边界帧;当存在多个候选边界帧时,将位于视频帧序列中的最后一个候选边界帧确定为该初始边界帧对应的目标边界帧。
同样的,上述预设比值可以根据实际需求设置,这里不做限定,例如预设比值为0.6。
步骤S108,将各个初始边界帧对应的目标边界帧确定为目标视频的镜头边界定位结果。
本发明实施例提供的视频镜头边界定位方法,通过神经网络模型预测初始边界帧保证了初始预测相对准确,采用分块平均梯度矩阵的变化来细分初始预测到的边界帧,解决整体运动变化小,但局部运动变化剧烈的相邻镜头边界定位不准确的问题,与现有的基于直方图差分的方法和基于深度学习的方法相比,在不明显损失定位速度的情况下,提升了定位准确率,实际测试提升效果显著。
为了便于理解,本发明实施例还提供了另一种视频镜头边界定位方法,该方法采用两阶段方案:首先使用一个基于3D CNN的模型架构对输入的目标视频进行推理,得到初始的镜头边界定位结果(即初始边界帧);然后在初始的镜头边界定位结果上应用加窗和基于分块梯度的细分技术提升定位准确性,如图2所示,具体步骤如下:将待检测的目标视频输入至基于3D CNN的模型,得到至少一个初始边界帧;以初始边界帧的位置为中心,添加一个长度为32的窗口(即图2中的加窗过程);计算得到窗口内的所有目标视频帧的分块平均梯度矩阵,从左至右计算窗口中各个目标视频帧的边界特征矩阵,统计每个边界特征矩阵中大于预设梯度阈值的元素个数Ni,Ni表示目标视频帧fi对应的目标元素个数,如果Ni/元素总个数>0.6,则更新当前的目标视频帧fi为目标边界帧,如果窗口中有多个目标边界帧,则选定最后一个为目标边界帧(即图2中的细分过程)。这样对待检测的目标视频能够产生准确的边界定位结果。此处未详细描述的部分可以参见前述实施例的相应内容,这里不再赘述。
本发明实施例还提供了上述卷积神经网络的训练方法,包括如下过程:获取多个样本视频和每个样本视频的边界帧标注数据,每个样本视频均包括预设帧数个视频帧;根据多个样本视频及其边界帧标注数据,对待训练的神经网络模型进行训练,得到训练后的神经网络模型。
上述预设帧数与神经网络模型中输入层的输入数据设置有关,预设帧数可以根据实际需求设置,这里不做限定,例如预设帧数为128。
在一种可能的实现方式中,可以从ClipShots数据集中获取原始视频及其边界帧标注数据;对原始视频及其边界帧标注数据进行拆分处理,得到多个样本视频和每个样本视频的边界帧标注数据。例如,使用ClipShots数据集用于训练,将ClipShots数据集中的原始视频拆分成128帧的多个样本视频,不足128帧的则丢弃或用最后一帧重复填充。这样利用已有的ClipShots数据集来获取训练数据,可以减轻用户的工作量。
参见图3所示的一种神经网络的结构示意图,该神经网络为3D CNN,主要包括依次排列的第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、全局均值池化层、第一线性层和第二线性层,第二线性层输出的向量维度128与上述预设帧数相同。在进行神经网络模型的训练时,每次迭代加载一个批次的训练数据输入如图3所示的3D CNN中进行训练,3D CNN输出128维的向量序列,该向量序列代表每一帧是边界帧的概率。
在另一种可能的实现方式中,也可以针对零碎的短镜头视频,进行手工标注,得到边界帧标注数据,用于训练神经网络模型。
综上,本发明实施例提出了一种快速、准确的视频镜头边界定位技术流程,可以有效的应用到多种类型的视频,以解决目前现有技术存在的不够鲁棒、准确等问题,可以弥补当前已存在技术的不足。
对应于上述的视频镜头边界定位方法,本发明实施例还提供了一种视频镜头边界定位装置,参见图4所示的一种视频镜头边界定位装置的结构示意图,该装置包括:
第一确定模块42,用于根据训练好的神经网络模型,确定待检测的目标视频的至少一个初始边界帧;
梯度计算模块44,用于对于每个初始边界帧,计算得到该初始边界帧对应的视频帧序列中的每个目标视频帧的分块平均梯度;其中,该初始边界帧对应的视频帧序列中的各个目标视频帧为目标视频中,以该初始边界帧为中心,预设范围内的各个视频帧;目标视频帧的分块平均梯度包括将该目标视频帧划分为多个子区域时每个子区域的平均像素灰度值的梯度;
第二确定模块46,用于根据该初始边界帧对应的视频帧序列中的各个目标视频帧的分块平均梯度,从各个目标视频帧中确定该初始边界帧对应的目标边界帧;
第三确定模块48,用于将各个初始边界帧对应的目标边界帧确定为目标视频的镜头边界定位结果。
本发明实施例提供的视频镜头边界定位装置,通过神经网络模型预测初始边界帧保证了初始预测相对准确,采用分块平均梯度矩阵的变化来细分初始预测到的边界帧,解决整体运动变化小,但局部运动变化剧烈的相邻镜头边界定位不准确的问题,与现有的基于直方图差分的方法和基于深度学习的方法相比,在不明显损失定位速度的情况下,提升了定位准确率,实际测试提升效果显著。
进一步地,上述梯度计算模块44具体用于:对于该初始边界帧对应的视频帧序列中的每个目标视频帧,按照预设划分方式将该目标视频帧划分为多个子区域;计算得到每个子区域的平均像素灰度值;根据各个子区域的平均像素灰度值,计算得到每个子区域对应的梯度幅值;由各个子区域对应的梯度幅值,构造得到该目标视频帧的分块平均梯度矩阵。
进一步地,上述目标视频帧的分块平均梯度为由目标视频帧的各个子区域的平均像素灰度值的梯度幅值构造得到的分块平均梯度矩阵;上述第二确定模块46具体用于:计算得到该初始边界帧对应的视频帧序列中的每个目标视频帧的边界特征矩阵,目标视频帧的边界特征矩阵为该目标视频帧的分块平均梯度矩阵与该目标视频帧的前一个视频帧的分块平均梯度矩阵的差;统计得到每个边界特征矩阵对应的目标元素个数,边界特征矩阵对应的目标元素个数为边界特征矩阵中元素值大于预设梯度阈值的元素个数;根据各个边界特征矩阵对应的目标元素个数,确定该初始边界帧对应的目标边界帧。
进一步地,上述第二确定模块46还用于:将目标元素个数大于预设数量的边界特征矩阵所对应的目标视频帧,确定为候选边界帧;当存在一个候选边界帧时,将该候选边界帧确定为该初始边界帧对应的目标边界帧;当存在多个候选边界帧时,将位于视频帧序列中的最后一个候选边界帧确定为该初始边界帧对应的目标边界帧。
进一步地,上述装置还包括与第一确定模块42连接的模型训练模块,模型训练模块用于:获取多个样本视频和每个样本视频的边界帧标注数据,每个样本视频均包括预设帧数个视频帧;根据多个样本视频及其边界帧标注数据,对待训练的神经网络模型进行训练,得到训练后的神经网络模型。
进一步地,上述模型训练模块具体用于:从ClipShots数据集中获取原始视频及其边界帧标注数据;对原始视频及其边界帧标注数据进行拆分处理,得到多个样本视频和每个样本视频的边界帧标注数据。
本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
参见图5,本发明实施例还提供一种电子设备100,包括:处理器50,存储器51,总线52和通信接口53,所述处理器50、通信接口53和存储器51通过总线52连接;处理器50用于执行存储器51中存储的可执行模块,例如计算机程序。
其中,存储器51可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory,简称NVM),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线52可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器51用于存储程序,所述处理器50在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器50中,或者由处理器50实现。
处理器50可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器50中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器50可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器51,处理器50读取存储器51中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前面方法实施例中所述的视频镜头边界定位方法。该计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种视频镜头边界定位方法,其特征在于,包括:
根据训练好的神经网络模型,确定待检测的目标视频的至少一个初始边界帧;
对于每个所述初始边界帧,计算得到该初始边界帧对应的视频帧序列中的每个目标视频帧的分块平均梯度;其中,该初始边界帧对应的视频帧序列中的各个目标视频帧为所述目标视频中,以该初始边界帧为中心,预设范围内的各个视频帧;所述目标视频帧的分块平均梯度包括将所述目标视频帧划分为多个子区域时每个所述子区域的平均像素灰度值的梯度;
根据该初始边界帧对应的视频帧序列中的各个所述目标视频帧的分块平均梯度,从各个所述目标视频帧中确定该初始边界帧对应的目标边界帧;
将各个所述初始边界帧对应的目标边界帧确定为所述目标视频的镜头边界定位结果。
2.根据权利要求1所述的视频镜头边界定位方法,其特征在于,所述计算得到该初始边界帧对应的视频帧序列中的每个目标视频帧的分块平均梯度,包括:
对于该初始边界帧对应的视频帧序列中的每个目标视频帧,按照预设划分方式将该目标视频帧划分为多个子区域;
计算得到每个所述子区域的平均像素灰度值;
根据各个所述子区域的平均像素灰度值,计算得到每个所述子区域对应的梯度幅值;
由各个所述子区域对应的梯度幅值,构造得到该目标视频帧的分块平均梯度矩阵。
3.根据权利要求1所述的视频镜头边界定位方法,其特征在于,所述目标视频帧的分块平均梯度为由所述目标视频帧的各个所述子区域的平均像素灰度值的梯度幅值构造得到的分块平均梯度矩阵;所述根据该初始边界帧对应的视频帧序列中的各个所述目标视频帧的分块平均梯度,从各个所述目标视频帧中确定该初始边界帧对应的目标边界帧,包括:
计算得到该初始边界帧对应的视频帧序列中的每个所述目标视频帧的边界特征矩阵,所述目标视频帧的边界特征矩阵为所述目标视频帧的分块平均梯度矩阵与所述目标视频帧的前一个视频帧的分块平均梯度矩阵的差;
统计得到每个所述边界特征矩阵对应的目标元素个数,所述边界特征矩阵对应的目标元素个数为所述边界特征矩阵中元素值大于预设梯度阈值的元素个数;
根据各个所述边界特征矩阵对应的目标元素个数,确定该初始边界帧对应的目标边界帧。
4.根据权利要求3所述的视频镜头边界定位方法,其特征在于,所述根据各个所述边界特征矩阵对应的目标元素个数,确定该初始边界帧对应的目标边界帧,包括:
将目标元素个数大于预设数量的边界特征矩阵所对应的目标视频帧,确定为候选边界帧;
当存在一个所述候选边界帧时,将所述候选边界帧确定为该初始边界帧对应的目标边界帧;
当存在多个所述候选边界帧时,将位于所述视频帧序列中的最后一个候选边界帧确定为该初始边界帧对应的目标边界帧。
5.根据权利要求1所述的视频镜头边界定位方法,其特征在于,所述方法还包括:
获取多个样本视频和每个所述样本视频的边界帧标注数据,每个所述样本视频均包括预设帧数个视频帧;
根据多个所述样本视频及其边界帧标注数据,对待训练的神经网络模型进行训练,得到训练后的神经网络模型。
6.根据权利要求5所述的视频镜头边界定位方法,其特征在于,所述获取多个样本视频和每个所述样本视频的边界帧标注数据,包括:
从ClipShots数据集中获取原始视频及其边界帧标注数据;
对所述原始视频及其边界帧标注数据进行拆分处理,得到多个样本视频和每个所述样本视频的边界帧标注数据。
7.一种视频镜头边界定位装置,其特征在于,包括:
第一确定模块,用于根据训练好的神经网络模型,确定待检测的目标视频的至少一个初始边界帧;
梯度计算模块,用于对于每个所述初始边界帧,计算得到该初始边界帧对应的视频帧序列中的每个目标视频帧的分块平均梯度;其中,该初始边界帧对应的视频帧序列中的各个目标视频帧为所述目标视频中,以该初始边界帧为中心,预设范围内的各个视频帧;所述目标视频帧的分块平均梯度包括将所述目标视频帧划分为多个子区域时每个所述子区域的平均像素灰度值的梯度;
第二确定模块,用于根据该初始边界帧对应的视频帧序列中的各个所述目标视频帧的分块平均梯度,从各个所述目标视频帧中确定该初始边界帧对应的目标边界帧;
第三确定模块,用于将各个所述初始边界帧对应的目标边界帧确定为所述目标视频的镜头边界定位结果。
8.根据权利要求7所述的视频镜头边界定位装置,其特征在于,所述梯度计算模块具体用于:
对于该初始边界帧对应的视频帧序列中的每个目标视频帧,按照预设划分方式将该目标视频帧划分为多个子区域;
计算得到每个所述子区域的平均像素灰度值;
根据各个所述子区域的平均像素灰度值,计算得到每个所述子区域对应的梯度幅值;
由各个所述子区域对应的梯度幅值,构造得到该目标视频帧的分块平均梯度矩阵。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-6中任一项所述的方法。
CN202110923476.2A 2021-08-12 2021-08-12 视频镜头边界定位方法、装置及电子设备 Pending CN113610821A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110923476.2A CN113610821A (zh) 2021-08-12 2021-08-12 视频镜头边界定位方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110923476.2A CN113610821A (zh) 2021-08-12 2021-08-12 视频镜头边界定位方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN113610821A true CN113610821A (zh) 2021-11-05

Family

ID=78340459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110923476.2A Pending CN113610821A (zh) 2021-08-12 2021-08-12 视频镜头边界定位方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113610821A (zh)

Similar Documents

Publication Publication Date Title
CN107545262B (zh) 一种在自然场景图像中检测文本的方法及装置
CN109035304B (zh) 目标跟踪方法、介质、计算设备和装置
CN110598558B (zh) 人群密度估计方法、装置、电子设备及介质
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN113421305B (zh) 目标检测方法、装置、系统、电子设备及存储介质
CN110909712B (zh) 运动目标检测方法、装置、电子设备及存储介质
CN112911281B (zh) 一种视频质量评价方法及装置
CN109409321B (zh) 一种镜头运动方式的确定方法及装置
CN109447023B (zh) 确定图像相似度的方法、视频场景切换识别方法及装置
US20190311492A1 (en) Image foreground detection apparatus and method and electronic device
CN110991310A (zh) 人像检测方法、装置、电子设备及计算机可读介质
CN114708437A (zh) 目标检测模型的训练方法、目标检测方法、装置和介质
CN111753729B (zh) 一种假脸检测方法、装置、电子设备及存储介质
CN115345905A (zh) 目标对象跟踪方法、装置、终端及存储介质
CN112365513A (zh) 一种模型训练的方法及装置
CN112633066A (zh) 一种航拍小目标检测方法、装置、设备及存储介质
CN112465869A (zh) 一种轨迹关联方法、装置、电子设备及存储介质
CN110298302B (zh) 一种人体目标检测方法及相关设备
Kryjak et al. Real-time implementation of foreground object detection from a moving camera using the vibe algorithm
CN116630367B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN111950517A (zh) 一种目标检测方法、模型训练方法,电子设备及存储介质
CN104978731A (zh) 一种信息处理方法及电子设备
Liang et al. Robust cross-Scene foreground segmentation in surveillance video
CN114549429B (zh) 基于超图结构的深度数据质量评价方法及装置
CN113610821A (zh) 视频镜头边界定位方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211223

Address after: A111, 1f, building 3, No. 1, zone 1, Lize Zhongyuan, Wangjing emerging industrial zone, Chaoyang District, Beijing 100020

Applicant after: MIAOZHEN INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Floor 29, 30, 31, 32, No. 701, Yunjin Road, Xuhui District, Shanghai, 200030

Applicant before: Shanghai minglue artificial intelligence (Group) Co.,Ltd.