CN108848422A - 一种基于目标检测的视频摘要生成方法 - Google Patents

一种基于目标检测的视频摘要生成方法 Download PDF

Info

Publication number
CN108848422A
CN108848422A CN201810351445.2A CN201810351445A CN108848422A CN 108848422 A CN108848422 A CN 108848422A CN 201810351445 A CN201810351445 A CN 201810351445A CN 108848422 A CN108848422 A CN 108848422A
Authority
CN
China
Prior art keywords
target object
video
picture
frame
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810351445.2A
Other languages
English (en)
Other versions
CN108848422B (zh
Inventor
刘华平
刘鹤
孙富春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810351445.2A priority Critical patent/CN108848422B/zh
Publication of CN108848422A publication Critical patent/CN108848422A/zh
Application granted granted Critical
Publication of CN108848422B publication Critical patent/CN108848422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于目标检测的视频摘要生成方法,属于图像处理技术领域。该方法在训练阶段获取包含2种以上的目标物体的图片集作为训练数据集并进行标注,建立深度学习网络并利用训练数据集对网络进行训练,得到训练完毕的深度学习网络。在使用阶段,获取一段视频,将视频进行分帧并将视频帧输入训练完毕的网络,网络输出每一帧视频帧所包含目标物体的特征向量、目标物体对应的位置向量和包含该目标物体视频帧原图。通过对所有特征向量进行聚类,最终得到视频摘要的结果。本发明能够准确没有遗漏地选出最能代表视频内容的目标,使人们对视频内容的理解更加清晰和直观,不再局限于场景和视频大小与格式的限制。

Description

一种基于目标检测的视频摘要生成方法
技术领域
本发明属于图像处理技术领域,特别涉及一种基于目标检测的视频摘要生成方法。
背景技术
近年来,随着互联网时代各类视频的传播而引起的信息爆炸,人们面对着越来越多的视频信息。有些视频当中场景与内容变化复杂,人们是很难快速地分析出主要内容;有些视频时长过长,比如监控视频,人们需要大量的人力实时监控。视频摘要技术能够自动地去发现和概括视频主题,从而帮助人们快速地了解视频的主要内容,变得越来越重要。然而,如何能够在短时间内将视频的主要内容提取出来从而节省人们时间,提高效率是当前研究的主要困难。
目前的视频摘要的方法主要分为基于片段级、关键帧级、分割级的视频摘要方法。片段级视频摘要方法是截取视频中的一小段或者几小段内容作为视频摘要的结果:该方法首先根据混合高斯模型对本地的视频流进行处理,获得视频的背景信息;接着将视频与背景信息做减法得到运动的目标;接着通过分层关联的方式将运动的目标进行跟踪选取得到运动目标的完整信息;最终将运动目标与背景信息重新组装成片段级的视频摘要。这种方法的缺点是所得到的视频摘要不够简洁,遇到较长的视频仍然耗时。关键帧级视频摘要方法是将视频中重要的几张关键图片作为最后的结果:该方法首先将视频中的图像进行二进制处理,接着通过支持向量机分析图像数据并利用图像中的颜色域梯度信息,提取原始视频中的关键帧。这种方法的缺点是摘要得到的整张图片不易于理解,无法快速捕捉到关键信息。而分割级视频摘要是在关键帧级的基础上,通过纹理等信息选出关键帧中重要的区域,但是这种方法的缺点是无法得到准确的视频摘要信息,得到的结果往往无法反映出真实的视频摘要内容。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于目标检测的视频摘要生成方法。本发明能够准确没有遗漏地选出最能代表视频内容的目标,使人们对视频内容的理解更加清晰和直观,不再局限于场景和视频大小与格式的限制。
本发明提出一种基于目标检测的视频摘要生成方法,其特征在于,该方法包括以下步骤:
(1)训练阶段:
(1-1)获取训练数据集并进行标注:
使用包含2种以上的目标物体的图片数据集作为训练数据集,对训练数据集每张图片中的所包含的目标物体进行人工标注,该标注过程是对每张图片中包含的每个目标物体分别画出一个检测框,检测框的大小为能包含该目标物体的最小长方形框;
(1-2)构建深度学习网络;
构建一个深度学习网络,该深度学习网络由五层卷积层和三层池化层组成;网络的输入为一个批次的图片,每个批次的图片数量为128张;网络的输出为每张图片中的每个目标物体分别对应的一个4096维向量代表该目标物体和一个4维向量代表该目标物体在图片中的坐标;
(1-3)利用经过步骤(1-1)标注后的训练数据集对步骤(1-2)建立的深度学习网络进行训练,得到训练完毕的深度学习网络;具体步骤如下:
(1-3-1)从经过步骤(1-1)标注后的训练数据集中随机选取一个批次的图片输入到步骤(1-2)建立的深度学习网络中,得到输入的每张图片对应的特征图作为深度学习网络第一阶段的输出:
(1-3-2)将(1-3-1)输出的每张图片对应的特征图作为深度学习网络第二阶段的输入,重新输入到第一阶段的深度学习网络中,通过设定的n个不同尺寸的候选框在特征图上滑动,将每个获选框选定的图片范围与输入图片中目标物体的位置进行重合度IoU(t,g)筛选:若IoU>0.7,则将候选框选定的图片范围作为正样例;若IoU<0.3,则将候选框选定的图片范围作为负样例;若0.3<IoU<0.7,则候选框选定的图片范围既不是正样例,也不是负样例;
假设G为输入图片中目标物体的检测框集合,任意一个候选框选定的图片范围t∈T和任意一个检测框g∈G的重合度IoU(t,g)计算表达式为:
(1-3-3)从步骤(1-3-2)生成的所有正负样例中,每次随机在正样例和负样例中各挑选128个样例作为训练样例进行正负样例训练;将128个正样例和128个负样例输入到损失函数中,得到对应的损失函数值,通过梯度下降法最小化函数值;损失函数为:
式中,i表示在训练样例中目标物体的索引,i=1,2,…,128,pi表示第i个训练样例是目标物体的概率,pi *表示第i个训练样例的真实标签,pi *∈{0,1},当目标物体是正样例时,pi *为0;当目标物体是负样例时,pi *为1,ti表示第i个训练样例检测框四个坐标的向量,ti *表示代表第i个训练样例候选框的坐标向量;Lcls(,)为Softmax loss,Lreg(,)为smooth L1loss;L(,)为损失函数;Ncls,Nreg,λ为三个常数值;其中,smooth L1loss为:
其中,x为输入的变量;
(1-3-4)重复步骤(1-3-1)至(1-3-3)L次,L≥2000,使得训练数据集的每张图片得到对应的正样例作为候选区域;
(1-3-5)以步骤(1-3-4)生成的每张图片候选区域作为输入,经过池化层输出每张图片对应的所有的目标物体候选区域,将目标物体候选区域按照Softmax分类器得到分数最高的候选区域作为最终的目标物体,得到4096维特征向量目标物体对应输入图片中的4个顶点位置并以4维向量进行表示,深度学习网络训练完毕;
(2)使用阶段:
(2-1)获取任意一段视频;
(2-2)对步骤(2-1)获取的视频进行分帧处理并按照设定的间隔标准获取视频帧,将获取的每帧视频帧存储为一个对应的691200=360*640*3维数组,其中360*640代表视频帧的尺寸,3代表红绿蓝三种颜色通道;
(2-3)将步骤(2-2)中得到的视频帧依次输入步骤(1)训练完毕的深度学习网络中,网络输出每一帧视频帧所包含目标物体的4096维特征向量代表该目标物体的种类、目标物体对应的4维向量代表目标物体在该帧图像中的位置、包含该目标物体的691200维向量代表包含该目标物体的视频帧原图,并分别存为三个数组,三个数组的维数分别记为:(n,4096),(n,4),(n,691200),其中n为视频中目标物体的数量;
(2-4)将步骤(2-3)得到的所有视频帧对应的目标物体特征向量使用K-means算法进行聚类,产生k个类及每个类对应的聚类中心x';
(2-5)对每个聚类中心x',找到与该聚类中心距离L2最小的特征向量,共得到k个目标物体对应的特征向量,并将k个特征向量存储到一个新的数组中,得到对应的k*4096维特征向量数组;其中L2距离的定义为:
(2-6)通过Numpy函数库中的argmin函数找到k个聚类中心对应的k个特征维向量在步骤(2-3)得到的(n,4096)维向量中的索引值,通过索引值和步骤(2-3)得到的(n,4)和(n,691200)数组,找到k个特征向量对应的原视频帧和在视频帧中的位置坐标,将k个特征向量对应的视频帧存储到k*691200维数组中,将k个特征向量在视频帧帧中的位置坐标存储到k*4维数组中;
(2-7)通过Numpy函数库中的reshape函数,将k*691200维数组中每个691200维向量转换成对应的uint8类型的(360,640,3)维向量,通过OpenCV库中的cvtColor函数将(360,640,3)维向量由BGR格式转化为RGB格式,最后向量通过matplotlib函数库将将k个(360,640,3)维的向量可视化,得到最终的输出结果作为步骤(2-1)获取视频的视频摘要。
本发明的特点及有益效果在于:
本发明利用基于深度学习的目标检测算法得到目标级的视频摘要,从而生成关键信息,使人们对内容的理解更加清晰和直观;由于基于深度学习的目标检测算法可以得到视频中的所有的目标,不再局限于场景和视频大小的限制。而基于深度学习的框架可以对目标进行深层次的特征表示,这样使用聚类分析的方法就可以准确没有遗漏的选出最能代表视频内容的目标,得到视频摘要结果。
具体实施方式
本发明提出的一种基于目标检测的视频摘要生成方法,下面结合具体实施例进一步详细说明如下。
本发明提出的一种基于目标检测的视频摘要生成方法,是基于目标级视频摘要技术;目标级视频摘要技术是根据视频中的内容,将视频中的重要对象(能够体现视频内容的对象)作为目标选择出来。本发明用候选框先将图像中可能是目标的区域自动框出,然后使用深度学习的方法提取目标区域的特征,根据特征的相似性计算得到视频摘要的结果。该方法包括以下步骤:
(1)训练阶段:
(1-1)获取训练数据集并进行标注;
使用多类别的图片数据集作为训练数据集(本实施例采用Pascal VOC2012数据集进行模型的训练)。训练数据集中至少包含2种以上的目标物体(本发明中目标的含义为可以对视频中的主要内容进行概括的物体,例如一个明星拍摄的广告视频中,可以对视频中的主要内容进行概括的物体为:代言明星,代言广告的品牌,代言广告的对象(如饮料,饼干等))。Pascal VOC2012数据集为标准化的图片数据集,该数据集中已经对所有图片进行了分类,标注和预处理。Pascal VOC2012数据集包含的目标物体种类数为20种,如瓶子,椅子,盆栽,笔记本电脑等。对训练数据集每张图片中的所包含的目标物体进行人工标注,该标注过程是对每张图片中包含的每个目标物体分别画出一个检测框(检测框的大小为能包含该目标物体的最小长方形框)。
(1-2)构建深度学习网络;
构建一个深度学习网络,深度学习网络是由五层卷积层和三层池化层组成,排列顺序为卷积层,池化层,卷积层,池化层,卷积层,池化层,卷积层,卷积层。网络的输入为一个批次的图片,每个批次的图片数量为128张,每张图片格式大小没有限制(本实施例中图片格式为PNG)。网络的输出为每张图片中的每个目标物体分别对应的一个4096维向量代表该目标物体和一个4维向量代表该目标物体在图片中的坐标。
(1-3)利用经过步骤(1-1)标注后的训练数据集对步骤(1-2)建立的深度学习网络进行训练,得到训练完毕的深度学习网络;具体步骤如下:
(1-3-1)从经过步骤(1-1)标注后的训练数据集中随机选取一个批次的图片,输入到步骤(1-2)建立的深度学习网络中,得到输入的每张图片对应的特征图作为深度学习网络第一阶段的输出(从网络的最后一层输出):
(1-3-2)将(1-3-1)输出的每张图片的对应特征图作为深度学习网络第二阶段的输入,重新输入到第一阶段的深度学习网络中,通过设定的n个不同尺寸的候选框(n的取值范围没有限制,不过根据经验n取值为9,且候选框的面积分别为128*128,256*256,512*512,长宽比1:1,1:2和2:1)在特征图上滑动,将每个获选框选定的图片范围与输入图片中目标物体的位置进行重合度IoU(t,g)筛选:若IoU>0.7,则将候选框选定的图片范围作为正样例;若IoU<0.3,则将候选框选定的图片范围作为负样例;若
0.3<IoU<0.7,则认为候选框选定的图片范围既不是正样例,也不是负样例。假设G为输入图片中人工标注目标物体的检测框集合,任意一个候选框选定的图片范围t∈T(T是t的集合)和任意一个检测框g∈G的重合度IoU(t,g)计算表达式为:
(1-3-3)从步骤(1-3-2)生成的所有正负样例中,每次随机在正样例和负样例中各挑选128个样例作为训练样例进行正负样例训练;将128个正样例和128个负样例输入到损失函数中,得到对应的损失函数值,通过梯度下降法最小化函数值;损失函数为:
式中,i表示在训练样例中目标物体的索引i=1,2,…,128,pi表示第i个训练样例是目标的概率,pi *表示第i个训练样例的真实标签(pi *∈{0,1},当目标物体是正样例时,pi *为0;当目标物体是负样例时,pi *为1),ti表示第i个训练样例检测框四个坐标的向量,ti *表示代表第i个训练样例人工标注候选框的坐标向量。Lcls(,)为Softmax loss,Lreg(,)为smooth L1loss;L(,)为生成周围环境或视频中候选区域的深度学习模型中的损失函数。Ncls,Nreg,λ为三个常数值(本实施例取Ncls为256,Nreg为2400,λ为10)。其中,smoothL1loss为:
其中,x为输入的变量。
(1-3-4)重复步骤(1-3-1)至(1-3-3)L次(L大于等于2000次),训练数据集的每张图片最终得到大约300个正样例作为候选区域。
(1-3-5)以步骤(1-3-4)生成的每张图片候选区域作为输入,经过RoI(Region ofinterest)池化层输出每张图片对应的所有的目标物体候选区域(可能是多个或一个),将目标物体候选区域按照Softmax分类器得到分数最高的候选区域作为最终的目标物体,得到4096维特征向量目标物体对应输入图片中的4个顶点位置(以4维向量进行表示)。深度学习网络训练完毕。
(2)使用阶段:
(2-1)获取视频;
本实施例使用阶段输入的视频来源有两种:本地视频和通过外接摄像头录制的视频(视频长度无要求)。本实施例选取的视频长度大概为2分钟左右。
(2-2)对步骤(2-1)获取的视频进行分帧处理并按照设定的间隔标准获取视频帧,本发明对选取视频帧的间隔没有限制,不过为了节约开销(时间与空间),本实施例选择每间隔10个视频帧取一帧,并将获取的每帧视频帧存储为一个对应的691200(360*640*3)维数组,其中360*640代表视频帧的尺寸,3代表红绿蓝三种颜色通道;
(2-3)将步骤(2-2)中得到的视频帧依次输入步骤(1)训练完毕的深度学习网络中,网络输出每一帧视频帧所包含目标物体的4096维特征向量(代表该目标物体的种类),目标物体对应的4维向量(代表目标物体在该帧图像中的位置)和包含该目标物体的691200维向量(代表包含该目标物体的视频帧原图),并分别存为三个数组,三个数组的维数分别记为:(n,4096),(n,4),(n,691200),其中n为视频中目标物体的数量。
(2-4)将步骤(2-3)得到的所有视频帧对应的目标物体特征向量使用K-means算法进行聚类,产生k个类(本实施例根据经验取值为4)及每个类对应的聚类中心x'。在本实施例中,由于训练数据集种类的限制,选取的视频内容主要为广告及周围拍摄的监控视频,而广告一般可以通过代言人,品牌,代言的物品所概括;监控视频可以通过主要任务和周围环境所包含的物品概括,所以取k为4。
(2-5)对每个聚类中心x',找到与该聚类中心距离L2最小的特征向量,共得到k个目标物体对应的特征向量,并将k个特征向量存储到一个新的数组中,得到对应的k*4096维特征向量数组(本例中因为特征向量的维度为4096维向量,k的取值为4,所以数组的最终大小为4*4096维数组);其中L2距离的定义为:
(2-6)通过Numpy函数库中的argmin函数找到k个聚类中心对应的k个4096维向量在步骤(2-3)得到的(n,4096)维向量中的索引值,通过索引值和步骤(2-3)得到的的(n,4)和(n,691200)数组,找到k个特征向量对应的原视频帧和在视频帧中的位置坐标,将k个特征向量对应的视频帧存储到k*691200维数组中,将k个特征向量在视频帧帧中的位置坐标存储到k*4维数组中;(2-7)通过Numpy函数库中的reshape函数,将k*691200维数组中每个691200维向量转换成对应的uint8类型的(360,640,3)维向量,通过OpenCV库中的cvtColor函数将(360,640,3)维向量由BGR格式转化为RGB格式。得到最终的输出结果作为步骤(2-1)获取视频的视频摘要,视频摘要的具体形式为k个能反应图像信息的对象组成的k个目标。

Claims (1)

1.一种基于目标检测的视频摘要生成方法,其特征在于,该方法包括以下步骤:
(1)训练阶段:
(1-1)获取训练数据集并进行标注:
使用包含2种以上的目标物体的图片数据集作为训练数据集,对训练数据集每张图片中的所包含的目标物体进行人工标注,该标注过程是对每张图片中包含的每个目标物体分别画出一个检测框,检测框的大小为能包含该目标物体的最小长方形框;
(1-2)构建深度学习网络;
构建一个深度学习网络,该深度学习网络由五层卷积层和三层池化层组成;网络的输入为一个批次的图片,每个批次的图片数量为128张;网络的输出为每张图片中的每个目标物体分别对应的一个4096维向量代表该目标物体和一个4维向量代表该目标物体在图片中的坐标;
(1-3)利用经过步骤(1-1)标注后的训练数据集对步骤(1-2)建立的深度学习网络进行训练,得到训练完毕的深度学习网络;具体步骤如下:
(1-3-1)从经过步骤(1-1)标注后的训练数据集中随机选取一个批次的图片输入到步骤(1-2)建立的深度学习网络中,得到输入的每张图片对应的特征图作为深度学习网络第一阶段的输出:
(1-3-2)将(1-3-1)输出的每张图片对应的特征图作为深度学习网络第二阶段的输入,重新输入到第一阶段的深度学习网络中,通过设定的n个不同尺寸的候选框在特征图上滑动,将每个获选框选定的图片范围与输入图片中目标物体的位置进行重合度IoU(t,g)筛选:若IoU>0.7,则将候选框选定的图片范围作为正样例;若IoU<0.3,则将候选框选定的图片范围作为负样例;若0.3<IoU<0.7,则候选框选定的图片范围既不是正样例,也不是负样例;
假设G为输入图片中目标物体的检测框集合,任意一个候选框选定的图片范围t∈T和任意一个检测框g∈G的重合度IoU(t,g)计算表达式为:
(1-3-3)从步骤(1-3-2)生成的所有正负样例中,每次随机在正样例和负样例中各挑选128个样例作为训练样例进行正负样例训练;将128个正样例和128个负样例输入到损失函数中,得到对应的损失函数值,通过梯度下降法最小化函数值;损失函数为:
式中,i表示在训练样例中目标物体的索引,i=1,2,…,128,pi表示第i个训练样例是目标物体的概率,pi *表示第i个训练样例的真实标签,pi *∈{0,1},当目标物体是正样例时,pi *为0;当目标物体是负样例时,pi *为1,ti表示第i个训练样例检测框四个坐标的向量,ti *表示代表第i个训练样例候选框的坐标向量;Lcls(,)为Softmax loss,Lreg(,)为smooth L1loss;L(,)为损失函数;Ncls,Nreg,λ为三个常数值;其中,smooth L1 loss为:
其中,x为输入的变量;
(1-3-4)重复步骤(1-3-1)至(1-3-3)L次,L≥2000,使得训练数据集的每张图片得到对应的正样例作为候选区域;
(1-3-5)以步骤(1-3-4)生成的每张图片候选区域作为输入,经过池化层输出每张图片对应的所有的目标物体候选区域,将目标物体候选区域按照Softmax分类器得到分数最高的候选区域作为最终的目标物体,得到4096维特征向量目标物体对应输入图片中的4个顶点位置并以4维向量进行表示,深度学习网络训练完毕;
(2)使用阶段:
(2-1)获取任意一段视频;
(2-2)对步骤(2-1)获取的视频进行分帧处理并按照设定的间隔标准获取视频帧,将获取的每帧视频帧存储为一个对应的691200=360*640*3维数组,其中360*640代表视频帧的尺寸,3代表红绿蓝三种颜色通道;
(2-3)将步骤(2-2)中得到的视频帧依次输入步骤(1)训练完毕的深度学习网络中,网络输出每一帧视频帧所包含目标物体的4096维特征向量代表该目标物体的种类、目标物体对应的4维向量代表目标物体在该帧图像中的位置、包含该目标物体的691200维向量代表包含该目标物体的视频帧原图,并分别存为三个数组,三个数组的维数分别记为:(n,4096),(n,4),(n,691200),其中n为视频中目标物体的数量;
(2-4)将步骤(2-3)得到的所有视频帧对应的目标物体特征向量使用K-means算法进行聚类,产生k个类及每个类对应的聚类中心x';
(2-5)对每个聚类中心x',找到与该聚类中心距离L2最小的特征向量,共得到k个目标物体对应的特征向量,并将k个特征向量存储到一个新的数组中,得到对应的k*4096维特征向量数组;其中L2距离的定义为:
(2-6)通过Numpy函数库中的argmin函数找到k个聚类中心对应的k个特征维向量在步骤(2-3)得到的(n,4096)维向量中的索引值,通过索引值和步骤(2-3)得到的(n,4)和(n,691200)数组,找到k个特征向量对应的原视频帧和在视频帧中的位置坐标,将k个特征向量对应的视频帧存储到k*691200维数组中,将k个特征向量在视频帧帧中的位置坐标存储到k*4维数组中;
(2-7)通过Numpy函数库中的reshape函数,将k*691200维数组中每个691200维向量转换成对应的uint8类型的(360,640,3)维向量,通过OpenCV库中的cvtColor函数将(360,640,3)维向量由BGR格式转化为RGB格式,最后向量通过matplotlib函数库将将k个(360,640,3)维的向量可视化,得到最终的输出结果作为步骤(2-1)获取视频的视频摘要。
CN201810351445.2A 2018-04-19 2018-04-19 一种基于目标检测的视频摘要生成方法 Active CN108848422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810351445.2A CN108848422B (zh) 2018-04-19 2018-04-19 一种基于目标检测的视频摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810351445.2A CN108848422B (zh) 2018-04-19 2018-04-19 一种基于目标检测的视频摘要生成方法

Publications (2)

Publication Number Publication Date
CN108848422A true CN108848422A (zh) 2018-11-20
CN108848422B CN108848422B (zh) 2020-06-02

Family

ID=64212150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810351445.2A Active CN108848422B (zh) 2018-04-19 2018-04-19 一种基于目标检测的视频摘要生成方法

Country Status (1)

Country Link
CN (1) CN108848422B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN109544892A (zh) * 2018-12-04 2019-03-29 四川奥地建筑设计有限公司 一种智慧农业物联网网关系统
CN109977819A (zh) * 2019-03-14 2019-07-05 长沙理工大学 一种应用模板匹配方法的弱监督单个动作定位方法
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110738128A (zh) * 2019-09-19 2020-01-31 天津大学 一种基于深度学习的重复视频检测方法
CN111738769A (zh) * 2020-06-24 2020-10-02 湖南快乐阳光互动娱乐传媒有限公司 视频处理方法及装置
WO2020252975A1 (zh) * 2019-06-17 2020-12-24 北京影谱科技股份有限公司 一种识别视频数据中视频场景的方法和装置
CN112949631A (zh) * 2021-03-01 2021-06-11 浙江大学 用于目标检测的预训练图片合成方法和装置
CN113627341A (zh) * 2021-08-11 2021-11-09 人民中科(济南)智能技术有限公司 一种视频样例比对的方法、系统、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100125581A1 (en) * 2005-11-15 2010-05-20 Shmuel Peleg Methods and systems for producing a video synopsis using clustering
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN104063883A (zh) * 2014-07-07 2014-09-24 杭州银江智慧医疗集团有限公司 一种基于对象和关键帧相结合的监控视频摘要生成方法
CN104113789A (zh) * 2014-07-10 2014-10-22 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法
CN104244113A (zh) * 2014-10-08 2014-12-24 中国科学院自动化研究所 一种基于深度学习技术的视频摘要生成方法
WO2017112067A1 (en) * 2015-12-24 2017-06-29 Intel Corporation Video summarization using semantic information
CN107223344A (zh) * 2017-01-24 2017-09-29 深圳大学 一种静态视频摘要的生成方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100125581A1 (en) * 2005-11-15 2010-05-20 Shmuel Peleg Methods and systems for producing a video synopsis using clustering
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN104063883A (zh) * 2014-07-07 2014-09-24 杭州银江智慧医疗集团有限公司 一种基于对象和关键帧相结合的监控视频摘要生成方法
CN104113789A (zh) * 2014-07-10 2014-10-22 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法
CN104244113A (zh) * 2014-10-08 2014-12-24 中国科学院自动化研究所 一种基于深度学习技术的视频摘要生成方法
WO2017112067A1 (en) * 2015-12-24 2017-06-29 Intel Corporation Video summarization using semantic information
CN107223344A (zh) * 2017-01-24 2017-09-29 深圳大学 一种静态视频摘要的生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KE SUN等: "Learning deep semantic attributes for user video summarization", 《 2017 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 *
王娟等: "视频摘要技术综述", 《中国图象图形学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN109544892A (zh) * 2018-12-04 2019-03-29 四川奥地建筑设计有限公司 一种智慧农业物联网网关系统
CN109544892B (zh) * 2018-12-04 2021-04-06 四川奥地建筑设计有限公司 一种智慧农业物联网网关系统
CN109977819A (zh) * 2019-03-14 2019-07-05 长沙理工大学 一种应用模板匹配方法的弱监督单个动作定位方法
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110287374B (zh) * 2019-06-14 2023-01-03 天津大学 一种基于分布一致性的自注意力视频摘要方法
WO2020252975A1 (zh) * 2019-06-17 2020-12-24 北京影谱科技股份有限公司 一种识别视频数据中视频场景的方法和装置
CN110738128A (zh) * 2019-09-19 2020-01-31 天津大学 一种基于深度学习的重复视频检测方法
CN111738769A (zh) * 2020-06-24 2020-10-02 湖南快乐阳光互动娱乐传媒有限公司 视频处理方法及装置
CN111738769B (zh) * 2020-06-24 2024-02-20 湖南快乐阳光互动娱乐传媒有限公司 视频处理方法及装置
CN112949631A (zh) * 2021-03-01 2021-06-11 浙江大学 用于目标检测的预训练图片合成方法和装置
CN112949631B (zh) * 2021-03-01 2024-04-26 浙江大学 用于目标检测的预训练图片合成方法和装置
CN113627341A (zh) * 2021-08-11 2021-11-09 人民中科(济南)智能技术有限公司 一种视频样例比对的方法、系统、设备及存储介质
CN113627341B (zh) * 2021-08-11 2024-04-12 人民中科(济南)智能技术有限公司 一种视频样例比对的方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN108848422B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN108848422A (zh) 一种基于目标检测的视频摘要生成方法
CN109948425B (zh) 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
Zhang et al. Triplet-based semantic relation learning for aerial remote sensing image change detection
CN108288075B (zh) 一种改进ssd的轻量化小目标检测方法
Neumann et al. Efficient scene text localization and recognition with local character refinement
CN105046196B (zh) 基于级联卷积神经网络的前车车辆信息结构化输出方法
CN106934386B (zh) 一种基于自启发式策略的自然场景文字检测方法及系统
CN109949316A (zh) 一种基于rgb-t融合的电网设备图像弱监督实例分割方法
Aung et al. Face detection in real time live video using yolo algorithm based on Vgg16 convolutional neural network
CN105069481B (zh) 基于空间金字塔稀疏编码的自然场景多标记分类方法
CN108109055B (zh) 一种基于图像渲染的跨场景服装检索方法
CN103853724B (zh) 多媒体数据分类方法及装置
CN107169417B (zh) 基于多核增强和显著性融合的rgbd图像协同显著性检测方法
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN105426924B (zh) 一种基于图像中层特征的场景分类方法
CN114067444A (zh) 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统
CN106845513A (zh) 基于条件随机森林的人手检测器及方法
CN105069816B (zh) 一种进出口人流量统计的方法及系统
CN110223310A (zh) 一种基于深度学习的线结构光中心线和箱体边缘检测方法
CN106570885A (zh) 基于亮度和纹理融合阈值的背景建模方法
CN111401113A (zh) 一种基于人体姿态估计的行人重识别方法
CN109753962A (zh) 基于混合网络的自然场景图像中文本区域的处理方法
CN110414336A (zh) 一种三元组边缘中心损失的深度互补分类器行人搜索方法
CN113077438B (zh) 针对多细胞核彩色图像的细胞核区域提取方法及成像方法
Hu et al. Fast face detection based on skin color segmentation using single chrominance Cr

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant