CN108848422B - 一种基于目标检测的视频摘要生成方法 - Google Patents
一种基于目标检测的视频摘要生成方法 Download PDFInfo
- Publication number
- CN108848422B CN108848422B CN201810351445.2A CN201810351445A CN108848422B CN 108848422 B CN108848422 B CN 108848422B CN 201810351445 A CN201810351445 A CN 201810351445A CN 108848422 B CN108848422 B CN 108848422B
- Authority
- CN
- China
- Prior art keywords
- video
- target object
- picture
- training
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000013135 deep learning Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 32
- 238000003491 array Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 235000015895 biscuits Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于目标检测的视频摘要生成方法,属于图像处理技术领域。该方法在训练阶段获取包含2种以上的目标物体的图片集作为训练数据集并进行标注,建立深度学习网络并利用训练数据集对网络进行训练,得到训练完毕的深度学习网络。在使用阶段,获取一段视频,将视频进行分帧并将视频帧输入训练完毕的网络,网络输出每一帧视频帧所包含目标物体的特征向量、目标物体对应的位置向量和包含该目标物体视频帧原图。通过对所有特征向量进行聚类,最终得到视频摘要的结果。本发明能够准确没有遗漏地选出最能代表视频内容的目标,使人们对视频内容的理解更加清晰和直观,不再局限于场景和视频大小与格式的限制。
Description
技术领域
本发明属于图像处理技术领域,特别涉及一种基于目标检测的视频摘要生成方法。
背景技术
近年来,随着互联网时代各类视频的传播而引起的信息爆炸,人们面对着越来越多的视频信息。有些视频当中场景与内容变化复杂,人们是很难快速地分析出主要内容;有些视频时长过长,比如监控视频,人们需要大量的人力实时监控。视频摘要技术能够自动地去发现和概括视频主题,从而帮助人们快速地了解视频的主要内容,变得越来越重要。然而,如何能够在短时间内将视频的主要内容提取出来从而节省人们时间,提高效率是当前研究的主要困难。
目前的视频摘要的方法主要分为基于片段级、关键帧级、分割级的视频摘要方法。片段级视频摘要方法是截取视频中的一小段或者几小段内容作为视频摘要的结果:该方法首先根据混合高斯模型对本地的视频流进行处理,获得视频的背景信息;接着将视频与背景信息做减法得到运动的目标;接着通过分层关联的方式将运动的目标进行跟踪选取得到运动目标的完整信息;最终将运动目标与背景信息重新组装成片段级的视频摘要。这种方法的缺点是所得到的视频摘要不够简洁,遇到较长的视频仍然耗时。关键帧级视频摘要方法是将视频中重要的几张关键图片作为最后的结果:该方法首先将视频中的图像进行二进制处理,接着通过支持向量机分析图像数据并利用图像中的颜色域梯度信息,提取原始视频中的关键帧。这种方法的缺点是摘要得到的整张图片不易于理解,无法快速捕捉到关键信息。而分割级视频摘要是在关键帧级的基础上,通过纹理等信息选出关键帧中重要的区域,但是这种方法的缺点是无法得到准确的视频摘要信息,得到的结果往往无法反映出真实的视频摘要内容。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于目标检测的视频摘要生成方法。本发明能够准确没有遗漏地选出最能代表视频内容的目标,使人们对视频内容的理解更加清晰和直观,不再局限于场景和视频大小与格式的限制。
本发明提出一种基于目标检测的视频摘要生成方法,其特征在于,该方法包括以下步骤:
(1)训练阶段:
(1-1)获取训练数据集并进行标注:
使用包含2种以上的目标物体的图片数据集作为训练数据集,对训练数据集每张图片中的所包含的目标物体进行人工标注,该标注过程是对每张图片中包含的每个目标物体分别画出一个检测框,检测框的大小为能包含该目标物体的最小长方形框;
(1-2)构建深度学习网络;
构建一个深度学习网络,该深度学习网络由五层卷积层和三层池化层组成;网络的输入为一个批次的图片,每个批次的图片数量为128张;网络的输出为每张图片中的每个目标物体分别对应的一个4096维向量代表该目标物体和一个4维向量代表该目标物体在图片中的坐标;
(1-3)利用经过步骤(1-1)标注后的训练数据集对步骤(1-2)建立的深度学习网络进行训练,得到训练完毕的深度学习网络;具体步骤如下:
(1-3-1)从经过步骤(1-1)标注后的训练数据集中随机选取一个批次的图片输入到步骤(1-2)建立的深度学习网络中,得到输入的每张图片对应的特征图作为深度学习网络第一阶段的输出:
(1-3-2)将(1-3-1)输出的每张图片对应的特征图作为深度学习网络第二阶段的输入,重新输入到第一阶段的深度学习网络中,通过设定的M个不同尺寸的候选框在特征图上滑动,将每个候选框选定的图片范围与输入图片中目标物体的位置进行重合度IoU(t,g)筛选:若IoU>0.7,则将候选框选定的图片范围作为正样例;若IoU<0.3,则将候选框选定的图片范围作为负样例;若0.3<IoU<0.7,则候选框选定的图片范围既不是正样例,也不是负样例;
假设G为输入图片中目标物体的检测框集合,任意一个候选框选定的图片范围t∈T和任意一个检测框g∈G的重合度IoU(t,g)计算表达式为:
其中,T是t的集合;
(1-3-3)从步骤(1-3-2)生成的所有正负样例中,每次随机在正样例和负样例中各挑选128个样例作为训练样例进行正负样例训练;将128个正样例和128个负样例输入到损失函数中,得到对应的损失函数值,通过梯度下降法最小化函数值;损失函数为:
式中,i表示在训练样例中目标物体的索引,i=1,2,…,128,pi表示第i个训练样例是目标物体的概率,pi *表示第i个训练样例的真实标签,pi *∈{0,1},当目标物体是正样例时,pi *为0;当目标物体是负样例时,pi *为1,ti表示第i个训练样例检测框四个坐标的向量,ti *表示代表第i个训练样例候选框的坐标向量;Lcls(,)为Softmaxloss,Lreg(,)为smoothL1loss;L(,)为损失函数;Ncls,Nreg,λ为三个常数值;其中,smooth L1loss为:
其中,x为输入的变量;
(1-3-4)重复步骤(1-3-1)至(1-3-3)L次,L≥2000,使得训练数据集的每张图片得到对应的正样例作为候选区域;
(1-3-5)以步骤(1-3-4)生成的每张图片候选区域作为输入,经过池化层输出每张图片对应的所有的目标物体候选区域,将目标物体候选区域按照Softmax分类器得到分数最高的候选区域作为最终的目标物体,得到目标物体对应输入图片中的4个顶点位置,所述4个顶点位置以4维向量进行表示,深度学习网络训练完毕;
(2)使用阶段:
(2-1)获取任意一段视频;
(2-2)对步骤(2-1)获取的视频进行分帧处理并按照设定的间隔标准获取视频帧,将获取的每帧视频帧存储为一个对应的691200=360*640*3维数组,其中360*640代表视频帧的尺寸,3代表红绿蓝三种颜色通道;
(2-3)将步骤(2-2)中得到的视频帧依次输入步骤(1)训练完毕的深度学习网络中,网络输出每一帧视频帧所包含目标物体的4096维特征向量代表该目标物体的种类、目标物体对应的4维向量代表目标物体在该帧图像中的位置、包含该目标物体的691200维向量代表包含该目标物体的视频帧原图,并分别存为三个数组,三个数组的维数分别记为:(n,4096),(n,4),(n,691200),其中n为视频中目标物体的数量;
(2-4)将步骤(2-3)得到的所有视频帧对应的目标物体特征向量使用K-means算法进行聚类,产生k个类及每个类对应的聚类中心x';
(2-5)对每个聚类中心x',找到与该聚类中心距离L2最小的特征向量,共得到k个目标物体对应的特征向量,并将k个特征向量存储到一个新的数组中,得到对应的k*4096维特征向量数组;其中L2距离的定义为:
其中,y[i]代表第i个目标物体对应的特征向量;
(2-6)通过Numpy函数库中的argmin函数找到k个聚类中心对应的k个特征维向量在步骤(2-3)得到的(n,4096)维向量中的索引值,通过索引值和步骤(2-3)得到的(n,4)和(n,691200)数组,找到k个特征向量对应的原视频帧和在视频帧中的位置坐标,将k个特征向量对应的视频帧存储到k*691200维数组中,将k个特征向量在视频帧帧中的位置坐标存储到k*4维数组中;
(2-7)通过Numpy函数库中的reshape函数,将k*691200维数组中每个691200维向量转换成对应的uint8类型的(360,640,3)维向量,通过OpenCV库中的cvtColor函数将(360,640,3)维向量由BGR格式转化为RGB格式,最后向量通过matplotlib函数库将k个(360,640,3)维的向量可视化,得到最终的输出结果作为步骤(2-1)获取视频的视频摘要。
本发明的特点及有益效果在于:
本发明利用基于深度学习的目标检测算法得到目标级的视频摘要,从而生成关键信息,使人们对内容的理解更加清晰和直观;由于基于深度学习的目标检测算法可以得到视频中的所有的目标,不再局限于场景和视频大小的限制。而基于深度学习的框架可以对目标进行深层次的特征表示,这样使用聚类分析的方法就可以准确没有遗漏的选出最能代表视频内容的目标,得到视频摘要结果。
具体实施方式
本发明提出的一种基于目标检测的视频摘要生成方法,下面结合具体实施例进一步详细说明如下。
本发明提出的一种基于目标检测的视频摘要生成方法,是基于目标级视频摘要技术;目标级视频摘要技术是根据视频中的内容,将视频中的重要对象(能够体现视频内容的对象)作为目标选择出来。本发明用候选框先将图像中可能是目标的区域自动框出,然后使用深度学习的方法提取目标区域的特征,根据特征的相似性计算得到视频摘要的结果。该方法包括以下步骤:
(1)训练阶段:
(1-1)获取训练数据集并进行标注;
使用多类别的图片数据集作为训练数据集(本实施例采用PascalVOC2012数据集进行模型的训练)。训练数据集中至少包含2种以上的目标物体(本发明中目标的含义为可以对视频中的主要内容进行概括的物体,例如一个明星拍摄的广告视频中,可以对视频中的主要内容进行概括的物体为:代言明星,代言广告的品牌,代言广告的对象(如饮料,饼干等))。PascalVOC2012数据集为标准化的图片数据集,该数据集中已经对所有图片进行了分类,标注和预处理。PascalVOC2012数据集包含的目标物体种类数为20种,如瓶子,椅子,盆栽,笔记本电脑等。对训练数据集每张图片中的所包含的目标物体进行人工标注,该标注过程是对每张图片中包含的每个目标物体分别画出一个检测框(检测框的大小为能包含该目标物体的最小长方形框)。
(1-2)构建深度学习网络;
构建一个深度学习网络,深度学习网络是由五层卷积层和三层池化层组成,排列顺序为卷积层,池化层,卷积层,池化层,卷积层,池化层,卷积层,卷积层。网络的输入为一个批次的图片,每个批次的图片数量为128张,每张图片格式大小没有限制(本实施例中图片格式为PNG)。网络的输出为每张图片中的每个目标物体分别对应的一个4096维向量代表该目标物体和一个4维向量代表该目标物体在图片中的坐标。
(1-3)利用经过步骤(1-1)标注后的训练数据集对步骤(1-2)建立的深度学习网络进行训练,得到训练完毕的深度学习网络;具体步骤如下:
(1-3-1)从经过步骤(1-1)标注后的训练数据集中随机选取一个批次的图片,输入到步骤(1-2)建立的深度学习网络中,得到输入的每张图片对应的特征图作为深度学习网络第一阶段的输出(从网络的最后一层输出):
(1-3-2)将(1-3-1)输出的每张图片的对应特征图作为深度学习网络第二阶段的输入,重新输入到第一阶段的深度学习网络中,通过设定的M个不同尺寸的候选框(M的取值范围没有限制,不过根据经验M取值为9,且候选框的面积分别为128*128,256*256,512*512,长宽比1:1,1:2和2:1)在特征图上滑动,将每个候选框选定的图片范围与输入图片中目标物体的位置进行重合度IoU(t,g)筛选:若IoU>0.7,则将候选框选定的图片范围作为正样例;若IoU<0.3,则将候选框选定的图片范围作为负样例;若0.3<IoU<0.7,则认为候选框选定的图片范围既不是正样例,也不是负样例。假设G为输入图片中人工标注目标物体的检测框集合,任意一个候选框选定的图片范围t∈T(T是t的集合)和任意一个检测框g∈G的重合度IoU(t,g)计算表达式为:
(1-3-3)从步骤(1-3-2)生成的所有正负样例中,每次随机在正样例和负样例中各挑选128个样例作为训练样例进行正负样例训练;将128个正样例和128个负样例输入到损失函数中,得到对应的损失函数值,通过梯度下降法最小化函数值;损失函数为:
式中,i表示在训练样例中目标物体的索引i=1,2,…,128,pi表示第i个训练样例是目标的概率,pi *表示第i个训练样例的真实标签(pi *∈{0,1},当目标物体是正样例时,pi *为0;当目标物体是负样例时,pi *为1),ti表示第i个训练样例检测框四个坐标的向量,ti *表示代表第i个训练样例人工标注候选框的坐标向量。Lcls(,)为Softmaxloss,Lreg(,)为smooth L1loss;L(,)为生成周围环境或视频中候选区域的深度学习模型中的损失函数。Ncls,Nreg,λ为三个常数值(本实施例取Ncls为256,Nreg为2400,λ为10)。其中,smoothL1loss为:
其中,x为输入的变量。
(1-3-4)重复步骤(1-3-1)至(1-3-3)L次(L大于等于2000次),训练数据集的每张图片最终得到大约300个正样例作为候选区域。
(1-3-5)以步骤(1-3-4)生成的每张图片候选区域作为输入,经过RoI(Region ofinterest)池化层输出每张图片对应的所有的目标物体候选区域(可能是多个或一个),将目标物体候选区域按照Softmax分类器得到分数最高的候选区域作为最终的目标物体,得到目标物体对应输入图片中的4个顶点位置(以4维向量进行表示)。深度学习网络训练完毕。
(2)使用阶段:
(2-1)获取视频;
本实施例使用阶段输入的视频来源有两种:本地视频和通过外接摄像头录制的视频(视频长度无要求)。本实施例选取的视频长度大概为2分钟左右。
(2-2)对步骤(2-1)获取的视频进行分帧处理并按照设定的间隔标准获取视频帧,本发明对选取视频帧的间隔没有限制,不过为了节约开销(时间与空间),本实施例选择每间隔10个视频帧取一帧,并将获取的每帧视频帧存储为一个对应的691200(360*640*3)维数组,其中360*640代表视频帧的尺寸,3代表红绿蓝三种颜色通道;
(2-3)将步骤(2-2)中得到的视频帧依次输入步骤(1)训练完毕的深度学习网络中,网络输出每一帧视频帧所包含目标物体的4096维特征向量(代表该目标物体的种类),目标物体对应的4维向量(代表目标物体在该帧图像中的位置)和包含该目标物体的691200维向量(代表包含该目标物体的视频帧原图),并分别存为三个数组,三个数组的维数分别记为:(n,4096),(n,4),(n,691200),其中n为视频中目标物体的数量。
(2-4)将步骤(2-3)得到的所有视频帧对应的目标物体特征向量使用K-means算法进行聚类,产生k个类(本实施例根据经验取值为4)及每个类对应的聚类中心x'。在本实施例中,由于训练数据集种类的限制,选取的视频内容主要为广告及周围拍摄的监控视频,而广告一般可以通过代言人,品牌,代言的物品所概括;监控视频可以通过主要任务和周围环境所包含的物品概括,所以取k为4。
(2-5)对每个聚类中心x',找到与该聚类中心距离L2最小的特征向量,共得到k个目标物体对应的特征向量,并将k个特征向量存储到一个新的数组中,得到对应的k*4096维特征向量数组(本例中因为特征向量的维度为4096维向量,k的取值为4,所以数组的最终大小为4*4096维数组);其中L2距离的定义为:
其中,y[i]代表第i个目标物体对应的特征向量;
(2-6)通过Numpy函数库中的argmin函数找到k个聚类中心对应的k个4096维向量在步骤(2-3)得到的(n,4096)维向量中的索引值,通过索引值和步骤(2-3)得到的的(n,4)和(n,691200)数组,找到k个特征向量对应的原视频帧和在视频帧中的位置坐标,将k个特征向量对应的视频帧存储到k*691200维数组中,将k个特征向量在视频帧帧中的位置坐标存储到k*4维数组中;(2-7)通过Numpy函数库中的reshape函数,将k*691200维数组中每个691200维向量转换成对应的uint8类型的(360,640,3)维向量,通过OpenCV库中的cvtColor函数将(360,640,3)维向量由BGR格式转化为RGB格式。得到最终的输出结果作为步骤(2-1)获取视频的视频摘要,视频摘要的具体形式为k个能反应图像信息的对象组成的k个目标。
Claims (1)
1.一种基于目标检测的视频摘要生成方法,其特征在于,该方法包括以下步骤:
(1)训练阶段:
(1-1)获取训练数据集并进行标注:
使用包含2种以上的目标物体的图片数据集作为训练数据集,对训练数据集每张图片中的所包含的目标物体进行人工标注,该标注过程是对每张图片中包含的每个目标物体分别画出一个检测框,检测框的大小为能包含该目标物体的最小长方形框;
(1-2)构建深度学习网络;
构建一个深度学习网络,该深度学习网络由五层卷积层和三层池化层组成;网络的输入为一个批次的图片,每个批次的图片数量为128张;网络的输出为每张图片中的每个目标物体分别对应的一个4096维向量代表该目标物体和一个4维向量代表该目标物体在图片中的坐标;
(1-3)利用经过步骤(1-1)标注后的训练数据集对步骤(1-2)建立的深度学习网络进行训练,得到训练完毕的深度学习网络;具体步骤如下:
(1-3-1)从经过步骤(1-1)标注后的训练数据集中随机选取一个批次的图片输入到步骤(1-2)建立的深度学习网络中,得到输入的每张图片对应的特征图作为深度学习网络第一阶段的输出:
(1-3-2)将(1-3-1)输出的每张图片对应的特征图作为深度学习网络第二阶段的输入,重新输入到第一阶段的深度学习网络中,通过设定的M个不同尺寸的候选框在特征图上滑动,将每个候选框选定的图片范围与输入图片中目标物体的位置进行重合度IoU(t,g)筛选:若IoU>0.7,则将候选框选定的图片范围作为正样例;若IoU<0.3,则将候选框选定的图片范围作为负样例;若0.3<IoU<0.7,则候选框选定的图片范围既不是正样例,也不是负样例;
假设G为输入图片中目标物体的检测框集合,任意一个候选框选定的图片范围t∈T和任意一个检测框g∈G的重合度IoU(t,g)计算表达式为:
其中,T是t的集合;
(1-3-3)从步骤(1-3-2)生成的所有正负样例中,每次随机在正样例和负样例中各挑选128个样例作为训练样例进行正负样例训练;将128个正样例和128个负样例输入到损失函数中,得到对应的损失函数值,通过梯度下降法最小化函数值;损失函数为:
式中,i表示在训练样例中目标物体的索引,i=1,2,…,128,pi表示第i个训练样例是目标物体的概率,pi *表示第i个训练样例的真实标签,pi *∈{0,1},当目标物体是正样例时,pi *为0;当目标物体是负样例时,pi *为1,ti表示第i个训练样例检测框四个坐标的向量,ti *表示代表第i个训练样例候选框的坐标向量;Lcls(,)为Softmax loss,Lreg(,)为smooth L1loss;L(,)为损失函数;Ncls,Nreg,λ为三个常数值;其中,smooth L1 loss为:
其中,x为输入的变量;
(1-3-4)重复步骤(1-3-1)至(1-3-3)L次,L≥2000,使得训练数据集的每张图片得到对应的正样例作为候选区域;
(1-3-5)以步骤(1-3-4)生成的每张图片候选区域作为输入,经过池化层输出每张图片对应的所有的目标物体候选区域,将目标物体候选区域按照Softmax分类器得到分数最高的候选区域作为最终的目标物体,得到目标物体对应输入图片中的4个顶点位置,所述4个顶点位置以4维向量进行表示,深度学习网络训练完毕;
(2)使用阶段:
(2-1)获取任意一段视频;
(2-2)对步骤(2-1)获取的视频进行分帧处理并按照设定的间隔标准获取视频帧,将获取的每帧视频帧存储为一个对应的691200=360*640*3维数组,其中360*640代表视频帧的尺寸,3代表红绿蓝三种颜色通道;
(2-3)将步骤(2-2)中得到的视频帧依次输入步骤(1)训练完毕的深度学习网络中,网络输出每一帧视频帧所包含目标物体的4096维特征向量代表该目标物体的种类、目标物体对应的4维向量代表目标物体在该帧图像中的位置、包含该目标物体的691200维向量代表包含该目标物体的视频帧原图,并分别存为三个数组,三个数组的维数分别记为:(n,4096),(n,4),(n,691200),其中n为视频中目标物体的数量;
(2-4)将步骤(2-3)得到的所有视频帧对应的目标物体特征向量使用K-means算法进行聚类,产生k个类及每个类对应的聚类中心x';
(2-5)对每个聚类中心x',找到与该聚类中心距离L2最小的特征向量,共得到k个目标物体对应的特征向量,并将k个特征向量存储到一个新的数组中,得到对应的k*4096维特征向量数组;其中L2距离的定义为:
其中,y[i]代表第i个目标物体对应的特征向量;
(2-6)通过Numpy函数库中的argmin函数找到k个聚类中心对应的k个特征维向量在步骤(2-3)得到的(n,4096)维向量中的索引值,通过索引值和步骤(2-3)得到的(n,4)和(n,691200)数组,找到k个特征向量对应的原视频帧和在视频帧中的位置坐标,将k个特征向量对应的视频帧存储到k*691200维数组中,将k个特征向量在视频帧帧中的位置坐标存储到k*4维数组中;
(2-7)通过Numpy函数库中的reshape函数,将k*691200维数组中每个691200维向量转换成对应的uint8类型的(360,640,3)维向量,通过OpenCV库中的cvtColor函数将(360,640,3)维向量由BGR格式转化为RGB格式,最后向量通过matplotlib函数库将k个(360,640,3)维的向量可视化,得到最终的输出结果作为步骤(2-1)获取视频的视频摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810351445.2A CN108848422B (zh) | 2018-04-19 | 2018-04-19 | 一种基于目标检测的视频摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810351445.2A CN108848422B (zh) | 2018-04-19 | 2018-04-19 | 一种基于目标检测的视频摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108848422A CN108848422A (zh) | 2018-11-20 |
CN108848422B true CN108848422B (zh) | 2020-06-02 |
Family
ID=64212150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810351445.2A Active CN108848422B (zh) | 2018-04-19 | 2018-04-19 | 一种基于目标检测的视频摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108848422B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
CN109544892B (zh) * | 2018-12-04 | 2021-04-06 | 四川奥地建筑设计有限公司 | 一种智慧农业物联网网关系统 |
CN109977819B (zh) * | 2019-03-14 | 2020-04-24 | 长沙理工大学 | 一种应用模板匹配方法的弱监督单个动作定位方法 |
CN110287374B (zh) * | 2019-06-14 | 2023-01-03 | 天津大学 | 一种基于分布一致性的自注意力视频摘要方法 |
CN110149531A (zh) * | 2019-06-17 | 2019-08-20 | 北京影谱科技股份有限公司 | 一种识别视频数据中视频场景的方法和装置 |
CN110738128A (zh) * | 2019-09-19 | 2020-01-31 | 天津大学 | 一种基于深度学习的重复视频检测方法 |
CN111738769B (zh) * | 2020-06-24 | 2024-02-20 | 湖南快乐阳光互动娱乐传媒有限公司 | 视频处理方法及装置 |
CN112949631B (zh) * | 2021-03-01 | 2024-04-26 | 浙江大学 | 用于目标检测的预训练图片合成方法和装置 |
CN113627341B (zh) * | 2021-08-11 | 2024-04-12 | 人民中科(济南)智能技术有限公司 | 一种视频样例比对的方法、系统、设备及存储介质 |
CN115757867A (zh) * | 2022-12-06 | 2023-03-07 | 天翼数字生活科技有限公司 | 视频信息摘要生成方法、装置、存储介质及计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
CN104063883A (zh) * | 2014-07-07 | 2014-09-24 | 杭州银江智慧医疗集团有限公司 | 一种基于对象和关键帧相结合的监控视频摘要生成方法 |
CN104113789A (zh) * | 2014-07-10 | 2014-10-22 | 杭州电子科技大学 | 一种基于深度学习的视频摘要在线生成方法 |
CN104244113A (zh) * | 2014-10-08 | 2014-12-24 | 中国科学院自动化研究所 | 一种基于深度学习技术的视频摘要生成方法 |
WO2017112067A1 (en) * | 2015-12-24 | 2017-06-29 | Intel Corporation | Video summarization using semantic information |
CN107223344A (zh) * | 2017-01-24 | 2017-09-29 | 深圳大学 | 一种静态视频摘要的生成方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949235B2 (en) * | 2005-11-15 | 2015-02-03 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Methods and systems for producing a video synopsis using clustering |
-
2018
- 2018-04-19 CN CN201810351445.2A patent/CN108848422B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
CN104063883A (zh) * | 2014-07-07 | 2014-09-24 | 杭州银江智慧医疗集团有限公司 | 一种基于对象和关键帧相结合的监控视频摘要生成方法 |
CN104113789A (zh) * | 2014-07-10 | 2014-10-22 | 杭州电子科技大学 | 一种基于深度学习的视频摘要在线生成方法 |
CN104244113A (zh) * | 2014-10-08 | 2014-12-24 | 中国科学院自动化研究所 | 一种基于深度学习技术的视频摘要生成方法 |
WO2017112067A1 (en) * | 2015-12-24 | 2017-06-29 | Intel Corporation | Video summarization using semantic information |
CN107223344A (zh) * | 2017-01-24 | 2017-09-29 | 深圳大学 | 一种静态视频摘要的生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
Learning deep semantic attributes for user video summarization;Ke Sun等;《 2017 IEEE International Conference on Multimedia and Expo (ICME)》;20170831;全文 * |
视频摘要技术综述;王娟等;《中国图象图形学报》;20141231;第19卷(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108848422A (zh) | 2018-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108848422B (zh) | 一种基于目标检测的视频摘要生成方法 | |
Bell et al. | Material recognition in the wild with the materials in context database | |
Chen et al. | Traffic sign detection and recognition for intelligent vehicle | |
EP3147817A1 (en) | Method and apparatus for video and image match searching | |
CN106096542B (zh) | 基于距离预测信息的图像视频场景识别方法 | |
US20210141826A1 (en) | Shape-based graphics search | |
CN102385592B (zh) | 图像概念的检测方法和装置 | |
CN110110755B (zh) | 基于ptgan区域差距与多重分支的行人重识别检测方法及装置 | |
US11854119B2 (en) | Automatic object re-colorization | |
CN107622280B (zh) | 基于场景分类的模块化处方式图像显著性检测方法 | |
CN107977948B (zh) | 一种面向社群图像的显著图融合方法 | |
CN111491187A (zh) | 视频的推荐方法、装置、设备及存储介质 | |
CN110096961A (zh) | 一种超像素级别的室内场景语义标注方法 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN111652240A (zh) | 一种基于cnn的图像局部特征检测与描述方法 | |
CN110196917A (zh) | 个性化logo版式定制方法、系统和存储介质 | |
CN112101344A (zh) | 一种视频文本跟踪方法及装置 | |
Biswas et al. | Unsupervised domain adaptation with debiased contrastive learning and support-set guided pseudo labeling for remote sensing images | |
CN111080748B (zh) | 基于互联网的图片自动合成系统 | |
CN117315752A (zh) | 人脸情绪识别网络模型的训练方法、装置、设备和介质 | |
CN109427068A (zh) | 基于超像素自动标注的深度学习共分割方法 | |
Satilmis et al. | Per-pixel classification of clouds from whole sky HDR images | |
CN109919057A (zh) | 一种基于高效卷积神经网络的多模态融合手势识别方法 | |
Sebastian et al. | Adversarial loss for semantic segmentation of aerial imagery | |
Shinde et al. | Study on Fruit Recognization Using Image Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |