CN110457525A - 一种短视频分类方法 - Google Patents

一种短视频分类方法 Download PDF

Info

Publication number
CN110457525A
CN110457525A CN201910737582.4A CN201910737582A CN110457525A CN 110457525 A CN110457525 A CN 110457525A CN 201910737582 A CN201910737582 A CN 201910737582A CN 110457525 A CN110457525 A CN 110457525A
Authority
CN
China
Prior art keywords
frame
video
short
object identification
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910737582.4A
Other languages
English (en)
Other versions
CN110457525B (zh
Inventor
孙伟芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Original Assignee
CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCTV INTERNATIONAL NETWORKS WUXI Co Ltd filed Critical CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority to CN201910737582.4A priority Critical patent/CN110457525B/zh
Publication of CN110457525A publication Critical patent/CN110457525A/zh
Application granted granted Critical
Publication of CN110457525B publication Critical patent/CN110457525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明是一种短视频分类方法,该方法包括以下步骤:一、视频切变帧提取:提取视频不同场景画面的帧,先寻找切变镜头帧以及渐变镜头帧,然后抽取镜头帧时间位置的往后N秒的场景帧;二、图片物体识别:使用现有架构中的现有的物体识别的模型,使用以卷积神经网络为核心基础的算法进行训练保存模型预测图片;三、基于物体识别的视频分类算法:由步骤一、二两部分的结果输入,并根据输入结果进行视频分类的启发式算法。本发明的优点:用于特色短视频分类,计算复杂性和时间较小,占用资源少,可满足不同用户对于短视频类别分类需求,解决了视频数据集搜集、保存、处理过程中的问题。

Description

一种短视频分类方法
技术领域
本发明涉及的是一种短视频分类方法,属于电子信息技术领域。
背景技术
随着计算机硬件、软件技术的不断升级,各类数码摄像设备层出不穷,通信技术屡次突破性发展,视频信息的数量和传播速度更是飞速增长。当数据海量增长时,为了更有效的进行视频信息的管理、浏览和搜索,需要一种方法,能够快速有效地对视频进行分类。
现有技术中存在的短视频分类的方法有很多,自动分类方法是其中之一。自动分类方法主要是对每个视频提取一系列和视频或者文本标题相关的特征,然后通过机器学习算法训练出分类器,在特征和视频类型之间建立对应关系。
自动分类方法主要可通过两个角度对视频进行分类:视频内容识别和视频标题文本。针对视频内容识别的分类方法往往由于视频的图像信息太多而复杂度过高,特征提取也很不容易,导致分类算法正确率不高,且大部分只能处于实验室阶段,无法形成产品推向市场。针对视频标题文本的文本分类虽然在复杂度和正确率上面能有很大程度的改善,但是标题文本跟视频的匹配程度是更大的问题,大部分视频的标题并不能很好的概括视频全部的内容,且简短的标题文本很多时候会造成歧义等等,这些都会导致分类错误。
随着深度学习技术的发展,越来越多的学者将深度学习使用到视频分类领域,正确率有了很大提升,但除了以上两点问题不能解决之外,还有深度学习的数据集问题,深度学习是一门数据驱动的技术,需要大量的标好标签的视频数据。这类标好类目标签的视频资源极少,只有在学术界可能会存在1、2个,但其中视频的类目标签往往不是我们所需要的或是过时的。
发明内容
本发明提出的是一种短视频分类方法,其目的旨在克服现有技术存在的上述不足,提供一种灵活性更强、复杂度不高、数据集鲁棒性强且正确率高的短视频分类方法。
本发明的技术解决方案:一种短视频分类方法,该方法包括以下步骤:
一、视频切变帧提取:提取视频不同场景画面的帧,先寻找切变镜头帧以及渐变镜头帧,然后抽取镜头帧时间位置的往后N秒的场景帧;
二、图片物体识别:使用现有架构中的现有的物体识别的模型,使用以卷积神经网络为核心基础的算法进行训练保存模型预测图片;
三、基于物体识别的视频分类算法:由步骤一、二两部分的结果输入,并根据输入结果进行视频分类的启发式算法。
优选的,所述的步骤一中寻找切变镜头帧以及渐变镜头帧使用像素帧差法或者直方图帧差法,N=4~6。
优选的,所述的步骤二中的现有架构pytorch、caffe或tensorflow,算法为RegionCNN、Faster R-CNN、YOLO或SSD。
优选的,所述的步骤二中的训练保存模型预测图片,训练过程包括两阶段共四步:
①第一阶段:前向传播阶段
1、从样本集中取一个样本,输入网络,
2、计算相应的实际输出,
在此阶段信息从输入层经过逐级的变换,传送到输出层,这个过程也是网络在完成训练之后正常执行时执行的过程,
②第二阶段:后向传播阶段
3、计算实际输出与相应的理想输出的差,
4、按照极小化误差的方法调整权值矩阵。
优选的,所述的步骤三基于物体识别的视频分类算法,包括:
1)将步骤一提取出切变镜头帧以及渐变镜头帧的时间位置抽取的场景帧组成一个切变镜头集f,
2)根据步骤二中训练出来的模型预测1)中的切变镜头集f,得到各自的物体识别结果,
3)将切变镜头集f帧的各自的物体识别结果按匹配率百分比排序,百分比大于训练中设定值的结果输入,
4)设每个种类的视频的标签为1、2、3、4……,每一帧计数所有物体中属于第一类的物体数n1,属于第二类的物体数n2,属于第三类的物体数n3,以此类推,最后输出物体计数最大的那一视频类标签l,代表这一帧表达的视频种类,
5)输出f帧中表达同一类标签最多的帧数记为f1且f1>f/2的那一类代表该视频的类标签。
优选的,所述的百分比大于50%的结果输入。
优选的,所述的f1<f/2,且前三个不同标签的帧数f1、f2、f3差值相近时,则该视频为vlog类视频,vlog类视频是指包含多种视频类型物体的短视频。
优选的,所述的短视频的时长为t秒时,舍去前面一部分的导入和后面部分的字幕信息,取中间t0秒视频段进行分析。
本发明的优点:1)此方法用于特色短视频分类,相比较其它视频分类方法计算复杂性和时间较小,占用资源少;
2)此方法可调整图片识别出的物体组合与视频标签之间的关系,可满足不同用户对于短视频类别分类需求;
3)此方法训练和实施的过程中,不需要直接输入带有标签的大量视频数据集,不需要提取视频特征等过程,只需要训练图片物体识别模型,解决了视频数据集搜集、保存、处理过程中的问题。
附图说明
图1是本发明短视频分类方法的流程图。
具体实施方式
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
实施例
如图1所示,一种短视频分类方法,该方法包括以下步骤:
一、视频切变帧提取:提取视频不同场景画面的帧,利用像素帧差法或者直方图帧差法寻找切变镜头帧以及渐变镜头帧,注意要抽取镜头帧时间位置的往后N(5s)秒左右的场景帧,确保取到每个场景下的有意义的画面帧。
视频的镜头边界主要分为两种:一种是切变镜头,指的是前一个镜头直接切入下一个镜头,镜头之间变化明显,也比较容易检测。另一种是渐变镜头,指的是前一个镜头通过几帧甚至几十帧缓慢过渡到下一个镜头,镜头之间变化缓慢,检测比较困难。这一领域有很多方法被提出,并取得了显著效果。像素帧差法,它采用前后相邻两帧的对应像素的色度并比较其差值来查找镜头边界。直方图帧差法,它采用度量临近帧之间直方图的差异来查找镜头的边界。
二、图片物体识别:使用现有架构pytorch、caffe、tensorflow等架构中的现有的物体识别的模型,进行训练保存模型预测图片。
图片物体识别指通过软件识别图片中的人物、物体和场景,深度学习在物体检测问题取得了非常好的成果,按照算法改进递进关系主要算法有Region CNN、Faster R-CNN、YOLO、SSD,这些算法的核心基础是卷积神经网络。
卷积神经网络是一种带有卷积结构的深度神经网络,卷积结构可以减少深层网络占用的内存量,其三个关键的操作,其一是局部感受野,其二是权值共享,其三是pooling层,有效的减少了网络的参数个数,缓解了模型的过拟合问题。卷积神经网络结构包括:卷积层,降采样层,全链接层。每一层有多个特征图,每个特征图通过一种卷积滤波器提取输入的一种特征,每个特征图有多个神经元。
训练过程包括四步:
①第一阶段:前向传播阶段
1、从样本集中取一个样本,输入网络,
2、计算相应的实际输出;在此阶段信息从输入层经过逐级的变换,传送到输出层,这个过程也是网络在完成训练之后正常执行时执行的过程,
②第二阶段:后向传播阶段
3、计算实际输出与相应的理想输出的差,
4、按照极小化误差的方法调整权值矩阵。
三、基于物体识别的视频分类算法:是本发明提出的核心方法,由上述两部分的结果输入,并根据输入结果进行视频分类的启发式算法。
本发明提出的方法可以根据图片中识别的物体组合来判断提取出某些特色视频。短视频类别有很多种,比如搞笑、美食、美妆、旅游、萌宠、亲子、体育、汽车等等。特色视频是指有某些视频内容具备特色物体组合的视频,举例如下:
美食类:人、汉堡、筷子、刀、叉、瓶子、杯子、碗、酒杯、勺子、香蕉、三明治、西兰花、热狗、甜甜圈、苹果、橘子、胡萝卜、蛋糕、披萨、餐桌等等。
体育类:人、飞盘、滑雪板、棒球手套、冲浪板、雪橇、各类体育球类、棒球棒、滑板、网球拍等等。
出差出行类:人或多人、雨伞、领带、背包、手提包、手提箱、自行车、摩托车、火车、小汽车、飞机、火车、船、交通信号灯、停止标识牌、长椅、消防栓、收费站等等。
美妆类:女人、唇膏、美妆蛋、镜子、各类化妆品、卷发棒、直板夹、吹风机、束发带、化妆刷等等。
Vlog类:包含多种视频类型物体的短视频。
除了以上列举的视频类之外,还有其它如萌宠、亲子等特色视频。
可设每个种类的视频标签为1,2,3,4……
基于物体识别的视频分类算法,包括:
1)通过第一步视频切变帧提取,提取出切变镜头帧以及渐变镜头帧的时间位置,抽取时间位置往后N(5s)秒的场景帧,组成一个切变镜头集f,
2)根据第二部图片物体识别中卷积神经网络(如SSD)训练出来的模型,预测1)中的切变镜头集f,得到各自的物体识别结果,
3)切变镜头集(f帧)的各自的物体识别结果,按匹配率百分比排序,百分比大于50%(可在训练中调整)的结果输入,
4)每一帧计数所有物体中属于美食类的物体数n1,属于运动类的物体数n2,属于旅游出行类的物体数n3,以此类推,最后输出物体计数最大的那一视频类标签l,代表这一帧表达的视频类,
5)输出f帧中表达同一类标签最多的帧数记为f1且f1>f/2的那一类代表该视频的类标签。如果f1<f/2,且前三个不同标签的帧数f1,f2,f3差值相差不多,则该视频可能为vlog类视频。
其中,为了使得整体方法的复杂度更低,产品化更容易,假设短视频的时长为t秒,舍去前面一部分的导入和后面部分的字幕信息,取中间t0秒视频段分析并不会影响整体短视频的类型判断。t和t0可以根据所需要分类的视频类型经验确定,5min短视频可取3min。
以上所述各部件均为现有技术,本领域技术人员可使用任意可实现其对应功能的型号和现有设计。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (8)

1.一种短视频分类方法,其特征是该方法包括以下步骤:
一、视频切变帧提取:提取视频不同场景画面的帧,先寻找切变镜头帧以及渐变镜头帧,然后抽取镜头帧时间位置的往后N秒的场景帧;
二、图片物体识别:使用现有架构中的现有的物体识别的模型,使用以卷积神经网络为核心基础的算法进行训练保存模型预测图片;
三、基于物体识别的视频分类算法:由步骤一、二两部分的结果输入,并根据输入结果进行视频分类的启发式算法。
2.如权利要求1所述的一种短视频分类方法,其特征是所述的步骤一中寻找切变镜头帧以及渐变镜头帧使用像素帧差法或者直方图帧差法,N=4~6。
3.如权利要求1所述的一种短视频分类方法,其特征是所述的步骤二中的现有架构pytorch、caffe或tensorflow,算法为Region CNN、Faster R-CNN、YOLO或SSD。
4.如权利要求3所述的一种短视频分类方法,其特征是所述的步骤二中的训练保存模型预测图片,训练过程包括两阶段共四步:
①第一阶段:前向传播阶段
1、从样本集中取一个样本,输入网络,
2、计算相应的实际输出,
在此阶段信息从输入层经过逐级的变换,传送到输出层,这个过程也是网络在完成训练之后正常执行时执行的过程,
②第二阶段:后向传播阶段
3、计算实际输出与相应的理想输出的差,
4、按照极小化误差的方法调整权值矩阵。
5.如权利要求1所述的一种短视频分类方法,其特征是所述的步骤三基于物体识别的视频分类算法,包括:
1)将步骤一提取出切变镜头帧以及渐变镜头帧的时间位置抽取的场景帧组成一个切变镜头集f,
2)根据步骤二中训练出来的模型预测1)中的切变镜头集f,得到各自的物体识别结果,
3)将切变镜头集f帧的各自的物体识别结果按匹配率百分比排序,百分比大于训练中设定值的结果输入,
4)设每个种类的视频的标签为1、2、3、4……,每一帧计数所有物体中属于第一类的物体数n1,属于第二类的物体数n2,属于第三类的物体数n3,以此类推,最后输出物体计数最大的那一视频类标签l,代表这一帧表达的视频种类,
5)输出f帧中表达同一类标签最多的帧数记为f1且f1>f/2的那一类代表该视频的类标签。
6.如权利要求5所述的一种短视频分类方法,其特征是所述的百分比大于50%的结果输入。
7.如权利要求5所述的一种短视频分类方法,其特征是所述的f1<f/2,且前三个不同标签的帧数f1、f2、f3差值相近时,则该视频为vlog类视频,vlog类视频是指包含多种视频类型物体的短视频。
8.如权利要求1-7任一项所述的一种短视频分类方法,其特征是所述的短视频的时长为t秒时,舍去前面一部分的导入和后面部分的字幕信息,取中间t0秒视频段进行分析。
CN201910737582.4A 2019-08-12 2019-08-12 一种短视频分类方法 Active CN110457525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910737582.4A CN110457525B (zh) 2019-08-12 2019-08-12 一种短视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910737582.4A CN110457525B (zh) 2019-08-12 2019-08-12 一种短视频分类方法

Publications (2)

Publication Number Publication Date
CN110457525A true CN110457525A (zh) 2019-11-15
CN110457525B CN110457525B (zh) 2023-09-26

Family

ID=68485875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910737582.4A Active CN110457525B (zh) 2019-08-12 2019-08-12 一种短视频分类方法

Country Status (1)

Country Link
CN (1) CN110457525B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889012A (zh) * 2019-11-26 2020-03-17 成都品果科技有限公司 一种基于抽帧图片生成空镜标签系统的方法
CN111125435A (zh) * 2019-12-17 2020-05-08 北京百度网讯科技有限公司 视频标签的确定方法、装置和计算机设备
CN111462555A (zh) * 2020-05-25 2020-07-28 四川信息职业技术学院 一种用于英语口语教学的Vlog视频系统及其使用方法
CN114648713A (zh) * 2020-12-18 2022-06-21 北京字节跳动网络技术有限公司 视频分类方法、装置、电子设备及计算机可读存储介质
CN117112836A (zh) * 2023-09-05 2023-11-24 广西华利康科技有限公司 一种面向视频内容的大数据智能分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339662A (zh) * 2008-08-13 2009-01-07 北京六维世纪网络技术有限公司 一种生成视频特征数据的方法和装置
CN109614896A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于递归卷积神经网络的视频内容语义理解的方法
CN110070067A (zh) * 2019-04-29 2019-07-30 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339662A (zh) * 2008-08-13 2009-01-07 北京六维世纪网络技术有限公司 一种生成视频特征数据的方法和装置
CN109614896A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于递归卷积神经网络的视频内容语义理解的方法
CN110070067A (zh) * 2019-04-29 2019-07-30 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889012A (zh) * 2019-11-26 2020-03-17 成都品果科技有限公司 一种基于抽帧图片生成空镜标签系统的方法
CN111125435A (zh) * 2019-12-17 2020-05-08 北京百度网讯科技有限公司 视频标签的确定方法、装置和计算机设备
CN111125435B (zh) * 2019-12-17 2023-08-11 北京百度网讯科技有限公司 视频标签的确定方法、装置和计算机设备
CN111462555A (zh) * 2020-05-25 2020-07-28 四川信息职业技术学院 一种用于英语口语教学的Vlog视频系统及其使用方法
CN114648713A (zh) * 2020-12-18 2022-06-21 北京字节跳动网络技术有限公司 视频分类方法、装置、电子设备及计算机可读存储介质
CN117112836A (zh) * 2023-09-05 2023-11-24 广西华利康科技有限公司 一种面向视频内容的大数据智能分类方法

Also Published As

Publication number Publication date
CN110457525B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN110457525A (zh) 一种短视频分类方法
CN106650806B (zh) 一种用于行人检测的协同式深度网络模型方法
Fang et al. Pairwise body-part attention for recognizing human-object interactions
Damen et al. Scaling egocentric vision: The epic-kitchens dataset
He et al. Mask r-cnn
Oquab et al. Is object localization for free?-weakly-supervised learning with convolutional neural networks
CN105160317B (zh) 一种基于区域分块行人性别识别方法
CN104376105B (zh) 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
CN104199931B (zh) 一种商标图像一致语义提取方法及商标检索方法
CN110070067A (zh) 视频分类方法及其模型的训练方法、装置和电子设备
Dollár et al. Mask r-cnn
Lin et al. Action recognition with coarse-to-fine deep feature integration and asynchronous fusion
CN110263849A (zh) 一种基于多尺度注意力机制的人群密度估计方法
CN107563381A (zh) 基于全卷积网络的多特征融合的目标检测方法
CN103714181B (zh) 一种层级化的特定人物检索方法
CN109325443A (zh) 一种基于多实例多标签深度迁移学习的人脸属性识别方法
CN103605991A (zh) 一种视频广告的自动检测方法
CN108052952A (zh) 一种基于特征提取的服装相似度判定方法及其系统
CN102117413A (zh) 基于多层特征的不良图像自动过滤方法
CN111597870A (zh) 一种基于注意力机制与多任务学习的人体属性识别方法
Feng et al. SSET: a dataset for shot segmentation, event detection, player tracking in soccer videos
CN105938565A (zh) 基于多层分类器和互联网图像辅助训练的彩色图像情感分类方法
CN110047081A (zh) 胸部x光图像的实例分割方法、装置、设备及介质
CN106844785A (zh) 一种基于显著性分割的基于内容的图像检索方法
CN106909883A (zh) 一种基于ros的模块化手部区域检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant