CN111797800A - 一种基于内容挖掘的视频分类方法 - Google Patents
一种基于内容挖掘的视频分类方法 Download PDFInfo
- Publication number
- CN111797800A CN111797800A CN202010671784.6A CN202010671784A CN111797800A CN 111797800 A CN111797800 A CN 111797800A CN 202010671784 A CN202010671784 A CN 202010671784A CN 111797800 A CN111797800 A CN 111797800A
- Authority
- CN
- China
- Prior art keywords
- feature
- entity
- video
- matrix
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000005065 mining Methods 0.000 title claims abstract description 34
- 238000001514 detection method Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 230000033001 locomotion Effects 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 abstract description 7
- 239000010410 layer Substances 0.000 description 28
- 230000000694 effects Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 239000002356 single layer Substances 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 241000190070 Sarracenia purpurea Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 150000007524 organic acids Chemical class 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于内容挖掘的视频分类方法,包括:S1、将待分类视频进行剪辑、按帧截图操作,生成截图集;S2、根据目标检测模型生成实体、实体类型、实体数量、实体位置、相关实体位置信息;S3、根据目标追踪模型,获取截图集中长期存在的人物个数及人物运动轨迹;S4、将基础信息转换为序列化特征向量;S5、将序列化特征向量作为输入数据,通过分类规则集进行视频分类。通过本发明,通过多层特征金字塔的特征融合,使得检测实体的精度更高,检测实体的种类更全面,同时利用概念序列化和改进的Apriori挖掘算法,优化了视频分类规则,使得分类精度更优,效率更高。
Description
技术领域
本发明涉及计算机视觉、大数据技术和深度学习技术领域,特别涉及一种基于内容挖掘的视频分类方法。
背景技术
近年来,随着互联网技术和通信技术的发展,视频成为新的主流媒介。短视频分享平台的出现使得网络视频的数量呈爆炸式的增长。人工标注的速度和质量满足不了视频增长的要求,所以对视频内容的自动识别、理解和分类显得尤为重要。研究并设计高效合理的视频分类算法成为人们迫切需要解决的问题。
比如,抖音视频网站每分钟就有数百小时的视频产生,新增的大量视频在内容形式和含义上有很多重复和相似的,将每一个视频进行分类标注,需要花费大量的时间与精力。再比如,国家汉办“媒体库资源平台”,视频分为“采访”、“空镜头”、“教学活动”、“文化活动”四大类,虽然视频类型相同,但是视频内容表现形式繁杂,表现差距过大,比如“文化活动类”视频中包含“体验中国美食”、“毛笔字练习”、“古筝弹奏”等视频,针对该类型视频内容无法做到统一的特征提取和融合。因此,通过基于传统的人工特征提取的视频分类方法或者基于深度学习特征提取的视频分类方法对此类视频都无法很好地进行特征学习融合,最终导致视频分类精度不高。
现阶段较好的单阶段目标检测模型和两阶段目标检测模型都广泛使用了特征金字塔来解决对象实例的比例大小变化带来的差异性问题。但在实际检测任务中仍出现漏检和小尺度物体检测效果较差等问题。如图1所示,从检测结果图中可以明显看出,图中小尺寸实体如手机、书本、杯子等未能够得到有效识别且对左边重叠的白色人物也未能够进行有效识别。
现有的特征金字塔模型只是简单地根据内在多尺度构造特征金字塔,这种骨架网络实际上是为物体分类任务设计的。如Single Shot MultiBox Detector(SSD)目标检测模型直接单独使用两层骨架网络的特征(即VGG16)和通过步幅为2的卷积获得的四个额外层来构建特征金字塔。FPN模型通过以自上而下的方式融合深层和浅层的特征来构造特征金字塔。一般而言,如此构造特征金字塔存在两个限制。首先,金字塔中的特征图对于对象检测任务而言不够典型,它们只是简单地从对象分类任务设计的骨干网络的层中构造,其次,金字塔中的每个特征图主要或甚至仅仅从骨干网络的单层构建,它主要或仅包含单层信息。通常,较深层中的高级特征对分类子任务更具区别性,而较浅层中的低级特征可有助于对象位置的回归。因此,特征金字塔中每个特征图主要或仅由单层特征组成将导致检测性能欠佳。
发明内容
为了解决上述问题,本发明提出一种基于内容挖掘的视频分类方法,包括:
S1、将待分类视频进行剪辑、按帧截图操作,生成截图集;
S2、根据目标检测模型生成实体、实体类型、实体数量、实体位置、相关实体位置信息;
S3、根据目标追踪模型,获取截图集中长期存在的人物个数及人物运动轨迹;
S4、将实体、实体类型、实体数量、实体位置、相关实体位置信息、人物个数及人物运动轨迹转换为序列化特征向量;
S5、将序列化特征向量作为输入数据,通过分类规则集进行视频分类。
进一步的,步骤S4中,分类规则集的生成方法包括:
按类型构建原始视频数据集,并生成截图集;
重复步骤S2~S4;
将序列化特征向量作为输入,通过Matrix Apriori挖掘算法,生成分类规则集。
进一步的,Matrix Apriori挖掘算法步骤如下:
Step1:通过扫描挖掘数据集生成布尔矩阵M。
Step2:由布尔矩阵M进行1项集支持度计算并创建1项集索引表,进而与最小支持度比较生成1项频繁项集L1。
Step3:按频繁项集的性质(若项集L为频繁项集,则其所有子集也一定为频繁项集)对布尔矩阵M行压缩。若Ik为非频繁项集,则包含Ik的项集也是非频繁项集,从M中删除Ik行向量。
Step4:如果一个事物Tj不足k个项,则它不可能包含k项的频繁项集,从M 中删除Tj列向量。
Step5:对M矩阵扫描,从M中任取k行组合成所有可能的k项集,计算k项集的支持度并对k项集创建索引表Lk。
Step6:在k项集索引表中找出所有不小于最小支持度的项加入频繁项集。
Step7:重复Step4~Step6,直到不能产生频繁项集。
进一步的,将支持度阈值和置信度阈值进行组合,然后利用生成的不同关联规则集对原始视频数据集进行分类,选取精度最高的视频分类规则集为最终的分类规则集。
进一步的,步骤S2中,目标检测模型的生成方法包括:
S21:按类型构建原始视频数据集,并生成截图集;
S22:将截图通过骨架网络模型生成原始基础特征矩阵;
S23:为原始基础特征矩阵构造多尺度特征金字塔特征;
S24:在多尺度特征金字塔的特征图上以每个像素点为中心,为实体构建目标预选框,将目标预选框与图片中实体的真实目标框进行重叠面积占比计算,通过阈值将目标预选框进行正负样本分类,将分类后的目标预选框作为训练集输入到模型损失函数中,进行模型训练。
进一步的,步骤S24中,损失函数定义为位置误差与置信度误差的加权和。
进一步的,步骤S22包括:
S221:将截图转化为512×512×3的三维像素矩阵;
S222:将像素矩阵输入到VGG512骨架网络模型中,进行卷积操作运算,从骨架网络模型中提取第四层卷积生成的特征集以及第五层卷积生成的特征集;
S223:将第五层卷积生成的特征集进行上采样和第四层卷积的特征集进行合并,从而生成基础特征;
S224:从VGG512骨架网络中提取出64×64×768大小的原始基础特征矩阵。
进一步的,步骤S23包括:
1)对原始基础特征矩阵进行256个3×3卷积核以步长为2的卷积操作,从而得到64×64、32×32、16×16、8×8、4×4、2×2六个不同尺寸的特征图组成的第一层浅层特征金字塔;
2)对原始基础特征进行128个1×1卷积核进行卷积,并与第一层浅层特征金字塔中的最大尺寸特征图进行合并,输出64×64×728的特征图,并将该特征图作为生成第二层特征金字塔的基础特征,再对其进行256个3×3卷积核以步长为2的卷积操作,从而得到64×64、32×32、16×16、8×8、4×4、2×2六个不同尺寸的特征集组成的第二层特征金字塔;
3)利用2)的方式生成6个不同深度的特征金字塔,每个特征金字塔都由六个不同尺寸的特征图组成;
4)将六个不同深度的特征金字塔,对应相同尺寸大小的特征图进行融合,得到融合的特征金字塔,利用均值下采样计算出每个通道对应的均值,得到 1×1×1024维的特征向量集;
5)利用softmax函数对特征向量的值进行转化,得到系数矩阵,利用系数矩阵乘以融合的特征金字塔,最终输出64×64、32×32、16×16、8×8、4×4、2×2包含六个尺寸的多尺度特征金字塔。
进一步的,步骤S3中,目标追踪模型为DeepSort+Yolo深度学习目标追踪模型,并利用Python字典的形式收集追踪目标的所有坐标。
进一步的,步骤S4中,转换为序列化特征向量的方法包括:
S41:将步骤S2中的目标检测模型输出的实体位置,通过计算实体目标框之间的重叠度来计算各实体之间的位置关系,结合实体目标框中心位置对比,以上下左右四方位提取实体位置相关信息;
S42:特征向量转化,向量结构如下:
[c,e,n,r,m,s]
其中c代表视频类型,e表示该视频中出现的实体类型,n表示实体对应的数量, r表示相关位置关系,m表示运动的人数,s表示静止的人数。
本发明能够以关键实体、场景、人物轨迹等作为视频分类的参考,还可以细化视频内容归类,为后期的用户检索、浏览、观看提供必要的帮助。本发明提供的基于内容挖掘的视频分类系统,一、从多层次特征金字塔融合的角度对单阶段目标检测模型进行改进,实现了对视频中实体类型、位置等基本信息的识别。实验验证了改进后的目标检测模型对于细小物体识别精度上的提升;二、改进了Apriori挖掘算法,通过不同的支持度阈值、置信度阈值组合,生成关联规则集,使得关联规则挖掘效率更高,且因视频分类是基于关联规则匹配进行分类的,因此分类效果得到进一步优化。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为现有单阶段目标检测算法检测效果示意图;
图2为本发明一个实施例的基于内容挖掘的视频分类的流程图;
图3为本发明一个实施例的视频内容基础信息识别流程图;
图4为本发明一个实施例的特征提取计算过程的示意图:
图5为本发明一个实施例的深层次的多尺度特征金字塔的构造过程示意图;
图6为本发明一个实施例的多尺度特征金字塔融合过程的示意图;
图7为SSD目标检测算法框架图;
图8为Apriori挖掘算法流程图;
图9为本发明一个实施例的IFSSD目标检测算法框架图;
图10为本发明一个实施例的IFSSD目标检测算法检测的直观效果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供基于内容挖掘的视频分类方法,包括:
S1、将待分类视频进行剪辑、按帧截图操作,生成截图集;
S2、根据目标检测模型生成实体、实体类型、实体数量、实体位置、相关实体位置信息;
S3、根据目标追踪模型,获取截图集中长期存在的人物个数及人物运动轨迹;
S4、将所述实体、实体类型、实体数量、实体位置、相关实体位置信息、人物个数及人物运动轨迹转换为序列化特征向量;
S5、将序列化特征向量作为输入数据,通过分类规则集进行视频分类。
在步骤S5中,分类规则集的生成方法如图2所示,下面具体说明。
(1)按类型构建原始视频数据集,并生成截图集;具体来说,首先确定主题,比如将“采访类视频”、“教学活动类视频”作为视频类型。下面举例中,以视频类型为“教学活动类视频”为例具体说明。获取相关类型视频,可以人工选取视频,也可以通过爬取视频。例如,通过PhantomJs自动在程序中输入视频类型,并模拟点击任务,对关键词进行搜索,通过css的固定标签获取视频网站中对应视频的下载连接,爬取了多家国内视频网站关于该视频类型近几年的视频,视频类型爬取的视频数目可以设定为1000个左右。将这些视频按“视频标题-时间”格式保存到服务器中。对已获取的视频,按照视频类型进行标注,将标注记录保存到MySql数据库中。通过视频编辑工具,如FFmpeg,编写裁剪脚本,利用该脚本将视频进行裁剪,使得视频时长在一定时间内(比如6分钟,以便控制视频的大小),并以“视频种类_视频序号.mp4”的格式进行视频名称命名。然后,通过视频编辑工具编写截图脚本,利用该脚本逐帧对视频进行视频内容图片截取,生成截图集,并以“视频类型_视频序号_图片序号.jpg”的格式进行截取图片命名。
(2)对截图集重复步骤S2~S4,生成序列化特征向量。
(3)将序列化特征向量作为输入,通过Matrix Apriori挖掘算法,生成分类规则集。Matrix Apriori挖掘算法是Apriori算法的改进,用于挖掘视频分类规则集。
Apriori挖掘算法流程如图8所示,可以看出每次生成频繁项集Lk都要存储海量的候选项集Ck及重复扫描数据库D,形成巨大的I/O负载,严重降低了关联规则挖掘的效率。为了提高原始Apriori挖掘算法的挖掘效率,本发明从快速构建频繁项集降低I/O负载的角度对Apriori挖掘算法提出改进:利用压缩矩阵对数据库D和项集进行布尔统计,通过对矩阵进行行、列压缩后降低扫描统计的数量,并利用按位与运算统计数据项集的出现频度构建频繁项集,代替了Apriori算法连接步的低速查找比较运算,从而从算法的时间和空间复杂度上对Apriori算法进行优化,提升算法的挖掘效率。
改进后的挖掘算法Matrix Apriori挖掘算法步骤如下:
Step1:通过扫描挖掘数据集生成布尔矩阵M。
Step2:由布尔矩阵M进行1项集支持度计算并创建1项集索引表,进而与最小支持度比较生成1项频繁项集L1。
Step3:按频繁项集的性质(若项集L为频繁项集,则其所有子集也一定为频繁项集)对布尔矩阵M行压缩。若Ik为非频繁项集,则包含Ik的项集也是非频繁项集,从M中删除Ik行向量。
Step4:如果一个事物Tj不足k个项,则它不可能包含k项的频繁项集,从M 中删除Tj列向量。
Step5:对M矩阵扫描,从M中任取k行组合成所有可能的k项集,计算k项集的支持度并对k项集创建索引表Lk。
Step6:在k项集索引表中找出所有不小于最小支持度的项加入频繁项集。
Step7:重复Step4~Step6,直到不能产生频繁项集。
在Matrix Apriori挖掘算法中,支持度(Support)表示在所有事物中,A项集和 B项集同时出现的次数与总事物数的比例。反映了现有的数据库中支持A项集和B 项集关联性的概率。计算公式如下:
Support(A=>B)=P(A∪B)=number(AB)/number(allSamples)
置信度(Confidence)反映了由A项到B项的置信度,表示了包含A的事物中,同时也包含事物B所占的比例。计算公式如下:
Confidence(A=>B)=P(A/B)=P(AB)/P(B)
Matrix Apriori挖掘算法通过对样本的概率统计进行关联则挖掘,支持度阈值(MST)表示多个项同时出现概率的阈值,几个项组成的项集的支持度若大于MST 则该项集表示为频繁项集。置信度阈值(MCT),在频繁项集的基础上通过概率统计算某一项和其他项之间的关联程度,大于置信度阈值则表示为有效的关联规则。因此不同支持度阈值与执行度阈值的组合,会挖掘出不同的关联规则集。
优选的,对各类型视频构造的分类规则集进行筛选,对不同支持度阈值和置信度阈值的组合,对应挖掘的不同的关联规则集。当支持度阈值大于5%时,大多数规则被过滤掉,只保留了少部分规则。规则集中规则较少从而导致了分类精度过低。当支持度阈值小于4%、置信度阈值小于30%时,规则集规则数得到了保证,但却存在大量置信度较小的规则对分类精度也有一定的影响。因此支持度阈值(MST) 取值范围为[0.03,0.06],置信度阈值(MCT)取值范围[0.2,0.6]进行组合。之后利用生成的不同关联规则集对视频集进行分类,并对各个规则集对应的视频分类结果精度进行对比。选取精度最高的视频分类规则集作为最后的分类规则集。
在步骤S2、S3中,如图3所示,对截图集进行图片内容的基础信息识别,即通过目标检测模型和目标追踪模型根据视频类型对截图集中的实体、实体类型、实体数量、实体位置、相关实体位置信息、人物数量、人物运动轨迹进行识别和统计。
在步骤2中,目标检测模型IFSSD(Single Shot MultiBox Detector Improved byFusion)为本发明改进的目标检测模型。将同类视频对应的帧截图集合,输入到目标检测模型当中,获取该视频中的实体、实体类型、实体数量、实体位置、实体相关位置信息。
IFSSD目标检测模型的生成步骤包括:视频特征提取、多尺度特征金字塔融合、目标位置回归及目标类型判别。
现有的SSD目标检测算法结构图如图7所示,该模型直接单独使用两层骨架网络的特征(即VGG16)和通过步幅为2的卷积获得的四个额外层来构建特征金字塔,如此构造特征金字塔存在两个限制。首先,金字塔中的特征图对于对象检测任务而言不够典型,它们只是简单地从对象分类任务设计的骨干网络的层中构造,其次,金字塔中的每个特征图主要或甚至仅仅从骨干网络的单层构建,它主要或仅包含单层信息。通常,较深层中的高级特征对分类子任务更具区别性,而较浅层中的低级特征可有助于对象位置的回归。因此,特征金字塔中每个特征图主要或仅由单层特征组成将导致检测性能欠佳。本发明以SSD目标检测模型为基础进行改进,通过递归的特征融合构建更有效的特征金字塔,用于检测不同尺度的物体,同时避免上述方法的局限性。
改进后的IFSSD目标检测模型如图9所示,具体如下。
S21:按照上文中“步骤S5中步骤(1)”的方法,按类型构建原始视频数据集,并生成截图集;
S22:将截图通过骨架网络模型生成原始基础特征矩阵。如图4所示,骨架模型采用VGG512深度学习图片卷积模型,对视频截图集进行特征提取。将视频帧截图转化为512x512x3的三维像素矩阵,将该像素矩阵输入到VGG512骨架网络模型中,进行卷积操作运算。从骨架网络VGG512中提取第四层卷积生成的特征集以及第五层卷积生成的特征集。之后将第五层卷积生成的特征集进行上采样和第四层卷积的特征集进行合并,从而生成基础特征,最终从VGG512骨架网络中提取出64x64x768大小的原始基础特征矩阵。
S23:为原始基础特征矩阵构造多尺度特征金字塔特征;原始的目标检测模型,用于目标检测的特征金字塔只是有单层骨架网络卷积出来的单层特征,因此对小目标的检测效果不好,浅层特征图的表达能力不够,因此本发明中,通过特征融合,进一步提高浅层大尺寸特征图的粒度,优化对小目标的检测效果。
1)对原始基础特征矩阵进行256个3×3卷积核以步长为2的卷积操作,从而得到64×64、32×32、16×16、8×8、4×4、2×2,六个不同尺寸的特征图组成的第一层浅层特征金字塔。2)为了对特征进行进一步融合,将深层高级小尺寸特征图中的信息融入到浅层低级大尺寸特征中,对原始基础特征进行128个1x1卷积核进行卷积,并与浅层第一层特征金字塔中的最大尺寸特征图进行合并,输出 64×64×728的特征图,并将该特征图作为生成第二层特征金字塔的基础特征,再对其进行256个3×3卷积核以步长为2的卷积操作,从而得到64×64、32×32、16×16、 8×8、4×4、2×2,六个不同尺寸的特征集组成的第二层特征金字塔。3)利用相同的方式一共生成6个不同深度的特征金字塔(每个特征金字塔都由六个不同尺寸的特征图组成)。多层次的多尺度特征金字塔的构造过程如图5所示。4)将六个不同深度的特征金字塔,对应相同尺寸大小的特征图进行融合。利用均值下采样计算出每个通道对应的均值,得到1×1×1024维的特征向量。5)再利用softmax函数对每个特征向量的值进行转化,得到系数矩阵,最后利用系数矩阵乘以融合的特征金字塔,最终输出64×64、32×32、16×16、8×8、4×4、2×2包含六个尺寸的特征金字塔,利用该特征金字塔作为最终目标检测的特征集。
多尺度特征金字塔融合过程如图6所示,采用这种方法后,小尺寸特征图可以识别图片中较大尺寸的物体,大尺寸特征图可以识别图片中较小尺寸的物体。
S24:在多尺度特征金字塔的特征图上以每个像素点为中心,为实体构建不同尺寸和宽高比例的目标预选框,用于检测图片中的实体及位置,将目标预选框与图片中实体的真实目标框进行重叠面积占比计算,通过阈值将目标预选框进行正负样本分类,将分类后的目标预选框作为训练集输入到模型损失函数中,进行模型训练。具体来说,将上一步融合输出的多尺度特征金字塔作为输入,利用如下公式,进行目标框的回归及类型的判别,最终输出实体的位置(x1,y1,x2,y2)以及实体的类型 (c)。不同尺寸的特征图对应的预选框计算公式如下所示:
通过损失函数进行IFSSD目标检测模型训练,损失函数定义为位置误差与置信度误差的加权和。目标损失函数公式如下所示:
目标损失函数是现有的技术,在此不再赘述。
在步骤S3中,通过已有的DeepSort+Yolo深度学习目标追踪模型,输入截图集,利用DeepSort目标追踪模型获取视频中长期存在的人物个数,并对其运动轨迹进行跟踪。利用Python字典的形式,{TrackerId,[PosList]}收集实体的所有坐标。
优选的,为所有视频的截图集构建识别数据集,包括分类、识别内容。识别内容代表该视频,识别内容就是上文步骤S2、S3中获取的实体、实体类型、实体位置等。
在步骤S4中,对步骤S2、S3中识别的视频内容基础信息,如:实体种类、相关位置、运动轨迹距离等进行概念化序列标注。具体如下:
S41:计算实体目标框之间的重叠度,根据重叠度计算各实体之间的位置关系,结合实体目标框中心位置的对比,以上下左右四方位提取实体位置相关信息。相对位置关系的语义概念如下表所示。
编号 | 相关位置语义 | 编号 | 相关位置语义 |
r001 | 人在沙发上 | r010 | 象棋在桌上 |
r002 | 手机在桌子上 | r011 | 水杯在桌上 |
r003 | 人在钢琴旁 | r012 | 书包在凳子上 |
r004 | 笔在桌上 | r013 | 熊猫在人旁 |
r005 | 人在黑板旁 | r014 | 铅笔在笔记本旁 |
r006 | 古筝在桌子上 | r015 | 时钟在黑板上 |
r007 | 台灯在桌子上 | r016 | 古筝在桌上 |
r008 | 刀叉在桌子上 | r017 | 擀面杖在碗旁 |
r009 | 书包在凳子上 | r018 | 扇子在人旁 |
S42:特征向量转化,将视频识别数据集依据概念化序列标注进行向量转换,向量结构如下:
[c,e,n,r,m,s]
其中c代表视频类型,e表示该视频中出现的实体类型,n表示实体对应的数量, r表示相关位置关系,m表示运动的人数,s表示静止的人数。
假设视频类别有N类,视频中出现的实体集合有M类,相关位置则为 M×(M-1),每类实体对应的个数,视频中一共出现Y个人及对应Y个运动轨迹,因此每个视频信息可以转化为一个M+M(M-1)+M+Y+1维度的表示向量。如一个教学活动类视频中,实体类型为:人、水杯、沙发、盆栽植物,相关位置关系为:盆栽在沙发旁,运动人物个数为1等识别信息组成,则该视频最终依据概念化序列标注转化为如下向量:
[c1 e1 e2 e5 e21 e19 e8 n1 n2 n5 n21 n19 r12 r15 r121 r119 r18 r25 m1s1] 其中c1代表视频类型,e1、e2、e5、e21表示该视频中出现的实体类型,n×表示实体对应的数量,r×表示相关位置关系,m1表示运动的人数,s1表示静止的人数。
实施例1教学活动视频分类
第一阶段:挖掘生成视频分类规则集
1、教学视频分帧截图,将视频转化为截图集;
2、将教学视频帧截图集输入到IFSSD目标检测模型中,输出视频中出现的实体、实体类型、实体数量、实体位置、实体相关位置。识别过程如图10所示:
输出结果为:
3、将教学视频帧截图集输入到Deepsort目标追踪模型中,输出视频中人物个数,运动人物个数,静止人物个数。
输出结果如下表所示:
4、将步骤2、3教学视频识别结果,依据概念序列化进行向量转化。
该教学视频转化为:[c3 e1 e2 e3 e4 e5 e6 e7 r1 r2 r3 r4 r5 r6 r7 r8 n6m1 s1 n1 n2 n3 n4]
5、将视频向量输入到Matrix Apriori挖掘算法中,进行教学视频分类规则集挖掘,挖掘结果如下表所示:
规则 | 视频类型 |
e1,e5,e7,r2,r7,m1,s1 | C3 |
e1,e4,e7,r6,m1,s1 | C3 |
第二阶段:教学活动视频分类
新产生一个教学视频,将其进行目标识别,目标检测,将识别后的信息进行序列化向量转化。依据已生产的教学活动分类规则匹配进行视频分类。
Claims (10)
1.一种基于内容挖掘的视频分类的方法,其特征在于,所述方法包括:
S1、将待分类视频进行剪辑、按帧截图操作,生成截图集;
S2、根据目标检测模型生成实体、实体类型、实体数量、实体位置、相关实体位置信息;
S3、根据目标追踪模型,获取截图集中长期存在的人物个数及人物运动状态;
S4、将所述实体、实体类型、实体数量、实体位置、相关实体位置信息、人物个数及人物运动状态转换为序列化特征向量;
S5、将序列化特征向量作为输入数据,通过分类规则集进行视频分类。
2.根据权利要求1所述的方法,其特征在于,所述步骤S4中,分类规则集的生成方法包括:
按类型构建原始视频数据集,并生成截图集;
重复步骤S2~S4;
将序列化特征向量作为输入,通过Matrix Apriori挖掘算法,生成分类规则集。
3.根据权利要求2所述的方法,其特征在于,所述Matrix Apriori挖掘算法的步骤如下:
Step1:通过扫描挖掘数据集生成布尔矩阵M。
Step2:由布尔矩阵M进行1项集支持度计算并创建1项集索引表,进而与最小支持度比较生成1项频繁项集L1。
Step3:按频繁项集的性质(若项集L为频繁项集,则其所有子集也一定为频繁项集)对布尔矩阵M行压缩。若Ik为非频繁项集,则包含Ik的项集也是非频繁项集,从M中删除Ik行向量。
Step4:如果一个事物Tj不足k个项,则它不可能包含k项的频繁项集,从M中删除Tj列向量。
Step5:对M矩阵扫描,从M中任取k行组合成所有可能的k项集,计算k项集的支持度并对k项集创建索引表Lk。
Step6:在k项集索引表中找出所有不小于最小支持度的项加入频繁项集。
Step7:重复Step4~Step6,直到不能产生频繁项集。
4.根据权利要求3所述的方法,其特征在于,将支持度阈值和置信度阈值进行组合,然后利用生成的不同关联规则集对原始视频数据集进行分类,选取精度最高的视频分类规则集为最终的分类规则集。
5.根据权利要求3所述的方法,其特征在于,所述步骤S2中,所述目标检测模型的生成方法包括:
S21:按类型构建原始视频数据集,并生成截图集;
S22:将截图通过骨架网络模型生成原始基础特征矩阵;
S23:为原始基础特征矩阵构造多尺度特征金字塔特征;
S24:在多尺度特征金字塔的特征图上以每个像素点为中心,为实体构建目标预选框,将目标预选框与图片中实体的真实目标框进行重叠面积占比计算,通过阈值将目标预选框进行正负样本分类,将分类后的目标预选框作为训练集输入到模型损失函数中,进行模型训练。
6.根据权利要求5所述的方法,其特征在于,所述步骤S24中,损失函数定义为位置误差与置信度误差的加权和。
7.根据权利要求5所述的方法,其特征在于,所述步骤S22包括:
S221:将截图转化为512×512×3的三维像素矩阵;
S222:将像素矩阵输入到VGG512骨架网络模型中,进行卷积操作运算,从骨架网络模型中提取第四层卷积生成的特征集以及第五层卷积生成的特征集;
S223:将第五层卷积生成的特征集进行上采样和第四层卷积的特征集进行合并,从而生成基础特征;
S224:从VGG512骨架网络中提取出64×64×768大小的原始基础特征矩阵。
8.根据权利要求5所述的方法,其特征在于,所述步骤S23包括:
1)对原始基础特征矩阵进行256个3×3卷积核以步长为2的卷积操作,从而得到64×64、32×32、16×16、8×8、4×4、2×2六个不同尺寸的特征图组成的第一层浅层特征金字塔;
2)对原始基础特征进行128个1×1卷积核进行卷积,并与第一层浅层特征金字塔中的最大尺寸特征图进行合并,输出64×64×728的特征图,并将该特征图作为生成第二层特征金字塔的基础特征,再对其进行256个3×3卷积核以步长为2的卷积操作,从而得到64×64、32×32、16×16、8×8、4×4、2×2六个不同尺寸的特征集组成的第二层特征金字塔;
3)利用2)所述的方式生成6个不同深度的特征金字塔,每个特征金字塔都由六个不同尺寸的特征图组成;
4)将六个不同深度的特征金字塔,对应相同尺寸大小的特征图进行融合,得到融合的特征金字塔,利用均值下采样计算出每个通道对应的均值,得到1×1×1024维的特征向量集;
5)利用softmax函数对特征向量的值进行转化,得到系数矩阵,利用系数矩阵乘以融合的特征金字塔,最终输出64×64、32×32、16×16、8×8、4×4、2×2包含六个尺寸的多尺度特征金字塔。
9.根据权利要求1所述的方法,其特征在于,所述步骤S3中,所述目标追踪模型为DeepSort+Yolo深度学习目标追踪模型,并利用Python字典的形式收集追踪目标的所有坐标。
10.根据权利要求1所述的方法,其特征在于,所述步骤S4中,所述转换为序列化特征向量的方法包括:
S41:将步骤S2中的目标检测模型输出的实体位置,通过计算实体目标框之间的重叠度来计算各实体之间的位置关系,结合实体目标框中心位置对比,以上下左右四方位提取实体位置相关信息;
S42:特征向量转化,向量结构如下:
[c,e,n,r,m,s]
其中c代表视频类型,e表示该视频中出现的实体类型,n表示实体对应的数量,r表示相关位置关系,m表示运动的人数,s表示静止的人数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010671784.6A CN111797800B (zh) | 2020-07-14 | 2020-07-14 | 一种基于内容挖掘的视频分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010671784.6A CN111797800B (zh) | 2020-07-14 | 2020-07-14 | 一种基于内容挖掘的视频分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797800A true CN111797800A (zh) | 2020-10-20 |
CN111797800B CN111797800B (zh) | 2024-03-05 |
Family
ID=72808530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010671784.6A Active CN111797800B (zh) | 2020-07-14 | 2020-07-14 | 一种基于内容挖掘的视频分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797800B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117996756A (zh) * | 2024-04-02 | 2024-05-07 | 国网山东省电力公司青州市供电公司 | 基于多维影响因子的新能源发电预测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042698A (zh) * | 2007-02-01 | 2007-09-26 | 江苏技术师范学院 | 一种关联规则及元规则的综合挖掘方法 |
US9230159B1 (en) * | 2013-12-09 | 2016-01-05 | Google Inc. | Action recognition and detection on videos |
CN108734705A (zh) * | 2018-05-17 | 2018-11-02 | 杭州电子科技大学 | 基于深度学习的数字乳腺断层影像钙化簇自动检测方法 |
CN110096617A (zh) * | 2019-04-29 | 2019-08-06 | 北京百度网讯科技有限公司 | 视频分类方法、装置、电子设备及计算机可读存储介质 |
CN110378190A (zh) * | 2019-04-23 | 2019-10-25 | 南京邮电大学 | 基于主题识别的视频内容检测系统及检测方法 |
CN110751185A (zh) * | 2019-09-26 | 2020-02-04 | 高新兴科技集团股份有限公司 | 目标检测模型的训练方法和装置 |
-
2020
- 2020-07-14 CN CN202010671784.6A patent/CN111797800B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042698A (zh) * | 2007-02-01 | 2007-09-26 | 江苏技术师范学院 | 一种关联规则及元规则的综合挖掘方法 |
US9230159B1 (en) * | 2013-12-09 | 2016-01-05 | Google Inc. | Action recognition and detection on videos |
CN108734705A (zh) * | 2018-05-17 | 2018-11-02 | 杭州电子科技大学 | 基于深度学习的数字乳腺断层影像钙化簇自动检测方法 |
CN110378190A (zh) * | 2019-04-23 | 2019-10-25 | 南京邮电大学 | 基于主题识别的视频内容检测系统及检测方法 |
CN110096617A (zh) * | 2019-04-29 | 2019-08-06 | 北京百度网讯科技有限公司 | 视频分类方法、装置、电子设备及计算机可读存储介质 |
CN110751185A (zh) * | 2019-09-26 | 2020-02-04 | 高新兴科技集团股份有限公司 | 目标检测模型的训练方法和装置 |
Non-Patent Citations (4)
Title |
---|
付沙;廖明华;宋丹;: "基于压缩矩阵方式的Apriori改进算法", 微电子学与计算机, no. 06, 5 June 2012 (2012-06-05) * |
原野, 宋擒豹, 沈钧毅: "一种集成数据挖掘的自动视频分类方法", 计算机工程, no. 14, 5 February 2005 (2005-02-05) * |
汪浩;吴静;: "基于布尔矩阵Apriori算法的改进研究", 通信技术, no. 01, 10 January 2013 (2013-01-10) * |
郑静益;邓晓衡;: "基于项编码的分布式频繁项集挖掘算法", 计算机应用研究, no. 04, 14 March 2018 (2018-03-14) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117996756A (zh) * | 2024-04-02 | 2024-05-07 | 国网山东省电力公司青州市供电公司 | 基于多维影响因子的新能源发电预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111797800B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273502B (zh) | 一种基于空间认知学习的图像地理标注方法 | |
CN108920580B (zh) | 图像匹配方法、装置、存储介质及终端 | |
Diligenti et al. | Hidden tree Markov models for document image classification | |
EP2015224B1 (en) | Invisible junction features for patch recognition | |
CN100511219C (zh) | 可以通过手写检索查询来检索的电子文件管理系统 | |
CN102822817B (zh) | 用于视觉查询的可采取动作的搜索结果 | |
Salvador et al. | Cultural event recognition with visual convnets and temporal models | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
CN110866564B (zh) | 多重半监督图像的季节分类方法、系统、电子设备和介质 | |
CN108491543A (zh) | 图像检索方法、图像存储方法及图像检索系统 | |
Wang et al. | Knowledge mining with scene text for fine-grained recognition | |
En et al. | New public dataset for spotting patterns in medieval document images | |
CN103455527A (zh) | 手写文件检索装置、方法以及记录介质 | |
CN111797800B (zh) | 一种基于内容挖掘的视频分类方法 | |
CN107273478A (zh) | 一种基于Group Lasso的半监督哈希图像搜索方法 | |
Li et al. | Improving multi-label classification using scene cues | |
Ou et al. | ERCS: An efficient and robust card recognition system for camera-based image | |
CN115410211A (zh) | 图像分类方法、装置、计算机设备和存储介质 | |
CN115203474A (zh) | 一种数据库自动分类提取技术 | |
CN107909091A (zh) | 一种基于稀疏低秩回归模型的图像记忆度预测方法 | |
Leung | Representations, feature extraction, matching and relevance feedback for sketch retrieval | |
Cristea et al. | Bringing the Old Writings Closer to Us: Deep Learning and Symbolic Methods in Deciphering Old Cyrillic Romanian Documents | |
Rahul et al. | Deep reader: Information extraction from document images via relation extraction and natural language | |
CN111291758A (zh) | 用于识别印章文字的方法和装置 | |
CN113591857A (zh) | 字符图像处理方法、装置及古代汉籍图像的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |