CN115205768B - 一种基于分辨率自适应网络的视频分类方法 - Google Patents
一种基于分辨率自适应网络的视频分类方法 Download PDFInfo
- Publication number
- CN115205768B CN115205768B CN202211125809.8A CN202211125809A CN115205768B CN 115205768 B CN115205768 B CN 115205768B CN 202211125809 A CN202211125809 A CN 202211125809A CN 115205768 B CN115205768 B CN 115205768B
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- network
- resolution
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于分辨率自适应网络的视频分类方法,包括:基于视频帧颜色直方图的K值探测、基于K‑means聚类的关键帧获取、基于视频帧直方图序列的关键帧序列时序语义恢复、基于分辨率自适应网络的视频关键帧特征提取、基于GRU分类器的视频序列分类。本发明通过基于直方图差异动态选取K值,通过K‑means聚类获取关键帧集合,在兼顾效率的同时避免不同镜头间相似关键帧的重复选取。本发明利用视频帧直方图序列恢复视频关键帧序列的时序语义,解决K‑means聚类后关键帧时序语义损失的问题。
Description
技术领域
本发明属于视频分类与检索领域,具体而言,属于基于自适应推理的视频分类与检索领域。
背景技术
近年来,随着互联网的发展以及智能设备的普及,社交网络上出现了大量的图像、音频以及视频等多媒体数据,与此同时,短视频的出现为多媒体赋予了新的形式,相较于传统的图片、博客的传播特性,短视频碎片化、社交化的特点更能吸引更多用户,也因此促进了自媒体产业的发展,目前的视频内容以及形式愈发复杂,数据规模出现了4V特征,根据Backlinko的数据,2021年用户每天在YouTube上传的视频时长为72万小时,假设平均大小为1GB(标准清晰度),2021年YouTube的数据大小约为263PB;Domo的Data Never Sleeps9.0报告估计,2021年Facebook与Instagram每分钟上传的图片数量分别为240k和65k,假设平均大小为2MB,则总共大约为252PB和68PB,这使得如何将海量视频进行分类检索成为一个有意义的课题。
传统的视频分类检索方式依赖人工,即人为对视频数据进行分类并加以注释、标签等信息,依靠文本信息实现视频的分类以及检索,然而,视频与语义信息之间的映射关系十分复杂,很难通过简单的文本信息将其概括;同时,人为的分类标注存在很强的主观性,不同标注者对同一视频总是存在不同的理解,难以客观描述视频信息,同时也难以对用户进行精准投放以及检索;此外,对海量内容复杂的视频使用传统方式进行人工分类,会消耗大量人力成本,因此,基于视觉的视频分类方法应运而生。
视频数据不仅是若干图片的堆叠,帧与帧之间按照某种特定的规则进行排列组合,包含丰富的语义信息,特征信息远远多于单一图片,但并不是视频序列中的每一帧都可以对视频特征产生决定性的影响,同一镜头内可能存在大量相似的冗余视频帧,这些冗余视频帧大量增加了计算量,却难以收获与之相对应的效果,因此目前通常会将其剔除,只保留镜头内具有代表性的关键帧作为样本进行模型的训练,通过关键帧提取可以大幅降低计算开销,降低模型复杂度。
近年来,深度学习成为研究热点之一,神经网络发展迅速,为新兴视频分类与检索方法提供了技术支持,卷积神经网络仿造生物的视知觉机制构建,对图像色彩与形状有着较高的亲和力,被广泛运用于计算机视觉与自然语言处理等领域,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征,例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程要求,此外,循环神经网络具有记忆性、参数共享并且图灵完备等特性,而GRU作为LSTM模型的变体,可以在计算资源相对低的条件下较好地解决长期记忆和反向传播中的梯度等问题,在提取视频语义信息上有着较大的优势,同时,自适应推理也是当下的研究热点之一,是深度网络中实现精度和计算成本之间的动态权衡的一种有效机制,可以根据推理难度动态分配计算资源,充分利用网络结构或计算的冗余性,提高分类效率。
发明内容
本发明重点研究基于分辨率自适应网络的视频分类方法,以解决当前在视频数据内容愈发复杂,体量爆发式增加的背景下传统的视频分类检索方式人工成本高、分类主观性强的问题,在保证分类有效的前提下降低分类成本,提供了一种基于分辨率自适应网络的视频分类方法,
一种基于分辨率自适应网络的视频分类方法,包括:
S1、基于视频帧颜色直方图的K值探测,动态获取聚类K值;
S2、基于K-means聚类的关键帧提取,利用S1动态获取的K值对视频序列进行K-means聚类,获取关键帧集合;
S3、基于视频帧直方图序列,恢复S2得到的关键帧集合的时序语义;
S4、基于分辨率自适应网络的视频关键帧特征提取,利用分辨率自适应网络提取S3恢复时序语义的关键帧序列的特征表示;
S5、基于GRU的关键帧序列分类,将S4提取得到的视频关键帧特征序列输入GRU网络得到视频关键帧序列的特征向量,利用得到的特征向量集合输入线性分类器得到分类结果。
进一步的,所述S1包括:
S11、对目标视频数据进行预处理,将其以帧单位进行分割,得到视频帧序列;
S12、基于S11中得到的视频帧序列,提取视频帧的颜色直方图特征;
S13、基于S12中得到的视频帧颜色直方图特征,计算相邻帧之间的帧差值及其平均值,并确定聚类K值。
进一步的,所述S12中提取视频帧颜色直方图特征包括:
将帧图像从RGB空间映射到HSV空间上,使用色调H(Hue,0≤H≤360)、饱和度S(Saturation,0≤S≤1)以及亮度V(Value,0≤V≤1)表示,然后提取视频帧i的颜色直方图特征Hi。
进一步的,所述S13包括:
根据S12计算得到的每个视频帧图像的颜色直方图,计算帧与帧之间的帧间差值Di,计算方式为:
其中S(fi, fi+1)为第i帧与第i+1帧之间的相似度,该相似度表示为:
其中mh表示HSV空间中H分量在帧间相似度中的权重(同理,ms与mv为S和V分量在帧间相似度中的权重),Sh(fi,fi+1)为第i帧与第i+1帧之间在H分量上的相似度(同理,Ss(fi,fi+1)与Sv(fi,fi+1)为第i帧与第i+1帧之间在S与V分量上的相似度),其中mh、ms与mv的取值根据视频帧图像HSV分量的平均特征比值来决定,由于人类对H分量的敏感度要高于S与V分量,所以H分量的默认权重可以略微高于S与V分量的权重,
第i帧与第i+1帧之间在H分量上的相似度为:
其中,函数H()为图像帧的颜色直方图,k表示图像灰度或色彩级别,S与V分量的帧间相似度同理,
计算平均帧间差值Davg,表示方式为:
对于帧间差值Di(0<i<n),如果Di≥Davg,则聚类K值+1。
进一步的,所述S2关键帧提取算法包括:
S21、根据S12得到的视频帧颜色直方图特征集合F={f1,f2,f3...,fn}(其中fi代表的是第i帧的颜色直方图特征)以及S13获取的聚类质心K值(K小于等于n),进行集合的划分;
S22、根据颜色直方图特征集合F划分聚类集合个数,划分过程可以根据K-means模型的最小值C表示,计算公式如下:
其中,C={c1,c2,c3,...,ck}为聚类的聚簇结果,μi为簇的质心;
S23、将视频帧中第一帧对应的颜色直方图特征f1归入第一个簇中,并将其颜色直方图的特征值作为该簇的初始质心;
S24、计算视频帧到质心的距离,如果当前视频帧与质心的距离大于给定的初始阈值t,那么就将该帧归入到新的簇中;反之,则将当前帧归入到距离它最近的簇中,并重新计算更新该簇的质心;
S25、重复S24的过程,直至最后一视频帧颜色直方图特征归入某个聚簇或者其作为新的簇质心;
S26、选取每个簇中距离质心最近的视频帧作为关键帧。
进一步的,所述S3关键帧时序语义恢复算法包括:
S31、初始化cluster_left_boundary(簇左边界)、cluster_right_boundary(簇右边界)以及frame_idx(帧索引)为0,cur_seq(当前关键帧序号)为1;
S32、使frame_idx递增,若Dframe_idx≥Davg,使cluster_right_boundary等于frame_idx,遍历视频帧序列中下标从cluster_left_boundary到cluster_right_boundary之间的帧集合FT;
S33、若存在关键帧kfi等于FT中的任意帧,则kfi在关键帧序列中序号为cur_seq,将cluster_left_boundary置为cluster_right_boundary,cur_seq加1,重复S32直至遍历完视频帧序列中最后一帧或已得到完整语义的关键帧序列;
S34、最终得到的关键帧序列为恢复时序语义的关键帧序列。
进一步的,所述S4包括:
S41 、利用RANet的初始层来生成视频关键帧的S尺度中的H基本特征,尺度最大的分辨率的特征通过常规卷积获得,小尺度的分辨率特征通过跨步卷积从前一个高尺度分辨率特征获得,需要的是,这些基本特性的规模可以是相同的,例如,一个在3个尺度中具有4个基本特征的RANet,其中最后两个基本特征的尺度具有相同的分辨率;
S42、输入的尺度最小的稠密块(Dense Block)首先被顺序激活,深度适应在单一尺度内进行;
S43、将提取到的待分类视频关键帧序列集合中每帧的特征表示组合成待分类视频帧特征序列集合,并将该视频帧特征序列集合输入到S5所述的基于GRU的视频关键帧序列分类器中进行视频分类;
S44、判断分类器得到的置信度是否达到阈值要求,如果分辨率自适应网络中当前子网络得到的特征经由分类器做出的置信度超过置信度阈值,则输出分类结果,停止深度适应;若分辨率自适应网络中当前子网络得到的特征经由分类器做出的置信度没有超过置信度阈值,则将输入样本传播到下一个子网络,并将小尺度分辨率的特征上卷积或常规卷积到深层的融合块(Fusion Block),重复深度自适应过程,直到预测置信度超过阈值,或者达到整个网络的最后一个分类器。
进一步的,所述RANet包括:
使用ImageNet数据集对分辨率自适应网络进行预训练,降低后续模型训练的时间成本,使模型收敛更快,达到更好的效果。
进一步的,所述RANet包括:
分辨率自适应网络的初始层被实现用来生成S尺度中的H基本特征,可以将其垂直布局看作是一个微型的“H层”卷积网络(H是网络中基本特征的数量),最大尺度分辨率的特征通过常规卷积获得,而小尺度分辨率的特征图通过高分辨率特征进行跨步卷积获得;
RANet被划分为H个子网络,这些子网络进一步由不同的Conv块组成,除最浅层子网外,每个子网都使用其对应的基本特征图和来自前一个子网的特征来进行分类任务;
RANet中最浅层的子网络可以被看作是一个具有多个分类器的稠密网络,由多个稠密块构成,用来处理最低分辨率的特征图;
RANet中高尺度的子网络主要由融合块构成,融合块融合了来自低尺度网络的低分辨率特征,可以有效利用计算冗余降低资源消耗,融合块主要分为两种类型,一种保持输入分辨率,另一种通过跨步卷积降低输入分辨率,对于前者,前一个子网络的尺度特征由上卷积层处理,该层由常规卷积层和上采样双线性插值组成,确保产生的特性具有相同的空间分辨率,然后将所得到的特征通过稠密连接的连接进行融合;而对于后者,带有降采样的融合块利用跨步卷积层来降低块末端的空间分辨率,稠密连接也在池化操作后进行,由于当前子网络的特征尺度减小,低尺度子网络的特征通过常规卷积层进行处理,以保持低分辨率,然后在融合块的末端通过连接进行融合;
RANet利用过渡层来进一步压缩每个子网络中的特征映射,过渡层由一个1×1的卷积算子、一个BN层以及一个ReLU层组成,进一步保证了网络的计算效率;
RANet的第h个子网(s个尺度)主要由以下部分组成:b1到bh-1块为融合块(其中h-1<n),其它的块为稠密块,并在第bh-s到bh-1块进行降采样,确保了在附加分类器的每个子网络的末尾,特征为最低的分辨率。
进一步的,所述分类器包括:
GRU模型作为LSTM模型的变体,可以在计算资源相对低的条件下较好地解决长期记忆和反向传播中的梯度等问题,适合用来提取视频关键帧的特征向量,使用S5所述的基于GRU的视频序列分类器作为RANet网络的分类器,将RANet每个子网络中的最后几个稠密块(或融合块)输出的特征映射图经过处理后输入基于GRU的视频序列分类器。
进一步的,所述分类器包括:
RANet作为一个具有K个分类器的网络,其中这些中间分类器被附加在模型的不同深度上,给定一个输入图像x,第k个分类器(k=1,…,K)的输出可以表示为:
RANet通过根据样本的复杂性动态分配适当的计算资源来推断该样本的分类,一个样本将在置信度达到阈值的第一个分类器处退出网络。
本发明最为突出的特点和显著的有益效果是:
(1)本发明利用HSV颜色直方图帧差值的方式动态获取聚类质心数,有效解决了使用K-means聚类方式提取关键帧需要预设K值的问题;并考虑了视频序列中非连续镜头中可能存在高度相似关键帧的特点,利用聚类算法极大程度上削减了关键帧的数量,在保持视频特征低损耗的同时降低了计算成本;此外,考虑了使用聚类提取关键帧导致关键帧序列损失时序语义的问题,基于视频帧直方图序列恢复提取关键帧序列的时序语义,一定程度上保留视频的高维语义信息;
(2)视频的关键帧序列中可能同时存在大量典型与非典型的图像,若对此都进行深层网络的计算,将会明显降低分类效率,浪费计算资源,因此利用RANet等自适应推理的网络结构,可以利用冗余计算,在深度网络中实现精度和计算成本之间的动态权衡;此外,考虑使用GRU模型(LSTM模型的变体)用来提取视频关键帧的特征向量,在计算资源相对低的条件下较好地解决长期记忆和反向传播中的梯度等问题。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明的实施例的一种基于分辨率自适应网络的视频分类方法的总体流程示意图;
图2示出了根据本发明的实施例的一种基于分辨率自适应网络的视频分类方法中基于视频帧直方图序列的关键帧序列时序语义恢复算法示意图;
图3示出了根据本发明的实施例的一种基于分辨率自适应网络的视频分类方法中基于RANet和GRU分类器的视频分类网络架构图;
图4示出了根据本发明的实施例的一种基于分辨率自适应网络的视频分类方法中RANet中高尺度子网融合块的分辨率保持实现方式;
图5示出了根据本发明的实施例的一种基于分辨率自适应网络的视频分类方法中RANet中高尺度子网融合块的降采样实现方式。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的,
为了更好说明本实施例,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,如图1-5所示,一种基于分辨率自适应网络的视频分类方法,包括:
S1、基于视频帧颜色直方图的K值探测,动态获取聚类K值;
S2、基于K-means聚类的关键帧提取,利用S1动态获取的K值对视频序列进行K-means聚类,获取关键帧集合;
S3、基于视频帧直方图序列,恢复S2得到的关键帧集合的时序语义;
S4、基于分辨率自适应网络的视频关键帧特征提取,利用分辨率自适应网络提取S3恢复时序语义的关键帧序列的特征表示;
S5、基于GRU的关键帧序列分类,将S4提取得到的视频关键帧特征序列输入GRU网络得到视频关键帧序列的特征向量,利用得到的特征向量集合输入线性分类器得到分类结果。
进一步的,S1中基于视频帧颜色直方图的K值探测,动态获取聚类K值的步骤包括:
S11、对目标视频数据进行预处理,将其以帧单位进行分割,得到视频帧序列;
S12、基于S11中得到的视频帧序列,提取视频帧的颜色直方图特征;
S13、基于S12中得到的视频帧颜色直方图特征,计算相邻帧之间的帧差值及其平均值,并确定聚类K值。
进一步的,所述S12中提取视频帧颜色直方图特征包括:
将帧图像从RGB空间映射到HSV空间上,使用色调H(Hue,0≤H≤360)、饱和度S(Saturation,0≤S≤1)以及亮度V(Value,0≤V≤1)表示,然后提取视频帧i的颜色直方图特征Hi,
进一步的,所述S13基于S12中得到的视频帧颜色直方图特征,计算相邻帧之间的帧差值及其平均值,并确定聚类K值包括:
根据S12计算得到的每个视频帧图像的颜色直方图,计算帧与帧之间的帧间差值Di,计算方式为:
其中S(fi, fi+1)为第i帧与第i+1帧之间的相似度,该相似度表示为:
其中mh表示HSV空间中H分量在帧间相似度中的权重(同理,ms与mv为S和V分量在帧间相似度中的权重),Sh(fi,fi+1)为第i帧与第i+1帧之间在H分量上的相似度(同理,Ss(fi,fi+1)与Sv(fi,fi+1)为第i帧与第i+1帧之间在S与V分量上的相似度),其中mh、ms与mv的取值根据视频帧图像HSV分量的平均特征比值来决定,由于人类对H分量的敏感度要高于S与V分量,所以H分量的默认权重可以略微高于S与V分量的权重,
第i帧与第i+1帧之间在H分量上的相似度为:
其中,函数H()为图像帧的颜色直方图,k表示图像灰度或色彩级别,S与V分量的帧间相似度同理,
计算平均帧间差值Davg,表示方式为:
对于帧间差值Di(0<i<n),如果Di≥Davg,则聚类K值+1。
进一步的,所述S2关键帧提取算法包括:
S21、根据S12得到的视频帧颜色直方图特征集合F={f1,f2,f3...,fn}(其中fi代表的是第i帧的颜色直方图特征)以及S13获取的聚类质心K值(K小于等于n),进行集合的划分;
S22、根据颜色直方图特征集合F划分聚类集合个数,划分过程可以根据K-means模型的最小值C表示,计算公式如下:
其中,C={c1,c2,c3,...,ck}为聚类的聚簇结果,μi为簇的质心;
S23、将视频帧中第一帧对应的颜色直方图特征f1归入第一个簇中,并将其颜色直方图的特征值作为该簇的初始质心;
S24、计算视频帧到质心的距离,如果当前视频帧与质心的距离大于给定的初始阈值t,那么就将该帧归入到新的簇中;反之,则将当前帧归入到距离它最近的簇中,并重新计算更新该簇的质心;
S25、重复S24的过程,直至最后一视频帧颜色直方图特征归入某个聚簇或者其作为新的簇质心;
S26、选取每个簇中距离质心最近的视频帧作为关键帧。
进一步的,如图2所示,S3关键帧时序语义恢复算法包括:
S31、初始化cluster_left_boundary(簇左边界)、cluster_right_boundary(簇右边界)以及frame_idx(帧索引)为0,cur_seq(当前关键帧序号)为1;
S32、使frame_idx递增,若Dframe_idx≥Davg,使cluster_right_boundary等于frame_idx,遍历视频帧序列中下标从cluster_left_boundary到cluster_right_boundary之间的帧集合FT;
S33、若存在关键帧kfi等于FT中的任意帧,则kfi在关键帧序列中序号为cur_seq,将cluster_left_boundary置为cluster_right_boundary,cur_seq加1,重复S32直至遍历完视频帧序列中最后一帧或已得到完整语义的关键帧序列;
S34、最终得到的关键帧序列为恢复时序语义的关键帧序列。
进一步的,所述S4包括:
S41 、利用RANet的初始层来生成视频关键帧的S尺度中的H基本特征,尺度最大的分辨率的特征通过常规卷积获得,小尺度的分辨率特征通过跨步卷积从前一个高尺度分辨率特征获得,需要的是,这些基本特性的规模可以是相同的,例如,一个在3个尺度中具有4个基本特征的RANet,其中最后两个基本特征的尺度具有相同的分辨率;
S42、输入的尺度最小的稠密块(Dense Block)首先被顺序激活,深度适应在单一尺度内进行;
S43、将提取到的待分类视频关键帧序列集合中每帧的特征表示组合成待分类视频帧特征序列集合,并将该视频帧特征序列集合输入到S5所述的基于GRU的视频关键帧序列分类器中进行视频分类;
S44、判断分类器得到的置信度是否达到阈值要求,如果分辨率自适应网络中当前子网络得到的特征经由分类器做出的置信度超过置信度阈值,则输出分类结果,停止深度适应;若分辨率自适应网络中当前子网络得到的特征经由分类器做出的置信度没有超过置信度阈值,则将输入样本传播到下一个子网络,并将小尺度分辨率的特征上卷积或常规卷积到深层的融合块(Fusion Block),重复深度自适应过程,直到预测置信度超过阈值,或者达到整个网络的最后一个分类器。
进一步的,所述RANet包括:
在模型训练前,使用ImageNet数据集对分辨率自适应网络进行预训练,降低后续模型训练的时间成本,使模型收敛更快,达到更好的效果。
进一步的,所述RANet包括:
如图3所示,分辨率自适应网络的初始层被实现用来生成S尺度中的H基本特征,可以将其垂直布局看作是一个微型的“H层”卷积网络(H是网络中基本特征的数量),最大尺度分辨率的特征通过常规卷积获得,而小尺度分辨率的特征图通过高分辨率特征进行跨步卷积获得;
RANet被划分为H个子网络,这些子网络进一步由不同的Conv块组成,除最浅层子网外,每个子网都使用其对应的基本特征图和来自前一个子网的特征来进行分类任务;
RANet中最浅层的子网络可以被看作是一个具有多个分类器的稠密网络,由多个稠密块构成,用来处理最低分辨率的特征图;
RANet中高尺度的子网络主要由融合块构成,融合块融合了来自低尺度网络的低分辨率特征,可以有效利用计算冗余降低资源消耗,融合块主要分为两种类型,一种保持输入分辨率,另一种通过跨步卷积降低输入分辨率,对于前者,如图4所示,前一个子网络的尺度特征由上卷积层处理,该层由常规卷积层和上采样双线性插值组成,确保产生的特性具有相同的空间分辨率,然后将所得到的特征通过稠密连接的连接进行融合;而对于后者,如图5所示,带有降采样的融合块利用跨步卷积层来降低块末端的空间分辨率,稠密连接也在池化操作后进行,由于当前子网络的特征尺度减小,低尺度子网络的特征通过常规卷积层进行处理,以保持低分辨率,然后在融合块的末端通过连接进行融合;
RANet利用过渡层来进一步压缩每个子网络中的特征映射,过渡层由一个1×1的卷积算子、一个BN层以及一个ReLU层组成,进一步保证了网络的计算效率;
RANet的第h个子网(s个尺度)主要由以下部分组成:b1到bh-1块为融合块(其中h-1<n),其它的块为稠密块,并在第bh-s到bh-1块进行降采样,确保了在附加分类器的每个子网络的末尾,特征为最低的分辨率。
进一步的,所述分类器结构包括:
GRU模型作为LSTM模型的变体,可以在计算资源相对低的条件下较好地解决长期记忆和反向传播中的梯度等问题,适合用来提取视频关键帧的特征向量,使用S5所述的基于GRU的视频序列分类器作为RANet网络的分类器,将RANet每个子网络中的最后几个稠密块(或融合块)输出的特征映射图经过处理后输入基于GRU的视频序列分类器。
进一步的,所述分类器包括:
RANet作为一个具有K个分类器的网络,其中这些中间分类器被附加在模型的不同深度上,给定一个输入图像x,第k个分类器(k=1,…,K)的输出可以表示为:
RANet通过根据样本的复杂性动态分配适当的计算资源来推断该样本的分类,一个样本将在置信度达到阈值的第一个分类器处退出网络。
Claims (9)
1.一种基于分辨率自适应网络的视频分类方法,其特征在于,包括:
S1、基于视频帧颜色直方图的K值探测,通过比较帧间差值与平均帧间差值动态获取聚类K值;
所述S1包括:
S11、对目标视频数据进行预处理,将其以帧为单位进行分割,得到视频帧序列;
S12、基于S11中得到的视频帧序列,提取视频帧的颜色直方图特征;
S13、基于S12中得到的视频帧颜色直方图特征,计算相邻帧之间的帧差值及所有帧间差值的平均值,并确定聚类K值;
S2、基于K-means聚类的关键帧提取,利用S1动态获取的K值对视频序列进行K-means聚类,获取关键帧集合;
S3、基于视频帧直方图序列,通过关键帧在视频帧序列中出现的顺序恢复S2得到的关键帧集合的时序语义;
所述S3关键帧时序语义恢复算法包括:
S31、初始化cluster_left_boundary、cluster_right_boundary以及frame_idx为0,cur_seq为1;
S32、使frame_idx递增,若Dframe_idx≥Davg,使cluster_right_boundary等于frame_idx,遍历视频帧序列中下标从cluster_left_boundary到cluster_right_boundary之间的帧集合FT;
S33、若存在关键帧kfi等于FT中的任意帧,则kfi在关键帧序列中序号为cur_seq,将cluster_left_boundary置为cluster_right_boundary,cur_seq加1,重复S32直至遍历完视频帧序列中最后一帧或已得到完整语义的关键帧序列;
S34、最终得到的关键帧序列为恢复时序语义的关键帧序列;
S4、基于分辨率自适应网络RANet的视频关键帧特征提取,利用分辨率自适应网络提取S3恢复时序语义的关键帧序列的特征表示;
S5、基于GRU的关键帧序列分类,将S4提取得到的视频关键帧特征序列输入GRU网络得到视频关键帧序列的特征向量,利用得到的特征向量集合输入线性分类器得到分类结果。
2.根据权利要求1所述的一种基于分辨率自适应网络的视频分类方法,其特征在于,所述S12中提取视频帧颜色直方图特征包括:
将帧图像从RGB空间映射到HSV空间上,使用色调H、饱和度S以及亮度V表示,然后提取视频帧i的颜色直方图特征FEi,其中色调H的范围是0°≤H≤360°,饱和度S的范围是0≤S≤1,亮度V的范围是0≤V≤1。
3.根据权利要求2所述的一种基于分辨率自适应网络的视频分类方法,其特征在于,所述S13包括:
根据S12计算得到的每个视频帧图像的颜色直方图,计算帧与帧之间的帧间差值Di,计算方式为:
Di=1-S(fi,fi+1)
其中S(fi,fi+1)为第i帧与第i+1帧之间的相似度,该相似度表示为:
其中mh表示HSV空间中H分量在帧间相似度中的权重,Sh(fi,fi+1)为第i帧与第i+1帧之间在H分量上的相似度,其中mh、ms与mv的取值根据视频帧图像HSV分量的平均特征比值来决定,由于人类对H分量的敏感度要高于S与V分量,所以H分量的默认权重应略微高于S与V分量的权重,
第i帧与第i+1帧之间在H分量上的相似度为:
其中,函数H()为图像帧的颜色直方图,g表示图像灰度或色彩级别,S与V分量的帧间相似度同理,
计算平均帧间差值Davg,表示方式为:
对于帧间差值Di(0<i<n),如果Di≥Davg,则聚类K值+1。
4.根据权利要求3所述的一种基于分辨率自适应网络的视频分类方法,其特征在于,所述S2关键帧提取算法包括:
S21、根据S12得到的视频帧颜色直方图特征集合F={f1,f2,f3...,fn}以及S13获取的聚类质心K值,进行集合的划分;
S22、根据颜色直方图特征集合F划分聚类集合个数,划分过程根据K-means模型的最小值C表示,计算公式如下:
其中,C={c1,c2,c3,...,ck}为聚类的聚簇结果,μi为簇的质心;
S23、将视频帧中第一帧对应的颜色直方图特征f1归入第一个簇中,并将其颜色直方图的特征值作为该簇的初始质心;
S24、计算视频帧到质心的距离,如果当前视频帧与质心的距离大于给定的初始阈值t,那么就将该帧归入到新的簇中;反之,则将当前帧归入到距离它最近的簇中,并重新计算更新该簇的质心;
S25、重复S24的过程,直至最后一视频帧颜色直方图特征归入某个聚簇或者其作为新的簇质心;
S26、选取每个簇中距离质心最近的视频帧作为关键帧。
5.根据权利要求4所述的一种基于分辨率自适应网络的视频分类方法,其特征在于,所述S4包括:
S41、利用分辨率自适应网络的初始层来生成视频关键帧的S尺度中的H基本特征,尺度最大的分辨率的特征通过常规卷积获得,小尺度的分辨率特征通过跨步卷积从前一个高尺度分辨率特征获得,需要的是,这些基本特性的规模是相同的;
S42、输入的尺度最小的稠密块首先被顺序激活,深度适应在单一尺度内进行;
S43、将提取到的待分类视频关键帧序列集合中每帧的特征表示组合成待分类视频帧特征序列集合,并将该视频帧特征序列集合输入到S5所述的基于GRU的视频关键帧序列分类器中进行视频分类;
S44、判断分类器得到的置信度是否达到阈值要求,如果分辨率自适应网络中当前子网络得到的特征经由分类器做出的置信度超过置信度阈值,则输出分类结果,停止深度适应;若分辨率自适应网络中当前子网络得到的特征经由分类器做出的置信度没有超过置信度阈值,则将输入样本传播到下一个子网络,并将小尺度分辨率的特征上卷积或常规卷积到深层的融合块,重复深度自适应过程,直到预测置信度超过阈值,或者达到整个网络的最后一个分类器。
6.根据权利要求5所述的一种基于分辨率自适应网络的视频分类方法,其特征在于,所述分辨率自适应网络包括:
使用ImageNet数据集对分辨率自适应网络进行预训练,降低后续模型训练的时间成本,使模型收敛更快,达到更好的效果。
7.根据权利要求6所述的一种基于分辨率自适应网络的视频分类方法,其特征在于,所述分辨率自适应网络包括:
分辨率自适应网络的初始层被实现用来生成S尺度中的H基本特征,可以将其垂直布局看作是一个微型的“H层”卷积网络,最大尺度分辨率的特征通过常规卷积获得,而小尺度分辨率的特征图通过高分辨率特征进行跨步卷积获得;
分辨率自适应网络被划分为H个子网络,这些子网络进一步由不同的Conv块组成,除最浅层子网外,每个子网都使用其对应的基本特征图和来自前一个子网的特征来进行分类任务;
分辨率自适应网络中最浅层的子网络可以被看作是一个具有多个分类器的稠密网络,由多个稠密块构成,用来处理最低分辨率的特征图;
分辨率自适应网络中高尺度的子网络主要由融合块构成,融合块融合了来自低尺度网络的低分辨率特征,可以有效利用计算冗余降低资源消耗,融合块主要分为两种类型,一种保持输入分辨率,另一种通过跨步卷积降低输入分辨率,对于前者,前一个子网络的尺度特征由上卷积层处理,该层由常规卷积层和上采样双线性插值组成,确保产生的特性具有相同的空间分辨率,然后将所得到的特征通过稠密连接的连接进行融合;而对于后者,带有降采样的融合块利用跨步卷积层来降低块末端的空间分辨率,稠密连接也在池化操作后进行,由于当前子网络的特征尺度减小,低尺度子网络的特征通过常规卷积层进行处理,以保持低分辨率,然后在融合块的末端通过连接进行融合;
分辨率自适应网络利用过渡层来进一步压缩每个子网络中的特征映射,过渡层由一个1×1的卷积算子、一个BN层以及一个ReLU层组成,进一步保证了网络的计算效率;
分辨率自适应网络的第h个子网主要由以下部分组成:b1到bh-1块为融合块,其它的块为稠密块,并在第bh-s到bh-1块进行降采样,确保了在附加分类器的每个子网络的末尾,特征为最低的分辨率。
8.根据权利要求7所述的一种基于分辨率自适应网络的视频分类方法,其特征在于,所述分类器包括:
GRU模型作为LSTM模型的变体,可以在计算资源相对低的条件下较好地解决长期记忆和反向传播中的梯度问题,适合用来提取视频关键帧的特征向量,使用S5所述的基于GRU的视频序列分类器作为分辨率自适应网络的分类器,将分辨率自适应网络每个子网络中的最后几个稠密块输出的特征映射图经过处理后输入基于GRU的视频序列分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211125809.8A CN115205768B (zh) | 2022-09-16 | 2022-09-16 | 一种基于分辨率自适应网络的视频分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211125809.8A CN115205768B (zh) | 2022-09-16 | 2022-09-16 | 一种基于分辨率自适应网络的视频分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115205768A CN115205768A (zh) | 2022-10-18 |
CN115205768B true CN115205768B (zh) | 2023-01-31 |
Family
ID=83572146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211125809.8A Active CN115205768B (zh) | 2022-09-16 | 2022-09-16 | 一种基于分辨率自适应网络的视频分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205768B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115376052B (zh) * | 2022-10-26 | 2023-04-07 | 山东百盟信息技术有限公司 | 一种基于关键帧采样和多尺度稠密网络的长视频分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070067A (zh) * | 2019-04-29 | 2019-07-30 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
CN112464831A (zh) * | 2020-12-01 | 2021-03-09 | 马上消费金融股份有限公司 | 视频分类方法、视频分类模型的训练方法及相关设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050228849A1 (en) * | 2004-03-24 | 2005-10-13 | Tong Zhang | Intelligent key-frame extraction from a video |
KR100785076B1 (ko) * | 2006-06-15 | 2007-12-12 | 삼성전자주식회사 | 스포츠 동영상에서의 실시간 이벤트 검출 방법 및 그 장치 |
DE102007063635A1 (de) * | 2007-03-22 | 2009-04-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zur zeitlichen Segmentierung eines Videos in Videobildfolgen und zur Auswahl von Keyframes für das Auffinden von Bildinhalten unter Einbeziehung einer Subshot-Detektion |
CN108615043B (zh) * | 2016-12-12 | 2021-05-25 | 中移(杭州)信息技术有限公司 | 一种视频分类方法及系统 |
CN110347876A (zh) * | 2019-07-12 | 2019-10-18 | Oppo广东移动通信有限公司 | 视频分类方法、装置、终端设备及计算机可读存储介质 |
CN111008280B (zh) * | 2019-12-04 | 2023-09-05 | 北京百度网讯科技有限公司 | 一种视频分类方法、装置、设备和存储介质 |
CN111325266B (zh) * | 2020-02-18 | 2023-07-21 | 慧影医疗科技(北京)股份有限公司 | 乳腺钼靶图像中微钙化簇的检测方法、装置和电子设备 |
CN111797707B (zh) * | 2020-06-12 | 2022-03-15 | 武汉大学 | 一种基于聚类的镜头关键帧提取方法 |
CN112070044B (zh) * | 2020-09-15 | 2021-05-11 | 北京深睿博联科技有限责任公司 | 一种视频物体分类方法及装置 |
CN112270247A (zh) * | 2020-10-23 | 2021-01-26 | 杭州卷积云科技有限公司 | 基于帧间差分和颜色直方图差值的关键帧提取方法 |
CN112580502A (zh) * | 2020-12-17 | 2021-03-30 | 南京航空航天大学 | 基于sicnn的低质量视频人脸识别方法 |
CN113793306A (zh) * | 2021-08-23 | 2021-12-14 | 上海派影医疗科技有限公司 | 一种基于分片处理的乳腺病理图像识别检测方法与系统 |
CN115049963A (zh) * | 2022-06-23 | 2022-09-13 | 中国工商银行股份有限公司 | 视频分类方法、装置、处理器及电子设备 |
-
2022
- 2022-09-16 CN CN202211125809.8A patent/CN115205768B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070067A (zh) * | 2019-04-29 | 2019-07-30 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
CN112464831A (zh) * | 2020-12-01 | 2021-03-09 | 马上消费金融股份有限公司 | 视频分类方法、视频分类模型的训练方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115205768A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
Anwar et al. | Image colorization: A survey and dataset | |
Wang et al. | Enhancing sketch-based image retrieval by cnn semantic re-ranking | |
CN112507898B (zh) | 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法 | |
CN111523410B (zh) | 一种基于注意力机制的视频显著性目标检测方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN110598018B (zh) | 一种基于协同注意力的草图图像检索方法 | |
CN111488932B (zh) | 一种基于帧率感知的自监督视频时-空表征学习方法 | |
Lai et al. | Real-time micro-expression recognition based on ResNet and atrous convolutions | |
CN109710804B (zh) | 一种教学视频图像知识点降维分析方法 | |
CN113837366A (zh) | 一种多风格字体生成方法 | |
CN111462149A (zh) | 一种基于视觉显著性的实例人体解析方法 | |
CN115205768B (zh) | 一种基于分辨率自适应网络的视频分类方法 | |
WO2023036157A1 (en) | Self-supervised spatiotemporal representation learning by exploring video continuity | |
CN109886281A (zh) | 一种基于四元数超限学习机彩色图像识别方法 | |
Liu et al. | Learning explicit shape and motion evolution maps for skeleton-based human action recognition | |
CN113936235A (zh) | 一种基于质量评估的视频显著性目标检测方法 | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
CN116662656A (zh) | 一种基于协同增强和图注意力神经网络的电影推荐方法 | |
CN111489361B (zh) | 基于孪生网络的深层特征聚合的实时视觉目标跟踪方法 | |
CN116977683A (zh) | 对象识别方法、装置、计算机设备、存储介质和程序产品 | |
CN111881794B (zh) | 一种视频行为识别方法及系统 | |
CN112164078B (zh) | 基于编码器-解码器的rgb-d多尺度语义分割方法 | |
CN113971826A (zh) | 估计连续的效价和唤醒水平的动态情感识别方法和系统 | |
CN115546885A (zh) | 一种基于增强时空特征的动作识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |