CN113269218A - 基于改进的vlad算法的视频分类方法 - Google Patents

基于改进的vlad算法的视频分类方法 Download PDF

Info

Publication number
CN113269218A
CN113269218A CN202011612490.2A CN202011612490A CN113269218A CN 113269218 A CN113269218 A CN 113269218A CN 202011612490 A CN202011612490 A CN 202011612490A CN 113269218 A CN113269218 A CN 113269218A
Authority
CN
China
Prior art keywords
multiplied
characteristic diagram
feature
local
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011612490.2A
Other languages
English (en)
Other versions
CN113269218B (zh
Inventor
袁嘉杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vtron Group Co Ltd
Original Assignee
Vtron Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vtron Group Co Ltd filed Critical Vtron Group Co Ltd
Priority to CN202011612490.2A priority Critical patent/CN113269218B/zh
Publication of CN113269218A publication Critical patent/CN113269218A/zh
Application granted granted Critical
Publication of CN113269218B publication Critical patent/CN113269218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于改进的VLAD算法的视频分类方法,包括:根据对特征图进行非局部描述特征处理,获得非局部相关区域,具体包括:对特征图进行三次的卷积操作,输出三个压缩特征图;所述压缩特征图包括第一压缩特征图、第二压缩特征图和第三压缩特征图,其中,第一压缩特征图的特征格式为H×W×(N×C/2),第二压缩特征图的特征格式为(N×C/2)×(H×W),第三压缩特征图为H×W×(N×C/2);以任一个压缩特征图的任一特征向量为乘数、另一压缩特征图的任一特征向量为乘数地两两矩阵相乘,得到关联强度矩阵;将关联强度矩阵输入损失函数后与第三压缩特征图进行矩阵相乘,输出特征图的非局部相关区域,引入非局部相关区域使图像特征有完善的表示。

Description

基于改进的VLAD算法的视频分类方法
技术领域
本发明涉及图像视频处理领域,更具体地,涉及一种基于改进的VLAD算法的视频分类方法。
背景技术
一种优秀的特征编码方法能够应用于图像、视频分类或者目标检索各个领域,其中VLAD(Vector of Locally Aggregated Descriptors)无论在传统图像处理,还是深度学习领域中,都有大量的研究学者进行专研与改进。NetVLAD是一个近年提出的应用于深度神经网络的VLAD网络结构,类似于池化层,将图像特征进行编码,压缩成固定大小的局部特征向量以表达图像整体信息,能够插入到任何CNN模型中,与网络模型一同训练。但二者均存在着2点不足之处:1、应用于传统图像处理领域的VLAD算法,虽然能够较好地针对图像数据特征输出局部聚合描述特征,但对图像特征缺乏学习优化的过程,输出特征与目标标签出现误差亦不能沿着误差方向得到改善。2、应用于深度学习领域的改进VLAD算法,虽然解决了VLAD对图像特征学习优化的问题,但是输出的局部聚合特征一定程度上会出现信息丢失,对网络模型识别造成影响。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷(不足),提供一种改进的VLAD算法,用于完善使用VLAD算法进行视频分类的特征描述以减少误差。
本发明采取的技术方案是:
一种基于改进的VLAD算法的视频分类方法,去除深度残差网络结构的基础网络的全连接层与最后一层池化层,以输入视频中的视频帧至深度残差网络结构得到特征图;对特征图进行上采样反卷积操作;输入视频中的视频帧至深度残差网络结构得到特征图的特征格式为(H×W×C×N);训练NetVLAD网络结构,以使特征图输入NetVLAD网络结构以一段时间内的视频帧为目标进行局部聚合特征,得到局部特征向量和聚类中心区域;根据局部特征向量通过卷积操作得到软分配权重,将局部特征向量划分至相应对聚类中心区域,以计算局部特征描述子与聚类中心区域对残差分布;构建聚合特征矩阵;其中的构建聚合特征矩阵的过程包括:对根据视频帧生成的特征图进行卷积操作得到软分配权重,输出预设数量的权重信息;根据权重信息构建聚合特征矩阵;其中,根据权重信息构建聚合特征矩阵具体包括:通过损失函数处理所述权重信息,输出与权重信息数量相同个数的软分配权重,对其进行残差加权与残差求和的处理,构建聚合特征矩阵;根据对特征图进行非局部描述特征处理,获得非局部相关区域,具体包括:对特征图进行三次的卷积操作,输出三个压缩特征图;所述压缩特征图包括第一压缩特征图、第二压缩特征图和第三压缩特征图,其中,第一压缩特征图的特征格式为H×W×(N×C/2),第二压缩特征图的特征格式为(N×C/2)×(H×W),第三压缩特征图为H×W×(N×C/2);以任一个压缩特征图的任一特征向量为乘数、另一压缩特征图的任一特征向量为乘数地两两矩阵相乘,得到关联强度矩阵;将关联强度矩阵输入损失函数后与第三压缩特征图进行矩阵相乘,输出特征图的非局部相关区域;将软分配权重和非局部相关区域进行点乘,得到聚类区域相关区域;将聚类区域相关区域进行卷积操作降维压缩成聚类区域空间相关性,并将聚类区域空间相关性串行拼接在聚合特征矩阵中得到最终特征向量;预建立最终特征向量与视频种类的映射集;根据最终特征向量确定输入的视频的视频种类。
将视频输入深度残差网络结构前通常需要进行对深度残差网络结构的Pooling层预配置,以使深度残差网络进行三维压缩,并对深度残差网络结构进行裁剪,去除深度残差网络全连接层与最后一层池化层;配置后,对视频的特征数据从三维的角度进行压缩,使提取的特征图具有三维立体信息结构,以使不同时间的特征图存在时间维度的关联。输入视频中的视频帧至深度残差网络结构得到特征图的特征格式为(H×W×C×N),其中,H为特征图的高,W为特征图的宽,N为视频帧的个数,C为特征图的通道数。在获得非局部相关区域当中,关联强度矩阵每一行的小方块是相关性较高的位置,与第三特征图进行矩阵相乘获取高相关性的位置特征向量,通过加权求和,能够相应找到特征图每一位置向量的关联区域,输出特征图局部特征的非局部相关区域。非局部相关区域的作用在于,取图像特征非局部相关信息,使图像特征有完善的表示,获取类中的共性特征,扩大类间差异。通过对输入的图像特征进行卷积操作输出不同时空区域的图像特征,然后对不同时空区域的图像特征进行矩阵相乘,在图像特征中计算任意两点间的相关性,突破了卷积操作的局部区域的局限性,获取图像特征非局部信息,简称为非局部描述特征,最后将改进的NetVLAD输出的软分配权重与非局部描述特征进行元素点乘,输出图像特征所属的每个聚类区域间的非局部相关性,串行拼接到改进NetVLAD输出的局部聚合特征向量中,优化特征描述,凸显图像类中共性区域。
进一步,所述构建聚合特征矩阵的过程具体包括:对根据视频帧生成的特征图进行卷积操作得到软分配权重,输出(K+G)个权重信息;对每个权重信息各自求和后将其中最小的G个权重信息去除,根据剩余的K个权重信息构建聚合特征矩阵;其中,根据剩余的K个权重信息构建聚合特征矩阵具体包括:通过损失函数处理所述剩余的K个权重信息,输出K个软分配权重,对其进行残差加权与残差求和的处理,构建聚合特征矩阵。
构建聚合特征矩阵的过程中,对根据视频帧生成的特征图进行卷积操作计算软分配权重,得出(K+G)个权重信息,其中K和G都是预设值,通过权重信息各自求和计算,可判别当前特征点是否属于某一聚类中心区域的权重系数,值最小的G个权重信息表示为贡献率最低的聚类区域,将其去除,低质量的权重信息将不再参与到接下来的聚合局部特征向量的构建,减少了非关键区域的干扰,使网路丢弃一部分冗余信息,强化了有用信息,使输出局部聚合特征向量更具辨析性。
进一步,根据剩余的K个权重信息构建聚合特征矩阵具体还包括归一化处理,具体如下:通过损失函数处理所述剩余的K个权重信息,输出K个软分配权重,对其进行残差加权与残差求和的处理后进行归一化处理,构建聚合特征矩阵。
进一步,所述深度残差网络结构为ResNet101深度残差网络。
进一步,所述损失函数为Softmax函数。
本发明采取的技术方案还为:
一种视频分类的方法,包括预建立最终特征向量与视频种类的映射集;根据如上述的改进的VLAD算法输出的最终特征向量确定输入的视频的视频种类。
与现有技术相比,本发明的有益效果为:
(1)通过基于特征相关性的非局部描述特征,补充聚类中心区域的相关区域,一种动作的视频流中多个子类动作有一定的关联性,为整合多个子类动作作为一种动作进行特征表示,补充了关联信息,优化了动作的特征描述;
(2)使低质量的权重信息将不再参与到接下来的聚合局部特征向量的构建,减少了非关键区域的干扰,使网路丢弃一部分冗余信息,强化了有用信息,使输出局部聚合特征向量更具辨析性。通过改进NetVLAD方法处理视频流特征图,能够将动作信息分解为多部分作为聚类中心区域,构成局部聚合特征向量,从而整合多个子类动作为一种动作进行特征表示。
附图说明
图1为本发明的步骤示意图。
图2为本发明的流程示意图。
图3为本发明的ResNet网络结构参数表。
图4为本发明的局部特征关联区域计算示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
如图1~2所示,本实施例提供一种改进的VLAD算法,步骤包括:
S1:修改ResNet101的网络结构;完成后同时进行S2和S3;
对pooling层进行修改,将输入的视频帧的时间信息由pooling层进行利用,修改后的网络结构如图3。使用ResNet101基础网络,由于需要提取H×W×C×N格式大小的中间特征图(H为特征图的高,W为特征图的宽,N为视频帧的个数,C为特征图的通道数),并且为了让提取的中间特征图具有一定的空间信息结构,因此将原ResNet101的基础网络去除最后的全连接层与最后一层池化层,对输出的7×7×4特征图进行上采样反卷积操作最终输出14×14×4的特征图作为下面基于非局部描述特征VLAD算法改进的中间特征图输入。
S2:同时进行S2a和S2b;
其中S2a具体为:计算局部特征描述子与聚类中心区域对残差分布;
训练NetVLAD网络结构,以使特征图输入NetVLAD网络结构以一段时间内的视频帧为目标进行局部聚合特征,得到局部特征向量和聚类中心区域;根据局部特征向量通过卷积操作得到软分配权重,将局部特征向量划分至相应对聚类中心区域,以计算局部特征描述子与聚类中心区域对残差分布;
对特征图随机初始化设定K个聚类中心,并且通过训练调整K个聚类中心,由以往一张张特征图进行局部聚合特征,改为由一段时间帧进行局部聚合特征,xi,t∈RD是一个从一段视频帧中t∈{1...T}的位置i∈{1...N}中提取的D维局部特征向量。通过网络训练,对这一段视频帧特征描述空间RD划分为K个聚类中心区域,聚类中心由ck表示。通过卷积操作输出软分配权重,将xi,t∈RD划分到相应的聚类中心区域中,在相应的聚类中心区域中计算xi,t∈RD局部特征描述子与聚类中心的残差分布。
S2b具体为:构建聚合特征矩阵;
对根据视频帧生成的特征图进行卷积操作得到软分配权重,输出(K+G)个权重信息;对每个权重信息各自求和后将其中最小的G个权重信息去除,根据剩余的K个权重信息构建聚合特征矩阵;其中,根据剩余的K个权重信息构建聚合特征矩阵具体包括:通过损失函数处理所述剩余的K个权重信息,输出K个软分配权重,对其进行残差加权与残差求和的处理,构建聚合特征矩阵。
同时对特征图进行卷积操作计算软分配权重,输出(K+G)个权重信息(K个高质量权重信息,G个低质量权重信息),(K+G)个权重信息各自求和,保留值最高的K个权重信息,这样G个低质量的权重信息将不再参与到接下来的聚合局部特征向量的构建,减少了非关键区域的干扰,再通过Softmax函数处理,输出K个软分配权重,进行残差加权,残差求和,归一化处理,构建聚合特征矩阵(K×D)。
S3:获得非局部相关区域;
对特征图进行三次的卷积操作,输出三个压缩特征图;所述压缩特征图包括第一压缩特征图、第二压缩特征图和第三压缩特征图,其中,第一压缩特征图的特征格式为H×W×(N×C/2),第二压缩特征图的特征格式为(N×C/2)×(H×W),第三压缩特征图为H×W×(N×C/2);以任一个压缩特征图的任一特征向量为乘数、另一压缩特征图的任一特征向量为乘数地两两矩阵相乘,得到关联强度矩阵;将关联强度矩阵输入损失函数后与第三压缩特征图进行矩阵相乘,输出特征图的非局部相关区域;
如图4所示,将S1输出的特征图作为基于非局部描述特征VLAD算法的输入,输入到非局部描述特征处理中:首先将一段视频帧的中间特征图(H×W×C×N)经过三次的1×1×(N×C)×(N×C/2)卷积操作,分别输出3个经压缩后的特征图H×W×(N×C/2),为第一特征图、第二特征图、第三特征图;改变第一特征图的特征格式为H×W×(N×C/2),改变第二特征图的特征格式为(N×C/2)×(H×W),通过矩阵乘积方法,计算特征图之间任意两个位置的特征向量的关联强度矩阵((N×H×W)×(N×H×W)),其中每一行表示为某一刻视频帧的特征图某一位置的特征向量与其他位置的相关性;将关联强度矩阵((N×H×W)×(N×H×W))进行Softmax操作,再与第三特征图(H×W×(N×C/2))进行矩阵相乘,找到某一刻视频帧的特征图中每一个位置特征向量的关联区域,获取局部特征关联区域,图像关联强度矩阵每一行的小方块是相关性较高的位置,与第三特征图进行矩阵相乘获取高相关性的位置特征向量,通过加权求和,能够相应找到特征图每一位置向量的关联区域,输出特征图局部特征的非局部相关区域。
S4:将软分配权重和非局部相关区域进行点乘,得到聚类区域相关区域;
将S2输出软分配权重与S3输出的非局部相关区域,逐个聚类中心的软分配权重进行点乘;
S5:将聚类区域相关区域进行卷积操作降维压缩成聚类区域的非局部相关区域;
S6:将聚类区域的非局部相关区域串行拼接在聚合特征矩阵中得到最终特征向量;
将聚类区域非局部相关区域进行卷积操作降维压缩成聚类区域空间相关性,串行拼接在改进NetVLAD输出的K个局部聚合特征向量中。
S7:建立最终特征向量与视频种类的映射集;
S8:根据最终特征向量确定输入的视频的视频种类。
根据NetVLAD的特性进行优化改进,由原本K个软分配聚类中心权重(作为判别当前特征点是否属于某一聚类中心区域的权重系数),改成输出(K+G)个软分配聚类中心权重,通过各个权重各自求和计算,舍弃最小的G个不参与到局部聚合特征向量计算,网路去除一部分冗余信息,强化了有用信息,使输出局部聚合特征向量更具辨析性。
提出基于特征相关性的非局部描述特征,通过对输入的图像特征进行卷积操作输出不同时空区域的图像特征,然后对不同时空区域的图像特征进行矩阵相乘,在图像特征中计算任意两点间的相关性,突破了卷积操作的局部区域的局限性,获取图像特征非局部信息,简称为非局部描述特征,最后将改进的NetVLAD输出的软分配权重与非局部描述特征进行元素点乘,输出图像特征所属的每个聚类区域间的非局部相关性,串行拼接到改进NetVLAD输出的局部聚合特征向量中,优化特征描述,凸显图像类中共性区域。
在视频分类问题上,如果单张视频帧放入一般2维卷积的网络模型中,由于缺乏时序的关联性,容易将动作分解识别,诸如打篮球,容易误识别为跑步,跳远等,将基于非局部描述特征的VLAD算法改进应用于视频分类中,可以清晰看到经注意力强化后的特征在计算其特征相关性,同时通过改进的Attention-NetVLAD计算出聚类中心的软分配权重,从而确定视频流在所属的聚类区域在视频流中相关区域。本实施例提供的视频分类的方法有以下优势:
虽然一段视频流代表一种动作分类,但这个动作分类在连贯的视频帧中包含着多个不同子类动作,诸如打篮球中有跳、扔、跑、抱等动作。通过改进NetVLAD方法处理视频流特征图,能够将动作信息分解为多部分作为聚类中心区域,构成局部聚合特征向量,从而整合多个子类动作为一种动作进行特征表示;
通过基于特征相关性的非局部描述特征,补充聚类中心区域的相关区域,一种动作的视频流中多个子类动作有一定的关联性,为整合多个子类动作作为一种动作进行特征表示,补充了关联信息,优化了动作的特征描述。
通过所述视频分类方法能够将一种动作的视频流中多个子类动作提供了关联性,诸如打篮球视频流,聚类中心区域分别与篮球、投、扔等区域有较高的相关性,整合了投篮球的动作表示;掷保龄球视频流中,聚类中心区域分别与保龄球、跑、掷等区域有较高相关性,整合了掷保龄球的动作表示,如此类推。因此融合注意力与非局部描述特征的VLAD算法中聚类区域的局部聚合特征向量,在注意力的强化与非局部描述特征的补充下,输出特征信息更为完善,更突显出类别中的共性。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种基于改进的VLAD算法的视频分类方法,其特征在于,所述算法包括:
去除深度残差网络结构的基础网络的全连接层与最后一层池化层,以输入视频中的视频帧至深度残差网络结构得到特征图;对特征图进行上采样反卷积操作;输入视频中的视频帧至深度残差网络结构得到特征图的特征格式为H×W×C×N;
训练NetVLAD网络结构,以使特征图输入NetVLAD网络结构以一段时间内的视频帧为目标进行局部聚合特征,得到局部特征向量和聚类中心区域;根据局部特征向量通过卷积操作得到软分配权重,将局部特征向量划分至相应对聚类中心区域,以计算局部特征描述子与聚类中心区域对残差分布;
构建聚合特征矩阵;其中的构建聚合特征矩阵的过程包括:
对视频帧生成的特征图进行卷积操作得到软分配权重,输出预设数量的权重信息;根据权重信息构建聚合特征矩阵;其中,根据权重信息构建聚合特征矩阵具体包括:通过损失函数处理所述权重信息,输出与权重信息数量相同个数的软分配权重,对其进行残差加权与残差求和的处理,构建聚合特征矩阵;
根据对特征图进行非局部描述特征处理,获得非局部相关区域,具体包括:对特征图进行三次的卷积操作,输出三个压缩特征图;所述压缩特征图包括第一压缩特征图、第二压缩特征图和第三压缩特征图,其中,第一压缩特征图的特征格式为H×W×(N×C/2),第二压缩特征图的特征格式为(N×C/2)×(H×W),第三压缩特征图为H×W×(N×C/2);以任一个压缩特征图的任一特征向量为乘数、另一压缩特征图的任一特征向量为乘数地两两矩阵相乘,得到关联强度矩阵;将关联强度矩阵输入损失函数后与第三压缩特征图进行矩阵相乘,输出特征图的非局部相关区域;
将软分配权重和非局部相关区域进行点乘,得到聚类区域相关区域;
将聚类区域相关区域进行卷积操作降维压缩成聚类区域空间相关性,并将聚类区域空间相关性串行拼接在聚合特征矩阵中得到最终特征向量;
预建立最终特征向量与视频种类的映射集;
根据最终特征向量确定输入的视频的视频种类。
2.根据权利要求1所述的基于改进的VLAD算法的视频分类方法,其特征在于,所述构建聚合特征矩阵的过程具体包括:
对根据视频帧生成的特征图进行卷积操作得到软分配权重,输出(K+G)个权重信息;对每个权重信息各自求和后将其中最小的G个权重信息去除,根据剩余的K个权重信息构建聚合特征矩阵;其中,根据剩余的K个权重信息构建聚合特征矩阵具体包括:通过损失函数处理所述剩余的K个权重信息,输出K个软分配权重,对其进行残差加权与残差求和的处理,构建聚合特征矩阵。
3.根据权利要求2所述的基于改进的VLAD算法的视频分类方法,其特征在于,根据剩余的K个权重信息构建聚合特征矩阵具体还包括归一化处理,具体如下:
通过损失函数处理所述剩余的K个权重信息,输出K个软分配权重,对其进行残差加权与残差求和的处理后进行归一化处理,构建聚合特征矩阵。
4.根据权利要求1所述的基于改进的VLAD算法的视频分类方法,其特征在于,
所述深度残差网络结构为ResNet101深度残差网络。
5.根据权利要求1所述的基于改进的VLAD算法的视频分类方法,其特征在于,
所述损失函数为Softmax函数。
CN202011612490.2A 2020-12-30 2020-12-30 基于改进的vlad算法的视频分类方法 Active CN113269218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011612490.2A CN113269218B (zh) 2020-12-30 2020-12-30 基于改进的vlad算法的视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011612490.2A CN113269218B (zh) 2020-12-30 2020-12-30 基于改进的vlad算法的视频分类方法

Publications (2)

Publication Number Publication Date
CN113269218A true CN113269218A (zh) 2021-08-17
CN113269218B CN113269218B (zh) 2023-06-09

Family

ID=77227882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011612490.2A Active CN113269218B (zh) 2020-12-30 2020-12-30 基于改进的vlad算法的视频分类方法

Country Status (1)

Country Link
CN (1) CN113269218B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255392A (zh) * 2018-09-30 2019-01-22 百度在线网络技术(北京)有限公司 基于非局部神经网络的视频分类方法、装置及设备
CN109299315A (zh) * 2018-09-03 2019-02-01 腾讯科技(深圳)有限公司 多媒体资源分类方法、装置、计算机设备及存储介质
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN110135460A (zh) * 2019-04-16 2019-08-16 广东工业大学 基于vlad卷积模块的图像信息强化方法
CN110852182A (zh) * 2019-10-21 2020-02-28 华中科技大学 一种基于三维空间时序建模的深度视频人体行为识别方法
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法
WO2020113886A1 (zh) * 2018-12-07 2020-06-11 中国科学院自动化研究所 基于时空频域混合学习的行为特征提取方法、系统、装置
CN111639564A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于多注意力异构网络的视频行人重识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299315A (zh) * 2018-09-03 2019-02-01 腾讯科技(深圳)有限公司 多媒体资源分类方法、装置、计算机设备及存储介质
WO2020048308A1 (zh) * 2018-09-03 2020-03-12 腾讯科技(深圳)有限公司 多媒体资源分类方法、装置、计算机设备及存储介质
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109255392A (zh) * 2018-09-30 2019-01-22 百度在线网络技术(北京)有限公司 基于非局部神经网络的视频分类方法、装置及设备
WO2020113886A1 (zh) * 2018-12-07 2020-06-11 中国科学院自动化研究所 基于时空频域混合学习的行为特征提取方法、系统、装置
CN110135460A (zh) * 2019-04-16 2019-08-16 广东工业大学 基于vlad卷积模块的图像信息强化方法
CN110852182A (zh) * 2019-10-21 2020-02-28 华中科技大学 一种基于三维空间时序建模的深度视频人体行为识别方法
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法
CN111639564A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于多注意力异构网络的视频行人重识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RELJA ET AL: "NetVLAD: CNN Architecture for Weakly Supervised Place Recognition", 《 2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
XIAOLONG WANG ET AL: "Non-local Neural Networks", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
YONGYI TANG ET AL: "Non-local NetVLAD Encoding for Video Classification", 《ARXIV:1810.00207V1》 *
李思琦: "基于视频的人体行为识别算法研究", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN113269218B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN110738146A (zh) 一种目标重识别神经网络及其构建方法和应用
CN105930382A (zh) 一种用2d图片搜索3d模型的方法
CN111145116A (zh) 一种基于生成对抗网络的海面雨天图像样本增广方法
CN110082821B (zh) 一种无标签框微地震信号检测方法及装置
CN111126488A (zh) 一种基于双重注意力的图像识别方法
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN108805151B (zh) 一种基于深度相似性网络的图像分类方法
CN111311702B (zh) 一种基于BlockGAN的图像生成和识别模块及方法
CN110210492B (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN107451617B (zh) 一种图转导半监督分类方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN116052218B (zh) 一种行人重识别方法
CN113705709A (zh) 一种改进的半监督图像分类方法、设备及存储介质
CN110334226B (zh) 融合特征分布熵的深度图像检索方法
CN112528077A (zh) 基于视频嵌入的视频人脸检索方法及系统
Borkowski et al. Matching 2D image segments with genetic algorithms and approximation spaces
CN113269218A (zh) 基于改进的vlad算法的视频分类方法
CN110717068A (zh) 一种基于深度学习的视频检索方法
CN115116139A (zh) 基于图卷积网络的多粒度人体动作分类方法
CN116342466A (zh) 一种图像抠图的方法及相关装置
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
CN114494284A (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN113688715A (zh) 面部表情识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant