CN114743133A - 一种轻量化的小样本视频分类识别方法及系统 - Google Patents

一种轻量化的小样本视频分类识别方法及系统 Download PDF

Info

Publication number
CN114743133A
CN114743133A CN202210284085.5A CN202210284085A CN114743133A CN 114743133 A CN114743133 A CN 114743133A CN 202210284085 A CN202210284085 A CN 202210284085A CN 114743133 A CN114743133 A CN 114743133A
Authority
CN
China
Prior art keywords
key frame
video
classification
feature
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210284085.5A
Other languages
English (en)
Inventor
黄健
潘崇煜
张中杰
刘权
龚建兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210284085.5A priority Critical patent/CN114743133A/zh
Publication of CN114743133A publication Critical patent/CN114743133A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种轻量化的小样本视频分类识别方法及系统,本发明包括对输入的目标视频进行帧提取,对得到的各幅关键帧图像进行帧图像特征编码,将得到的具有时序信息的多个关键帧特征向量进行池化归纳得到固定维度的特征表征向量并通过预先完成训练的支持向量机分类模型得到目标视频所对应的分类识别结果。本发明针对视频可获得优秀的分类识别性能,无需大量基类标签样本训练,可实现小样本条件下的新类别视频分类识别;在用户实际应用部署时无需采集大量标签数据进行模型参数再训练,仅需要采用该领域内较好的图像特征提取器即可快速部署、在线应用,且支持用户自定义新类别支持样本集,具备对于新类别视频的小样本学习以及可持续学习能力。

Description

一种轻量化的小样本视频分类识别方法及系统
技术领域
本发明属于人工智能领域视频分类识别与小样本学习技术,具体涉及一种轻量化的小样本视频分类识别方法及系统。
背景技术
随着高速互联网以及移动智能终端的大规模使用,视频数据已经成为社交网络及大规模情报信息收集的主要形式。对于海量的视频数据,根据内容进行视频分类识别已成为信息自动化处理的重要一环。近年来,随着深度学习及大规模算力的火热发展,基于大量标签数据训练的监督学习取得了显著成就。然而,在经济、军事、医疗等领域,大规模标签数据获取困难,人工标注费时费力,很多情况下甚至没有大量数据。因此,基于少量标签样本的小样本学习以及无需用户再训练的轻量化方法将成为深度学习走向应用的关键技术。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种轻量化的小样本视频分类识别方法及系统,本发明针对视频可获得优秀的分类识别性能,而且本发明基于关键帧图像特征层级池化的方法属于无参数模型,无需大量基类标签样本训练,基于预训练图像特征提取和无参数的层级池化归纳模块即可实现小样本条件下的新类别视频分类识别。在用户实际应用部署时,无需采集大量标签数据进行模型参数再训练,仅需要采用该领域内较好的图像特征提取器即可快速部署、在线应用,且支持用户自定义新类别支持样本集,具备对于新类别视频的小样本学习以及可持续学习能力。
为了解决上述技术问题,本发明采用的技术方案为:
一种轻量化的小样本视频分类识别方法,包括:
1)对输入的目标视频进行帧提取,得到关键帧图像;
2)分别对各幅关键帧图像进行帧图像特征编码,得到对应的关键帧特征向量;
3)将具有时序信息的多个关键帧特征向量进行池化归纳,得到固定维度的特征表征向量;
4)将所述特征表征向量通过预先完成训练的支持向量机分类模型进行分类识别,得到目标视频所对应的分类识别结果。
可选地,步骤1)包括:首先按照时间顺序一次计算输入的目标视频中每一帧图像与上一帧图像之间的帧间差分,计算各个帧间差分的平均帧间差分强度,得到平均帧间差分强度序列;然后将平均帧间差分强度序列进行排序,选择排序靠前的指定数量个平均帧间差分强度所对应的帧图像作为得到的关键帧图像。
可选地,步骤2)中对各幅关键帧图像进行帧图像特征编码具体是指将对各幅关键帧图像分别输入预训练的卷积神经网络,从而得到对应的关键帧特征向量。
可选地,所述卷积神经网络包括依次相连的输入层、降采样层、卷积层、降采样层、全连接层和输出层。
可选地,步骤3)包括:
3.1)针对输入的n个关键帧特征向量构成的向量序列,定义其中l个连续的多个关键帧特征向量构成一个局部窗口,且有l小于n,通过将局部窗口在所述向量序列上以指定的步长s进行滑动,从而形成m个的滑动窗口;
3.2)分别对m个滑动窗口进行局部最大池化操作,共得到m个最大池化层向量;
3.3)将m个最大池化层向量进行全局平均池化操作,得到固定维度的特征表征向量。
可选地,步骤3.2)中进行全局平均池化操作的函数表达式为:
Figure BDA0003559364450000021
上式中,
Figure BDA0003559364450000022
表示m个滑动窗口中第k个滑动窗口对应的最大池化层向量,vi表示n个关键帧特征向量中的第i个关键帧特征向量,s为滑动窗口的步长,l为滑动窗口的大小,1+(k-1)s、l+(k-1)s分别为第k个滑动窗口的第一个和最后一个关键帧特征向量的序号。
可选地,步骤3.3)中进行全局平均池化操作的函数表达式为:
Figure BDA0003559364450000031
上式中,vmean表示固定维度的特征表征向量,
Figure BDA0003559364450000032
表示m个滑动窗口中第i个滑动窗口对应的最大池化层向量,m为滑动窗口的总数量。
可选地,步骤4)之前还包括建立并训练支持向量机分类模型,且训练支持向量机分类模型包括:
S1)确定包含批量视频样本及其对应类别标签的支持样本集Dsupport,所述支持样本集Dsupport包括对应M个未知类别中每一个类别的N个视频样本;
S2)分别对支持样本集Dsupport中每一个视频样本提取固定维度的特征表征向量:对该视频样本进行帧提取,得到关键帧图像,分别对该视频样本的各幅关键帧图像进行帧图像特征编码,得到对应的关键帧特征向量,将多个关键帧特征向量进行池化归纳,得到该视频样本的固定维度的特征表征向量;
S3)根据支持样本集Dsupport中的视频样本及其特征表征向量训练支持向量机分类模型,从而得到完成训练后的支持向量机分类模型。
此外,本发明还提供一种轻量化的小样本视频分类识别系统,包括相互连接的微处理器和存储器,该微处理器被编程或配置以执行所述轻量化的小样本视频分类识别方法的步骤。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序用于被微处理器执行以实施所述轻量化的小样本视频分类识别方法的步骤。
和现有技术相比,本发明主要具有下述优点:
1、本发明包括对输入的目标视频进行帧提取,得到关键帧图像;分别对各幅关键帧图像进行帧图像特征编码,得到对应的关键帧特征向量;将多个关键帧特征向量进行池化归纳,得到固定维度的特征表征向量;将所述特征表征向量通过预先完成训练的支持向量机分类模型进行分类识别,得到目标视频所对应的分类识别结果,本发明专门针对视频数据,以单个视频样本作为输入,通过关键帧抽取以及层级池化归纳进行视频样本特征编码,进而开展小样本分类,具有很强的实用性,能够获得优秀的分类识别性能。
2、本发明包括将具有时序信息的多个关键帧特征向量进行池化归纳,得到固定维度的特征表征向量,池化归纳以具有时序信息的视频帧序列特征为输入,通过层级池化形成该视频样本的特征表征向量,相当于视频特征编码器作用,可实现无参数的视频特征表征。
3、本发明所提的轻量化小样本视频识别方法为基于关键帧图像特征层级池化的方法,其中的关键帧抽取、层级池化归纳以及SVM分类器都属于无参数模型。与常规包含大量待训练参数、需要在大量基类标签样本上训练该参数的小样本学习方法不同,本发明方法中的关键帧抽取、层级池化归纳以及SVM分类器在应用过程中无需大量基类训练集进行参数训练,可仅在少量标签样本支持下,对于新类别视频进行实时在线分类,分类性能和实时性较好,且具有一定的泛化能力和可持续学习能力。在用户实际应用部署时,无需采集大量标签数据进行模型参数再训练,仅需要采用该领域内较好的图像特征提取器即可快速部署、在线应用,且支持用户自定义新类别支持样本集,具备对于新类别的目标视频的小样本学习以及可持续学习能力。
附图说明
图1为本发明实施例方法的基本流程示意图。
图2为本发明实施例中卷积神经网络的结构示意图。
图3为本发明实施例中层级池化归纳模块的结构示意图。
图4为本发明实施例方法和现有方法的测试结果对比示意图。
具体实施方式
如图1所示,本实施例轻量化的小样本视频分类识别方法包括:
1)对输入的目标视频xq进行帧提取,得到关键帧图像;
2)分别对各幅关键帧图像进行帧图像特征编码,得到对应的关键帧特征向量;
3)将具有时序信息的多个关键帧特征向量进行池化归纳,得到固定维度的特征表征向量;
4)将所述特征表征向量通过预先完成训练的支持向量机(Support VectorMachine,SVM)分类模型ΩSVM进行分类识别(SVM分类),得到目标视频xq所对应的分类识别结果yq
关键帧图像是指视频帧中用于表征视频内容显著性信息的关键帧图像。本实施例中步骤1)包括:首先按照时间顺序一次计算输入的目标视频中每一帧图像与上一帧图像之间的帧间差分,计算各个帧间差分的平均帧间差分强度,得到平均帧间差分强度序列;然后将平均帧间差分强度序列进行排序,选择排序靠前的指定数量个平均帧间差分强度所对应的帧图像作为得到的关键帧图像,通过上述方式筛选仅保留平均帧间差分强度较大的帧图像,通过平均帧间差分强度较大的帧图像,可有效表征视频内容显著性信息,减少视频处理的计算量,可有效提高对视频的处理效率。
对各幅关键帧图像进行帧图像特征编码可根据需要采用所需的编码方式,鉴于卷积神经网络在当前计算机视觉领域的成功应用,本实施例采用在大规模数据集上预训练的卷积神经网络ΦCNN进行关键帧图像特征编码。具体地,本实施例步骤2)中对各幅关键帧图像进行帧图像特征编码具体是指将对各幅关键帧图像分别输入预训练的卷积神经网络(Convolutional Neural Network,CNN)ΦCNN,从而得到对应的关键帧特征向量。卷积神经网络可根据需要采用ImageNet、Pascal VOC、COCO等大规模开源数据集上预训练的Alexnet、VGGNet、ResNet等深度卷积网络。作为一种可选的实施方式,如图2所示,本实施例中采用的卷积神经网络包括依次相连的输入层、降采样层、卷积层、降采样层、全连接层和输出层,通过上述结构,通过局部卷积、降采样池化、全连接等操作对图像数据进行特征抽取,形成高维的向量表征,具有较好的图像特征表征能力。
本实施例步骤3)中将多个关键帧特征向量进行池化归纳是指采用层级池化归纳模块进行关键帧特征序列化以得到固定维度的特征表征向量,采用图3所示的层级池化归纳模型
Figure BDA0003559364450000051
进行关键帧特征序列化。具体地,如图3所示,本实施例中的步骤3)包括:
3.1)针对输入的n个关键帧特征向量构成的向量序列,定义其中l个连续的多个关键帧特征向量构成一个局部窗口,且有l小于n,通过将局部窗口在所述向量序列上以指定的步长s进行滑动,从而形成m个的滑动窗口;
输入的n个关键帧特征向量构成的向量序列可表示为:
v1,v2,…,vn,
其中,n为关键帧数量。
定义其中l个连续的多个关键帧特征向量构成一个局部窗口,可表示为:
vk:k+l-1=(vk,vk+1,…,vk+l-1)
连续向量的个数l为窗口尺寸,局部窗口在向量序列上以一定的步长s进行滑动,构成一系列滑动窗口v1:l,v1+s:l+s,v1+2s:l+2s,…,vn-l+1:n
3.2)分别对m个滑动窗口进行局部最大池化操作,共得到m个最大池化层向量;
如图3所示,通过在一系列滑动窗口上进行最大池化操作,长度为n的关键帧序列向量被转化为m个最大池化层向量v1 max,v2 max,…,vm max,其中m满足:
Figure BDA0003559364450000061
上式中,n为向量序列中关键帧特征向量的数量,s为滑动窗口的步长,l为滑动窗口的大小,
Figure BDA0003559364450000062
表示取整。
本实施例中,步骤3.2)中进行全局平均池化操作的函数表达式为:
Figure BDA0003559364450000063
上式中,
Figure BDA0003559364450000064
表示m个滑动窗口中第k个滑动窗口对应的最大池化层向量,vi表示n个关键帧特征向量中的第i个关键帧特征向量,s为滑动窗口的步长,l为滑动窗口的大小,1+(k-1)s、l+(k-1)s分别为第k个滑动窗口的第一个和最后一个关键帧特征向量的序号。
3.3)将m个最大池化层向量进行全局平均池化操作,得到固定维度的特征表征向量。
经过局部最大池化,关键帧序列向量被转化为中间层向量v1 max,v2 max,…,vm max,这些向量中包含着局部特征信息,全局池化是在中间层向量上进行全局平均池化操作,如图3所示,经过全局平均池化操作,中间层向量被归纳为最终的表征向量vmean,即:目标视频的固定维度的特征表征向量。本实施例中,步骤3.3)中进行全局平均池化操作的函数表达式为:
Figure BDA0003559364450000071
上式中,vmean表示固定维度的特征表征向量,vi max表示m个滑动窗口中第i个滑动窗口对应的最大池化层向量,m为滑动窗口的总数量。
通过关键帧序列特征编码和池化归纳,每一条视频样本数据被编码为固定维度的特征表征向量。最终,通过步骤4)将特征表征向量通过预先完成训练的支持向量机分类模型(Support Vector Machine,SVM)ΩSVM进行分类识别,即可得到目标视频所对应的分类识别结果。
本实施例中通过构建支持向量机分类模型ΩSVM,基于少量支持样本的特征向量进行支持向量机分类模型的模型参数即可完成训练,随后即可用于对待测试样本进行在线分类识别。本实施例中,小样本视频分类识别采用当前小样本学习领域常用的M-way N-shotQ-query实验方案:即针对待识别的M个未知类别(M-way),首先从每个类别中选取N个视频样本(N-shot),构成支持样本集Dsupport,可表示为:
Figure BDA0003559364450000072
其中,
Figure BDA0003559364450000073
为第i个视频样本,
Figure BDA0003559364450000074
为第i个视频样本
Figure BDA0003559364450000075
的类别标签};随后在这些类别中选取其余(例如每类Q个,即Q-query)待识别样本进行分类识别。具体地,步骤4)之前还包括建立并训练支持向量机分类模型,且训练支持向量机分类模型包括:
S1)确定包含批量视频样本及其对应类别标签的支持样本集Dsupport,所述支持样本集Dsupport包括对应M个未知类别中每一个类别的N个视频样本;
S2)分别对支持样本集Dsupport中每一个视频样本提取固定维度的特征表征向量:对该视频样本进行帧提取,得到关键帧图像,分别对该视频样本的各幅关键帧图像进行帧图像特征编码,得到对应的关键帧特征向量,将多个关键帧特征向量进行池化归纳,得到该视频样本的固定维度的特征表征向量;
与前文对目标视频xq的特征提取方法完全相同,对支持样本集Dsupport中的每个视频样本
Figure BDA0003559364450000081
以及待测试样本xq,采用帧间差分方法提取每个视频样本的关键帧,分别记作xi,1 s,xi,2 s,…,xi,n s和x1 q,x2 q,…,xn q,其中,n为每个视频提取的关键帧数量;对于每一张关键帧图像,采用预训练的卷积神经网络模型提取图像特征,即vi,1 s,vi,2 s,…,vi,n s和v1 q,v2 q,…,vn q,其中,v=ΦCNN(x)为任一图像x使用卷积神经网络ΦCNN提取的高维特征向量;对于每个视频样本的关键帧图像特征向量序列,采用层级池化归纳模型计算该序列样本的池化归纳向量,即
Figure BDA0003559364450000082
和vq,其中,
Figure BDA0003559364450000083
分别为采用滑动窗口尺寸为l,步长为s的层级池化模型
Figure BDA0003559364450000084
对关键帧图像序列(vi,1 s,vi,2 s,…,vi,n s)和(v1 q,v2 q,…,vn q)进行池化归纳后的视频样本表征向量。
S3)根据支持样本集Dsupport中的视频样本及其特征表征向量训练支持向量机分类模型ΩSVM,从而得到完成训练后的支持向量机分类模型。
构造支持向量机分类模型ΩSVM后,基于支持集视频样本表征向量及其标签对
Figure BDA0003559364450000085
训练该支持向量机模型参数θSVM,从而得到完成训练后的支持向量机分类模型ΩSVM。最终,采用训练好的支持向量机模型ΩSVM即可对目标视频xq进行分类识别得到目标视频xq所对应的分类识别结果yq,可表示为yq=ΩSVM(vq;θSVM)。
为了验证本实施例轻量化的小样本视频分类识别方法的有效性,本算例选取当前视频分类识别领域开源数据集HMDB51和UCF-101开展大规模对比实验。其中,实验数据集的类别数、样本数以及分辨率等统计信息如表1所示。
表1:小样本视频分类识别数据集。
数据集 样本数 类别数 分辨率
HMDB51 6849 51 320*240
UCF-101 13320 101 320*240
在小样本视频分类识别算例中,分别采用5-way 1-shot以及5-way 5-shot的实验设置开展性能测试。其中,在视频关键帧提取过程中选取了平均帧间差分强度最高的30帧作为该样本关键帧图像;对于关键帧图像特征编码,使用在ImageNet数据集上预训练的Alexnet卷积神经网络进行图像特征提取,使用该预训练网络第7层全连接层输出的4096维向量作为关键帧图像特征向量。作为对照实验,本算例选取了其余几种常见的池化归纳模型作为对比,包括常用的求和池化,平均池化,最大池化,以及原始的层级池化方法。为了确保实验结果准确性,采用大量随机实验统计结果,即每次实验随机选取3000组批数据(每组批数据包含5-way 1-shot 15-query或5-way 5-shot 15-query个样本),最终实验结果在3000组随机批数据上统计得出,包括平均识别准确率及其95%置信区间。实验统计结果如表2以及图4所示。
表2:多种池化方法下小样本视频分类识别准确率及其95%置信区间(%)。
Figure BDA0003559364450000091
从表2和图4可以看出,本实施例所提轻量化的小样本视频分类方法在所有对比方法(包括在HMDB51和UCF-101数据集上的5-way 1-shot和5-way 5-shot小样本分类识别实验)中取得了最佳性能。本实施例所提轻量化的小样本视频分类方法能够在少量标签样本条件下实现新类别视频在线分类识别,且分类识别准确率高于当前几种典型算法,具备较好的计算实时性和泛化能力。
总而言之,本实施例方法的轻量化是指本方法可在待应用领域内实现即插即用,无需用户在特定领域内采集大量标签数据进行模型再训练,可直接进行视频分类预测;小样本是指针对用户待识别的视频内容类别,仅需提供少量标签样本即可进行新类别视频在线分类识别,支持新类别样本在线学习和可持续学习。特别地,本实施例所提的轻量化小样本视频识别方法为基于关键帧图像特征层级池化的方法,属于无参数模型。与常规包含大量待训练参数、需要在大量基类标签样本上训练该参数的小样本学习方法不同,本实施例方法无需大量基类标签样本训练,基于预训练图像特征提取和无参数的层级池化归纳模块即可实现小样本条件下的新类别视频分类识别。在用户实际应用部署时,无需采集大量标签数据进行模型参数再训练,仅需要采用该领域内较好的图像特征提取器即可快速部署、在线应用,且支持用户自定义新类别支持样本集,具备对于新类别视频的小样本学习以及可持续学习能力。
此外,本实施例还提供一种轻量化的小样本视频分类识别系统,包括相互连接的微处理器和存储器,该微处理器被编程或配置以执行前述轻量化的小样本视频分类识别方法的步骤。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序用于被微处理器执行以实施前述轻量化的小样本视频分类识别方法的步骤.
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种轻量化的小样本视频分类识别方法,其特征在于,包括:
1)对输入的目标视频进行帧提取,得到关键帧图像;
2)分别对各幅关键帧图像进行帧图像特征编码,得到对应的关键帧特征向量;
3)将具有时序信息的多个关键帧特征向量进行池化归纳,得到固定维度的特征表征向量;
4)将所述特征表征向量通过预先完成训练的支持向量机分类模型进行分类识别,得到目标视频所对应的分类识别结果。
2.根据权利要求1所述的轻量化的小样本视频分类识别方法,其特征在于,步骤1)包括:首先按照时间顺序一次计算输入的目标视频中每一帧图像与上一帧图像之间的帧间差分,计算各个帧间差分的平均帧间差分强度,得到平均帧间差分强度序列;然后将平均帧间差分强度序列进行排序,选择排序靠前的指定数量个平均帧间差分强度所对应的帧图像作为得到的关键帧图像。
3.根据权利要求1所述的轻量化的小样本视频分类识别方法,其特征在于,步骤2)中对各幅关键帧图像进行帧图像特征编码具体是指将对各幅关键帧图像分别输入预训练的卷积神经网络,从而得到对应的关键帧特征向量。
4.根据权利要求3所述的轻量化的小样本视频分类识别方法,其特征在于,所述卷积神经网络包括依次相连的输入层、降采样层、卷积层、降采样层、全连接层和输出层。
5.根据权利要求1所述的轻量化的小样本视频分类识别方法,其特征在于,步骤3)包括:
3.1)针对输入的n个关键帧特征向量构成的向量序列,定义其中l个连续的多个关键帧特征向量构成一个局部窗口,且有l小于n,通过将局部窗口在所述向量序列上以指定的步长s进行滑动,从而形成m个的滑动窗口;
3.2)分别对m个滑动窗口进行局部最大池化操作,共得到m个最大池化层向量;
3.3)将m个最大池化层向量进行全局平均池化操作,得到固定维度的特征表征向量。
6.根据权利要求5所述的轻量化的小样本视频分类识别方法,其特征在于,步骤3.2)中进行全局平均池化操作的函数表达式为:
Figure FDA0003559364440000021
上式中,vk max表示m个滑动窗口中第k个滑动窗口对应的最大池化层向量,vi表示n个关键帧特征向量中的第i个关键帧特征向量,s为滑动窗口的步长,l为滑动窗口的大小,1+(k-1)s、l+(k-1)s分别为第k个滑动窗口的第一个和最后一个关键帧特征向量的序号。
7.根据权利要求5所述的轻量化的小样本视频分类识别方法,其特征在于,步骤3.3)中进行全局平均池化操作的函数表达式为:
Figure FDA0003559364440000022
上式中,vmean表示固定维度的特征表征向量,vi max表示m个滑动窗口中第i个滑动窗口对应的最大池化层向量,m为滑动窗口的总数量。
8.根据权利要求1所述的轻量化的小样本视频分类识别方法,其特征在于,步骤4)之前还包括建立并训练支持向量机分类模型,且训练支持向量机分类模型包括:
S1)确定包含批量视频样本及其对应类别标签的支持样本集Dsupport,所述支持样本集Dsupport包括对应M个未知类别中每一个类别的N个视频样本;
S2)分别对支持样本集Dsupport中每一个视频样本提取固定维度的特征表征向量:对该视频样本进行帧提取,得到关键帧图像,分别对该视频样本的各幅关键帧图像进行帧图像特征编码,得到对应的关键帧特征向量,将多个关键帧特征向量进行池化归纳,得到该视频样本的固定维度的特征表征向量;
S3)根据支持样本集Dsupport中的视频样本及其特征表征向量训练支持向量机分类模型,从而得到完成训练后的支持向量机分类模型。
9.一种轻量化的小样本视频分类识别系统,包括相互连接的微处理器和存储器,其特征在于,该微处理器被编程或配置以执行权利要求1~8中任意一项所述轻量化的小样本视频分类识别方法的步骤。
10.一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其特征在于,该计算机程序用于被微处理器执行以实施权利要求1~8中任意一项所述轻量化的小样本视频分类识别方法的步骤。
CN202210284085.5A 2022-03-22 2022-03-22 一种轻量化的小样本视频分类识别方法及系统 Pending CN114743133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210284085.5A CN114743133A (zh) 2022-03-22 2022-03-22 一种轻量化的小样本视频分类识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210284085.5A CN114743133A (zh) 2022-03-22 2022-03-22 一种轻量化的小样本视频分类识别方法及系统

Publications (1)

Publication Number Publication Date
CN114743133A true CN114743133A (zh) 2022-07-12

Family

ID=82276192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210284085.5A Pending CN114743133A (zh) 2022-03-22 2022-03-22 一种轻量化的小样本视频分类识别方法及系统

Country Status (1)

Country Link
CN (1) CN114743133A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035462A (zh) * 2022-08-09 2022-09-09 阿里巴巴(中国)有限公司 视频识别方法、装置、设备和存储介质
CN117746344A (zh) * 2024-02-21 2024-03-22 厦门农芯数字科技有限公司 一种猪场监控视频的事件分析方法、装置以及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035462A (zh) * 2022-08-09 2022-09-09 阿里巴巴(中国)有限公司 视频识别方法、装置、设备和存储介质
CN115035462B (zh) * 2022-08-09 2023-01-24 阿里巴巴(中国)有限公司 视频识别方法、装置、设备和存储介质
CN117746344A (zh) * 2024-02-21 2024-03-22 厦门农芯数字科技有限公司 一种猪场监控视频的事件分析方法、装置以及设备
CN117746344B (zh) * 2024-02-21 2024-05-14 厦门农芯数字科技有限公司 一种猪场监控视频的事件分析方法、装置以及设备

Similar Documents

Publication Publication Date Title
US10719780B2 (en) Efficient machine learning method
CN109543502B (zh) 一种基于深度多尺度神经网络的语义分割方法
He et al. Temporal convolutional networks for anomaly detection in time series
Suganuma et al. Attention-based adaptive selection of operations for image restoration in the presence of unknown combined distortions
CN108898620B (zh) 基于多重孪生神经网络与区域神经网络的目标跟踪方法
CN110188227B (zh) 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN109671102B (zh) 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法
CN111506773B (zh) 一种基于无监督深度孪生网络的视频去重方法
CN107590432A (zh) 一种基于循环三维卷积神经网络的手势识别方法
CN114743133A (zh) 一种轻量化的小样本视频分类识别方法及系统
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN109740679A (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
CN111488917A (zh) 一种基于增量学习的垃圾图像细粒度分类方法
CN109711411B (zh) 一种基于胶囊神经元的图像分割识别方法
CN116152554A (zh) 基于知识引导的小样本图像识别系统
CN110796260B (zh) 一种基于类扩张学习的神经网络模型优化方法
CN113673482A (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及系统
CN112580555A (zh) 一种自发微表情识别方法
CN115909011A (zh) 基于改进的SE-Inception-v3网络模型的天文图像自动分类方法
Khayyat et al. A deep learning based prediction of arabic manuscripts handwriting style.
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN114882278A (zh) 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置
CN114492581A (zh) 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination