CN112001345B - 基于特征变换度量网络的少样本人体行为识别方法及系统 - Google Patents
基于特征变换度量网络的少样本人体行为识别方法及系统 Download PDFInfo
- Publication number
- CN112001345B CN112001345B CN202010893758.8A CN202010893758A CN112001345B CN 112001345 B CN112001345 B CN 112001345B CN 202010893758 A CN202010893758 A CN 202010893758A CN 112001345 B CN112001345 B CN 112001345B
- Authority
- CN
- China
- Prior art keywords
- feature
- transformation
- feature map
- video
- spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009466 transformation Effects 0.000 title claims abstract description 180
- 238000005259 measurement Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000010586 diagram Methods 0.000 claims abstract description 43
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 230000006399 behavior Effects 0.000 claims description 81
- 230000006870 function Effects 0.000 claims description 50
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 17
- 238000013508 migration Methods 0.000 claims description 17
- 230000005012 migration Effects 0.000 claims description 17
- 230000008602 contraction Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明涉及一种基于特征变换度量网络的少样本人体行为识别方法及系统,包括:对多个原始视频进行特征图提取,得到各原始视频的空间特征图;并划分成支持特征图和查询特征图;根据支持特征图和查询特征图,得到变换支持特征图和变换查询特征图;进而得到特征度量距离;根据特征度量距离及查询视频的行为类别,建立识别模型;根据识别模型及待识别视频,确定待识别视频对应的行为类别。本发明基于特征变换网络,通过将特征转移到行为类别中心的偏移位置,能够减小特征类内距离及增大特征类间差异,极大地减小分类难度;并进一步基于特征度量网络,可提高特征度量的精确度,从而可提高少样本人体行为识别精度。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于特征变换度量网络的少样本人体行为识别(Few-shot Human Action Recognition)方法及系统。
背景技术
人体行为识别是计算机视觉的一个重要研究领域,人的行为可以定义为人的身体所主张的任何具体行为。人体行为识别被广泛地应用于计算机视觉的诸多领域当中,如智能视频监控、病人监护系统、人机交互、虚拟现实、智能家居、智能安防、运动员辅助训练等。
少样本学习下人体行为识别的目标是,在每个行为新类别只有少量或者没有训练数据的条件下,自动地分析视频或者是图像序列中人正在进行的行为。
在少样本学习中,当每个新类别只有一个或很少几个训练样本可用时,这对深度学习中的参数微调提出了巨大挑战。在这样一个有限的数据环境中,数据增强和正则化技术可以缓解过度拟合,但它们并不能解决这个问题。因此,现在的许多少样本学习的方法将训练过程分解为辅助的元学习阶段。在这个阶段中,模型学习到良好的参数初始化、特征嵌入模式以及优化策略等这些迁移知识。然后,在新的少样本的分类任务上,能够通过参数微调的方式快速地从少量的样本中学习到各个类别的特征模式。或者通过计算每个样本的特征表示,然后通过距离度量的方式,按距离最近的方式来分类新样本。
具体地,少样本学习大致可以分为元学习、度量学习和基于记忆模型的三种方法。1)元学习方法主要是学习一个优化方法,可以让预训练的模型可以迅速在只有少量训练数据的数据库上得到有效训练,然后对新的没有见过的类别进行分类的方法。2)基于记忆模型的方法通常使用循环递归神经网络遍历输入的新样本,使用积累的知识来对新的输入样本进行分类。3)基于度量学习的方法,先在训练库学习一个特征嵌入模型,然后直接在测试数据库上计算输入样本在嵌入空间的特征向量表示,最后度量这些样本与少量标签数据之间的特征距离,最近邻特征的标签作为分类结果。
基于度量学习的方法的最大问题在于不同行为类别的视觉特征在特征空间可能非常接近,以至于很难去区分,这是因为样本过少容易引发过拟合问题,神经网络模型很难学到每个行为类别充分的特征表示。通过在特征空间可视化行为特征的分布情况会发现,这些不同行为类别的视觉特征在特征空间的特征点,呈现出类内距离大、类间距离小的情况,这会对后续的特征分类带来极大的挑战。
发明内容
为了解决现有技术中的上述问题,即为了解决样本过少所引发的深度神经网络过拟合的技术问题,提高少样本人体行为识别效率,本发明提供一种基于特征变换度量网络的少样本人体行为识别方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种基于特征变换度量网络的少样本人体行为识别方法,所述识别方法包括:
对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
将各所述空间特征图划分成支持特征图和查询特征图;
基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
可选地,所述对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,具体包括:
针对任一原始视频,将所述原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T;
其中,θ是嵌入函数,表示特征嵌入空间。
可选地,所述基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图,具体包括:
根据以下公式,计算所述支持特征图里各空间位置的局部特征中心:
其中,随机划分特征嵌入空间θ里的支持特征图fθ,s={xs}和查询特征图fθ,q={xq},其中{x}是空间特征图fθ里所有空间位置的局部特征集合,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量,xs,k,i为第k类第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,为第k类空间特征图fθ里第i个空间位置的局部特征中心;
根据所述特征变换网络及残差Δs,k,i,得到非线性残差输出δs,k,i:
其中,Φ(.)为特征变换函数;
根据以下公式,分别计算变换支持特征图和变换查询特征图:
其中,ak,i为局部特征中心的特征迁移变换得分,w和b分别为可学习的参数,xs,i为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换支持特征图,xq,i为第q个查询视频的空间特征图fθ里第i个空间位置的局部特征,为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图。
可选地,所述基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离,具体包括:
根据以下公式,计算所述变换支持特征图的局部支持特征中心:
其中,S表示支持视频的个数,表示变换支持特征图的局部支持特征中心,表示第k类第s个支持视频的空间特征图fθ里第i个空间位置的变换局部特征,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量;
根据以下公式,计算所述变换查询特征图与局部支持特征中心的欧氏距离de:
根据以下公式,计算所述局部查询特征与局部支持特征中心的余弦相似度dc:
根据以下公式,计算所述余弦相似度加权后的欧氏距离λq,k,i:
其中,λ∈[0,∞]表示欧氏距离的加权系数;
根据以下公式,计算得到加权后的欧氏距离dq,k,i:
根据以下公式,计算所述加权距离输入到特征度量网络后的距离度量dq,k:
其中,D为非线性函数来,WH空间位置的个数。
可选地,非线性函数D为由两个包含64个3×3卷积核的卷积模块、批正则化层和一个两层的全连接层组成;全连接层使用线性整流激活函数且不使用批正则化,第一个全连接层的输出为1024维,第二个全连接层输出为1维。
可选地,所述根据所述特征度量距离,及查询视频的行为类别,建立识别模型,具体包括:
其中,y为行为类别,k′为遍历所有行为类别的序号,dq,k′为加权距离输入到特征度量网络后的距离度量,min(.)为取最小值函数,arg(.)为取自变量函数。
可选地,所述识别方法还包括:更新所述特征变换网络。
可选地,所述更新所述特征变换网络,具体包括:
根据以下公式,计算查询视频在正确类别上的概率pθ,Φ,D:
其中,D为非线性函数,Φ(.)为特征变换函数,θ为特征嵌入空间,K为正确类别,Zq为查询视频,y为行为类别,k′为遍历所有行为类别的序号,C为总的类别数;
根据以下公式,计算每个特征点向各个局部特征支持中心的迁移得分:
其中,WH空间位置的个数,Zs为支持视频,i为空间位置序号;
根据以下公式,计算正确类别K所对应的负对数预测概率,得到分类损失Jc:
Jc(θ,Φ,D)=-logpθ,Φ,D(y=K|Zq);
通过同时对分类损失Jc和特征变换损失Ja进行最小化,来学习嵌入函数θ、特征变换函数Φ和特征度量函数D的参数,以更新所述特征变换网络。
为解决上述技术问题,本发明还提供了如下方案:
一种基于特征变换度量网络的少样本人体行为识别系统,所述识别系统包括:
提取单元,用于对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
划分单元,用于将各所述空间特征图划分成支持特征图和查询特征图;
变换单元,用于基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
计算单元,用于基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
建立单元,用于根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
识别单元,用于根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
可选地,所述提取单元包括:
均分模块,用于针对任一原始视频,将所述原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T;
其中,其中,θ是嵌入函数,表示特征嵌入空间。
根据本发明的实施例,本发明公开了以下技术效果:
本发明通过对多个原始视频进行特征图提取,得到空间特征图;基于特征变换网络,通过将特征转移到行为类别中心的偏移位置,能够减小特征类内距离及增大特征类间差异,极大地减小分类难度;并进一步基于特征度量网络,可提高特征度量的精确度,从而可提高少样本人体行为识别精度。
附图说明
图1是本发明基于特征变换度量网络的少样本人体行为识别方法的流程图;
图2是本发明的特征变换网络效果示意图;
图3是本发明的两种特征度量方式分析图;
图4是本发明基于特征变换度量网络的少样本人体行为识别系统的模块结构示意图。
符号说明:
提取单元—1,划分单元—2,变换单元—3,计算单元—4,建立单元-5,识别单元—6。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的提供一种基于特征变换度量网络的少样本人体行为识别方法,通过对多个原始视频进行特征图提取,得到空间特征图;基于特征变换网络,通过将特征转移到行为类别中心的偏移位置,能够减小特征类内距离及增大特征类间差异,极大地减小分类难度;并进一步基于特征度量网络,可提高特征度量的精确度,从而可提高少样本人体行为识别精度。
其中,特征变换网络层,其在网络参数学习的训练阶段,学习每个特征与其正确行为类别特征中心之间的非线性残差,在少样本人体行为分类的测试阶段,将网络预测的非线性残差与原特征相加,使其移动到正确行为类别特征中心的偏移位置。
特征度量网络层,使用余弦相似度加权欧氏距离,并将加权结果输入到卷积网络中,用于学习特征距离度量参数。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于特征变换度量网络的少样本人体行为识别方法,包括:
步骤100:对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
步骤200:将各所述空间特征图划分成支持特征图和查询特征图;
步骤300:基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
步骤400:基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
步骤500:根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
步骤600:根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
其中,在步骤100中,所述对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,具体包括:
步骤101:针对任一原始视频,将所述原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T。
例如输入一个时间长度为L帧的视频Z,将其均匀地分为T段,每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t)。
其中,θ是嵌入函数,表示特征嵌入空间。
本发明使用四个卷积神经网络模块实现。具体地,每个卷积模块包含64个3×3的卷积滤波器、批正则化层和线性整流激活函数。本发明仅仅在嵌入函数前面两个卷积模块使用2×2的最大池化函数。
在步骤200中,随机划分特征嵌入空间θ的空间特征图fθ为支持特征图何查询特征图,其中支持特征图fθ,s={xs}和查询特征图fθ,q={xq},其中{x}是特征图fθ里所有空间位置的局部特征集合。
在步骤300中,所述基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图,具体包括:
步骤301:根据以下公式,计算所述支持特征图里各空间位置的局部特征中心:
其中,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量,xs,k,i为第k类第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,为第k类空间特征图fθ里第i个空间位置的局部特征中心。
步骤303:根据所述特征变换网络及残差Δs,k,i,得到非线性残差输出δs,k,i:
其中,Φ(.)为特征变换函数;特征变换函数由4个卷积模块组成,每一个卷积模块由64个3×3的卷积滤波器和批正则化层组成。
步骤304:根据以下公式,分别计算变换支持特征图和变换查询特征图:
其中,ak,i为局部特征中心的特征迁移变换得分,w和b分别为可学习的参数,xs,i为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换支持特征图,xq,i为第q个查询视频的空间特征图fθ里第i个空间位置的局部特征,为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图。
其中,w和b都是可学习的参数。因此,收缩变换后的支持特征通过以下方式重建:
最后,这些收缩的特征通过一个线性整流激活函数。在理想的情况下,本发明可以学到以下的一个特征收缩变换:
其中k表示xs,i的正确类别。只有其对应的正确特征中心的得分被设置为1,其余的都为0。而I(·)是一个关于残差的线性函数。可以保持待迁移的类别中心位置不变。但是实际上,如果让Φ为一个线性的I(·),将很难为每个正确的类别中心学到一个最高的得分a,因为这些类别中心本身可能在特征空间的位置就很难区分。因此,本发明使用非线性的Φ来实现类别中心偏移从而改变类间距离。
本发明的特征变换模型在理论上可以被解释成对局部特征描述符的一个非线性扩展应用,在这里将会进行详细地解释。一般地,给定N个维度为M的局部特征表示作为输入和C个聚类中心这C个聚类中心可以看做是视觉单词。局部特征描述符的核心思想是,对每个聚类中心ci,寻找离其最近的所有fk的集合,然后计算集合中每个fk与聚类中心ci的残差,并对这些残差计算加权和,作为这些局部特征在该聚类中心ci的表示vi。最后,将对所有聚类中心计算得到的vi串联起来,作为对这些局部特征的全局编码表示。在神经网络中,很难对每个特征硬性地选择离某个聚类中心最近,因此这里使用了另一种表示,使用一个得分来表示fk离各个聚类中心的距离。即实现离其最近的聚类中心得分趋近于1,而离其最远的聚类中心则得分趋近于0。若使用局部特征描述符对这些局部特征进行编码,本发明可以得到一个特征表示V={vi}∈RC×M,其中vi可以通过以下方式计算:
那么特征变换后的特征如下所示(这里以支持特征为例):
这种相似性的直观解释如图2所示,图2中(a)部分为特征变换表示,图2中(b)部分为局部特征描述符表示。通过这个表示,本发明找到离输入查询特征最近的支持中心,计算残差,然后将原始特征加上残差转移到最近的类别中心。但是,最近的支持中心可能不是对应的正确类别。因此,本发明将在后续的训练损失函数中约束每个支持特征的得分,并使用支持特征中心的标签对其进行约束,强制迁移到正确的类别中心。
原始的局部特征描述符是一个线性模型,不同的类可能在特征空间中的表示非常接近,而仅通过线性变化来学习通用的变换函数,使特征迁移到相应类别的支持中心是比较困难的。
本发明变换网络使用的非线性变换函数Φ可以被视为一个非线性局部特征描述符的表示,可以实现对分布较近的类别中心的位置先进行偏移,然后再将同类特征进行收缩的作用。
在步骤400中,所述基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离,具体包括:
步骤401:根据以下公式,计算所述变换支持特征图的局部支持特征中心:
其中,S表示支持视频的个数,表示变换支持特征图的局部支持特征中心,表示第k类第s个支持视频的空间特征图fθ里第i个空间位置的变换局部特征,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量。
步骤402:根据以下公式,计算所述变换查询特征图与局部支持特征中心的欧氏距离de:
步骤403:根据以下公式,计算所述局部查询特征与局部支持特征中心的余弦相似度dc:
步骤404:根据以下公式,计算所述余弦相似度加权后的欧氏距离λq,k,i:
其中,λ∈[0,∞]表示欧氏距离的加权系数。
通过这种距离度量方式,在最小化d的时候可以让欧氏距离和角度同时优化为0,从而克服单独使用余弦相似度或者欧氏距离的限制,如图3所示,(a)在一方面,当两个特征向量与目标特征向量具有相同的余弦相似度时,它们与目标特征向量值间的欧氏距离并不唯一,而且有可能出现角度相同,欧氏距离很大的情况。(b)在另一方面,当两个特征点与目标特征点的欧式距离相同时,它们与目标特征点间的角度也并不唯一。这两种情况均可能造成错误分类。
步骤405:根据以下公式,计算得到加权后的欧氏距离dq,k,i:
步骤406:根据以下公式,计算所述加权距离输入到特征度量网络后的距离度量dq,k:
其中,D为非线性函数来,WH空间位置的个数。
在本实施例中,非线性函数D为由两个包含64个3×3卷积核的卷积模块、批正则化层和一个两层的全连接层组成;全连接层使用线性整流激活函数且不使用批正则化,第一个全连接层的输出为1024维,第二个全连接层输出为1维。
优选地,在步骤500中,所述根据所述特征度量距离,及查询视频的行为类别,建立识别模型,具体包括:
其中,y为行为类别,k′为遍历所有行为类别的序号,dq,k′为加权距离输入到特征度量网络后的距离度量,min(.)为取最小值函数,arg(.)为取自变量函数。
进一步地,本发明基于特征变换度量网络的少样本人体行为识别方法还包括:步骤700:更新所述特征变换网络。
具体地,所述更新所述特征变换网络,包括:
步骤701:根据以下公式,计算查询视频在正确类别上的概率pθ,Φ,D:
其中,D为非线性函数,Φ(.)为特征变换函数,θ为特征嵌入空间,K为正确类别,Zq为查询视频,y为行为类别,k′为遍历所有行为类别的序号,C为总的类别数。
在本实施例中,设计所述查询视频的分类损失函数。该损失函数的作用是,计算查询视频在其正确类别上的概率,然后通过最大化其对应的正确类别的概率,学习网络参数。本发明使用负距离的Softmax归一化输出,生成了一个针对于查询视频跨越各个类别的分布。
步骤702:根据以下公式,计算每个特征点向各个局部特征支持中心的迁移得分:
其中,WH空间位置的个数,Zs为支持视频,i为空间位置序号。
步骤703:根据以下公式,计算正确类别K所对应的负对数预测概率,得到分类损失Jc:
Jc(θ,Φ,D)=-logpθ,Φ,D(y=K|Zq)。
步骤705:通过同时对分类损失Jc和特征变换损失Ja进行最小化,来学习嵌入函数θ、特征变换函数Φ和特征度量函数D的参数,以更新所述特征变换网络。
此外,本发明还提供一种基于特征变换度量网络的少样本人体行为识别系统,可解决样本过少所引发的深度神经网络过拟合的技术问题,提高少样本人体行为识别效率。
如图4所示,本发明基于特征变换度量网络的少样本人体行为识别系统包括提取单元1、划分单元2、变换单元3、计算单元4、建立单元5及识别单元6。
其中,所述提取单元1用于对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示。
所述划分单元2用于将各所述空间特征图划分成支持特征图和查询特征图。
所述变换单元3用于基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图。
所述计算单元4用于基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离。
所述建立单元5用于根据所述特征度量距离,及查询视频的行为类别,建立识别模型。
所述识别单元6用于根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
进一步地,所述提取单元1包括均分模块、第一计算模块及第二计算模块。
其中,所述均分模块用于针对任一原始视频,将所述原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T;
其中,其中,θ是嵌入函数,表示特征嵌入空间。
此外,本发明还提供了一种基于特征变换度量网络的少样本人体行为识别系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
将各所述空间特征图划分成支持特征图和查询特征图;
基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
将各所述空间特征图划分成支持特征图和查询特征图;
基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
相对于现有技术,本发明基于特征变换度量网络的少样本人体行为识别系统、计算机可读存储介质与上述基于特征变换度量网络的少样本人体行为识别方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (8)
1.一种基于特征变换度量网络的少样本人体行为识别方法,其特征在于,所述识别方法包括:
对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
将各所述空间特征图划分成支持特征图和查询特征图;
基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别;
其中,基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图,具体包括:
根据以下公式,计算所述支持特征图里各空间位置的局部特征中心:
其中,随机划分特征嵌入空间θ里的支持特征图fθ,s={xs}和查询特征图fθ,q={xq},其中{x}是空间特征图fθ里所有空间位置的局部特征集合,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量,xs,k,i为第k类第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,为第k类空间特征图fθ里第i个空间位置的局部特征中心;
根据所述特征变换网络及残差Δs,k,i,得到非线性残差输出δs,k,i:
其中,Φ(.)为特征变换函数;
根据以下公式,分别计算变换支持特征图和变换查询特征图:
其中,ak,i为局部特征中心的特征迁移变换得分,w和b分别为可学习的参数,xs,i为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换支持特征图,xq,i为第q个查询视频的空间特征图fθ里第i个空间位置的局部特征,为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离,具体包括:
根据以下公式,计算所述变换支持特征图的局部支持特征中心:
其中,S表示支持视频的个数,表示变换支持特征图的局部支持特征中心,表示第k类第s个支持视频的空间特征图fθ里第i个空间位置的变换局部特征,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量;
根据以下公式,计算所述变换查询特征图与局部支持特征中心的欧氏距离de:
根据以下公式,计算所述变换 查询特征与局部支持特征中心的余弦相似度dc:
根据以下公式,计算所述余弦相似度加权后的欧氏距离λq,k,i:
其中,λ∈[0,∞]表示欧氏距离的加权系数;
根据以下公式,计算得到加权后的欧氏距离dq,k,i:
根据以下公式,计算所述加权距离输入到特征度量网络后的距离度量dq,k:
其中,D为非线性函数,WH为 空间位置的个数。
3.根据权利要求2所述的基于特征变换度量网络的少样本人体行为识别方法,其特征在于,非线性函数D为由两个包含64个3×3卷积核的卷积模块、批正则化层和一个两层的全连接层组成;全连接层使用线性整流激活函数且不使用批正则化,第一个全连接层的输出为1024维,第二个全连接层输出为1维。
5.根据权利要求1所述的基于特征变换度量网络的少样本人体行为识别方法,其特征在于,所述识别方法还包括:更新所述特征变换网络。
6.根据权利要求5所述的基于特征变换度量网络的少样本人体行为识别方法,其特征在于,所述更新所述特征变换网络,具体包括:
根据以下公式,计算查询视频在正确类别上的概率pθ,Φ,D:
其中,D为非线性函数,Φ(.)为特征变换函数,θ为特征嵌入空间,K为正确类别,Zq为查询视频,y为行为类别,k′为遍历所有行为类别的序号,C为总的类别数;
根据以下公式,计算每个特征点向各个局部特征支持中心的迁移得分:
其中,WH为 空间位置的个数,Zs为支持视频,i为空间位置序号;
根据以下公式,计算正确类别K所对应的负对数预测概率,得到分类损失Jc:
Jc(θ,Φ,D)=-logpθ,Φ,D(y=K|Zq);
通过同时对分类损失Jc和特征变换损失Ja进行最小化,来学习嵌入函数θ、特征变换函数Φ和特征度量函数D的参数,以更新所述特征变换网络。
7.一种基于特征变换度量网络的少样本人体行为识别系统,其特征在于,所述识别系统包括:
提取单元,用于对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
划分单元,用于将各所述空间特征图划分成支持特征图和查询特征图;
变换单元,用于基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
计算单元,用于基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
建立单元,用于根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
识别单元,用于根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别;
其中,基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图,具体包括:
根据以下公式,计算所述支持特征图里各空间位置的局部特征中心:
其中,随机划分特征嵌入空间θ里的支持特征图fθ,s={xs}和查询特征图fθ,q={xq},其中{x}是空间特征图fθ里所有空间位置的局部特征集合,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量,xs,k,i为第k类第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,为第k类空间特征图fθ里第i个空间位置的局部特征中心;
根据所述特征变换网络及残差Δs,k,i,得到非线性残差输出δs,k,i:
其中,Φ(.)为特征变换函数;
根据以下公式,分别计算变换支持特征图和变换查询特征图:
其中,ak,i为局部特征中心的特征迁移变换得分,w和b分别为可学习的参数,xs,i为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换支持特征图,xq,i为第q个查询视频的空间特征图fθ里第i个空间位置的局部特征,为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离,具体包括:
根据以下公式,计算所述变换支持特征图的局部支持特征中心:
其中,S表示支持视频的个数,表示变换支持特征图的局部支持特征中心,表示第k类第s个支持视频的空间特征图fθ里第i个空间位置的变换局部特征,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量;
根据以下公式,计算所述变换查询特征图与局部支持特征中心的欧氏距离de:
根据以下公式,计算所述变换 查询特征与局部支持特征中心的余弦相似度dc:
根据以下公式,计算所述余弦相似度加权后的欧氏距离λq,k,i:
其中,λ∈[0,∞]表示欧氏距离的加权系数;
根据以下公式,计算得到加权后的欧氏距离dq,k,i:
根据以下公式,计算所述加权距离输入到特征度量网络后的距离度量dq,k:
其中,D为非线性函数,WH为 空间位置的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010893758.8A CN112001345B (zh) | 2020-08-31 | 2020-08-31 | 基于特征变换度量网络的少样本人体行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010893758.8A CN112001345B (zh) | 2020-08-31 | 2020-08-31 | 基于特征变换度量网络的少样本人体行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001345A CN112001345A (zh) | 2020-11-27 |
CN112001345B true CN112001345B (zh) | 2022-09-20 |
Family
ID=73464793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010893758.8A Active CN112001345B (zh) | 2020-08-31 | 2020-08-31 | 基于特征变换度量网络的少样本人体行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001345B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333064B (zh) * | 2021-12-31 | 2022-07-26 | 江南大学 | 基于多维原型重构增强学习的小样本行为识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506740A (zh) * | 2017-09-04 | 2017-12-22 | 北京航空航天大学 | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 |
CN109961089A (zh) * | 2019-02-26 | 2019-07-02 | 中山大学 | 基于度量学习和元学习的小样本和零样本图像分类方法 |
CN111461244A (zh) * | 2020-04-09 | 2020-07-28 | 武汉大学 | 一种基于SimpleShot的One-Shot学习新方法 |
-
2020
- 2020-08-31 CN CN202010893758.8A patent/CN112001345B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506740A (zh) * | 2017-09-04 | 2017-12-22 | 北京航空航天大学 | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 |
CN109961089A (zh) * | 2019-02-26 | 2019-07-02 | 中山大学 | 基于度量学习和元学习的小样本和零样本图像分类方法 |
CN111461244A (zh) * | 2020-04-09 | 2020-07-28 | 武汉大学 | 一种基于SimpleShot的One-Shot学习新方法 |
Non-Patent Citations (4)
Title |
---|
Asymmetric 3D Convolutional Neural Networks for action recognition;Hao Yang等;《Pattern Recognition》;20191231;第1-12页 * |
Hierarchical Disentanglement of Discriminative Latent Features for Zero-shot Learning;Bin Tong等;《Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20191231;第11467-11476页 * |
SILCO: Show a Few Images, Localize the Common Object;Tao Hu等;《Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)》;20191231;第5067-5076页 * |
Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection from Videos;Yang Du等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171231;第4245-4254页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112001345A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414462B (zh) | 一种无监督的跨域行人重识别方法及系统 | |
WO2023273290A1 (zh) | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 | |
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN111985581B (zh) | 一种基于样本级注意力网络的少样本学习方法 | |
CN110852168A (zh) | 基于神经架构搜索的行人重识别模型构建方法及装置 | |
CN110942091B (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN110941734A (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN112070058A (zh) | 人脸面部复合情感表情识别方法及系统 | |
CN109829414B (zh) | 一种基于标签不确定性和人体组件模型的行人再识别方法 | |
CN114170333B (zh) | 基于直推式半监督深度学习的图像哈希编码方法 | |
CN115731441A (zh) | 基于数据跨模态迁移学习的目标检测和姿态估计方法 | |
CN112001345B (zh) | 基于特征变换度量网络的少样本人体行为识别方法及系统 | |
CN116110089A (zh) | 一种基于深度自适应度量学习的面部表情识别方法 | |
Chahla et al. | Learned versus handcrafted features for person re-identification | |
CN117372877A (zh) | 一种基于神经网络的星图识别方法、装置及相关介质 | |
CN112581502A (zh) | 一种基于孪生网络的目标跟踪方法 | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 | |
CN114973099A (zh) | 一种基于可回溯目标识别的智能寻物方法及系统 | |
CN115240782A (zh) | 药物属性预测方法、装置、电子设备及存储介质 | |
CN113642499A (zh) | 基于计算机视觉的人体行为识别方法 | |
CN108427967B (zh) | 一种实时影像聚类方法 | |
Jun et al. | Two-view correspondence learning via complex information extraction | |
CN112733067B (zh) | 一种面向机器人目标检测算法的数据集选择方法 | |
Cai et al. | Implementation of hybrid deep learning architecture on loop-closure detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |