CN112001345B

CN112001345B - 基于特征变换度量网络的少样本人体行为识别方法及系统

Info

Publication number: CN112001345B
Application number: CN202010893758.8A
Authority: CN
Inventors: 原春锋; 杜杨; 胡卫明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-09-20
Anticipated expiration: 2040-08-31
Also published as: CN112001345A

Abstract

本发明涉及一种基于特征变换度量网络的少样本人体行为识别方法及系统，包括：对多个原始视频进行特征图提取，得到各原始视频的空间特征图；并划分成支持特征图和查询特征图；根据支持特征图和查询特征图，得到变换支持特征图和变换查询特征图；进而得到特征度量距离；根据特征度量距离及查询视频的行为类别，建立识别模型；根据识别模型及待识别视频，确定待识别视频对应的行为类别。本发明基于特征变换网络，通过将特征转移到行为类别中心的偏移位置，能够减小特征类内距离及增大特征类间差异，极大地减小分类难度；并进一步基于特征度量网络，可提高特征度量的精确度，从而可提高少样本人体行为识别精度。

Description

基于特征变换度量网络的少样本人体行为识别方法及系统

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于特征变换度量网络的少样本人体行为识别(Few-shot Human Action Recognition)方法及系统。

背景技术

人体行为识别是计算机视觉的一个重要研究领域，人的行为可以定义为人的身体所主张的任何具体行为。人体行为识别被广泛地应用于计算机视觉的诸多领域当中，如智能视频监控、病人监护系统、人机交互、虚拟现实、智能家居、智能安防、运动员辅助训练等。

少样本学习下人体行为识别的目标是，在每个行为新类别只有少量或者没有训练数据的条件下，自动地分析视频或者是图像序列中人正在进行的行为。

在少样本学习中，当每个新类别只有一个或很少几个训练样本可用时，这对深度学习中的参数微调提出了巨大挑战。在这样一个有限的数据环境中，数据增强和正则化技术可以缓解过度拟合，但它们并不能解决这个问题。因此，现在的许多少样本学习的方法将训练过程分解为辅助的元学习阶段。在这个阶段中，模型学习到良好的参数初始化、特征嵌入模式以及优化策略等这些迁移知识。然后，在新的少样本的分类任务上，能够通过参数微调的方式快速地从少量的样本中学习到各个类别的特征模式。或者通过计算每个样本的特征表示，然后通过距离度量的方式，按距离最近的方式来分类新样本。

具体地，少样本学习大致可以分为元学习、度量学习和基于记忆模型的三种方法。1)元学习方法主要是学习一个优化方法，可以让预训练的模型可以迅速在只有少量训练数据的数据库上得到有效训练，然后对新的没有见过的类别进行分类的方法。2)基于记忆模型的方法通常使用循环递归神经网络遍历输入的新样本，使用积累的知识来对新的输入样本进行分类。3)基于度量学习的方法，先在训练库学习一个特征嵌入模型，然后直接在测试数据库上计算输入样本在嵌入空间的特征向量表示，最后度量这些样本与少量标签数据之间的特征距离，最近邻特征的标签作为分类结果。

基于度量学习的方法的最大问题在于不同行为类别的视觉特征在特征空间可能非常接近，以至于很难去区分，这是因为样本过少容易引发过拟合问题，神经网络模型很难学到每个行为类别充分的特征表示。通过在特征空间可视化行为特征的分布情况会发现，这些不同行为类别的视觉特征在特征空间的特征点，呈现出类内距离大、类间距离小的情况，这会对后续的特征分类带来极大的挑战。

发明内容

为了解决现有技术中的上述问题，即为了解决样本过少所引发的深度神经网络过拟合的技术问题，提高少样本人体行为识别效率，本发明提供一种基于特征变换度量网络的少样本人体行为识别方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种基于特征变换度量网络的少样本人体行为识别方法，所述识别方法包括：

对多个原始视频进行三维卷积神经网络特征图提取，得到各原始视频的空间特征图，所述空间特征图为对应原始视频在特征空间的特征图表示；

将各所述空间特征图划分成支持特征图和查询特征图；

基于特征变换网络，根据所述支持特征图和查询特征图，得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图；

基于特征度量网络，根据各所述变换支持特征图和变换查询特征图，得到各变换支持特征图与各变换查询特征图间的特征度量距离；

根据所述特征度量距离，及查询视频的行为类别，建立识别模型；

根据所述识别模型及待识别视频，确定所述待识别视频对应的行为类别。

可选地，所述对多个原始视频进行三维卷积神经网络特征图提取，得到各原始视频的空间特征图，具体包括：

针对任一原始视频，将所述原始视频均分为T段，对每段使用三维卷积深度神经网络进行特征提取，得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t)，t＝1,2，…,T；

计算各段视频的特征图平均值，得到视频特征图

根据所述视频特征图

计算所述原始视频的空间特征图f_θ：

其中，θ是嵌入函数，表示特征嵌入空间。

可选地，所述基于特征变换网络，根据所述支持特征图和查询特征图，得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图，具体包括：

根据以下公式，计算所述支持特征图里各空间位置的局部特征中心：

其中，随机划分特征嵌入空间θ里的支持特征图f_θ,s＝{x_s}和查询特征图f_θ,q＝{x_q}，其中{x}是空间特征图f_θ里所有空间位置的局部特征集合，k为类别序号，i是特征图里空间位置的序号，S是每个行为类别支持样本数量，x_s,k,i为第k类第s个支持视频的空间特征图f_θ里第i个空间位置的局部特征，

为第k类空间特征图f_θ里第i个空间位置的局部特征中心；

计算第k类的第i个位置的局部特征中心

和第i个位置任意类别的支持特征x_s,i的残差Δ_s,k,i：

根据所述特征变换网络及残差Δ_s,k,i，得到非线性残差输出δ_s,k,i：

其中，Φ(.)为特征变换函数；

根据以下公式，分别计算变换支持特征图和变换查询特征图：

其中，a_k,i为局部特征中心

的特征迁移变换得分，w和b分别为可学习的参数，x_s,i为第s个支持视频的空间特征图f_θ里第i个空间位置的局部特征，

为第s个支持视频的空间特征图f_θ里第i个空间位置的局部特征的变换支持特征图，x_q,i为第q个查询视频的空间特征图f_θ里第i个空间位置的局部特征，

为第q个支持视频的空间特征图f_θ里第i个空间位置的局部特征的变换查询特征图。

可选地，所述基于特征度量网络，根据各所述变换支持特征图和变换查询特征图，得到各变换支持特征图与各变换查询特征图间的特征度量距离，具体包括：

根据以下公式，计算所述变换支持特征图的局部支持特征中心：

其中，S表示支持视频的个数，

表示变换支持特征图的局部支持特征中心，

表示第k类第s个支持视频的空间特征图f_θ里第i个空间位置的变换局部特征，k为类别序号，i是特征图里空间位置的序号，S是每个行为类别支持样本数量；

根据以下公式，计算所述变换查询特征图与局部支持特征中心的欧氏距离d_e：

其中，

为第q个支持视频的空间特征图f_θ里第i个空间位置的局部特征的变换查询特征图；

根据以下公式，计算所述局部查询特征与局部支持特征中心的余弦相似度d_c：

根据以下公式，计算所述余弦相似度加权后的欧氏距离λ_q，k，i：

其中，λ∈[0,∞]表示欧氏距离的加权系数；

根据以下公式，计算得到加权后的欧氏距离d_q，k，i：

根据以下公式，计算所述加权距离输入到特征度量网络后的距离度量d_q,k：

其中，D为非线性函数来，WH空间位置的个数。

可选地，非线性函数D为由两个包含64个3×3卷积核的卷积模块、批正则化层和一个两层的全连接层组成；全连接层使用线性整流激活函数且不使用批正则化，第一个全连接层的输出为1024维，第二个全连接层输出为1维。

可选地，所述根据所述特征度量距离，及查询视频的行为类别，建立识别模型，具体包括：

其中，y为行为类别，k′为遍历所有行为类别的序号，d_q,k′为加权距离输入到特征度量网络后的距离度量，min(.)为取最小值函数，arg(.)为取自变量函数。

可选地，所述识别方法还包括：更新所述特征变换网络。

可选地，所述更新所述特征变换网络，具体包括：

根据以下公式，计算查询视频在正确类别上的概率p_θ,Φ,D：

其中，D为非线性函数，Φ(.)为特征变换函数，θ为特征嵌入空间，K为正确类别，Z_q为查询视频，y为行为类别，k′为遍历所有行为类别的序号，C为总的类别数；

根据以下公式，计算每个特征点向各个局部特征支持中心的迁移得分：

其中，WH空间位置的个数，Z_s为支持视频，i为空间位置序号；

根据以下公式，计算正确类别K所对应的负对数预测概率，得到分类损失J_c：

J_c(θ,Φ,D)＝-logp_θ,Φ,D(y＝K|Z_q)；

根据以下公式，计算

和

的负对数，得到特征变换损失J_a：

通过同时对分类损失J_c和特征变换损失J_a进行最小化，来学习嵌入函数θ、特征变换函数Φ和特征度量函数D的参数，以更新所述特征变换网络。

为解决上述技术问题，本发明还提供了如下方案：

一种基于特征变换度量网络的少样本人体行为识别系统，所述识别系统包括：

提取单元，用于对多个原始视频进行三维卷积神经网络特征图提取，得到各原始视频的空间特征图，所述空间特征图为对应原始视频在特征空间的特征图表示；

划分单元，用于将各所述空间特征图划分成支持特征图和查询特征图；

变换单元，用于基于特征变换网络，根据所述支持特征图和查询特征图，得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图；

计算单元，用于基于特征度量网络，根据各所述变换支持特征图和变换查询特征图，得到各变换支持特征图与各变换查询特征图间的特征度量距离；

建立单元，用于根据所述特征度量距离，及查询视频的行为类别，建立识别模型；

识别单元，用于根据所述识别模型及待识别视频，确定所述待识别视频对应的行为类别。

可选地，所述提取单元包括：

均分模块，用于针对任一原始视频，将所述原始视频均分为T段，对每段使用三维卷积深度神经网络进行特征提取，得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t)，t＝1,2，…,T；

第一计算模块，用于计算各段视频的特征图平均值，得到视频特征图

第二计算模块，用于根据所述视频特征图

计算所述原始视频的空间特征图f_θ：

其中，其中，θ是嵌入函数，表示特征嵌入空间。

根据本发明的实施例，本发明公开了以下技术效果：

本发明通过对多个原始视频进行特征图提取，得到空间特征图；基于特征变换网络，通过将特征转移到行为类别中心的偏移位置，能够减小特征类内距离及增大特征类间差异，极大地减小分类难度；并进一步基于特征度量网络，可提高特征度量的精确度，从而可提高少样本人体行为识别精度。

附图说明

图1是本发明基于特征变换度量网络的少样本人体行为识别方法的流程图；

图2是本发明的特征变换网络效果示意图；

图3是本发明的两种特征度量方式分析图；

图4是本发明基于特征变换度量网络的少样本人体行为识别系统的模块结构示意图。

符号说明：

提取单元—1，划分单元—2，变换单元—3，计算单元—4，建立单元-5，识别单元—6。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的提供一种基于特征变换度量网络的少样本人体行为识别方法，通过对多个原始视频进行特征图提取，得到空间特征图；基于特征变换网络，通过将特征转移到行为类别中心的偏移位置，能够减小特征类内距离及增大特征类间差异，极大地减小分类难度；并进一步基于特征度量网络，可提高特征度量的精确度，从而可提高少样本人体行为识别精度。

其中，特征变换网络层，其在网络参数学习的训练阶段，学习每个特征与其正确行为类别特征中心之间的非线性残差，在少样本人体行为分类的测试阶段，将网络预测的非线性残差与原特征相加，使其移动到正确行为类别特征中心的偏移位置。

特征度量网络层，使用余弦相似度加权欧氏距离，并将加权结果输入到卷积网络中，用于学习特征距离度量参数。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明基于特征变换度量网络的少样本人体行为识别方法，包括：

步骤100：对多个原始视频进行三维卷积神经网络特征图提取，得到各原始视频的空间特征图，所述空间特征图为对应原始视频在特征空间的特征图表示；

步骤200：将各所述空间特征图划分成支持特征图和查询特征图；

步骤300：基于特征变换网络，根据所述支持特征图和查询特征图，得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图；

步骤400：基于特征度量网络，根据各所述变换支持特征图和变换查询特征图，得到各变换支持特征图与各变换查询特征图间的特征度量距离；

步骤500：根据所述特征度量距离，及查询视频的行为类别，建立识别模型；

步骤600：根据所述识别模型及待识别视频，确定所述待识别视频对应的行为类别。

其中，在步骤100中，所述对多个原始视频进行三维卷积神经网络特征图提取，得到各原始视频的空间特征图，具体包括：

步骤101：针对任一原始视频，将所述原始视频均分为T段，对每段使用三维卷积深度神经网络进行特征提取，得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t)，t＝1,2，…,T。

例如输入一个时间长度为L帧的视频Z，将其均匀地分为T段，每段使用三维卷积深度神经网络进行特征提取，得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t)。

步骤102：计算各段视频的特征图平均值，得到视频特征图

步骤102：根据所述视频特征图

计算所述原始视频的空间特征图f_θ：

其中，θ是嵌入函数，表示特征嵌入空间。

本发明使用四个卷积神经网络模块实现。具体地，每个卷积模块包含64个3×3的卷积滤波器、批正则化层和线性整流激活函数。本发明仅仅在嵌入函数前面两个卷积模块使用2×2的最大池化函数。

在步骤200中，随机划分特征嵌入空间θ的空间特征图f_θ为支持特征图何查询特征图，其中支持特征图f_θ,s＝{x_s}和查询特征图f_θ,q＝{x_q}，其中{x}是特征图f_θ里所有空间位置的局部特征集合。

在步骤300中，所述基于特征变换网络，根据所述支持特征图和查询特征图，得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图，具体包括：

步骤301：根据以下公式，计算所述支持特征图里各空间位置的局部特征中心：

其中，k为类别序号，i是特征图里空间位置的序号，S是每个行为类别支持样本数量，x_s,k,i为第k类第s个支持视频的空间特征图f_θ里第i个空间位置的局部特征，

为第k类空间特征图f_θ里第i个空间位置的局部特征中心。

步骤302：计算第k类的第i个位置的局部特征中心

和第i个位置任意类别的支持特征x_s,i的残差Δ_s,k,i：

步骤303：根据所述特征变换网络及残差Δ_s,k,i，得到非线性残差输出δ_s,k,i：

其中，Φ(.)为特征变换函数；特征变换函数由4个卷积模块组成，每一个卷积模块由64个3×3的卷积滤波器和批正则化层组成。

步骤304：根据以下公式，分别计算变换支持特征图和变换查询特征图：

其中，a_k,i为局部特征中心

本发明首先为每个局部特征支持中心

定义一个特征迁移变换得分a_k,i，具体定义如下：

其中，w和b都是可学习的参数。因此，收缩变换后的支持特征通过以下方式重建：

最后，这些收缩的特征通过一个线性整流激活函数。在理想的情况下，本发明可以学到以下的一个特征收缩变换：

其中k表示x_s,i的正确类别。只有其对应的正确特征中心的得分被设置为1，其余的都为0。而I(·)是一个关于残差的线性函数。可以保持待迁移的类别中心位置不变。但是实际上，如果让Φ为一个线性的I(·)，将很难为每个正确的类别中心学到一个最高的得分a，因为这些类别中心本身可能在特征空间的位置就很难区分。因此，本发明使用非线性的Φ来实现类别中心偏移从而改变类间距离。

查询特征收缩迁移变换后的特征

通过使用q来替换步骤2c-步骤2e中的s得到：

本发明的特征变换模型在理论上可以被解释成对局部特征描述符的一个非线性扩展应用，在这里将会进行详细地解释。一般地，给定N个维度为M的局部特征表示

作为输入和C个聚类中心

这C个聚类中心可以看做是视觉单词。局部特征描述符的核心思想是，对每个聚类中心c_i，寻找离其最近的所有f_k的集合，然后计算集合中每个f_k与聚类中心c_i的残差，并对这些残差计算加权和，作为这些局部特征在该聚类中心c_i的表示v_i。最后，将对所有聚类中心

计算得到的v_i串联起来，作为对这些局部特征的全局编码表示。在神经网络中，很难对每个特征硬性地选择离某个聚类中心最近，因此这里使用了另一种表示，使用一个得分来表示f_k离各个聚类中心的距离。即实现离其最近的聚类中心得分趋近于1，而离其最远的聚类中心则得分趋近于0。若使用局部特征描述符对这些局部特征进行编码，本发明可以得到一个特征表示V＝{v_i}∈R^C×M，其中v_i可以通过以下方式计算：

如果使用x_s,i或者x_q,i替换c_i，使用

替换f_k，并且忽略Φ的影响，即是

或者x_q,i

那么特征变换后的特征如下所示(这里以支持特征为例)：

这种相似性的直观解释如图2所示，图2中(a)部分为特征变换表示，图2中(b)部分为局部特征描述符表示。通过这个表示，本发明找到离输入查询特征最近的支持中心，计算残差，然后将原始特征加上残差转移到最近的类别中心。但是，最近的支持中心可能不是对应的正确类别。因此，本发明将在后续的训练损失函数中约束每个支持特征的得分，并使用支持特征中心的标签对其进行约束，强制迁移到正确的类别中心。

原始的局部特征描述符是一个线性模型，不同的类可能在特征空间中的表示非常接近，而仅通过线性变化来学习通用的变换函数，使特征迁移到相应类别的支持中心是比较困难的。

本发明变换网络使用的非线性变换函数Φ可以被视为一个非线性局部特征描述符的表示，可以实现对分布较近的类别中心的位置先进行偏移，然后再将同类特征进行收缩的作用。

在步骤400中，所述基于特征度量网络，根据各所述变换支持特征图和变换查询特征图，得到各变换支持特征图与各变换查询特征图间的特征度量距离，具体包括：

步骤401：根据以下公式，计算所述变换支持特征图的局部支持特征中心：

其中，S表示支持视频的个数，

表示变换支持特征图的局部支持特征中心，

表示第k类第s个支持视频的空间特征图f_θ里第i个空间位置的变换局部特征，k为类别序号，i是特征图里空间位置的序号，S是每个行为类别支持样本数量。

步骤402：根据以下公式，计算所述变换查询特征图与局部支持特征中心的欧氏距离d_e：

其中，

步骤403：根据以下公式，计算所述局部查询特征与局部支持特征中心的余弦相似度d_c：

步骤404：根据以下公式，计算所述余弦相似度加权后的欧氏距离λ_q，k，i：

其中，λ∈[0,∞]表示欧氏距离的加权系数。

通过这种距离度量方式，在最小化d的时候可以让欧氏距离和角度同时优化为0，从而克服单独使用余弦相似度或者欧氏距离的限制，如图3所示，(a)在一方面，当两个特征向量与目标特征向量具有相同的余弦相似度时，它们与目标特征向量值间的欧氏距离并不唯一，而且有可能出现角度相同，欧氏距离很大的情况。(b)在另一方面，当两个特征点与目标特征点的欧式距离相同时，它们与目标特征点间的角度也并不唯一。这两种情况均可能造成错误分类。

步骤405：根据以下公式，计算得到加权后的欧氏距离d_q，k，i：

步骤406：根据以下公式，计算所述加权距离输入到特征度量网络后的距离度量d_q,k：

其中，D为非线性函数来，WH空间位置的个数。

在本实施例中，非线性函数D为由两个包含64个3×3卷积核的卷积模块、批正则化层和一个两层的全连接层组成；全连接层使用线性整流激活函数且不使用批正则化，第一个全连接层的输出为1024维，第二个全连接层输出为1维。

优选地，在步骤500中，所述根据所述特征度量距离，及查询视频的行为类别，建立识别模型，具体包括：

进一步地，本发明基于特征变换度量网络的少样本人体行为识别方法还包括：步骤700：更新所述特征变换网络。

具体地，所述更新所述特征变换网络，包括：

步骤701：根据以下公式，计算查询视频在正确类别上的概率p_θ,Φ,D：

其中，D为非线性函数，Φ(.)为特征变换函数，θ为特征嵌入空间，K为正确类别，Z_q为查询视频，y为行为类别，k′为遍历所有行为类别的序号，C为总的类别数。

在本实施例中，设计所述查询视频的分类损失函数。该损失函数的作用是，计算查询视频在其正确类别上的概率，然后通过最大化其对应的正确类别的概率，学习网络参数。本发明使用负距离的Softmax归一化输出，生成了一个针对于查询视频跨越各个类别的分布。

步骤702：根据以下公式，计算每个特征点向各个局部特征支持中心的迁移得分：

其中，WH空间位置的个数，Z_s为支持视频，i为空间位置序号。

步骤703：根据以下公式，计算正确类别K所对应的负对数预测概率，得到分类损失J_c：

J_c(θ,Φ,D)＝-logp_θ,Φ,D(y＝K|Z_q)。

步骤704：根据以下公式，计算

和

的负对数，得到特征变换损失J_a：

步骤705：通过同时对分类损失J_c和特征变换损失J_a进行最小化，来学习嵌入函数θ、特征变换函数Φ和特征度量函数D的参数，以更新所述特征变换网络。

此外，本发明还提供一种基于特征变换度量网络的少样本人体行为识别系统，可解决样本过少所引发的深度神经网络过拟合的技术问题，提高少样本人体行为识别效率。

如图4所示，本发明基于特征变换度量网络的少样本人体行为识别系统包括提取单元1、划分单元2、变换单元3、计算单元4、建立单元5及识别单元6。

其中，所述提取单元1用于对多个原始视频进行三维卷积神经网络特征图提取，得到各原始视频的空间特征图，所述空间特征图为对应原始视频在特征空间的特征图表示。

所述划分单元2用于将各所述空间特征图划分成支持特征图和查询特征图。

所述变换单元3用于基于特征变换网络，根据所述支持特征图和查询特征图，得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图。

所述计算单元4用于基于特征度量网络，根据各所述变换支持特征图和变换查询特征图，得到各变换支持特征图与各变换查询特征图间的特征度量距离。

所述建立单元5用于根据所述特征度量距离，及查询视频的行为类别，建立识别模型。

所述识别单元6用于根据所述识别模型及待识别视频，确定所述待识别视频对应的行为类别。

进一步地，所述提取单元1包括均分模块、第一计算模块及第二计算模块。

其中，所述均分模块用于针对任一原始视频，将所述原始视频均分为T段，对每段使用三维卷积深度神经网络进行特征提取，得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t)，t＝1,2，…,T；

所述第一计算模块用于计算各段视频的特征图平均值，得到视频特征图

所述第二计算模块用于根据所述视频特征图

计算所述原始视频的空间特征图f_θ：

其中，其中，θ是嵌入函数，表示特征嵌入空间。

此外，本发明还提供了一种基于特征变换度量网络的少样本人体行为识别系统，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

将各所述空间特征图划分成支持特征图和查询特征图；

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

将各所述空间特征图划分成支持特征图和查询特征图；

相对于现有技术，本发明基于特征变换度量网络的少样本人体行为识别系统、计算机可读存储介质与上述基于特征变换度量网络的少样本人体行为识别方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于特征变换度量网络的少样本人体行为识别方法，其特征在于，所述识别方法包括：

将各所述空间特征图划分成支持特征图和查询特征图；

根据所述识别模型及待识别视频，确定所述待识别视频对应的行为类别；

其中，基于特征变换网络，根据所述支持特征图和查询特征图，得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图，具体包括：

为第k类空间特征图f_θ里第i个空间位置的局部特征中心；

计算第k类的第i个位置的局部特征中心

和第i个位置任意类别的支持特征x_s,i的残差Δ_s,k,i：

其中，Φ(.)为特征变换函数；

其中，a_k,i为局部特征中心

基于特征度量网络，根据各所述变换支持特征图和变换查询特征图，得到各变换支持特征图与各变换查询特征图间的特征度量距离，具体包括：

其中，S表示支持视频的个数，

表示变换支持特征图的局部支持特征中心，

其中，

根据以下公式，计算所述变换查询特征与局部支持特征中心的余弦相似度d_c：

其中，λ∈[0,∞]表示欧氏距离的加权系数；

根据以下公式，计算得到加权后的欧氏距离d_q，k，i：

其中，D为非线性函数，WH为空间位置的个数。

2.根据权利要求1所述的基于特征变换度量网络的少样本人体行为识别方法，其特征在于，所述对多个原始视频进行三维卷积神经网络特征图提取，得到各原始视频的空间特征图，具体包括：

计算各段视频的特征图平均值，得到视频特征图

根据所述视频特征图

计算所述原始视频的空间特征图f_θ：

其中，θ是嵌入函数，表示特征嵌入空间。

3.根据权利要求2所述的基于特征变换度量网络的少样本人体行为识别方法，其特征在于，非线性函数D为由两个包含64个3×3卷积核的卷积模块、批正则化层和一个两层的全连接层组成；全连接层使用线性整流激活函数且不使用批正则化，第一个全连接层的输出为1024维，第二个全连接层输出为1维。

4.根据权利要求1所述的基于特征变换度量网络的少样本人体行为识别方法，其特征在于，所述根据所述特征度量距离，及查询视频的行为类别，建立识别模型，具体包括：

5.根据权利要求1所述的基于特征变换度量网络的少样本人体行为识别方法，其特征在于，所述识别方法还包括：更新所述特征变换网络。

6.根据权利要求5所述的基于特征变换度量网络的少样本人体行为识别方法，其特征在于，所述更新所述特征变换网络，具体包括：

根据以下公式，计算查询视频在正确类别上的概率p_θ,Φ,D：

其中，WH为空间位置的个数，Z_s为支持视频，i为空间位置序号；

J_c(θ,Φ,D)＝-logp_θ,Φ,D(y＝K|Z_q)；

根据以下公式，计算

和

的负对数，得到特征变换损失J_a：

7.一种基于特征变换度量网络的少样本人体行为识别系统，其特征在于，所述识别系统包括：

识别单元，用于根据所述识别模型及待识别视频，确定所述待识别视频对应的行为类别；

为第k类空间特征图f_θ里第i个空间位置的局部特征中心；

计算第k类的第i个位置的局部特征中心

和第i个位置任意类别的支持特征x_s,i的残差Δ_s,k,i：

其中，Φ(.)为特征变换函数；

其中，a_k,i为局部特征中心

其中，S表示支持视频的个数，

表示变换支持特征图的局部支持特征中心，

其中，

其中，λ∈[0,∞]表示欧氏距离的加权系数；

根据以下公式，计算得到加权后的欧氏距离d_q，k，i：

其中，D为非线性函数，WH为空间位置的个数。

8.根据权利要求7所述的基于特征变换度量网络的少样本人体行为识别系统，其特征在于，所述提取单元包括：

第二计算模块，用于根据所述视频特征图

计算所述原始视频的空间特征图f_θ：

其中，其中，θ是嵌入函数，表示特征嵌入空间。