CN114333064B

CN114333064B - 基于多维原型重构增强学习的小样本行为识别方法及系统

Info

Publication number: CN114333064B
Application number: CN202111677811.1A
Authority: CN
Inventors: 蒋敏; 刘姝雯; 孔军
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-07-26
Anticipated expiration: 2041-12-31
Also published as: CN114333064A

Abstract

本发明涉及一种基于多维原型重构增强学习的小样本行为识别方法，包括在计算得到视频描述子之后，通过动态时序转换进行网络优化，计算所述支持集视频描述子中的每一类视频的类平均原型，并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度，根据各自对应的相似度对支持集样本和查询集样本重加权，得到两个原型，将两个原型进行加权求和得到交叉增强原型，并且构建双三元组优化分类特征空间增强所述交叉增强原型对不同类别的可鉴别能力，利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类，其大大提高了分类准确度。

Description

基于多维原型重构增强学习的小样本行为识别方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其是指一种基于多维原型重构增强学习的小样本行为识别方法及系统。

背景技术

随着机器视觉在理论上和实践上的不断研究，人体行为识别逐步成为一个重要分支。传统的行为识别方法可以归纳为基于RGB图像和基于视频的方法，但是这些方法都存在着严重的局限性，即需要大量的带注释数据来训练模型以正确识别动作，这带来了很昂贵的计算代价。而小样本学习旨在通过学习少量样本即可实现对新样本的分类，小样本行为识别包括两个输入：支持集视频表示和查询集视频表示，模型在支持集上训练，使用支持集特征对查询集视频表示分类。小样本学习以片段式学习训练，每个片段包含一个支持集和一个查询集。支持集中包含N个类别，每个类别包含K个样本；而查询集含有和支持集相同的N个类别，每个类别也包括K个样本，其称为N-way K-shot学习。值得注意的是，支持集的样本和查询集的样本是不相交的。小样本行为识别通常采用5-wat1-shot和5-way5-shot这两种设置进行小样本学习。

目前，面向小样本行为识别的方法主要使用原型网络。在原型网络中，首先使用特征提取网络提取视频描述子，对同类别视频特征求平均值作为该类别的原型，采用最近邻算法对查询样本进行分类。但是原型网络存在以下局限：(1)无法获取一个通用原型以更好地表示该类别的平均水平。(2)部分动作之间存在细微差异，类间可鉴别性弱。(3)训练集和测试集动作分布不均衡，不同域之间的时序信息分布偏差较显著。

基于以上考虑，迫切需要提出一种多维重构增强原型网络用于小样本行为识别。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术存在的问题，提出一种基于多维原型重构增强学习的小样本行为识别方法及系统，本发明在得到交叉增强原型后构建双三元组优化分类特征空间增强所述交叉增强原型对不同类别的可鉴别能力，其大大提高了分类准确度。

为解决上述技术问题，本发明提供一种基于多维原型重构增强学习的小样本行为识别方法，包括：

基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征，利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子；

基于所述支持集时序特征求解原始时序注意力，在所述支持集时序特征上施加随机打乱重排列操作，得到支持集时序特征的补充特征，计算所述补充特征的打乱时序注意力，对所述打乱时序注意力实施逆操作得到补充时序注意力，计算所述原始时序注意力与补充时序注意力的差值，并将其作为动态时序变换损失用于优化注意力网络；

利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型，并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度，根据各自对应的相似度对支持集样本和查询集样本重加权，得到两个原型，将两个原型进行加权求和得到交叉增强原型；

分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组，通过正负样本的相对距离计算可适应边距，基于上述双三元组和可适应边距设计双三元组可适应损失，增强所述交叉增强原型对不同类别的可鉴别能力；

利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类。

在本发明的一个实施例中，基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征，包括：

基于所述支持集样本和查询集样本分别构建支持集视频表示和查询集视频表示；

根据支持集视频表示和查询集视频表示提取得到支持集帧级特征和查询集帧级特征，获得支持集时序特征和查询集时序特征。

在本发明的一个实施例中，利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子，包括：

使用时序卷积网络TCN基于所述支持集帧级特征和查询集帧级特征计算支持集时序特征和查询集时序特征，采用MLP对所述支持集时序特征和查询集时序特征进行压缩，经过softmax后得到支持集时序注意力和查询集时序注意力，将时序注意力与相应的时序特征相乘，获得支持集视频描述子和查询集的视频描述子。

在本发明的一个实施例中，分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组，通过正负样本的相对距离计算可适应边距，基于上述双三元组和可适应边距设计双三元组可适应损失，增强所述交叉增强原型对不同类别的可鉴别能力，包括：

以查询集中的样本为中心，判断所述交叉增强原型是否与该样本属于同一类，若判断结果为是，则所述交叉增强原型为正原型，反之为负原型，构建包含查询集样本、正原型和负原型元素的查询三元组；以交叉增强原型为中心，判断所述查询集中的样本是否与该交叉增强原型属于同一类，若判断结果为是，则所述样本为正查询样本，反之为负查询样本，构建包含交叉增强原型、正查询样本和负查询样本元素的原型三元组；

基于所述查询三元组和原型三元组构建双三元组损失联合优化原型，使得原型与同类样本相似度最大，与不同类样本相似度最小，且正负样本在特征空间上相隔三元组损失中可适应边距的距离。

在本发明的一个实施例中，利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类，包括：

计算得到所述支持集视频中的每类视频的交叉增强原型，并求解查询集样本与交叉增强原型的欧式距离，根据最近邻算法，确定最近的交叉增强原型类别为该查询集样本类别。

在本发明的一个实施例中，还包括：

在所述查询集视频描述子中的视频分类完成后，计算交叉熵损失、动态时序变换损失、原型可适应三元组损失和查询可适应三元组损失，将交叉熵损失、动态时序变换损失、原型三元组损失和查询三元组损失相加计算总损失。

此外，本发明还提供一种基于多维原型重构增强学习的小样本行为识别系统，包括：

视频描述子计算模块，所述视频描述子计算模块用于基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征，利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子；

动态时序变换模块，所述动态时序变换模块用于基于所述支持集时序特征求解原始时序注意力，在所述支持集时序特征上施加随机打乱重排列操作，得到支持集时序特征的补充特征，计算所述补充特征的打乱时序注意力，对所述打乱时序注意力实施逆操作得到补充时序注意力，计算所述原始时序注意力与补充时序注意力的差值，并将其作为动态时序变换损失用于优化注意力网络；

交叉增强原型计算模块，所述交叉增强原型计算模块用于利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型，并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度，根据各自对应的相似度对支持集样本和查询集样本重加权，得到两个原型，将两个原型进行加权求和得到交叉增强原型；

原型鉴别优化模块，所述原型鉴别优化模块用于分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组，通过正负样本的相对距离计算可适应边距，基于上述双三元组和可适应边距设计双三元组可适应损失，增强所述交叉增强原型对不同类别的可鉴别能力；

视频分类模块，所述视频分类模块用于利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类。

在本发明的一个实施例中，所述视频描述子计算模块包括：

视频表示构建单元，所述视频表示构建单元用于基于所述支持集样本和查询集样本分别构建支持集视频表示和查询集视频表示；

时序特征获取单元，所述时序特征获取单元根据支持集视频表示和查询集视频表示提取得到支持集帧级特征和查询集帧级特征，获得支持集时序特征和查询集时序特征。

在本发明的一个实施例中，所述原型鉴别优化模块包括：

双三元组构建单元，所述双三元组构建单元用于以查询集中的样本为中心，判断所述交叉增强原型是否与该样本属于同一类，若判断结果为是，则所述交叉增强原型为正原型，反之为负原型，构建包含查询集样本、正原型和负原型元素的查询三元组；以交叉增强原型为中心，判断所述查询集中的样本是否与该交叉增强原型属于同一类，若判断结果为是，则所述样本为正查询样本，反之为负查询样本，构建包含交叉增强原型、正查询样本和负查询样本元素的原型三元组；

联合优化单元，所述联合优化单元用于基于所述查询三元组和原型三元组构建双三元组损失联合优化原型，使得原型与同类样本相似度最大，与不同类样本相似度最小，且正负样本在特征空间上相隔三元组损失中可适应边距的距离。

在本发明的一个实施例中，还包括：

损失计算模块，所述损失计算模块用于在所述查询集视频描述子中的视频分类完成后，计算交叉熵损失、动态时序变换损失、原型可适应三元组损失和查询可适应三元组损失，将交叉熵损失、动态时序变换损失、原型三元组损失和查询三元组损失相加计算总损失。

本发明的上述技术方案相比现有技术具有以下优点：

1、本发明在交叉增强原型计算时，一方面利用重加权相似度注意力进行加权求和代替简单的平均值，有效地缩小类内存在的数据偏差问题；另一方面，通过重加权相似度注意力挑选伪样本计算复合原型，可以增强原型对类内平均水平的表征能力，并且在得到交叉增强原型后构建双三元组优化分类特征空间增强所述交叉增强原型对不同类别的可鉴别能力；

2、与原始原型网络相比，本发明可以学习到更通用的原型，同时考虑了时序信息分布偏差问题，对易混淆动作有较好的判别能力，其大大提高了分类准确度。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明基于多维原型重构增强学习的小样本行为识别方法的流程示意图。

图2是本发明基于多维原型重构增强学习的小样本行为识别方法的模型示意图。

图3是本发明动态时序变换模型图。

图4是本发明交叉增强原型计算模型图。

图5是本发明增强原型可鉴别能力的方法示意图。

图6是本发明基于多维原型重构增强学习的小样本行为识别系统的硬件结构示意图。

其中，附图标记说明如下：100、视频描述子计算模块；200、动态时序变换模块；300、交叉增强原型计算模块；400、原型鉴别优化模块；500、视频分类模块。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一

请参阅图1和2所示，本实施例提供一种基于多维原型重构增强学习的小样本行为识别方法，包括如下步骤：

S10：基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征，利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子；

S20：基于所述支持集时序特征求解原始时序注意力，在所述支持集时序特征上施加随机打乱重排列操作，得到支持集时序特征的补充特征，计算所述补充特征的打乱时序注意力，对所述打乱时序注意力实施逆操作得到补充时序注意力，计算所述原始时序注意力与补充时序注意力的差值，并将其作为动态时序变换损失用于优化注意力网络；

S30：利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型，并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度，根据各自对应的相似度对支持集样本和查询集样本重加权，得到两个原型，将两个原型进行加权求和得到交叉增强原型；

S40：分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组，通过正负样本的相对距离计算可适应边距，基于上述双三元组和可适应边距设计双三元组可适应损失，增强所述交叉增强原型对不同类别的可鉴别能力；

S50：利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类。

其中，在上述实施方式的S10中，针对支持集样本和查询集样本分别构建网络输入，可以对样本集中每个视频进行分段采样，例如将视频平均划分为T个片段，从每个片段中随机采样一帧，得到T帧作为视频的表示

最终网络输入包括两种：支持集视频表示

和查询集视频表示

其中，在上述实施方式的S10中，采用在ImageNet上预训练的ResNet50网络提取视频特征。对输入的

和

分别提取相应空间信息，得到支持集帧级特征

和查询集帧级特征

其中，在上述实施方式的S10中，使用时序卷积网络TCN基于所述支持集帧级特征

和查询集帧级特征

获得支持集时序特征

和查询集时序特征

采用MLP对所述支持集时序特征

进行压缩，经过softmax后得到支持集时序注意力

将时序注意力与相应的时序特征相乘，获得支持集视频描述子

其中

为加权求和操作。同理，查询集时序注意力

查询集视频描述子

其中，在上述实施方式的S20中，可以参阅图3所示，该步骤计算得到的支持集时序特征

按照原始帧顺序进行排列，如果支持集和查询集中动作分布不均衡，例如支持集中关键动作全部在视频刚开始时发生，而查询集中动作都发生在视频结尾，则基于支持集学习的注意力模型MLP学习到的注意力将集中在T种特征的前几种特征，未能学习到查询集的特征分布，这将导致在面向查询集的推理过程中注意力还是会倾向于前几种特征，大大降低模型的识别能力。

因此，该步骤针对上述问题，对支持集时序特征

进行时序上的顺序打散重排列操作f_r，得到支持集的补充时序特征

接着使用MLP网络计算

的打乱时序注意力

这里需要注意的是，f_r操作仅仅打乱不同时序特征的排列顺序，而特征本身没有发生改变。故对打乱时序注意力

实施f_r的逆操作，得到补充时序注意力

理论上应该与根据支持集时序特征

计算得到的支持集时序注意力

(也就是原始时序注意力

)相等。但是实际上两者会存在偏差，因此进一步计算

与

的差值，得到支持集上动态时序变换损失

其用于优化MLP网络。

其中，在上述实施方式的S30中，交叉增强原型计算的具体方法如图4所示：支持集视频描述子定义记为X_s,查询集视频描述子记为X_q，则支持集第c类视频描述子可以记为

定义三个线性映射函数f_q、f_k、f_v：

1)对

施加f_q和f_v函数，得到

和

相应地，对X_q施加f_q和f_v函数，可以得到Q_q＝f_q(X_q)＝X_qW_q，V_q＝f_v(X_q)＝X_qW_v；

2)对第c类原型，遵循原型网络，对c类视频描述子求平均得到基本原型

对

施加f_k函数得到

3)利用重加权相似度注意力计算支持集样本与类平均原型相似度

其中f_t表示矩阵转置。根据相似度对支持集c类样本重加权得到原型

4)通过伪标签策略，利用重加权相似度注意力计算Q_q与K^c的相似度

其中f_t表示矩阵转置。挑选前k个最大相似度

其中topk()用来求输入张量中某个维度的前k大的值以及对应的索引。根据每个伪样本与K^c相似度加权求和得到查询集上的重加权原型

5)最后对两个原型根据其对最终原型的贡献度进行加权求和得到交叉增强原型

其中，在上述实施方式的S40中，增强原型可鉴别能力的具体方法如图5所示：现有大多数方法都基于样本对优化原型与样本相似度，很少有方法尝试以三元组形式优化相似度。对此本发明提出一种新的相似度优化策略，构建双三元组优化分类特征空间，增强原型对不同类别的可鉴别能力。具体以查询集中的样本q_i为中心，判断所述交叉增强原型是否与该样本属于同一类，若判断结果为是，则所述交叉增强原型为正原型p_p，反之为负原型p_n，构建包含查询集样本、正原型和负原型元素的查询三元组(q_i，p_n，p_p)；以交叉增强原型p_i为中心，判断所述查询集中的样本是否与该交叉增强原型属于同一类，若判断结果为是，则所述样本为正查询样本q_p，反之为负查询样本q_n，构建包含交叉增强原型、正查询样本和负查询样本元素的原型三元组(p_i，q_n，q_p)。基于上述两种三元组，构建双三元组损失联合优化原型，使得原型与同类样本相似度最大，与不同类样本相似度最小，且正负样本在特征空间上相隔m距离，m为三元组损失中边距值。

考虑到不同任务中样本的特征空间分布不同，手工设定的边距值未必适应所有任务，本发明设计了一个可适应边距m_adp，对每个任务生成特定的边距值以区分正负样本。当正负样本距离近即相似度大时，需要一个更大的边距来区分正负样本；同理，当正负样本距离较远即相似度较小时，正负样本易于区分，仅需要一个较小的边距值。即相对距离越大，边距值越小。依据此分析，本发明应用负指数函数表示这种负关系，设计可适应边距得到原型可适应三元组损失和查询可适应三元组损失，两种可适应损失构成原型聚合可适应损失优化原型，具体包括以下步骤：

1)计算负样本平均距离

其中N_n为负样本个数；正样本平均距离为

其中N_p为正样本个数，|| ||²表示欧式距离，计算可适应边距

2)计算原型可适应三元组损失

其中N为类别个数；

3)计算查询可适应三元组损失

其中N为类别个数，K为每个类别查询样本数。

其中，在上述实施方式的S50中，利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类，包括：计算得到所述支持集视频中的每类视频的交叉增强原型，并求解查询集样本与交叉增强原型的欧式距离，根据最近邻算法，确定最近的交叉增强原型类别为该查询集样本类别。

本发明提出的一种基于多维原型重构增强学习的小样本行为识别方法还包括：

S60：在所述查询集视频描述子中的视频分类完成后，计算交叉熵损失、动态时序变换损失、原型可适应三元组损失和查询可适应三元组损失，将交叉熵损失、动态时序变换损失、原型三元组损失和查询三元组损失相加计算总损失。

具体地，计算模型总损失的方法如下：

1)计算交叉熵损失

其中y_i表示查询样本i的标签，正类为1负类为0，P_i为查询样本i预测为正类的概率；

2)计算模型总损失L＝αL_p+βL_q+γL_CEL+ηL_DTT，其中L_p和L_q分别是原型可适应三元组损失和查询可适应三元组损失，L_CEL为交叉熵损失，L_DTT为动态时序变换损失，α，β，γ，η为可学习参数，用于平衡四种损失对总损失的贡献。

为了验证本发明提出的动态时序变换、交叉增强原型和原型聚合可适应损失的有效性，我们构建了一个基础模型，该基础模型包括一个特征提取网络ResNet50，对提取的帧特征进行平均融合得到视频描述子。对每类视频采用类平均特征得到每个类的原型表示。从表1中可以看出，对于HMDB51数据集，基础网络的精度达到74.6％。在基础网络中添加原型聚合可适应损失，精度达到75.1％。在此基础上嵌入交叉增强原型，模型精度达到76.5％。在基础网络上嵌入三个模块，最终模型精度达到76.8％。这表明三种模块都对小样本行为识别的分类有正向效果。他们分别可以提取更好的视频描述子、增强原型区分不同类别的鉴别能力、重构原型有效缩小类内差异同时增强类内特征，进而提高模型分类性能。

表1在HMDB51数据集上三个模型的效果

本发明在交叉增强原型计算时，一方面利用重加权相似度注意力进行加权求和代替简单的平均值，有效地缩小类内存在的数据偏差问题；另一方面，通过重加权相似度注意力挑选伪样本计算复合原型，可以增强原型对类内平均水平的表征能力，并且在得到交叉增强原型后基于双三元组构建双三元组损失优化分类特征空间增强所述交叉增强原型对不同类别的可鉴别能力。

与原始原型网络相比，本发明可以学习到更通用的原型，同时考虑了时序信息分布偏差问题，对易混淆动作有较好的判别能力，其大大提高了分类准确度。

实施例二

下面对本发明实施例二公开的一种基于多维原型重构增强学习的小样本行为识别系统进行介绍，下文描述的一种基于多维原型重构增强学习的小样本行为识别系统与上文描述的一种基于多维原型重构增强学习的小样本行为识别方法可相互对应参照。

请参阅图6所示，本发明实施例二公开了一种基于多维原型重构增强学习的小样本行为识别系统，包括：

视频描述子计算模块100，所述视频描述子计算模块100用于基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征，利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子；

动态时序变换模块200，所述动态时序变换模块200用于基于所述支持集时序特征求解原始时序注意力，在所述支持集时序特征上施加随机打乱重排列操作，得到支持集时序特征的补充特征，计算所述补充特征的打乱时序注意力，对所述打乱时序注意力实施逆操作得到补充时序注意力，计算所述原始时序注意力与补充时序注意力的差值，并将其作为动态时序变换损失用于优化注意力网络；

交叉增强原型计算模块300，所述交叉增强原型计算模块300用于利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型，并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度，根据各自对应的相似度对支持集样本和查询集样本重加权，得到两个原型，将两个原型进行加权求和得到交叉增强原型；

原型鉴别优化模块400，所述原型鉴别优化模块400用于分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组，通过正负样本的相对距离计算可适应边距，基于上述双三元组和可适应边距设计双三元组可适应损失，增强所述交叉增强原型对不同类别的可鉴别能力；

视频分类模块500，所述视频分类模块500用于利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类。

其中，所述视频描述子计算模块100包括：

其中，所述原型鉴别优化模块400包括：

其中，还包括：

本实施例的基于多维原型重构增强学习的小样本行为识别系统用于实现前述的基于多维原型重构增强学习的小样本行为识别方法，因此该系统的具体实施方式可见前文中的基于多维原型重构增强学习的小样本行为识别方法的实施例部分，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的基于多维原型重构增强学习的小样本行为识别系统用于实现前述的基于多维原型重构增强学习的小样本行为识别方法，因此其作用与上述方法的作用相对应，这里不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于多维原型重构增强学习的小样本行为识别方法，其特征在于，包括：

基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征，利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子，包括针对支持集样本和查询集样本分别构建网络输入，对样本集中每个视频进行分段采样，得到支持集视频表示

和查询集视频表示

对输入的

和

分别提取相应空间信息，得到支持集帧级特征

和查询集帧级特征

使用时序卷积网络TCN基于所述支持集帧级特征

和查询集帧级特征

获得支持集时序特征

和查询集时序特征

采用MLP对所述支持集时序特征

和查询集时序特征

进行压缩，经过softmax后得到支持集时序注意力

和查询集时序注意力

将支持集时序注意力与相应的时序特征相乘，获得支持集视频描述子

将查询集时序注意力与相应的时序特征相乘，获得查询集视频描述子

其中

为加权求和操作；

利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型，并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度，根据各自对应的相似度对支持集样本和查询集样本重加权，得到两个原型，将两个原型进行加权求和得到交叉增强原型，包括：

支持集视频描述子定义记为X_s，查询集视频描述子记为X_q，则支持集第c类视频描述子可以记为

定义三个线性映射函数f_q、f_k、fv：

1)：对

施加f_q和f_v函数，得到

和

相应地，对X_q施加f_q和f_v函数，得到Q_q＝f_q(X_q)＝X_qW_q，V_q＝f_v(X_q)＝X_qW_v；

2)：对第c类原型，遵循原型网络，对c类视频描述子求平均得到基本原型

对

施加f_k函数得到

3)：利用重加权相似度注意力计算支持集样本与类平均原型相似度

其中f_t表示矩阵转置，根据相似度对支持集c类样本重加权得到原型

4)：通过伪标签策略，利用重加权相似度注意力计算Q_q与K^c的相似度

其中f_t表示矩阵转置，挑选前k个最大相似度

其中topk()用来求输入张量中某个维度的前k大的值以及对应的索引，根据每个伪样本与K^c相似度加权求和得到查询集上的重加权原型

5)：对两个原型根据其对最终原型的贡献度进行加权求和得到交叉增强原型

分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组，通过正负样本的相对距离计算可适应边距，基于上述双三元组和可适应边距设计双三元组可适应损失，增强所述交叉增强原型对不同类别的可鉴别能力，包括：

以查询集中的样本q_i为中心，判断所述交叉增强原型是否与该样本属于同一类，若判断结果为是，则所述交叉增强原型为正原型p_p，反之为负原型p_n，构建包含查询集样本、正原型和负原型元素的查询三元组(q_i，p_n，p_p)；以交叉增强原型p_i为中心，判断所述查询集中的样本是否与该交叉增强原型属于同一类，若判断结果为是，则所述样本为正查询样本q_p，反之为负查询样本q_n，构建包含交叉增强原型、正查询样本和负查询样本元素的原型三元组(p_i，q_n，q_p)，基于两种三元组构建双三元组损失联合优化原型，正负样本在特征空间上相隔m距离，m为三元组损失中边距值，设计可适应边距m_adp，正负样本的相对距离越大，边距值越小，可适应边距m_adp的计算公式为

其中

为负样本平均距离，N_n为负样本个数，

为正样本平均距离，N_p为正样本个数，|| ||²表示欧式距离；

2.根据权利要求1所述的基于多维原型重构增强学习的小样本行为识别方法，其特征在于，利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类，包括：

3.根据权利要求2所述的基于多维原型重构增强学习的小样本行为识别方法，其特征在于，还包括：

4.一种基于多维原型重构增强学习的小样本行为识别系统，其特征在于，包括：

视频描述子计算模块，所述视频描述子计算模块用于基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征，利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子，包括针对支持集样本和查询集样本分别构建网络输入，对样本集中每个视频进行分段采样，得到支持集视频表示

和查询集视频表示

对输入的

和

分别提取相应空间信息，得到支持集帧级特征

和查询集帧级特征

使用时序卷积网络TCN基于所述支持集帧级特征

和查询集帧级特征

获得支持集时序特征

和查询集时序特征

采用MLP对所述支持集时序特征

和查询集时序特征

进行压缩，经过softmax后得到支持集时序注意力

和查询集时序注意力

其中

为加权求和操作；

交叉增强原型计算模块，所述交叉增强原型计算模块用于利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型，并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度，根据各自对应的相似度对支持集样本和查询集样本重加权，得到两个原型，将两个原型进行加权求和得到交叉增强原型，包括：

定义三个线性映射函数f_q、f_k、f_v：

1)：对

施加f_q和f_v函数，得到

和

对

施加f_k函数得到

其中f_t表示矩阵转置，挑选前k个最大相似度

原型鉴别优化模块，所述原型鉴别优化模块用于分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组，通过正负样本的相对距离计算可适应边距，基于上述双三元组和可适应边距设计双三元组可适应损失，增强所述交叉增强原型对不同类别的可鉴别能力，包括：

以查询集中的样本q_i为中心，判断所述交叉增强原型是否与该样本属于同一类，若判断结果为是，则所述交叉增强原型为正原型p_p，反之为负原型p_n，构建包含查询集样本、正原型和负原型元素的查询三元组(q_i，p_n，p_p)；以交叉增强原型p_i为中心，判断所述查询集中的样本是否与该交叉增强原型属于同一类，若判断结果为是，则所述样本为正查询样本q_p，反之为负查询样本q_n，构建包含交叉增强原型、正查询样本和负查询样本元素的原型三元组(p_i，q_n，q_p)，基于两种三元组构建双三元组损失联合优化原型，正负样本在特征空间上相隔m距离，m为三元组损失中边距值，设计可适应边距m_adp，正负样本的相对距离越大，边距值越小，设计可适应边距m_adp，正负样本的相对距离越大，边距值越小，可适应边距m_adp的计算公式为

其中

为负样本平均距离，N_n为负样本个数，

为正样本平均距离，N_p为正样本个数，|| ||²表示欧式距离；