CN114333064B - 基于多维原型重构增强学习的小样本行为识别方法及系统 - Google Patents

基于多维原型重构增强学习的小样本行为识别方法及系统 Download PDF

Info

Publication number
CN114333064B
CN114333064B CN202111677811.1A CN202111677811A CN114333064B CN 114333064 B CN114333064 B CN 114333064B CN 202111677811 A CN202111677811 A CN 202111677811A CN 114333064 B CN114333064 B CN 114333064B
Authority
CN
China
Prior art keywords
prototype
query
sample
time sequence
support set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111677811.1A
Other languages
English (en)
Other versions
CN114333064A (zh
Inventor
蒋敏
刘姝雯
孔军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202111677811.1A priority Critical patent/CN114333064B/zh
Publication of CN114333064A publication Critical patent/CN114333064A/zh
Application granted granted Critical
Publication of CN114333064B publication Critical patent/CN114333064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多维原型重构增强学习的小样本行为识别方法,包括在计算得到视频描述子之后,通过动态时序转换进行网络优化,计算所述支持集视频描述子中的每一类视频的类平均原型,并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度,根据各自对应的相似度对支持集样本和查询集样本重加权,得到两个原型,将两个原型进行加权求和得到交叉增强原型,并且构建双三元组优化分类特征空间增强所述交叉增强原型对不同类别的可鉴别能力,利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类,其大大提高了分类准确度。

Description

基于多维原型重构增强学习的小样本行为识别方法及系统
技术领域
本发明涉及计算机视觉技术领域,尤其是指一种基于多维原型重构增强学习的小样本行为识别方法及系统。
背景技术
随着机器视觉在理论上和实践上的不断研究,人体行为识别逐步成为一个重要分支。传统的行为识别方法可以归纳为基于RGB图像和基于视频的方法,但是这些方法都存在着严重的局限性,即需要大量的带注释数据来训练模型以正确识别动作,这带来了很昂贵的计算代价。而小样本学习旨在通过学习少量样本即可实现对新样本的分类,小样本行为识别包括两个输入:支持集视频表示和查询集视频表示,模型在支持集上训练,使用支持集特征对查询集视频表示分类。小样本学习以片段式学习训练,每个片段包含一个支持集和一个查询集。支持集中包含N个类别,每个类别包含K个样本;而查询集含有和支持集相同的N个类别,每个类别也包括K个样本,其称为N-way K-shot学习。值得注意的是,支持集的样本和查询集的样本是不相交的。小样本行为识别通常采用5-wat1-shot和5-way5-shot这两种设置进行小样本学习。
目前,面向小样本行为识别的方法主要使用原型网络。在原型网络中,首先使用特征提取网络提取视频描述子,对同类别视频特征求平均值作为该类别的原型,采用最近邻算法对查询样本进行分类。但是原型网络存在以下局限:(1)无法获取一个通用原型以更好地表示该类别的平均水平。(2)部分动作之间存在细微差异,类间可鉴别性弱。(3)训练集和测试集动作分布不均衡,不同域之间的时序信息分布偏差较显著。
基于以上考虑,迫切需要提出一种多维重构增强原型网络用于小样本行为识别。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术存在的问题,提出一种基于多维原型重构增强学习的小样本行为识别方法及系统,本发明在得到交叉增强原型后构建双三元组优化分类特征空间增强所述交叉增强原型对不同类别的可鉴别能力,其大大提高了分类准确度。
为解决上述技术问题,本发明提供一种基于多维原型重构增强学习的小样本行为识别方法,包括:
基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征,利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子;
基于所述支持集时序特征求解原始时序注意力,在所述支持集时序特征上施加随机打乱重排列操作,得到支持集时序特征的补充特征,计算所述补充特征的打乱时序注意力,对所述打乱时序注意力实施逆操作得到补充时序注意力,计算所述原始时序注意力与补充时序注意力的差值,并将其作为动态时序变换损失用于优化注意力网络;
利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型,并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度,根据各自对应的相似度对支持集样本和查询集样本重加权,得到两个原型,将两个原型进行加权求和得到交叉增强原型;
分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组,通过正负样本的相对距离计算可适应边距,基于上述双三元组和可适应边距设计双三元组可适应损失,增强所述交叉增强原型对不同类别的可鉴别能力;
利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类。
在本发明的一个实施例中,基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征,包括:
基于所述支持集样本和查询集样本分别构建支持集视频表示和查询集视频表示;
根据支持集视频表示和查询集视频表示提取得到支持集帧级特征和查询集帧级特征,获得支持集时序特征和查询集时序特征。
在本发明的一个实施例中,利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子,包括:
使用时序卷积网络TCN基于所述支持集帧级特征和查询集帧级特征计算支持集时序特征和查询集时序特征,采用MLP对所述支持集时序特征和查询集时序特征进行压缩,经过softmax后得到支持集时序注意力和查询集时序注意力,将时序注意力与相应的时序特征相乘,获得支持集视频描述子和查询集的视频描述子。
在本发明的一个实施例中,分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组,通过正负样本的相对距离计算可适应边距,基于上述双三元组和可适应边距设计双三元组可适应损失,增强所述交叉增强原型对不同类别的可鉴别能力,包括:
以查询集中的样本为中心,判断所述交叉增强原型是否与该样本属于同一类,若判断结果为是,则所述交叉增强原型为正原型,反之为负原型,构建包含查询集样本、正原型和负原型元素的查询三元组;以交叉增强原型为中心,判断所述查询集中的样本是否与该交叉增强原型属于同一类,若判断结果为是,则所述样本为正查询样本,反之为负查询样本,构建包含交叉增强原型、正查询样本和负查询样本元素的原型三元组;
基于所述查询三元组和原型三元组构建双三元组损失联合优化原型,使得原型与同类样本相似度最大,与不同类样本相似度最小,且正负样本在特征空间上相隔三元组损失中可适应边距的距离。
在本发明的一个实施例中,利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类,包括:
计算得到所述支持集视频中的每类视频的交叉增强原型,并求解查询集样本与交叉增强原型的欧式距离,根据最近邻算法,确定最近的交叉增强原型类别为该查询集样本类别。
在本发明的一个实施例中,还包括:
在所述查询集视频描述子中的视频分类完成后,计算交叉熵损失、动态时序变换损失、原型可适应三元组损失和查询可适应三元组损失,将交叉熵损失、动态时序变换损失、原型三元组损失和查询三元组损失相加计算总损失。
此外,本发明还提供一种基于多维原型重构增强学习的小样本行为识别系统,包括:
视频描述子计算模块,所述视频描述子计算模块用于基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征,利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子;
动态时序变换模块,所述动态时序变换模块用于基于所述支持集时序特征求解原始时序注意力,在所述支持集时序特征上施加随机打乱重排列操作,得到支持集时序特征的补充特征,计算所述补充特征的打乱时序注意力,对所述打乱时序注意力实施逆操作得到补充时序注意力,计算所述原始时序注意力与补充时序注意力的差值,并将其作为动态时序变换损失用于优化注意力网络;
交叉增强原型计算模块,所述交叉增强原型计算模块用于利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型,并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度,根据各自对应的相似度对支持集样本和查询集样本重加权,得到两个原型,将两个原型进行加权求和得到交叉增强原型;
原型鉴别优化模块,所述原型鉴别优化模块用于分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组,通过正负样本的相对距离计算可适应边距,基于上述双三元组和可适应边距设计双三元组可适应损失,增强所述交叉增强原型对不同类别的可鉴别能力;
视频分类模块,所述视频分类模块用于利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类。
在本发明的一个实施例中,所述视频描述子计算模块包括:
视频表示构建单元,所述视频表示构建单元用于基于所述支持集样本和查询集样本分别构建支持集视频表示和查询集视频表示;
时序特征获取单元,所述时序特征获取单元根据支持集视频表示和查询集视频表示提取得到支持集帧级特征和查询集帧级特征,获得支持集时序特征和查询集时序特征。
在本发明的一个实施例中,所述原型鉴别优化模块包括:
双三元组构建单元,所述双三元组构建单元用于以查询集中的样本为中心,判断所述交叉增强原型是否与该样本属于同一类,若判断结果为是,则所述交叉增强原型为正原型,反之为负原型,构建包含查询集样本、正原型和负原型元素的查询三元组;以交叉增强原型为中心,判断所述查询集中的样本是否与该交叉增强原型属于同一类,若判断结果为是,则所述样本为正查询样本,反之为负查询样本,构建包含交叉增强原型、正查询样本和负查询样本元素的原型三元组;
联合优化单元,所述联合优化单元用于基于所述查询三元组和原型三元组构建双三元组损失联合优化原型,使得原型与同类样本相似度最大,与不同类样本相似度最小,且正负样本在特征空间上相隔三元组损失中可适应边距的距离。
在本发明的一个实施例中,还包括:
损失计算模块,所述损失计算模块用于在所述查询集视频描述子中的视频分类完成后,计算交叉熵损失、动态时序变换损失、原型可适应三元组损失和查询可适应三元组损失,将交叉熵损失、动态时序变换损失、原型三元组损失和查询三元组损失相加计算总损失。
本发明的上述技术方案相比现有技术具有以下优点:
1、本发明在交叉增强原型计算时,一方面利用重加权相似度注意力进行加权求和代替简单的平均值,有效地缩小类内存在的数据偏差问题;另一方面,通过重加权相似度注意力挑选伪样本计算复合原型,可以增强原型对类内平均水平的表征能力,并且在得到交叉增强原型后构建双三元组优化分类特征空间增强所述交叉增强原型对不同类别的可鉴别能力;
2、与原始原型网络相比,本发明可以学习到更通用的原型,同时考虑了时序信息分布偏差问题,对易混淆动作有较好的判别能力,其大大提高了分类准确度。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明基于多维原型重构增强学习的小样本行为识别方法的流程示意图。
图2是本发明基于多维原型重构增强学习的小样本行为识别方法的模型示意图。
图3是本发明动态时序变换模型图。
图4是本发明交叉增强原型计算模型图。
图5是本发明增强原型可鉴别能力的方法示意图。
图6是本发明基于多维原型重构增强学习的小样本行为识别系统的硬件结构示意图。
其中,附图标记说明如下:100、视频描述子计算模块;200、动态时序变换模块;300、交叉增强原型计算模块;400、原型鉴别优化模块;500、视频分类模块。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一
请参阅图1和2所示,本实施例提供一种基于多维原型重构增强学习的小样本行为识别方法,包括如下步骤:
S10:基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征,利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子;
S20:基于所述支持集时序特征求解原始时序注意力,在所述支持集时序特征上施加随机打乱重排列操作,得到支持集时序特征的补充特征,计算所述补充特征的打乱时序注意力,对所述打乱时序注意力实施逆操作得到补充时序注意力,计算所述原始时序注意力与补充时序注意力的差值,并将其作为动态时序变换损失用于优化注意力网络;
S30:利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型,并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度,根据各自对应的相似度对支持集样本和查询集样本重加权,得到两个原型,将两个原型进行加权求和得到交叉增强原型;
S40:分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组,通过正负样本的相对距离计算可适应边距,基于上述双三元组和可适应边距设计双三元组可适应损失,增强所述交叉增强原型对不同类别的可鉴别能力;
S50:利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类。
其中,在上述实施方式的S10中,针对支持集样本和查询集样本分别构建网络输入,可以对样本集中每个视频进行分段采样,例如将视频平均划分为T个片段,从每个片段中随机采样一帧,得到T帧作为视频的表示
Figure BDA0003452757010000061
最终网络输入包括两种:支持集视频表示
Figure BDA0003452757010000062
和查询集视频表示
Figure BDA0003452757010000063
其中,在上述实施方式的S10中,采用在ImageNet上预训练的ResNet50网络提取视频特征。对输入的
Figure BDA0003452757010000064
Figure BDA0003452757010000065
分别提取相应空间信息,得到支持集帧级特征
Figure BDA0003452757010000066
和查询集帧级特征
Figure BDA0003452757010000067
其中,在上述实施方式的S10中,使用时序卷积网络TCN基于所述支持集帧级特征
Figure BDA0003452757010000068
和查询集帧级特征
Figure BDA0003452757010000069
获得支持集时序特征
Figure BDA00034527570100000610
和查询集时序特征
Figure BDA0003452757010000071
采用MLP对所述支持集时序特征
Figure BDA0003452757010000072
进行压缩,经过softmax后得到支持集时序注意力
Figure BDA0003452757010000073
将时序注意力与相应的时序特征相乘,获得支持集视频描述子
Figure BDA0003452757010000074
其中
Figure BDA0003452757010000075
为加权求和操作。同理,查询集时序注意力
Figure BDA0003452757010000076
查询集视频描述子
Figure BDA0003452757010000077
其中,在上述实施方式的S20中,可以参阅图3所示,该步骤计算得到的支持集时序特征
Figure BDA0003452757010000078
按照原始帧顺序进行排列,如果支持集和查询集中动作分布不均衡,例如支持集中关键动作全部在视频刚开始时发生,而查询集中动作都发生在视频结尾,则基于支持集学习的注意力模型MLP学习到的注意力将集中在T种特征的前几种特征,未能学习到查询集的特征分布,这将导致在面向查询集的推理过程中注意力还是会倾向于前几种特征,大大降低模型的识别能力。
因此,该步骤针对上述问题,对支持集时序特征
Figure BDA0003452757010000079
进行时序上的顺序打散重排列操作fr,得到支持集的补充时序特征
Figure BDA00034527570100000710
接着使用MLP网络计算
Figure BDA00034527570100000711
的打乱时序注意力
Figure BDA00034527570100000712
这里需要注意的是,fr操作仅仅打乱不同时序特征的排列顺序,而特征本身没有发生改变。故对打乱时序注意力
Figure BDA00034527570100000713
实施fr的逆操作,得到补充时序注意力
Figure BDA00034527570100000714
Figure BDA00034527570100000715
理论上应该与根据支持集时序特征
Figure BDA00034527570100000716
计算得到的支持集时序注意力
Figure BDA00034527570100000717
(也就是原始时序注意力
Figure BDA00034527570100000718
)相等。但是实际上两者会存在偏差,因此进一步计算
Figure BDA00034527570100000719
Figure BDA00034527570100000720
的差值,得到支持集上动态时序变换损失
Figure BDA00034527570100000721
其用于优化MLP网络。
其中,在上述实施方式的S30中,交叉增强原型计算的具体方法如图4所示:支持集视频描述子定义记为Xs,查询集视频描述子记为Xq,则支持集第c类视频描述子可以记为
Figure BDA00034527570100000722
定义三个线性映射函数fq、fk、fv
1)对
Figure BDA00034527570100000723
施加fq和fv函数,得到
Figure BDA00034527570100000724
Figure BDA00034527570100000725
相应地,对Xq施加fq和fv函数,可以得到Qq=fq(Xq)=XqWq,Vq=fv(Xq)=XqWv
2)对第c类原型,遵循原型网络,对c类视频描述子求平均得到基本原型
Figure BDA0003452757010000081
Figure BDA0003452757010000082
施加fk函数得到
Figure BDA0003452757010000083
3)利用重加权相似度注意力计算支持集样本与类平均原型相似度
Figure BDA0003452757010000084
其中ft表示矩阵转置。根据相似度对支持集c类样本重加权得到原型
Figure BDA0003452757010000085
4)通过伪标签策略,利用重加权相似度注意力计算Qq与Kc的相似度
Figure BDA0003452757010000086
其中ft表示矩阵转置。挑选前k个最大相似度
Figure BDA0003452757010000087
其中topk()用来求输入张量中某个维度的前k大的值以及对应的索引。根据每个伪样本与Kc相似度加权求和得到查询集上的重加权原型
Figure BDA0003452757010000088
5)最后对两个原型根据其对最终原型的贡献度进行加权求和得到交叉增强原型
Figure BDA0003452757010000089
其中,在上述实施方式的S40中,增强原型可鉴别能力的具体方法如图5所示:现有大多数方法都基于样本对优化原型与样本相似度,很少有方法尝试以三元组形式优化相似度。对此本发明提出一种新的相似度优化策略,构建双三元组优化分类特征空间,增强原型对不同类别的可鉴别能力。具体以查询集中的样本qi为中心,判断所述交叉增强原型是否与该样本属于同一类,若判断结果为是,则所述交叉增强原型为正原型pp,反之为负原型pn,构建包含查询集样本、正原型和负原型元素的查询三元组(qi,pn,pp);以交叉增强原型pi为中心,判断所述查询集中的样本是否与该交叉增强原型属于同一类,若判断结果为是,则所述样本为正查询样本qp,反之为负查询样本qn,构建包含交叉增强原型、正查询样本和负查询样本元素的原型三元组(pi,qn,qp)。基于上述两种三元组,构建双三元组损失联合优化原型,使得原型与同类样本相似度最大,与不同类样本相似度最小,且正负样本在特征空间上相隔m距离,m为三元组损失中边距值。
考虑到不同任务中样本的特征空间分布不同,手工设定的边距值未必适应所有任务,本发明设计了一个可适应边距madp,对每个任务生成特定的边距值以区分正负样本。当正负样本距离近即相似度大时,需要一个更大的边距来区分正负样本;同理,当正负样本距离较远即相似度较小时,正负样本易于区分,仅需要一个较小的边距值。即相对距离越大,边距值越小。依据此分析,本发明应用负指数函数表示这种负关系,设计可适应边距得到原型可适应三元组损失和查询可适应三元组损失,两种可适应损失构成原型聚合可适应损失优化原型,具体包括以下步骤:
1)计算负样本平均距离
Figure BDA0003452757010000091
其中Nn为负样本个数;正样本平均距离为
Figure BDA0003452757010000092
其中Np为正样本个数,|| ||2表示欧式距离,计算可适应边距
Figure BDA0003452757010000093
2)计算原型可适应三元组损失
Figure BDA0003452757010000094
其中N为类别个数;
3)计算查询可适应三元组损失
Figure BDA0003452757010000095
其中N为类别个数,K为每个类别查询样本数。
其中,在上述实施方式的S50中,利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类,包括:计算得到所述支持集视频中的每类视频的交叉增强原型,并求解查询集样本与交叉增强原型的欧式距离,根据最近邻算法,确定最近的交叉增强原型类别为该查询集样本类别。
本发明提出的一种基于多维原型重构增强学习的小样本行为识别方法还包括:
S60:在所述查询集视频描述子中的视频分类完成后,计算交叉熵损失、动态时序变换损失、原型可适应三元组损失和查询可适应三元组损失,将交叉熵损失、动态时序变换损失、原型三元组损失和查询三元组损失相加计算总损失。
具体地,计算模型总损失的方法如下:
1)计算交叉熵损失
Figure BDA0003452757010000101
其中yi表示查询样本i的标签,正类为1负类为0,Pi为查询样本i预测为正类的概率;
2)计算模型总损失L=αLp+βLq+γLCEL+ηLDTT,其中Lp和Lq分别是原型可适应三元组损失和查询可适应三元组损失,LCEL为交叉熵损失,LDTT为动态时序变换损失,α,β,γ,η为可学习参数,用于平衡四种损失对总损失的贡献。
为了验证本发明提出的动态时序变换、交叉增强原型和原型聚合可适应损失的有效性,我们构建了一个基础模型,该基础模型包括一个特征提取网络ResNet50,对提取的帧特征进行平均融合得到视频描述子。对每类视频采用类平均特征得到每个类的原型表示。从表1中可以看出,对于HMDB51数据集,基础网络的精度达到74.6%。在基础网络中添加原型聚合可适应损失,精度达到75.1%。在此基础上嵌入交叉增强原型,模型精度达到76.5%。在基础网络上嵌入三个模块,最终模型精度达到76.8%。这表明三种模块都对小样本行为识别的分类有正向效果。他们分别可以提取更好的视频描述子、增强原型区分不同类别的鉴别能力、重构原型有效缩小类内差异同时增强类内特征,进而提高模型分类性能。
表1在HMDB51数据集上三个模型的效果
Figure BDA0003452757010000102
本发明在交叉增强原型计算时,一方面利用重加权相似度注意力进行加权求和代替简单的平均值,有效地缩小类内存在的数据偏差问题;另一方面,通过重加权相似度注意力挑选伪样本计算复合原型,可以增强原型对类内平均水平的表征能力,并且在得到交叉增强原型后基于双三元组构建双三元组损失优化分类特征空间增强所述交叉增强原型对不同类别的可鉴别能力。
与原始原型网络相比,本发明可以学习到更通用的原型,同时考虑了时序信息分布偏差问题,对易混淆动作有较好的判别能力,其大大提高了分类准确度。
实施例二
下面对本发明实施例二公开的一种基于多维原型重构增强学习的小样本行为识别系统进行介绍,下文描述的一种基于多维原型重构增强学习的小样本行为识别系统与上文描述的一种基于多维原型重构增强学习的小样本行为识别方法可相互对应参照。
请参阅图6所示,本发明实施例二公开了一种基于多维原型重构增强学习的小样本行为识别系统,包括:
视频描述子计算模块100,所述视频描述子计算模块100用于基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征,利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子;
动态时序变换模块200,所述动态时序变换模块200用于基于所述支持集时序特征求解原始时序注意力,在所述支持集时序特征上施加随机打乱重排列操作,得到支持集时序特征的补充特征,计算所述补充特征的打乱时序注意力,对所述打乱时序注意力实施逆操作得到补充时序注意力,计算所述原始时序注意力与补充时序注意力的差值,并将其作为动态时序变换损失用于优化注意力网络;
交叉增强原型计算模块300,所述交叉增强原型计算模块300用于利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型,并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度,根据各自对应的相似度对支持集样本和查询集样本重加权,得到两个原型,将两个原型进行加权求和得到交叉增强原型;
原型鉴别优化模块400,所述原型鉴别优化模块400用于分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组,通过正负样本的相对距离计算可适应边距,基于上述双三元组和可适应边距设计双三元组可适应损失,增强所述交叉增强原型对不同类别的可鉴别能力;
视频分类模块500,所述视频分类模块500用于利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类。
其中,所述视频描述子计算模块100包括:
视频表示构建单元,所述视频表示构建单元用于基于所述支持集样本和查询集样本分别构建支持集视频表示和查询集视频表示;
时序特征获取单元,所述时序特征获取单元根据支持集视频表示和查询集视频表示提取得到支持集帧级特征和查询集帧级特征,获得支持集时序特征和查询集时序特征。
其中,所述原型鉴别优化模块400包括:
双三元组构建单元,所述双三元组构建单元用于以查询集中的样本为中心,判断所述交叉增强原型是否与该样本属于同一类,若判断结果为是,则所述交叉增强原型为正原型,反之为负原型,构建包含查询集样本、正原型和负原型元素的查询三元组;以交叉增强原型为中心,判断所述查询集中的样本是否与该交叉增强原型属于同一类,若判断结果为是,则所述样本为正查询样本,反之为负查询样本,构建包含交叉增强原型、正查询样本和负查询样本元素的原型三元组;
联合优化单元,所述联合优化单元用于基于所述查询三元组和原型三元组构建双三元组损失联合优化原型,使得原型与同类样本相似度最大,与不同类样本相似度最小,且正负样本在特征空间上相隔三元组损失中可适应边距的距离。
其中,还包括:
损失计算模块,所述损失计算模块用于在所述查询集视频描述子中的视频分类完成后,计算交叉熵损失、动态时序变换损失、原型可适应三元组损失和查询可适应三元组损失,将交叉熵损失、动态时序变换损失、原型三元组损失和查询三元组损失相加计算总损失。
本实施例的基于多维原型重构增强学习的小样本行为识别系统用于实现前述的基于多维原型重构增强学习的小样本行为识别方法,因此该系统的具体实施方式可见前文中的基于多维原型重构增强学习的小样本行为识别方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的基于多维原型重构增强学习的小样本行为识别系统用于实现前述的基于多维原型重构增强学习的小样本行为识别方法,因此其作用与上述方法的作用相对应,这里不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (4)

1.一种基于多维原型重构增强学习的小样本行为识别方法,其特征在于,包括:
基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征,利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子,包括针对支持集样本和查询集样本分别构建网络输入,对样本集中每个视频进行分段采样,得到支持集视频表示
Figure FDA0003657865320000011
和查询集视频表示
Figure FDA0003657865320000012
对输入的
Figure FDA0003657865320000013
Figure FDA0003657865320000014
分别提取相应空间信息,得到支持集帧级特征
Figure FDA0003657865320000015
和查询集帧级特征
Figure FDA0003657865320000016
使用时序卷积网络TCN基于所述支持集帧级特征
Figure FDA0003657865320000017
和查询集帧级特征
Figure FDA0003657865320000018
获得支持集时序特征
Figure FDA0003657865320000019
和查询集时序特征
Figure FDA00036578653200000110
采用MLP对所述支持集时序特征
Figure FDA00036578653200000111
和查询集时序特征
Figure FDA00036578653200000112
进行压缩,经过softmax后得到支持集时序注意力
Figure FDA00036578653200000113
和查询集时序注意力
Figure FDA00036578653200000114
将支持集时序注意力与相应的时序特征相乘,获得支持集视频描述子
Figure FDA00036578653200000115
将查询集时序注意力与相应的时序特征相乘,获得查询集视频描述子
Figure FDA00036578653200000116
其中
Figure FDA00036578653200000117
为加权求和操作;
基于所述支持集时序特征求解原始时序注意力,在所述支持集时序特征上施加随机打乱重排列操作,得到支持集时序特征的补充特征,计算所述补充特征的打乱时序注意力,对所述打乱时序注意力实施逆操作得到补充时序注意力,计算所述原始时序注意力与补充时序注意力的差值,并将其作为动态时序变换损失用于优化注意力网络;
利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型,并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度,根据各自对应的相似度对支持集样本和查询集样本重加权,得到两个原型,将两个原型进行加权求和得到交叉增强原型,包括:
支持集视频描述子定义记为Xs,查询集视频描述子记为Xq,则支持集第c类视频描述子可以记为
Figure FDA0003657865320000021
定义三个线性映射函数fq、fk、fv:
1):对
Figure FDA0003657865320000022
施加fq和fv函数,得到
Figure FDA0003657865320000023
Figure FDA0003657865320000024
相应地,对Xq施加fq和fv函数,得到Qq=fq(Xq)=XqWq,Vq=fv(Xq)=XqWv
2):对第c类原型,遵循原型网络,对c类视频描述子求平均得到基本原型
Figure FDA0003657865320000025
Figure FDA0003657865320000026
施加fk函数得到
Figure FDA0003657865320000027
3):利用重加权相似度注意力计算支持集样本与类平均原型相似度
Figure FDA0003657865320000028
其中ft表示矩阵转置,根据相似度对支持集c类样本重加权得到原型
Figure FDA0003657865320000029
4):通过伪标签策略,利用重加权相似度注意力计算Qq与Kc的相似度
Figure FDA00036578653200000210
其中ft表示矩阵转置,挑选前k个最大相似度
Figure FDA00036578653200000211
其中topk()用来求输入张量中某个维度的前k大的值以及对应的索引,根据每个伪样本与Kc相似度加权求和得到查询集上的重加权原型
Figure FDA00036578653200000212
5):对两个原型根据其对最终原型的贡献度进行加权求和得到交叉增强原型
Figure FDA00036578653200000213
分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组,通过正负样本的相对距离计算可适应边距,基于上述双三元组和可适应边距设计双三元组可适应损失,增强所述交叉增强原型对不同类别的可鉴别能力,包括:
以查询集中的样本qi为中心,判断所述交叉增强原型是否与该样本属于同一类,若判断结果为是,则所述交叉增强原型为正原型pp,反之为负原型pn,构建包含查询集样本、正原型和负原型元素的查询三元组(qi,pn,pp);以交叉增强原型pi为中心,判断所述查询集中的样本是否与该交叉增强原型属于同一类,若判断结果为是,则所述样本为正查询样本qp,反之为负查询样本qn,构建包含交叉增强原型、正查询样本和负查询样本元素的原型三元组(pi,qn,qp),基于两种三元组构建双三元组损失联合优化原型,正负样本在特征空间上相隔m距离,m为三元组损失中边距值,设计可适应边距madp,正负样本的相对距离越大,边距值越小,可适应边距madp的计算公式为
Figure FDA0003657865320000031
其中
Figure FDA0003657865320000032
为负样本平均距离,Nn为负样本个数,
Figure FDA0003657865320000033
为正样本平均距离,Np为正样本个数,|| ||2表示欧式距离;
利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类。
2.根据权利要求1所述的基于多维原型重构增强学习的小样本行为识别方法,其特征在于,利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类,包括:
计算得到所述支持集视频中的每类视频的交叉增强原型,并求解查询集样本与交叉增强原型的欧式距离,根据最近邻算法,确定最近的交叉增强原型类别为该查询集样本类别。
3.根据权利要求2所述的基于多维原型重构增强学习的小样本行为识别方法,其特征在于,还包括:
在所述查询集视频描述子中的视频分类完成后,计算交叉熵损失、动态时序变换损失、原型可适应三元组损失和查询可适应三元组损失,将交叉熵损失、动态时序变换损失、原型三元组损失和查询三元组损失相加计算总损失。
4.一种基于多维原型重构增强学习的小样本行为识别系统,其特征在于,包括:
视频描述子计算模块,所述视频描述子计算模块用于基于获取的支持集样本和查询集样本计算得到支持集时序特征和查询集时序特征,利用支持集时序特征和查询集时序特征计算得到支持集视频描述子和查询集的视频描述子,包括针对支持集样本和查询集样本分别构建网络输入,对样本集中每个视频进行分段采样,得到支持集视频表示
Figure FDA0003657865320000041
和查询集视频表示
Figure FDA0003657865320000042
对输入的
Figure FDA0003657865320000043
Figure FDA0003657865320000044
分别提取相应空间信息,得到支持集帧级特征
Figure FDA0003657865320000045
和查询集帧级特征
Figure FDA0003657865320000046
使用时序卷积网络TCN基于所述支持集帧级特征
Figure FDA0003657865320000047
和查询集帧级特征
Figure FDA0003657865320000048
获得支持集时序特征
Figure FDA0003657865320000049
和查询集时序特征
Figure FDA00036578653200000410
采用MLP对所述支持集时序特征
Figure FDA00036578653200000411
和查询集时序特征
Figure FDA00036578653200000412
进行压缩,经过softmax后得到支持集时序注意力
Figure FDA00036578653200000413
和查询集时序注意力
Figure FDA00036578653200000414
将支持集时序注意力与相应的时序特征相乘,获得支持集视频描述子
Figure FDA00036578653200000415
将查询集时序注意力与相应的时序特征相乘,获得查询集视频描述子
Figure FDA00036578653200000416
其中
Figure FDA00036578653200000417
为加权求和操作;
动态时序变换模块,所述动态时序变换模块用于基于所述支持集时序特征求解原始时序注意力,在所述支持集时序特征上施加随机打乱重排列操作,得到支持集时序特征的补充特征,计算所述补充特征的打乱时序注意力,对所述打乱时序注意力实施逆操作得到补充时序注意力,计算所述原始时序注意力与补充时序注意力的差值,并将其作为动态时序变换损失用于优化注意力网络;
交叉增强原型计算模块,所述交叉增强原型计算模块用于利用平均法计算所述支持集视频描述子中的每一类视频的类平均原型,并利用重加权相似度注意力分别计算查询集样本和支持集样本与类平均原型的相似度,根据各自对应的相似度对支持集样本和查询集样本重加权,得到两个原型,将两个原型进行加权求和得到交叉增强原型,包括:
支持集视频描述子定义记为Xs,查询集视频描述子记为Xq,则支持集第c类视频描述子可以记为
Figure FDA00036578653200000418
定义三个线性映射函数fq、fk、fv
1):对
Figure FDA00036578653200000419
施加fq和fv函数,得到
Figure FDA00036578653200000420
Figure FDA00036578653200000421
相应地,对Xq施加fq和fv函数,得到Qq=fq(Xq)=XqWq,Vq=fv(Xq)=XqWv
2):对第c类原型,遵循原型网络,对c类视频描述子求平均得到基本原型
Figure FDA0003657865320000051
Figure FDA0003657865320000052
施加fk函数得到
Figure FDA0003657865320000053
3):利用重加权相似度注意力计算支持集样本与类平均原型相似度
Figure FDA0003657865320000054
其中ft表示矩阵转置,根据相似度对支持集c类样本重加权得到原型
Figure FDA0003657865320000055
4):通过伪标签策略,利用重加权相似度注意力计算Qq与Kc的相似度
Figure FDA0003657865320000056
其中ft表示矩阵转置,挑选前k个最大相似度
Figure FDA0003657865320000057
其中topk()用来求输入张量中某个维度的前k大的值以及对应的索引,根据每个伪样本与Kc相似度加权求和得到查询集上的重加权原型
Figure FDA0003657865320000058
5):对两个原型根据其对最终原型的贡献度进行加权求和得到交叉增强原型
Figure FDA0003657865320000059
原型鉴别优化模块,所述原型鉴别优化模块用于分别以交叉增强原型为中心和以查询集的样本为中心构建双三元组,通过正负样本的相对距离计算可适应边距,基于上述双三元组和可适应边距设计双三元组可适应损失,增强所述交叉增强原型对不同类别的可鉴别能力,包括:
以查询集中的样本qi为中心,判断所述交叉增强原型是否与该样本属于同一类,若判断结果为是,则所述交叉增强原型为正原型pp,反之为负原型pn,构建包含查询集样本、正原型和负原型元素的查询三元组(qi,pn,pp);以交叉增强原型pi为中心,判断所述查询集中的样本是否与该交叉增强原型属于同一类,若判断结果为是,则所述样本为正查询样本qp,反之为负查询样本qn,构建包含交叉增强原型、正查询样本和负查询样本元素的原型三元组(pi,qn,qp),基于两种三元组构建双三元组损失联合优化原型,正负样本在特征空间上相隔m距离,m为三元组损失中边距值,设计可适应边距madp,正负样本的相对距离越大,边距值越小,设计可适应边距madp,正负样本的相对距离越大,边距值越小,可适应边距madp的计算公式为
Figure FDA0003657865320000061
其中
Figure FDA0003657865320000062
为负样本平均距离,Nn为负样本个数,
Figure FDA0003657865320000063
为正样本平均距离,Np为正样本个数,|| ||2表示欧式距离;
视频分类模块,所述视频分类模块用于利用优化后的所述交叉增强原型对所述查询集样本中的视频进行分类。
CN202111677811.1A 2021-12-31 2021-12-31 基于多维原型重构增强学习的小样本行为识别方法及系统 Active CN114333064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111677811.1A CN114333064B (zh) 2021-12-31 2021-12-31 基于多维原型重构增强学习的小样本行为识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111677811.1A CN114333064B (zh) 2021-12-31 2021-12-31 基于多维原型重构增强学习的小样本行为识别方法及系统

Publications (2)

Publication Number Publication Date
CN114333064A CN114333064A (zh) 2022-04-12
CN114333064B true CN114333064B (zh) 2022-07-26

Family

ID=81022194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111677811.1A Active CN114333064B (zh) 2021-12-31 2021-12-31 基于多维原型重构增强学习的小样本行为识别方法及系统

Country Status (1)

Country Link
CN (1) CN114333064B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062191A (zh) * 2022-08-16 2022-09-16 国网智能电网研究院有限公司 基于异构图的数据交互的异常行为检测方法及装置
CN116521875B (zh) * 2023-05-09 2023-10-31 江南大学 引入群体情绪感染的原型增强小样本对话情感识别方法
CN116386148B (zh) * 2023-05-30 2023-08-11 国网江西省电力有限公司超高压分公司 基于知识图谱引导的小样本动作识别方法及系统
CN116580343A (zh) * 2023-07-13 2023-08-11 合肥中科类脑智能技术有限公司 小样本行为识别方法、存储介质、控制器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569886A (zh) * 2019-08-20 2019-12-13 天津大学 一种双向通道注意力元学习的图像分类方法
CN112001345A (zh) * 2020-08-31 2020-11-27 中国科学院自动化研究所 基于特征变换度量网络的少样本人体行为识别方法及系统
CN113688878A (zh) * 2021-07-30 2021-11-23 华东师范大学 一种基于记忆力机制和图神经网络的小样本图像分类方法
CN113780345A (zh) * 2021-08-06 2021-12-10 华中科技大学 面向中小企业的基于张量注意力的小样本分类方法和系统
CN113807176A (zh) * 2021-08-13 2021-12-17 句容市紫薇草堂文化科技有限公司 一种基于多知识融合的小样本视频行为识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783713B (zh) * 2020-07-09 2022-12-02 中国科学院自动化研究所 基于关系原型网络的弱监督时序行为定位方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569886A (zh) * 2019-08-20 2019-12-13 天津大学 一种双向通道注意力元学习的图像分类方法
CN112001345A (zh) * 2020-08-31 2020-11-27 中国科学院自动化研究所 基于特征变换度量网络的少样本人体行为识别方法及系统
CN113688878A (zh) * 2021-07-30 2021-11-23 华东师范大学 一种基于记忆力机制和图神经网络的小样本图像分类方法
CN113780345A (zh) * 2021-08-06 2021-12-10 华中科技大学 面向中小企业的基于张量注意力的小样本分类方法和系统
CN113807176A (zh) * 2021-08-13 2021-12-17 句容市紫薇草堂文化科技有限公司 一种基于多知识融合的小样本视频行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Gaussian Prototype Rectification For Few-shot Image Recognition;Jinfu Lin et al.;《2021 International Joint Conference on Neural Networks》;20210920;第1-8页 *
Temperature network for few-shot learning with distribution-aware large-margin metric;Wei Zhu et al.;《Pattern Recognition》;20210106;第1-10页 *
基于双重相似度孪生网络的小样本实例分割;罗善威等;《武汉科技大学学报》;20200229;第59-66页 *

Also Published As

Publication number Publication date
CN114333064A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN114333064B (zh) 基于多维原型重构增强学习的小样本行为识别方法及系统
Gao et al. A mutually supervised graph attention network for few-shot segmentation: The perspective of fully utilizing limited samples
CN106934042B (zh) 一种知识图谱表示系统及其实施方法
Giryes et al. Deep neural networks with random gaussian weights: A universal classification strategy?
CN113177132B (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN103679132B (zh) 一种敏感图像识别方法及系统
CN112420187B (zh) 一种基于迁移联邦学习的医疗疾病分析方法
CN110647907B (zh) 利用多层分类和字典学习的多标签图像分类算法
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
Bahrami et al. Joint auto-weighted graph fusion and scalable semi-supervised learning
Fang et al. Multiscale CNNs ensemble based self-learning for hyperspectral image classification
Premachandran et al. Unsupervised learning using generative adversarial training and clustering
Niu et al. Machine learning-based framework for saliency detection in distorted images
Wang et al. Generative partial multi-view clustering
Mathan Kumar et al. Multiple kernel scale invariant feature transform and cross indexing for image search and retrieval
Wang et al. Knowledge graph embedding model with attention-based high-low level features interaction convolutional network
CN111563539A (zh) 一种基于希尔伯特-施密特独立准则子空间学习的域自适应方法
Wang et al. Few-shot node classification with extremely weak supervision
CN117435982A (zh) 一种多维度快速识别网络水军的方法
CN112528077A (zh) 基于视频嵌入的视频人脸检索方法及系统
Dornaika et al. Image-based face beauty analysis via graph-based semi-supervised learning
Li et al. Otcmr: Bridging heterogeneity gap with optimal transport for cross-modal retrieval
WO2016086731A1 (zh) 多级并行关键帧云提取方法及系统
Pereira et al. Assessing active learning strategies to improve the quality control of the soybean seed vigor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant