CN112001345B - 基于特征变换度量网络的少样本人体行为识别方法及系统 - Google Patents

基于特征变换度量网络的少样本人体行为识别方法及系统 Download PDF

Info

Publication number
CN112001345B
CN112001345B CN202010893758.8A CN202010893758A CN112001345B CN 112001345 B CN112001345 B CN 112001345B CN 202010893758 A CN202010893758 A CN 202010893758A CN 112001345 B CN112001345 B CN 112001345B
Authority
CN
China
Prior art keywords
feature
transformation
feature map
video
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010893758.8A
Other languages
English (en)
Other versions
CN112001345A (zh
Inventor
原春锋
杜杨
胡卫明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010893758.8A priority Critical patent/CN112001345B/zh
Publication of CN112001345A publication Critical patent/CN112001345A/zh
Application granted granted Critical
Publication of CN112001345B publication Critical patent/CN112001345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明涉及一种基于特征变换度量网络的少样本人体行为识别方法及系统,包括:对多个原始视频进行特征图提取,得到各原始视频的空间特征图;并划分成支持特征图和查询特征图;根据支持特征图和查询特征图,得到变换支持特征图和变换查询特征图;进而得到特征度量距离;根据特征度量距离及查询视频的行为类别,建立识别模型;根据识别模型及待识别视频,确定待识别视频对应的行为类别。本发明基于特征变换网络,通过将特征转移到行为类别中心的偏移位置,能够减小特征类内距离及增大特征类间差异,极大地减小分类难度;并进一步基于特征度量网络,可提高特征度量的精确度,从而可提高少样本人体行为识别精度。

Description

基于特征变换度量网络的少样本人体行为识别方法及系统
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于特征变换度量网络的少样本人体行为识别(Few-shot Human Action Recognition)方法及系统。
背景技术
人体行为识别是计算机视觉的一个重要研究领域,人的行为可以定义为人的身体所主张的任何具体行为。人体行为识别被广泛地应用于计算机视觉的诸多领域当中,如智能视频监控、病人监护系统、人机交互、虚拟现实、智能家居、智能安防、运动员辅助训练等。
少样本学习下人体行为识别的目标是,在每个行为新类别只有少量或者没有训练数据的条件下,自动地分析视频或者是图像序列中人正在进行的行为。
在少样本学习中,当每个新类别只有一个或很少几个训练样本可用时,这对深度学习中的参数微调提出了巨大挑战。在这样一个有限的数据环境中,数据增强和正则化技术可以缓解过度拟合,但它们并不能解决这个问题。因此,现在的许多少样本学习的方法将训练过程分解为辅助的元学习阶段。在这个阶段中,模型学习到良好的参数初始化、特征嵌入模式以及优化策略等这些迁移知识。然后,在新的少样本的分类任务上,能够通过参数微调的方式快速地从少量的样本中学习到各个类别的特征模式。或者通过计算每个样本的特征表示,然后通过距离度量的方式,按距离最近的方式来分类新样本。
具体地,少样本学习大致可以分为元学习、度量学习和基于记忆模型的三种方法。1)元学习方法主要是学习一个优化方法,可以让预训练的模型可以迅速在只有少量训练数据的数据库上得到有效训练,然后对新的没有见过的类别进行分类的方法。2)基于记忆模型的方法通常使用循环递归神经网络遍历输入的新样本,使用积累的知识来对新的输入样本进行分类。3)基于度量学习的方法,先在训练库学习一个特征嵌入模型,然后直接在测试数据库上计算输入样本在嵌入空间的特征向量表示,最后度量这些样本与少量标签数据之间的特征距离,最近邻特征的标签作为分类结果。
基于度量学习的方法的最大问题在于不同行为类别的视觉特征在特征空间可能非常接近,以至于很难去区分,这是因为样本过少容易引发过拟合问题,神经网络模型很难学到每个行为类别充分的特征表示。通过在特征空间可视化行为特征的分布情况会发现,这些不同行为类别的视觉特征在特征空间的特征点,呈现出类内距离大、类间距离小的情况,这会对后续的特征分类带来极大的挑战。
发明内容
为了解决现有技术中的上述问题,即为了解决样本过少所引发的深度神经网络过拟合的技术问题,提高少样本人体行为识别效率,本发明提供一种基于特征变换度量网络的少样本人体行为识别方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种基于特征变换度量网络的少样本人体行为识别方法,所述识别方法包括:
对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
将各所述空间特征图划分成支持特征图和查询特征图;
基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
可选地,所述对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,具体包括:
针对任一原始视频,将所述原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T;
计算各段视频的特征图平均值,得到视频特征图
Figure BDA0002657775500000034
Figure BDA0002657775500000031
根据所述视频特征图
Figure BDA0002657775500000032
计算所述原始视频的空间特征图fθ
Figure BDA0002657775500000033
其中,θ是嵌入函数,表示特征嵌入空间。
可选地,所述基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图,具体包括:
根据以下公式,计算所述支持特征图里各空间位置的局部特征中心:
Figure BDA0002657775500000041
其中,随机划分特征嵌入空间θ里的支持特征图fθ,s={xs}和查询特征图fθ,q={xq},其中{x}是空间特征图fθ里所有空间位置的局部特征集合,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量,xs,k,i为第k类第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,
Figure BDA0002657775500000042
为第k类空间特征图fθ里第i个空间位置的局部特征中心;
计算第k类的第i个位置的局部特征中心
Figure BDA0002657775500000043
和第i个位置任意类别的支持特征xs,i的残差Δs,k,i
Figure BDA0002657775500000044
根据所述特征变换网络及残差Δs,k,i,得到非线性残差输出δs,k,i
Figure BDA0002657775500000045
其中,Φ(.)为特征变换函数;
根据以下公式,分别计算变换支持特征图和变换查询特征图:
Figure BDA0002657775500000046
Figure BDA0002657775500000047
Figure BDA0002657775500000048
其中,ak,i为局部特征中心
Figure BDA0002657775500000051
的特征迁移变换得分,w和b分别为可学习的参数,xs,i为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,
Figure BDA0002657775500000052
为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换支持特征图,xq,i为第q个查询视频的空间特征图fθ里第i个空间位置的局部特征,
Figure BDA0002657775500000053
为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图。
可选地,所述基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离,具体包括:
根据以下公式,计算所述变换支持特征图的局部支持特征中心:
Figure BDA0002657775500000054
其中,S表示支持视频的个数,
Figure BDA0002657775500000055
表示变换支持特征图的局部支持特征中心,
Figure BDA0002657775500000056
表示第k类第s个支持视频的空间特征图fθ里第i个空间位置的变换局部特征,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量;
根据以下公式,计算所述变换查询特征图与局部支持特征中心的欧氏距离de
Figure BDA0002657775500000057
其中,
Figure BDA0002657775500000058
为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图;
根据以下公式,计算所述局部查询特征与局部支持特征中心的余弦相似度dc
Figure BDA0002657775500000061
根据以下公式,计算所述余弦相似度加权后的欧氏距离λq,k,i
Figure BDA0002657775500000062
其中,λ∈[0,∞]表示欧氏距离的加权系数;
根据以下公式,计算得到加权后的欧氏距离dq,k,i
Figure BDA0002657775500000063
根据以下公式,计算所述加权距离输入到特征度量网络后的距离度量dq,k
Figure BDA0002657775500000064
其中,D为非线性函数来,WH空间位置的个数。
可选地,非线性函数D为由两个包含64个3×3卷积核的卷积模块、批正则化层和一个两层的全连接层组成;全连接层使用线性整流激活函数且不使用批正则化,第一个全连接层的输出为1024维,第二个全连接层输出为1维。
可选地,所述根据所述特征度量距离,及查询视频的行为类别,建立识别模型,具体包括:
Figure BDA0002657775500000065
其中,y为行为类别,k′为遍历所有行为类别的序号,dq,k′为加权距离输入到特征度量网络后的距离度量,min(.)为取最小值函数,arg(.)为取自变量函数。
可选地,所述识别方法还包括:更新所述特征变换网络。
可选地,所述更新所述特征变换网络,具体包括:
根据以下公式,计算查询视频在正确类别上的概率pθ,Φ,D
Figure BDA0002657775500000071
其中,D为非线性函数,Φ(.)为特征变换函数,θ为特征嵌入空间,K为正确类别,Zq为查询视频,y为行为类别,k′为遍历所有行为类别的序号,C为总的类别数;
根据以下公式,计算每个特征点向各个局部特征支持中心的迁移得分:
Figure BDA0002657775500000072
其中,WH空间位置的个数,Zs为支持视频,i为空间位置序号;
根据以下公式,计算正确类别K所对应的负对数预测概率,得到分类损失Jc
Jc(θ,Φ,D)=-logpθ,Φ,D(y=K|Zq);
根据以下公式,计算
Figure BDA0002657775500000073
Figure BDA0002657775500000074
的负对数,得到特征变换损失Ja
Figure BDA0002657775500000075
通过同时对分类损失Jc和特征变换损失Ja进行最小化,来学习嵌入函数θ、特征变换函数Φ和特征度量函数D的参数,以更新所述特征变换网络。
为解决上述技术问题,本发明还提供了如下方案:
一种基于特征变换度量网络的少样本人体行为识别系统,所述识别系统包括:
提取单元,用于对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
划分单元,用于将各所述空间特征图划分成支持特征图和查询特征图;
变换单元,用于基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
计算单元,用于基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
建立单元,用于根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
识别单元,用于根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
可选地,所述提取单元包括:
均分模块,用于针对任一原始视频,将所述原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T;
第一计算模块,用于计算各段视频的特征图平均值,得到视频特征图
Figure BDA0002657775500000081
Figure BDA0002657775500000082
第二计算模块,用于根据所述视频特征图
Figure BDA0002657775500000083
计算所述原始视频的空间特征图fθ
Figure BDA0002657775500000091
其中,其中,θ是嵌入函数,表示特征嵌入空间。
根据本发明的实施例,本发明公开了以下技术效果:
本发明通过对多个原始视频进行特征图提取,得到空间特征图;基于特征变换网络,通过将特征转移到行为类别中心的偏移位置,能够减小特征类内距离及增大特征类间差异,极大地减小分类难度;并进一步基于特征度量网络,可提高特征度量的精确度,从而可提高少样本人体行为识别精度。
附图说明
图1是本发明基于特征变换度量网络的少样本人体行为识别方法的流程图;
图2是本发明的特征变换网络效果示意图;
图3是本发明的两种特征度量方式分析图;
图4是本发明基于特征变换度量网络的少样本人体行为识别系统的模块结构示意图。
符号说明:
提取单元—1,划分单元—2,变换单元—3,计算单元—4,建立单元-5,识别单元—6。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的提供一种基于特征变换度量网络的少样本人体行为识别方法,通过对多个原始视频进行特征图提取,得到空间特征图;基于特征变换网络,通过将特征转移到行为类别中心的偏移位置,能够减小特征类内距离及增大特征类间差异,极大地减小分类难度;并进一步基于特征度量网络,可提高特征度量的精确度,从而可提高少样本人体行为识别精度。
其中,特征变换网络层,其在网络参数学习的训练阶段,学习每个特征与其正确行为类别特征中心之间的非线性残差,在少样本人体行为分类的测试阶段,将网络预测的非线性残差与原特征相加,使其移动到正确行为类别特征中心的偏移位置。
特征度量网络层,使用余弦相似度加权欧氏距离,并将加权结果输入到卷积网络中,用于学习特征距离度量参数。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于特征变换度量网络的少样本人体行为识别方法,包括:
步骤100:对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
步骤200:将各所述空间特征图划分成支持特征图和查询特征图;
步骤300:基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
步骤400:基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
步骤500:根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
步骤600:根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
其中,在步骤100中,所述对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,具体包括:
步骤101:针对任一原始视频,将所述原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T。
例如输入一个时间长度为L帧的视频Z,将其均匀地分为T段,每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t)。
步骤102:计算各段视频的特征图平均值,得到视频特征图
Figure BDA0002657775500000111
Figure BDA0002657775500000112
步骤102:根据所述视频特征图
Figure BDA0002657775500000113
计算所述原始视频的空间特征图fθ
Figure BDA0002657775500000114
其中,θ是嵌入函数,表示特征嵌入空间。
本发明使用四个卷积神经网络模块实现。具体地,每个卷积模块包含64个3×3的卷积滤波器、批正则化层和线性整流激活函数。本发明仅仅在嵌入函数前面两个卷积模块使用2×2的最大池化函数。
在步骤200中,随机划分特征嵌入空间θ的空间特征图fθ为支持特征图何查询特征图,其中支持特征图fθ,s={xs}和查询特征图fθ,q={xq},其中{x}是特征图fθ里所有空间位置的局部特征集合。
在步骤300中,所述基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图,具体包括:
步骤301:根据以下公式,计算所述支持特征图里各空间位置的局部特征中心:
Figure BDA0002657775500000121
其中,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量,xs,k,i为第k类第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,
Figure BDA0002657775500000122
为第k类空间特征图fθ里第i个空间位置的局部特征中心。
步骤302:计算第k类的第i个位置的局部特征中心
Figure BDA0002657775500000123
和第i个位置任意类别的支持特征xs,i的残差Δs,k,i
Figure BDA0002657775500000124
步骤303:根据所述特征变换网络及残差Δs,k,i,得到非线性残差输出δs,k,i
Figure BDA0002657775500000125
其中,Φ(.)为特征变换函数;特征变换函数由4个卷积模块组成,每一个卷积模块由64个3×3的卷积滤波器和批正则化层组成。
步骤304:根据以下公式,分别计算变换支持特征图和变换查询特征图:
Figure BDA0002657775500000131
Figure BDA0002657775500000132
Figure BDA0002657775500000133
其中,ak,i为局部特征中心
Figure BDA0002657775500000134
的特征迁移变换得分,w和b分别为可学习的参数,xs,i为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,
Figure BDA0002657775500000135
为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换支持特征图,xq,i为第q个查询视频的空间特征图fθ里第i个空间位置的局部特征,
Figure BDA0002657775500000136
为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图。
本发明首先为每个局部特征支持中心
Figure BDA0002657775500000137
定义一个特征迁移变换得分ak,i,具体定义如下:
其中,w和b都是可学习的参数。因此,收缩变换后的支持特征通过以下方式重建:
Figure BDA0002657775500000138
最后,这些收缩的特征通过一个线性整流激活函数。在理想的情况下,本发明可以学到以下的一个特征收缩变换:
Figure BDA0002657775500000139
其中k表示xs,i的正确类别。只有其对应的正确特征中心的得分被设置为1,其余的都为0。而I(·)是一个关于残差的线性函数。可以保持待迁移的类别中心位置不变。但是实际上,如果让Φ为一个线性的I(·),将很难为每个正确的类别中心学到一个最高的得分a,因为这些类别中心本身可能在特征空间的位置就很难区分。因此,本发明使用非线性的Φ来实现类别中心偏移从而改变类间距离。
查询特征收缩迁移变换后的特征
Figure BDA0002657775500000141
通过使用q来替换步骤2c-步骤2e中的s得到:
Figure BDA0002657775500000142
本发明的特征变换模型在理论上可以被解释成对局部特征描述符的一个非线性扩展应用,在这里将会进行详细地解释。一般地,给定N个维度为M的局部特征表示
Figure BDA0002657775500000143
作为输入和C个聚类中心
Figure BDA0002657775500000144
这C个聚类中心可以看做是视觉单词。局部特征描述符的核心思想是,对每个聚类中心ci,寻找离其最近的所有fk的集合,然后计算集合中每个fk与聚类中心ci的残差,并对这些残差计算加权和,作为这些局部特征在该聚类中心ci的表示vi。最后,将对所有聚类中心
Figure BDA0002657775500000145
计算得到的vi串联起来,作为对这些局部特征的全局编码表示。在神经网络中,很难对每个特征硬性地选择离某个聚类中心最近,因此这里使用了另一种表示,使用一个得分来表示fk离各个聚类中心的距离。即实现离其最近的聚类中心得分趋近于1,而离其最远的聚类中心则得分趋近于0。若使用局部特征描述符对这些局部特征进行编码,本发明可以得到一个特征表示V={vi}∈RC×M,其中vi可以通过以下方式计算:
Figure BDA0002657775500000146
如果使用xs,i或者xq,i替换ci,使用
Figure BDA0002657775500000151
替换fk,并且忽略Φ的影响,即是
Figure BDA0002657775500000152
Figure BDA0002657775500000153
或者xq,i
那么特征变换后的特征如下所示(这里以支持特征为例):
Figure BDA0002657775500000154
这种相似性的直观解释如图2所示,图2中(a)部分为特征变换表示,图2中(b)部分为局部特征描述符表示。通过这个表示,本发明找到离输入查询特征最近的支持中心,计算残差,然后将原始特征加上残差转移到最近的类别中心。但是,最近的支持中心可能不是对应的正确类别。因此,本发明将在后续的训练损失函数中约束每个支持特征的得分,并使用支持特征中心的标签对其进行约束,强制迁移到正确的类别中心。
原始的局部特征描述符是一个线性模型,不同的类可能在特征空间中的表示非常接近,而仅通过线性变化来学习通用的变换函数,使特征迁移到相应类别的支持中心是比较困难的。
本发明变换网络使用的非线性变换函数Φ可以被视为一个非线性局部特征描述符的表示,可以实现对分布较近的类别中心的位置先进行偏移,然后再将同类特征进行收缩的作用。
在步骤400中,所述基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离,具体包括:
步骤401:根据以下公式,计算所述变换支持特征图的局部支持特征中心:
Figure BDA0002657775500000155
其中,S表示支持视频的个数,
Figure BDA0002657775500000161
表示变换支持特征图的局部支持特征中心,
Figure BDA0002657775500000162
表示第k类第s个支持视频的空间特征图fθ里第i个空间位置的变换局部特征,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量。
步骤402:根据以下公式,计算所述变换查询特征图与局部支持特征中心的欧氏距离de
Figure BDA0002657775500000163
其中,
Figure BDA0002657775500000164
为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图。
步骤403:根据以下公式,计算所述局部查询特征与局部支持特征中心的余弦相似度dc
Figure BDA0002657775500000165
步骤404:根据以下公式,计算所述余弦相似度加权后的欧氏距离λq,k,i
Figure BDA0002657775500000166
其中,λ∈[0,∞]表示欧氏距离的加权系数。
通过这种距离度量方式,在最小化d的时候可以让欧氏距离和角度同时优化为0,从而克服单独使用余弦相似度或者欧氏距离的限制,如图3所示,(a)在一方面,当两个特征向量与目标特征向量具有相同的余弦相似度时,它们与目标特征向量值间的欧氏距离并不唯一,而且有可能出现角度相同,欧氏距离很大的情况。(b)在另一方面,当两个特征点与目标特征点的欧式距离相同时,它们与目标特征点间的角度也并不唯一。这两种情况均可能造成错误分类。
步骤405:根据以下公式,计算得到加权后的欧氏距离dq,k,i
Figure BDA0002657775500000171
步骤406:根据以下公式,计算所述加权距离输入到特征度量网络后的距离度量dq,k
Figure BDA0002657775500000172
其中,D为非线性函数来,WH空间位置的个数。
在本实施例中,非线性函数D为由两个包含64个3×3卷积核的卷积模块、批正则化层和一个两层的全连接层组成;全连接层使用线性整流激活函数且不使用批正则化,第一个全连接层的输出为1024维,第二个全连接层输出为1维。
优选地,在步骤500中,所述根据所述特征度量距离,及查询视频的行为类别,建立识别模型,具体包括:
Figure BDA0002657775500000173
其中,y为行为类别,k′为遍历所有行为类别的序号,dq,k′为加权距离输入到特征度量网络后的距离度量,min(.)为取最小值函数,arg(.)为取自变量函数。
进一步地,本发明基于特征变换度量网络的少样本人体行为识别方法还包括:步骤700:更新所述特征变换网络。
具体地,所述更新所述特征变换网络,包括:
步骤701:根据以下公式,计算查询视频在正确类别上的概率pθ,Φ,D
Figure BDA0002657775500000174
其中,D为非线性函数,Φ(.)为特征变换函数,θ为特征嵌入空间,K为正确类别,Zq为查询视频,y为行为类别,k′为遍历所有行为类别的序号,C为总的类别数。
在本实施例中,设计所述查询视频的分类损失函数。该损失函数的作用是,计算查询视频在其正确类别上的概率,然后通过最大化其对应的正确类别的概率,学习网络参数。本发明使用负距离的Softmax归一化输出,生成了一个针对于查询视频跨越各个类别的分布。
步骤702:根据以下公式,计算每个特征点向各个局部特征支持中心的迁移得分:
Figure BDA0002657775500000181
其中,WH空间位置的个数,Zs为支持视频,i为空间位置序号。
步骤703:根据以下公式,计算正确类别K所对应的负对数预测概率,得到分类损失Jc
Jc(θ,Φ,D)=-logpθ,Φ,D(y=K|Zq)。
步骤704:根据以下公式,计算
Figure BDA0002657775500000182
Figure BDA0002657775500000183
的负对数,得到特征变换损失Ja
Figure BDA0002657775500000184
步骤705:通过同时对分类损失Jc和特征变换损失Ja进行最小化,来学习嵌入函数θ、特征变换函数Φ和特征度量函数D的参数,以更新所述特征变换网络。
此外,本发明还提供一种基于特征变换度量网络的少样本人体行为识别系统,可解决样本过少所引发的深度神经网络过拟合的技术问题,提高少样本人体行为识别效率。
如图4所示,本发明基于特征变换度量网络的少样本人体行为识别系统包括提取单元1、划分单元2、变换单元3、计算单元4、建立单元5及识别单元6。
其中,所述提取单元1用于对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示。
所述划分单元2用于将各所述空间特征图划分成支持特征图和查询特征图。
所述变换单元3用于基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图。
所述计算单元4用于基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离。
所述建立单元5用于根据所述特征度量距离,及查询视频的行为类别,建立识别模型。
所述识别单元6用于根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
进一步地,所述提取单元1包括均分模块、第一计算模块及第二计算模块。
其中,所述均分模块用于针对任一原始视频,将所述原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T;
所述第一计算模块用于计算各段视频的特征图平均值,得到视频特征图
Figure BDA0002657775500000191
Figure BDA0002657775500000201
所述第二计算模块用于根据所述视频特征图
Figure BDA0002657775500000202
计算所述原始视频的空间特征图fθ
Figure BDA0002657775500000203
其中,其中,θ是嵌入函数,表示特征嵌入空间。
此外,本发明还提供了一种基于特征变换度量网络的少样本人体行为识别系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
将各所述空间特征图划分成支持特征图和查询特征图;
基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
将各所述空间特征图划分成支持特征图和查询特征图;
基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别。
相对于现有技术,本发明基于特征变换度量网络的少样本人体行为识别系统、计算机可读存储介质与上述基于特征变换度量网络的少样本人体行为识别方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种基于特征变换度量网络的少样本人体行为识别方法,其特征在于,所述识别方法包括:
对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
将各所述空间特征图划分成支持特征图和查询特征图;
基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别;
其中,基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图,具体包括:
根据以下公式,计算所述支持特征图里各空间位置的局部特征中心:
Figure FDA0003780044400000011
其中,随机划分特征嵌入空间θ里的支持特征图fθ,s={xs}和查询特征图fθ,q={xq},其中{x}是空间特征图fθ里所有空间位置的局部特征集合,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量,xs,k,i为第k类第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,
Figure FDA0003780044400000012
为第k类空间特征图fθ里第i个空间位置的局部特征中心;
计算第k类的第i个位置的局部特征中心
Figure FDA0003780044400000021
和第i个位置任意类别的支持特征xs,i的残差Δs,k,i
Figure FDA0003780044400000022
根据所述特征变换网络及残差Δs,k,i,得到非线性残差输出δs,k,i
Figure FDA0003780044400000023
其中,Φ(.)为特征变换函数;
根据以下公式,分别计算变换支持特征图和变换查询特征图:
Figure FDA0003780044400000024
Figure FDA0003780044400000025
Figure FDA0003780044400000026
其中,ak,i为局部特征中心
Figure FDA0003780044400000027
的特征迁移变换得分,w和b分别为可学习的参数,xs,i为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,
Figure FDA0003780044400000028
为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换支持特征图,xq,i为第q个查询视频的空间特征图fθ里第i个空间位置的局部特征,
Figure FDA0003780044400000029
为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离,具体包括:
根据以下公式,计算所述变换支持特征图的局部支持特征中心:
Figure FDA00037800444000000210
其中,S表示支持视频的个数,
Figure FDA0003780044400000031
表示变换支持特征图的局部支持特征中心,
Figure FDA0003780044400000032
表示第k类第s个支持视频的空间特征图fθ里第i个空间位置的变换局部特征,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量;
根据以下公式,计算所述变换查询特征图与局部支持特征中心的欧氏距离de
Figure FDA0003780044400000033
其中,
Figure FDA0003780044400000034
为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图;
根据以下公式,计算所述变换 查询特征与局部支持特征中心的余弦相似度dc
Figure FDA0003780044400000035
根据以下公式,计算所述余弦相似度加权后的欧氏距离λq,k,i
Figure FDA0003780044400000036
其中,λ∈[0,∞]表示欧氏距离的加权系数;
根据以下公式,计算得到加权后的欧氏距离dq,k,i
Figure FDA0003780044400000037
根据以下公式,计算所述加权距离输入到特征度量网络后的距离度量dq,k
Figure FDA0003780044400000038
其中,D为非线性函数,WH为 空间位置的个数。
2.根据权利要求1所述的基于特征变换度量网络的少样本人体行为识别方法,其特征在于,所述对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,具体包括:
针对任一原始视频,将所述原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T;
计算各段视频的特征图平均值,得到视频特征图
Figure FDA0003780044400000041
Figure FDA0003780044400000042
根据所述视频特征图
Figure FDA0003780044400000043
计算所述原始视频的空间特征图fθ
Figure FDA0003780044400000044
其中,θ是嵌入函数,表示特征嵌入空间。
3.根据权利要求2所述的基于特征变换度量网络的少样本人体行为识别方法,其特征在于,非线性函数D为由两个包含64个3×3卷积核的卷积模块、批正则化层和一个两层的全连接层组成;全连接层使用线性整流激活函数且不使用批正则化,第一个全连接层的输出为1024维,第二个全连接层输出为1维。
4.根据权利要求1所述的基于特征变换度量网络的少样本人体行为识别方法,其特征在于,所述根据所述特征度量距离,及查询视频的行为类别,建立识别模型,具体包括:
Figure FDA0003780044400000045
其中,y为行为类别,k′为遍历所有行为类别的序号,dq,k′为加权距离输入到特征度量网络后的距离度量,min(.)为取最小值函数,arg(.)为取自变量函数。
5.根据权利要求1所述的基于特征变换度量网络的少样本人体行为识别方法,其特征在于,所述识别方法还包括:更新所述特征变换网络。
6.根据权利要求5所述的基于特征变换度量网络的少样本人体行为识别方法,其特征在于,所述更新所述特征变换网络,具体包括:
根据以下公式,计算查询视频在正确类别上的概率pθ,Φ,D
Figure FDA0003780044400000046
其中,D为非线性函数,Φ(.)为特征变换函数,θ为特征嵌入空间,K为正确类别,Zq为查询视频,y为行为类别,k′为遍历所有行为类别的序号,C为总的类别数;
根据以下公式,计算每个特征点向各个局部特征支持中心的迁移得分:
Figure FDA0003780044400000051
其中,WH为 空间位置的个数,Zs为支持视频,i为空间位置序号;
根据以下公式,计算正确类别K所对应的负对数预测概率,得到分类损失Jc
Jc(θ,Φ,D)=-logpθ,Φ,D(y=K|Zq);
根据以下公式,计算
Figure FDA0003780044400000052
Figure FDA0003780044400000053
的负对数,得到特征变换损失Ja
Figure FDA0003780044400000054
通过同时对分类损失Jc和特征变换损失Ja进行最小化,来学习嵌入函数θ、特征变换函数Φ和特征度量函数D的参数,以更新所述特征变换网络。
7.一种基于特征变换度量网络的少样本人体行为识别系统,其特征在于,所述识别系统包括:
提取单元,用于对多个原始视频进行三维卷积神经网络特征图提取,得到各原始视频的空间特征图,所述空间特征图为对应原始视频在特征空间的特征图表示;
划分单元,用于将各所述空间特征图划分成支持特征图和查询特征图;
变换单元,用于基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图;
计算单元,用于基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离;
建立单元,用于根据所述特征度量距离,及查询视频的行为类别,建立识别模型;
识别单元,用于根据所述识别模型及待识别视频,确定所述待识别视频对应的行为类别;
其中,基于特征变换网络,根据所述支持特征图和查询特征图,得到经过特征迁移收缩变换后的变换支持特征图和变换查询特征图,具体包括:
根据以下公式,计算所述支持特征图里各空间位置的局部特征中心:
Figure FDA0003780044400000061
其中,随机划分特征嵌入空间θ里的支持特征图fθ,s={xs}和查询特征图fθ,q={xq},其中{x}是空间特征图fθ里所有空间位置的局部特征集合,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量,xs,k,i为第k类第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,
Figure FDA0003780044400000062
为第k类空间特征图fθ里第i个空间位置的局部特征中心;
计算第k类的第i个位置的局部特征中心
Figure FDA0003780044400000063
和第i个位置任意类别的支持特征xs,i的残差Δs,k,i
Figure FDA0003780044400000064
根据所述特征变换网络及残差Δs,k,i,得到非线性残差输出δs,k,i
Figure FDA0003780044400000065
其中,Φ(.)为特征变换函数;
根据以下公式,分别计算变换支持特征图和变换查询特征图:
Figure FDA0003780044400000066
Figure FDA0003780044400000067
Figure FDA0003780044400000071
其中,ak,i为局部特征中心
Figure FDA0003780044400000072
的特征迁移变换得分,w和b分别为可学习的参数,xs,i为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征,
Figure FDA0003780044400000073
为第s个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换支持特征图,xq,i为第q个查询视频的空间特征图fθ里第i个空间位置的局部特征,
Figure FDA0003780044400000074
为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图;
基于特征度量网络,根据各所述变换支持特征图和变换查询特征图,得到各变换支持特征图与各变换查询特征图间的特征度量距离,具体包括:
根据以下公式,计算所述变换支持特征图的局部支持特征中心:
Figure FDA0003780044400000075
其中,S表示支持视频的个数,
Figure FDA0003780044400000076
表示变换支持特征图的局部支持特征中心,
Figure FDA0003780044400000077
表示第k类第s个支持视频的空间特征图fθ里第i个空间位置的变换局部特征,k为类别序号,i是特征图里空间位置的序号,S是每个行为类别支持样本数量;
根据以下公式,计算所述变换查询特征图与局部支持特征中心的欧氏距离de
Figure FDA0003780044400000078
其中,
Figure FDA0003780044400000079
为第q个支持视频的空间特征图fθ里第i个空间位置的局部特征的变换查询特征图;
根据以下公式,计算所述变换 查询特征与局部支持特征中心的余弦相似度dc
Figure FDA00037800444000000710
根据以下公式,计算所述余弦相似度加权后的欧氏距离λq,k,i
Figure FDA0003780044400000081
其中,λ∈[0,∞]表示欧氏距离的加权系数;
根据以下公式,计算得到加权后的欧氏距离dq,k,i
Figure FDA0003780044400000082
根据以下公式,计算所述加权距离输入到特征度量网络后的距离度量dq,k
Figure FDA0003780044400000083
其中,D为非线性函数,WH为 空间位置的个数。
8.根据权利要求7所述的基于特征变换度量网络的少样本人体行为识别系统,其特征在于,所述提取单元包括:
均分模块,用于针对任一原始视频,将所述原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T;
第一计算模块,用于计算各段视频的特征图平均值,得到视频特征图
Figure FDA0003780044400000084
Figure FDA0003780044400000085
第二计算模块,用于根据所述视频特征图
Figure FDA0003780044400000086
计算所述原始视频的空间特征图fθ
Figure FDA0003780044400000087
其中,其中,θ是嵌入函数,表示特征嵌入空间。
CN202010893758.8A 2020-08-31 2020-08-31 基于特征变换度量网络的少样本人体行为识别方法及系统 Active CN112001345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010893758.8A CN112001345B (zh) 2020-08-31 2020-08-31 基于特征变换度量网络的少样本人体行为识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010893758.8A CN112001345B (zh) 2020-08-31 2020-08-31 基于特征变换度量网络的少样本人体行为识别方法及系统

Publications (2)

Publication Number Publication Date
CN112001345A CN112001345A (zh) 2020-11-27
CN112001345B true CN112001345B (zh) 2022-09-20

Family

ID=73464793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010893758.8A Active CN112001345B (zh) 2020-08-31 2020-08-31 基于特征变换度量网络的少样本人体行为识别方法及系统

Country Status (1)

Country Link
CN (1) CN112001345B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333064B (zh) * 2021-12-31 2022-07-26 江南大学 基于多维原型重构增强学习的小样本行为识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN111461244A (zh) * 2020-04-09 2020-07-28 武汉大学 一种基于SimpleShot的One-Shot学习新方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN111461244A (zh) * 2020-04-09 2020-07-28 武汉大学 一种基于SimpleShot的One-Shot学习新方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Asymmetric 3D Convolutional Neural Networks for action recognition;Hao Yang等;《Pattern Recognition》;20191231;第1-12页 *
Hierarchical Disentanglement of Discriminative Latent Features for Zero-shot Learning;Bin Tong等;《Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20191231;第11467-11476页 *
SILCO: Show a Few Images, Localize the Common Object;Tao Hu等;《Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)》;20191231;第5067-5076页 *
Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection from Videos;Yang Du等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171231;第4245-4254页 *

Also Published As

Publication number Publication date
CN112001345A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN110414462B (zh) 一种无监督的跨域行人重识别方法及系统
WO2023273290A1 (zh) 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN111985581B (zh) 一种基于样本级注意力网络的少样本学习方法
CN110852168A (zh) 基于神经架构搜索的行人重识别模型构建方法及装置
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN110941734A (zh) 基于稀疏图结构的深度无监督图像检索方法
CN112070058A (zh) 人脸面部复合情感表情识别方法及系统
CN109829414B (zh) 一种基于标签不确定性和人体组件模型的行人再识别方法
CN114170333B (zh) 基于直推式半监督深度学习的图像哈希编码方法
CN115731441A (zh) 基于数据跨模态迁移学习的目标检测和姿态估计方法
CN112001345B (zh) 基于特征变换度量网络的少样本人体行为识别方法及系统
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
Chahla et al. Learned versus handcrafted features for person re-identification
CN117372877A (zh) 一种基于神经网络的星图识别方法、装置及相关介质
CN112581502A (zh) 一种基于孪生网络的目标跟踪方法
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
CN114973099A (zh) 一种基于可回溯目标识别的智能寻物方法及系统
CN115240782A (zh) 药物属性预测方法、装置、电子设备及存储介质
CN113642499A (zh) 基于计算机视觉的人体行为识别方法
CN108427967B (zh) 一种实时影像聚类方法
Jun et al. Two-view correspondence learning via complex information extraction
CN112733067B (zh) 一种面向机器人目标检测算法的数据集选择方法
Cai et al. Implementation of hybrid deep learning architecture on loop-closure detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant