CN111126218A - 一种基于零样本学习的人体行为识别方法 - Google Patents

一种基于零样本学习的人体行为识别方法 Download PDF

Info

Publication number
CN111126218A
CN111126218A CN201911288489.6A CN201911288489A CN111126218A CN 111126218 A CN111126218 A CN 111126218A CN 201911288489 A CN201911288489 A CN 201911288489A CN 111126218 A CN111126218 A CN 111126218A
Authority
CN
China
Prior art keywords
class
representing
unknown
network
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911288489.6A
Other languages
English (en)
Other versions
CN111126218B (zh
Inventor
孔德慧
孙彬
王少帆
李敬华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911288489.6A priority Critical patent/CN111126218B/zh
Publication of CN111126218A publication Critical patent/CN111126218A/zh
Application granted granted Critical
Publication of CN111126218B publication Critical patent/CN111126218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Abstract

公开一种基于零样本学习的人体行为识别方法,其提高了所训练分类器的分类性能和准确率,推进了人体行为类别自动标注目标的实现。该方法包括:(1)基于动作类与动作关联物体构造知识图谱,并通过基于注意力机制的图卷积网络AMGCN动态更新其关系,旨在更好地描述图中节点的关系;(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN‑GCC,使得学习的生成器能够更好地生成未知类特征;(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络,使得训练的分类器更具判别性。

Description

一种基于零样本学习的人体行为识别方法
技术领域
本发明涉及计算机视觉和模式识别的技术领域,尤其涉及一种基于零样本学习的人体行为识别方法。
背景技术
人体行为识别是机器学习和计算机视觉领域中一个重要的研究课题,在众多研究课题中得到广泛的应用,如人机交互,视频监控,运动检索和体育视频分析等。当前,互联网技术和新兴社交媒体的飞速发展,以及人机交互技术应用领域的不断拓展,使得图像、视频等形式的数据每天都在以惊人的速度增加,所涉及的人体行为的复杂度也在与日提高,且视频类别数量也随之增长。面对呈爆炸性增长的海量视频数据,一个非常棘手的问题就是人体行为视频数据标注问题。海量数据的手工标注,不仅是一个耗时且昂贵的操作,而且容易受人的主观判断的影响,因此手工标注是一项繁琐又具主观歧义性的任务。与此同时,传统的行为识别方法囿于数据类别可扩展性的限制而不适用于识别未知类视频,无法支持自动标注功能的实现。由此可见,如何从已标注的人体行为视频中获取潜在的信息,从而对未知的视频进行有效的标注已成为目前一个迫切需要解决的问题。因此,零样本人体行为识别方法最近受到广泛的关注,其核心任务是在不提供同类别训练数据的前提下对未知标签的行为数据进行识别。
众所周知,模型的训练非常依赖数据的标注,所以零样本学习问题给基于机器学习的模型训练带来了挑战。已有解决零样本学习问题的方法主要可分为两类:(1)手工定义动作属性并利用动作与属性的关系来区分新的动作类。然而,人的主观因素、领域知识的缺乏使得确定用于描述所有动作的一组属性非常困难。此外,尽管属性可以看作是数据驱动的学习,但是它们的语义含义可能是未知的或不恰当的。所以基于属性的方法很难有效解决海量类别的零样本学习问题。(2)采用动作名称的语义表示(例如,词嵌入)来建模语义空间中的动作与动作的关系实现分类。尽管这些方法简单有效,但词嵌入空间只能以隐式方式表示动作与动作的关系,所以分类性能较差。
上述两类方法忽略了动作类别间存在的内涵式关系和外延关系,导致以上零样本学习方法的泛化能力较差。实际上,人类使用经验学习的语义知识,可借助概念语义内涵与外延的关联,推而广之地使自己具有识别更大规模概念的能力。因此,使用结构化知识信息来构建概念的关系(例如,动作和属性)能够将学到的知识从已知类迁移到未知类。一些基于图卷积网络(Graph Convolutional Networks,GCN)的方法通过将知识图谱应用于零样本学习,达成了知识迁移的目的。然而,这些方法所构建的邻接矩阵在初始设置后保持不变,这使其无法自适应地描述图中节点不断变化的关系,导致知识迁移不完整。另外,现有的零样本学习方法在训练中无法使用未知类的样本特征,这使得训练的分类器更偏向于预测已知类的样本类别。因此,在模型训练过程中提供未知类行为相关的特征,使学习到的分类器更好地适应未知类动作的分类需求,必将有效提升零样本分类方法性能。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于零样本学习的人体行为识别方法,其提高了所训练分类器的分类性能和准确率,推进了人体行为类别自动标注目标的实现。
本发明的技术方案是:这种基于零样本学习的人体行为识别方法,该方法包括以下步骤:
(1)基于动作类与动作关联物体构造知识图谱,并通过基于注意力机制的图卷积网络AMGCN动态更新其关系,旨在更好地描述图中节点的关系;
(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN-GCC,使得学习的生成器能够更好地生成未知类特征;
(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络,使得训练的分类器更具判别性。
本发明基于动作类和相关物体的关联关系构造动作知识图谱,提出一种基于注意力机制的图卷积网络,从而实现了动作类-物体关联关系的动态表达,使知识更新对模型学习的影响得以体现;另一方面,提出一种基于梯度惩罚和循环一致性约束的生成对抗网络合成未知类的动作特征,以弱化已知类和未知类训练样本不平衡的问题;实验结果表明,本发明提高了所训练分类器的分类性能和准确率,推进了人体行为类别自动标注目标的实现。
附图说明
图1示出了根据本发明的基于零样本学习的人体行为识别方法的基于注意力机制的图卷积网络。
图2示出了根据本发明的基于零样本学习的人体行为识别方法的基于梯度惩罚和循环一致性约束的生成对抗网络。
图3示出了根据本发明的基于零样本学习的人体行为识别方法的双流深度神经网络。
图4示出了在HMDB51和UCF101数据集上对本发明方法每一部分的评价。
图5示出了根据本发明的基于零样本学习的人体行为识别方法的流程图。
具体实施方式
如图5所示,这种基于零样本学习的人体行为识别方法,该方法包括以下步骤:
(1)基于动作类与动作关联物体构造知识图谱,并通过基于注意力机制的图卷积网络AMGCN动态更新其关系,旨在更好地描述图中节点的关系;
(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN-GCC,使得学习的生成器能够更好地生成未知类特征;
(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络,使得训练的分类器更具判别性。
本发明基于动作类和相关物体的关联关系构造动作知识图谱,提出一种基于注意力机制的图卷积网络,从而实现了动作类-物体关联关系的动态表达,使知识更新对模型学习的影响得以体现;另一方面,提出一种基于梯度惩罚和循环一致性约束的生成对抗网络合成未知类的动作特征,以弱化已知类和未知类训练样本不平衡的问题;实验结果表明,本发明提高了所训练分类器的分类性能和准确率,推进了人体行为类别自动标注目标的实现。
优选地,所述步骤(1)中,构建一个由已知动作类S、未知动作类U和物体O的概念组成的知识图谱,并使用这些概念相应的词向量作为知识图谱中的节点;然后通过ConceptNet可以确定节点间的初始关系并用邻接矩阵A表示,其中A的每一个元素Aij表示第i个节点和第j个节点的关系;
Figure BDA0002314823770000041
为已知类的训练集,其中
Figure BDA0002314823770000042
表示特征,
Figure BDA0002314823770000043
中的y表示一个已知类的标签,
Figure BDA0002314823770000044
表示特定类的词向量,
Figure BDA0002314823770000045
在训练过程中是可用的,其中
Figure BDA0002314823770000051
中的u表示一个未知类的标签,
Figure BDA0002314823770000052
表示相应类的词向量,未知类的样本特征在训练中是不可用的。
优选地,所述步骤(1)中,图卷积网络将C=S+U个动作类和O个物体信息的词向量以及邻接矩阵A作为输入,通过网络每一层之间信息的传递和计算,获取所有动作类的分类器
Figure BDA0002314823770000053
和所有物体分类器
Figure BDA0002314823770000054
其中O个物体分类器充当了已知和未知类动作之间的桥梁;每一层GCN都是将上一层的特征矩阵Zl-1作为输入,并输出新的特征矩阵Zl,其中第一层的输入是一个k×(C+O)维的特征矩阵,k表示每个特征的维度;网络中每一层的卷积运算表示为公式(1)
Figure BDA0002314823770000055
其中
Figure BDA0002314823770000056
A表示邻接矩阵,I表示单位矩阵,Φ(l-1)表示第l-1层的参数矩阵;每一层后都跟随一个ReLU函数,为了使得训练的动作类分类器具有更强的分类能力,在每一次迭代后,将更新动作-物体、物体-物体和动作-动作之间的关系,通过公式(2)更新邻接矩阵A:
Figure BDA0002314823770000057
其中
Figure BDA0002314823770000058
表示第j个节点的k近邻;图卷积网络在训练时使用的交叉熵损失函数为公式(3):
Figure BDA0002314823770000059
其中
Figure BDA00023148237700000510
表示第n个样本关于第i个类的标签(0或1),N表示已知类训练样本个数和未知类合成样本个数之和,
Figure BDA00023148237700000511
表示预测的分数,为公式(4):
Figure BDA0002314823770000061
其中
Figure BDA0002314823770000062
Figure BDA0002314823770000063
表示第i类动作的第n个样本。
优选地,所述步骤(2)中,WGAN-GCC的损失函数由梯度惩罚约束的WGAN损失函数
Figure BDA0002314823770000064
和循环一致性损失函数
Figure BDA0002314823770000065
两部分组成,为公式(5):
Figure BDA0002314823770000066
梯度惩罚约束的WGAN的损失函数为公式(6):
Figure BDA0002314823770000067
其中
Figure BDA0002314823770000068
λ是惩罚系数,前两项近似于Wasserstein距离,第三项是对D的梯度惩罚项;这里的判别器为
Figure BDA0002314823770000069
它去除了sigmoid层并且输出为实值;期望生成的特征具有较强的判别能力,以便可以使用相同类的特征重建类的词向量,加入解码器使合成特征
Figure BDA00023148237700000610
重建词向量c(y),这里使用的循环一致性损失函数为公式(7):
Figure BDA00023148237700000611
其中
Figure BDA00023148237700000612
表示重构的词向量;
通过训练基于梯度惩罚和循环一致性约束的生成对抗网络,通过生成器生成未知类的特征;给定未知类
Figure BDA00023148237700000613
的词向量c(u)和随机高斯噪声
Figure BDA00023148237700000614
通过计算
Figure BDA00023148237700000615
合成任意特征
Figure BDA00023148237700000616
从而获得合成的训练集
Figure BDA00023148237700000617
优选地,所述步骤(3)中,首先训练WGAN-GCC,生成未知类特征,并与已知类的特征一起作为AMGCN的训练样本;然后,通过AMGCN同时训练已知类的分类器和未知类的分类器。
优选地,所述步骤(3)中,在测试阶段,使用训练的分类器对测试视频进行分类,q=Wx,其中W表示分类器矩阵,x表示测试样本,
Figure BDA0002314823770000071
表示预测的标签向量,该向量中最大元素所在的维度即为预测的类别。
以下更详细地说明本发明。
本发明提出一种新的基于零样本学习的人体行为识别方法。其基本思想是:首先,基于动作类与动作关联物体构造知识图谱,并通过图卷积网络动态更新其关系,旨在更好地描述图中节点的关系(如图1所示)。然后,学习一种改进的生成对抗网络,使得学习的生成器能够更好地生成未知类特征(如图2所示)。最后,将两个网络结合(如图3所示),使得训练的分类器更具判别性。
定义
Figure BDA0002314823770000072
为已知类的训练集,其中
Figure BDA0002314823770000073
表示特征,
Figure BDA0002314823770000074
中的y表示一个已知类的标签,
Figure BDA0002314823770000075
表示特定类的词向量。此外,
Figure BDA0002314823770000076
在训练过程中是可用的,其中
Figure BDA0002314823770000077
中的u表示一个未知类的标签,
Figure BDA0002314823770000078
表示相应类的词向量,未知类的样本特征在训练中是不可用的。
(1)基于注意力机制的图卷积网络分类器训练
为了能够更好描述动作类和相关物体的关联关系,本发明提出了一种基于注意力机制的图卷积网络(Attention mechanism based graph convolution network,AMGCN),从而动态地表达动作类-物体的关系(如图1所示)。本发明构建一个由已知动作类(S)、未知动作类(U)和物体(O)的概念组成的知识图谱,并使用这些概念相应的词向量作为知识图谱中的节点。然后通过ConceptNet可以确定节点间的初始关系并用邻接矩阵A表示,其中A的每一个元素Aij表示第i个节点和第j个节点的关系。
本发明设计的GCN将C=S+U个动作类和O个物体信息的词向量以及邻接矩阵A作为输入,通过网络每一层之间信息的传递和计算,获取所有动作类的分类器
Figure BDA0002314823770000081
和所有物体分类器
Figure BDA0002314823770000082
其中O个物体分类器充当了已知和未知类动作之间的桥梁。每一层GCN都是将上一层的特征矩阵Zl-1作为输入,并输出新的特征矩阵Zl,其中第一层的输入是一个k×(C+O)维的特征矩阵,k表示每个特征的维度。网络中每一层的卷积运算可表示为
Figure BDA0002314823770000083
其中
Figure BDA0002314823770000084
A表示邻接矩阵,I表示单位矩阵,Φ(l-1)表示第l-1层的参数矩阵。每一层后都会跟随一个ReLU函数。为了使得训练的动作类分类器具有更强的分类能力,在每一次迭代后,我们将会更新动作-物体、物体-物体和动作-动作之间的关系,也就是通过下式更新邻接矩阵A:
Figure BDA0002314823770000085
其中
Figure BDA0002314823770000086
表示第j个节点的k近邻。本发明设计的GCN在训练时使用的交叉熵损失函数为:
Figure BDA0002314823770000087
其中
Figure BDA0002314823770000088
表示第n个样本关于第i个类的标签(0或1),N表示已知类训练样本个数和未知类合成样本个数之和,
Figure BDA0002314823770000089
表示预测的分数,即:
Figure BDA00023148237700000810
其中
Figure BDA00023148237700000811
Figure BDA00023148237700000812
表示第i类动作的第n个样本。
(2)基于梯度惩罚和循环一致性约束的WGAN样本生成模型
给定已知类的训练数据,我们希望使用未知类的词向量c(u)来合成未知类的数据,从而减小已知类与未知类训练样本不平衡的问题。一种有效的方法就是通过GAN合成一些未知类的“假”样本。GAN由生成器G和判别器D组成,其中,生成器用于生成“假”样本,判别器用于判别样本是真实的还是合成的。一般情况下,通过给定语义描述,GAN可以合成未知对象的图片。然而,本发明的研究对象为人体行为视频而不是图片,所以我们提出了一种基于梯度惩罚和循环一致性约束的WGAN(Wasserstein Generative Adversarial Networkbased on Gradient penalty and Cycle-consistency Constraint,WGAN-GCC)合成未知类的样本特征,如图2所示,其中c(y)表示每个类的词向量。WGAN-GCC的损失函数由梯度惩罚约束的WGAN损失函数
Figure BDA0002314823770000091
和循环一致性损失函数
Figure BDA0002314823770000092
两部分组成,即:
Figure BDA0002314823770000093
梯度惩罚约束的WGAN的损失函数为:
Figure BDA0002314823770000094
其中
Figure BDA0002314823770000095
λ是惩罚系数。前两项近似于Wasserstein距离,第三项是对D的梯度惩罚项。这里的判别器为
Figure BDA0002314823770000096
它去除了sigmoid层并且输出为实值。此外,我们期望生成的特征具有较强的判别能力,以便可以使用相同类的特征重建类的词向量。因此,我们加入解码器使合成特征
Figure BDA0002314823770000097
重建词向量c(y)。这里使用的循环一致性损失函数为:
Figure BDA0002314823770000098
其中
Figure BDA0002314823770000099
表示重构的词向量。
通过训练WGAN-GCC,就可以通过生成器生成未知类的特征。给定未知类
Figure BDA00023148237700000910
的词向量c(u)和随机高斯噪声
Figure BDA00023148237700000911
通过计算
Figure BDA00023148237700000912
可以合成任意特征
Figure BDA00023148237700000913
从而可以获得合成的训练集
Figure BDA00023148237700000914
(3)双流深度神经网络、
通过生成未知类特征,可以为基于注意力机制的图卷积网络训练分类器提供更多的未知类训练样本,增强其分类性能和泛化能力。因此,本发明结合上述两个网络提出双流深度神经网络(Two stream deep neural network,TSDNN),如图3所示。这样,训练样本就包括已知类样本特征和虚拟未知类的样本特征。训练期间,本发明首先训练WGAN-GCC,生成未知类特征,并与已知类的特征一起作为AMGCN的训练样本(如图3上半部分所示)。然后,通过AMGCN同时训练已知类的分类器和未知类的分类器。在测试阶段,本发明使用训练的分类器对测试视频进行分类,即q=Wx,其中W表示分类器矩阵,x表示测试样本,
Figure BDA0002314823770000101
表示预测的标签向量,该向量中最大元素所在的维度即为预测的类别。通过图4可以看出本发明方法使用或不使用WGAN-GCC和注意力机制对性能的影响,其中Ours表示本发明方法,Ours-NoGAN表示不使用WGAN-GCC的方法,Ours-NoAt表示不使用注意力机制的方法。对于Ours-NoGAN,该方法在训练中没有未知类的合成特征,这使得学习的分类器对未知类的样本分类性能降低。对于Ours-NoAt,该方法在训练中没有动态地更新邻接矩阵A,这使得动作-动作、动作-物体、物体-物体之间的关系不能自适应地进行调整,所以训练得到的分类器分类性能下降。结果清楚地表明,结合WGAN-GCC和注意力机制的GCN对于零样本学习都是重要且有效的。
本发明使用HMDB51数据库和UCF101数据库,针对零样本学习(Zero-shotlearning,ZSL)和广义零样本学习(Generalized zero-shot learning,GZSL)两种不同的任务验证本发明的有效性。在训练阶段,对于ZSL和GZSL这两种任务,已知类的样本和属性都是可用的。在测试阶段,对于ZSL任务,训练的模型只对未知类的数据进行评价;对GZSL任务,训练的模型要同时对已知类和未知类的数据进行评价。
在ZSL任务上的实验结果如表1所示,其中BoW表示词袋模型,FV表示FisherVector,I3D表示Inflated 3D,W表示词向量(word2vec)。从表中可以看出,本发明在UCF101数据集和HMDB51数据集上均取得了最好的识别效果。与传统方法(ZSECOC、UR等)相比,本发明和一些深度学习的方法性能更优。与最近的方法UR、CLSWGAN和CEWGAN相比,本发明在HMDB51数据集上性能分别提升了6.8%、2.1%和1%,在UCF101数据集上性能分别提升了10.8%、2.5%和1.4%。这些结果证明了本发明的有效性。此外,本发明的性能具有更小的标准差,这表明,本发明具有较稳定的识别性能。在GZSL任务上的实验结果如表2所示,从表中可以看出本发明在两个数据集上分类结果优于对比方法,分别在HMDB51和UCF101数据集上达到了36.4%和37.6%的识别率。与目前最优的CEWGAN相比,本发明具有较优的性能。
表3展示了本发明与使用GAN的有关方法的对比,其中s、u、H分别表示已知类的准确率、未知类的准确率和它们的调和平均数,即:
Figure BDA0002314823770000111
从表3可以看出,本发明方法的准确率是最佳的。本发明方法的结果明显好于CLSWGAN和CEWGAN,本发明方法相比于这两种方法在两个数据集上性能分别提升了3.7%/5.2%、2.8%/3.9%,这说明设计一个合理的分类器可以明显的提升性能。与CEWGAN-OD相比,本发明方法在未知类上的准确率略差,但是在已知类上的准确率明显优于对方,总体准确率也占优。CEWGAN-OD在未知类上的准确率性能较优的部分原因是该方法加入了OD(out-of-distribution)检测器,可以在分类前先检测每个样本是否属于已知类,从而提升了分类性能。而本发明方法并没有加入OD检测器,只用一个共用的分类器进行分类,依然能达到较优的总体分类性能。
表1
Figure BDA0002314823770000112
Figure BDA0002314823770000121
表2
Figure BDA0002314823770000122
表3
Figure BDA0002314823770000123
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (6)

1.一种基于零样本学习的人体行为识别方法,其特征在于:该方法包括以下步骤:
(1)基于动作类与动作关联物体构造知识图谱,并通过基于注意力机制的图卷积网络AMGCN动态更新其关系,旨在更好地描述图中节点的关系;
(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN-GCC,使得学习的生成器能够更好地生成未知类特征;
(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络,使得训练的分类器更具判别性。
2.根据权利要求1所述的基于零样本学习的人体行为识别方法,其特征在于:所述步骤(1)中,构建一个由已知动作类S、未知动作类U和物体O的概念组成的知识图谱,并使用这些概念相应的词向量作为知识图谱中的节点;然后通过ConceptNet可以确定节点间的初始关系并用邻接矩阵A表示,其中A的每一个元素Aij表示第i个节点和第j个节点的关系;
Figure FDA0002314823760000011
为已知类的训练集,其中
Figure FDA0002314823760000012
表示特征,
Figure FDA0002314823760000013
中的y表示一个已知类的标签,
Figure FDA0002314823760000014
表示特定类的词向量,
Figure FDA0002314823760000015
在训练过程中是可用的,其中
Figure FDA0002314823760000016
中的u表示一个未知类的标签,
Figure FDA0002314823760000017
表示相应类的词向量,未知类的样本特征在训练中是不可用的。
3.根据权利要求2所述的基于零样本学习的人体行为识别方法,其特征在于:所述步骤(1)中,
图卷积网络将C=S+U个动作类和O个物体信息的词向量以及邻接矩阵A作为输入,通过网络每一层之间信息的传递和计算,获取所有动作类的分类器
Figure FDA0002314823760000021
和所有物体分类器
Figure FDA0002314823760000022
其中O个物体分类器充当了已知和未知类动作之间的桥梁;每一层GCN都是将上一层的特征矩阵Zl-1作为输入,并输出新的特征矩阵Zl,其中第一层的输入是一个k×(C+O)维的特征矩阵,k表示每个特征的维度;网络中每一层的卷积运算表示为公式(1)
Figure FDA0002314823760000023
其中
Figure FDA0002314823760000024
A表示邻接矩阵,I表示单位矩阵,Φ(l-1)表示第l-1层的参数矩阵;每一层后都跟随一个ReLU函数,为了使得训练的动作类分类器具有更强的分类能力,在每一次迭代后,将更新动作-物体、物体-物体和动作-动作之间的关系,通过公式(2)更新邻接矩阵A:
Figure FDA0002314823760000025
其中
Figure FDA0002314823760000026
表示第j个节点的k近邻;图卷积网络在训练时使用的交叉熵损失函数为公式(3):
Figure FDA0002314823760000027
其中
Figure FDA0002314823760000028
表示第n个样本关于第i个类的标签(0或1),N表示已知类训练样本个数和未知类合成样本个数之和,
Figure FDA0002314823760000029
表示预测的分数,为公式(4):
Figure FDA00023148237600000210
其中
Figure FDA00023148237600000211
Figure FDA00023148237600000212
表示第i类动作的第n个样本。
4.根据权利要求3所述的基于零样本学习的人体行为识别方法,其特征在于:所述步骤(2)中,WGAN-GCC的损失函数由梯度惩罚约束的WGAN损失函数
Figure FDA0002314823760000031
和循环一致性损失函数
Figure FDA0002314823760000032
两部分组成,为公式(5):
Figure FDA0002314823760000033
梯度惩罚约束的WGAN的损失函数为公式(6):
Figure FDA0002314823760000034
其中
Figure FDA0002314823760000035
λ是惩罚系数,前两项近似于Wasserstein距离,第三项是对D的梯度惩罚项;这里的判别器为
Figure FDA0002314823760000036
它去除了sigmoid层并且输出为实值;期望生成的特征具有较强的判别能力,以便可以使用相同类的特征重建类的词向量,加入解码器使合成特征
Figure FDA0002314823760000037
重建词向量c(y),这里使用的循环一致性损失函数为公式(7):
Figure FDA0002314823760000038
其中
Figure FDA0002314823760000039
表示重构的词向量;
通过训练基于梯度惩罚和循环一致性约束的生成对抗网络,通过生成器生成未知类的特征;给定未知类
Figure FDA00023148237600000310
的词向量c(u)和随机高斯噪声
Figure FDA00023148237600000311
通过计算
Figure FDA00023148237600000312
合成任意特征
Figure FDA00023148237600000313
从而获得合成的训练集
Figure FDA00023148237600000314
5.根据权利要求4所述的基于零样本学习的人体行为识别方法,其特征在于:所述步骤(3)中,首先训练WGAN-GCC,生成未知类特征,并与已知类的特征一起作为AMGCN的训练样本;然后,通过AMGCN同时训练已知类的分类器和未知类的分类器。
6.根据权利要求5所述的基于零样本学习的人体行为识别方法,其特征在于:所述步骤(3)中,在测试阶段,使用训练的分类器对测试视频进行分类,q=Wx,其中W表示分类器矩阵,x表示测试样本,
Figure FDA0002314823760000041
表示预测的标签向量,该向量中最大元素所在的维度即为预测的类别。
CN201911288489.6A 2019-12-12 2019-12-12 一种基于零样本学习的人体行为识别方法 Active CN111126218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911288489.6A CN111126218B (zh) 2019-12-12 2019-12-12 一种基于零样本学习的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911288489.6A CN111126218B (zh) 2019-12-12 2019-12-12 一种基于零样本学习的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN111126218A true CN111126218A (zh) 2020-05-08
CN111126218B CN111126218B (zh) 2023-09-26

Family

ID=70498832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911288489.6A Active CN111126218B (zh) 2019-12-12 2019-12-12 一种基于零样本学习的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN111126218B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723729A (zh) * 2020-06-18 2020-09-29 成都颜禾曦科技有限公司 基于知识图谱的监控视频犬类姿态和行为智能识别方法
CN112100392A (zh) * 2020-07-28 2020-12-18 浙江大学 一种基于强化学习和知识图谱的设备故障溯因方法
CN112100380A (zh) * 2020-09-16 2020-12-18 浙江大学 一种基于知识图谱的生成式零样本预测方法
CN112307914A (zh) * 2020-10-20 2021-02-02 西北工业大学 一种基于文本信息指导的开放域图像内容识别方法
CN112364895A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于属性继承的图卷积网络零样本学习方法
CN112488241A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于多粒度融合网络的零样本图片识别方法
CN113269274A (zh) * 2021-06-18 2021-08-17 南昌航空大学 一种基于循环一致性的零样本识别方法及系统
CN113313039A (zh) * 2021-05-31 2021-08-27 西安电子科技大学 基于动作知识库与集成学习的视频行为识别方法及系统
CN113705507A (zh) * 2021-09-02 2021-11-26 上海交通大学 基于深度学习的混合现实开集人体姿态识别方法
CN113887580A (zh) * 2021-09-15 2022-01-04 天津大学 一种考虑多粒度类相关性的对比式开放集识别方法及装置
CN113920379A (zh) * 2021-11-09 2022-01-11 北京工业大学 一种基于知识辅助的零样本图像分类方法
CN114004223A (zh) * 2021-10-12 2022-02-01 北京理工大学 一种基于行为基的事件知识表示方法
WO2022188493A1 (zh) * 2021-03-12 2022-09-15 北京沃东天骏信息技术有限公司 物体可供性的检测方法和装置
US11798225B2 (en) 2021-08-11 2023-10-24 Here Global B.V. 3D building generation using topology
CN112307914B (zh) * 2020-10-20 2024-05-14 西北工业大学 一种基于文本信息指导的开放域图像内容识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107553490A (zh) * 2017-09-08 2018-01-09 深圳市唯特视科技有限公司 一种基于深度学习的单目视觉避障方法
US20180225516A1 (en) * 2017-02-06 2018-08-09 Brown University Method and system for automated behavior classification of test subjects
CN108596026A (zh) * 2018-03-16 2018-09-28 中国科学院自动化研究所 基于双流生成对抗网络的跨视角步态识别装置及训练方法
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109190665A (zh) * 2018-07-30 2019-01-11 国网上海市电力公司 一种基于半监督生成对抗网络的通用图像分类方法和装置
CN109190524A (zh) * 2018-08-17 2019-01-11 南通大学 一种基于生成对抗网络的人体动作识别方法
CN109711452A (zh) * 2018-12-20 2019-05-03 四川新网银行股份有限公司 一种基于wgan-gp模型对用户行为的不平衡分类方法
CN110222771A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种零样本图片的类别识别方法
CN110334781A (zh) * 2019-06-10 2019-10-15 大连理工大学 一种基于Res-Gan的零样本学习算法
WO2019222401A2 (en) * 2018-05-17 2019-11-21 Magic Leap, Inc. Gradient adversarial training of neural networks

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225516A1 (en) * 2017-02-06 2018-08-09 Brown University Method and system for automated behavior classification of test subjects
CN107553490A (zh) * 2017-09-08 2018-01-09 深圳市唯特视科技有限公司 一种基于深度学习的单目视觉避障方法
CN108596026A (zh) * 2018-03-16 2018-09-28 中国科学院自动化研究所 基于双流生成对抗网络的跨视角步态识别装置及训练方法
WO2019222401A2 (en) * 2018-05-17 2019-11-21 Magic Leap, Inc. Gradient adversarial training of neural networks
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109190665A (zh) * 2018-07-30 2019-01-11 国网上海市电力公司 一种基于半监督生成对抗网络的通用图像分类方法和装置
CN109190524A (zh) * 2018-08-17 2019-01-11 南通大学 一种基于生成对抗网络的人体动作识别方法
CN109711452A (zh) * 2018-12-20 2019-05-03 四川新网银行股份有限公司 一种基于wgan-gp模型对用户行为的不平衡分类方法
CN110222771A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种零样本图片的类别识别方法
CN110334781A (zh) * 2019-06-10 2019-10-15 大连理工大学 一种基于Res-Gan的零样本学习算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUN XU 等: "Semantic embedding space for zero-shot action recognition", 2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) *
林克正 等: "语义自编码结合关系网络的零样本图像识别算法", 模式识别与人工智能 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723729A (zh) * 2020-06-18 2020-09-29 成都颜禾曦科技有限公司 基于知识图谱的监控视频犬类姿态和行为智能识别方法
CN111723729B (zh) * 2020-06-18 2022-08-05 四川千图禾科技有限公司 基于知识图谱的监控视频犬类姿态和行为智能识别方法
CN112100392B (zh) * 2020-07-28 2022-03-15 浙江大学 一种基于强化学习和知识图谱的设备故障溯因方法
CN112100392A (zh) * 2020-07-28 2020-12-18 浙江大学 一种基于强化学习和知识图谱的设备故障溯因方法
CN112100380A (zh) * 2020-09-16 2020-12-18 浙江大学 一种基于知识图谱的生成式零样本预测方法
CN112100380B (zh) * 2020-09-16 2022-07-12 浙江大学 一种基于知识图谱的生成式零样本预测方法
CN112307914A (zh) * 2020-10-20 2021-02-02 西北工业大学 一种基于文本信息指导的开放域图像内容识别方法
CN112307914B (zh) * 2020-10-20 2024-05-14 西北工业大学 一种基于文本信息指导的开放域图像内容识别方法
CN112364895A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于属性继承的图卷积网络零样本学习方法
CN112364895B (zh) * 2020-10-23 2023-04-07 天津大学 一种基于属性继承的图卷积网络零样本学习方法
CN112488241A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于多粒度融合网络的零样本图片识别方法
CN112488241B (zh) * 2020-12-18 2022-04-19 贵州大学 一种基于多粒度融合网络的零样本图片识别方法
WO2022188493A1 (zh) * 2021-03-12 2022-09-15 北京沃东天骏信息技术有限公司 物体可供性的检测方法和装置
CN113313039A (zh) * 2021-05-31 2021-08-27 西安电子科技大学 基于动作知识库与集成学习的视频行为识别方法及系统
CN113313039B (zh) * 2021-05-31 2023-07-25 西安电子科技大学 基于动作知识库与集成学习的视频行为识别方法及系统
CN113269274A (zh) * 2021-06-18 2021-08-17 南昌航空大学 一种基于循环一致性的零样本识别方法及系统
US11798225B2 (en) 2021-08-11 2023-10-24 Here Global B.V. 3D building generation using topology
CN113705507A (zh) * 2021-09-02 2021-11-26 上海交通大学 基于深度学习的混合现实开集人体姿态识别方法
CN113705507B (zh) * 2021-09-02 2023-09-19 上海交通大学 基于深度学习的混合现实开集人体姿态识别方法
CN113887580A (zh) * 2021-09-15 2022-01-04 天津大学 一种考虑多粒度类相关性的对比式开放集识别方法及装置
CN114004223A (zh) * 2021-10-12 2022-02-01 北京理工大学 一种基于行为基的事件知识表示方法
CN114004223B (zh) * 2021-10-12 2022-05-24 北京理工大学 一种基于行为基的事件知识表示方法
CN113920379A (zh) * 2021-11-09 2022-01-11 北京工业大学 一种基于知识辅助的零样本图像分类方法

Also Published As

Publication number Publication date
CN111126218B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN111126218A (zh) 一种基于零样本学习的人体行为识别方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
Guanghui et al. Multi-modal emotion recognition by fusing correlation features of speech-visual
Xie et al. A survey on machine learning-based mobile big data analysis: Challenges and applications
CN112633010B (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN111709518A (zh) 一种基于社区感知和关系注意力的增强网络表示学习的方法
CN111160163B (zh) 一种基于区域关系建模和信息融合建模的表情识别方法
CN110853656B (zh) 基于改进神经网络的音频篡改识别方法
CN110196928B (zh) 完全并行化具有领域扩展性的端到端多轮对话系统及方法
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN115131698A (zh) 视频属性确定方法、装置、设备及存储介质
CN116662565A (zh) 基于对比学习预训练的异质信息网络关键词生成方法
CN116976505A (zh) 基于信息共享的解耦注意网络的点击率预测方法
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
Liu et al. Time-Frequency Representation Learning with Graph Convolutional Network for Dialogue-Level Speech Emotion Recognition.
Xu et al. CNN-based skip-gram method for improving classification accuracy of chinese text
CN116467513A (zh) 基于注意力机制的多模态知识图谱推荐方法、装置及介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN114691981A (zh) 一种会话推荐方法、系统、装置及存储介质
CN113159976A (zh) 一种微博网络重要用户的识别方法
Sra et al. Deepspace: Mood-based image texture generation for virtual reality from music
CN113239143A (zh) 融合电网故障案例库的输变电设备故障处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant