CN116129333A

CN116129333A - 一种基于语义探索的开集动作识别方法

Info

Publication number: CN116129333A
Application number: CN202310395174.1A
Authority: CN
Inventors: 胡雨凡; 刘红敏
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-05-16
Anticipated expiration: 2043-04-14
Also published as: CN116129333B

Abstract

本发明公开了一种基于语义探索的开集动作识别方法，包括：针对给定的输入视频，提取出预设维度的片段级视觉特征；通过联合学习显式知识语义和隐式数据语义来探索视频的语义信息；基于片段级视觉特征与视频的语义信息，获得最终的视频特征；基于所述视频特征，利用预设的识别模型实现开集动作识别。本发明的技术方案可更好地感知开放场景，并有效提升最终的识别性能。

Description

一种基于语义探索的开集动作识别方法

技术领域

本发明涉及机器视觉技术领域，特别涉及一种基于语义探索的开集动作识别方法。

背景技术

基于视频的动作识别是计算机视觉领域中的一项基本任务，旨在将视频中的动作识别为预定义的动作类别之一。预定义的动作类别被称为闭集。近年来，视频动作识别取得了巨大的成功，并在现实世界中实现了广泛的应用，例如视频检索、安防监控等。然而，由于无法检测未知动作，闭集设置中的动作识别方法在现实场景中是理想化且不切实际的。

为了克服上述限制，开集识别任务逐渐引起了学术界的广泛关注。开集识别任务指不仅能够识别训练数据集中的已知类别，而且能够对训练数据集中没有出现的未知类别对象，做出拒绝响应或标注为“未知”。然而，大多数开集识别方法应用于图像数据集，现有基于更复杂的视频数据的开集动作识别方法难以在识别已知类别的视频动作的同时从开集场景中检测出未知动作。开集动作识别比开集识别和闭集视频动作识别任务更具挑战性，因为开集动作识别模型需要处理动作的复杂时间变化和开集场景中的显著噪声。当前的开集动作识别方法缺乏知识指导，导致难以处理来自开放集场景的分布外数据。

发明内容

本发明提供了一种基于语义探索的开集动作识别方法，以解决现有的动作识别方法难以处理来自开放集场景的分布外数据的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种基于语义探索的开集动作识别方法，包括：

针对给定的输入视频，提取出预设维度的片段级视觉特征；

通过联合学习显式知识语义和隐式数据语义来探索视频的语义信息；

基于片段级视觉特征与视频的语义信息，获得最终的视频特征；

基于所述视频特征，利用预设的识别模型实现开集动作识别。

进一步地，所述通过联合学习显式知识语义和隐式数据语义来探索视频的语义信息，包括：

基于外部知识图谱构建概念关系图，获得已知类以及与已知类相关联的概念，并采用与已知类相关联的概念作为虚拟类，以模拟不可见的未知类；建模和更新概念关系图中的节点语义，将更新的节点特征作为显式知识语义；

基于已知类原型，通过原型语义结构保存策略，利用已知类和显式知识的监督信号来学习虚拟类的类原型，并作为隐式数据语义。

进一步地，所述基于外部知识图谱构建概念关系图，获得已知类以及与已知类相关联的概念，并采用与已知类相关联的概念作为虚拟类，以模拟不可见的未知类；建模和更新概念关系图中的节点语义，将更新的节点特征作为显式知识语义，包括：

采用通用知识图谱ConceptNet作为外部知识图谱来构建概念关系图；其中，对于每个已知类，使用字符串匹配将其映射到知识图中的节点，并选择其前个相关概念作为虚拟类候选，共获得个候选对象；从所有候选对象中随机选择个概念作为虚拟类；使用Glove-300初始化已知类和虚拟类的表示，构建概念关系图的节点集；其中，和均为设定的正整数值，为已知类的种类数；

利用多头图神经网络通过传播和聚合来自其邻域的信息来建模和更新概念关系图中的节点语义，并进行节点更新，得到更新后的节点特征，如下所示：

其中，和是节点特征，即类的初始化语义概念；表示串联操作；是第个注意力头的可训练权重矩阵；是预定义的注意力头数量；表示归一化的注意力系数；<·,·>是衡量两个输入之间相似度的函数；表示类对应的更新后的节点特征；表示节点的邻居节点集合，表示节点的邻居节点集合中的非节点，表示节点的特征，表示自循环的全连接层。

进一步地，所述基于已知类原型，通过原型语义结构保存策略，利用已知类和显式知识的监督信号来学习虚拟类的类原型，包括：

学习已知类的原型，然后通过保留知识空间中的语义结构并将已知类原型作为视觉空间中的虚拟类原型来估计虚拟类原型的监督信号：

其中，表示视觉语义转换函数；通过原型语义结构保存策略获得的第个虚拟类的原型；表示原型损失函数，表示均方差损失函数，表示已知类对应的更新后的节点特征，表示已知类原型，表示虚拟类对应的更新后的节点特征；

学习到的已知和虚拟原型存储在一个原型集合中，它可以通过捕获已知类和虚拟类之间的底层数据分布来表示隐式数据语义。

进一步地，所述基于片段级视觉特征与视频的语义信息，获得最终的视频特征，包括：

将显式知识语义与片段级视觉特征融合，获得知识引导的视频特征：

其中，表示类对应的更新后的节点特征；表示知识引导的视频特征，表示激活函数，表示逐帧平均后的视频特征，表示逐元素哈达玛积，表示可学习参数，表示类别的偏置；

基于知识引导的视频特征和隐式数据语义，获得最终的视频特征，如下：

其中，表示最终的视频特征，表示用于多分类问题的激活函数，表示视频特征维度。

进一步地，所述最终的视频特征分为两组，包括已知类视频特征和虚拟类视频特征。

进一步地，对于已知类视频，识别模型使用标准EDL损失进行分类：

其中，表示第c类真实标签，表示狄利克雷分布的总强度，表示已知类的学习证据。

进一步地，对于虚拟类视频，将它们的证据分布约束为均匀分布：

其中，表示均匀损失，表示未知类的学习证据，表示虚拟类样本数，表示均匀分布，表示最终损失函数。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明提供了一种基于语义探索的开集动作识别方法，该方法通过联合学习显式知识语义和隐式数据语义来探索视频丰富的语义信息。其中，显式知识语义指的是在基于外部知识图谱获得的已知类以及与已知类相关联的概念，并采用与已知类相关联的概念作为虚拟类别用于模拟不可见的未知类。此外，为了更好地感知开放场景，本方法通过已知类原型与原型语义结构保存策略估计虚拟类的类原型，并作为隐式数据语义。最终，联合考虑显式知识语义和隐式数据语义进行开集动作识别。从而可以有效提升最终的识别性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于语义探索的开集动作识别方法的流程图；

图2是本发明实施例提供的显式知识语义与隐式数据语义示例图；

图3是本发明实施例提供的语义探索模型框架图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

开集动作识别旨在学习一个能够在开放场景中对已知类进行分类和识别未知动作的识别框架。现有的开集动作识别方法通常局限于数据驱动的范例中，忽略了已知和未知类别中的丰富语义。事实上，我们人类有能力利用捕获的语义信息，即知识和经验，将样本与已知和未知类别明确区分开来。受此观察的启发，本实施例提供了一种基于语义探索的开集动作识别方法，提出了一种基于语义探索的开集动作识别框架，用于将开放场景中的未知动作定义为“未知”并分类出已知类的类别。该方法通过基于外部知识图谱的知识获取已知类的相关概念作为虚拟类并用于模拟未知类，使得本方法能够在模型训练期间模拟开放场景。此外，本方法通过已知类原型与原型语义结构保存策略估计虚拟类的类原型并作为隐式数据语义。最终，联合考虑显式知识语义和隐式数据语义进行开集动作识别，提升最终识别性能。其执行流程如图1所示，包括以下步骤：

S1，针对给定的输入视频，提取出预设维度的片段级视觉特征；

S2，通过联合学习显式知识语义和隐式数据语义来探索视频的语义信息；

S3，基于片段级视觉特征与视频的语义信息，获得最终的视频特征；

S4，基于所述视频特征，利用预设的识别模型实现开集动作识别。

下面，对本实施例方法的实现过程进行详细说明。具体地，开集动作识别旨在对已知类（闭集类）进行分类并同时识别未知类（开集类）。为了实现这一目标，本实施例提出了一个联合学习显式知识语义和隐式数据语义的统一语义探索框架。本实施例提出的方法由以下四部分组成，即问题定义、显式知识语义学习模块、隐式数据语义学习模块与模型训练与推理部分，下面一一说明。

问题定义。给定一组已知类和个视频，训练视频对表示为。其中，是由标准主干提取的片段级视觉特征，是视频的标签。与已知类对应的标签集表示为。针对开集场景，未知类集记为，其中为未知数类别数量且。未知类在模型学习和测试期间是不可知的。本方法的目标是学习一个识别模型，以便它可以在测试阶段成功地对来自已知类的动作进行分类并识别来自未知类的动作。

显式知识语义学习模块：

概念关系图构造。本方法首先采用通用知识图谱ConceptNet来构建概念关系图。对于每个已知类，本方法使用字符串匹配将其映射到知识图中的节点，并选择其前个相关概念作为虚拟类候选。然后，我们获得个候选对象，并从中随机选择个概念作为虚拟类别。为了构建概念关系图的节点集，本方法使用Glove-300初始化已知类和虚拟类的表示，为：。其中，和为设定的正整数值，表示类特征的维度。

显式知识语义提取器。本方法利用多头图神经网络通过传播和聚合来自其邻域的信息来建模和更新概念关系图中的节点语义，并进行节点更新，如下：

基于上述公式，本方法得到更新后的节点其中，表示类对应的更新后的节点特征。

知识引导的视频特征学习。使用更新的节点特征，本方法将这些显式知识语义与视频特征融合并获得知识引导的视频特征（KV特征），如下所示：

隐式数据语义学习模块：

隐式数据语义提取器。借助知识引导的视频功能，我们进一步利用视频隐式数据语义来探索视频数据本身的潜力。然而，与直接采用知识图谱模拟未知类（虚拟类）的显性知识语义不同，虚拟类数据的不足对视觉空间中未知类的识别造成了巨大障碍。为了解决这个问题，本方法通过保留语义结构，利用已知类和显式知识的监督信号来学习虚拟类的类原型。具体来说，本方法学习已知类的原型，然后通过保留知识空间中的语义结构并将已知类原型作为视觉空间中的虚拟类原型来估计虚拟类原型的监督信号：

其中，表示视觉语义转换函数；为通过原型语义结构保存策略获得的第个虚拟类的原型；表示原型损失函数，表示均方差损失函数，表示已知类对应的更新后的节点特征，表示已知类原型，表示虚拟类对应的更新后的节点特征；

最终视频特征生成。通过上述方案得到的显式知识语义与隐式数据语义如图2所示。上面学习到的已知和虚拟原型可以存储在一个原型集合中，它可以通过捕获已知类和虚拟类之间的底层数据分布来表示隐式数据语义。本方法基于上述获得的知识引导视频特征（KV特征），获得的最终视频特征表示并用于识别已知类别和未知类别，如下所示：

模型训练与推理：

本方法使用的语义探索模型框架如图3所示。将最终视频特征分成两组，即已知类视频特征和虚拟类视频特征。对于已知类视频，本方法使用标准EDL损失进行分类，对于虚拟类，本方法将它们的证据分布约束为均匀分布：

其中，表示第c类真实标签，表示狄利克雷分布的总强度，表示已知类的学习证据，表示均匀损失，表示未知类的学习证据，表示虚拟类样本数，表示均匀分布，表示最终损失函数。

下面，结合试验数据对本实施方法的优异性进行评估。

本方法采用PyTorch代码库MMAction2实现，并基于四种不同的动作识别模型进行评估，包括I3D、TSM、SlowFast和TPN。给定一个输入视频，本方法首先统一采样 32 帧并提取2048维的片段级视觉特征。对于概念关系图构建，本方法使用ConceptNet 5.5作为外部知识图谱。对于每个已知的动作类别，选择前10个相关概念作为虚拟类候选者。为了避免类别重复和语义冗余，从候选者中随机选择50个概念作为虚拟类。本方法使用 Glove-300来初始化概念关系图的节点集。每个节点用300个维度表示，并利用多头图神经网络对节点的语义进行建模和更新。本方法以 0.001的初始学习率开始训练50个时期。学习率每20个时期衰减10%直到收敛。本方法使用SGD作为优化器，批量大小为8。

基于上述，最终的测试评价结果如表1所示。

表1测试的评价结果

本实施例使用UCF-101数据集的训练集部分作为封集数据进行训练，并使用HMDB-51和MiT-v2数据集的测试集作为两个不同的开集数据进行测试。Open maF1分数表示10次未知类别选择的随机试验的均值和标准差，用于展示+1类（个已知类与一类未知类）分类性能，Open-set AUC分数是识别未知类的指标。如表1所示，本发明方法明显优于Baseline方法，Baseline指使用Bao等人提出的Dear方法。在使用SlowFast作为动作识别主干并假设HMDB-51数据集为未知类时，Open maF1分数为88.89%和Open-set AUC分数为84.52%，获得最佳性能。此外，还展示了假设MiT-v2数据集为未知类的开集性能结果。在SlowFast动作识别主干上获得了最好结果，79.54%的Open maF1分数和88.56%的Open-setAUC分数。

此外，本实施例分析了使用MiT-v2数据集作为未知类且I3D作为动作识别骨干时的已知类样本和未知类样本分布。本实施例采用不确定性分数来呈现未知类样本检测性能，并将具有高不确定性的样本分类为未知类别。得到不确定性为0.0的直方图明显低于Baseline方法，说明了本发明减少了被错误分类的具有高置信度分数的未知样本的数量。

综上，本实施例提供了一种基于语义探索的开集动作识别方法，通过联合学习显式知识语义和隐式数据语义来探索视频丰富的语义信息。其中，显式知识语义指的是在基于外部知识图谱获得的已知类以及与已知类相关联的概念，并采用与已知类相关联的概念作为虚拟类别用于模拟不可见的未知类。此外，为了更好地感知开放场景，本方法通过已知类原型与原型语义结构保存策略估计虚拟类的类原型，并作为隐式数据语义。最终，联合考虑显式知识语义和隐式数据语义进行开集动作识别。从而可以有效提升最终的识别性能。

第二实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第三实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种基于语义探索的开集动作识别方法，其特征在于，包括：

针对给定的输入视频，提取出预设维度的片段级视觉特征；

2.如权利要求1所述的基于语义探索的开集动作识别方法，其特征在于，所述通过联合学习显式知识语义和隐式数据语义来探索视频的语义信息，包括：

3.如权利要求2所述的基于语义探索的开集动作识别方法，其特征在于，所述基于外部知识图谱构建概念关系图，获得已知类以及与已知类相关联的概念，并采用与已知类相关联的概念作为虚拟类，以模拟不可见的未知类；建模和更新概念关系图中的节点语义，将更新的节点特征作为显式知识语义，包括：

；

4.如权利要求3所述的基于语义探索的开集动作识别方法，其特征在于，所述基于已知类原型，通过原型语义结构保存策略，利用已知类和显式知识的监督信号来学习虚拟类的类原型，包括：

；

5.如权利要求4所述的基于语义探索的开集动作识别方法，其特征在于，所述基于片段级视觉特征与视频的语义信息，获得最终的视频特征，包括：

；

6.如权利要求1所述的基于语义探索的开集动作识别方法，其特征在于，所述最终的视频特征分为两组，包括已知类视频特征和虚拟类视频特征。

7.如权利要求6所述的基于语义探索的开集动作识别方法，其特征在于，对于已知类视频，所述识别模型使用标准EDL损失进行分类：

；

8.如权利要求7所述的基于语义探索的开集动作识别方法，其特征在于，对于虚拟类视频，将它们的证据分布约束为均匀分布：

；