CN111339886B

CN111339886B - 一种基于相似性损失的行为识别方法

Info

Publication number: CN111339886B
Application number: CN202010103214.7A
Authority: CN
Inventors: 胡建国; 王金鹏; 蔡佳辉; 林佳玲; 陈嘉敏
Original assignee: Development Research Institute Of Guangzhou Smart City; Sun Yat Sen University
Current assignee: Development Research Institute Of Guangzhou Smart City; Sun Yat Sen University
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2024-01-09
Anticipated expiration: 2040-02-19
Also published as: CN111339886A

Abstract

本发明涉及计算机视觉识别领域，公开了一种基于相似性损失的行为识别方法，涉及计算机视觉识别领域。该行为识别方法包括步骤：将视频片段输入前馈网络，得到特征图以及对应的分类概率；计算任意两个配对样本的预测结果，根据预测结果计算分布之间的成对距离；根据成对距离和交叉熵损失计算整个的相似性损失。本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标，相似性损失可以简单的集成在任意一个基础网络之中，在没有额外引入参数和没有额外开销的前提下，该方法在数据集上取得了最优效果，验证了相似性损失的有效性。

Description

一种基于相似性损失的行为识别方法

技术领域

本发明涉及计算机视觉识别领域，具体涉及一种基于相似性损失的行为识别方法。

背景技术

经过视频级标签训练的深度卷积神经网络往往只专注于最具识别性的部分，而忽略了其他常见的运动模式，这些运动模式可以提供互补信息。我们的动机是发现共同的运动模式和类特定的空间信息，而不是样本特定的特征。基于视频的动作识别具有明显的类内变异和类间相似性，且所有属于同一类的样本并不能准确地表示可视类本身的完全变化。而对于基于3D CNN的动作识别方法，由于模型的参数量大，且参数量大，数据集越小越容易导致过拟合。因此，CNN可以学习在视频中捕捉特定样本的信息，而不是学习目标动作的一般表现形式或常见的运动模式。我们的目标是解决这些问题(过拟合和样本特定的信息)，这些问题导致在时序相关样本上的性能很差。直观地说，有两个基本的设计原则：i.应该确保所提出的方法具有合理的参数开销，以减少优化的难度。ii.对于时间建模，应该主要关注时间建模，而不是空间建模。现有的Timeception网路主要通过模型设计来优化目标，让尽可能的去关注时序信息，但很多行为非常依赖上下文信息，如游泳经常与游泳池相关联，只注重时序信息会引起空间信息的损失。

发明内容

为了让整个模型学习类相关特征而不是样本相关特征，本发明提出了一种基于相似性损失的行为识别方法。

一种基于相似性损失的行为识别方法，包括以下步骤：

S1、将视频片段输入前馈网络，得到特征图以及对应的分类概率；

S2、计算任意两个配对样本的预测结果，根据预测结果计算分布之间的成对距离；

S3、根据成对距离和交叉熵损失计算整个的相似性损失。

优选地，在上述的基于相似性损失的行为识别方法中，在所述步骤S2中，将两个输入视频样本x₁和x₂的条件概率分布记为p_θ(y|x₁)，p_θ(y|x₂)，共享相同的类，当模型参数为θ时为，两个输入视频样本x₁和x₂的成对距离为：D_PD(p_θ(y|x₁)，p_θ(y|x₂))＝||p_θ(y|x₂)-p_θ(y|x₁)||₂；样本相似性损失为：其中，λ为权重超参数，设定为1e-2，在类别一致时，γ(y₁，y₂)＝1。

优选地，在上述的基于相似性损失的行为识别方法中，在所述步骤S3中，采用最小批梯度下降法对相似性损失进行集成，从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代。

优选地，在上述的基于相似性损失的行为识别方法中，所述最小批梯度下降法的具体步骤为：

S31、首先确定训练集合D以及人工设定的超参数θ^*，初始化配对损失以及根据预训练模型读入模型参数；

S32、对于数据集D中的所有样本，根据类别标签构造两两配对关系，并定义和计算配对损失，将配对损失保留；

S33、根据每个样本的计算结果，计算交叉熵损失；

S34、根据设定的超参数θ^*计算整个网络的损失，而后进行反向传播，更新整个模型的参数。

优选地，在上述的基于相似性损失的行为识别方法中，在所述步骤S34中，根据设定的超参数θ^*计算整个网络的损失，而后进行反向传播，迭代计算2-4步，更新整个模型的参数。

本发明的有益效果：本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标，相似性损失可以简单的集成在任意一个基础网络之中，在没有额外引入参数和没有额外开销的前提下，该方法在数据集上取得了最优效果，验证了相似性损失的有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的流程图；

图2为本发明实施例所述最小批梯度下降法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明的实施例提出的一种基于相似性损失的行为识别方法，其包括以下步骤：

S3、根据成对距离和交叉熵损失计算整个的相似性损失。

具体地，在本发明的优选实施例中，在所述步骤S2中，将两个输入视频样本x₁和x₂的条件概率分布记为p_θ(y|x₁)，p_θ(y|x₂)，共享相同的类，当模型参数为θ时为，两个输入视频样本x₁和x₂的成对距离为：D_PD(p_θ(y|x₁)，p_θ(y|x₂))＝||p_θ(y|x₂)-p_θ(y|x₁)||₂；样本相似性损失为：其中，入为权重超参数，设定为1e-2，在类别一致时，γ(y₁，y₂)＝1。

具体地，在本发明的优选实施例中，在所述步骤S3中，采用最小批梯度下降法对相似性损失进行集成，从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代。

具体地，如图2所示，在本发明的优选实施例中，所述最小批梯度下降法的具体步骤为：

S33、根据每个样本的计算结果，计算交叉熵损失；

进一步地，在所述步骤S34中，根据设定的超参数θ^*计算整个网络的损失，而后进行反向传播，迭代计算2-4步，更新整个模型的参数。

本发明提出的行为识别方法基于简单直观的相似损失来指导投票的时序关联模型VTC(Voting-based Temporal Correlation)和骨干网络的训练。在只给出视频级标签的情况下，首先提取粗预测向量，然后根据同类共享相似预测标签的原则进行两两混淆。该训练算法可以与小批量梯度下降法(MBGD)相结合，根据类对样本进行采样。

综上所述，本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标，相似性损失可以简单的集成在任意一个基础网络之中，在没有额外引入参数和没有额外开销的前提下，该方法在数据集上取得了最优效果，验证了相似性损失的有效性。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内，本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于相似性损失的行为识别方法，其特征在于，包括以下步骤：

S3、根据成对距离和交叉熵损失计算整个的相似性损失；

其中，在所述步骤S2中，将两个输入视频样本x₁和x₂的条件概率分布记为p_θ(y|x₁)，p_θ(y|x₂)，共享相同的类，当模型参数为θ时为，两个输入视频样本x₁和x₂的成对距离为：D_PD(p_θ(y|x₁),p_θ(y|x₂))＝||p_θ(y|x₂)-p_θ(y|x₁)||₂；样本相似性损失为：

其中，λ为权重超参数，设定为1e-2，在类别一致时，γ(y₁,y₂)＝1；

其中，D_PD表示两个输入视频样本x₁和x₂的成对距离；

Lpair表示两个成对视频样本之间的距离，即样本的相似性损失；

p_θ表示模型参数为θ的输入视频样本的条件概率分布；

y表示视频样本的类别特征；

y1表示视频样本x₁的类别特征，y2表示视频样本x₂的类别特征；

其中，在所述步骤S3中，采用最小批梯度下降法对相似性损失进行集成，从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代；

所述最小批梯度下降法的具体步骤为：

S33、根据每个样本的计算结果，计算交叉熵损失；

2.根据权利要求1所述的基于相似性损失的行为识别方法，其特征在于，在所述步骤S34中，根据设定的超参数θ^*计算整个网络的损失，而后进行反向传播，迭代计算两到四步，更新整个模型的参数。