CN110135306B

CN110135306B - 基于角度损失函数的行为识别方法

Info

Publication number: CN110135306B
Application number: CN201910364198.4A
Authority: CN
Inventors: 解梅; 廖炳焱; 钮孟洋; 赵雷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2022-07-26
Anticipated expiration: 2039-04-30
Also published as: CN110135306A

Abstract

本发明提供一种基于角度损失函数的行为识别方法，训练步骤：将训练数据输入行为softmax分类模型进行模型训练，训练过程中使用加入角度约束的Softmax损失函数使得类内间隔增大；训练完成后得到每一个分类的类中心；分类步骤：将待分类视频的特征输入训练好的softmax分类模型得到分类向量，同时将待分类视频的特征使用KNN聚类算法得到该特征与每一个类中心的距离，并构造一个维度与类中心个数相同的向量V_knn，取特征与类中心的距离最小的三个类在向量V_knn的对应距离最小的三个类按设置值进行赋值，对其余类的对应位置赋值为0；将分类向量V_softmax与向量V_knn相加，取相加后值最大的元素所对应的类为最终的行为分类结果。本发明能够真实的提升行为识别的性能。

Description

基于角度损失函数的行为识别方法

技术领域

本发明属于视频信号处理与机器学习领域，主要用于视频行为片段分类工作。

技术背景

人体行为识别是计算机视觉研究的一个热点，要求算法能够从一个未知的视频或者是图像序列中自动分析正在进行的行为。简单的行为识别即动作分类，给定一段视频，只需将其正确分类到已知的几个动作类别；复杂点的识别是视频中不仅仅只包含一个动作类别，而是有多个，系统需自动的识别出动作的类别以及动作的起始时刻。行为识别的最终目标是分析视频中哪些人在什么时刻什么地方干什么事情，在智能视频监控，病人监护系统，人机交互，虚拟现实，基于内容的视频检索和智能图像压缩等方面具有广阔的应用前景和潜在的经济价值和社会价值。

目前主流的行为识别是通过训练神经网络完成分类，其实现流程与传统图像识别类似，先使用神经网络进行特征提取，再结合Softmax分类函数进行分类。

在目前基于深度学习的行为识别算法中，常使用卷积神经网络提取视频的特征x，再使用Softmax分类函数对特征进行分类，对于输入特征x，Softmax分类函数完成如式(1)所示的操作后输出为f(x)＝p＝[p₁，…，p_c]，输出向量p中包含c个元素，c表示总的分类类别数目，p_i(i＝1，2，...，c)表示分类为第i类的概率，W＝[W₁，...，W_c]为权重向量，i表示分类序号，j表示用于累加时的分类序号。训练过程中使用交叉熵损失函数，对输出与标签y进行对比得到如式(2)所示损失，交叉熵与Softmax结合的方式又被称作Softmax损失函数，式中L(y，p)表示在训练过程中一组大小为N的训练数据x＝[x₁，...，x_N]的损失函数值，y＝[y₁，...，y_N]与p＝[f(x₁)，...，f(x_N)]分别表示这组数据的真实标签与预测的概率向量，其中标签y_n(n＝1，2，...，N)的取值范围是1到c的整数，表示该段视频数据中的真实行为类别的索引值，f(·)表示模型预测的过程。

在测试阶段，对于单个测试样本可以得到Softmax输出的向量p，p中元素值最大的为p_k＝max_ip_i，则可以认为模型将该段视频预测为第k类。为了描述简单，这里以二分类为例，在二分类中，Softmax的分类边界如式(3)所示，化简后可得式(4)，分类决策边界是一条线。

W₁，W₂为两个分类的权重向量。

由于行为本身具有特殊性，具有类内距离远、类间距离近的问题。在式(4)中，二分类情况下的Softmax决策面是一条线，如图1所示，可见Softmax函数并未对类间间隔进行约束，不能很好的解决行为分类任务中存在的类内间隔大，类间间隔小的问题。

发明内容

本发明所要解决的技术问题是，提供一种增强不同行为类别之间的区分度，让易混淆的类别能够被正确识别的方法。

本发明为解决上述技术问题所采用的技术方案是，基于角度损失函数的行为识别方法，包括以下步骤：

1)训练步骤：将训练数据输入行为softmax分类模型进行模型训练，训练过程中使用加入角度约束的Softmax损失函数L(y，p)，使得类内间隔增大；训练完成后得到每一个分类的类中心；

2)分类步骤：

2-1)将待分类视频的特征输入训练好的softmax分类模型得到分类向量V_softmax；同时将待分类视频的特征使用KNN聚类算法得到该特征与每一个类中心的距离，并构造一个维度与类中心个数相同的向量V_knn，向量V_knn每一个维度对应一个类中心，取特征与类中心的距离最小的三个类在向量V_knn的对应距离最小的三个类按设置值进行赋值，对其余类的对应位置赋值为0；

2-2)将分类向量V_softmax与向量V_knn相加，取相加后值最大的元素所对应的类为最终的行为分类结果。

本发明的有益效果是，能够真实的提升行为识别的性能。角度损失函数实现简单，能在基本不增加计算量的同时极大提高分类效果。

附图说明

图1为带约束的Softmax与角度损失函数在二分类情况下的分类边界。

图2为金字塔采样过程。

具体实施方式

下面对角度损失函数进行说明：

首先对Softmax函数加以约束，约束条件如式(5)所示，即对原权重向量进行二范数归一化：

同时对于输入的特征也进行相似的约束，如式(6)所示。

||W_i||＝1 for i＝1，2，…，c (5)

||x||＝1 (6)

根据向量乘法的原则，二分类中Softmax分类边界可表示为如式(7)所示，由于W与x需满足上述的约束条件，分界面可以简化为：cosθ₁＝cosθ₂。加上约束的Softmax损失函数可表示为式(8)所示。

||W₁|| ||x||cosθ₁＝||W₂|| ||x||cosθ₂ (7)

为了加大分类间隔，在计算损失的时候对标签类的角度

加上约束条件后得到如式(9)所示的角度损失函数，式中θ₀表示角度区分间隔，控制着不同类别间的区分度。

如图1所示，在二分类中角度损失函数的分界面变为cos(θ₁+θ₀)＝cos(θ₂)，两个分界面有一个明显的间距，在行为识别任务中能将不同的行为更好的进行区分。

实施例

1.数据预处理

对于待分类视频数据V，首先对视频进行时间序列金字塔采样，得到一系列如式(10)所示的采样于该段视频的子视频集V_s，式中v_m表示第m个子视频。

V_s＝{v₁，v₂，…，v_s} (10)

下面对采样过程进行详细说明：对于一段包含M帧的视频V，首先将整段视频使用时间轴均匀采样的方式，采样得到16帧的图像序列V′，采样间隔为

整个金字塔使用三级结构分别进行采样，采样过程如图2.所示。首先对整段视频使用上述采样过程得到采样子视频v₁；在第二级中将视频V均匀切分为两个子视频，分别为V₁与V₂，然后分别对这两个子视频采样得到新的采样视频v₂与v₃；在第三级中再分别将V₁与V₂进一步均分并采样，得到新的采样子视频v₄～v₇。最终得到的采样子视频集合为V_s＝{v₁，v₂，…，v₇}。

2.使用角度损失训练模型

对于标记过的视频片段，使用上文所示的预处理得到训练数据集，训练深度学习模型。本文使用三维残差网络(Hara K，Kataoka H，Satoh Y.Can spatiotemporal 3d cnnsretrace the history of 2d cnns and imagenet？[C]//Proceedings of the IEEEconference on Computer Vision and Pattern Recognition.2018：6546-6555.)来构建深度学习行为识别骨干模型。三维残差模型的输入为16帧分辨率为112×112的图像序列。在训练过程中，首先对数据集中的子视频提取图像帧，然后将图像短边缩放至128后再随机裁剪出分辨率为112×112的图像。将裁剪后的图像序列传入三维残差模型得到2048维的特征向量，使用本文提出的角度损失对模型进行训练。将标签与特征传入角度损失，可以得到对应的损失值，使用该损失函数对模型中的参数求梯度，并使用梯度下降算法对模型参数进行迭代更新。

3.计算类别中心

对于训练数据中的视频v_m，使用训练好的模型提取每段视频的特征F_m，然后根据视频的标签将其归类，其中每一类i(i＝1，...，c)中只包含视频标签y_m＝i的视频特征F_m，共计N_i个，并按照式(11)计算每一类的类中心C_i。

4.测试过程

测试视频使用前文所示的预处理过程得到7段子视频，将其分别送入训练好的模型中提取特征，得到特征集合F＝[F₁，…，F₇]，按照式(12)得到测试视频对应的特征

并对该特征分别使用Softmax与KNN聚类算法对其进行处理。

根据得到的类别中心使用如式(13)所示的距离函数得到视频特征

与每类中心C_i的距离D_i，并按照大小排序得到其中最小的三项，分别记作D_n、D_m与D_p(D_n＜D_m＜D_p)，构建如式(14)所示的一个维度与类别数C相等的向量

其中V_knn中的元素只有在v_n、v_m与v_p三个位置非0，这三个位置的值分别为：v_n＝0.5、v_m＝0.3、v_p＝0.2。

D(x，y)＝||x-y||₂ (13)

V_knn＝[0，…，0，v_n，0，…，0，v_m，0，…，0，v_p，0，…，0] (14)

同时将Softmax函数的输出分类向量V_softmax与V_knn相加并取最大的元素作为最终的分类结果，如式(15)所示，其中argmax(·)表示取向量中最大元素的索引下标。

效果展示与总结

本文在Liunx平台上进行实验，使用UCF101行为识别数据集对行为识别效果进行验证。分别构建了50层与101层的三维残差网络，在UCF101数据集的测试集上的测试效果如表1所示。

表1.UCF101数据集上不同损失的分类结果

模型种类	Softmax损失	角度损失
			3D-Resnet50	89.3	90.6
3D-Resnet101	88.9	91.0

可见相对于通用的Softmax损失函数，本文提出的角度损失函数能够真实的提升行为识别的性能。同时本文提出的角度损失函数实现简单，能在基本不增加计算量的同时极大提高分类效果。

Claims

1.基于角度损失函数的行为识别方法，其特征在于，包括以下步骤：

1)训练步骤：

将训练数据输入行为softmax分类模型进行模型训练，训练过程中使用加入角度约束的Softmax损失函数L(y,p)，使得类内间隔增大；训练完成后得到每一个分类的类中心；

2)分类步骤：

2-2)将分类向量V_softmax与向量V_knn相加，取相加后值最大的元素所对应的类为最终的行为分类结果；

加入角度约束的Softmax损失函数L(y,p)为：

s.t.‖N_i‖＝1,‖x_n‖＝1,

for i＝1,…c；n＝1,…,N

其中，y＝[y₁,…,y_N]与p＝[f(x₁),…,f(x_N)]分别表示大小为N的训练样本的真实分类标签与预测的概率向量，c为类别总数，i表示分类序号，j表示用于累加时的分类序号，y_n为分类标签，i、j以及y_n的取值范围均是1到c的整数，n为训练样本的数据序号，n的取值范围均是1到N的整数；

表示第n个训练数据在分类标签为y_n的角度，θ₀表示角度间隔，θ_j,n表示第n个训练数据在第j类的角度；x_n为训练样本中第n个训练数据；W_i表示为第i类的权重向量；‖·‖为二范数运算符。

2.如权利要求1所述方法，其特征在于，取特征与类中心的距离最小的三个类在向量V_knn的对应距离最小的三个类中从小到大的顺序按预设值进行赋值，距离从小到大的类对应的预设值分别为0.5、0.3、0.2。