CN110135306B - 基于角度损失函数的行为识别方法 - Google Patents
基于角度损失函数的行为识别方法 Download PDFInfo
- Publication number
- CN110135306B CN110135306B CN201910364198.4A CN201910364198A CN110135306B CN 110135306 B CN110135306 B CN 110135306B CN 201910364198 A CN201910364198 A CN 201910364198A CN 110135306 B CN110135306 B CN 110135306B
- Authority
- CN
- China
- Prior art keywords
- classification
- class
- vector
- softmax
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于角度损失函数的行为识别方法,训练步骤:将训练数据输入行为softmax分类模型进行模型训练,训练过程中使用加入角度约束的Softmax损失函数使得类内间隔增大;训练完成后得到每一个分类的类中心;分类步骤:将待分类视频的特征输入训练好的softmax分类模型得到分类向量,同时将待分类视频的特征使用KNN聚类算法得到该特征与每一个类中心的距离,并构造一个维度与类中心个数相同的向量Vknn,取特征与类中心的距离最小的三个类在向量Vknn的对应距离最小的三个类按设置值进行赋值,对其余类的对应位置赋值为0;将分类向量Vsoftmax与向量Vknn相加,取相加后值最大的元素所对应的类为最终的行为分类结果。本发明能够真实的提升行为识别的性能。
Description
技术领域
本发明属于视频信号处理与机器学习领域,主要用于视频行为片段分类工作。
技术背景
人体行为识别是计算机视觉研究的一个热点,要求算法能够从一个未知的视频或者是图像序列中自动分析正在进行的行为。简单的行为识别即动作分类,给定一段视频,只需将其正确分类到已知的几个动作类别;复杂点的识别是视频中不仅仅只包含一个动作类别,而是有多个,系统需自动的识别出动作的类别以及动作的起始时刻。行为识别的最终目标是分析视频中哪些人在什么时刻什么地方干什么事情,在智能视频监控,病人监护系统,人机交互,虚拟现实,基于内容的视频检索和智能图像压缩等方面具有广阔的应用前景和潜在的经济价值和社会价值。
目前主流的行为识别是通过训练神经网络完成分类,其实现流程与传统图像识别类似,先使用神经网络进行特征提取,再结合Softmax分类函数进行分类。
在目前基于深度学习的行为识别算法中,常使用卷积神经网络提取视频的特征x,再使用Softmax分类函数对特征进行分类,对于输入特征x,Softmax分类函数完成如式(1)所示的操作后输出为f(x)=p=[p1,…,pc],输出向量p中包含c个元素,c表示总的分类类别数目,pi(i=1,2,...,c)表示分类为第i类的概率,W=[W1,...,Wc]为权重向量,i表示分类序号,j表示用于累加时的分类序号。训练过程中使用交叉熵损失函数,对输出与标签y进行对比得到如式(2)所示损失,交叉熵与Softmax结合的方式又被称作Softmax损失函数,式中L(y,p)表示在训练过程中一组大小为N的训练数据x=[x1,...,xN]的损失函数值,y=[y1,...,yN]与p=[f(x1),...,f(xN)]分别表示这组数据的真实标签与预测的概率向量,其中标签yn(n=1,2,...,N)的取值范围是1到c的整数,表示该段视频数据中的真实行为类别的索引值,f(·)表示模型预测的过程。
在测试阶段,对于单个测试样本可以得到Softmax输出的向量p,p中元素值最大的为pk=maxipi,则可以认为模型将该段视频预测为第k类。为了描述简单,这里以二分类为例,在二分类中,Softmax的分类边界如式(3)所示,化简后可得式(4),分类决策边界是一条线。
W1,W2为两个分类的权重向量。
由于行为本身具有特殊性,具有类内距离远、类间距离近的问题。在式(4)中,二分类情况下的Softmax决策面是一条线,如图1所示,可见Softmax函数并未对类间间隔进行约束,不能很好的解决行为分类任务中存在的类内间隔大,类间间隔小的问题。
发明内容
本发明所要解决的技术问题是,提供一种增强不同行为类别之间的区分度,让易混淆的类别能够被正确识别的方法。
本发明为解决上述技术问题所采用的技术方案是,基于角度损失函数的行为识别方法,包括以下步骤:
1)训练步骤:将训练数据输入行为softmax分类模型进行模型训练,训练过程中使用加入角度约束的Softmax损失函数L(y,p),使得类内间隔增大;训练完成后得到每一个分类的类中心;
2)分类步骤:
2-1)将待分类视频的特征输入训练好的softmax分类模型得到分类向量Vsoftmax;同时将待分类视频的特征使用KNN聚类算法得到该特征与每一个类中心的距离,并构造一个维度与类中心个数相同的向量Vknn,向量Vknn每一个维度对应一个类中心,取特征与类中心的距离最小的三个类在向量Vknn的对应距离最小的三个类按设置值进行赋值,对其余类的对应位置赋值为0;
2-2)将分类向量Vsoftmax与向量Vknn相加,取相加后值最大的元素所对应的类为最终的行为分类结果。
本发明的有益效果是,能够真实的提升行为识别的性能。角度损失函数实现简单,能在基本不增加计算量的同时极大提高分类效果。
附图说明
图1为带约束的Softmax与角度损失函数在二分类情况下的分类边界。
图2为金字塔采样过程。
具体实施方式
下面对角度损失函数进行说明:
||Wi||=1 for i=1,2,…,c (5)
||x||=1 (6)
根据向量乘法的原则,二分类中Softmax分类边界可表示为如式(7)所示,由于W与x需满足上述的约束条件,分界面可以简化为:cosθ1=cosθ2。加上约束的Softmax损失函数可表示为式(8)所示。
||W1|| ||x||cosθ1=||W2|| ||x||cosθ2 (7)
如图1所示,在二分类中角度损失函数的分界面变为cos(θ1+θ0)=cos(θ2),两个分界面有一个明显的间距,在行为识别任务中能将不同的行为更好的进行区分。
实施例
1.数据预处理
对于待分类视频数据V,首先对视频进行时间序列金字塔采样,得到一系列如式(10)所示的采样于该段视频的子视频集Vs,式中vm表示第m个子视频。
Vs={v1,v2,…,vs} (10)
下面对采样过程进行详细说明:对于一段包含M帧的视频V,首先将整段视频使用时间轴均匀采样的方式,采样得到16帧的图像序列V′,采样间隔为整个金字塔使用三级结构分别进行采样,采样过程如图2.所示。首先对整段视频使用上述采样过程得到采样子视频v1;在第二级中将视频V均匀切分为两个子视频,分别为V1与V2,然后分别对这两个子视频采样得到新的采样视频v2与v3;在第三级中再分别将V1与V2进一步均分并采样,得到新的采样子视频v4~v7。最终得到的采样子视频集合为Vs={v1,v2,…,v7}。
2.使用角度损失训练模型
对于标记过的视频片段,使用上文所示的预处理得到训练数据集,训练深度学习模型。本文使用三维残差网络(Hara K,Kataoka H,Satoh Y.Can spatiotemporal 3d cnnsretrace the history of 2d cnns and imagenet?[C]//Proceedings of the IEEEconference on Computer Vision and Pattern Recognition.2018:6546-6555.)来构建深度学习行为识别骨干模型。三维残差模型的输入为16帧分辨率为112×112的图像序列。在训练过程中,首先对数据集中的子视频提取图像帧,然后将图像短边缩放至128后再随机裁剪出分辨率为112×112的图像。将裁剪后的图像序列传入三维残差模型得到2048维的特征向量,使用本文提出的角度损失对模型进行训练。将标签与特征传入角度损失,可以得到对应的损失值,使用该损失函数对模型中的参数求梯度,并使用梯度下降算法对模型参数进行迭代更新。
3.计算类别中心
对于训练数据中的视频vm,使用训练好的模型提取每段视频的特征Fm,然后根据视频的标签将其归类,其中每一类i(i=1,...,c)中只包含视频标签ym=i的视频特征Fm,共计Ni个,并按照式(11)计算每一类的类中心Ci。
4.测试过程
测试视频使用前文所示的预处理过程得到7段子视频,将其分别送入训练好的模型中提取特征,得到特征集合F=[F1,…,F7],按照式(12)得到测试视频对应的特征并对该特征分别使用Softmax与KNN聚类算法对其进行处理。
根据得到的类别中心使用如式(13)所示的距离函数得到视频特征与每类中心Ci的距离Di,并按照大小排序得到其中最小的三项,分别记作Dn、Dm与Dp(Dn<Dm<Dp),构建如式(14)所示的一个维度与类别数C相等的向量其中Vknn中的元素只有在vn、vm与vp三个位置非0,这三个位置的值分别为:vn=0.5、vm=0.3、vp=0.2。
D(x,y)=||x-y||2 (13)
Vknn=[0,…,0,vn,0,…,0,vm,0,…,0,vp,0,…,0] (14)
同时将Softmax函数的输出分类向量Vsoftmax与Vknn相加并取最大的元素作为最终的分类结果,如式(15)所示,其中argmax(·)表示取向量中最大元素的索引下标。
效果展示与总结
本文在Liunx平台上进行实验,使用UCF101行为识别数据集对行为识别效果进行验证。分别构建了50层与101层的三维残差网络,在UCF101数据集的测试集上的测试效果如表1所示。
表1.UCF101数据集上不同损失的分类结果
模型种类 | Softmax损失 | 角度损失 |
3D-Resnet50 | 89.3 | 90.6 |
3D-Resnet101 | 88.9 | 91.0 |
可见相对于通用的Softmax损失函数,本文提出的角度损失函数能够真实的提升行为识别的性能。同时本文提出的角度损失函数实现简单,能在基本不增加计算量的同时极大提高分类效果。
Claims (2)
1.基于角度损失函数的行为识别方法,其特征在于,包括以下步骤:
1)训练步骤:
将训练数据输入行为softmax分类模型进行模型训练,训练过程中使用加入角度约束的Softmax损失函数L(y,p),使得类内间隔增大;训练完成后得到每一个分类的类中心;
2)分类步骤:
2-1)将待分类视频的特征输入训练好的softmax分类模型得到分类向量Vsoftmax;同时将待分类视频的特征使用KNN聚类算法得到该特征与每一个类中心的距离,并构造一个维度与类中心个数相同的向量Vknn,向量Vknn每一个维度对应一个类中心,取特征与类中心的距离最小的三个类在向量Vknn的对应距离最小的三个类按设置值进行赋值,对其余类的对应位置赋值为0;
2-2)将分类向量Vsoftmax与向量Vknn相加,取相加后值最大的元素所对应的类为最终的行为分类结果;
加入角度约束的Softmax损失函数L(y,p)为:
2.如权利要求1所述方法,其特征在于,取特征与类中心的距离最小的三个类在向量Vknn的对应距离最小的三个类中从小到大的顺序按预设值进行赋值,距离从小到大的类对应的预设值分别为0.5、0.3、0.2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910364198.4A CN110135306B (zh) | 2019-04-30 | 2019-04-30 | 基于角度损失函数的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910364198.4A CN110135306B (zh) | 2019-04-30 | 2019-04-30 | 基于角度损失函数的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135306A CN110135306A (zh) | 2019-08-16 |
CN110135306B true CN110135306B (zh) | 2022-07-26 |
Family
ID=67575904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910364198.4A Active CN110135306B (zh) | 2019-04-30 | 2019-04-30 | 基于角度损失函数的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135306B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705507B (zh) * | 2021-09-02 | 2023-09-19 | 上海交通大学 | 基于深度学习的混合现实开集人体姿态识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069413A (zh) * | 2015-07-27 | 2015-11-18 | 电子科技大学 | 一种基于深度卷积神经网络的人体姿势识别方法 |
CN107506740A (zh) * | 2017-09-04 | 2017-12-22 | 北京航空航天大学 | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 |
CN109284406A (zh) * | 2018-09-03 | 2019-01-29 | 四川长虹电器股份有限公司 | 基于差异循环神经网络的意图识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9630318B2 (en) * | 2014-10-02 | 2017-04-25 | Brain Corporation | Feature detection apparatus and methods for training of robotic navigation |
-
2019
- 2019-04-30 CN CN201910364198.4A patent/CN110135306B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069413A (zh) * | 2015-07-27 | 2015-11-18 | 电子科技大学 | 一种基于深度卷积神经网络的人体姿势识别方法 |
CN107506740A (zh) * | 2017-09-04 | 2017-12-22 | 北京航空航天大学 | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 |
CN109284406A (zh) * | 2018-09-03 | 2019-01-29 | 四川长虹电器股份有限公司 | 基于差异循环神经网络的意图识别方法 |
Non-Patent Citations (4)
Title |
---|
Cross-angle behavior recognition via supervised dictionary learning;Guanghui Lu等;《2017 13th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery (ICNC-FSKD)》;20180625;全文 * |
Wearable device-based gait recognition using angle embedded gait dynamic images and a convolutional neural network;Yongjia Zhao 等;《Sensors》;20170228;1-20页 * |
一种基于姿态估计的视点无关的人体姿态图像检索方法;杨晶晶等;《中国科技论文》;20170723;第12卷(第14期);全文 * |
基于Web图像的Kinship关系验证研究;秦晓倩;《中国博士学位论文全文数据库 (信息科技辑)》;20171115;I138-15 * |
Also Published As
Publication number | Publication date |
---|---|
CN110135306A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107657279B (zh) | 一种基于少量样本的遥感目标检测方法 | |
CN102521561B (zh) | 基于多尺度韦伯局部特征和分层决策融合的人脸识别方法 | |
CN110781829A (zh) | 一种轻量级深度学习的智慧营业厅人脸识别方法 | |
CN104915643A (zh) | 一种基于深度学习的行人再标识方法 | |
CN104063719A (zh) | 基于深度卷积网络的行人检测方法及装置 | |
CN105894050A (zh) | 一种基于多任务学习的人脸图像种族和性别识别方法 | |
CN106909946A (zh) | 一种多模态融合的商品分类系统 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
WO2020164278A1 (zh) | 一种图像处理方法、装置、电子设备和可读存储介质 | |
CN104156690B (zh) | 一种基于图像空间金字塔特征包的手势识别方法 | |
CN105956570B (zh) | 基于唇部特征和深度学习的笑脸识别方法 | |
CN105574475A (zh) | 一种基于共同向量词典的稀疏表示分类方法 | |
CN105718940A (zh) | 基于多组间因子分析的零样本图像分类方法 | |
CN113077444A (zh) | 一种基于cnn的超声无损检测图像缺陷分类方法 | |
EP2535787B1 (en) | 3D free-form gesture recognition system and method for character input | |
CN110414587A (zh) | 基于渐进学习的深度卷积神经网络训练方法与系统 | |
CN108416795B (zh) | 基于排序池化融合空间特征的视频动作识别方法 | |
CN103745242A (zh) | 一种跨设备生物特征识别方法 | |
WO2020119624A1 (zh) | 一种基于深度学习的类别敏感型边缘检测方法 | |
CN103942572A (zh) | 一种基于双向压缩数据空间维度缩减的面部表情特征提取方法和装置 | |
CN110135306B (zh) | 基于角度损失函数的行为识别方法 | |
CN106570514A (zh) | 一种基于词袋模型和支持向量机的汽车轮毂分类方法 | |
CN110287973B (zh) | 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法 | |
CN109886164B (zh) | 一种异常手势的识别与处理方法 | |
Ali et al. | A robust CNN model for handwritten digits recognition and classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |