CN111339886A - 一种基于相似性损失的行为识别方法 - Google Patents

一种基于相似性损失的行为识别方法 Download PDF

Info

Publication number
CN111339886A
CN111339886A CN202010103214.7A CN202010103214A CN111339886A CN 111339886 A CN111339886 A CN 111339886A CN 202010103214 A CN202010103214 A CN 202010103214A CN 111339886 A CN111339886 A CN 111339886A
Authority
CN
China
Prior art keywords
loss
calculating
similarity loss
similarity
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010103214.7A
Other languages
English (en)
Other versions
CN111339886B (zh
Inventor
胡建国
王金鹏
蔡佳辉
林佳玲
陈嘉敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Intelligent City Development Institute
National Sun Yat Sen University
Original Assignee
Guangzhou Intelligent City Development Institute
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Intelligent City Development Institute, National Sun Yat Sen University filed Critical Guangzhou Intelligent City Development Institute
Priority to CN202010103214.7A priority Critical patent/CN111339886B/zh
Publication of CN111339886A publication Critical patent/CN111339886A/zh
Application granted granted Critical
Publication of CN111339886B publication Critical patent/CN111339886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉识别领域,公开了一种基于相似性损失的行为识别方法,涉及计算机视觉识别领域。该行为识别方法包括步骤:将视频片段输入前馈网络,得到特征图以及对应的分类概率;计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;根据成对距离和交叉熵损失计算整个的相似性损失。本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标,相似性损失可以简单的集成在任意一个基础网络之中,在没有额外引入参数和没有额外开销的前提下,该方法在数据集上取得了最优效果,验证了相似性损失的有效性。

Description

一种基于相似性损失的行为识别方法
技术领域
本发明涉及计算机视觉识别领域,具体涉及一种基于相似性损失的行为识别方法。
背景技术
经过视频级标签训练的深度卷积神经网络往往只专注于最具识别性的部分,而忽略了其他常见的运动模式,这些运动模式可以提供互补信息。我们的动机是发现共同的运动模式和类特定的空间信息,而不是样本特定的特征。基于视频的动作识别具有明显的类内变异和类间相似性,且所有属于同一类的样本并不能准确地表示可视类本身的完全变化。而对于基于3D CNN的动作识别方法,由于模型的参数量大,且参数量大,数据集越小越容易导致过拟合。因此,CNN可以学习在视频中捕捉特定样本的信息,而不是学习目标动作的一般表现形式或常见的运动模式。我们的目标是解决这些问题(过拟合和样本特定的信息),这些问题导致在时序相关样本上的性能很差。直观地说,有两个基本的设计原则:i.应该确保所提出的方法具有合理的参数开销,以减少优化的难度。ii.对于时间建模,应该主要关注时间建模,而不是空间建模。现有的Timeception网路主要通过模型设计来优化目标,让尽可能的去关注时序信息,但很多行为非常依赖上下文信息,如游泳经常与游泳池相关联,只注重时序信息会引起空间信息的损失。
发明内容
为了让整个模型学习类相关特征而不是样本相关特征,本发明提出了一种基于相似性损失的行为识别方法。
一种基于相似性损失的行为识别方法,包括以下步骤:
S1、将视频片段输入前馈网络,得到特征图以及对应的分类概率;
S2、计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;
S3、根据成对距离和交叉熵损失计算整个的相似性损失。
优选地,在上述的基于相似性损失的行为识别方法中,在所述步骤S2中,将两个输入视频样本x1和x2的条件概率分布记为pθ(y|x1),pθ(y|x2),共享相同的类,当模型参数为θ时为,两个输入视频样本x1和x2的成对距离为:DPD(pθ(y|x1),pθ(y|x2))=||pθ(y|x2)-pθ(y|x1)||2;样本相似性损失为:
Figure BDA0002387568540000021
其中,λ为权重超参数,设定为1e-2,在类别一致时,γ(y1,y2)=1。
优选地,在上述的基于相似性损失的行为识别方法中,在所述步骤S3中,采用最小批梯度下降法对相似性损失进行集成,从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代。
优选地,在上述的基于相似性损失的行为识别方法中,所述最小批梯度下降法的具体步骤为:
S31、首先确定训练集合D以及人工设定的超参数θ*,初始化配对损失以及根据预训练模型读入模型参数;
S32、对于数据集D中的所有样本,根据类别标签构造两两配对关系,并定义和计算配对损失,将配对损失保留;
S33、根据每个样本的计算结果,计算交叉熵损失;
S34、根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,更新整个模型的参数。
优选地,在上述的基于相似性损失的行为识别方法中,在所述步骤S34中,根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,迭代计算2-4步,更新整个模型的参数。
本发明的有益效果:本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标,相似性损失可以简单的集成在任意一个基础网络之中,在没有额外引入参数和没有额外开销的前提下,该方法在数据集上取得了最优效果,验证了相似性损失的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的流程图;
图2为本发明实施例所述最小批梯度下降法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明的实施例提出的一种基于相似性损失的行为识别方法,其包括以下步骤:
S1、将视频片段输入前馈网络,得到特征图以及对应的分类概率;
S2、计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;
S3、根据成对距离和交叉熵损失计算整个的相似性损失。
具体地,在本发明的优选实施例中,在所述步骤S2中,将两个输入视频样本x1和x2的条件概率分布记为pθ(y|x1),pθ(y|x2),共享相同的类,当模型参数为θ时为,两个输入视频样本x1和x2的成对距离为:DPD(pθ(y|x1),pθ(y|x2))=||pθ(y|x2)-pθ(y|x1)||2;样本相似性损失为:
Figure BDA0002387568540000041
其中,入为权重超参数,设定为1e-2,在类别一致时,γ(y1,y2)=1。
具体地,在本发明的优选实施例中,在所述步骤S3中,采用最小批梯度下降法对相似性损失进行集成,从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代。
具体地,如图2所示,在本发明的优选实施例中,所述最小批梯度下降法的具体步骤为:
S31、首先确定训练集合D以及人工设定的超参数θ*,初始化配对损失以及根据预训练模型读入模型参数;
S32、对于数据集D中的所有样本,根据类别标签构造两两配对关系,并定义和计算配对损失,将配对损失保留;
S33、根据每个样本的计算结果,计算交叉熵损失;
S34、根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,更新整个模型的参数。
进一步地,在所述步骤S34中,根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,迭代计算2-4步,更新整个模型的参数。
本发明提出的行为识别方法基于简单直观的相似损失来指导投票的时序关联模型VTC(Voting-based Temporal Correlation)和骨干网络的训练。在只给出视频级标签的情况下,首先提取粗预测向量,然后根据同类共享相似预测标签的原则进行两两混淆。该训练算法可以与小批量梯度下降法(MBGD)相结合,根据类对样本进行采样。
综上所述,本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标,相似性损失可以简单的集成在任意一个基础网络之中,在没有额外引入参数和没有额外开销的前提下,该方法在数据集上取得了最优效果,验证了相似性损失的有效性。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内,本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (5)

1.一种基于相似性损失的行为识别方法,其特征在于,包括以下步骤:
S1、将视频片段输入前馈网络,得到特征图以及对应的分类概率;
S2、计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;
S3、根据成对距离和交叉熵损失计算整个的相似性损失。
2.根据权利要求1所述的基于相似性损失的行为识别方法,其特征在于,在所述步骤S2中,将两个输入视频样本x1和x2的条件概率分布记为pθ(y|x1),pθ(y|x2),共享相同的类,当模型参数为θ时为,两个输入视频样本x1和x2的成对距离为:DPD(pθ(y|x1),pθ(y|x2))=||pθ(y|x2)-pθ(y|x1)||2;样本相似性损失为:
Figure FDA0002387568530000011
其中,λ为权重超参数,设定为1e-2,在类别一致时,γ(y1,y2)=1。
3.根据权利要求1所述的基于相似性损失的行为识别方法,其特征在于,在所述步骤S3中,采用最小批梯度下降法对相似性损失进行集成,从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代。
4.根据权利要求3所述的基于相似性损失的行为识别方法,其特征在于,所述最小批梯度下降法的具体步骤为:
S31、首先确定训练集合D以及人工设定的超参数θ*,初始化配对损失以及根据预训练模型读入模型参数;
S32、对于数据集D中的所有样本,根据类别标签构造两两配对关系,并定义和计算配对损失,将配对损失保留;
S33、根据每个样本的计算结果,计算交叉熵损失;
S34、根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,更新整个模型的参数。
5.根据权利要求4所述的基于相似性损失的行为识别方法,其特征在于,在所述步骤S34中,根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,迭代计算2-4步,更新整个模型的参数。
CN202010103214.7A 2020-02-19 2020-02-19 一种基于相似性损失的行为识别方法 Active CN111339886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010103214.7A CN111339886B (zh) 2020-02-19 2020-02-19 一种基于相似性损失的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010103214.7A CN111339886B (zh) 2020-02-19 2020-02-19 一种基于相似性损失的行为识别方法

Publications (2)

Publication Number Publication Date
CN111339886A true CN111339886A (zh) 2020-06-26
CN111339886B CN111339886B (zh) 2024-01-09

Family

ID=71185363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010103214.7A Active CN111339886B (zh) 2020-02-19 2020-02-19 一种基于相似性损失的行为识别方法

Country Status (1)

Country Link
CN (1) CN111339886B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN108765279A (zh) * 2018-03-19 2018-11-06 北京工业大学 一种面向监控场景的行人人脸超分辨率重建方法
US20190378037A1 (en) * 2018-06-07 2019-12-12 Google Llc Systems and Methods for Evaluating a Loss Function or a Gradient of a Loss Function via Dual Decomposition
CN110750665A (zh) * 2019-10-12 2020-02-04 南京邮电大学 基于熵最小化的开集域适应方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN108765279A (zh) * 2018-03-19 2018-11-06 北京工业大学 一种面向监控场景的行人人脸超分辨率重建方法
US20190378037A1 (en) * 2018-06-07 2019-12-12 Google Llc Systems and Methods for Evaluating a Loss Function or a Gradient of a Loss Function via Dual Decomposition
CN110750665A (zh) * 2019-10-12 2020-02-04 南京邮电大学 基于熵最小化的开集域适应方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汪鹏;张奥帆;王利琴;董永峰;: "基于迁移学习与多标签平滑策略的图像自动标注" *

Also Published As

Publication number Publication date
CN111339886B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN111767405B (zh) 文本分类模型的训练方法、装置、设备及存储介质
Wu et al. Personnet: Person re-identification with deep convolutional neural networks
Feng et al. Triplet distillation for deep face recognition
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN107251059A (zh) 用于深度学习的稀疏推理模块
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
JP2022141931A (ja) 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN110766044A (zh) 一种基于高斯过程先验指导的神经网络训练方法
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN109829414B (zh) 一种基于标签不确定性和人体组件模型的行人再识别方法
CN111339988A (zh) 基于动态间隔损失函数和概率特征的视频人脸识别方法
CN110349179B (zh) 一种基于多适配器的可见光红外视觉跟踪方法及装置
CN112560710B (zh) 一种用于构建指静脉识别系统的方法及指静脉识别系统
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN115713715A (zh) 一种基于深度学习的人体行为识别方法及识别系统
CN113723083A (zh) 基于bert模型的带权消极监督文本情感分析方法
Gu et al. Unsupervised and semi-supervised robust spherical space domain adaptation
Wang et al. A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax
Kansizoglou et al. Haseparator: Hyperplane-assisted softmax
Hu et al. Attention‐guided evolutionary attack with elastic‐net regularization on face recognition
Wang et al. Interpret neural networks by extracting critical subnetworks
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
CN115830401A (zh) 一种小样本图像分类方法
CN111339886B (zh) 一种基于相似性损失的行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant