CN111339886B - 一种基于相似性损失的行为识别方法 - Google Patents

一种基于相似性损失的行为识别方法 Download PDF

Info

Publication number
CN111339886B
CN111339886B CN202010103214.7A CN202010103214A CN111339886B CN 111339886 B CN111339886 B CN 111339886B CN 202010103214 A CN202010103214 A CN 202010103214A CN 111339886 B CN111339886 B CN 111339886B
Authority
CN
China
Prior art keywords
loss
calculating
samples
similarity loss
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010103214.7A
Other languages
English (en)
Other versions
CN111339886A (zh
Inventor
胡建国
王金鹏
蔡佳辉
林佳玲
陈嘉敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Development Research Institute Of Guangzhou Smart City
Sun Yat Sen University
Original Assignee
Development Research Institute Of Guangzhou Smart City
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Development Research Institute Of Guangzhou Smart City, Sun Yat Sen University filed Critical Development Research Institute Of Guangzhou Smart City
Priority to CN202010103214.7A priority Critical patent/CN111339886B/zh
Publication of CN111339886A publication Critical patent/CN111339886A/zh
Application granted granted Critical
Publication of CN111339886B publication Critical patent/CN111339886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉识别领域,公开了一种基于相似性损失的行为识别方法,涉及计算机视觉识别领域。该行为识别方法包括步骤:将视频片段输入前馈网络,得到特征图以及对应的分类概率;计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;根据成对距离和交叉熵损失计算整个的相似性损失。本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标,相似性损失可以简单的集成在任意一个基础网络之中,在没有额外引入参数和没有额外开销的前提下,该方法在数据集上取得了最优效果,验证了相似性损失的有效性。

Description

一种基于相似性损失的行为识别方法
技术领域
本发明涉及计算机视觉识别领域,具体涉及一种基于相似性损失的行为识别方法。
背景技术
经过视频级标签训练的深度卷积神经网络往往只专注于最具识别性的部分,而忽略了其他常见的运动模式,这些运动模式可以提供互补信息。我们的动机是发现共同的运动模式和类特定的空间信息,而不是样本特定的特征。基于视频的动作识别具有明显的类内变异和类间相似性,且所有属于同一类的样本并不能准确地表示可视类本身的完全变化。而对于基于3D CNN的动作识别方法,由于模型的参数量大,且参数量大,数据集越小越容易导致过拟合。因此,CNN可以学习在视频中捕捉特定样本的信息,而不是学习目标动作的一般表现形式或常见的运动模式。我们的目标是解决这些问题(过拟合和样本特定的信息),这些问题导致在时序相关样本上的性能很差。直观地说,有两个基本的设计原则:i.应该确保所提出的方法具有合理的参数开销,以减少优化的难度。ii.对于时间建模,应该主要关注时间建模,而不是空间建模。现有的Timeception网路主要通过模型设计来优化目标,让尽可能的去关注时序信息,但很多行为非常依赖上下文信息,如游泳经常与游泳池相关联,只注重时序信息会引起空间信息的损失。
发明内容
为了让整个模型学习类相关特征而不是样本相关特征,本发明提出了一种基于相似性损失的行为识别方法。
一种基于相似性损失的行为识别方法,包括以下步骤:
S1、将视频片段输入前馈网络,得到特征图以及对应的分类概率;
S2、计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;
S3、根据成对距离和交叉熵损失计算整个的相似性损失。
优选地,在上述的基于相似性损失的行为识别方法中,在所述步骤S2中,将两个输入视频样本x1和x2的条件概率分布记为pθ(y|x1),pθ(y|x2),共享相同的类,当模型参数为θ时为,两个输入视频样本x1和x2的成对距离为:DPD(pθ(y|x1),pθ(y|x2))=||pθ(y|x2)-pθ(y|x1)||2;样本相似性损失为:其中,λ为权重超参数,设定为1e-2,在类别一致时,γ(y1,y2)=1。
优选地,在上述的基于相似性损失的行为识别方法中,在所述步骤S3中,采用最小批梯度下降法对相似性损失进行集成,从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代。
优选地,在上述的基于相似性损失的行为识别方法中,所述最小批梯度下降法的具体步骤为:
S31、首先确定训练集合D以及人工设定的超参数θ*,初始化配对损失以及根据预训练模型读入模型参数;
S32、对于数据集D中的所有样本,根据类别标签构造两两配对关系,并定义和计算配对损失,将配对损失保留;
S33、根据每个样本的计算结果,计算交叉熵损失;
S34、根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,更新整个模型的参数。
优选地,在上述的基于相似性损失的行为识别方法中,在所述步骤S34中,根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,迭代计算2-4步,更新整个模型的参数。
本发明的有益效果:本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标,相似性损失可以简单的集成在任意一个基础网络之中,在没有额外引入参数和没有额外开销的前提下,该方法在数据集上取得了最优效果,验证了相似性损失的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的流程图;
图2为本发明实施例所述最小批梯度下降法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明的实施例提出的一种基于相似性损失的行为识别方法,其包括以下步骤:
S1、将视频片段输入前馈网络,得到特征图以及对应的分类概率;
S2、计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;
S3、根据成对距离和交叉熵损失计算整个的相似性损失。
具体地,在本发明的优选实施例中,在所述步骤S2中,将两个输入视频样本x1和x2的条件概率分布记为pθ(y|x1),pθ(y|x2),共享相同的类,当模型参数为θ时为,两个输入视频样本x1和x2的成对距离为:DPD(pθ(y|x1),pθ(y|x2))=||pθ(y|x2)-pθ(y|x1)||2;样本相似性损失为:其中,入为权重超参数,设定为1e-2,在类别一致时,γ(y1,y2)=1。
具体地,在本发明的优选实施例中,在所述步骤S3中,采用最小批梯度下降法对相似性损失进行集成,从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代。
具体地,如图2所示,在本发明的优选实施例中,所述最小批梯度下降法的具体步骤为:
S31、首先确定训练集合D以及人工设定的超参数θ*,初始化配对损失以及根据预训练模型读入模型参数;
S32、对于数据集D中的所有样本,根据类别标签构造两两配对关系,并定义和计算配对损失,将配对损失保留;
S33、根据每个样本的计算结果,计算交叉熵损失;
S34、根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,更新整个模型的参数。
进一步地,在所述步骤S34中,根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,迭代计算2-4步,更新整个模型的参数。
本发明提出的行为识别方法基于简单直观的相似损失来指导投票的时序关联模型VTC(Voting-based Temporal Correlation)和骨干网络的训练。在只给出视频级标签的情况下,首先提取粗预测向量,然后根据同类共享相似预测标签的原则进行两两混淆。该训练算法可以与小批量梯度下降法(MBGD)相结合,根据类对样本进行采样。
综上所述,本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标,相似性损失可以简单的集成在任意一个基础网络之中,在没有额外引入参数和没有额外开销的前提下,该方法在数据集上取得了最优效果,验证了相似性损失的有效性。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内,本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (2)

1.一种基于相似性损失的行为识别方法,其特征在于,包括以下步骤:
S1、将视频片段输入前馈网络,得到特征图以及对应的分类概率;
S2、计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;
S3、根据成对距离和交叉熵损失计算整个的相似性损失;
其中,在所述步骤S2中,将两个输入视频样本x1和x2的条件概率分布记为pθ(y|x1),pθ(y|x2),共享相同的类,当模型参数为θ时为,两个输入视频样本x1和x2的成对距离为:DPD(pθ(y|x1),pθ(y|x2))=||pθ(y|x2)-pθ(y|x1)||2;样本相似性损失为:
其中,λ为权重超参数,设定为1e-2,在类别一致时,γ(y1,y2)=1;
其中,DPD表示两个输入视频样本x1和x2的成对距离;
Lpair表示两个成对视频样本之间的距离,即样本的相似性损失;
pθ表示模型参数为θ的输入视频样本的条件概率分布;
y表示视频样本的类别特征;
y1表示视频样本x1的类别特征,y2表示视频样本x2的类别特征;
其中,在所述步骤S3中,采用最小批梯度下降法对相似性损失进行集成,从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代;
所述最小批梯度下降法的具体步骤为:
S31、首先确定训练集合D以及人工设定的超参数θ*,初始化配对损失以及根据预训练模型读入模型参数;
S32、对于数据集D中的所有样本,根据类别标签构造两两配对关系,并定义和计算配对损失,将配对损失保留;
S33、根据每个样本的计算结果,计算交叉熵损失;
S34、根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,更新整个模型的参数。
2.根据权利要求1所述的基于相似性损失的行为识别方法,其特征在于,在所述步骤S34中,根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,迭代计算两到四步,更新整个模型的参数。
CN202010103214.7A 2020-02-19 2020-02-19 一种基于相似性损失的行为识别方法 Active CN111339886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010103214.7A CN111339886B (zh) 2020-02-19 2020-02-19 一种基于相似性损失的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010103214.7A CN111339886B (zh) 2020-02-19 2020-02-19 一种基于相似性损失的行为识别方法

Publications (2)

Publication Number Publication Date
CN111339886A CN111339886A (zh) 2020-06-26
CN111339886B true CN111339886B (zh) 2024-01-09

Family

ID=71185363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010103214.7A Active CN111339886B (zh) 2020-02-19 2020-02-19 一种基于相似性损失的行为识别方法

Country Status (1)

Country Link
CN (1) CN111339886B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN108765279A (zh) * 2018-03-19 2018-11-06 北京工业大学 一种面向监控场景的行人人脸超分辨率重建方法
CN110750665A (zh) * 2019-10-12 2020-02-04 南京邮电大学 基于熵最小化的开集域适应方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019237000A1 (en) * 2018-06-07 2019-12-12 Google Llc Systems and methods for evaluating a loss function or a gradient of a loss function via dual decomposition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN108765279A (zh) * 2018-03-19 2018-11-06 北京工业大学 一种面向监控场景的行人人脸超分辨率重建方法
CN110750665A (zh) * 2019-10-12 2020-02-04 南京邮电大学 基于熵最小化的开集域适应方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汪鹏 ; 张奥帆 ; 王利琴 ; 董永峰 ; .基于迁移学习与多标签平滑策略的图像自动标注.计算机应用.2018,(11),第153-157页. *

Also Published As

Publication number Publication date
CN111339886A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
Wu et al. Personnet: Person re-identification with deep convolutional neural networks
Wu et al. Deep coattention-based comparator for relative representation learning in person re-identification
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
Feng et al. Triplet distillation for deep face recognition
Wu et al. Action recognition using multilevel features and latent structural SVM
CN112215280B (zh) 一种基于元骨干网络的小样本图像分类方法
Qin et al. Compressive sequential learning for action similarity labeling
JP2022141931A (ja) 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN112560710B (zh) 一种用于构建指静脉识别系统的方法及指静脉识别系统
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
Wei et al. Cross-spectral iris recognition by learning device-specific band
Wei et al. Towards more discriminative and robust iris recognition by learning uncertain factors
Lv et al. Chinese character CAPTCHA recognition based on convolution neural network
Wang et al. Occluded person re-identification via defending against attacks from obstacles
Kansizoglou et al. Haseparator: Hyperplane-assisted softmax
Hu et al. Attention‐guided evolutionary attack with elastic‐net regularization on face recognition
Zdenek et al. JokerGAN: memory-efficient model for handwritten text generation with text line awareness
Schenkel et al. A Comparative Study of Facial Recognition Techniques: With focus on low computational power
Bacharidis et al. Improving deep learning approaches for human activity recognition based on natural language processing of action labels
Schwinn et al. Behind the machine's gaze: Neural networks with biologically-inspired constraints exhibit human-like visual attention
CN111339886B (zh) 一种基于相似性损失的行为识别方法
Su et al. Learning low-dimensional temporal representations with latent alignments
Sun et al. A robot for classifying Chinese calligraphic types and styles
CN114429648B (zh) 一种基于对比特征的行人重识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant