CN111339886B - 一种基于相似性损失的行为识别方法 - Google Patents
一种基于相似性损失的行为识别方法 Download PDFInfo
- Publication number
- CN111339886B CN111339886B CN202010103214.7A CN202010103214A CN111339886B CN 111339886 B CN111339886 B CN 111339886B CN 202010103214 A CN202010103214 A CN 202010103214A CN 111339886 B CN111339886 B CN 111339886B
- Authority
- CN
- China
- Prior art keywords
- loss
- calculating
- samples
- similarity loss
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000009826 distribution Methods 0.000 claims abstract description 8
- 238000011478 gradient descent method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000009182 swimming Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉识别领域,公开了一种基于相似性损失的行为识别方法,涉及计算机视觉识别领域。该行为识别方法包括步骤:将视频片段输入前馈网络,得到特征图以及对应的分类概率;计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;根据成对距离和交叉熵损失计算整个的相似性损失。本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标,相似性损失可以简单的集成在任意一个基础网络之中,在没有额外引入参数和没有额外开销的前提下,该方法在数据集上取得了最优效果,验证了相似性损失的有效性。
Description
技术领域
本发明涉及计算机视觉识别领域,具体涉及一种基于相似性损失的行为识别方法。
背景技术
经过视频级标签训练的深度卷积神经网络往往只专注于最具识别性的部分,而忽略了其他常见的运动模式,这些运动模式可以提供互补信息。我们的动机是发现共同的运动模式和类特定的空间信息,而不是样本特定的特征。基于视频的动作识别具有明显的类内变异和类间相似性,且所有属于同一类的样本并不能准确地表示可视类本身的完全变化。而对于基于3D CNN的动作识别方法,由于模型的参数量大,且参数量大,数据集越小越容易导致过拟合。因此,CNN可以学习在视频中捕捉特定样本的信息,而不是学习目标动作的一般表现形式或常见的运动模式。我们的目标是解决这些问题(过拟合和样本特定的信息),这些问题导致在时序相关样本上的性能很差。直观地说,有两个基本的设计原则:i.应该确保所提出的方法具有合理的参数开销,以减少优化的难度。ii.对于时间建模,应该主要关注时间建模,而不是空间建模。现有的Timeception网路主要通过模型设计来优化目标,让尽可能的去关注时序信息,但很多行为非常依赖上下文信息,如游泳经常与游泳池相关联,只注重时序信息会引起空间信息的损失。
发明内容
为了让整个模型学习类相关特征而不是样本相关特征,本发明提出了一种基于相似性损失的行为识别方法。
一种基于相似性损失的行为识别方法,包括以下步骤:
S1、将视频片段输入前馈网络,得到特征图以及对应的分类概率;
S2、计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;
S3、根据成对距离和交叉熵损失计算整个的相似性损失。
优选地,在上述的基于相似性损失的行为识别方法中,在所述步骤S2中,将两个输入视频样本x1和x2的条件概率分布记为pθ(y|x1),pθ(y|x2),共享相同的类,当模型参数为θ时为,两个输入视频样本x1和x2的成对距离为:DPD(pθ(y|x1),pθ(y|x2))=||pθ(y|x2)-pθ(y|x1)||2;样本相似性损失为:其中,λ为权重超参数,设定为1e-2,在类别一致时,γ(y1,y2)=1。
优选地,在上述的基于相似性损失的行为识别方法中,在所述步骤S3中,采用最小批梯度下降法对相似性损失进行集成,从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代。
优选地,在上述的基于相似性损失的行为识别方法中,所述最小批梯度下降法的具体步骤为:
S31、首先确定训练集合D以及人工设定的超参数θ*,初始化配对损失以及根据预训练模型读入模型参数;
S32、对于数据集D中的所有样本,根据类别标签构造两两配对关系,并定义和计算配对损失,将配对损失保留;
S33、根据每个样本的计算结果,计算交叉熵损失;
S34、根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,更新整个模型的参数。
优选地,在上述的基于相似性损失的行为识别方法中,在所述步骤S34中,根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,迭代计算2-4步,更新整个模型的参数。
本发明的有益效果:本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标,相似性损失可以简单的集成在任意一个基础网络之中,在没有额外引入参数和没有额外开销的前提下,该方法在数据集上取得了最优效果,验证了相似性损失的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的流程图;
图2为本发明实施例所述最小批梯度下降法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明的实施例提出的一种基于相似性损失的行为识别方法,其包括以下步骤:
S1、将视频片段输入前馈网络,得到特征图以及对应的分类概率;
S2、计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;
S3、根据成对距离和交叉熵损失计算整个的相似性损失。
具体地,在本发明的优选实施例中,在所述步骤S2中,将两个输入视频样本x1和x2的条件概率分布记为pθ(y|x1),pθ(y|x2),共享相同的类,当模型参数为θ时为,两个输入视频样本x1和x2的成对距离为:DPD(pθ(y|x1),pθ(y|x2))=||pθ(y|x2)-pθ(y|x1)||2;样本相似性损失为:其中,入为权重超参数,设定为1e-2,在类别一致时,γ(y1,y2)=1。
具体地,在本发明的优选实施例中,在所述步骤S3中,采用最小批梯度下降法对相似性损失进行集成,从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代。
具体地,如图2所示,在本发明的优选实施例中,所述最小批梯度下降法的具体步骤为:
S31、首先确定训练集合D以及人工设定的超参数θ*,初始化配对损失以及根据预训练模型读入模型参数;
S32、对于数据集D中的所有样本,根据类别标签构造两两配对关系,并定义和计算配对损失,将配对损失保留;
S33、根据每个样本的计算结果,计算交叉熵损失;
S34、根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,更新整个模型的参数。
进一步地,在所述步骤S34中,根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,迭代计算2-4步,更新整个模型的参数。
本发明提出的行为识别方法基于简单直观的相似损失来指导投票的时序关联模型VTC(Voting-based Temporal Correlation)和骨干网络的训练。在只给出视频级标签的情况下,首先提取粗预测向量,然后根据同类共享相似预测标签的原则进行两两混淆。该训练算法可以与小批量梯度下降法(MBGD)相结合,根据类对样本进行采样。
综上所述,本发明的方法提出了一种新的相似性损失用来指导整个网络的学习目标,相似性损失可以简单的集成在任意一个基础网络之中,在没有额外引入参数和没有额外开销的前提下,该方法在数据集上取得了最优效果,验证了相似性损失的有效性。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内,本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (2)
1.一种基于相似性损失的行为识别方法,其特征在于,包括以下步骤:
S1、将视频片段输入前馈网络,得到特征图以及对应的分类概率;
S2、计算任意两个配对样本的预测结果,根据预测结果计算分布之间的成对距离;
S3、根据成对距离和交叉熵损失计算整个的相似性损失;
其中,在所述步骤S2中,将两个输入视频样本x1和x2的条件概率分布记为pθ(y|x1),pθ(y|x2),共享相同的类,当模型参数为θ时为,两个输入视频样本x1和x2的成对距离为:DPD(pθ(y|x1),pθ(y|x2))=||pθ(y|x2)-pθ(y|x1)||2;样本相似性损失为:
其中,λ为权重超参数,设定为1e-2,在类别一致时,γ(y1,y2)=1;
其中,DPD表示两个输入视频样本x1和x2的成对距离;
Lpair表示两个成对视频样本之间的距离,即样本的相似性损失;
pθ表示模型参数为θ的输入视频样本的条件概率分布;
y表示视频样本的类别特征;
y1表示视频样本x1的类别特征,y2表示视频样本x2的类别特征;
其中,在所述步骤S3中,采用最小批梯度下降法对相似性损失进行集成,从每个训练集中随机抽取数目与批大小的数值相同的样本进行迭代;
所述最小批梯度下降法的具体步骤为:
S31、首先确定训练集合D以及人工设定的超参数θ*,初始化配对损失以及根据预训练模型读入模型参数;
S32、对于数据集D中的所有样本,根据类别标签构造两两配对关系,并定义和计算配对损失,将配对损失保留;
S33、根据每个样本的计算结果,计算交叉熵损失;
S34、根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,更新整个模型的参数。
2.根据权利要求1所述的基于相似性损失的行为识别方法,其特征在于,在所述步骤S34中,根据设定的超参数θ*计算整个网络的损失,而后进行反向传播,迭代计算两到四步,更新整个模型的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103214.7A CN111339886B (zh) | 2020-02-19 | 2020-02-19 | 一种基于相似性损失的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103214.7A CN111339886B (zh) | 2020-02-19 | 2020-02-19 | 一种基于相似性损失的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339886A CN111339886A (zh) | 2020-06-26 |
CN111339886B true CN111339886B (zh) | 2024-01-09 |
Family
ID=71185363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010103214.7A Active CN111339886B (zh) | 2020-02-19 | 2020-02-19 | 一种基于相似性损失的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339886B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137358A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN108765279A (zh) * | 2018-03-19 | 2018-11-06 | 北京工业大学 | 一种面向监控场景的行人人脸超分辨率重建方法 |
CN110750665A (zh) * | 2019-10-12 | 2020-02-04 | 南京邮电大学 | 基于熵最小化的开集域适应方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019237000A1 (en) * | 2018-06-07 | 2019-12-12 | Google Llc | Systems and methods for evaluating a loss function or a gradient of a loss function via dual decomposition |
-
2020
- 2020-02-19 CN CN202010103214.7A patent/CN111339886B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137358A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN108765279A (zh) * | 2018-03-19 | 2018-11-06 | 北京工业大学 | 一种面向监控场景的行人人脸超分辨率重建方法 |
CN110750665A (zh) * | 2019-10-12 | 2020-02-04 | 南京邮电大学 | 基于熵最小化的开集域适应方法及系统 |
Non-Patent Citations (1)
Title |
---|
汪鹏 ; 张奥帆 ; 王利琴 ; 董永峰 ; .基于迁移学习与多标签平滑策略的图像自动标注.计算机应用.2018,(11),第153-157页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111339886A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Personnet: Person re-identification with deep convolutional neural networks | |
Wu et al. | Deep coattention-based comparator for relative representation learning in person re-identification | |
CN108288051B (zh) | 行人再识别模型训练方法及装置、电子设备和存储介质 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
Feng et al. | Triplet distillation for deep face recognition | |
Wu et al. | Action recognition using multilevel features and latent structural SVM | |
CN112215280B (zh) | 一种基于元骨干网络的小样本图像分类方法 | |
Qin et al. | Compressive sequential learning for action similarity labeling | |
JP2022141931A (ja) | 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN112560710B (zh) | 一种用于构建指静脉识别系统的方法及指静脉识别系统 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
Wei et al. | Cross-spectral iris recognition by learning device-specific band | |
Wei et al. | Towards more discriminative and robust iris recognition by learning uncertain factors | |
Lv et al. | Chinese character CAPTCHA recognition based on convolution neural network | |
Wang et al. | Occluded person re-identification via defending against attacks from obstacles | |
Kansizoglou et al. | Haseparator: Hyperplane-assisted softmax | |
Hu et al. | Attention‐guided evolutionary attack with elastic‐net regularization on face recognition | |
Zdenek et al. | JokerGAN: memory-efficient model for handwritten text generation with text line awareness | |
Schenkel et al. | A Comparative Study of Facial Recognition Techniques: With focus on low computational power | |
Bacharidis et al. | Improving deep learning approaches for human activity recognition based on natural language processing of action labels | |
Schwinn et al. | Behind the machine's gaze: Neural networks with biologically-inspired constraints exhibit human-like visual attention | |
CN111339886B (zh) | 一种基于相似性损失的行为识别方法 | |
Su et al. | Learning low-dimensional temporal representations with latent alignments | |
Sun et al. | A robot for classifying Chinese calligraphic types and styles | |
CN114429648B (zh) | 一种基于对比特征的行人重识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |