CN110443784B - 一种有效的显著性预测模型方法 - Google Patents

一种有效的显著性预测模型方法 Download PDF

Info

Publication number
CN110443784B
CN110443784B CN201910626405.9A CN201910626405A CN110443784B CN 110443784 B CN110443784 B CN 110443784B CN 201910626405 A CN201910626405 A CN 201910626405A CN 110443784 B CN110443784 B CN 110443784B
Authority
CN
China
Prior art keywords
network
loss
student
teacher
student network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910626405.9A
Other languages
English (en)
Other versions
CN110443784A (zh
Inventor
张朋
苏荔
黄庆明
李国荣
李亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Chinese Academy of Sciences
Original Assignee
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Chinese Academy of Sciences filed Critical University of Chinese Academy of Sciences
Priority to CN201910626405.9A priority Critical patent/CN110443784B/zh
Publication of CN110443784A publication Critical patent/CN110443784A/zh
Application granted granted Critical
Publication of CN110443784B publication Critical patent/CN110443784B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及信息工程的技术领域,特别是涉及一种有效的显著性预测模型方法,提高模型速度,训练更有效率;包括以下步骤:(1)选择训练好的精度较高的显著性预测模型作为教师网络;(2)设计模型参数量更少的网络结构作为学生网络;(3)采用知识蒸馏的方式,通过教师网络指导学生网络进行学习,使之达到相当的精度;(4)学生网络再进行自主学习,进行微调。

Description

一种有效的显著性预测模型方法
技术领域
本发明涉及信息工程的技术领域,特别是涉及一种有效的显著性预测模型方法。
背景技术
视觉系统是人类认识和感知世界最重要的信息来源,人眼每天都在实时地接收并高效处理复杂的视觉输入信息。认知神经学的研究表明,由于大脑有限的容量,在处理复杂的视觉数据时,人类视觉系统就像一个过滤器,能够迅速将有限的神经计算资源分配给场景中的关键部分,选择关键的信息进行后续的处理,其它的信息被舍弃。这种机制称为视觉注意力机制。它反映了人眼对视觉信息的处理机制。受视觉注意力机制的启发,在计算机视觉领域,视觉显著性研究在最近二十多年得到了快速的发展,并与其它技术相互促进。
显著性预测能够从复杂的场景中快速准确地定位图像中最显著的目标或区域,识别后的显著性结果在图像裁剪、目标跟踪、图像分割、视频压缩等计算机视觉领域中都有着广泛的应用。一般地,显著性预测方法分为基于传统方法的显著性预测和基于深度学习的显著性预测方法。在传统的显著性预测方法中,研究者大都先将图片过分割,然后模拟人类视觉注意机制,抽象出用来满足相应条件下能表现出区域是背景还是前景的先验假设,基于这些先验假设得到特征表示,进而对图像进行建模求解预测结果。这些先验假设包括全局对比假设、空间分布假设、稀疏假设、中心偏向、背景先验等。另外还有从决策论、图论、频域等角度设计算法进行预测。传统的显著性目标预测算法使用的是手工特征,虽然手工特征可以达到实时预测的性能,但需要人为地提供先验假设,设计特征选取的方式,故在精度和鲁棒性上还存在欠缺。近几年,基于深度学习的显著性预测方法发展起来。这些方法依托于深度神经网络的多卷积层结构,对底层视觉特征和高层语义特征进行有效的提取。常见的基于深度学习的显著性预测方法有:
1.基于全连接神经网络的显著性预测方法,例如:LEGS(Deep Networks forSaliency Detection via Local Estimation and Global Search)、MC(SaliencyDetection by Multi-Context Deep Learning)等。
2.基于全卷积神经网络(FCN)的显著性预测方法,随着全卷积网络的提出,大量基于全卷积神经网络的显著性预测模型被提出,并取得不错的效果。例如:DSS(DeeplySupervised Salient Object Detection with Short Connections)、Amulet(Amulet:Aggregating Multi-level Convolutional Features for Salient Object Detection)等。
3.基于循环微调的显著性预测方法,通过不断循环微调的方式,得到更好的显著性预测的结果。例如:R3Net(R3Net:Recurrent Residual Refinement Network forSaliency Detection)、RA(Reverse Attention for Salient Object Detection)等。
目前在已有数据集上的显著性预测模型精度已经较高,但模型较复杂,时间复杂度较高。显著性预测希望为其它任务,如图像裁剪、图像压缩等任务提供更好的预处理,如果显著性预测模型太复杂,不仅无法起到辅助作用,反而会降低模型的性能。另外,目前已经存在的模型大都是在预训练的模型上微调,基础骨架网络受到很大限制,缺少灵活性。
发明内容
为解决上述技术问题,本发明提供一种提高模型速度,训练更有效率的有效的显著性预测模型方法。
本发明的一种有效的显著性预测模型方法,包括以下步骤:
(1)选择训练好的精度较高的显著性预测模型作为教师网络;
(2)设计模型参数量更少的网络结构作为学生网络;
(3)采用知识蒸馏的方式,通过教师网络指导学生网络进行学习,使之达到相当的精度;
(4)学生网络再进行自主学习,进行微调。
本发明的一种有效的显著性预测模型方法,所述步骤(3)进一步包括以下步骤:
(31)计算教师网络和学生网络对应的每一个卷积层的一阶统计信息;
(32)计算教师网络和学生网络对应的每一个卷积层的二阶统计信息;
(33)计算教师网络和学生网络对应的一阶统计信息之间的损失,计算教师网络和学生网络对应的二阶统计信息之间的损失;
(34)计算教师网络输出结果与学生网络输出结果之间损失;
(35)对学生网络进行训练,使总的损失达到最小。
本发明的一种有效的显著性预测模型方法,所述步骤(35)中涉及到的总的损失是一阶统计信息之间损失、二阶统计信息之间损失和输出结果之间损失的加权和。
本发明的一种有效的显著性预测模型方法,所述步骤(4)进一步包括以下步骤:
(41)计算学生网络输出图像与人工标注的图像之间的损失;
(42)对学生网络训练,使损失达到最小。
与现有技术相比本发明的有益效果为:和现有技术相比减少了模型参数量,提高了模型速度,并能够使学生网络和教师网络达到相当的精度水平,使其能更有效率地应用到其它应用中。
附图说明
图1是本发明的结构示意图;
图2是一阶统计的计算流程图;
图3是二阶统计的计算流程图;
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例:
选择目前常用的精度较高的显著性预测模型作为教师网络,选取全卷积网络、U型网络分别实施本发明所述方法。
设计模型参数量更少的网络结构作为学生网络。显著性预测的结果是一个二值分割图,需要底层特征和高层特征的融合,为了保留教师网络有效利用高低层特征的网络结构,在这里,本发明采用减少每个卷积层通道数的方法,减少网络参数量。本发明采用将学生网络通道数减少为教师网络二分之一的通道数和减少为教师网络四分之一的通道数两种情况。
目前的显著性预测模型都基于预训练的模型进行微调,如果减少了模型通道数,无法使用预训练的模型,需要重新从头开始训练模型,这样很难收敛到最优点。而预训练一个模型需要很长的时间和资源开销。为了解决这一问题,本发明采用知识蒸馏的方法,通过训练好的精度较高的教师网络指导参数量更少的随机初始化的学生网络进行学习。关于目前大多数基于深度学习的方法使用预训练的模型,本领域普通技术人员可以理解。
本发明包括两个阶段,第一个阶段是知识蒸馏,第二个阶段是学生网络的自学习。对于知识蒸馏的方法,如果直接让教师网络每层的特征和学生网络对应的特征逼近,就需要解决通道数不一致的问题。常见的做法是增加卷积层,这样会增加训练的复杂度。另外,直接在高维空间优化随机初始化的网络比较困难。所以本发明计算两种统计信息,分别是一阶统计信息和二阶统计信息。通过度量函数,逼近两者之间的统计值,使两个网络达到相当的水平。本发明的度量函数选择欧氏距离。两种统计信息的计算过程进一步为:
对于一阶统计信息,本发明采用在通道维度上全局池化的方式来计算,可参考附图2所示。计算过程为:
Figure BDA0002127254140000051
Figure BDA0002127254140000052
其中,At(i,j)和As(i,j)分别为教师网络和学生网络的一阶统计信息,Ft(c,i,j)和Fs(c,i,j)分别为教师网络和学生网络的特征图,ct和c s分别为教师网络和学生网络特征图的通道数。
一阶统计信息表示了显著性物体像素级的信息,帮助网络进行显著性物体的定位。对于一阶统计信息的度量计算如下,使两者距离最小:
Figure BDA0002127254140000053
其中,Lft表示教师网络和学生网络一阶统计损失,Ws表示学生网络模型参数,h和w分别表示一阶统计信息图的长和宽,vec表示对一阶统计信息向量化,M为教师网络和学生网络对应的特征对数,dist为距离计算函数。
像素点之间的相关性对显著性预测任务的作用很大。显著性预测的结果是一个二值化的分割图,像素点之间的相关性对于精细化显著性结果起到促进作用。本发明通过计算二阶矩阵来统计相关性信息,使教师网络和学生网络像素点间相关性趋于一致,可参考附图3。另外,相关性矩阵的计算可以解决维度不一致的问题。具体计算过程为:
Figure BDA0002127254140000061
Figure BDA0002127254140000062
其中,Ct和Cs分别为教师网络和学生网络的二阶统计信息,tra nspose为转置操作。
对于二阶统计信息的度量计算如下,使两者距离最小:
Figure BDA0002127254140000063
其中,Lst表示教师网络和学生网络二阶统计损失,Ws表示学生网络模型参数,h和w分别表示一阶统计信息图的长和宽,M为教师网络和学生网络对应的特征对数,dist为距离计算函数。
对于知识蒸馏部分总的损失可由上述一阶统计信息损失、二阶统计信息损失以及教师网络和学生网络输出之间的损失的加权和表示,然后对进行模型训练。输出损失使用交叉熵损失表示:
Figure BDA0002127254140000071
其中,Lce为输出损失,1为指示函数,c为类别数。
总的损失表示如下:
L(WS)=αLGe(WS)+βftLft(WS)+βstLst(WS)
其中,Lce、Lft、Lst分别为输出损失、一阶统计损失和二阶统计损失,α、βft、βst为三种损失的权重。
最后,在第二个阶段,学生网络再进行自主学习,进行微调。通过对模型训练,使学生网络的输出和人工标注结果图之间的损失达到最小。本发明选取的损失可表示为:
Figure BDA0002127254140000072
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (3)

1.一种有效的显著性预测模型方法,其特征在于,包括以下步骤:
(1)选择训练好的精度较高的显著性预测模型作为教师网络;
(2)设计模型参数量更少的网络结构作为学生网络;
(3)采用知识蒸馏的方式,通过教师网络指导学生网络进行学习,使之达到相当的精度;
(4)学生网络再进行自主学习,进行微调;
所述步骤(3)进一步包括以下步骤:
(31)计算教师网络和学生网络对应的每一个卷积层的一阶统计信息;
对于一阶统计信息,采用在通道维度上全局池化的方式来计算,计算过程为:
Figure FDA0003923026870000011
Figure FDA0003923026870000012
其中,At(i,j)和As(i,j)分别为教师网络和学生网络的一阶统计信息,Ft(c,i,j)和Fs(c,i,j)分别为教师网络和学生网络的特征图,ct和cs分别为教师网络和学生网络特征图的通道数;
对于一阶统计信息的度量计算如下,使两者距离最小:
Figure FDA0003923026870000013
其中,Lft表示教师网络和学生网络一阶统计损失,Ws表示学生网络模型参数,h和w分别表示一阶统计信息图的长和宽,vec表示对一阶统计信息向量化,M为教师网络和学生网络对应的特征对数,dist为距离计算函数;
通过计算二阶矩阵来统计相关性信息,使教师网络和学生网络像素点间相关性趋于一致;另外,相关性矩阵的计算可以解决维度不一致的问题,具体计算过程为:
Figure FDA0003923026870000021
Figure FDA0003923026870000022
其中,Ct和Cs分别为教师网络和学生网络的二阶统计信息,transpose为转置操作;
(32)计算教师网络和学生网络对应的每一个卷积层的二阶统计信息;
对于二阶统计信息的度量计算如下,使两者距离最小:
Figure FDA0003923026870000023
其中,Lst表示教师网络和学生网络二阶统计损失,Ws表示学生网络模型参数,h和w分别表示一阶统计信息图的长和宽,M为教师网络和学生网络对应的特征对数,dist为距离计算函数;
对于知识蒸馏部分总的损失可由上述一阶统计信息损失、二阶统计信息损失以及教师网络和学生网络输出之间的损失的加权和表示,然后对进行模型训练,输出损失使用交叉熵损失表示:
Figure FDA0003923026870000024
其中,Lce为输出损失,1为指示函数,c为类别数;
总的损失表示如下:
L(WS)=αLce(WS)+βftLft(WS)+βstLst(WS)
其中,Lce、Lft、Lst分别为输出损失、一阶统计损失和二阶统计损失,α、βft、βst为三种损失的权重;
通过对模型训练,使学生网络的输出和人工标注结果图之间的损失达到最小;选取的损失可表示为:
Figure FDA0003923026870000031
(33)计算教师网络和学生网络对应的一阶统计信息之间的损失,计算教师网络和学生网络对应的二阶统计信息之间的损失;
(34)计算教师网络输出结果与学生网络输出结果之间损失;
(35)对学生网络进行训练,使总的损失达到最小。
2.如权利要求1所述的一种有效的显著性预测模型方法,其特征在于,所述步骤(35)中涉及到的总的损失是一阶统计信息之间损失、二阶统计信息之间损失和输出结果之间损失的加权和。
3.如权利要求2所述的一种有效的显著性预测模型方法,其特征在于,所述步骤(4)进一步包括以下步骤:
(41)计算学生网络输出图像与人工标注的图像之间的损失;
(42)对学生网络训练,使损失达到最小。
CN201910626405.9A 2019-07-11 2019-07-11 一种有效的显著性预测模型方法 Expired - Fee Related CN110443784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910626405.9A CN110443784B (zh) 2019-07-11 2019-07-11 一种有效的显著性预测模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910626405.9A CN110443784B (zh) 2019-07-11 2019-07-11 一种有效的显著性预测模型方法

Publications (2)

Publication Number Publication Date
CN110443784A CN110443784A (zh) 2019-11-12
CN110443784B true CN110443784B (zh) 2022-12-09

Family

ID=68430236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910626405.9A Expired - Fee Related CN110443784B (zh) 2019-07-11 2019-07-11 一种有效的显著性预测模型方法

Country Status (1)

Country Link
CN (1) CN110443784B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027403B (zh) * 2019-11-15 2023-06-06 深圳市瑞立视多媒体科技有限公司 手势估计方法、装置、设备及计算机可读存储介质
CN111724306B (zh) * 2020-06-19 2022-07-08 福州大学 一种基于卷积神经网络的图像缩小方法及系统
CN112132146A (zh) * 2020-08-14 2020-12-25 北京三快在线科技有限公司 图像裁切模型的训练方法、装置及图像裁切方法、装置
CN112200062B (zh) * 2020-09-30 2021-09-28 广州云从人工智能技术有限公司 一种基于神经网络的目标检测方法、装置、机器可读介质及设备
CN112529178B (zh) * 2020-12-09 2024-04-09 中国科学院国家空间科学中心 一种适用于无预选框检测模型的知识蒸馏方法及系统
CN113837200A (zh) * 2021-08-31 2021-12-24 中国计量大学 一种视觉显著性检测中的自主学习方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919110A (zh) * 2019-03-13 2019-06-21 北京航空航天大学 视频关注区域检测方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919110A (zh) * 2019-03-13 2019-06-21 北京航空航天大学 视频关注区域检测方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度特征蒸馏的人脸识别;葛仕明 等;《北京交通大学学报》;20171215(第06期);全文 *
基于知识蒸馏方法的行人属性识别研究;凌弘毅;《计算机应用与软件》;20181012(第10期);全文 *

Also Published As

Publication number Publication date
CN110443784A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110443784B (zh) 一种有效的显著性预测模型方法
CN110322446B (zh) 一种基于相似性空间对齐的域自适应语义分割方法
Theis et al. Faster gaze prediction with dense networks and fisher pruning
CN109472232B (zh) 基于多模态融合机制的视频语义表征方法、系统及介质
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111144329B (zh) 一种基于多标签的轻量快速人群计数方法
CN105095862B (zh) 一种基于深度卷积条件随机场的人体动作识别方法
Khowaja et al. Semantic image networks for human action recognition
Kim et al. Fast pedestrian detection in surveillance video based on soft target training of shallow random forest
CN110956222B (zh) 用于水下目标检测的检测网络的方法
CN110929848A (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN110688927A (zh) 一种基于时序卷积建模的视频动作检测方法
CN113469186A (zh) 一种基于少量点标注的跨域迁移图像分割方法
Mukherjee et al. Predicting video-frames using encoder-convlstm combination
CN110599443A (zh) 一种使用双向长短期记忆网络的视觉显著性检测方法
CN113159236A (zh) 基于多尺度变换的多聚焦图像融合方法及装置
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN114283350A (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
Lu et al. Siamese graph attention networks for robust visual object tracking
CN112528077A (zh) 基于视频嵌入的视频人脸检索方法及系统
CN115082840B (zh) 基于数据组合和通道相关性的动作视频分类方法和装置
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
CN116543338A (zh) 一种基于注视目标估计的学生课堂行为检测方法
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN115019342A (zh) 一种基于类关系推理的濒危动物目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221209