CN110443784A - 一种有效的显著性预测模型方法 - Google Patents
一种有效的显著性预测模型方法 Download PDFInfo
- Publication number
- CN110443784A CN110443784A CN201910626405.9A CN201910626405A CN110443784A CN 110443784 A CN110443784 A CN 110443784A CN 201910626405 A CN201910626405 A CN 201910626405A CN 110443784 A CN110443784 A CN 110443784A
- Authority
- CN
- China
- Prior art keywords
- network
- teacher
- student
- loss
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 7
- 238000013461 design Methods 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及信息工程的技术领域,特别是涉及一种有效的显著性预测模型方法,提高模型速度,训练更有效率;包括以下步骤:(1)选择训练好的精度较高的显著性预测模型作为教师网络;(2)设计模型参数量更少的网络结构作为学生网络;(3)采用知识蒸馏的方式,通过教师网络指导学生网络进行学习,使之达到相当的精度;(4)学生网络再进行自主学习,进行微调。
Description
技术领域
本发明涉及信息工程的技术领域,特别是涉及一种有效的显著性预测模型方法。
背景技术
视觉系统是人类认识和感知世界最重要的信息来源,人眼每天都在实时地接收并高效处理复杂的视觉输入信息。认知神经学的研究表明,由于大脑有限的容量,在处理复杂的视觉数据时,人类视觉系统就像一个过滤器,能够迅速将有限的神经计算资源分配给场景中的关键部分,选择关键的信息进行后续的处理,其它的信息被舍弃。这种机制称为视觉注意力机制。它反映了人眼对视觉信息的处理机制。受视觉注意力机制的启发,在计算机视觉领域,视觉显著性研究在最近二十多年得到了快速的发展,并与其它技术相互促进。
显著性预测能够从复杂的场景中快速准确地定位图像中最显著的目标或区域,识别后的显著性结果在图像裁剪、目标跟踪、图像分割、视频压缩等计算机视觉领域中都有着广泛的应用。一般地,显著性预测方法分为基于传统方法的显著性预测和基于深度学习的显著性预测方法。在传统的显著性预测方法中,研究者大都先将图片过分割,然后模拟人类视觉注意机制,抽象出用来满足相应条件下能表现出区域是背景还是前景的先验假设,基于这些先验假设得到特征表示,进而对图像进行建模求解预测结果。这些先验假设包括全局对比假设、空间分布假设、稀疏假设、中心偏向、背景先验等。另外还有从决策论、图论、频域等角度设计算法进行预测。传统的显著性目标预测算法使用的是手工特征,虽然手工特征可以达到实时预测的性能,但需要人为地提供先验假设,设计特征选取的方式,故在精度和鲁棒性上还存在欠缺。近几年,基于深度学习的显著性预测方法发展起来。这些方法依托于深度神经网络的多卷积层结构,对底层视觉特征和高层语义特征进行有效的提取。常见的基于深度学习的显著性预测方法有:
1.基于全连接神经网络的显著性预测方法,例如:LEGS(Deep Networks forSaliency Detection via Local Estimation and Global Search)、MC(SaliencyDetection by Multi-Context Deep Learning)等。
2.基于全卷积神经网络(FCN)的显著性预测方法,随着全卷积网络的提出,大量基于全卷积神经网络的显著性预测模型被提出,并取得不错的效果。例如:DSS(DeeplySupervised Salient Object Detection with Short Connections)、Amulet(Amulet:Aggregating Multi-level Convolutional Features for Salient Object Detection)等。
3.基于循环微调的显著性预测方法,通过不断循环微调的方式,得到更好的显著性预测的结果。例如:R3Net(R3Net:Recurrent Residual Refinement Network forSaliency Detection)、RA(Reverse Attention for Salient Object Detection)等。
目前在已有数据集上的显著性预测模型精度已经较高,但模型较复杂,时间复杂度较高。显著性预测希望为其它任务,如图像裁剪、图像压缩等任务提供更好的预处理,如果显著性预测模型太复杂,不仅无法起到辅助作用,反而会降低模型的性能。另外,目前已经存在的模型大都是在预训练的模型上微调,基础骨架网络受到很大限制,缺少灵活性。
发明内容
为解决上述技术问题,本发明提供一种提高模型速度,训练更有效率的有效的显著性预测模型方法。
本发明的一种有效的显著性预测模型方法,包括以下步骤:
(1)选择训练好的精度较高的显著性预测模型作为教师网络;
(2)设计模型参数量更少的网络结构作为学生网络;
(3)采用知识蒸馏的方式,通过教师网络指导学生网络进行学习,使之达到相当的精度;
(4)学生网络再进行自主学习,进行微调。
本发明的一种有效的显著性预测模型方法,所述步骤(3)进一步包括以下步骤:
(31)计算教师网络和学生网络对应的每一个卷积层的一阶统计信息;
(32)计算教师网络和学生网络对应的每一个卷积层的二阶统计信息;
(33)计算教师网络和学生网络对应的一阶统计信息之间的损失,计算教师网络和学生网络对应的二阶统计信息之间的损失;
(34)计算教师网络输出结果与学生网络输出结果之间损失;
(35)对学生网络进行训练,使总的损失达到最小。
本发明的一种有效的显著性预测模型方法,所述步骤(35)中涉及到的总的损失是一阶统计信息之间损失、二阶统计信息之间损失和输出结果之间损失的加权和。
本发明的一种有效的显著性预测模型方法,所述步骤(4)进一步包括以下步骤:
(41)计算学生网络输出图像与人工标注的图像之间的损失;
(42)对学生网络训练,使损失达到最小。
与现有技术相比本发明的有益效果为:和现有技术相比减少了模型参数量,提高了模型速度,并能够使学生网络和教师网络达到相当的精度水平,使其能更有效率地应用到其它应用中。
附图说明
图1是本发明的结构示意图;
图2是一阶统计的计算流程图;
图3是二阶统计的计算流程图;
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例:
选择目前常用的精度较高的显著性预测模型作为教师网络,选取全卷积网络、U型网络分别实施本发明所述方法。
设计模型参数量更少的网络结构作为学生网络。显著性预测的结果是一个二值分割图,需要底层特征和高层特征的融合,为了保留教师网络有效利用高低层特征的网络结构,在这里,本发明采用减少每个卷积层通道数的方法,减少网络参数量。本发明采用将学生网络通道数减少为教师网络二分之一的通道数和减少为教师网络四分之一的通道数两种情况。
目前的显著性预测模型都基于预训练的模型进行微调,如果减少了模型通道数,无法使用预训练的模型,需要重新从头开始训练模型,这样很难收敛到最优点。而预训练一个模型需要很长的时间和资源开销。为了解决这一问题,本发明采用知识蒸馏的方法,通过训练好的精度较高的教师网络指导参数量更少的随机初始化的学生网络进行学习。关于目前大多数基于深度学习的方法使用预训练的模型,本领域普通技术人员可以理解。
本发明包括两个阶段,第一个阶段是知识蒸馏,第二个阶段是学生网络的自学习。对于知识蒸馏的方法,如果直接让教师网络每层的特征和学生网络对应的特征逼近,就需要解决通道数不一致的问题。常见的做法是增加卷积层,这样会增加训练的复杂度。另外,直接在高维空间优化随机初始化的网络比较困难。所以本发明计算两种统计信息,分别是一阶统计信息和二阶统计信息。通过度量函数,逼近两者之间的统计值,使两个网络达到相当的水平。本发明的度量函数选择欧氏距离。两种统计信息的计算过程进一步为:
对于一阶统计信息,本发明采用在通道维度上全局池化的方式来计算,可参考附图2所示。计算过程为:
其中,At(i,j)和As(i,j)分别为教师网络和学生网络的一阶统计信息,Ft(c,i,j)和Fs(c,i,j)分别为教师网络和学生网络的特征图,ct和c s分别为教师网络和学生网络特征图的通道数。
一阶统计信息表示了显著性物体像素级的信息,帮助网络进行显著性物体的定位。对于一阶统计信息的度量计算如下,使两者距离最小:
其中,Lft表示教师网络和学生网络一阶统计损失,Ws表示学生网络模型参数,h和w分别表示一阶统计信息图的长和宽,vec表示对一阶统计信息向量化,M为教师网络和学生网络对应的特征对数,dist为距离计算函数。
像素点之间的相关性对显著性预测任务的作用很大。显著性预测的结果是一个二值化的分割图,像素点之间的相关性对于精细化显著性结果起到促进作用。本发明通过计算二阶矩阵来统计相关性信息,使教师网络和学生网络像素点间相关性趋于一致,可参考附图3。另外,相关性矩阵的计算可以解决维度不一致的问题。具体计算过程为:
其中,Ct和Cs分别为教师网络和学生网络的二阶统计信息,tra nspose为转置操作。
对于二阶统计信息的度量计算如下,使两者距离最小:
其中,Lst表示教师网络和学生网络二阶统计损失,Ws表示学生网络模型参数,h和w分别表示一阶统计信息图的长和宽,M为教师网络和学生网络对应的特征对数,dist为距离计算函数。
对于知识蒸馏部分总的损失可由上述一阶统计信息损失、二阶统计信息损失以及教师网络和学生网络输出之间的损失的加权和表示,然后对进行模型训练。输出损失使用交叉熵损失表示:
其中,Lce为输出损失,1为指示函数,c为类别数。
总的损失表示如下:
L(WS)=αLGe(WS)+βftLft(WS)+βstLst(WS)
其中,Lce、Lft、Lst分别为输出损失、一阶统计损失和二阶统计损失,α、βft、βst为三种损失的权重。
最后,在第二个阶段,学生网络再进行自主学习,进行微调。通过对模型训练,使学生网络的输出和人工标注结果图之间的损失达到最小。本发明选取的损失可表示为:
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (4)
1.一种有效的显著性预测模型方法,其特征在于,包括以下步骤:
(1)选择训练好的精度较高的显著性预测模型作为教师网络;
(2)设计模型参数量更少的网络结构作为学生网络;
(3)采用知识蒸馏的方式,通过教师网络指导学生网络进行学习,使之达到相当的精度;
(4)学生网络再进行自主学习,进行微调。
2.如权利要求1所述的一种有效的显著性预测模型方法,其特征在于,所述步骤(3)进一步包括以下步骤:
(31)计算教师网络和学生网络对应的每一个卷积层的一阶统计信息;
(32)计算教师网络和学生网络对应的每一个卷积层的二阶统计信息;
(33)计算教师网络和学生网络对应的一阶统计信息之间的损失,计算教师网络和学生网络对应的二阶统计信息之间的损失;
(34)计算教师网络输出结果与学生网络输出结果之间损失;
(35)对学生网络进行训练,使总的损失达到最小。
3.如权利要求2所述的一种有效的显著性预测模型方法,其特征在于,所述步骤(35)中涉及到的总的损失是一阶统计信息之间损失、二阶统计信息之间损失和输出结果之间损失的加权和。
4.如权利要求3所述的一种有效的显著性预测模型方法,其特征在于,所述步骤(4)进一步包括以下步骤:
(41)计算学生网络输出图像与人工标注的图像之间的损失;
(42)对学生网络训练,使损失达到最小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626405.9A CN110443784B (zh) | 2019-07-11 | 2019-07-11 | 一种有效的显著性预测模型方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626405.9A CN110443784B (zh) | 2019-07-11 | 2019-07-11 | 一种有效的显著性预测模型方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110443784A true CN110443784A (zh) | 2019-11-12 |
CN110443784B CN110443784B (zh) | 2022-12-09 |
Family
ID=68430236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910626405.9A Expired - Fee Related CN110443784B (zh) | 2019-07-11 | 2019-07-11 | 一种有效的显著性预测模型方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443784B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027403A (zh) * | 2019-11-15 | 2020-04-17 | 深圳市瑞立视多媒体科技有限公司 | 手势估计方法、装置、设备及计算机可读存储介质 |
CN111724306A (zh) * | 2020-06-19 | 2020-09-29 | 福州大学 | 一种基于卷积神经网络的图像缩小方法及系统 |
CN112132146A (zh) * | 2020-08-14 | 2020-12-25 | 北京三快在线科技有限公司 | 图像裁切模型的训练方法、装置及图像裁切方法、装置 |
CN112200062A (zh) * | 2020-09-30 | 2021-01-08 | 广州云从人工智能技术有限公司 | 一种基于神经网络的目标检测方法、装置、机器可读介质及设备 |
CN112529178A (zh) * | 2020-12-09 | 2021-03-19 | 中国科学院国家空间科学中心 | 一种适用于无预选框检测模型的知识蒸馏方法及系统 |
CN113837200A (zh) * | 2021-08-31 | 2021-12-24 | 中国计量大学 | 一种视觉显著性检测中的自主学习方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN109919110A (zh) * | 2019-03-13 | 2019-06-21 | 北京航空航天大学 | 视频关注区域检测方法、装置及设备 |
-
2019
- 2019-07-11 CN CN201910626405.9A patent/CN110443784B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN109919110A (zh) * | 2019-03-13 | 2019-06-21 | 北京航空航天大学 | 视频关注区域检测方法、装置及设备 |
Non-Patent Citations (3)
Title |
---|
YANG YI ET AL.: "Saliency detection with two-level fully convolutional networks", 《IEEE XPLORE》 * |
凌弘毅: "基于知识蒸馏方法的行人属性识别研究", 《计算机应用与软件》 * |
葛仕明 等: "基于深度特征蒸馏的人脸识别", 《北京交通大学学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027403A (zh) * | 2019-11-15 | 2020-04-17 | 深圳市瑞立视多媒体科技有限公司 | 手势估计方法、装置、设备及计算机可读存储介质 |
CN111724306A (zh) * | 2020-06-19 | 2020-09-29 | 福州大学 | 一种基于卷积神经网络的图像缩小方法及系统 |
CN111724306B (zh) * | 2020-06-19 | 2022-07-08 | 福州大学 | 一种基于卷积神经网络的图像缩小方法及系统 |
CN112132146A (zh) * | 2020-08-14 | 2020-12-25 | 北京三快在线科技有限公司 | 图像裁切模型的训练方法、装置及图像裁切方法、装置 |
CN112200062A (zh) * | 2020-09-30 | 2021-01-08 | 广州云从人工智能技术有限公司 | 一种基于神经网络的目标检测方法、装置、机器可读介质及设备 |
CN112200062B (zh) * | 2020-09-30 | 2021-09-28 | 广州云从人工智能技术有限公司 | 一种基于神经网络的目标检测方法、装置、机器可读介质及设备 |
CN112529178A (zh) * | 2020-12-09 | 2021-03-19 | 中国科学院国家空间科学中心 | 一种适用于无预选框检测模型的知识蒸馏方法及系统 |
CN112529178B (zh) * | 2020-12-09 | 2024-04-09 | 中国科学院国家空间科学中心 | 一种适用于无预选框检测模型的知识蒸馏方法及系统 |
CN113837200A (zh) * | 2021-08-31 | 2021-12-24 | 中国计量大学 | 一种视觉显著性检测中的自主学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110443784B (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443784A (zh) | 一种有效的显著性预测模型方法 | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN104933417B (zh) | 一种基于稀疏时空特征的行为识别方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Liu et al. | Multiclass semantic video segmentation with object-level active inference | |
Zhang et al. | A Bayesian network model for automatic and interactive image segmentation | |
CN110827543A (zh) | 一种基于深度学习和时空数据融合的短时交通流控制方法 | |
CN110728308B (zh) | 基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法 | |
Fang et al. | Survey on the application of deep reinforcement learning in image processing | |
CN103262119A (zh) | 用于对图像进行分割的方法和系统 | |
CN111724400B (zh) | 视频自动抠像方法及系统 | |
CN113111716B (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN111462191A (zh) | 一种基于深度学习的非局部滤波器无监督光流估计方法 | |
CN106815563B (zh) | 一种基于人体表观结构的人群数量预测方法 | |
CN112434608A (zh) | 一种基于双流结合网络的人体行为识别方法及系统 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN104778466A (zh) | 一种联合多种上下文线索的图像关注区域检测方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN110889335B (zh) | 基于多通道时空融合网络人体骨架双人交互行为识别方法 | |
Singh et al. | Action recognition in dark videos using spatio-temporal features and bidirectional encoder representations from transformers | |
Reichert et al. | A hierarchical generative model of recurrent object-based attention in the visual cortex | |
CN111325149B (zh) | 一种基于投票的时序关联模型的视频动作识别方法 | |
Gan et al. | Unpaired cross domain image translation with augmented auxiliary domain information | |
CN116152699B (zh) | 用于水电厂视频监控系统的实时运动目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221209 |