CN114647760A - 一种基于神经网络自温故及知识传导机制的智能视频图像检索方法 - Google Patents

一种基于神经网络自温故及知识传导机制的智能视频图像检索方法 Download PDF

Info

Publication number
CN114647760A
CN114647760A CN202210037094.4A CN202210037094A CN114647760A CN 114647760 A CN114647760 A CN 114647760A CN 202210037094 A CN202210037094 A CN 202210037094A CN 114647760 A CN114647760 A CN 114647760A
Authority
CN
China
Prior art keywords
model
knowledge
self
student
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210037094.4A
Other languages
English (en)
Inventor
程德强
张皓翔
吕晨
寇旗旗
赵凯
王晓艺
刘敬敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202210037094.4A priority Critical patent/CN114647760A/zh
Publication of CN114647760A publication Critical patent/CN114647760A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

一种基于神经网络自温故及知识传导机制的智能视频图像检索方法,在保证模型实时性的同时,提高小模型检索精度,在精度和效率之间尽可能达到平衡;设置伽马校正模块,通过对图像的局部调整,实现对光照不均匀鲁棒性,提高细节可辨度,避免高频噪声,普适性强;建立自温故机制,允许神经网络的局部自我监督,不断反思、调整学习参数,充分学习到图像深层语义信息,实现神经网络快速收敛,提高检索精度;采用知识传导机制,提升模型精度、降低模型时延,压缩网络参数,最终得到一个性能强和精度高的学生模型;通过传导机制将浅特征知识作为学习目标,采用VAE变分自编码模型重构深度特征,以此生成学习结果,将学习结果与目标进行度量,完成学习任务。

Description

一种基于神经网络自温故及知识传导机制的智能视频图像检 索方法
技术领域
本发明属于图像检索领域,具体涉及一种基于神经网络自温故及知识传导机制的智能视频图像检索方法。
背景技术
图像检索是对图像进行定量分析,从而实现对图像的正确判断。一些学者将其引入到选矿以及井下图像检索领域。然而,随着数据量激增,基于支持向量机以及线性分类的算法受限于数据表征能力,因此检索效果并不理想。有相关研究将支持向量机与神经网络进行结合,通过代替softmax层实现图像预测。然而支持向量机需要在高维数据中找到合适的空间参数产生有效的间隔分类层,因此增加了神经网络学习负担,难以嵌入到神经网络进行端对端的训练。在采矿业领域,选矿、图像检索的科技化程度还不够,目前主要还是依靠人工巡检的方式进行甄别。原因在于目前基于深度学习的井下部署困难,运行时间成本大,实时性有待提高。
随着GPU的普及,为了减少参数数量,研究人员提出VGG Net深度神经网络,在保证网络性能的稳定性的同时提升了网络性能,然而随着对常规的网络进行直接堆叠,模型的性能有所下降。进而有学者提出的深度残差网络ResNet,利用对特征的恒等映射的学习实现模型性能的保持。随着智能化煤矿的提出,研究人员开始将深度神经网络算法迁移到井下工作面异常检索方面。利用神经网络对矿资源进行特征提取、特征训练实现对矿岩的分析和检索识别;针对人工检索矿石块度的问题,采用残差神经网络结构组成的主干特征提取网络实现对矿石块度的自动检索;针对煤矿皮带运输异物检索,采用直方图均匀化处理光照不均匀,Faster R-CNN作为主干提取算法对图像进行特征提取进而实现精准地图像检索。
但是目前提出的检索方法仍存在如下的问题:
1、井下环境复杂,即便是性能较好的井上算法难以应对井下极端环境。因此,一些基于深度神经网络的检索算法或者传统算法在井下部署相对困难。
2、基于神经网络的深度学习取得了巨大的成功,但受限于庞大参数量的问题,实时性问题有待提高,井下皮带异物检索实时性要求高,上述基于Faster R-CNN虽满足井下异物检索精度要求,然而实时性有待提高。
3、针对井下不均匀光照条件,目前算法常采用直方图均匀化的图像增强方法,通过调整亮度分布实现光照均匀化,直方图使灰度级分布具有均匀概率密度,扩展了像素取值的动态范围但减少了灰度级。直方图明暗分布依赖先验知识,普适性不强,且损害局部明亮区域以及图像可辨细节部分。
4、目前的算法没有找到在精度以及计算复杂度之间的平衡点,所谓的精度就是指在特殊条件下的检索鲁棒性。
发明内容
针对上述背景技术中存在的问题,本发明提出一种基于神经网络自温故及知识传导机制的智能视频图像检索方法,针对井下光照不均匀复杂环境,本发明提出深度gammacorrection(伽马校正)模块,通过学习图像局部明暗分布知识,可提高细节可辨度,实现对光照不均匀鲁棒性;针对井下深度学习算法普遍存在的实时性较差的问题,采用轻量级网络,在保证低时间成本情况下,可实现异物图像的高效检索;提出自温故及知识传导机制,通过大模型教授知识提高轻量级网络鲁棒性。
一种基于神经网络自温故及知识传导机制的智能视频图像检索方法,其特征在于:
所述方法基于图像矫正模块、特征提取模块、传导模块和自温故模块实现;
图像校正模块基于伽马校正网络对图像的光照条件进行重建,采用多层神经网络对校正参数进行拟合,利用区块的方式对图像进行评估和重建,
特征提取模块分为两个部分,包括教师模型以及学生模型,教师模型为学生模型提供深度特征知识,学生模型采用轻量级模型以在终端设备上的运行,两个模型相配合,完成校正后图像的特征提取;
传导模块中,首先预训练一个教师模型,然后在对学生模型进行训练的时候,利用所获取的教师模型进行监督训练来实现知识传导;其中,让学生模型自我学习图像的内在特征表达,并利用教师模型浅层特征信息监督学生模型的较深层特征信息,逐步提升学生模型的泛化能力;
自温故模块设置在学生模型中,将学生模型以往的学习经验作为旧知识,在回顾旧知识的同时,将来自下一阶段的新知识与旧知识进行深度融合,达到自我监督以及自我回顾;其中,在先前阶段,学生模型根据以往的学习经验,学习得到一组特征,将第一阶段学习到的特征作为旧知识与当前阶段的输出特征融合,从而实现学生模型的自温故机制;
本方法中,通过老师模块训练学生模块,并通过教师模块和学生模块提取图像特征,并将特征聚类;进入检索阶段,将待查询图像以及图像数据库送入学生模块,通过度量,然后再排序完成图像检索的功能。
进一步地,所述校正模块中,将伽马校正定义为:
C=r*I1/η (1)
式中,C是矫正后的图像;r是矫正常数,设置为(0,1)之间;I是原图像;1/η是gamma值,通过改变该值来实现矫正;
伽马校正的流程如下:
步骤a,将待重建图像进行区块分割,由于不均匀光照的存在,进行区块分割以保留正常区域,并将其作为光照条件重建目标;
步骤b,经过全连接神经网络分别对区块进行特征提取,其中待重建区块作为驱动数据、其他区块作为重建目标;
步骤c,将部分区域神经元权重冻结,仅参与计算,不参与梯度传播,其余区域则为参数1/η的线性组合;
步骤d,通过Loss函数完成重建的预测情况,反向传播更新参数1η的线性组合,其中:
Figure BDA0003468887990000051
梯度更新方式为:
Figure BDA0003468887990000052
其中,Xi为驱动数据队列,为避免网络过度自信,设置惩罚项γ作为正则项;L代表Gamma Loss;λ是学习率,设置为0.00001。
进一步地,所述传导模块中,包括基于VAE变分自编码的知识重构模型,通过模仿教师模型各阶段输出特征,达到教师模型的性能,通过VAE变分自编码以概率的方式描述对潜在空间的观察,根据数据求得高斯分布,将教师模型的高斯分布视为真实分布,通过对教师模型数据特征的不断逼近,进而达到提升学生模型的泛化能力。
进一步地,所述基于VAE变分自编码的知识重构模型中,定义网络输入为Xi,i∈[1,M];相应地,网络输入的信息熵和为:(式中的pθ代表什么)
Figure BDA0003468887990000053
式中,pθ(X(i))是X(i)的概率分布;
KL散度衡量的是两种概率分布p和q之间差异的方式,又叫相对熵,定义为:
Figure BDA0003468887990000054
将KL散度重写为数学期望:
DKL(p||q)=E[[log p(X(i))-log q(X(i))] (6)
VAE模型让生成数据逼近真实数据,在计算过程中,不用显式的计算数据特征的具体参数,通过生成模型的分布概率去逼近后验概率,即真实数据的概率分布;采用KL散度衡量相似程度:
Figure BDA0003468887990000061
式中,Xs (i)是学生数据,Xt (i)是教师数据,qφ(ZS|Xs (i))是学生模型分布,pθ(ZT|Xt (i))是老师模型后验分布,E是期望,ZT,ZS服从高斯分布N(0,1);
后验分布反映了数据的真实分布,其由联合概率分布求得:
Figure BDA0003468887990000062
将式(8)代入式(7)得:
Figure BDA0003468887990000063
由于
Figure BDA0003468887990000064
与logpθ(Xt (i))无关,所以
Figure BDA0003468887990000065
其中,KL(qφ(ZS|Xs (i))||pθ(ZT|Xt (i)))表示为重构Loss。
进一步地,所述传导模块中,训练流程如下:
步骤i,预训练一个复杂的教师模型,采用全监督的方式对教师网络进行训练,在训练过程中,训练样本X与标签Y成对训练,其中Y硬标签[0,1,0,0];
步骤ii,利用训练好的大模型来计算软标签,教师网络的预测输出,进行softmaxR变换,获得取值分布较为缓和的概率分布,即软标签[0.1,0.7,0.1,0.1];
步骤iii,训练学生模型,在学生模型的基础上再加一个额外的软标签的损失函数,通过比例参数α来调节两个损失函数的比重;
步骤iv,学生模型学习对特征进行重构,通过模仿教师模型逼近后验概率,利用KL散度衡量重构效果;
最终loss设置为:
Loss=αHard loss+(1-α)KL loss+Soft loss (11)
式中,Hard loss是学生模型的损失函数,Soft loss是教师模型的损失函数,即额外的软标签的损失函数,α是比例参数;
其中:
Figure BDA0003468887990000071
Hard loss=cross_entropy(outputS,Yi),Yi∈YH (13)
式中,cross_entropy是交叉熵,outputS是学生模型的输出,outputT是教师模型的输出,Yi、YH分别是标签和标签集合。
进一步地,所述自温故模块中,输入是旧知识以及当前阶段的新知识;首先输入特征经过激活层;由于新旧知识的维度不同,将其转换为同维度下的特征,然后参与运算;通过激活层将新旧知识转换为相同维度下的特征,并且对特征进行激活,分别得到三个卷积特征块;接着对卷积特征进行压缩;最后,将特征进行聚合,该聚合特征就是自温故模型的最终输出outputAg;为了评估自温故模型的学习效果,设计了自温故损失函数:
revision loss=cross_entropy(softmax(outputAg),Yi)+β (14)
为了防止该模型过拟合,设置β作为正则化参数。
进一步地,本方法包括如下流程步骤:
步骤1,首先,将光照不均匀的训练图像分区块,然后通过图像校正模块计算各个区块的伽马值,该伽马值为一组线性组合;评估校正质量,然后反向传播,更新网络参数,输出最佳矫正结果,将该结果作为后续轻量级检索网络训练数据;
步骤2,进行学生模型即轻量级检索网络的训练,教师模型是预训练模型,不参与网络参数的更新,仅作为特征提取主干网络;训练样本同时送入教师模型以及学生模型,教师模型的浅层特征信息监督学生模型所生成的较深层特征信息,然后下一阶段则是利用教师模型的较深层特征信息监督学生模型更深层特征信息;
步骤3,进行自温故模块的训练,该模块的输入分别是旧知识,以及当前阶段的新知识;首先输入新旧知识经过激活层,将新旧知识转换为同维度下的特征,然后参与运算,最后构造一个聚合特征向量;
步骤4,在传导模块中,教师模型与学生模型的最终输出采用Soft loss函数来衡量当前训练进程的学生模型,用Hard loss检验当前状态的学生模型与标签之间的差距,网络反向传播各个loss的梯度来更新参数;在自温故模块采用revision loss评估与标签的隔阂,通过反向传播,参数更新来缩小隔阂。
与现有技术相比,本发明达到的有益效果为:
(1)本发明提出的基于神经网络自温故及知识传导机制的图像检索方法,通过神经网络自温故以及大模型辅导小模型机制,在保证模型实时性的同时,提高小模型检索精度。在精度和效率之间尽可能达到平衡。
(2)本发明提出深度gamma correction(伽马矫正)网络,通过对图像的局部监督调整,可实现对光照不均匀鲁棒性,提高细节可辨度,避免高频噪声,普适性强。
(3)本发明提出了自温故机制,该机制允许神经网络的局部自我监督,不断反思、调整学习参数,充分学习到图像深层语义信息,实现神经网络的快速收敛,可提高检索精度。
(4)本发明采纳的知识传导机制目标是让student学习到teacher的泛化能力,提升模型精度、降低模型时延,压缩网络参数,最终得到一个性能强和精度高的student模型。
(5)本发明提出的传导机制将teacher浅特征知识作为学习目标,不同于传统学习方式,本发明采用VAE变分自编码模型重构student深度特征,以此生成学习结果,将学习结果与目标进行度量,完成学习任务。
附图说明
图1为本发明实施例中所述的智能视频图像检索方法的整体框架图。
图2为本发明实施例中所述的图像校正模块的示意图。
图3为本发明实施例中所述的特征提取模块的示意图。
图4为本发明实施例中所述的传导模块的示意图。
图5为本发明实施例中所述的知识重构模型的示意图。
图6为本发明实施例中所述的自温故模型的示意图。
图7为本发明实施例中所述的图像检索方法的流程示意图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明提出了基于神经网络自温故及知识传导机制的图像检索方法,目的是实现简单、高效、精度高、泛化性好、鲁棒性强的检索模型。该算法包括这几部分:1.图像校正模块;2.特征提取模块;3.传导模块;4.自温故模块,如图1所示。
由于井下环境以及照明设备等因素的影响,图像受到不均匀光照的影响,容易引起检索误差。因此,本发明提出伽马校正模块,实现图像光照条件重建的目的。与传统双线性滤波、中值滤波、直方图均匀化等算法对整幅图像亮度分布进行调整的方式不同,本发明提出伽马校正网络利用区块的方式对图像进行评估和重建,采用了多层神经网络对校正参数进行拟合,因此相比于传统算法更加具有鲁棒性以及普适性。伽马校正是一种非线性运算方式,既符合人眼视觉特性,而且节省编码空间。将伽马校正定义为:
C=r*I1/η (1)
式中,C是矫正后的图像;r是矫正常数,设置为(0,1)之间;I是原图像;1/η是gamma值,通过改变该值来实现矫正。
基于以上原理,本发明提出伽马校正神经网络,实现重建图像的光照条件,其结构图如图2所示。
伽马校正神经网络流程如下:
1、首先,将待重建图像进行区块分割,由于不均匀光照的存在,进行区块分割可有效的保留正常区域,并将其作为光照条件重建目标。
2、其次,经过全连接神经网络分别对四个区块进行特征提取,其中待重建区块作为驱动数据、其他区块可作为重建目标。
3、接着,为了降低拟合难度,本发明将框出的三个区域神经元权重冻结,仅参与计算,不参与梯度传播。未框出区域则为参数1/η的线性组合。
4、最后,通过Loss函数完成重建的预测情况,反向传播更新参数1/η的线性组合。其中:
Figure BDA0003468887990000111
梯度更新方式为:
Figure BDA0003468887990000112
其中,Xi为驱动数据队列,为避免网络过度自信,设置惩罚项γ作为正则项;L代表Gamma Loss;λ是学习率,设置为0.00001。
特征提取模块分为两个部分即教师模型以及学生模型,其中教师模型一般为表达能力强,泛化能力强的大模型,该模型为提高学生模型提供深度特征知识。得益于深度学习的快速发展,许多优秀的算法模型提供了极高的精度,然而为了提高模型的表征力,模型深度以及宽度进一步加深加宽,教师模型往往非常庞大,难以在井下部署。学生模型一般为轻量级神经网络,参数量相比于教师模型有大幅度缩减,因此效率高,常用于移动终端设备。因此轻量级模型满足井下实行运行环境,设备在井下部署较为可靠,但是轻量级模型相对于大模型泛化性较差。在特征提取部分,本发明中教师模型以及学生模型没有特定的选择要求,因此,本发明提出的图像检索算法,灵活强、选择度大。图3中左半部分为学生模型,右半部分为教师模型。
从图中可以看出,VGGNet的特征图的空间分辨率单调递减,通道数单调增加。输入图像的维度是HxWx3(彩色图)或者是HxWx1(灰度图),而最后的全连接层的输出是一个1x1xC的向量,C等于分类的类别数。
图像经过一系列卷积层处理,在卷积层中使用了非常小的3*3卷积核,在有些卷积层里则使用了1*1的卷积核。
卷积层步长(stride)设置为1个像素,3*3卷积层的填充(padding)设置为1个像素。池化层采用max pooling,共有5层,在一部分卷积层后,max-pooling的窗口是2*2,步长设置为2。
卷积层之后是三个全连接层(fully-connected layers,FC)。前两个全连接层均有4096个通道,第三个全连接层有1000个通道,用来分类(可以根据需要设置)。所有网络的全连接层配置相同。
全连接层后是Softmax,用来分类,输出的是每一类的概率值。后四个pooling输出的内容可用于训练学生模型。
Inception在每个inception module分为四个分支,输出时对所有分支的输出做串联,串联输出的维度和教师模型是一致的。每个branch的结构都是不一样的,主要表现在branch的深度和卷积核。后三个分支,可用于自我温故,同时后三个分支,也可用教师模型对此进行训练。
上一部分中,本发明分别介绍了教师模型以及学生模型,通过教师模型教授学生模块进而提升学生模型的泛化能力,这种通过教授型方式训练模型的策略就是知识传导。首先预训练一个教师模型,然后在对学生模型进行训练的时候,利用所获取的教师模型进行监督训练来达到知识传导的目的。如图1所示,本发明提出传导策略首先让学生模型自我学习图像的内在特征表达,然后再利用教师模型浅层特征信息监督学生模型的较深层特征信息,基于“欲速则不达”理念,教师模型由浅入深,由简入难,逐步提升学生模型的泛化性能。图4所示为传导模型示意图。
在传导模块中,本发明提出基于VAE变分自编码知识重构,通过模仿教师网络各阶段输出特征,达到教师网络的性能。VAE变分自编码以概率的方式描述对潜在空间的观察,因此在数据生成方面有着很好的应用,通过VAE编码数据特征对真实数据特征的模拟来达到‘以假乱真’的目的。事实上,在知识蒸馏领域,学生模型训练得到的数据就是对教师模型训练得到的数据的一种知识模拟,这里由教师模型训练得到数据可视为真实数据,与传统VAE模型不同的是,本发明没有显式地生成数据,而是求得高斯分布,将教师模型的高斯分布视为真实分布。本发明利用VAE变分自编码算法的思想重构数据特征,通过对教师网络数据特征的不断逼近,进而达到提升学生模型的泛化能力。VAE知识重构模型如图5所示。
定义网络输入为Xi,i∈[1,M];相应地,网络输入的信息熵和为:
Figure BDA0003468887990000141
式中,pθ(X(i))是X(i)的概率分布。
KL散度衡量的是两种概率分布P和Q之间差异的方式,又叫相对熵,定义为:
Figure BDA0003468887990000142
为了方便,将KL散度重写为数学期望:
DKL(p||q)=E[[log p(X(i))-log q(X(i))] (6)
正如,上文提到的那样,VAE模型是让生成数据逼近真实数据,在计算过程中,不用显式的计算数据特征的具体参数,可以通过生成模型的分布概率去逼近后验概率,即真实数据的概率分布。本发明采用KL散度衡量相似程度:
Figure BDA0003468887990000143
式中,Xs (i)是学生数据,Xt (i)是教师数据,qφ(ZS|Xs (i))是学生模型分布,pθ(ZT|Xt (i))是老师模型后验分布,E是期望,ZT,ZS服从高斯分布N(0,1)。
后验分布反映了数据的真实分布,其可以由联合概率分布求得:
Figure BDA0003468887990000144
将式(8)代入式(7)可得:
Figure BDA0003468887990000151
由于
Figure BDA0003468887990000152
与logpθ(Xt (i))无关,所以
Figure BDA0003468887990000153
其中,KL(qφ(ZS|Xs (i))||pθ(ZT|Xt (i)))表示为重构Loss。
训练流程如下:
1、预训练一个复杂的教师网络,采用全监督的方式对教师网络进行训练,在训练过程中,训练样本X与标签Y成对训练,其中Y硬标签[0,1,0,0]。
2、接着利用训练好的大模型来计算软标签,教师网络的预测输出,进行softmax R变换,可以获得取值分布较为缓和的概率分布,即软标签[0.1,0.7,0.1,0.1]。
3、然后训练学生模型,在学生模型的基础上再加一个额外的软标签的损失函数,通过比例参数来调节两个损失函数的比重。
4、同时,学生模型学习对特征进行重构,通过模仿教师模型逼近后验概率,利用KL散度衡量重构效果。
最终loss设置为:
Loss=αHard loss+(1-α)KL loss+Soft loss (11)
式中,Hard loss是学生模型的损失函数,Soft loss是教师模型的损失函数,即额外的软标签的损失函数也是较为缓和的损失函数,α是比例参数;
其中:
Figure BDA0003468887990000161
Hard loss=cross_entropy(outputS,Yi),Yi∈YH (13)
式中,cross_entropy是交叉熵,outputS是学生模型的输出,outputT是教师模型的输出,Yi、YH分别是标签和标签集合。
基于教师模型训练学生模型的知识传导,可以提高学生模型的泛化性,有效地改善检索精度,但是小模型在训练过程中可能会遗忘之前学过的知识,由艾宾浩斯遗忘曲线可知,人对知识的记忆会随着时间流失而衰减,如果不加以及时地自我温故,学到的知识最终会被遗忘。因此,本发明提出了自温故模块,通过学生模型的自温故机制,不断重复回顾学到的知识,在回顾旧知识的同时,将来自下一阶段的新知识与旧知识进行深度融合,达到自我监督以及自我回顾。旧知识不仅表示学生模型以往的学习经验(如预训练学生模型),还可以表示当前阶段的认知状态,作为下一阶段旧知识。本发明将学生模型以往的学习经验作为旧知识,这样的好处在于以往的学习经验有助于对新知识的快速吸收。图1中显示:第一阶段,学生模型根据以往的学习经验,学习得到一组特征,将第一阶段学习到的特征作为旧知识与当前阶段(如第二阶段)的输出特征融合,从而实现学生模型的自温故机制。图6为自温故机制的网络模型。
该模块的输入分别是旧知识,以及当前阶段的新知识;首先输入特征经过激活层。由于新旧知识的维度不同,需要将其转换为同维度下的特征,然后参与运算。激活层作用在于将新旧知识转换为相同维度下的特征,并且对特征进行激活,分别得到三个卷积特征块;接着对卷积特征进行压缩(平均池化),具体压缩方式为上图所示;最后,将特征进行聚合,该聚合特征就是自温故模型的最终输出outputAg。为了评估自温故模型的学习效果,本发明设计了自温故损失函数:
revision loss=cross_entropy(softmax(outputAg),Yi)+β (14)
为了防止该模型过拟合,本发明设置β作为正则化参数。
本发明相较于现有技术中的图像检索方法,具备如下的创新点:
第一、本发明提出伽马校正网络,可以解决传统直方图均衡化引入的高频噪声,图像经过均衡化变换后图像的灰度骤减,导致某些细节消失。基于深度学习的伽马校正网络,无需先验知识,普适性强,避免了均衡化带来的细节模糊的问题。
第二、本发明提出的传导模块,利用所获取的教师模型进行监督训练来达到传导的目的,所提出传导策略利用教师浅层特征信息监督学生模型的较深层特征信息,再利用教师模型的较深层特征信息监督学生模型的更深层特征信息,由浅入深,由简入难,逐步提升学生模型的泛化性能。
第三、本发明提出的VAE变分自编码知识重构,利用VAE模型生成数据去逼近真实数据的理念,将教师模型提取的特征视为真实数据,但是VAE神经网络模型没有显式地计算生成数据,而是求得学生模型的特征分布,KL散度来衡量重构损失。
第四、基于教师模型训练学生模型的知识传导机制,可以提高学生模型的泛化性,但是小模型在训练过程中可能会遗忘之前学过的知识。因此,本发明提出的自温故模块,通过学生模型的自温故机制,不断重复回顾学到的知识,在回顾旧知识的同时,将来自下一阶段的新知识与旧知识进行深度融合,达到自我监督以及自我回顾。
本方法实现流程步骤如下:
1)首先,将光照不均匀的训练图像分区块,区块一般为2r(r∈Z),然后通过伽马校正网络计算各个区块的伽马值,该伽马值为一组线性组合,换句话说1/η=w11/η1+w21/η2+…+wi1/ηi。然后Gamma Loss评估校正质量,然后反向传播,更新网络参数,最后输出最佳矫正结果,将该结果作为后续轻量级检索网络训练数据。
2)其次是轻量级检索网络的训练,由于教师模型是预训练模型,因此教师模型自身不参与网络参数的更新,仅作为强大的特征提取主干网络。训练样本同时送入教师模型以及学生模型,教师模型的浅层特征信息监督学生模型所生成的较深层特征信息,然后网络的下一阶段则是利用教师模型的较深层特征信息监督学生模型更深层特征信息。
3)接着是自温故模块的训练,该模块的输入分别是旧知识,以及当前阶段的新知识;首先输入特征经过激活层。由于新旧知识的维度不同,需要将其转换为同维度下的特征,然后参与运算,最后构造一个聚合特征向量。
4)在2)、3)阶段中给出了本发明是如何实现的流程,在传导模块中最后阶段,教师模型与学生模型的最终输出采用Soft loss函数来衡量当前训练进程的学生模型,用Hardloss检验当前状态的学生模型与标签的之间的差距,网络反向传播各个loss的梯度来更新参数。在自温故模块采用revision loss评估与标签的隔阂,通过反向传播,参数更新来缩小隔阂。
参照图7,老师模块精度高,但是模型大,无法部署;学生模块模型小,好布署,但是精度低,不满足井下要求;因此需要用老师模块训练学生模块。
无论是教师模块还是学生模块都是用来提取图像特征的,比如说有10类图像,每类图像都有一定的样本,把十类图像送到模型里,模型会提取特征并将特征聚类,将同类图像聚到一起。
讨论学生模型,参见图7,因为老师模块精度高,所以用老师模块来训练学生模块来使得达到老师模块的性能,同时保持好的效率,最后用学生模块来完成检索功能。检索阶段,首先给一些待查询图像,然后将待查询图像以及图像数据库都送入学生模型,通过度量,然后再排序完成图像检索的功能。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (7)

1.一种基于神经网络自温故及知识传导机制的智能视频图像检索方法,其特征在于:
所述方法基于图像矫正模块、特征提取模块、传导模块和自温故模块实现;
图像校正模块基于伽马校正网络对图像的光照条件进行重建,采用多层神经网络对校正参数进行拟合,利用区块的方式对图像进行评估和重建,
特征提取模块分为两个部分,包括教师模型以及学生模型,教师模型为学生模型提供深度特征知识,学生模型采用轻量级模型以在终端设备上的运行,两个模型相配合,完成校正后图像的特征提取;
传导模块中,首先预训练一个教师模型,然后在对学生模型进行训练的时候,利用所获取的教师模型进行监督训练来实现知识传导;其中,让学生模型自我学习图像的内在特征表达,并利用教师模型浅层特征信息监督学生模型的较深层特征信息,逐步提升学生模型的泛化能力;
自温故模块设置在学生模型中,将学生模型以往的学习经验作为旧知识,在回顾旧知识的同时,将来自下一阶段的新知识与旧知识进行深度融合,达到自我监督以及自我回顾;其中,在先前阶段,学生模型根据以往的学习经验,学习得到一组特征,将第一阶段学习到的特征作为旧知识与当前阶段的输出特征融合,从而实现学生模型的自温故机制;
本方法中,通过老师模块训练学生模块,并通过教师模块和学生模块提取图像特征,并将特征聚类;进入检索阶段,将待查询图像以及图像数据库送入学生模块,通过度量,然后再排序完成图像检索的功能。
2.根据权利要求1所述的一种基于神经网络自温故及知识传导机制的智能视频图像检索方法,其特征在于:所述校正模块中,将伽马校正定义为:
C=r*I1/η (1)
式中,C是矫正后的图像;r是矫正常数,设置为(0,1)之间;I是原图像;1/η是gamma值,通过改变该值来实现矫正;
伽马校正的流程如下:
步骤a,将待重建图像进行区块分割,由于不均匀光照的存在,进行区块分割以保留正常区域,并将其作为光照条件重建目标;
步骤b,经过全连接神经网络分别对区块进行特征提取,其中待重建区块作为驱动数据、其他区块作为重建目标;
步骤c,将部分区域神经元权重冻结,仅参与计算,不参与梯度传播,其余区域则为参数1/η的线性组合;
步骤d,通过Loss函数完成重建的预测情况,反向传播更新参数1/η的线性组合,其中:
Figure RE-FDA0003640264120000021
梯度更新方式为:
Figure RE-FDA0003640264120000022
其中,Xi为驱动数据队列,为避免网络过度自信,设置惩罚项γ作为正则项;L代表GammaLoss;λ是学习率,设置为0.00001。
3.根据权利要求1所述的一种基于神经网络自温故及知识传导机制的智能视频图像检索方法,其特征在于:所述传导模块中,包括基于VAE变分自编码的知识重构模型,通过模仿教师模型各阶段输出特征,达到教师模型的性能,通过VAE变分自编码以概率的方式描述对潜在空间的观察,根据数据求得高斯分布,将教师模型的高斯分布视为真实分布,通过对教师模型数据特征的不断逼近,进而达到提升学生模型的泛化能力。
4.根据权利要求1所述的一种基于神经网络自温故及知识传导机制的智能视频图像检索方法,其特征在于:所述基于VAE变分自编码的知识重构模型中,定义网络输入为Xi,i∈[1,M];相应地,网络输入的信息熵和为:
Figure RE-FDA0003640264120000031
式中,pθ(X(i))是X(i)的概率分布;
KL散度衡量的是两种概率分布p和q之间差异的方式,又叫相对熵,定义为:
Figure RE-FDA0003640264120000032
将KL散度重写为数学期望:
DKL(p||q)=E[[logp(X(i))-logq(X(i))] (6)
VAE模型让生成数据逼近真实数据,在计算过程中,不用显式的计算数据特征的具体参数,通过生成模型的分布概率去逼近后验概率,即真实数据的概率分布;采用KL散度衡量相似程度:
Figure RE-FDA0003640264120000041
式中,Xs (i)是学生数据,Xt (i)是教师数据,qφ(ZS|Xs (i))是学生模型分布,pθ(ZT|Xt (i))是老师模型后验分布,E是期望,ZT,ZS服从高斯分布N(0,1);
后验分布反映了数据的真实分布,其由联合概率分布求得:
Figure RE-FDA0003640264120000042
将式(8)代入式(7)得:
Figure RE-FDA0003640264120000043
由于
Figure RE-FDA0003640264120000044
与logpθ(Xt (i))无关,所以
Figure RE-FDA0003640264120000045
其中,KL(qφ(ZS|Xs (i))||pθ(ZT|Xt (i)))表示为重构Loss。
5.根据权利要求3所述的一种基于神经网络自温故及知识传导机制的智能视频图像检索方法,其特征在于:所述传导模块中,训练流程如下:
步骤i,预训练一个复杂的教师模型,采用全监督的方式对教师网络进行训练,在训练过程中,训练样本X与标签Y成对训练,其中Y硬标签[0,1,0,0];
步骤ii,利用训练好的大模型来计算软标签,教师网络的预测输出,进行softmax R变换,获得取值分布较为缓和的概率分布,即软标签[0.1,0.7,0.1,0.1];
步骤iii,训练学生模型,在学生模型的基础上再加一个额外的软标签的损失函数,通过比例参数α来调节两个损失函数的比重;
步骤iv,学生模型学习对特征进行重构,通过模仿教师模型逼近后验概率,利用KL散度衡量重构效果;
最终loss设置为:
Loss=αHard loss+(1-α)KL loss+Soft loss (11)
式中,Hard loss是学生模型的损失函数,Soft loss是教师模型的损失函数,即额外的软标签的损失函数,α是比例参数;
其中:
Figure RE-FDA0003640264120000051
Hard loss=cross_entropy(outputS,Yi),Yi∈YH (13)
式中,cross_entropy是交叉熵,outputS是学生模型的输出,outputT是教师模型的输出,Yi、YH分别是标签和标签集合。
6.根据权利要求1所述的一种基于神经网络自温故及知识传导机制的智能视频图像检索方法,其特征在于:所述自温故模块中,输入是旧知识以及当前阶段的新知识;首先输入特征经过激活层;由于新旧知识的维度不同,将其转换为同维度下的特征,然后参与运算;通过激活层将新旧知识转换为相同维度下的特征,并且对特征进行激活,分别得到三个卷积特征块;接着对卷积特征进行压缩;最后,将特征进行聚合,该聚合特征就是自温故模型的最终输出outputAg;为了评估自温故模型的学习效果,设计了自温故损失函数:
revision loss=cross_entropy(softmax(outputAg),Yi)+β (14)
为了防止该模型过拟合,设置β作为正则化参数。
7.根据权利要求1所述的一种基于神经网络自温故及知识传导机制的智能视频图像检索方法,其特征在于:本方法包括如下流程步骤:
步骤1,首先,将光照不均匀的训练图像分区块,然后通过图像校正模块计算各个区块的伽马值,该伽马值为一组线性组合;评估校正质量,然后反向传播,更新网络参数,输出最佳矫正结果,将该结果作为后续轻量级检索网络训练数据;
步骤2,进行学生模型即轻量级检索网络的训练,教师模型是预训练模型,不参与网络参数的更新,仅作为特征提取主干网络;训练样本同时送入教师模型以及学生模型,教师模型的浅层特征信息监督学生模型所生成的较深层特征信息,然后下一阶段则是利用教师模型的较深层特征信息监督学生模型更深层特征信息;
步骤3,进行自温故模块的训练,该模块的输入分别是旧知识,以及当前阶段的新知识;首先输入新旧知识经过激活层,将新旧知识转换为同维度下的特征,然后参与运算,最后构造一个聚合特征向量;
步骤4,在传导模块中,教师模型与学生模型的最终输出采用Soft loss函数来衡量当前训练进程的学生模型,用Hard loss检验当前状态的学生模型与标签之间的差距,网络反向传播各个loss的梯度来更新参数;在自温故模块采用revision loss评估与标签的隔阂,通过反向传播,参数更新来缩小隔阂。
CN202210037094.4A 2022-01-13 2022-01-13 一种基于神经网络自温故及知识传导机制的智能视频图像检索方法 Pending CN114647760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210037094.4A CN114647760A (zh) 2022-01-13 2022-01-13 一种基于神经网络自温故及知识传导机制的智能视频图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210037094.4A CN114647760A (zh) 2022-01-13 2022-01-13 一种基于神经网络自温故及知识传导机制的智能视频图像检索方法

Publications (1)

Publication Number Publication Date
CN114647760A true CN114647760A (zh) 2022-06-21

Family

ID=81993341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210037094.4A Pending CN114647760A (zh) 2022-01-13 2022-01-13 一种基于神经网络自温故及知识传导机制的智能视频图像检索方法

Country Status (1)

Country Link
CN (1) CN114647760A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170919A (zh) * 2022-06-29 2022-10-11 北京百度网讯科技有限公司 图像处理模型训练及图像处理方法、装置、设备和存储介质
CN116258978A (zh) * 2023-05-16 2023-06-13 江西啄木蜂科技有限公司 一种自然保护区遥感影像弱标注的目标检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170919A (zh) * 2022-06-29 2022-10-11 北京百度网讯科技有限公司 图像处理模型训练及图像处理方法、装置、设备和存储介质
CN115170919B (zh) * 2022-06-29 2023-09-12 北京百度网讯科技有限公司 图像处理模型训练及图像处理方法、装置、设备和存储介质
CN116258978A (zh) * 2023-05-16 2023-06-13 江西啄木蜂科技有限公司 一种自然保护区遥感影像弱标注的目标检测方法

Similar Documents

Publication Publication Date Title
CN110263705B (zh) 面向遥感技术领域两期高分辨率遥感影像变化检测系统
CN109345538B (zh) 一种基于卷积神经网络的视网膜血管分割方法
CN109902732B (zh) 车辆自动分类方法及相关装置
CN109685072B (zh) 一种基于生成对抗网络的复合降质图像高质量重建方法
CN108764072B (zh) 一种基于多尺度融合的血细胞亚型图像分类方法
CN110321361B (zh) 基于改进的lstm神经网络模型的试题推荐判定方法
CN105701480B (zh) 一种视频语义分析方法
CN109241982A (zh) 基于深浅层卷积神经网络的目标检测方法
CN110310241B (zh) 一种融合深度区域分割的多大气光值交通图像去雾方法
CN114647760A (zh) 一种基于神经网络自温故及知识传导机制的智能视频图像检索方法
CN111242063A (zh) 基于迁移学习的小样本分类模型构造方法及虹膜分类应用
CN113112446A (zh) 基于残差卷积神经网络的隧道围岩级别智能判定方法
US11695898B2 (en) Video processing using a spectral decomposition layer
CN108615231A (zh) 一种基于神经网络学习融合的全参考图像质量客观评价方法
CN113420794B (zh) 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法
CN111723780A (zh) 基于高分辨率遥感图像的跨域数据的定向迁移方法及系统
CN116110022B (zh) 基于响应知识蒸馏的轻量化交通标志检测方法及系统
CN108596044B (zh) 基于深度卷积神经网络的行人检测方法
CN111160481A (zh) 基于深度学习的adas目标检测方法及系统
CN115205196A (zh) 基于孪生网络与特征融合的无参考图像质量评价方法
CN113807356A (zh) 一种端到端的低能见度图像语义分割方法
CN112749675A (zh) 一种基于卷积神经网络的马铃薯病害识别方法
CN111695640A (zh) 地基云图识别模型训练方法及地基云图识别方法
CN113112447A (zh) 基于vgg卷积神经网络的隧道围岩级别智能判定方法
CN114863348A (zh) 基于自监督的视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination