CN107122809B - 基于图像自编码的神经网络特征学习方法 - Google Patents

基于图像自编码的神经网络特征学习方法 Download PDF

Info

Publication number
CN107122809B
CN107122809B CN201710271606.2A CN201710271606A CN107122809B CN 107122809 B CN107122809 B CN 107122809B CN 201710271606 A CN201710271606 A CN 201710271606A CN 107122809 B CN107122809 B CN 107122809B
Authority
CN
China
Prior art keywords
image
neural network
training
self
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710271606.2A
Other languages
English (en)
Other versions
CN107122809A (zh
Inventor
段立娟
恩擎
苗军
乔元华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710271606.2A priority Critical patent/CN107122809B/zh
Publication of CN107122809A publication Critical patent/CN107122809A/zh
Application granted granted Critical
Publication of CN107122809B publication Critical patent/CN107122809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于图像自编码的神经网络特征学习方法,属于特征学习和图像检索技术领域。首先通过多标签图像数据集的分割标签构造训练图像集对应的分割训练图像集,然后初始化卷积神经网络和自编码神经网络的权重,使用随机梯度下降法训练自编码神经网络,提取每张训练样本对应的分割图像的隐含变量并进行归一化。随后,使用该隐含变量作为训练集原始图像对应的训练目标,训练卷积神经网络,并提取测试集合图像库中的每幅图像对应的特征向量,通过计算查询图像和图像库中每幅图像的特征向量间的欧式距离,并将距离按从小到大的顺序排列,得到相似图像检索结果。本发明使训练出的神经网络提取的特征在多标签检索任务上取得了更加优秀的检索效果。

Description

基于图像自编码的神经网络特征学习方法
技术领域
本发明涉及深度学习领域和图像检索领域,尤其是涉及到图像检索中的特征表达方法,该方法能够在多标签数据集上得到更加准确的相似图像。
背景技术
随着多媒体和网络技术的发展,图像作为人们生活状态最直观的表达方式,在人们生活中扮演着越来越重要的角色。大部分图像都包含了丰富的语义信息,如何在现实生活中找到用户需求的图像是所面临的一个难题和挑战。出色的特征表达不仅能够表示图像的类别信息,更能够捕捉到图像的相关语义信息。大量的图像信息被采集利用,然而将图像处理与计算机视觉技术相结合,提取图像中有效的语意表达是现在计算机视觉领域的重中之重。但是大量的图像出现在给我们带来便利的同时,也会带来很多问题,比如如何有效的在大规模图像库中检索到符合用户语意的图像以及如何更好的将这些图像加以利用,以便于用户有效率、快速的找到所需的图像。基于内容的图像检索在过去一些年在相关领域进行了广泛的研究,并取得了很多有广泛利用价值的成果。主要是使用特征向量作为对图片的内容表达,这样每幅图都用一个特征向量来表示这张图片。在进行检索的时候就是使用表示图片的特征向量的距离来度量两张图片的相似度。可以很容易看出,图像识别的关键在于特征表达。基于内容的图像检索因为其广泛的可用性以及准确性,现在已经被应用到了很多实际的场景中。目前大量的互联网公司纷纷投入巨资加入到图像检索的研究中,都提出了通过输入图像搜索对应语意图像的功能,这也意味着该领域逐渐成为研究主流。图像检索具有高的应用价值,在知识产权方面可以通过该技术严格审查文档内容的相似程度;在医学领域可以通过该技术可以帮助医生进行医疗诊断,达到辅助治疗的目的;在安防方面可以通过匹配应用帮助公安机关实施犯罪分子抓捕,锁定目标等工作。
为了提取更具有语义的图像特征表达,很多研究人员使用深度卷积神经网络提取特征代替原来的手工特征,并将之应用到图像检索领域后成为了目前最为流行和有效的特征表达技术。卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。深度卷积神经网络在训练时通过其自顶向下的监督或非监督学习过程,使得神经网络能够分层对输入信息进行表达,自底向上的信息逐层迭代抽象,这种分层表达的思想,从最初的像素级别特征,抽象成为边缘信息,再抽象成为物体部件信息,最后抽象成为物体。深度学习由于其多层次的抽象性,使得它优于其他传统特征提取算法。所以深度神经网络可以通过相对简单的表达方法来表示复杂的函数关系,深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转变成为更高层次的,更加抽象的表达。通过足够多的转换的组合,非常复杂的函数也可以被学习。对于分类任务,高层次的表达能够强化输入数据的区分能力方面,同时削弱不相关因素。
从深度学习首次应用于ILSVRC挑战赛并取得突出的成绩,从最初的Alexnet模型,历经 Zeiler模型,VGG模型,Googlenet模型,到现在使用Resnet将分类错误率降低到3.57%,可看出深度学习方法相比于传统的手工提取特征的方法在图像识别领域具有巨大优势。与此同时,一个理想的产生式模型既能够根据自然分布来产生图像,也能够根据表达的信息搜寻出图像之间相同和不同的信息。但是,一个主要的难点在于推断给定图像的潜在结构。为了解决这个问题,研究者们已经开始了很多研究性工作。如wake-sleep算法,contrastive divergence算法, RBM以及非参贝叶斯模型。距离现在更近的工作,通过使用贝叶斯模型进行概率推测也使用在这个领域。这些方法在一些比较小的数据集上有效果,比如手写字体识别,但是上述方法暂时还没有一个能够在高分辨率的图像上有很好的效果。
因为良好的特征是图像检索领域是最为重要的因素,而神经网络恰好在特征学习和提取方面有着出色的能力,所以现在的图像检索任务普遍使用深度神经网络提取的特征作为图像的特征表达。传统神经网络在大多数任务中都以图像类别为训练目标,原始图像作为输入,目标函数作为优化目标,可以看作为一个函数优化的过程。但是深度神经网络中普遍的监督信息不足使神经网络的表达能力收到了一定的局限。
发明内容
本发明的目的在于,针对上述传统神经网络对于图像表达能力的不足,提出了一种基于图像自编码的神经网络特征学习方法。该方法充分利用图像的空间关系信息和深度学习的学习能力,使用分割图像的压缩编码作为对应训练图像的训练目标,使神经网络的特征表达具有分类信息,更具有空间关系信息,从而提升卷积神经网络的特征表达能力,应用在检索任务上提高了图像检索的准确率。
实现本发明方法的主要思路是:根据两个多标签数据集的分割标签,给训练数据集对应的图像打分割标签,构建一个原始图像与分割图像对应的数据集,随后对每个图像的数据集使用自编码神经网络进行压缩编码直到收敛,提取每张分割图像对应的隐含变量信息,将此隐含变量信息与原图像构造键值对。然后利用此隐含变量信息代替one-hot标签作为神经网络的训练目标利用反向传播更新神经网络权重,训练得到对应神经网络。利用对应神经网络提取测试集特征。之后将测试集特征作为每张图像对应语义特征,通过计算并比较查询图像的特征与图像库中每幅图的欧式距离,最终快速准确的检索得到查询图像的相似图像结果。
根据上述主要思路,本方法的具体实现包括如下步骤:
步骤1:构造数据集
将图像数据集划分为训练集和测试集,在训练集中给每张原始图像对应的分割标签标记在图像上,构造出训练图像对应的分割图像集;
步骤2:初始化卷积神经网络权重与自编码神经网络权重
使用高斯随机初始化卷积神经网络权重和自编码神经网络权重,卷积神经网络初始化一次,自编码神经网络在训练每张分割图像对应的隐含变量后都进行高斯随机权重初始化;
步骤3:训练自编码神经网络并提取分割图像隐含变量
对每张训练图像对应的分割图像对应一个进行高斯初始化权重的自编码神经网络,将分割图像经过自编码前向传播经过改自编码模型,然后经过该网络计算后得到的损失用反向传播算法调整网络权重,同时对所有全连接层参数都进行学习更新,迭代至收敛后得到训练后的自编码神经网络模型。最后将对应的分割图像进行前向传输得到自编码神经网络中间隐层的隐含变量
Figure BDA0001277549580000031
步骤4:归一化隐含变量
对步骤3中取得的隐含变量
Figure BDA0001277549580000032
进行归一化,从而将隐含变量的每一位都映射到[0,1]之间的实数上,得到经过归一化的隐含变量
Figure BDA0001277549580000033
步骤5:训练卷积神经网络
根据训练集图像库与步骤4得到的训练图像对应的归一化隐含变量,训练深度卷积神经网络模型。将训练集中原始图像输入卷积神经网络,并将步骤4得到的归一化隐含变量视为该训练集训练目标。经过卷积神经网络计算后得到损失后使用反向传播算法调整整个神经网络明权重,同时对所有层参数进行学习更新,迭代至收敛后得到训练后的深度神经网络模型;
步骤6:提取特征向量并计算欧氏距离
从步骤5中得到训练完毕的深度神经网络模型后,将测试样本集中的每张图像分别作为深度神经网络的输入,经过前向传播得到测试样本集的特征向量矩阵Feat。随后从Feat中按顺序取出测试图像的特征向量Featn,并计算该特征向量与图像库中的特征向量矩阵Feat每一行之间的欧式距离,然后将欧式距离以行向量的形式组合起来得到一个欧式距离列向量;
步骤7:排序输出检索结果
将步骤6中得到的欧式距离向量的数值依照从小到大的顺序进行排序,顺序输出对应的原始图像,得到图像检索结果。
与现有技术相比,本发明具有以下明显的优势和有益效果:本发明提出一种基于图像自编码的神经网络特征学习方法,采用分割图像对应的隐含表达作为神经网络的训练目标,充分利用了数据的空间结构信息,使神经网络同时学习到除了类别信息之外的空间关系信息,解决了传统神经网络训练目标结构信息不足的问题,从而提升神经网络对多标签图像的语义表达能力,同时应用在检索上提升了图像检索的准确率。
附图说明
图1为本发明所涉及方法总流程框图;
图2为本发明所涉及算法总架构图;
具体实施方式
下面结合附图对本发明的技术方案做进一步的描述,附图1为本发明所涉及方法整体流程图,附图2为本发明所涉及算法总结构图。
步骤1:构造数据集
本发明所述方法实施过程中的数据库来源于两个公开多标签标准数据集PascalVOC 2012 Segmentationclass和Microsoft COCO。其中Pascal包含1465张训练,1449张测试,类别总数为20类的彩色图片;Microsoft COCO包含82783张训练,40504张测试,类别综述为80 类的彩色图片。将图像训练集所对应的分割标签分别表示在原始图像上,其中每张图形的主要物体在进行分割图像标记的时候将会被标记为不同的颜色,其中相同类别物体被标记相同颜色,不同类别物体被标记为不同颜色;每张图像除主要物体之外的背景都被标记为黑色。原图像集合X={x1,x2,……,xn},对应的分割图像表示为
Figure BDA0001277549580000051
每个原始训练图像样本都对应一个分割图像。
步骤2:初始化卷积神经网络权重与自编码神经网络权重
深度卷积神经网络和自编码神经网络需要使用高斯初始化:W~N(μ,σ2)。高斯分布通过下面公式计算得到.
Figure BDA0001277549580000052
其中μ为均值,σ为方差,设置μ的值为0,σ为0.01。卷积神经网络每层权重按照以上策略初始化一次等待进行训练,而每张由步骤1构造的原始图像对应的分割图像都对应一个唯一的自编码神经网络,每个自编码神经网络在训练每张分割图像之前都进行符合上述高斯分布权重的初始化操作以保证隐含变量的准确性。自编码网络结构和卷积神经网络结构如附表1、表2所示。自编码神经网络的隐含变量层encode4含有h个节点,在实施过程中Pascal VOC 2012 Segmentationclass数据集设置h为5,Microsoft COCO数据集设置h为20;卷积神经网络最后一层full8层神经元个数与隐含变量节点数相同。
步骤3:训练自编码神经网络并提取分割图像隐含变量
根据步骤1构造的分割图像集和步骤2初始化的自编码神经网络,训练自编码神经网络模型。在训练过程中,将训练图像对应的分割图像输入自编码神经网络的同时,将输入图像自身当作神经网络的训练目标,进行前向传播以后得到该分割图像对应的隐含表达,然后重构此隐含表达计算神经网络损失,最后反向传播更新全部网络权重。输入分割图像到神经网络,统一将输入图像的像素值从[0,255]映射到[0,1]区间中,以便于重构计算。将每个输入的图像像素值与bi值相乘再进行重构运算,在实施过程中设置bi=0.0039215684。自编码神经网络损失层的损失函数为:
Figure BDA0001277549580000053
其中N为自编码神经网络的batch_size大小,在实施过程中设置N为1,pn是经过自编码神经网络输出的目标概率分布;
Figure BDA0001277549580000054
是概率预测分布,等同于输入的分割图像。
Figure BDA0001277549580000055
是使用的sigmoid函数σ(.)。通过最小化此损失函使输入分割图像与自身的交叉熵损失尽可能小,从而获得能够以最大概率重构出输入分割图像的隐含变量。待此自编码神经网络收敛后,通过前向操作得到对应分割图像对应特征向量
Figure BDA0001277549580000056
步骤4:归一化隐含变量
根据步骤3得到的特征向量
Figure BDA0001277549580000061
经过归一化操作将特征向量进行归一化操作,将特征向量的值映射到[0,1]之间。使用最大最小归一化,计算公式如下:
Figure BDA0001277549580000062
其中
Figure BDA0001277549580000063
为归一化前特征向量,
Figure BDA0001277549580000064
为归一化后特征向量。所有特征向量通过此映射函数,都映射到
Figure BDA0001277549580000065
得到训练图像对应的隐含变量集合
Figure BDA0001277549580000066
步骤5:训练卷积神经网络
根据步骤1得到的训练集,步骤4得到的隐含变量集合,训练由步骤2初始化的卷积神经网络模型。在训练过程中,训练集中原始图像输入卷积神经网络进行前向传播后,得到on,然后使用梯度下降方法学习深度卷积神经网络的各层参数,损失函数如下:
Figure BDA0001277549580000067
其中M为卷积神经网络的batch_size大小,在实施过程中设置M=128,om是经过卷积神经网络输出的目标概率分布;
Figure BDA0001277549580000068
是概率预测分布,即步骤4得到的归一化后的隐含变量。
步骤6:提取特征向量并计算欧氏距离
从步骤5中得到训练完毕的深度神经网络模型后,将测试样本集中的每张图像分别作为深度神经网络的输入,经过前向传播得到测试样本集的特征向量矩阵Feat。随后对测试图像库中的每幅图像做相同的操作。然后从Feat中按顺序取出测试图像的特征向量Featn,并计算该特征向量与图像库中的特征向量矩阵Feat每一行之间的欧式距离,然后将欧式距离以行向量的形式组合起来得到一个欧式距离列向量。
步骤7:排序输出检索结果
欧氏距离越小图像越相似,将从步骤6得到的欧氏距离向量的数值从小到大的顺序进行排序,按照顺序返回指定数量相似图像。最后根据据检索结果中每幅图像的类别标签和查询图像的类别标签是否相同,计算出查询图像对应类别的检索MAP值。
从附表3可以看出,以本发明提出的方法在两个数据集上拥有比传统神经网络模型更高的检索mAP值。
表1自编码神经网络各层结构配置表
Figure BDA0001277549580000069
Figure BDA0001277549580000071
表2卷积神经网络各层结构配置表
Layer Configuration
conv1 filter 96×11×11,stride 4×4,pad 0,LRN,pool 3×3,stride2×2
conv2 filter 256×5×5,stride 1×1,pad 2,LRN,pool 3×3,stride 2×2
conv3 filter 384×3×3,stride 1×1,pad 1
conv4 filter 384×3×3,stride 1×1,pad 1
conv5 filter 256×3×3,stride 1×1,pad 1,pool 2×2,stride 2×2
full6 fc 4096
full7 fc 4096
full8 fc h
表3本发明与其他不同神经网络模型在两个数据库上mAP值对比
Figure BDA0001277549580000072

Claims (2)

1.基于图像自编码的神经网络特征学习方法,其特征在于:根据两个多标签数据集的分割标签,给训练数据集对应的图像打分割标签,构建一个原始图像与分割图像对应的数据集,随后对每个图像的数据集使用自编码神经网络进行压缩编码直到收敛,提取每张分割图像对应的隐含变量信息,将此隐含变量信息与原图像构造键值对;然后利用此隐含变量信息代替one-hot标签作为神经网络的训练目标利用反向传播更新神经网络权重,训练得到对应神经网络;利用对应神经网络提取测试集特征;之后将测试集特征作为每张图像对应语义特征,通过计算并比较查询图像的特征与图像库中每幅图的欧式距离,最终快速准确的检索得到查询图像的相似图像结果;
本方法的具体实现包括如下步骤:
步骤1:构造数据集
将图像数据集划分为训练集和测试集,在训练集中给每张原始图像对应的分割标签标记在图像上,构造出训练图像对应的分割图像集;
步骤2:初始化卷积神经网络权重与自编码神经网络权重
使用高斯随机初始化卷积神经网络权重和自编码神经网络权重,卷积神经网络初始化一次,自编码神经网络在训练每张分割图像对应的隐含变量后都进行高斯随机权重初始化;
步骤3:训练自编码神经网络并提取分割图像隐含变量
对每张训练图像对应的分割图像对应一个进行高斯初始化权重的自编码神经网络,将分割图像经过自编码模型进行前向传播得到重构后的分割图像,然后经过该网络计算后得到的损失用反向传播算法调整网络权重,同时对所有全连接层参数都进行学习更新,迭代至收敛后得到训练后的自编码神经网络模型;最后将对应的分割图像进行前向传输得到自编码神经网络中间隐层的隐含变量
Figure FDA0002318592580000011
步骤4:归一化隐含变量
对步骤3中取得的隐含变量
Figure FDA0002318592580000012
进行归一化,从而将隐含变量的每一位都映射到[0,1]之间的实数上,得到经过归一化的隐含变量
Figure FDA0002318592580000013
步骤5:训练卷积神经网络
根据训练集图像库与步骤4得到的训练图像对应的归一化隐含变量,训练深度卷积神经网络模型;将训练集中原始图像输入卷积神经网络,并将步骤4得到的归一化隐含变量视为该训练集训练目标;经过卷积神经网络计算后得到损失后使用反向传播算法调整整个神经网络权重,同时对所有层参数进行学习更新,迭代至收敛后得到训练后的深度神经网络模型;
步骤6:提取特征向量并计算欧氏距离
从步骤5中得到训练完毕的深度神经网络模型后,将测试样本集中的每张图像分别作为深度神经网络的输入,经过前向传播得到测试样本集的特征向量矩阵Feat;随后从Feat中按顺序取出测试图像的特征向量Featn,并计算该特征向量与图像库中的特征向量矩阵Feat每一行之间的欧式距离,然后将欧式距离以行向量的形式组合起来得到一个欧式距离列向量;
步骤7:排序输出检索结果
将步骤6中得到的欧式距离向量的数值依照从小到大的顺序进行排序,顺序输出对应的原始图像,得到图像检索结果。
2.根据权利要求1所述的基于图像自编码的神经网络特征学习方法,其特征在于:
步骤1:构造数据集
本方法实施过程中的数据库来源于两个公开多标签标准数据集Pascal VOC2012Segmentationclass和Microsoft COCO;Pascal包含1465张训练,1449张测试,类别总数为20类的彩色图片;Microsoft COCO包含82783张训练,40504张测试,类别总数为80类的彩色图片;将图像训练集所对应的分割标签分别表示在原始图像上,其中每张图形的物体在进行分割图像标记的时候将会被标记为不同的颜色,其中相同类别物体被标记相同颜色,不同类别物体被标记为不同颜色;每张图像除主要物体之外的背景都被标记为黑色;原图像集合X={x1,x2,……,xn},对应的分割图像表示为
Figure FDA0002318592580000021
每个原始训练图像样本都对应一个分割图像;
步骤2:初始化卷积神经网络权重与自编码神经网络权重
深度卷积神经网络和自编码神经网络需要使用高斯初始化:W~N(μ,σ2);高斯分布通过下面公式计算得到.
Figure FDA0002318592580000022
其中μ为均值,σ为方差,设置μ的值为0,σ为0.01;卷积神经网络每层权重按照以上策略初始化一次等待进行训练,而每张由步骤1构造的原始图像对应的分割图像都对应一个唯一的自编码神经网络,每个自编码神经网络在训练每张分割图像之前都进行符合上述高斯分布权重的初始化操作以保证隐含变量的准确性;自编码神经网络的隐含变量层encode4含有h个节点,在实施过程中Pascal VOC 2012 Segmentationclass数据集设置h为5,Microsoft COCO数据集设置h为20;卷积神经网络最后一层full8层神经元个数与隐含变量节点数相同;
步骤3:训练自编码神经网络并提取分割图像隐含变量
根据步骤1构造的分割图像集和步骤2初始化的自编码神经网络,训练自编码神经网络模型;在训练过程中,将训练图像对应的分割图像输入自编码神经网络的同时,将输入图像自身当作神经网络的训练目标,进行前向传播以后得到该分割图像对应的隐含表达,然后重构此隐含表达计算神经网络损失,最后反向传播更新全部网络权重;输入分割图像到神经网络,统一将输入图像的像素值从[0,255]映射到[0,1]区间中,以便于重构计算;将每个输入的图像像素值与bi值相乘再进行重构运算,在实施过程中设置bi=0.0039215684;自编码神经网络损失层的损失函数为:
Figure FDA0002318592580000031
其中N为自编码神经网络的batch_size大小,在实施过程中设置N为1,pn是经过自编码神经网络输出的目标概率分布;
Figure FDA0002318592580000032
是概率预测分布,等同于输入的分割图像;
Figure FDA0002318592580000033
是使用的sigmoid函数σ(.);通过最小化此损失函使输入分割图像与自身的交叉熵损失尽可能小,从而获得能够以最大概率重构出输入分割图像的隐含变量;待此自编码神经网络收敛后,通过前向操作得到对应分割图像对应特征向量
Figure FDA0002318592580000034
步骤4:归一化隐含变量
根据步骤3得到的特征向量
Figure FDA0002318592580000035
经过归一化操作将特征向量进行归一化操作,将特征向量的值映射到[0,1]之间;使用最大最小归一化,计算公式如下:
Figure FDA0002318592580000036
其中
Figure FDA0002318592580000037
为归一化前特征向量,
Figure FDA0002318592580000038
为归一化后特征向量;所有特征向量通过此映射函数,都映射到
Figure FDA0002318592580000039
得到训练图像对应的隐含变量集合
Figure FDA00023185925800000310
步骤5:训练卷积神经网络
根据步骤1得到的训练集,步骤4得到的隐含变量集合,训练由步骤2初始化的卷积神经网络模型;在训练过程中,训练集中原始图像输入卷积神经网络进行前向传播后,得到on,然后使用梯度下降方法学习深度卷积神经网络的各层参数,损失函数如下:
Figure FDA00023185925800000311
其中M为卷积神经网络的batch_size大小,在实施过程中设置M=128,om是经过卷积神经网络输出的目标概率分布;
Figure FDA00023185925800000312
是概率预测分布,即步骤4得到的归一化后的隐含变量;
步骤6:提取特征向量并计算欧氏距离
从步骤5中得到训练完毕的深度神经网络模型后,将测试样本集中的每张图像分别作为深度神经网络的输入,经过前向传播得到测试样本集的特征向量矩阵Feat;随后对测试图像库中的每幅图像做相同的操作;然后从Feat中按顺序取出测试图像的特征向量Featn,并计算该特征向量与图像库中的特征向量矩阵Feat每一行之间的欧式距离,然后将欧式距离以行向量的形式组合起来得到一个欧式距离列向量;
步骤7:排序输出检索结果
欧氏距离越小图像越相似,将从步骤6得到的欧氏距离向量的数值从小到大的顺序进行排序,按照顺序返回指定数量相似图像;最后根据据检索结果中每幅图像的类别标签和查询图像的类别标签是否相同,计算出查询图像对应类别的检索MAP值。
CN201710271606.2A 2017-04-24 2017-04-24 基于图像自编码的神经网络特征学习方法 Active CN107122809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710271606.2A CN107122809B (zh) 2017-04-24 2017-04-24 基于图像自编码的神经网络特征学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710271606.2A CN107122809B (zh) 2017-04-24 2017-04-24 基于图像自编码的神经网络特征学习方法

Publications (2)

Publication Number Publication Date
CN107122809A CN107122809A (zh) 2017-09-01
CN107122809B true CN107122809B (zh) 2020-04-28

Family

ID=59725779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710271606.2A Active CN107122809B (zh) 2017-04-24 2017-04-24 基于图像自编码的神经网络特征学习方法

Country Status (1)

Country Link
CN (1) CN107122809B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9947103B1 (en) * 2017-10-03 2018-04-17 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
CN109685087B9 (zh) * 2017-10-18 2023-02-03 富士通株式会社 信息处理方法和装置以及信息检测方法
CN107578300A (zh) * 2017-10-24 2018-01-12 济南浪潮高新科技投资发展有限公司 一种电梯广告投放工作自动审核的方法及装置
CN107766893B (zh) * 2017-11-03 2021-01-22 电子科技大学 基于标签多级编码神经网络的目标识别方法
CN107870321B (zh) * 2017-11-03 2020-12-29 电子科技大学 基于伪标签学习的雷达一维距离像目标识别方法
CN108090117B (zh) 2017-11-06 2019-03-19 北京三快在线科技有限公司 一种图像检索方法及装置,电子设备
CN107657615B (zh) * 2017-11-10 2019-07-23 西安电子科技大学 基于增量cae的高分辨sar图像变化检测方法
US10748036B2 (en) 2017-11-21 2020-08-18 Nvidia Corporation Training a neural network to predict superpixels using segmentation-aware affinity loss
CN108445752B (zh) * 2018-03-02 2021-08-17 北京工业大学 一种自适应选择深度特征的随机权神经网络集成建模方法
CN108536769B (zh) * 2018-03-22 2023-01-03 深圳市安软慧视科技有限公司 图像分析方法、搜索方法及装置、计算机装置及存储介质
EP3567548B1 (en) * 2018-05-09 2020-06-24 Siemens Healthcare GmbH Medical image segmentation
CN108710866B (zh) * 2018-06-04 2024-02-20 平安科技(深圳)有限公司 汉字模型训练方法、汉字识别方法、装置、设备及介质
CN109086652A (zh) * 2018-06-04 2018-12-25 平安科技(深圳)有限公司 手写字模型训练方法、汉字识别方法、装置、设备及介质
CN108765423B (zh) * 2018-06-20 2020-07-28 北京七鑫易维信息技术有限公司 一种卷积神经网络训练方法及装置
CN109102064B (zh) * 2018-06-26 2020-11-13 杭州雄迈集成电路技术股份有限公司 一种高精度的神经网络量化压缩方法
CN109241816B (zh) * 2018-07-02 2020-10-27 北京交通大学 一种基于标签优化的图像再识别系统及损失函数确定方法
CN110858812B (zh) * 2018-08-24 2021-07-13 中国移动通信集团浙江有限公司 网元割接值守方法及装置
CN109657082B (zh) * 2018-08-28 2022-11-29 武汉大学 基于全卷积神经网络的遥感图像多标签检索方法及系统
CN111104834A (zh) * 2018-10-25 2020-05-05 南京大学 一种交叉对比神经网络在心声智能检测中的应用方法
CN109472360B (zh) 2018-10-30 2020-09-04 北京地平线机器人技术研发有限公司 神经网络的更新方法、更新装置和电子设备
CN111161363A (zh) * 2018-11-07 2020-05-15 合肥图鸭信息科技有限公司 一种图像编码模型训练方法及装置
EP3675061A1 (en) * 2018-12-29 2020-07-01 Dassault Systèmes Forming a dataset for inference of editable feature trees
CN112020724A (zh) * 2019-04-01 2020-12-01 谷歌有限责任公司 学习可压缩的特征
CN110119447B (zh) * 2019-04-26 2023-06-16 平安科技(深圳)有限公司 自编码神经网络处理方法、装置、计算机设备及存储介质
CN110070140B (zh) * 2019-04-28 2021-03-23 清华大学 基于多类别信息的用户相似性确定方法及装置
CN110263029B (zh) * 2019-05-06 2023-06-23 平安科技(深圳)有限公司 数据库生成测试数据的方法、装置、终端及介质
CN110188231A (zh) * 2019-06-11 2019-08-30 上海德拓信息技术股份有限公司 图片中相似物体检索方法及装置
CN110517759B (zh) * 2019-08-29 2022-03-25 腾讯医疗健康(深圳)有限公司 一种待标注图像确定的方法、模型训练的方法及装置
CN110830807B (zh) * 2019-11-04 2022-08-23 腾讯科技(深圳)有限公司 图像压缩方法、装置及存储介质
CN111414510A (zh) * 2020-03-24 2020-07-14 北京曲线智能装备有限公司 一种快速图像检索方法
CN111738318B (zh) * 2020-06-11 2022-09-30 大连理工大学 一种基于图神经网络的超大图像分类方法
CN111813830B (zh) * 2020-07-02 2023-03-28 清华大学 一种基于轨道交通工业互联网的工业时序数据检索方法
CN111859790B (zh) * 2020-07-08 2022-09-16 大连理工大学 一种基于图像特征学习的曲线加筋结构布局智能设计方法
CN112016599B (zh) * 2020-08-13 2023-09-15 驭势科技(浙江)有限公司 用于图像检索的神经网络训练方法、装置及电子设备
CN111985161B (zh) * 2020-08-21 2024-06-14 广东电网有限责任公司清远供电局 一种变电站三维模型重构方法
CN112150338B (zh) * 2020-09-21 2023-12-05 清华大学 一种神经网络模型图像水印的去除方法
CN113449737B (zh) * 2021-05-27 2023-11-17 南京大学 一种基于自编码器的单探头声学成像方法及装置
CN113780450B (zh) * 2021-09-16 2023-07-28 郑州云智信安安全技术有限公司 基于自编码神经网络的分布式存储方法及系统
CN114863178A (zh) * 2022-05-13 2022-08-05 南京大学 面向神经网络视觉系统的图像数据输入检测方法和系统
CN115337026B (zh) * 2022-10-19 2023-03-10 之江实验室 一种基于卷积神经网络的eeg信号特征检索方法、装置
CN116524282B (zh) * 2023-06-26 2023-09-05 贵州大学 一种基于特征向量的离散相似度匹配分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077599A (zh) * 2014-07-04 2014-10-01 西安电子科技大学 基于深度神经网络的极化sar图像分类方法
WO2014205231A1 (en) * 2013-06-19 2014-12-24 The Regents Of The University Of Michigan Deep learning framework for generic object detection
CN105243154A (zh) * 2015-10-27 2016-01-13 武汉大学 基于显著点特征和稀疏自编码的遥感图像检索方法及系统
CN105930770A (zh) * 2016-04-13 2016-09-07 重庆邮电大学 一种基于高斯过程隐变量模型的人体动作识别方法
CN106446895A (zh) * 2016-10-28 2017-02-22 安徽四创电子股份有限公司 一种基于深度卷积神经网络的车牌识别方法
CN106503654A (zh) * 2016-10-24 2017-03-15 中国地质大学(武汉) 一种基于深度稀疏自编码网络的人脸情感识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102288280B1 (ko) * 2014-11-05 2021-08-10 삼성전자주식회사 영상 학습 모델을 이용한 영상 생성 방법 및 장치
US10552730B2 (en) * 2015-06-30 2020-02-04 Adobe Inc. Procedural modeling using autoencoder neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014205231A1 (en) * 2013-06-19 2014-12-24 The Regents Of The University Of Michigan Deep learning framework for generic object detection
CN104077599A (zh) * 2014-07-04 2014-10-01 西安电子科技大学 基于深度神经网络的极化sar图像分类方法
CN105243154A (zh) * 2015-10-27 2016-01-13 武汉大学 基于显著点特征和稀疏自编码的遥感图像检索方法及系统
CN105930770A (zh) * 2016-04-13 2016-09-07 重庆邮电大学 一种基于高斯过程隐变量模型的人体动作识别方法
CN106503654A (zh) * 2016-10-24 2017-03-15 中国地质大学(武汉) 一种基于深度稀疏自编码网络的人脸情感识别方法
CN106446895A (zh) * 2016-10-28 2017-02-22 安徽四创电子股份有限公司 一种基于深度卷积神经网络的车牌识别方法

Also Published As

Publication number Publication date
CN107122809A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN107122809B (zh) 基于图像自编码的神经网络特征学习方法
Kukačka et al. Regularization for deep learning: A taxonomy
CN113190699B (zh) 一种基于类别级语义哈希的遥感图像检索方法及装置
Wu et al. Application of image retrieval based on convolutional neural networks and Hu invariant moment algorithm in computer telecommunications
CN108121975B (zh) 一种联合原始数据和生成数据的人脸识别方法
Wang et al. Deep learning for image retrieval: What works and what doesn't
Ning et al. Semantics-consistent representation learning for remote sensing image–voice retrieval
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN111079514A (zh) 一种基于clbp和卷积神经网络的人脸识别方法
CN112949740A (zh) 一种基于多级度量的小样本图像分类方法
CN111008224A (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN111695455B (zh) 一种基于耦合判别流形对齐的低分辨人脸识别方法
CN112883931A (zh) 基于长短期记忆网络的实时真假运动判断方法
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
Peng et al. A survey: Image classification models based on convolutional neural networks
Wang et al. A convolutional neural network image classification based on extreme learning machine
Zeng et al. Flower image classification based on an improved lightweight neural network with multi-scale feature fusion and attention mechanism
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
CN112650877B (zh) 一种基于改进的深度残差卷积神经网络和深度哈希的高清遥感图像快速检索方法
CN112801153B (zh) 一种嵌入lbp特征的图的半监督图像分类方法及系统
CN111767825B (zh) 一种人脸属性不变鲁棒性人脸识别方法及系统
Lei et al. Student action recognition based on multiple features
CN113869454A (zh) 一种基于快速嵌入式谱分析的高光谱图像稀疏特征选择方法
Wang et al. Image target recognition based on improved convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170901

Assignee: Henan zhuodoo Information Technology Co.,Ltd.

Assignor: Beijing University of Technology

Contract record no.: X2024980000138

Denomination of invention: A Neural Network Feature Learning Method Based on Image Self encoding

Granted publication date: 20200428

License type: Common License

Record date: 20240104

Application publication date: 20170901

Assignee: Luoyang Lexiang Network Technology Co.,Ltd.

Assignor: Beijing University of Technology

Contract record no.: X2024980000083

Denomination of invention: A Neural Network Feature Learning Method Based on Image Self encoding

Granted publication date: 20200428

License type: Common License

Record date: 20240104

EE01 Entry into force of recordation of patent licensing contract