CN112949750B - 一种图像分类方法及计算机可读存储介质 - Google Patents

一种图像分类方法及计算机可读存储介质 Download PDF

Info

Publication number
CN112949750B
CN112949750B CN202110319053.XA CN202110319053A CN112949750B CN 112949750 B CN112949750 B CN 112949750B CN 202110319053 A CN202110319053 A CN 202110319053A CN 112949750 B CN112949750 B CN 112949750B
Authority
CN
China
Prior art keywords
deep learning
learning network
picture
queue
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110319053.XA
Other languages
English (en)
Other versions
CN112949750A (zh
Inventor
王好谦
李卓凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202110319053.XA priority Critical patent/CN112949750B/zh
Publication of CN112949750A publication Critical patent/CN112949750A/zh
Application granted granted Critical
Publication of CN112949750B publication Critical patent/CN112949750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种图像分类方法及计算机可读存储介质,包括:构建一个待训练的深度学习网络并准备用于训练的图像数据集,网络参数进行随机初始化并初始化一个先进先出队列,图像数据集中的图片未进行标注;分别从图像数据集中采样出图片用于迭代训练,对每张图片进行增强变化得到查询样本图片和正样本图片;对表征向量进行提取得到对应的查询样本向量和正样本向量,将正样本向量压入先进先出队列中,同时移除队列中存储时间最久的元素;分别获取查询样本向量和先进先出队列中每个样本的相似度,并构建损失函数计算损失值;在与测试数据集上对深度学习网络的正确率进行测试直至收敛;采用训练好的网络对目标任务的图像进行分类。

Description

一种图像分类方法及计算机可读存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种图像分类方法及计算机可读存储介质。
背景技术
基于深度学习的图像分类方法是一项近几年发展迅速且得到广泛应用的技术,该技术建立在神经网络理论、神经动力学的基础上,通过构建多层人造神经网络的方式,组合出具有强大非线性拟合能力的映射函数。
为了得到正确的从图像像素输入到对应类别的映射关系,基于深度学习的神经网络往往具有大量的参数,通过这些参数让模型能够拟合复杂的映射函数关系。为了使得具有大量参数的网络能够拟合出目标的函数映射关系,往往需要大量的有标注数据供神经网络训练学习。而标注数据的过程会耗费大量的人力物力。
为了缓解数据标注对深度学习技术发展带来的阻碍,小样本学习应运而生。小样本学习旨在让深度学习模型仅仅使用很少量的标注数据,就能学会需要学习到的任务,进而在低标注成本的情况下完成任务。小样本学习的出发点来自于对人认识事物过程的思考,人并不需要大量的标注数据来认识事物,当遇到新的事物时,人只需要少量的新事物样本就可以学会如何辨认新事物。出于以上思考,研究者们认为,深度学习模型应该也可以像人一样,仅使用少量标注样本就学会新的任务,这种仅使用少量标注样本进行学习的训练模式被称为小样本学习。
值得注意的是,人之所以能仅使用少量标注样本就学会辨认新的事物,是由于人在之前的生活中已经积累了大量的先验知识,已经学会了如果通过事物的形状、纹理等对其进行辨认。基于该思考,深度学习模型在进行仅使用少量样本学习辨认新事物之前也应该先通过某种方式获得充足的先验知识,积累足够的相关经验,以便于后续快速学会新任务。
为了让模型能够获得所需的先验知识,一种最常用也最直接的思路是将训练过程分为两部分:预训练和目标训练。在预训练过程中,我们让模型在一个较大的和目标场景数据类似的数据集上进行相似任务的预训练,模型会在预训练的过程中学会如何利用给定图片特征、如何进行该类型任务。而目标训练阶段的任务则是让模型学会实际希望它完成的目标任务。由于经过了预训练阶段获取了先验知识,当模型在目标训练阶段被赋予新的只有少量标注数据的任务时,就能快速高效地学会新任务。
然而,该思路的问题在于预训练的过程需要使用一个较大规模的相似有标注数据集,该数据集未必一定可得。当不存在和目标任务所用数据较为相似的大规模数据集时,直接使用一些不相似有标注数据集进行预训练反而可能降低模型的性能,而标注一个大规模相似数据集则会付出远高于原任务的标注成本,适得其反,因此,在相似大规模数据集上进行预训练再利用少量新任务标注样本进行快速学习的小样本学习思路并非一定可行。
获得有标注数据的昂贵成本主要来自于依靠人力给数据打标签的过程,获得数据本身并不需要太多成本。随着大数据时代的到来,我们较为容易通过各种渠道获得大量的无标注数据,如果能够利用这些无标注数据来进行模型预训练,进而完成小样本学习,将极大地降低数据标注成本,进而将深度学习技术推广向更多应用领域。
现有技术中缺乏一种在无需人工标注数据的前提下训练深度学习分类模型的方法。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
本发明为了解决现有的问题,提供一种图像分类方法及计算机可读存储介质。
为了解决上述问题,本发明采用的技术方案如下所述:
一种图像分类方法,包括如下步骤:S1:构建一个待训练的深度学习网络并准备用于训练所述深度学习网络的图像数据集,所述深度学习网络的参数进行随机初始化并初始化一个先进先出队列,所述图像数据集中的图片未进行标注;S2:分别从所述图像数据集中采样出图片用于所述深度学习网络的迭代训练,对每张所述图片进行增强变化得到2张强化图片,2张所述强化图片分别作为查询样本图片和正样本图片;S3:采用所述深度学习网络对所述查询样本图片和所述正样本图片的表征向量进行提取得到对应的查询样本向量和正样本向量,将所述正样本向量压入所述先进先出队列中,同时移除所述队列中存储时间最久的元素;S4:分别获取所述查询样本向量和所述先进先出队列中每个样本的相似度,并构建损失函数计算损失值,以最小化损失值为目标使用基于梯度的神经网络优化算法对所述深度学习网络的参数进行更新;S5:在与预先设置的目标任务相关的测试数据集上对所述深度学习网络的正确率进行测试直至所述深度学习网络收敛;S6:采用训练好的所述深度学习网络对所述目标任务的图像进行分类。
优选地,所述深度学习网络是包含VGG16、Resnet或GoogleNet在内的任意端到端分类神经网络。
优选地,每一轮所述深度学习网络的迭代训练对所述图像数据集中的图片遍历一次,在迭代过程中,每次使用的数据包尺寸为大于256的任意值。
优选地,对每张所述图片进行增强变化是采用裁剪、旋转、翻转、施加噪声、滤波或边缘提取中至少一种处理方法。
优选地,所述查询样本向量和所述正样本向量的长度相等且均大于64。
优选地,对所述查询样本向量和所述先进先出队列中每个样本的相似度,对其中任意两条向量A和B的相似度计算公式为:
Figure BDA0002992051320000031
其中,||A||2、||B||2分别指A和B的二范数,A·B指A和B的向量点乘。
优选地,所述损失函数基于所述深度学习网络的优化目标设计;所述优化目标为最大化所述查询样本向量和所述正样本向量之间的相似度,最小化所述查询样本向量与所述先进先出队列中正样本向量以外其它向量的相似度。
优选地,采用基于梯度的优化算法对所述深度学习网络的参数进行更新,所述优化算法的优化目标为最小化预设损失函数计算得到的损失值L,计算公式如下:
Figure BDA0002992051320000032
其中,di为查询样本和队列中第i个样本之间的相似度,dp为查询样本和队列中正样本之间的相似度。
优选地,所述深度学习网络的参数进行更新的公式表示为:
Figure BDA0002992051320000041
其中,w为更新前的参数,w*为更新后的参数,α为学习率。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本发明的有益效果为:提供一种图像分类方法及计算机可读存储介质,通过利用对同一张图片进行增强变换得到的两张强化图片,相较于其它图片更为相似的特性,构造出将由同一张图片增强变换得到的两张图片分类为同一类,将不同图片增强变换得到的两张图片分类为不同类的优化目标,在不需要人工标注的前提下,让模型学到能够用于目标分类任务的表征。
附图说明
图1是本发明实施例中一种图像分类方法的示意图。
图2是本发明实施例中一种训练深度学习网络模型的方法示意图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接既可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
如图1所示,本发明提供一种图像分类方法,包括如下步骤:
S1:构建一个待训练的深度学习网络并准备用于训练所述深度学习网络的图像数据集,所述深度学习网络的参数进行随机初始化并初始化一个先进先出队列,所述图像数据集中的图片未进行标注;
在本发明的一种实施例中,深度学习网络是包含VGG16、Resnet或GoogleNet在内的任意端到端分类神经网络。对深度学习网络的网络参数进行随机初始化,可以将参数初始化为包含正态分布、平均分布等各种概率分布在内的随机值;并初始化一个先进先出队列,该队列长度应至少大于1024。
S2:分别从所述图像数据集中采样出图片用于所述深度学习网络的迭代训练,对每张所述图片进行增强变化得到2张强化图片,2张所述强化图片分别作为查询样本图片和正样本图片;
在本发明的一种实施例中,每一轮所述深度学习网络的迭代训练对所述图像数据集中的图片遍历一次,在迭代过程中,每次使用的数据包尺寸为大于256的任意值。
在一种具体的实施例中,对每张所述图片进行增强变化是采用裁剪、旋转、翻转、施加噪声、滤波或边缘提取中至少一种处理方法。
可以理解的是,两张增强样本中的一张作为查询样本,名为查询样本是指在后续训练过程中将以让深度学习网络查询判别它和哪一个其它样本最相似为优化任务训练网络;两张增强样本中的另一张作为正样本,名为正样本是因为在后续判别查询样本和其余哪个样本最相似的优化任务中,该样本将作为唯一正确答案。相应的,除查询样本、正样本外其余所有样本均被称为负样本。
在一种具体的实施例中,查询样本向量和正样本向量的长度相等且均大于64。
S3:采用所述深度学习网络对所述查询样本图片和所述正样本图片的表征向量进行提取得到对应的查询样本向量和正样本向量,将所述正样本向量压入所述先进先出队列中,同时移除所述队列中存储时间最久的元素;
S4:分别获取所述查询样本向量和所述先进先出队列中每个样本的相似度,并构建损失函数计算损失值,以最小化损失值为目标使用基于梯度的神经网络优化算法对所述深度学习网络的参数进行更新;
在本发明的一种实施例中,计算查询样本和队列中所有样本的相似度,相似度可以使用包含余弦距离、欧氏距离在内的任意衡量向量间相似度的方法。以此计算相似度任务构造优化目标,优化目标为最大化查询样本和正样本之间的相似度,最小化查询样本和队列中其它样本的相似度,以此构造损失函数计算损失值,损失函数为可以达到该优化目标的任意形式。接下来,以最小化损失值为目标使用梯度下降算法对深度学习模型的参数进行更新。
S5:在与预先设置的目标任务相关的测试数据集上对所述深度学习网络的正确率进行测试直至所述深度学习网络收敛;
在本发明的一种实施例中,网络的收敛条件为在连续十个迭代循环中,网络在测试集上测试出的正确率没有出现较之前测试达到的最优正确率更优的结果。
S6:采用训练好的所述深度学习网络对所述目标任务的图像进行分类。
如图2所示,是本发明的一种训练深度学习网络模型的方法示意图。
本发明提供的方法相较于现存使用人工标注作为正确分类结果构造优化目标的方法,提出一种无需使用人工标注的优化目标,使得所述方法在无需人工标注的前提下能够保持收敛。优化目标利用对同一张图片进行增强变换得到的两张图片相较于其它图片更为相似的特性,构造出将由同一张图片增强变换得到的两张图片分类为同一类,将不同图片增强变换得到的两张图片分类为不同类的优化目标,在不需要人工标注的前提下,让深度学习网络模型学到能够用于目标分类任务的表征。解决训练深度学习分类模型的过程中人力标注成本过高的问题,通过本发明可以极大地降低在实际应用场景中部署深度学习模型对人力的消耗,降低成本。
进一步地,在本发明的一种实施例中,对查询样本向量和所述先进先出队列中每个样本的相似度,对其中任意两条向量A和B的相似度计算公式为:
Figure BDA0002992051320000061
其中,||A||2、||B||2分别指A和B的二范数,A·B指A和B的向量点乘。
分别获取查询样本向量和先进先出队列中每个样本的相似度,并构建损失函数计算损失值。损失函数基于所述深度学习网络的优化目标设计;所述优化目标为最大化所述查询样本向量和所述正样本向量之间的相似度,最小化所述查询样本向量与所述先进先出队列中正样本向量以外其它向量的相似度。
以最小化损失值为目标使用基于梯度的神经网络优化算法对深度学习网络的参数进行更新,采用基于梯度的优化算法对所述深度学习网络的参数进行更新,所述优化算法的优化目标为最小化预设损失函数计算得到的损失值L,计算公式如下:
Figure BDA0002992051320000071
其中,di为查询样本和队列中第i个样本之间的相似度,dp为查询样本和队列中正样本之间的相似度。
深度学习网络的参数进行更新的公式表示为:
Figure BDA0002992051320000072
其中,w为更新前的参数,w*为更新后的参数,α为学习率。该学习率可以为人为设定的固定值,也可以为随训练过程变化的自适应参数。
在与预先设置的目标任务相关的测试数据集上对深度学习网络的正确率进行测试直至所述深度学习网络收敛。
在本发明的一种具体的实施例中,以下实施的训练过程使用的是ImageNet数据集,在使用过程中仅使用其图像数据,不使用数据集中附带的人工标注,在将数据集中的图像加载到内存中以后要对其随机打乱。首先,初始化一个待训练的神经网络,本例中使用的是由Pytorch提供的标准Resnet50网络,除Resnet50外,也可以使用其它任意深度学习分类神经网络。并在8块GPU上对其进行训练。本例创建的用于存储数据的队列长度为65536。
本例对模型的训练包括100轮迭代,每一轮迭代会对整个ImageNet数据集中的数据遍历一次。在迭代过程中,每次使用的数据包尺寸为512,即单次向模型送入512张图。对于每张图首先进行增强变化,本例中所用的变换操作包括随机裁剪、灰度化、随机翻转,对于每1张输入图片对应产生2张强化图片,分别作为查询样本图片和正样本图片。用待训练的Resnet50网络分别对两张图片进行编码得到两条对应的查询样本向量和正样本向量,在本例中向量长度均为1024。将正样本向量压入队列,作为本轮训练的匹配目标。
对查询样本向量和队列中512条样本向量之间的相似度分别进行计算,对其中任意两条向量A和B的相似度计算公式为:
Figure BDA0002992051320000081
而网络的训练优化目标为最大化查询样本向量和正样本向量之间的相似度,最小化查询样本向量与队列中正样本向量以外其它向量的相似度。基于此目标设计损失函数。假设查询样本向量和正样本向量之间的相似度为dp,查询样本向量与队列中第i条向量的相似度为di,则损失函数可以定义为:
Figure BDA0002992051320000082
训练网络的优化目标即为最小化损失值L,在本例中,用梯度下降算法进行网络的参数更新并完成优化目标。该算法在Pytorch等库中已有直接可调用的开源实现,其对参数的更新公式可表示为:
Figure BDA0002992051320000083
其中,w为更新前的参数,w*为更新后的参数,α为学习率,是一个提前设定好的超参数。在本例中α设为0.01。
为了验证提出方法的有效性,在miniImageNet数据集上对本发明提出的方法以及当前较为有代表性的需要人工标注数据的方法进行了效果对比,结果见表1。该结果表明,本发明的方法不仅不需要人工标注数据,还达到了和当前最佳的需要人工标注数据的方法持平的性能。
表1效果对比
Figure BDA0002992051320000084
Figure BDA0002992051320000091
本申请实施例还提供一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时至少执行如上所述的方法。
本申请实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时至少执行如上所述的方法。
本申请实施例还提供一种处理器,所述处理器执行计算机程序,至少执行如上所述的方法。
所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random AccessMemory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random AccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAMEnhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,Sync Link Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种图像分类方法,其特征在于,包括如下步骤:
S1:构建一个待训练的深度学习网络并准备用于训练所述深度学习网络的图像数据集,所述深度学习网络的参数进行随机初始化并初始化一个先进先出队列,所述图像数据集中的图片未进行标注;
S2:分别从所述图像数据集中采样出图片用于所述深度学习网络的迭代训练,对每张所述图片进行增强变化得到2张强化图片,2张所述强化图片分别作为查询样本图片和正样本图片;
S3:采用所述深度学习网络对所述查询样本图片和所述正样本图片的表征向量进行提取得到对应的查询样本向量和正样本向量,将所述正样本向量压入所述先进先出队列中,同时移除所述队列中存储时间最久的元素;
S4:分别获取所述查询样本向量和所述先进先出队列中每个样本的相似度,并构建损失函数计算损失值,以最小化损失值为目标将由同一张图片增强变换得到的2张图片分类为同一类,将不同图片增强变换得到的2张图片分类为不同类,使用基于梯度的神经网络优化算法对所述深度学习网络的参数进行更新;
S5:在与预先设置的目标任务相关的测试数据集上对所述深度学习网络的正确率进行测试直至所述深度学习网络收敛;
S6:采用训练好的所述深度学习网络对所述目标任务的图像进行分类。
2.如权利要求1所述的图像分类方法,其特征在于,所述深度学习网络是包含VGG16、Resnet或GoogleNet在内的任意端到端分类神经网络。
3.如权利要求2所述的图像分类方法,其特征在于,每一轮所述深度学习网络的迭代训练对所述图像数据集中的图片遍历一次,在迭代过程中,每次使用的数据包尺寸为大于256的任意值。
4.如权利要求3所述的图像分类方法,其特征在于,对每张所述图片进行增强变化是采用裁剪、旋转、翻转、施加噪声、滤波或边缘提取中至少一种处理方法。
5.如权利要求4所述的图像分类方法,其特征在于,所述查询样本向量和所述正样本向量的长度相等且均大于64。
6.如权利要求5所述的图像分类方法,其特征在于,对所述查询样本向量和所述先进先出队列中每个样本的相似度,对其中任意两条向量A和B的相似度计算公式为:
Figure FDA0003664019350000021
其中,||A||2、||B||2分别指A和B的二范数,A·B指A和B的向量点乘。
7.如权利要求6所述的图像分类方法,其特征在于,所述损失函数基于所述深度学习网络的优化目标设计;所述优化目标为最大化所述查询样本向量和所述正样本向量之间的相似度,最小化所述查询样本向量与所述先进先出队列中正样本向量以外其它向量的相似度。
8.如权利要求7所述的图像分类方法,其特征在于,采用基于梯度的优化算法对所述深度学习网络的参数进行更新,所述优化算法的优化目标为最小化预设损失函数计算得到的损失值L,计算公式如下:
Figure FDA0003664019350000022
其中,di为查询样本和队列中第i个样本之间的相似度,dp为查询样本和队列中正样本之间的相似度。
9.如权利要求8所述的图像分类方法,其特征在于,所述深度学习网络的参数进行更新的公式表示为:
Figure FDA0003664019350000023
其中,w为更新前的参数,w*为更新后的参数,α为学习率。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一所述方法的步骤。
CN202110319053.XA 2021-03-25 2021-03-25 一种图像分类方法及计算机可读存储介质 Active CN112949750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110319053.XA CN112949750B (zh) 2021-03-25 2021-03-25 一种图像分类方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110319053.XA CN112949750B (zh) 2021-03-25 2021-03-25 一种图像分类方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112949750A CN112949750A (zh) 2021-06-11
CN112949750B true CN112949750B (zh) 2022-09-23

Family

ID=76228505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110319053.XA Active CN112949750B (zh) 2021-03-25 2021-03-25 一种图像分类方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112949750B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657406B (zh) * 2021-07-13 2024-04-23 北京旷视科技有限公司 模型训练和特征提取方法、装置、电子设备及存储介质
CN113468364B (zh) * 2021-07-21 2024-04-09 京东科技信息技术有限公司 一种图像处理方法及装置
CN113837379B (zh) * 2021-09-14 2024-08-13 上海商汤智能科技有限公司 神经网络的训练方法及装置、计算机可读存储介质
CN117152587B (zh) * 2023-10-27 2024-01-26 浙江华是科技股份有限公司 一种基于对抗学习的半监督船舶检测方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10482313B2 (en) * 2015-09-30 2019-11-19 Siemens Healthcare Gmbh Method and system for classification of endoscopic images using deep decision networks
CN106021364B (zh) * 2016-05-10 2017-12-12 百度在线网络技术(北京)有限公司 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN107506703B (zh) * 2017-08-09 2020-08-25 中国科学院大学 一种基于无监督局部度量学习和重排序的行人再识别方法
US11537817B2 (en) * 2018-10-18 2022-12-27 Deepnorth Inc. Semi-supervised person re-identification using multi-view clustering
US20200143209A1 (en) * 2018-11-07 2020-05-07 Element Ai Inc. Task dependent adaptive metric for classifying pieces of data
CN110458084B (zh) * 2019-08-06 2022-08-26 南京邮电大学 一种基于倒置残差网络的人脸年龄估计方法
CN112270252A (zh) * 2020-10-26 2021-01-26 西安工程大学 一种改进YOLOv2模型的多车辆目标识别方法

Also Published As

Publication number Publication date
CN112949750A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112949750B (zh) 一种图像分类方法及计算机可读存储介质
US11501192B2 (en) Systems and methods for Bayesian optimization using non-linear mapping of input
CN110097130B (zh) 分类任务模型的训练方法、装置、设备及存储介质
CN109345575B (zh) 一种基于深度学习的图像配准方法及装置
WO2018028255A1 (zh) 基于对抗网络的图像显著性检测方法
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
CN110363091B (zh) 侧脸情况下的人脸识别方法、装置、设备及存储介质
CN103400143B (zh) 一种基于多视角的数据子空间聚类方法
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN108229347B (zh) 用于人识别的拟吉布斯结构采样的深层置换的方法和装置
CN109614910B (zh) 一种人脸识别方法和装置
CN111476284A (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN109359214A (zh) 基于神经网络的视频描述生成方法、存储介质及终端设备
EP3620982B1 (en) Sample processing method and device
CN110765882B (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN106803054B (zh) 人脸模型矩阵训练方法和装置
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN110175657B (zh) 一种图像多标签标记方法、装置、设备及可读存储介质
CN114882288B (zh) 基于分层图增强堆叠自编码器的多视图图像分类方法
CN113869098A (zh) 植物病害识别方法、装置、电子设备及存储介质
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN111666976A (zh) 基于属性信息的特征融合方法、装置和存储介质
CN111723762A (zh) 人脸属性识别方法、装置、电子设备及存储介质
CN114566184A (zh) 音频识别方法及相关装置
CN110135363B (zh) 基于判别词典嵌入行人图像检索方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant