CN115631388B - 图像分类方法、装置、电子设备及存储介质 - Google Patents

图像分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115631388B
CN115631388B CN202211644947.7A CN202211644947A CN115631388B CN 115631388 B CN115631388 B CN 115631388B CN 202211644947 A CN202211644947 A CN 202211644947A CN 115631388 B CN115631388 B CN 115631388B
Authority
CN
China
Prior art keywords
layer
module
batch normalization
candidate
last batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211644947.7A
Other languages
English (en)
Other versions
CN115631388A (zh
Inventor
罗建翔
刘闯
胡峻毅
刘千侨
张义夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Glasssix Network Technology Co ltd
Original Assignee
Glasssic Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glasssic Technology Chengdu Co ltd filed Critical Glasssic Technology Chengdu Co ltd
Priority to CN202211644947.7A priority Critical patent/CN115631388B/zh
Publication of CN115631388A publication Critical patent/CN115631388A/zh
Application granted granted Critical
Publication of CN115631388B publication Critical patent/CN115631388B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Physiology (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Genetics & Genomics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种图像分类方法、装置、电子设备及存储介质,所述方法包括:获取待分类图像;利用预先训练的图像分类模型对待分类图像进行分类,得到分类结果;其中,图像分类模型是根据第一候选模块的评分和第二候选模块的评分从训练后的预设超网中确定的;预设超网包括普通层和还原层;普通层包括层评分模块和第一候选模块,第一候选模块的评分是层评分模块对其最后一个批量归一化层的权重进行归一化优化得到的;还原层包括第二候选模块,第二候选模块的评分是根据其最后一个批量归一化层的权重得到的,本发明能够为不同任务提供特定的网络结构并提高图像分类的准确性。

Description

图像分类方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种图像分类方法、装置、电子设备及存储介质。
背景技术
图像分类是根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。这种方法利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。
现有的图像分类方式通常先构建图像分类模型,再对图像分类模型进行训练,利用训练后的图像分类模型进行图像分类,如何利用图像分类模型提高图像分类的准确性是本领域技术人员亟待解决的技术问题。
发明内容
本发明的目的在于提供了一种图像分类方法、装置、电子设备及存储介质,其能够提高图像分类的准确性。
本发明的实施例可以这样实现:
第一方面,本发明提供一种图像分类方法,所述方法包括:获取待分类图像;利用预先训练的图像分类模型对所述待分类图像进行分类,得到分类结果;其中,所述图像分类模型是根据第一候选模块的评分和第二候选模块的评分从训练后的预设超网中确定的;所述预设超网包括输入通道和输出通道相同的普通层和输入通道和输出通道不同的还原层;普通层包括层评分模块和第一候选模块,第一候选模块的评分是层评分模块对其最后一个批量归一化层的权重进行归一化调整得到的;还原层包括第二候选模块,第二候选模块的评分是根据其最后一个批量归一化层的权重得到的。
在可选的实施方式中,所述第一候选模块和所述第二候选模块均包括至少一个批量归一化层和至少一个卷积层,每一所述卷积层均设置有初始参数,所述层评分模块包括至少一个批量归一化层;
所述图像分类模型是通过以下方式得到的:
对所述预设超网中所有所述卷积层的初始参数进行正交化处理,得到所述卷积层的正交化参数;
保持所述第一候选模块中卷积层和除最后一个批量归一化层之外的其余层、所述第二候选模块中卷积层和除最后一个批量归一化层之外的其余层、及除所述层评分模块的最后一个批量归一化层之外的其余层的参数冻结,对所述第一候选模块中最后一个批量归一化层、所述第二候选模块中最后一个批量归一化层及所述层评分模块中最后一个批量归一化层的权重进行优化,得到训练后的预设超网;
利用所述层评分模块中最后一个批量归一化层的权重,对所述第一候选模块中最后一个批量归一化层的权重进行归一化处理,得到所述第一候选模块的评分;
根据所述第二候选模块中最后一个批量归一化层的权重,确定所述第二候选模块的评分;
根据所述第一候选模块的评分及所述第二候选模块的评分从所述训练后的预设超网中确定所述图像分类模型。
在可选的实施方式中,所述对所述预设超网中所有所述卷积层的初始参数进行正交化处理,得到所述卷积层的正交化参数的步骤包括:
获取由所有所述卷积层的初始参数组成的参数矩阵;
对所述参数矩阵进行正交化,得到正交化矩阵,所述正交化矩阵的每一个的元素为所述参数矩阵中对应初始参数的卷积层的正交化参数。
在可选的实施方式中,所述预设超网包括多个层级,每一所述层级包括普通层或者还原层;
所述保持所述第一候选模块中卷积层和除最后一个批量归一化层之外的其余层、所述第二候选模块中卷积层和除最后一个批量归一化层、及除所述层评分模块的最后一个批量归一化层之外的其余层的参数冻结,对所述第一候选模块中最后一个批量归一化层、所述第二候选模块中最后一个批量归一化层及所述层评分模块中最后一个批量归一化层的权重进行优化,得到训练后的预设超网的步骤包括:
从第一个层级开始,依次从所述预设超网的每一层级中选择一个目标模块,并将所有目标模块串联起来作为待训练网络模型,每一层级中各个模块被选中的期望均满足预设期望条件;
保持所述待训练网络模型中卷积层的正交化参数冻结、并且保持除所述目标模块的最后一个批量归一化层之外的其余层的参数冻结,优化所述目标模块的最后一个批量归一化层的权重;
重复上述步骤,直至满足预设终止条件,得到所述训练后的预设超网。
在可选的实施方式中,所述利用所述层评分模块中最后一个批量归一化层的权重,对所述第一候选模块中最后一个批量归一化层的权重进行归一化处理,得到所述第一候选模块的评分的步骤包括:
获取所述第一候选模块的最后一个批量归一化层的第一权重矩阵和所述层评分模块的最后一个批量归一化层的第二权重矩阵;
计算所述第一权重矩阵中元素的一范数,得到第一权重和;
计算所述第二权重矩阵中元素之的一范数,得到第二权重和;
根据所述第一权重和及所述第二权重和,得到所述第一候选模块的评分。
在可选的实施方式中,所述根据所述第一候选模块的评分及所述第二候选模块的评分从所述训练后的预设超网中确定所述图像分类模型的步骤包括:
利用遗传算法,根据所述第一候选模块的评分及所述第二候选模块的评分从所述训练后的预设超网中确定所述图像分类模型。
在可选的实施方式中,所述第一候选模块和所述第二候选模块均还包括激活函数,所述激活函数为非线性函数。
第二方面,本发明提供一种图像分类装置,所述装置包括:
获取模块,用于获取待分类图像;
分类模块,用于利用预先训练的图像分类模型对所述待分类图像进行分类,得到分类结果;
其中,所述图像分类模型是根据第一候选模块的评分和第二候选模块的评分从训练后的预设超网中确定的;所述预设超网包括输入通道和输出通道相同的普通层和输入通道和输出通道不同的还原层;普通层包括层评分模块和第一候选模块,第一候选模块的评分是层评分模块对其最后一个批量归一化层的权重进行归一化调整得到的;还原层包括第二候选模块,第二候选模块的评分是根据其最后一个批量归一化层的权重得到的。
第三方面,本发明提供一种电子设备,包括处理器和存储器,所述存储器用于存储程序,所述处理器用于在执行所述程序时,实现前述实施方式中任一项所述的图像分类方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述实施方式中任一项所述的图像分类方法。
与现有技术相比,本发明通过在预设超网的普通层增加层评分模块,通过层评分模块对普通层的第一候选模块的最后一个批量归一化层的权重进行归一化调整,根据还原层的第二候选模块的最后一个批量归一化层的权重得到第二候选模块的评分,再通过第一候选模块的评分和第二候选模块的评分从训练后的预设超网中确定图像分类模型,由于对第一候选模块的权重进行了归一化调整,使得从预设超网中确定图像分类模型时保证搜索算法的公平性,避免了第一候选模块的随机权重造成的偏差影响,以获取较优的图像分类模型的结构,最终提高了利用图像分类模型进行图像分类的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的预设超网的示例图。
图2为本发明实施例提供的图像分类方法流程示例图。
图3为本发明实施例提供的普通层的网络结构示例图。
图4为本发明实施例提供的图像分类模型的确定方法的流程示例图。
图5为本发明实施例提供的网络1和网络2的feature map的可视化示意图。
图6为本发明实施例提供的不同初始化函数在冻结的情况下对于 feature map的方差的影响的示例图。
图7为本发明实施例提供的不同方法下搜索时间的对比示例图。
图8为本发明实施例提供的网络结构的示例图。
图9为本发明实施例提供的第2层和第3层的模块的示例图。
图10为本发明实施例提供的图像分类装置的方框示意图。
图11为本发明实施例提供的电子设备的方框示意图。
图标:10-电子设备;11-处理器;12-存储器;13-总线;100-图像分类装置;110-获取模块;120-分类模块;130-确定模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
NAS (Neural Architecture Search,神经网络架构搜索)算法旨在避免人工干预的情况下,针对特定的神经网络任务找到最优的网络结构。一种经典的做法是基于强化学习的搜索算法,其精心挑选了神经网络中几乎每一个参数,得到极其优质的网络结构,但是这种方式近 3000 GPU Days 的搜索代价很难真正应用到实际工程中。
为了降低搜索代价,目前采用较多的是基于预先涉及的搜索空间的NAS算法,这类算法更多针对搜索的优化是从一些已经很优秀的神经网络模块构成的搜索空间中选出最适合当前任务的组合,由此避免了搜索算法在一些较差的、不合理的模型参数中消耗时间,算法的搜索代价也减少至10 GPU Days。
基于预先设计的搜索空间的NAS算法统称为基于Supernet(超网)的算法。这类方法的步骤分为三步:1)训练Supernet;2)对Supernet中的结构评估,选出目标网络结构;3)训练目标网络结构。其中第一步,训练 Supernet 是将搜索空间中的各个神经网络模块结构连接成一个有向无环图,组成一个新的网络,这个新网络称为Supernet,请参照图1,图1为本发明实施例提供的预设超网的示例图,图1中,网络从结点0输入,结点3输出,图1中各个结点表示特征图(feature map)的不同状态,连接的一条边表示神经网络中各层的一个候选模块。搜索的目的就是选出一条最优路径,使得依据此路径生成的网络结构最优,最优的网络结构即为目标网络结构。
以卷积网络为例,从Supernet 网络的输入至输出会经过多层卷积网络的特征提取融合以及降采样,每层网络中的候选模块由多种预先设计的模块并行组成。Supernet的训练即是针对特定任务,优化各个候选模块的参数至最合适的状态。第二步结构评估,在各候选模块的参数优化结束后,再从每层中选择出最优的候选模块并逐层串联,以获得表达能力最出色的目标神经网络结构。第三步,再对目标神经网络结构进行训练,算法输出训练后的目标神经网络结构。
为了进一步减少搜索代价,一种改进方式是在第一步的 Supernet 的训练中,此算法只训练各层候选模块中的 Batch Normalization 层 (BN层,批量归一化层),同时固定模块中别的参数,仅利用 BN 层的表达能力作为第二步的模块评估标准。这样基于Supernet 的搜索算法对于 ImageNet 数据集进行分类的神经网络结构搜索的时间代价减少至不到 1 GPU Day。这种方式虽然减少了网络结构搜索的时间代价,但是最终得到的目标网络结构的准确性很难达到预期,发明人进行了仔细而深入的分析发现,基于Supernet的NAS算法存在的问题是:整个 Supernet的输入在经过多层神经网络层的特征提取以及融合后feature map 的变化是难以控制的,也就是说,这种方式无法保证 Supernet 中每一层神经网络中的各个候选模块的输入是一致的,因此,基于Supernet的NAS算法很难公平地横向对比的候选模块的表达能力,导致候选模块的随机权重造成的偏差,使得到目标网络结构实际上并不是较优的,故而其的准确性不高。
有鉴于此,本发明实施例提供了一种图像分类方法、装置、电子设备及存储介质,其核心创新点在于,为Supernet中的普通层引入层评分模块,利用层评分模块对普通层中的候选模块的权重进行归一化调整,避免候选模块的随机权重造成的偏差,以得到较优的目标网络结构,下面将对其进行详细描述。
请参考图2,图2为本发明实施例提供的图像分类方法流程示例图,该方法包括以下步骤:
步骤S101,获取待分类图像。
在本实施例中,待分类图像可以来自于照片、视频中截取的视频帧、或者公开图库中的图片,例如Imagenet数据集中的图片或者CIFAR数据集中的图片。
步骤S102,利用预先训练的图像分类模型对待分类图像进行分类,得到分类结果;其中,图像分类模型是根据第一候选模块的评分和第二候选模块的评分从训练后的预设超网中确定的;预设超网包括输入通道和输出通道相同的普通层和输入通道和输出通道不同的还原层;普通层包括层评分模块和第一候选模块,第一候选模块的评分是层评分模块对其最后一个批量归一化层的权重进行归一化调整得到的;还原层包括第二候选模块,第二候选模块的评分是根据其最后一个批量归一化层的权重得到的。
在本实施例中,预设超网包括多个网络层,根据每一网络层的输入通道和输出通道确定该网络层是普通层还是还原层,输入通道和输出通道相同的网络层为普通层,输入通道和输出通道不同的网络层为还原层,无论是普通层还是还原层均包括至少一个批量归一化层, 批量归一化层的作用至少有三:(1)加快收敛速度;(2)防止梯度爆炸和梯度消失;(3)防止过拟合。普通层包括第一候选模块和层评分模块,还原层包括第二候选模块,普通层和还原层均可以有多个,每一普通层的第一候选模块和每一还原层的第二候选模块均可以为一个或者多个,普通层为多个时,每一普通层均包括一个层评分模块,该层评分模块对其所属的普通层的所有第一候选模块的最后一个批量归一化层的权重的进行归一化调整。
请参照图3,图3为本发明实施例提供的普通层的网络结构示例图,图3中展示了一个普通层的网络结构示例图,其他普通层的网络结构与之类似,图3中,普通层包括多个候选模块,每一候选模块包括由一个或者多个卷积层组成的卷积块和一个批量归一化层(Block Indicator),该普通层还包括一个层评分模块,该层评分模块包括一个批量归一化层(Layer Indicator)。
本实施例提供的上述方法,对第一候选模块的权重进行了归一化调整,使得从预设超网中确定图像分类模型时保证搜索算法的公平性,避免了第一候选模块的随机权重造成的偏差,使得到的图像分类模型的结构较优,最终提高了图像分类模型的准确性,同时,在存在特别代理机制或者面向应用中的特殊需求时,能够搜索出满足特殊需求的模型的网络结构,避免了手工设计网络的复杂性。
在可选的实施方式中,本实施例还提供了一种得到图像分类模型的实现方式,请参照图4,图4为本发明实施例提供的图像分类模型的确定方法的流程示例图,该方法包括以下步骤:
步骤S111,对预设超网中所有卷积层的初始参数进行正交化处理,得到卷积层的正交化参数。
在本实施例中,第一候选模块和第二候选模块均包括至少一个卷积层,每一卷积层均设置有初始参数,本实施例提供了一种正交化的实现方式:
首先,获取由所有卷积层的初始参数组成的参数矩阵;
在本实施例中,可以使用高斯分布对卷积层的参数进行初始化,得到卷积层的初始参数。
其次,对参数矩阵进行正交化,得到正交化矩阵,正交化矩阵的每一个的元素为参数矩阵中对应初始参数的卷积层的正交化参数。
步骤S112,保持第一候选模块中卷积层和除最后一个批量归一化层之外的其余层、第二候选模块中除卷积层和最后一个批量归一化层之外的其余层、及除层评分模块的最后一个批量归一化层之外的其余层的参数冻结,对第一候选模块中最后一个批量归一化层、第二候选模块中最后一个批量归一化层及层评分模块中最后一个批量归一化层的权重进行优化,得到训练后的预设超网。
在本实施例中,第一候选模块和第二候选模块均还包括至少一个批量归一化层,评分模块包括至少一个批量归一化层,第一候选模块和第二候选模块除了批量归一化层、卷积层之外,还可以包括其他层,例如全连接层等。为了提高预设超网训练的针对性,本实施例针对实际的图像分类场景的要求获取训练样本集,利用训练样本集对预设超网进行训练,为了提高预设超网训练的效率,本实施例在训练预设超网时保持卷积层正交化后的参数冻结,除了最后一个批量归一化层之外的其余层的参数冻结,只对第一候选模块中最后一个批量归一化层、第二候选模块中最后一个批量归一化层及层评分模块中最后一个批量归一化层的权重进行优化,满足预设终止条件后,得到训练后的预设超网。
在可选的实施方式中,预设超网包括多个层级,每一层级包括普通层或者还原层;
保持第一候选模块中卷积层和除最后一个批量归一化层之外的其余层、第二候选模块中卷积层和除最后一个批量归一化层、及除层评分模块的最后一个批量归一化层之外的其余层的参数冻结,对第一候选模块中最后一个批量归一化层、第二候选模块中最后一个批量归一化层及层评分模块中最后一个批量归一化层的权重进行优化,得到训练后的预设超网的步骤包括:
从第一个层级开始,依次从预设超网的每一层级中选择一个目标模块,并将所有目标模块串联起来作为待训练网络模型,每一层级中各个模块被选中的期望均满足预设期望条件;
在本实施例中,每一层级中的各个模块被选中的期望可以通过训练总次数及各模块被选中的次数计算得到,预设期望条件可以是每一层级中各个模块被选中的期望相等、也可以是每一层级中各个模块被选中的期望之间的差值在预设范围内,预设范围可以根据实际场景需要进行设置,各个模块被选中的期望越接近,则各模块在训练过程中越公平。
保持待训练网络模型中卷积层的正交化参数冻结、并且保持除目标模块的最后一个批量归一化层之外的其余层的参数冻结,优化目标模块的最后一个批量归一化层的权重;
重复上述步骤,直至满足预设终止条件,得到训练后的预设超网。
在本实施例中,预设终止条件可以是训练次数达到预设次数,预设次数可以设置为每层的第一候选模块或者第二候选模块的数量的预设倍数,预设倍数可以设置为5。作为一种实现方式,训练预设超网时,可以采用SPOS(Single Path One Shot) 以及 FairNAS的训练方法,以最大化地避免不同模块权重相互纠缠产生的误差,同时也保证各个候选模块被选中进行优化的期望是相等的。
步骤S113,利用层评分模块中最后一个批量归一化层的权重,对第一候选模块中最后一个批量归一化层的权重进行归一化处理,得到第一候选模块的评分。
在本实施例中,第一候选模块有多个时,每一第一候选模块均有一个评分,对于任一第一候选模块,其评分的计算方式均是一样的,一种第一候选模块的评分的计算方式为:
首先,获取第一候选模块的最后一个批量归一化层的第一权重矩阵和层评分模块的最后一个批量归一化层的第二权重矩阵;
其次,计算第一权重矩阵中元素的一范数,得到第一权重和;
第三,计算第二权重矩阵中元素之的一范数,得到第二权重和;
第四,根据第一权重和及第二权重和,得到第一候选模块的评分。
在本实施例中,计算第一权重矩阵中元素的一范数可以是计算第一权重矩阵中各元素的绝对值之和,计算第二权重矩阵中元素的一范数可以是hi计算第二权重矩阵中各元素的绝对值之和,对于第 l 层的第m 个候选模块评分表示为第m个候选模块的第一权重矩阵中元素的一范数,即
Figure M_221207175449536_536715001
,其中
Figure M_221207175449631_631952002
表示候选模块中最后一个批量归一化层的第一权重矩阵中第i行第j列的元素,N为第一权重矩阵中的元素个数。而第l层中层评分模块的最后一个批量归一化层(也称BN layer indicator)的评分表示为层评分模块的最后一个批量归一化层的第二权重矩阵中元素的一范数,即
Figure M_221207175449663_663166003
Figure M_221207175449694_694426004
表示第l层的 BN layer indicator的第二权重矩阵中第i行第j列的元素。每个模块的评分表示为:
Figure F_221207175447025_025010001
,其中,
Figure F_221207175447389_389237002
表示第l层第m个第一候选模块的评分,
Figure F_221207175447483_483518003
表示第l层第m个第一候选模块的第一权重和,
Figure F_221207175447577_577241004
表示第l层的第二权重和。
例如,普通层的第一候选模块有两个:模块a和模块b,其第一权重矩阵分别为:
Figure F_221207175447658_658297005
Figure F_221207175447786_786683006
,该普通层的层评分模块的最后一个批量归一化层的第二权重矩阵为:
Figure F_221207175447880_880955007
,则模块a的第一权重和为:
s(a)=(1+2+3+4+5+6+7+8+9)=45,模块b的第一权重和为:
s(b)=(|-1|+0+1+1+1+1+1+1+1)=8,第二权重和为:
s(d)=(2+2+2+2+2+2+2+2+2)=18,则模块a的评分为:45/18,模块b的评分为8/18。
步骤S114,根据第二候选模块中最后一个批量归一化层的权重,确定第二候选模块的评分。
在本实施例中,作为一种实现方式,可以将第二候选模块中最后一个批量归一化层的权重矩阵中的所有元素的一范数作为第二候选模块的评分。
步骤S115,根据第一候选模块的评分及第二候选模块的评分从训练后的预设超网中确定图像分类模型。
在本实施例中,一种实现可以采用遗传算法确定图像分类模型,确定方式为:
利用遗传算法,根据第一候选模块的评分及第二候选模块的评分从训练后的预设超网中确定图像分类模型。
在本实施例中,首先,生成初始种群序列,每一初始种群序列的长度为图像分类模型的层数,每一初始种群序列中的每一个元素对应每一层中任一模块的评分,任一模块可以是第一候选模块或者第二候选模块,具体需视对应层是普通层还是还原层而定,初始种群序列的个数根据需要进行设置,例如,初始种群序列的个数设置为50个。其次,基于初始种群序列,按照预设交配原则和预设变异原则,繁殖出候选序列;预设交配原则为对候选序列中评分较高的预设个数的待交配序列进行交配,一种交配方式可以是:例如,待交配序列为序列a和序列b,层数为5层,用序列a前3层的候选模块替换的序列b的前3层的候选模块,生成一个候选序列,预设变异原则为用与当前模块属于同一层的其他候选模块替换当前模块;当前模块可以包括多个不同层的模块,此时,对于任一层的当前模块,用该层的除当前模块之外的其他候选模块替换该当前模块,生成一个候选序列;第三,从候选序列中按照评分从高到低选择预设个数的序列作为目标序列,候选序列的评分为候选序列中所有候选模块的评分之和;最后,将目标序列中每一层的候选模块串联,生成图像分类模型。作为一种实现方式,交配的概率可以设置为0.3,变异的概率可以设置为0.1。
在本实施例中,另一种实现方式为:选择每一层中评分最高的模块,将各层选出的模块串联起来,得到图像分类模型,同样地,对于普通层而言,为该普通层中第一候选模块中评分最高的,对于还原层而言,为该还原层中第二候选模块中评分最高的。
在可选的实施方式中,第一候选模块和第二候选模块均还包括激活函数,激活函数为非线性函数。
作为一种实现方式,由于卷积神经网络的非线性特点,激活函数的存在影响了feature map 等距地传播,而激活函数Tanh 的表达式为
Figure M_221207175449741_741305001
,其导数与原式存在关系
Figure M_221207175449789_789114002
。将其进行泰勒展开有
Figure M_221207175449867_867749003
,带入后可知
Figure M_221207175449945_945880004
。再有,卷积神经网络中所有的激活函数和线性卷积层的权重是相互独立的,那么在正交权重下 Tanh 激活函数的值不影响动态等距理论的实现,因此,采用Tanh激活函数能够避免激活函数对正交权重产生影响,最终避免了候选模块的随机权重造成的偏差影响,以得到的较优的图像分类模型的结构,最终提高了图像分类模型的准确性。
需要说明的是,本实施例中是以图像分类的应用场景为例,说明从预设超网中确定图像分类模型的过程,事实上,本实施例提供的上述方法也可以用于其他应用场景,例如,目标识别、人脸识别等,不同的是,不同应用场景使用的训练数据集及使用训练数据集的方式可以不同,但是都是能够基于本实施例提供的方法在不付出创造性劳动的情况下就可以得到的,因此,任何基于本实施例方法,为了适配具体的应用场景进行的适配性修改后的技术方案也属于本发明保护的范围。
为了增加本实施例提供的方法中冻结卷积层中的所有参数及除最后一个批量归一化层之外的其余的参数的前提下只训练最后一个批量归一化层的权重,且以最后一个批量归一化 层的权重作为当前模块表达能力的评估指标的理论支持,本实施例对NAS中的动态等距理论进行分析,分析过程如下:
Supernet网络的层数为 L,每层候选模块的数量为N,并使用n表示候选模块的索引,即第n个候选模块。本发明使用卷积神经网络模块构成搜索空间,使用 Wl 和bl 分别表示第 l 层网络中线性部分的权重和偏差,其中 l = 1,2,... ,L。激活函数表示为 σ,那么每层神经网络的前向传播过程,以及整个网络的输入输出雅可比矩阵 J 表示为:
Figure M_221207175450032_032861001
Figure M_221207175450081_081133001
其中,J表示雅可比矩阵,D表示雅可比矩阵J中的激活函数,也就是网络的非线性部分。hl代表神经网络的各层,其中的候选模块表示为
Figure M_221207175450159_159317001
。如果网络实现动态等距,那么一定存在一个“不动点”,即当网络输入张量满足均值为0,方差为 v 的高斯分布时,网络中任意时刻的 feature map 的方差恒定相同。由雅可比矩阵推导出 featuremap 的方差在网络前向传播过程中的变化为:
Figure M_221207175450208_208596001
其中, Dh 表示标准高斯测度,如果要使任意位置的 feature map 的方差保持相同,
Figure M_221207175450271_271110001
表示第l层的方差变化,使得
Figure M_221207175450317_317997002
Figure M_221207175450364_364856003
表示第l-1层的方差变化,令其表示为
Figure M_221207175450402_402433004
。如果网络的参数实现动态等距,那么 Supernet中任意位置的候选模块的输入输出方差都保持相同:
Figure M_221207175450449_449362001
将整个网络的输入输出雅可比矩阵细化至每个候选模块的输入输出雅可比矩阵:
Figure M_221207175450511_511818001
使用
Figure M_221207175450558_558688001
表示矩阵
Figure M_221207175450590_590873002
的第 i 个奇异值,奇异值数量表示为 k。并且假设这些奇异值是相互独立的,那么为了使经过每个候选模块的输入输出雅可比矩阵的feature map 的方差稳定于“不动点”附近,对于矩阵
Figure M_221207175450669_669516003
的奇异值的均方差,也转化为奇异来表示,使用 D 来表示矩阵的方差:
Figure M_221207175450716_716392001
实际上,上述公式中
Figure M_221207175450779_779839001
Figure M_221207175450827_827222002
可以分别表示为雅可比矩阵
Figure M_221207175450858_858489003
的特征值的一阶矩和二阶矩,显然,只有当
Figure M_221207175450889_889732004
时 feature map 的传播才可以位于不动点附近,同时只有当二阶矩
Figure M_221207175450921_921009005
时才可以使一阶矩的值
Figure M_221207175450967_967874006
稳定在1附近。
在分析了神经网络候选模块满足动态等距的条件的基础上,即模块输入输出雅可比矩阵的
Figure M_221207175451002_002043001
Figure M_221207175451033_033278002
1。为了初始化网络参数使得其满足此条件,我们将初始化参数矩阵设置为正交矩阵,
Figure M_221207175451064_064538003
,那么易得有
Figure M_221207175451095_095803004
= 1,
Figure M_221207175451142_142657005
表示第l层第n个候选模块的权重矩阵。
本实施例还对满足动态等距理论的 Supernet 是如何保证 feature map 是公平输入每个横向对比的候选模块的进行了分析,由于单个feature map在网络的正向传播过程中难以量化,我们通过对比两个张量正向传播过同一个卷积模块的前后余弦距离差,来证明其可行性,具体分析过程如下:
首先,为了方便计算,本实施例将输入的 feature map 进行归一化处理,均值置为0,方差表示为
Figure M_221207175451173_173917001
。那么对于网络中第l层的第n个候选模块的BN block indicator(即批量归一化层) 的传播过程表示为:
Figure M_221207175451207_207106001
其中,批量归一化层的偏置为0,
Figure M_221207175451254_254017001
表示一个正数。接着,将输入的两个随机三维张量
Figure M_221207175451269_269635002
按照卷积核的大小
Figure M_221207175451316_316499003
分块,每个块的空间大小与卷积核大小相同,通道保持不变,即
Figure M_221207175451347_347735004
其中
Figure M_221207175451398_398050005
。使用 * 表示卷积的循环矩阵乘积的操作,卷积核表示为 F ,其数量为P,使用p表示卷积核的索引其中的项,卷积的初始化权重设置为服从高斯分布,
Figure M_221207175451444_444984006
,向量内积表示为
Figure M_221207175451491_491789007
Figure M_221207175451523_523025008
表示第p个卷积核,那么经过同一个卷积模块输出后的两个张量内积的期望表示为:
Figure M_221207175451554_554305001
其中,对于最内层的卷积计算操作,本实施例使用Orlicz 范数估计其上限。Orlicz 范数表示为
Figure M_221207175451603_603226001
,其定义为
Figure M_221207175451634_634395002
,其中
Figure M_221207175451665_665645003
Figure M_221207175451712_712494004
。用
Figure M_221207175451728_728104005
表示一个非常大的正数:
Figure M_221207175451775_775002001
为了满足只有正交权重才可以实现卷积块的动态等距,为了将F实现正交,本实施例对F使用三角分解构造正交矩阵。假设F是可逆的,那么存在唯一的正定矩阵W,使得
Figure M_221207175451824_824308001
,以此
Figure M_221207175451855_855557002
为构造的正交矩阵。令
Figure M_221207175451886_886831003
表示 正定矩阵W 的对角元素,
Figure M_221207175451902_902442004
Figure M_221207175451933_933680005
分别表示
Figure M_221207175451964_964956006
Figure M_221207175451981_981525007
的对角元素,那么:
Figure M_221207175452013_013279001
其中,
Figure M_221207175452107_107019001
令,
Figure M_221207175452153_153916001
那么在使用正交初始化后,卷积操作的上限表示为:
Figure M_221207175452169_169540001
卷积后,会继续使用激活层以及批量归一化层。
Figure M_221207175452235_235937001
Figure M_221207175452267_267177001
对于激活函数的处理,本实施例假设激活函数满足Lipschitz条件,且 Lipschitz常数为
Figure M_221207175452314_314055001
。那么输出张量满足:
Figure M_221207175452345_345300001
其中
Figure M_221207175452410_410734001
,且上述公式只有参数
Figure M_221207175452441_441993002
是可训练的参数。因此根据Orlicz 范数的性质,可以计算:
Figure M_221207175452473_473226001
Figure M_221207175452520_520121001
其中 C>0 是一个常数。再有,存在一个正数 R 定义为:
Figure M_221207175452567_567020001
其中,
Figure M_221207175452630_630956001
为整数集,W为网络模块的宽度,此处为一个较大的整数。令对于同一卷积模块,两任意输入张量的期望输出与实际输出满足以下关系:
Figure M_221207175452662_662206001
其中,
Figure M_221207175452724_724711001
为一个正数,估算其成立的概率上限为:
Figure M_221207175452740_740313001
Figure M_221207175452820_820898001
Figure M_221207175452867_867756001
Figure M_221207175452930_930248001
Figure M_221207175453008_008395001
最后一步是由 Bernstein 不等式计算得来。令
Figure M_221207175453086_086514001
,c 是一个大于0 的极大的常数,另外,
Figure M_221207175453133_133397001
且 D>0 是由C和C1计算得到。K 中由于先前分析了只有参数
Figure M_221207175453164_164654001
是可训练的参数,别的都已确定。在固定了
Figure M_221207175453197_197349002
的情况下,卷积模块输出张量的余弦距离差由剩余的参数决定,且这些网络参数固定且相互独立:
Figure M_221207175453212_212985003
为方差,Q为基于激活函数的 Lipschitz 常数,R只与输入张量有关,而滤波器的数量 m 只由卷积模块的结构决定。所以唯一能决定余弦距离的是 批量归一化层的权重
Figure M_221207175453244_244227004
,并且其范数大小与任意两张量的输出距离成反比。批量归一化层的参数值越大,网络传播的张量动能越稳定,以此保证搜索算法的公平。
那么,使用正交权重初始化来实现Supernet 的动态等距是完全可以保证搜素算法的公平性。并且使用批量归一化层的参数大小作为候选卷积模块的评估准则是可行且准确的,经过训练后的批量归一化 层权重反映了卷积模块传播 feature map 的能力。网络的初始化参数满足动态等距理论后将其固定,且只优化批量归一化 层的权重,批量归一化层 的评价指标也能更深刻地反映卷积结构的特征提取能力,而避免了由于随机权重造成的偏差。
为了说明上述实施例中提供的方法得到图像分类模型的效果,本实施例设计了两个有着相同结构的5层的卷积网络,输出通道数为3,输入输出的空间大小始终保持不变。网络1满足初始权重为正交性、激活函数为 Tanh,网络2的参数为随机高斯初始化、激活函数为 ReLU。分别对两个网络进行多次的随机初始化,并且将各个位置的权重求多次初始化的平均值。在只进行正向传播的情况下,本实施例将feature map的示意图进行了可视化,可视化结果请参照图5,图5为本发明实施例提供的网络1和网络2的feature map的可视化示意图,图5中,显然,满足了动态等距理论的卷积模型网络2,传播的特征明显更加稳定,由此能够保证后续网络中每个位置的候选模块都可以获得等价的输入,以进行公平的横向对比。
本实施例在确定图像分类模型时,通过维持 feature map 的方差不变,使得Supernet中的所有候选模块都有一致性的输入,以进行公平地比较,而避免由于网络随机初始的参数对 feature map 的传播产生不必要的偏差,从而影响网络中位于较深层的卷积模块的横向比较。为了更直观地表示本实施例方法的效果,本实施例还对不同初始化函数在冻结的情况下对于 feature map 的方差的影响进行了分析,本实施例将输入网络的张量进行归一化处理,使其均值置为0,方差置为0.001。请参照图6,图6为本发明实施例提供的不同初始化函数在冻结的情况下对于 feature map 的方差的影响的示例图,方法1为对卷积网络的初始化使用 Kaimin 初始化的方差变化,方法2为对卷积网络初始化采用Xavier初始化方法后方差变化,图6中可以看出,由于本实施例采用了满足正交权重的方式,维持了方差的固定值,保证了位于网络末尾的卷积层可以获得稳定的输入,进而保证了层中各个候选模块获得的平等的输入。
由于本实施例提供的方法固定卷积参数满足正交性,在矩阵计算中速度会比普通的随机初始化参数更快。为了更直观地显示本实施例提供的方法在训练Supernet时的搜索速度,本实施例还提供了针对相同的图片分类任务,采用不同方法的搜索时间的对比示例图,请参照图7,图7为本发明实施例提供的不同方法下搜索时间的对比示例图,图7中算法1~算法8分别是:DARTS算法、PC-DARTS算法、Proxyless NAS算法、One-shot NAS算法、Singlepath one-shot NAS算法、Fair NAS算法、BNNAS算法及本发明实施例提供的算法,由图7可以看出,所以本实施例提供的方法的搜索时间最短。
为了更直观地展示搜索出的结构的性能,本实施例还基于ImageNet 数据集的图像分类任务将本实施例的方法与其他NAS算法的搜索出的结构进行了对比。
本实施例在对比实验时,各方法采用相同的Supernet的结构,神经网络中搜索空间共有 20 层卷积层,其中第 1、4、8、16层卷积层为还原层,位于这一层的所有候选模块的输出通道数是输入通道数的 0.5 倍;其余层为普通层,位于普通层内的候选模块的输出通道数和输入通道数相等。每层的候选模块分为 6 种,卷积核大小分别为 3、5、7,隐藏层的通道数量是输入通道数量3和 6 倍的 MobileNet 模块,再并联一个 BN layer indicator模块。请参照图8,图8为本发明实施例提供的网络结构的示例图,图8中,该网络结构共20层,layer1~layer20,最后一个是检测头。为了更清楚地说明每一层的搜索空间,请参照图9,图9为本发明实施例提供的第2层和第3层的模块的示例图,第2层和第3层均为普通层,因此,该普通层候选模块和层评分模块,第2层和第3层均包括3个候选模块和一个层评分模块。图9中只标识出第2层的候选模块和层评分模块,第3层与第2层类似,其中的隐藏层指的是隐藏层宽度倍数,BN block indicator为候选模块的最后一个批量归一化层,BN layerindicator为层评分模块的最后一个批量归一化层。
本实施例将不同方法搜索出的神经网络结构进行对比展示,如表1所示。
表1
浮点运算量 ( Flops ) 参数量(Parameters) T op 1 准确率(Top 1 Acc.) 数据集 (Dataset)
MobileNet V2 方法 300 M 3.4 M 72% Imagenet
ShuffleNet V2 方法 286 M 3.7 M 72.4% Imagenet
DARTS 方法 595 M 4.7 M 73.1% CIFAR
PC-DARTS 方法 597 M 5.3 M 74.9% CIFAR
Proxyless 方法 465 M 7.1 M 75.1% Imagenet
SPOS[3] 方法 323 M 3.5 M 74.4% Imagenet
FairNAS[4] 方法 388 M 4.4 M 74.7% Imagenet
BNNAS 方法 326 M 3.7 M 74.12% Imagenet
本实施例方法 468 M 4.9 M 76.22% Imagenet
由于有些算法由于设计过于复杂,很难在大型数据集 Imagenet 上实现,对于这类算法选取了 CIFAR 数据集做完成图片分类任务。由表2可以看出,本实施例提供的方法搜索后得到的网络模型在 Imagenet 图像分类任务上的 top-1 准确达到 76.22%,比所有别的方法都要好。本实施例提供的方法搜素出来的结构,在搜索空间确定的情况下,具有最高的准确率。
为了执行上述实施例及各个可能的实施方式中的相应步骤,下面给出一种图像分类装置100的实现方式。请参照图10,图10为本发明实施例提供的图像分类装置100的方框示意图。需要说明的是,本实施例所提供的图像分类装置100,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及指出。
图像分类装置100包括获取模块110、分类模块120和确定模块130。
获取模块110,用于获取待分类图像。
分类模块120,用于利用预先训练的图像分类模型对待分类图像进行分类,得到分类结果;
其中,图像分类模型是根据第一候选模块的评分和第二候选模块的评分从训练后的预设超网中确定的;预设超网包括输入通道和输出通道相同的普通层和输入通道和输出通道不同的还原层;普通层包括层评分模块和第一候选模块,第一候选模块的评分是层评分模块对其最后一个批量归一化层的权重进行归一化调整得到的;还原层包括第二候选模块,第二候选模块的评分是根据其最后一个批量归一化层的权重得到的。
在可选的实施方式中,分类模块120中,第一候选模块和第二候选模块均还包括激活函数,激活函数为非线性函数。
在可选的实施方式中,第一候选模块和第二候选模块均包括至少一个批量归一化层和至少一个卷积层,每一卷积层均设置有初始参数,层评分模块包括至少一个批量归一化层;确定模块130,用于:对预设超网中所有卷积层的初始参数进行正交化处理,得到卷积层的正交化参数;保持第一候选模块中卷积层和除最后一个批量归一化层之外的其余层的参数冻结、第二候选模块中卷积层和除最后一个批量归一化层的其余层的参数冻结、及除层评分模块的最后一个批量归一化层之外的其余层的参数冻结,对第一候选模块中最后一个批量归一化层、第二候选模块中最后一个批量归一化层及层评分模块中最后一个批量归一化层的权重进行优化,得到训练后的预设超网;利用层评分模块中最后一个批量归一化层的权重,对第一候选模块中最后一个批量归一化层的权重进行归一化处理,得到第一候选模块的评分;根据第二候选模块中最后一个批量归一化层的权重,确定第二候选模块的评分;根据第一候选模块的评分及第二候选模块的评分从训练后的预设超网中确定图像分类模型。
在可选的实施方式中,确定模块130具体还用于:获取由所有卷积层的初始参数组成的参数矩阵;对参数矩阵进行正交化,得到正交化矩阵,正交化矩阵的每一个的元素为参数矩阵中对应初始参数的卷积层的正交化参数。
在可选的实施方式中,预设超网包括多个层级,每一层级包括普通层或者还原层;确定模块130具体还用于:从第一个层级开始,依次从预设超网的每一层级中选择一个目标模块,并将所有目标模块串联起来作为待训练网络模型,每一层级中各个模块被选中的期望均满足预设期望条件;保持待训练网络模型中卷积层的正交化参数冻结、并且保持除目标模块的最后一个批量归一化层之外的其余层的参数冻结,优化目标模块的最后一个批量归一化层的权重;重复上述步骤,直至满足预设终止条件,得到训练后的预设超网。
在可选的实施方式中,确定模块130具体还用于:获取第一候选模块的最后一个批量归一化层的第一权重矩阵和层评分模块的最后一个批量归一化层的第二权重矩阵;计算第一权重矩阵中元素的一范数,得到第一权重和;计算第二权重矩阵中元素之和,得到第二权重的一范数;根据第一权重和及第二权重和,得到第一候选模块的评分。
在可选的实施方式中,确定模块130具体还用于:利用遗传算法,根据第一候选模块的评分及第二候选模块的评分从训练后的预设超网中确定图像分类模型。
本实施例还提供了一种电子设备的方框示意图,请参照图11,图11为本发明实施例提供的电子设备10的方框示意图。电子设备10包括处理器11、存储器12、总线13。处理器11、存储器12通过总线13连接。
处理器11可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器12用于存储程序,例如本发明实施例中的图像分类装置100,图像分类装置100包括至少一个可以软件或固件(firmware)的形式存储于存储器12中的软件功能模块,处理器11在接收到执行指令后,执行程序以实现本发明实施例中的图像分类方法。
存储器12可能包括高速随机存取存储器(RAM:Random Access Memory),也可能还包括非易失存储器(non-volatile memory)。可选地,存储器12可以是内置于处理器11中的存储装置,也可以是独立于处理器11的存储装置。
总线13可以是ISA总线、PCI总线或EISA总线等。图11仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的图像分类方法。
综上所述,本发明实施例提供了一种图像分类方法、装置、电子设备及存储介质,所述方法包括:获取待分类图像;利用预先训练的图像分类模型对待分类图像进行分类,得到分类结果;其中,图像分类模型是根据第一候选模块的评分和第二候选模块的评分从训练后的预设超网中确定的;预设超网包括输入通道和输出通道相同的普通层和输入通道和输出通道不同的还原层;普通层包括层评分模块和第一候选模块,第一候选模块的评分是层评分模块对其最后一个批量归一化层的权重进行归一化调整得到的;还原层包括第二候选模块,第二候选模块的评分是根据其最后一个批量归一化层的权重得到的。与现有技术相比,本发明实施例由于对第一候选模块的权重进行了归一化调整,使得从预设超网中确定图像分类模型时保证搜索算法的公平性,避免了第一候选模块的随机权重造成的偏差,以获得较优的图像分类模型的结构,进而提高了图像分类模型的准确性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种图像分类方法,其特征在于,所述方法包括:
获取待分类图像;
利用预先训练的图像分类模型对所述待分类图像进行分类,得到分类结果;
其中,所述图像分类模型是根据第一候选模块的评分和第二候选模块的评分从训练后的预设超网中确定的;所述预设超网包括输入通道和输出通道相同的普通层和输入通道和输出通道不同的还原层;普通层包括层评分模块和第一候选模块,第一候选模块的评分是层评分模块对其最后一个批量归一化层的权重进行归一化调整得到的;还原层包括第二候选模块,第二候选模块的评分是根据其最后一个批量归一化层的权重得到的,所述预设超网包括多个层级,每一所述层级包括普通层或者还原层;
所述第一候选模块和所述第二候选模块均包括至少一个批量归一化层和至少一个卷积层,每一所述卷积层均设置有初始参数,所述层评分模块包括至少一个批量归一化层;
所述图像分类模型是通过以下方式得到的:
对所述预设超网中所有所述卷积层的初始参数进行正交化处理,得到所述卷积层的正交化参数;
保持所述第一候选模块中卷积层和除最后一个批量归一化层之外的其余层、所述第二候选模块中卷积层和除最后一个批量归一化层之外的其余层、及除所述层评分模块的最后一个批量归一化层之外的其余层的参数冻结,对所述第一候选模块中最后一个批量归一化层、所述第二候选模块中最后一个批量归一化层及所述层评分模块中最后一个批量归一化层的权重进行优化,得到训练后的预设超网;
利用所述层评分模块中最后一个批量归一化层的权重,对所述第一候选模块中最后一个批量归一化层的权重进行归一化处理,得到所述第一候选模块的评分;
根据所述第二候选模块中最后一个批量归一化层的权重,确定所述第二候选模块的评分;
根据所述第一候选模块的评分及所述第二候选模块的评分从所述训练后的预设超网中确定所述图像分类模型;
所述保持所述第一候选模块中卷积层和除最后一个批量归一化层之外的其余层、所述第二候选模块中卷积层和除最后一个批量归一化层之外的其余层、及除所述层评分模块的最后一个批量归一化层之外的其余层的参数冻结,对所述第一候选模块中最后一个批量归一化层、所述第二候选模块中最后一个批量归一化层及所述层评分模块中最后一个批量归一化层的权重进行优化,得到训练后的预设超网的步骤包括:
从第一个层级开始,依次从所述预设超网的每一层级中选择一个目标模块,并将所有目标模块串联起来作为待训练网络模型,每一层级中各个模块被选中的期望均满足预设期望条件;
保持所述待训练网络模型中卷积层的正交化参数冻结、并且保持除所述目标模块的最后一个批量归一化层之外的其余层的参数冻结,优化所述目标模块的最后一个批量归一化层的权重;
重复上述从第一个层级开始,依次从所述预设超网的每一层级中选择一个目标模块,并将所有目标模块串联起来作为待训练网络模型,每一层级中各个模块被选中的期望均满足预设期望条件的步骤,直至满足预设终止条件,得到所述训练后的预设超网;
所述利用所述层评分模块中最后一个批量归一化层的权重,对所述第一候选模块中最后一个批量归一化层的权重进行归一化处理,得到所述第一候选模块的评分的步骤包括:
获取所述第一候选模块的最后一个批量归一化层的第一权重矩阵和所述层评分模块的最后一个批量归一化层的第二权重矩阵;
计算所述第一权重矩阵中元素的一范数,得到第一权重和;
计算所述第二权重矩阵中元素的一范数,得到第二权重和;
根据所述第一权重和及所述第二权重和,得到所述第一候选模块的评分。
2.如权利要求1所述的图像分类方法,其特征在于,所述对所述预设超网中所有所述卷积层的初始参数进行正交化处理,得到所述卷积层的正交化参数的步骤包括:
获取由所有所述卷积层的初始参数组成的参数矩阵;
对所述参数矩阵进行正交化,得到正交化矩阵,所述正交化矩阵的每一个的元素为所述参数矩阵中对应初始参数的卷积层的正交化参数。
3.如权利要求1所述的图像分类方法,其特征在于,所述根据所述第一候选模块的评分及所述第二候选模块的评分从所述训练后的预设超网中确定所述图像分类模型的步骤包括:
利用遗传算法,根据所述第一候选模块的评分及所述第二候选模块的评分从所述训练后的预设超网中确定所述图像分类模型。
4.如权利要求1所述的图像分类方法,其特征在于,所述第一候选模块和所述第二候选模块均还包括激活函数,所述激活函数为非线性函数。
5.一种图像分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类图像;
分类模块,用于利用预先训练的图像分类模型对所述待分类图像进行分类,得到分类结果;
其中,所述图像分类模型是根据第一候选模块的评分和第二候选模块的评分从训练后的预设超网中确定的;所述预设超网包括输入通道和输出通道相同的普通层和输入通道和输出通道不同的还原层;普通层包括层评分模块和第一候选模块,第一候选模块的评分是层评分模块对其最后一个批量归一化层的权重进行归一化调整得到的;还原层包括第二候选模块,第二候选模块的评分是根据其最后一个批量归一化层的权重得到的,所述预设超网包括多个层级,每一所述层级包括普通层或者还原层;
所述第一候选模块和所述第二候选模块均包括至少一个批量归一化层和至少一个卷积层,每一所述卷积层均设置有初始参数,所述层评分模块包括至少一个批量归一化层;
确定模块,用于:对所述预设超网中所有所述卷积层的初始参数进行正交化处理,得到所述卷积层的正交化参数;保持所述第一候选模块中卷积层和除最后一个批量归一化层之外的其余层、所述第二候选模块中卷积层和除最后一个批量归一化层之外的其余层、及除所述层评分模块的最后一个批量归一化层之外的其余层的参数冻结,对所述第一候选模块中最后一个批量归一化层、所述第二候选模块中最后一个批量归一化层及所述层评分模块中最后一个批量归一化层的权重进行优化,得到训练后的预设超网;利用所述层评分模块中最后一个批量归一化层的权重,对所述第一候选模块中最后一个批量归一化层的权重进行归一化处理,得到所述第一候选模块的评分;根据所述第二候选模块中最后一个批量归一化层的权重,确定所述第二候选模块的评分;根据所述第一候选模块的评分及所述第二候选模块的评分从所述训练后的预设超网中确定所述图像分类模型;
所述确定模块,具体用于:从第一个层级开始,依次从所述预设超网的每一层级中选择一个目标模块,并将所有目标模块串联起来作为待训练网络模型,每一层级中各个模块被选中的期望均满足预设期望条件;保持所述待训练网络模型中卷积层的正交化参数冻结、并且保持除所述目标模块的最后一个批量归一化层之外的其余层的参数冻结,优化所述目标模块的最后一个批量归一化层的权重;重复上述从第一个层级开始,依次从所述预设超网的每一层级中选择一个目标模块,并将所有目标模块串联起来作为待训练网络模型,每一层级中各个模块被选中的期望均满足预设期望条件的步骤,直至满足预设终止条件,得到所述训练后的预设超网;
所述确定模块,具体还用于:获取所述第一候选模块的最后一个批量归一化层的第一权重矩阵和所述层评分模块的最后一个批量归一化层的第二权重矩阵;计算所述第一权重矩阵中元素的一范数,得到第一权重和;计算所述第二权重矩阵中元素的一范数,得到第二权重和;根据所述第一权重和及所述第二权重和,得到所述第一候选模块的评分。
6.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储程序,所述处理器用于在执行所述程序时,实现权利要求1-4中任一项所述的图像分类方法。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的图像分类方法。
CN202211644947.7A 2022-12-21 2022-12-21 图像分类方法、装置、电子设备及存储介质 Active CN115631388B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211644947.7A CN115631388B (zh) 2022-12-21 2022-12-21 图像分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211644947.7A CN115631388B (zh) 2022-12-21 2022-12-21 图像分类方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115631388A CN115631388A (zh) 2023-01-20
CN115631388B true CN115631388B (zh) 2023-03-17

Family

ID=84910499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211644947.7A Active CN115631388B (zh) 2022-12-21 2022-12-21 图像分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115631388B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316018A (zh) * 2017-06-23 2017-11-03 中国人民解放军陆军军官学院 一种基于组合部件模型的多类典型目标识别方法
CN113221842A (zh) * 2021-06-04 2021-08-06 第六镜科技(北京)有限公司 模型训练方法、图像识别方法、装置、设备及介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8131786B1 (en) * 2009-11-23 2012-03-06 Google Inc. Training scoring models optimized for highly-ranked results
IN2014DN03386A (zh) * 2011-10-19 2015-06-05 Univ Sydney
CN107609598A (zh) * 2017-09-27 2018-01-19 武汉斗鱼网络科技有限公司 图像鉴别模型训练方法、装置及可读存储介质
CN110956613B (zh) * 2019-11-07 2023-04-07 成都傅立叶电子科技有限公司 基于图像质量的目标检测算法性能归一化评价方法及系统
US11341370B2 (en) * 2019-11-22 2022-05-24 International Business Machines Corporation Classifying images in overlapping groups of images using convolutional neural networks
CN111738355B (zh) * 2020-07-22 2020-12-01 中国人民解放军国防科技大学 注意力融合互信息的图像分类方法、装置及存储介质
CN111898683B (zh) * 2020-07-31 2023-07-28 平安科技(深圳)有限公司 基于深度学习的图像分类方法、装置及计算机设备
CN111814966A (zh) * 2020-08-24 2020-10-23 国网浙江省电力有限公司 神经网络架构搜索方法、神经网络应用方法、设备及存储介质
CN112348188B (zh) * 2020-11-13 2023-04-07 北京市商汤科技开发有限公司 模型生成方法及装置、电子设备和存储介质
CN114495243B (zh) * 2022-04-06 2022-07-05 第六镜科技(成都)有限公司 图像识别模型训练及图像识别方法、装置、电子设备
CN115115986A (zh) * 2022-06-28 2022-09-27 广州欢聚时代信息科技有限公司 视频质量评估模型生产方法及其装置、设备、介质
CN115223015B (zh) * 2022-09-16 2023-01-03 小米汽车科技有限公司 模型训练方法、图像处理方法、装置和车辆

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316018A (zh) * 2017-06-23 2017-11-03 中国人民解放军陆军军官学院 一种基于组合部件模型的多类典型目标识别方法
CN113221842A (zh) * 2021-06-04 2021-08-06 第六镜科技(北京)有限公司 模型训练方法、图像识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115631388A (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
Too et al. A comparative study of fine-tuning deep learning models for plant disease identification
US20220108546A1 (en) Object detection method and apparatus, and computer storage medium
CN109754078A (zh) 用于优化神经网络的方法
US20230153615A1 (en) Neural network distillation method and apparatus
Chen et al. Remote sensing image quality evaluation based on deep support value learning networks
Pan et al. A central-point-enhanced convolutional neural network for high-resolution remote-sensing image classification
CN108804617B (zh) 领域术语抽取方法、装置、终端设备及存储介质
CN112766279A (zh) 一种基于联合注意力机制的图像特征提取方法
CN110826379A (zh) 一种基于特征复用与YOLOv3的目标检测方法
CN112215332A (zh) 神经网络结构的搜索方法、图像处理方法和装置
CN111814842A (zh) 基于多通路图卷积神经网络的对象分类方法及装置
CN112364747B (zh) 一种有限样本下的目标检测方法
CN113642400A (zh) 基于2s-agcn的图卷积动作识别方法、装置及设备
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN114974421A (zh) 基于扩散-降噪的单细胞转录组测序数据补插方法及系统
Ouf Leguminous seeds detection based on convolutional neural networks: Comparison of faster R-CNN and YOLOv4 on a small custom dataset
Dubey et al. An efficient adaptive feature selection with deep learning model-based paddy plant leaf disease classification
WO2024078112A1 (zh) 一种舾装件智能识别方法、计算机设备
CN115631388B (zh) 图像分类方法、装置、电子设备及存储介质
Shono Application of support vector regression to CPUE analysis for southern bluefin tuna Thunnus maccoyii, and its comparison with conventional methods
CN113516019A (zh) 高光谱图像解混方法、装置及电子设备
CN117291250A (zh) 一种用于图像分割的神经网络剪枝方法
CN109886299B (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN115907775A (zh) 基于深度学习的个人征信评级方法及其应用
CN114758190A (zh) 训练图像识别模型的方法、图像识别方法、装置和农机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Luo Jianxiang

Inventor after: Liu Chuang

Inventor after: Hu Junyi

Inventor after: Liu Qianqiao

Inventor after: Zhang Yifu

Inventor before: Luo Jianxiang

Inventor before: Liu Chuang

Inventor before: Hu Junyi

Inventor before: Liu Qianqiao

Inventor before: Zhang Yifu

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20240506

Address after: 710000, 1st to 5th floors, Building 15, Qianhai Garden, Silk Road (Xi'an), No. 900 Xitai Road, High tech Zone, Xi'an City, Shaanxi Province

Patentee after: XI'AN GLASSSIX NETWORK TECHNOLOGY CO.,LTD.

Country or region after: China

Address before: No.3, 26 / F, building 3, No.88, Jitai fifth road, hi tech Zone, Chengdu, Sichuan 610000

Patentee before: GLASSSIC TECHNOLOGY (CHENGDU) Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right