CN115035389A - 基于可靠性评估和迭代学习的细粒度图像识别方法和装置 - Google Patents

基于可靠性评估和迭代学习的细粒度图像识别方法和装置 Download PDF

Info

Publication number
CN115035389A
CN115035389A CN202210953125.0A CN202210953125A CN115035389A CN 115035389 A CN115035389 A CN 115035389A CN 202210953125 A CN202210953125 A CN 202210953125A CN 115035389 A CN115035389 A CN 115035389A
Authority
CN
China
Prior art keywords
tensor
iteration
image
image data
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210953125.0A
Other languages
English (en)
Other versions
CN115035389B (zh
Inventor
余鹰
汤洪
钱进
蔡震
朱志亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202210953125.0A priority Critical patent/CN115035389B/zh
Publication of CN115035389A publication Critical patent/CN115035389A/zh
Application granted granted Critical
Publication of CN115035389B publication Critical patent/CN115035389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于可靠性评估和迭代学习的细粒度图像识别方法和装置,所述方法收集细粒度图像,构建细粒度图像数据集,改进得到PST模型;将图像数据张量输入到PST模型中前向传播,进行迭代学习训练,并反向传播更新PST模型参数;将加载模型推理所用到的图像,转换成图像数据张量;将图像数据张量和标签张量输入到PST模型进行前向传播,得到三轮迭代输出;经过SoftPLUS激活函数层处理得到证据
Figure 751814DEST_PATH_IMAGE001
;再将三轮迭代的输出经处理得到的三种证据进行相加融合,得到融合证据
Figure 164340DEST_PATH_IMAGE002
:通过计算融合证据下的不确定性,实现量化识别结果的不确定性;找出概率分配最大值索引,得到识别结果。本发明适用于智慧农业、智能交通、生态系统保护等领域。

Description

基于可靠性评估和迭代学习的细粒度图像识别方法和装置
技术领域
本发明涉及一种基于可靠性评估和迭代学习的细粒度图像识别方法和装置,属细粒度图像识别技术领域。
背景技术
细粒度图像识别也称细粒度图像分类,旨在识别同属于一种大类中不同的子类。如不同种类的鸟、不同品牌的汽车、不同科目的害虫等,其在现实生活中有着大量的应用场景,如在生态系统保护中对于生物进行监测;在智能交通中对于车辆品牌和型号进行细致统计,这可以为城市状况提供有力的数据支撑;在智慧农业中对于害虫进行识别,以便针对性用药防止其他害虫出现耐药性。由于其蕴含极大的应用价值,使得该任务成为计算机视觉和模式识别领域一个热门的研究方向。而精确又可靠的识别结果能够在实际工业和生活应用中带来极大的便利性。
细粒度图像识别的量化不确定性也是十分必要的,例如,军用无人机在自动定位敌军目标时,如果只是依靠无人机本身的识别结果去打击目标,则容易误射,误射主要是因为误判,误判就是因为识别结果是不确定的,但传统模型无法把它对于当前识别结果的不确定性告诉人,如果能告诉,则可以在不确定性大的时候请求人为介入,避免误判。
近年来,随着Transformer模型在自然语言处理领域的大规模应用,自注意力机制的特点也在逐渐被引入计算机视觉领域,已经有一些专门为视觉任务设计的Transformer模型并取得了极大的成功,如ViT、Swin Transformer等,但是现有模型和方法都只是给出最终的概率分布,却无法对当前识别结果的可靠程度进行评估,也就是说,模型只能告诉我们当前是什么,不能告诉我们有多大把握认为它识别正确。而在现实场景中,模型的识别准确性固然重要,但评估识别结果的可靠性也是非常必要的,当模型对于当前的识别结果给出可靠性评估后,再考虑需不需要人为介入,这更加符合工业应用期望。
发明内容
本发明的目的是,为了解决现有细粒度模型无法对识别结果进行可靠性评估,以及识别精准度不高的问题,提出一种基于可靠性评估和迭代学习的细粒度图像识别方法和装置。
实现本发明的技术方案如下,基于可靠性评估和迭代学习的细粒度图像识别方法,所述方法收集细粒度图像
Figure 552847DEST_PATH_IMAGE001
并给定标签
Figure 942240DEST_PATH_IMAGE002
,构建细粒度图像数据集,并基于SwinTransformer模型,改进设计得到PST模型;将图像数据张量输入到PST模型中进行前向传播,进行迭代学习训练,并反向传播更新PST模型参数;将加载模型推理所用到的图像
Figure 226591DEST_PATH_IMAGE003
,对其进行大小改变、中心裁剪、像素归一化操作,转换成图像数据张量
Figure 639118DEST_PATH_IMAGE004
;将图像数据张量
Figure 965319DEST_PATH_IMAGE004
和标签张量
Figure 146902DEST_PATH_IMAGE005
输入到PST模型中进行前向传播,从第二Stage模块、第三Stage模块、第四Stage模块后经对应MLP层分别得到第一轮迭代、第二轮迭代、第三轮迭代的输出;经过SoftPLUS层处理得到证据
Figure 664471DEST_PATH_IMAGE006
;再将三轮迭代的输出经处理得到的三种证据进行相加融合得到融合证据
Figure 564293DEST_PATH_IMAGE007
Figure 192721DEST_PATH_IMAGE008
; 其中,
Figure 228810DEST_PATH_IMAGE009
为第
Figure 854963DEST_PATH_IMAGE010
阶段的证据;
计算融合证据下的不确定性
Figure 304399DEST_PATH_IMAGE011
,其计算公式为
Figure 408622DEST_PATH_IMAGE012
;其中,C为类别数。
通过计算融合证据下的不确定性,实现量化识别结果的不确定性;遍历
Figure 128578DEST_PATH_IMAGE007
向量找出概率分配最大值索引,得到识别结果。
所述三轮迭代的输出包括第一轮迭代输出
Figure 925633DEST_PATH_IMAGE013
、第二轮迭代输出
Figure 596786DEST_PATH_IMAGE014
、第三轮迭代输出
Figure 770278DEST_PATH_IMAGE015
;其表达式如下:
Figure 843276DEST_PATH_IMAGE016
Stage1、Stage2、Stage3、Stage4分别为第一阶段、第二阶段、第三阶段、第四阶段;PE为切片嵌入;
Figure 811232DEST_PATH_IMAGE017
为图像数据张量;MLPMLP层。
所述证据
Figure 907364DEST_PATH_IMAGE006
通过SoftPLUS激活函数层处理得到:
将第一轮迭代的输出
Figure 415706DEST_PATH_IMAGE013
、第二轮迭代的输出
Figure 546473DEST_PATH_IMAGE014
和第三轮迭代的输出
Figure 249112DEST_PATH_IMAGE015
经过SoftPLUS激活函数层处理分别得到各轮输出下的证据
Figure 832540DEST_PATH_IMAGE006
,其表达式如下:
Figure 144573DEST_PATH_IMAGE018
式中,
Figure 192163DEST_PATH_IMAGE019
Figure 501922DEST_PATH_IMAGE009
为一个1×C的向量,其中C为类别数;
Figure 634963DEST_PATH_IMAGE020
为第i轮迭代的输出。
所述PST模型包括Patch Embedding模块和自注意力计算模块;自注意力计算模块由四个阶段模块组成,其中相同的Stage模块中包含相同配置的若干个block,每个block由两个连续的自注意力计算单元组成;四个阶段中的后三个阶段第二Stage模块、第三Stage模块、第四Stage模块分别接上MLP层,得到PST模型。
所述Swin Transformer模型由Images图像模块Images、补丁模块PatchPartition、Patch Embedding模块和四个阶段模块第一Stage模块、第二Stage模块、第三Stage模块、第四Stage模块组成;Images图像模块连接补丁模块Patch Partition,补丁模块Patch Partition连接Patch Embedding模块,再依次连接四个阶段模块第一Stage模块、第二Stage模块、第三Stage模块、第四Stage模块。
Images为输入进模型的图像;Patch Partition为切片划分模块,用于视觉任务的Transformer模型所必要的操作,Transformer模型输入要求的是序列,Patch Partition模块就是将图像转换为序列;Patch Embedding为切片嵌入模块,将切片映射为特定的维度,方便后续的自注意力计算;SoftPLUS是一种激活函数。
所述细粒度图像数据集D的表达式如下:
Figure 688370DEST_PATH_IMAGE021
其中,下标
Figure 91931DEST_PATH_IMAGE022
表示数据集中图像的索引号;
Figure 572591DEST_PATH_IMAGE023
为数据集中图像的数量。
Figure 927349DEST_PATH_IMAGE024
表示数据集中第i张图像,
Figure 784447DEST_PATH_IMAGE025
表示数据集中第i张图像的标签。
所述迭代学习训练步骤如下:
(1)将细粒度图像数据集
Figure 541050DEST_PATH_IMAGE026
中的图像分批取出,对某一批次图像
Figure 192611DEST_PATH_IMAGE027
,进行大小改变、随机裁剪、像素归一化操作,转换成图像数据张量
Figure 300245DEST_PATH_IMAGE028
其中,
Figure 695454DEST_PATH_IMAGE029
表示数据集某一批次中第m张图像;
Figure 244247DEST_PATH_IMAGE030
表示数据集某一批次中第m张图像的标签;下标m表示某一批次中图像的索引号,B表示批次图像数量,
Figure 884352DEST_PATH_IMAGE028
的上标1表示为第一轮迭代;并将标签
Figure 151385DEST_PATH_IMAGE002
转换成张量
Figure 147023DEST_PATH_IMAGE031
,其中
Figure 815901DEST_PATH_IMAGE031
为一个1×C的向量,其中C为类别数。
(2)将上一步得到的图像数据张量
Figure 137161DEST_PATH_IMAGE028
输入到PST模型中进行前向传播,从第二Stage模块后经对应MLP层进行输出,得到第一轮迭代的输出
Figure 625912DEST_PATH_IMAGE032
,其表达式为:
Figure 628503DEST_PATH_IMAGE033
其中,
Figure 214205DEST_PATH_IMAGE032
为一个1×C的向量,C为类别数; stage1为第一阶段;stage2为第二阶段。
(3)根据
Figure 378470DEST_PATH_IMAGE032
和标签张量
Figure 183877DEST_PATH_IMAGE031
计算交叉熵损失
Figure 724580DEST_PATH_IMAGE034
,其计算公式为:
Figure 102472DEST_PATH_IMAGE035
其中,
Figure 765534DEST_PATH_IMAGE036
为标签张量one-hot编码中第i个位置的编码值;
Figure 228876DEST_PATH_IMAGE037
为第一轮迭代的输出第i个位置的编码值;C为类别数;
然后通过损失值计算当前梯度,反向传播更新PST模型参数,至此第一轮迭代完毕;
(4)对步骤(1)中某一批次图像
Figure 635587DEST_PATH_IMAGE038
再次进行大小改变、随机裁剪、像素归一化操作,转换成图像数据张量
Figure 133564DEST_PATH_IMAGE039
其中,
Figure 701949DEST_PATH_IMAGE029
表示数据集某一批次中第m张图像;
Figure 918167DEST_PATH_IMAGE030
表示数据集某一批次中第m张图像的标签;下标m表示某一批次中图像的索引号,B表示批次图像数量;
Figure 800672DEST_PATH_IMAGE039
的上标2表示为第2轮迭代,并将标签
Figure 716938DEST_PATH_IMAGE002
转换成张量
Figure 393907DEST_PATH_IMAGE031
Figure 894158DEST_PATH_IMAGE031
为一个1×C的向量,C为类别数。
(5)将图像数据张量
Figure 580354DEST_PATH_IMAGE039
输入到PST模型中进行前向传播,从第三Stage模块后经对应MLP层进行输出,得到第二轮迭代的输出
Figure 787345DEST_PATH_IMAGE040
,其表达式为:
Figure 963111DEST_PATH_IMAGE041
其中,
Figure 888342DEST_PATH_IMAGE040
为一个1×C的向量,C为类别数;stage1为第一阶段;stage2为第二阶段;stage3为第三阶段。
(6)根据
Figure 174967DEST_PATH_IMAGE040
和标签张量
Figure 502043DEST_PATH_IMAGE031
计算交叉熵损失
Figure 786394DEST_PATH_IMAGE042
,其计算公式为:
Figure 497123DEST_PATH_IMAGE043
然后,通过损失值计算当前梯度,反向传播更新PST模型参数,至此第二轮迭代完毕。
(7)对步骤(1)中某批次图像
Figure 525122DEST_PATH_IMAGE038
再次进行大小改变、随机裁剪、像素归一化操作,转换成图像数据张量
Figure 769021DEST_PATH_IMAGE044
其中,
Figure 286590DEST_PATH_IMAGE029
表示数据集某一批次中第m张图像;
Figure 186413DEST_PATH_IMAGE030
表示数据集某一批次中第m张图像的标签;下标m表示某一批次中图像的索引号,B表示批次图像数量;
Figure 814841DEST_PATH_IMAGE044
的上标3表示为第3轮迭代,并将标签
Figure 850930DEST_PATH_IMAGE002
转换成张量
Figure 477083DEST_PATH_IMAGE031
Figure 162405DEST_PATH_IMAGE031
为一个1×C的向量,C为类别数。
(8)将图像数据张量
Figure 532206DEST_PATH_IMAGE044
输入到PST模型中进行前向传播,从第四Stage模块后经对应MLP层进行输出,得到第三轮迭代的输出
Figure 688381DEST_PATH_IMAGE045
,其公式为
Figure 547753DEST_PATH_IMAGE046
,其中
Figure 156589DEST_PATH_IMAGE045
为一个1×C的向量;C为类别数;
(9)根据
Figure 126819DEST_PATH_IMAGE045
和标签张量
Figure 137500DEST_PATH_IMAGE031
计算交叉熵损失
Figure 105456DEST_PATH_IMAGE047
,其计算公式为:
Figure 263905DEST_PATH_IMAGE048
然后通过损失值计算当前梯度,反向传播更新PST模型参数,至此第三轮迭代完毕;
(10)重复步骤(1)到步骤(9),直到模型中三个损失值趋近于0并保持基本恒定时,停止训练模型,保存当前模型权重
Figure 975509DEST_PATH_IMAGE049
模型权重
Figure 106276DEST_PATH_IMAGE049
指PST的参数,例如y=ax,这里x就是输入图像,y就是识别结果,a就是权重,任何图像都有唯一对应的结果;保存模型权重是为了不必在使用的时候训练模型。
所述进行大小改变、随机裁剪、像素归一化操作,指神经网络训练中对图像处理的常规操作;所述大小改变是为了将图像设定为固定大小,以便让神经网络输出维度统一;所述随机裁剪是为了防止训练出现过拟合;所述像素归一化是为了让图像特征值在一个特定的小范围,利于网络优化。
迭代学习作为一种思想,主要应用在样本生成任务中,在图像识别等领域应用很少;常规的迭代方法一般会往模型添加网络层,而本发明的迭代方法是通过控制网络参数更新范围来实现迭代学习。
本发明的有益效果是,本发明在通过设计迭代学习策略,保证了模型的精度,同时规避了现有两大类模型(基于定位再识别的方法的模型和基于高阶特征编码方法的模型)所存在的缺点,通过迭代学习,网络可以更容易优化,辅以设计的网络可以保证模型的准确性;引入迭代学习也对模型的要求进一步降低,可以设计出更利于端到端部署的模型,有利于更快更容易应用到现实场景。
通过量化识别结果的不确定性,能够保证模型的可靠性,在应用中可以考虑到是否需要人为介入,保证了安全性,达到了评估识别可靠性的目的,适用于智慧农业、智能交通、生态系统保护等领域。
本发明可以用于生物多样性保护等领域,例如野外有很多鸟类监测设备,目的是发现和监测鸟类,如果一些鸟类是稀有保护动物,一般设备内集成的识别模型很容易把它们当成是普通鸟类,现有模型不管对错(没有量化不确定性),都会强行给出一个识别结果,无法给出当前判断的一个把握,本发明就能较好的解决这一问题。
附图说明
图1为PST模型图;
图2为PST模型训练流程图;
图3为PST模型推理流程图;
图4为PST模型装置云端部署图。
具体实施方式
本发明的具体实施方式如下。
本实施例一种基于可靠性评估和迭代学习的细粒度图像识别方法,步骤如下:
1、收集细粒度图像
Figure 808915DEST_PATH_IMAGE001
并给定标签
Figure 126764DEST_PATH_IMAGE002
,构建细粒度图像数据集
Figure 704376DEST_PATH_IMAGE021
,式中,下标
Figure 689649DEST_PATH_IMAGE010
表示数据集中图像的索引号,
Figure 999408DEST_PATH_IMAGE023
为数据集中图像的数量;
Figure 866870DEST_PATH_IMAGE024
表示数据集中第i张图像,
Figure 920276DEST_PATH_IMAGE025
表示数据集中第i张图像的标签。
2、基于Swin Transformer模型,保留Patch Embedding模块(简称PE),然后将第二Stage模块、第三Stage模块、第四Stage模块分别接上MLP层,改进得到PST模型。
3、将细粒度图像数据集
Figure 760056DEST_PATH_IMAGE026
中的图像分批取出,对某一批次图像
Figure 303033DEST_PATH_IMAGE027
进行大小改变、随机裁剪、像素归一化操作,转换成图像数据张量
Figure 861054DEST_PATH_IMAGE028
其中,
Figure 16354DEST_PATH_IMAGE029
表示数据集某一批次中第m张图像;
Figure 976219DEST_PATH_IMAGE030
表示数据集某一批次中第m张图像的标签;下标m表示某一批次中图像的索引号,B表示批次图像数量;
Figure 627781DEST_PATH_IMAGE028
的上标1表示为第1轮迭代,并将标签
Figure 469835DEST_PATH_IMAGE002
转换成张量
Figure 865044DEST_PATH_IMAGE031
Figure 679416DEST_PATH_IMAGE031
为一个1×C的向量,C为类别数。
4、将上一步骤得到的图像数据张量
Figure 564196DEST_PATH_IMAGE028
输入到PST模型中进行前向传播,从第二Stage模块后经对应MLP层,得到第一轮迭代的输出
Figure 831229DEST_PATH_IMAGE032
,其表达式为:
Figure 92446DEST_PATH_IMAGE033
其中
Figure 761325DEST_PATH_IMAGE032
为一个1×C的向量,C为类别数;stage1为第一阶段;stage2为第二阶段。
5、根据
Figure 754688DEST_PATH_IMAGE032
和标签张量
Figure 72800DEST_PATH_IMAGE031
计算交叉熵损失
Figure 75391DEST_PATH_IMAGE034
,其计算公式为:
Figure 598776DEST_PATH_IMAGE035
其中,
Figure 825358DEST_PATH_IMAGE036
为标签张量one-hot编码中第i个位置的编码值;
Figure 66983DEST_PATH_IMAGE037
为第一轮迭代的输出中第i个位置的编码值;C为类别数;
然后通过损失值计算当前梯度,反向传播更新PST模型参数,至此第一轮迭代完毕。
6、对步骤3中某批次图像
Figure 670003DEST_PATH_IMAGE027
再次进行大小改变、随机裁剪、像素归一化操作,转换成图像数据张量
Figure 47895DEST_PATH_IMAGE039
其中,
Figure 648640DEST_PATH_IMAGE029
表示数据集一批次中第m张图像;
Figure 174300DEST_PATH_IMAGE030
表示数据集某一批次中第m张图像的标签;下标m表示某一批次中图像的索引号,B表示批次图像数量;
Figure 518693DEST_PATH_IMAGE039
的上标2表示为第2轮迭代,并将标签
Figure 326592DEST_PATH_IMAGE002
转换成张量
Figure 98239DEST_PATH_IMAGE031
Figure 48877DEST_PATH_IMAGE031
为一个1×C的向量,C为类别数。
7、将图像数据张量
Figure 993700DEST_PATH_IMAGE039
输入到PST模型中进行前向传播,从第三Stage模块后经对应MLP层,得到第二轮迭代的输出
Figure 346183DEST_PATH_IMAGE040
,其表达式式为:
Figure 351049DEST_PATH_IMAGE041
其中,
Figure 788983DEST_PATH_IMAGE040
为一个1×C的向量,C为类别数;stage1为第一阶段;stage2为第二阶段;stage3为第三阶段。
8、根据
Figure 475179DEST_PATH_IMAGE040
和标签张量
Figure 744487DEST_PATH_IMAGE031
计算交叉熵损失
Figure 857936DEST_PATH_IMAGE042
,其计算公式为:
Figure 346949DEST_PATH_IMAGE043
其中,
Figure 571257DEST_PATH_IMAGE036
为标签张量one-hot编码中第i个位置的编码值;
Figure 898333DEST_PATH_IMAGE050
为第二轮迭代的输出中第i个位置的编码值;C为类别数;
然后通过损失值计算当前梯度,反向传播更新PST模型参数,至此第二轮迭代完毕。
9、对步骤3中某批次图像
Figure 979421DEST_PATH_IMAGE027
再次进行大小改变、随机裁剪、像素归一化操作,转换成图像数据张量
Figure 391948DEST_PATH_IMAGE044
其中,
Figure 482264DEST_PATH_IMAGE029
表示数据集某一批次中第m张图像;
Figure 663846DEST_PATH_IMAGE030
表示数据集某一批次中第m张图像的标签;下标m表示某一批次中图像的索引号,B表示批次图像数量;
Figure 119099DEST_PATH_IMAGE044
的上标3表示为第3轮迭代,并将标签
Figure 815659DEST_PATH_IMAGE002
转换成张量
Figure 381770DEST_PATH_IMAGE031
Figure 683438DEST_PATH_IMAGE031
为一个1×C的向量,C为类别数。
10、将图像数据张量
Figure 873373DEST_PATH_IMAGE044
输入到PST模型中进行前向传播,从第四Stage模块后经对应MLP层,得到第三轮迭代的输出
Figure 994913DEST_PATH_IMAGE045
,其表达式为:
Figure 427031DEST_PATH_IMAGE046
其中,
Figure 583206DEST_PATH_IMAGE045
为一个1×C的向量,C为类别数;stage1为第一阶段;stage2为第二阶段;stage3为第三阶段;stage4为第四阶段。
11、根据
Figure 380261DEST_PATH_IMAGE045
和标签张量
Figure 51414DEST_PATH_IMAGE031
计算交叉熵损失
Figure 959327DEST_PATH_IMAGE047
,其计算公式为:
Figure 970008DEST_PATH_IMAGE048
其中,
Figure 281DEST_PATH_IMAGE036
为标签张量one-hot编码中第i个位置的编码值;
Figure 96413DEST_PATH_IMAGE051
为第三轮迭代的输出中第i个位置的编码值;C为类别数;
然后通过损失值计算当前梯度,反向传播更新PST模型参数,至此第三轮迭代完毕。
12、重复步骤3到步骤11,直到模型中三个损失值趋近于0并保持基本恒定时,停止训练模型,保存当前模型权重
Figure 371799DEST_PATH_IMAGE049
13、加载模型推理所用到的图像
Figure 236987DEST_PATH_IMAGE052
,对其进行大小改变、中心裁剪、像素归一化等操作,转换成图像数据张量
Figure 375844DEST_PATH_IMAGE017
14、将图像数据张量
Figure 21589DEST_PATH_IMAGE017
和标签张量
Figure 536884DEST_PATH_IMAGE053
输入到PST模型中进行前向传播,从第二Stage模块、第三Stage模块、第四Stage模块后经对应MLP层,得到第一轮迭代、第二轮迭代、第三轮迭代的输出
Figure 318895DEST_PATH_IMAGE013
Figure 628654DEST_PATH_IMAGE014
Figure 699378DEST_PATH_IMAGE015
,其公式为:
Figure 815101DEST_PATH_IMAGE016
15、将上一步所得的
Figure 654881DEST_PATH_IMAGE013
Figure 135541DEST_PATH_IMAGE014
Figure 257343DEST_PATH_IMAGE015
经过SoftPLUS激活函数层处理得到证据
Figure 848862DEST_PATH_IMAGE006
,其公式为:
Figure 543148DEST_PATH_IMAGE018
其中,
Figure 522606DEST_PATH_IMAGE019
Figure 302343DEST_PATH_IMAGE009
为一个1×C的向量,其中C为类别数;
16、再将三种证据进行相加融合得到融合证据
Figure 759869DEST_PATH_IMAGE054
,其计算公式为:
Figure 574241DEST_PATH_IMAGE008
17、计算融合证据下的不确定性
Figure 396704DEST_PATH_IMAGE055
,其计算公式为:
Figure 726054DEST_PATH_IMAGE012
18、遍历
Figure 924954DEST_PATH_IMAGE054
向量找出概率分配最大值索引,得到识别结果;
19、输出识别结果和不确定性。
本实施例一种实现基于可靠性评估和迭代学习的细粒度图像识别方法的装置,所述装置为一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现基于可靠性评估和迭代学习的细粒度图像识别方法的步骤1-19所有程序。
图1为PST模型图,改进自Swin Transformer(一种基于Transformer用于特征提取的网络),网络部分包括切片嵌入模块(作用是将图像分块和编码)、自注意力计算模块由4个Stage模块组成,其中相同Stage模块中包含相同配置的若干个block,每个block由两个连续的自注意力计算单元组成、MLP为多层感知器层,其作用是对不同Stage所得到的特征进行处理并输出结果;PST模型各部分输入输出维度以一张三通道彩色图所示:
第一,网络的输入就是
Figure 157614DEST_PATH_IMAGE056
Figure 150978DEST_PATH_IMAGE057
Figure 905308DEST_PATH_IMAGE058
分别表示图像的长宽,3表示图像的通道数。
第二,切片嵌入模块对图像进行分块,每
Figure 704636DEST_PATH_IMAGE059
个像素区域为一个块,三个通道共得到
Figure 228022DEST_PATH_IMAGE060
个块,然后对这些块进行编码得到
Figure 657866DEST_PATH_IMAGE061
维的向量,这个向量就作为切片嵌入模块的输出,也作为Stage1的输入。
第三,第一Stage模块中的block接受切片嵌入模块得到的向量,然后根据流程进行自注意力计算,重复这个block两次,输出的向量维度为
Figure 961808DEST_PATH_IMAGE061
,这个向量就作为第一Stage模块的输出,也作为第二Stage模块的输入。
第四,第二Stage模块首先接受第一Stage模块输出的向量,然后进行下采样(具体操作为从上至下,从左至右每隔一个块进行合并)得到
Figure 236932DEST_PATH_IMAGE062
维向量,然后根据流程进行自注意力计算,重复这个block两次,输出的向量维度为
Figure 506501DEST_PATH_IMAGE062
,这个向量就作为第二Stage模块的输出,也作为第三Stage模块的输入,并且将第二Stage模块的输出输入进该阶段的MLP层,得到一个
Figure 841668DEST_PATH_IMAGE063
的向量(此部分详细描述见技术方案中步骤4)。
第五,第三Stage模块跟第二Stage模块除了输入输出维度不一样,block重复次数由两次变为6次,其余都跟第三步一致不再重复赘述。
第六,第四Stage模块跟第二Stage模块除了输入输出维度不一样,其余都一致不再重复赘述。
图2为PST模型训练流程图,图2展示了该模型的训练流程,以一个批次的训练数据为例,首先第一步,图像会经过切片嵌入模块经过第一Stage模块、第二Stage模块、MLP层之后,使用输出结果和标签计算损失,进行反向传播。第二步,图像会经过切片嵌入模块经过第一Stage模块、第二Stage模块、第三Stage模块、MLP层之后,使用输出结果和标签计算损失,进行反向传播。第三步,图像会经过切片嵌入模块经过第一Stage模块、第二Stage模块、第三Stage模块、第四Stage模块、MLP层之后,使用输出结果和标签计算损失,进行反向传播。然后重复第一步到第三步直到数据集中所有批次图像训练完成(这种训练方法称为迭代学习训练法),然后再进行多轮训练。
图3所示为PST模型的推理流程,以一个批次的推理数据为例,首先,图像经过切片嵌入模块、第一Stage模块、第二Stage模块、第三Stage模块,第四Stage模块、三个MLP层之后得到三个输出结果,将三个输出结果使用SoftPLUS激活函数处理。
SoftPLUS的计算公式为:
Figure 570589DEST_PATH_IMAGE064
,将处理后的三个结果使用本实施例细粒度图像识别方法步骤16,步骤17进行进一步计算,最后得到识别结果和不确定性值。
图4所示为PST模型装置云端部署图,PST模型的输入为图像,输出为识别结果和不确定性。将PST模型部署至可访问的云端并开放接口,然后用户可以通过手机或电脑等联网设备向云端传输图像数据,云端会返回识别结果以及不确定性值。

Claims (3)

1.一种基于可靠性评估和迭代学习的细粒度图像识别方法,其特征在于,所述方法收集细粒度图像
Figure 56133DEST_PATH_IMAGE001
并给定标签
Figure 973274DEST_PATH_IMAGE002
,构建细粒度图像数据集,并基于Swin Transformer网络模型,改进设计得到PST模型;将图像数据张量输入到PST模型中进行前向传播,进行迭代学习训练,并反向传播更新PST模型参数;将加载模型推理所用到的图像
Figure 815328DEST_PATH_IMAGE003
,对其进行大小改变、中心裁剪、像素归一化操作,转换成图像数据张量
Figure 272854DEST_PATH_IMAGE004
;将图像数据张量
Figure 149543DEST_PATH_IMAGE004
和标签张量
Figure 972006DEST_PATH_IMAGE005
输入到PST模型中进行前向传播,从第二Stage模块、第三Stage模块、第四Stage模块后经对应MLP层分别得到第一轮迭代、第二轮迭代、第三轮迭代的输出;经过SoftPLUS层处理得到证据
Figure 802821DEST_PATH_IMAGE006
;再将三轮迭代的输出经处理得到的三种证据进行相加融合得到融合证据
Figure 1721DEST_PATH_IMAGE007
:计算融合证据下的不确定性
Figure 732917DEST_PATH_IMAGE008
;通过计算融合证据下的不确定性,实现量化识别结果的不确定性;遍历
Figure 726280DEST_PATH_IMAGE007
向量找出概率分配最大值索引,得到识别结果。
2.根据权利要求1所述的基于可靠性评估和迭代学习的细粒度图像识别方法,其特征在于,方法步骤如下:
S1、收集细粒度图像
Figure 542927DEST_PATH_IMAGE001
并给定标签
Figure 279938DEST_PATH_IMAGE002
,构建细粒度图像数据集
Figure 865641DEST_PATH_IMAGE009
,式中,下标
Figure 295485DEST_PATH_IMAGE010
表示数据集中图像的索引号,
Figure 100892DEST_PATH_IMAGE011
为数据集中图像的数量;
Figure 376016DEST_PATH_IMAGE012
表示数据集中第i张图像,
Figure 81804DEST_PATH_IMAGE013
表示数据集中第i张图像的标签;
S2、基于Swin Transformer模型,保留Patch Embedding模块,然后将第二Stage模块、第三Stage模块和第四Stage模块分别接上MLP层,改进设计得到PST模型;
S3、将细粒度图像数据集
Figure 416970DEST_PATH_IMAGE014
中的图像分批取出,对某一批次图像
Figure 145891DEST_PATH_IMAGE015
进行大小改变、随机裁剪、像素归一化操作,转换成图像数据张量
Figure 287023DEST_PATH_IMAGE016
其中,
Figure 785000DEST_PATH_IMAGE017
表示数据集某一批次中第m张图像;
Figure 618964DEST_PATH_IMAGE018
表示数据集某一批次中第m张图像的标签;下标m表示某一批次中图像的索引号,B表示批次图像数量;
Figure 569603DEST_PATH_IMAGE016
的上标1表示为第1轮迭代,并将标签
Figure 15890DEST_PATH_IMAGE002
转换成张量
Figure 368374DEST_PATH_IMAGE019
Figure 310922DEST_PATH_IMAGE019
为一个1×C的向量,C为类别数;
S4、将上一步骤S1得到的图像数据张量
Figure 811173DEST_PATH_IMAGE016
输入到PST模型中进行前向传播,从第二Stage模块后经对应MLP层进行输出,得到第一轮迭代的输出
Figure 231790DEST_PATH_IMAGE020
,其表达式为:
Figure 704360DEST_PATH_IMAGE021
其中,
Figure 880126DEST_PATH_IMAGE020
为一个1×C的向量,C为类别数;stage1为第一阶段;stage2为第二阶段;
Figure 805357DEST_PATH_IMAGE022
为切片嵌入;
S5、根据
Figure 91982DEST_PATH_IMAGE020
和标签张量
Figure 153479DEST_PATH_IMAGE019
计算交叉熵损失
Figure 437830DEST_PATH_IMAGE023
,其计算公式为:
Figure 414138DEST_PATH_IMAGE024
其中,
Figure 442137DEST_PATH_IMAGE025
为标签张量one-hot编码中第i个位置的编码值;
Figure 623720DEST_PATH_IMAGE026
为第一轮迭代的输出中第i个位置的编码值;C为类别数;
然后通过损失值计算当前梯度,反向传播更新PST模型参数,至此第一轮迭代完毕;
S6、对S3中某批次图像
Figure 875709DEST_PATH_IMAGE027
再次进行大小改变、随机裁剪、像素归一化操作,转换成图像数据张量
Figure 775532DEST_PATH_IMAGE028
其中,
Figure 341643DEST_PATH_IMAGE017
表示数据集某一批次中第m张图像;
Figure 705628DEST_PATH_IMAGE018
表示数据集某一批次中第m张图像的标签;下标m表示某一批次中图像的索引号,B表示批次图像数量;
Figure 66202DEST_PATH_IMAGE028
的上标2表示为第2轮迭代,并将标签
Figure 515638DEST_PATH_IMAGE002
转换成张量
Figure 885440DEST_PATH_IMAGE019
Figure 776035DEST_PATH_IMAGE019
为一个1×C的向量,C为类别数;
S7、将图像数据张量
Figure 148590DEST_PATH_IMAGE028
输入到PST模型中进行前向传播,从第三Stage模块后经对应MLP层进行输出,得到第二轮迭代的输出
Figure 757426DEST_PATH_IMAGE029
,其表达式为:
Figure 930919DEST_PATH_IMAGE030
其中,
Figure 3917DEST_PATH_IMAGE029
为一个1×C的向量,C为类别数;stage1为第一阶段;stage2为第二阶段;stage3为第三阶段;
S8、根据
Figure 971873DEST_PATH_IMAGE029
和标签张量
Figure 68005DEST_PATH_IMAGE019
计算交叉熵损失
Figure 841926DEST_PATH_IMAGE031
,其计算公式为:
Figure 707114DEST_PATH_IMAGE032
其中,
Figure 845971DEST_PATH_IMAGE025
为标签张量one-hot编码中第i个位置的编码值;
Figure 491716DEST_PATH_IMAGE033
为第二轮迭代的输出中第i个位置的编码值;C为类别数;
然后通过损失值计算当前梯度,反向传播更新PST模型参数,至此第二轮迭代完毕;
S9、对S3中某批次图像
Figure 741432DEST_PATH_IMAGE027
再次进行大小改变、随机裁剪、像素归一化操作,转换成图像数据张量
Figure 290487DEST_PATH_IMAGE034
其中,
Figure 600246DEST_PATH_IMAGE017
表示数据集某一批次中第m张图像;
Figure 670970DEST_PATH_IMAGE018
表示数据集某一批次中第m张图像的标签;下标m表示某一批次中图像的索引号,B表示批次图像数量;
Figure 786693DEST_PATH_IMAGE034
的上标3表示为第3轮迭代,并将标签
Figure 626473DEST_PATH_IMAGE002
转换成张量
Figure 107133DEST_PATH_IMAGE019
Figure 461891DEST_PATH_IMAGE019
为一个1×C的向量,C为类别数;
S10、将图像数据张量
Figure 318989DEST_PATH_IMAGE034
输入到PST模型中进行前向传播,从第四Stage模块后经对应MLP层进行输出,得到第三轮迭代的输出
Figure 75592DEST_PATH_IMAGE035
,其表达式为:
Figure 727153DEST_PATH_IMAGE036
其中,
Figure 772470DEST_PATH_IMAGE035
为一个1×C的向量,C为类别数;stage1为第一阶段;stage2为第二阶段;stage3为第三阶段;stage4为第四阶段;
S11、根据
Figure 731461DEST_PATH_IMAGE035
和标签张量
Figure 280254DEST_PATH_IMAGE019
计算交叉熵损失
Figure 368296DEST_PATH_IMAGE037
,其计算公式为:
Figure 697646DEST_PATH_IMAGE038
其中,
Figure 896546DEST_PATH_IMAGE025
为标签张量one-hot编码中第i个位置的编码值;
Figure 362162DEST_PATH_IMAGE039
为第三轮迭代的输出中第i个位置的编码值;C为类别数;
然后通过损失值计算当前梯度,反向传播更新PST模型参数,至此第三轮迭代完毕;
S12、重复S3到S11,直到模型中三个损失值趋近于0并保持基本恒定时,停止训练模型,保存当前模型权重
Figure 621105DEST_PATH_IMAGE040
S13、加载模型推理所用到的图像
Figure 375435DEST_PATH_IMAGE041
,对其进行大小改变、中心裁剪、像素归一化操作,转换成图像数据张量
Figure 174763DEST_PATH_IMAGE042
S14、将图像数据张量
Figure 698149DEST_PATH_IMAGE042
和标签张量
Figure 127993DEST_PATH_IMAGE043
输入到PST模型中进行前向传播,从第二Stage模块、第三Stage模块、第四Stage模块经对应MLP层,得到第一轮迭代的输出
Figure 667821DEST_PATH_IMAGE044
、第二轮迭代的输出
Figure 208524DEST_PATH_IMAGE045
和第三轮迭代的输出
Figure 914312DEST_PATH_IMAGE046
,其表达式分别为:
Figure 249478DEST_PATH_IMAGE047
S15、将上一步S14所得的
Figure 978400DEST_PATH_IMAGE044
Figure 119531DEST_PATH_IMAGE045
Figure 617508DEST_PATH_IMAGE046
经过SoftPLUS激活函数层处理得到证据
Figure 123576DEST_PATH_IMAGE006
,其公式为:
Figure 402111DEST_PATH_IMAGE048
其中,
Figure 284616DEST_PATH_IMAGE049
Figure 200882DEST_PATH_IMAGE050
为一个1×C的向量,其中C为类别数;
Figure 143430DEST_PATH_IMAGE051
为第i轮迭代的输出;
S16、再将三种证据进行相加融合得到融合证据
Figure 581364DEST_PATH_IMAGE052
,其计算公式为:
Figure 64298DEST_PATH_IMAGE053
S17、计算融合证据下的不确定性
Figure 536868DEST_PATH_IMAGE054
,其计算公式为:
Figure 384738DEST_PATH_IMAGE055
S18、遍历
Figure 372286DEST_PATH_IMAGE052
向量找出概率分配最大值索引,得到识别结果;
S19、输出识别结果和不确定性。
3.一种实现如权利要求1-2任一项所述基于可靠性评估和迭代学习的细粒度图像识别方法的装置,所述装置为一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要 求1和2任一项所述基于可靠性评估和迭代学习的细粒度图像识别的方法。
CN202210953125.0A 2022-08-10 2022-08-10 基于可靠性评估和迭代学习的细粒度图像识别方法和装置 Active CN115035389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210953125.0A CN115035389B (zh) 2022-08-10 2022-08-10 基于可靠性评估和迭代学习的细粒度图像识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210953125.0A CN115035389B (zh) 2022-08-10 2022-08-10 基于可靠性评估和迭代学习的细粒度图像识别方法和装置

Publications (2)

Publication Number Publication Date
CN115035389A true CN115035389A (zh) 2022-09-09
CN115035389B CN115035389B (zh) 2022-10-25

Family

ID=83131286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210953125.0A Active CN115035389B (zh) 2022-08-10 2022-08-10 基于可靠性评估和迭代学习的细粒度图像识别方法和装置

Country Status (1)

Country Link
CN (1) CN115035389B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830402A (zh) * 2023-02-21 2023-03-21 华东交通大学 一种细粒度图像识别分类模型训练方法、装置及设备
CN117853875A (zh) * 2024-03-04 2024-04-09 华东交通大学 一种细粒度图像识别方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160132750A1 (en) * 2014-11-07 2016-05-12 Adobe Systems Incorporated Local feature representation for image recognition
CN110929802A (zh) * 2019-12-03 2020-03-27 北京迈格威科技有限公司 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN111985572A (zh) * 2020-08-27 2020-11-24 中国科学院自动化研究所 基于特征比较的通道注意力机制的细粒度图像识别方法
CN113128593A (zh) * 2021-04-20 2021-07-16 南京林业大学 一种基于双线性卷积神经网络的植物细粒度识别方法
CN113159067A (zh) * 2021-04-13 2021-07-23 北京工商大学 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN114119979A (zh) * 2021-12-06 2022-03-01 西安电子科技大学 基于分割掩码和自注意神经网络的细粒度图像分类方法
CN114299343A (zh) * 2021-12-31 2022-04-08 中山大学 一种多粒度信息融合细粒度图像分类方法及系统
CN114417048A (zh) * 2022-01-17 2022-04-29 中国计量大学 基于图像语义引导的缺少定位设备的无人机定位方法
CN114463676A (zh) * 2022-01-19 2022-05-10 北京工业大学 一种基于隐式表达的安全帽配戴检测方法
CN114626476A (zh) * 2022-03-21 2022-06-14 北京信息科技大学 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置
CN114648667A (zh) * 2022-03-31 2022-06-21 北京工业大学 一种基于轻量化双线性cnn模型的鸟类图像细粒度识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160132750A1 (en) * 2014-11-07 2016-05-12 Adobe Systems Incorporated Local feature representation for image recognition
CN110929802A (zh) * 2019-12-03 2020-03-27 北京迈格威科技有限公司 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN111985572A (zh) * 2020-08-27 2020-11-24 中国科学院自动化研究所 基于特征比较的通道注意力机制的细粒度图像识别方法
CN113159067A (zh) * 2021-04-13 2021-07-23 北京工商大学 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN113128593A (zh) * 2021-04-20 2021-07-16 南京林业大学 一种基于双线性卷积神经网络的植物细粒度识别方法
CN114119979A (zh) * 2021-12-06 2022-03-01 西安电子科技大学 基于分割掩码和自注意神经网络的细粒度图像分类方法
CN114299343A (zh) * 2021-12-31 2022-04-08 中山大学 一种多粒度信息融合细粒度图像分类方法及系统
CN114417048A (zh) * 2022-01-17 2022-04-29 中国计量大学 基于图像语义引导的缺少定位设备的无人机定位方法
CN114463676A (zh) * 2022-01-19 2022-05-10 北京工业大学 一种基于隐式表达的安全帽配戴检测方法
CN114626476A (zh) * 2022-03-21 2022-06-14 北京信息科技大学 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置
CN114648667A (zh) * 2022-03-31 2022-06-21 北京工业大学 一种基于轻量化双线性cnn模型的鸟类图像细粒度识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANQIU CHEN 等: "Weakly Supervised Leaming of Discriminative Features for Fine-Grained Visual Categorization", 《2020 INTERNATIONAL CONFERENCE ON BIG DATA, ARTIFICIAL INTELLIGENCE AND INTERNET OF THINGS ENGINEERING (ICBAIE)》 *
余鹰 等: "基于改进卷积神经网络的多标记分类算法", 《智能系统学报》 *
贺南南 等: "多层次细粒度特征三分支网络行人重识别方法", 《太原科技大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830402A (zh) * 2023-02-21 2023-03-21 华东交通大学 一种细粒度图像识别分类模型训练方法、装置及设备
CN115830402B (zh) * 2023-02-21 2023-09-12 华东交通大学 一种细粒度图像识别分类模型训练方法、装置及设备
CN117853875A (zh) * 2024-03-04 2024-04-09 华东交通大学 一种细粒度图像识别方法及系统
CN117853875B (zh) * 2024-03-04 2024-05-14 华东交通大学 一种细粒度图像识别方法及系统

Also Published As

Publication number Publication date
CN115035389B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN115035389B (zh) 基于可靠性评估和迭代学习的细粒度图像识别方法和装置
CN111291183B (zh) 利用文本分类模型进行分类预测的方法及装置
CN109117781B (zh) 多属性识别模型的建立方法、装置及多属性识别方法
CN112183577A (zh) 一种半监督学习模型的训练方法、图像处理方法及设备
CN110210515B (zh) 一种图像数据多标签分类方法
CN111507378A (zh) 训练图像处理模型的方法和装置
CN112446476A (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN113011575A (zh) 神经网络模型更新方法、图像处理方法及装置
US9798972B2 (en) Feature extraction using a neurosynaptic system for object classification
CN113570029A (zh) 获取神经网络模型的方法、图像处理方法及装置
CN105447569A (zh) 一种基于深度学习的乳腺癌细胞特征分析系统
CN112561027A (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
CN113569672B (zh) 轻量级目标检测与故障识别方法、装置及系统
CN111783713B (zh) 基于关系原型网络的弱监督时序行为定位方法及装置
CN111738436A (zh) 一种模型蒸馏方法、装置、电子设备及存储介质
CN110222718B (zh) 图像处理的方法及装置
CN111797970B (zh) 训练神经网络的方法和装置
CN112215332A (zh) 神经网络结构的搜索方法、图像处理方法和装置
CN114419351B (zh) 图文预训练模型训练、图文预测模型训练方法和装置
KR101942173B1 (ko) 랜덤한 트리 cnn에 기반한 영상 분석 방법 및 포레스트 cnn에 기반한 영상 분석 방법
CN113537462A (zh) 数据处理方法、神经网络的量化方法及相关装置
US20230401717A1 (en) Transformer for efficient image segmentation
CN110837570A (zh) 对图像数据进行无偏见分类的方法
CN114565856A (zh) 基于多重融合深度神经网络的目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant