CN112308090A - 图像分类方法及装置 - Google Patents
图像分类方法及装置 Download PDFInfo
- Publication number
- CN112308090A CN112308090A CN202011005211.6A CN202011005211A CN112308090A CN 112308090 A CN112308090 A CN 112308090A CN 202011005211 A CN202011005211 A CN 202011005211A CN 112308090 A CN112308090 A CN 112308090A
- Authority
- CN
- China
- Prior art keywords
- information
- feature
- feature map
- image
- confusable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 55
- 238000013145 classification model Methods 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 49
- 230000004927 fusion Effects 0.000 claims description 25
- 230000001939 inductive effect Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 230000000750 progressive effect Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 description 51
- 238000010586 diagram Methods 0.000 description 18
- 241000282472 Canis lupus familiaris Species 0.000 description 13
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 235000019580 granularity Nutrition 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 210000003464 cuspid Anatomy 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000003141 lower extremity Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种图像分类方法及装置。方法的一具体实施方式包括:对获取的待分类图像进行特征提取,得到特征信息;基于特征信息,得到易区分信息和易混淆信息,其中,易区分信息表征待分类图像与同类型的其他图像之间易于区分的信息,易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的信息;根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果,从而准确地确定出待分类图像的分类结果,提高了图像分类的准确度。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及一种图像分类方法及装置。
背景技术
目前,针对于细粒度图像分类的方法主要分为两类:通过人工标注方式直接获得关键可区分部位或者边界框,从而确定待分类图像的分类结果;通过预先训练的网络模型提取待分类图像的特征,从而确定待分类图像的分类结果。
发明内容
本申请实施例提出了一种图像分类方法及装置。
第一方面,本申请实施例提供了一种图像分类方法,包括:对获取的待分类图像进行特征提取,得到特征信息;基于特征信息,得到易区分信息和易混淆信息,其中,易区分信息表征待分类图像与同类型的其他图像之间易于区分的信息,易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的信息;根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果。
在一些实施例中,特征信息包括特征层次递进的多个特征图;上述基于特征信息,得到易区分信息和易混淆信息,包括:针对于特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的易区分信息和易混淆信息;以及上述根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果,包括:根据至少一个特征图、至少一个易区分信息和至少一个易混淆信息,确定待分类图像的分类结果。
在一些实施例中,上述针对于特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的易区分信息和易混淆信息,包括:
针对于特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的通道易区分信息、通道易混淆信息、区域易区分信息和区域易混淆信息,其中,通道易区分信息表征待分类图像与同类型的其他图像之间易于区分的、表征该特征图的通道的重要性的信息,通道易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的、表征该特征图的通道的重要性的信息,区域易区分信息表征待分类图像与同类型的其他图像之间易于区分的、表征该特征图中的各区域的重要性的信息,区域易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的、表征该特征图中的各区域的信息;融合对应于该特征图的通道易区分信息和区域易区分信息,得到对应于该特征图的易区分信息;融合对应于该特征图的通道易混淆信息和区域易混淆信息,得到对应于该特征图的易混淆信息。
在一些实施例中,上述根据至少一个特征图、至少一个易区分信息和至少一个易混淆信息,确定待分类图像的分类结果,包括:融合至少一个特征图中的每个特征图,得到目标特征信息;融合至少一个易区分信息中的每个易区分信息,得到目标易区分信息;融合至少一个易混淆信息中的每个易混淆信息,得到目标易混淆信息;基于目标特征信息、目标易区分信息和目标易混淆信息,确定待分类图像的分类结果。
在一些实施例中,上述基于目标特征信息、目标易区分信息和目标易混淆信息,确定待分类图像的分类结果,包括:
在目标特征信息的基础上,添加目标易区分信息,去除目标易混淆信息,得到最终特征信息;根据最终特征信息,确定待分类图像的分类结果。
在一些实施例中,至少一个特征图中的每个特征图为表征待分类图像的深层特征信息的特征图。
在一些实施例中,上述方法还包括:针对于至少一个特征图中的每个特征图,响应于得到对应于该特征图的易区分信息和易混淆信息,在该特征图的基础上,添加对应于该特征图的易区分信息,去除对应于该特征图的易混淆信息,得到提取该特征图的下一层次特征的特征提取阶段的输入信息。
第二方面,本申请实施例提供了一种图像分类模型的训练方法,图像分类模型用于实现如第一方面任一实现方式描述的方法,包括:获取训练样本集,其中,训练样本集中的训练样本包括样本图像和分类标签;基于机器学习方法,将训练样本中的样本图像作为初始图像分类模型的输入,将对应于输入的样本图像的分类标签作为期望输出,利用第一损失函数、第二损失函数和第三损失函数调整初始图像分类模型的参数,训练得到图像分类模型,其中,在初始图像分类模型中,通过特征提取模块提取输入的样本图像的特征信息,通过注意力模块基于特征信息得到易区分信息和易混淆信息,通过特征融合模块融合输入的样本图像对应的特征信息、易区分信息和易混淆信息,第一损失函数用于诱导注意力模块得到易区分信息,第二损失函数用于诱导注意力模块得到易混淆信息,第三损失函数用于诱导初始图像分类模型输出分类标签。
在一些实施例中,特征提取模块提取的特征信息包括特征层次递进的多个特征图;上述通过注意力模块基于特征信息得到易区分信息和易混淆信息,包括:针对于特征信息中的至少一个特征图中的每个特征图,通过注意力模块获取对应于该特征图的易区分信息和易混淆信息;以及上述通过特征融合模块融合样本图像对应的特征信息、易区分信息和易混淆信息,包括:通过特征融合模块融合至少一个特征图、至少一个易区分信息和至少一个易混淆信息。
第三方面,本申请实施例提供了一种图像分类装置,包括:提取单元,被配置成对获取的待分类图像进行特征提取,得到特征信息;第一得到单元,被配置成基于特征信息,得到易区分信息和易混淆信息,其中,易区分信息表征待分类图像与同类型的其他图像之间易于区分的信息,易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的信息;确定单元,被配置成根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果。
在一些实施例中,特征信息包括特征层次递进的多个特征图;第一得到单元,进一步被配置成针对于特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的易区分信息和易混淆信息;以及确定单元,进一步被配置成根据至少一个特征图、至少一个易区分信息和至少一个易混淆信息,确定待分类图像的分类结果。
在一些实施例中,第一得到单元,进一步被配置成:针对于特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的通道易区分信息、通道易混淆信息、区域易区分信息和区域易混淆信息,其中,通道易区分信息表征待分类图像与同类型的其他图像之间易于区分的、表征该特征图的通道的重要性的信息,通道易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的、表征该特征图的通道的重要性的信息,区域易区分信息表征待分类图像与同类型的其他图像之间易于区分的、表征该特征图中的各区域的重要性的信息,区域易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的、表征该特征图中的各区域的信息;融合对应于该特征图的通道易区分信息和区域易区分信息,得到对应于该特征图的易区分信息;融合对应于该特征图的通道易混淆信息和区域易混淆信息,得到对应于该特征图的易混淆信息。
在一些实施例中,确定单元,进一步被配置成:融合至少一个特征图中的每个特征图,得到目标特征信息;融合至少一个易区分信息中的每个易区分信息,得到目标易区分信息;融合至少一个易混淆信息中的每个易混淆信息,得到目标易混淆信息;基于目标特征信息、目标易区分信息和目标易混淆信息,确定待分类图像的分类结果。
在一些实施例中,确定单元,进一步被配置成:在目标特征信息的基础上,添加目标易区分信息,去除目标易混淆信息,得到最终特征信息;根据最终特征信息,确定待分类图像的分类结果。
在一些实施例中,至少一个特征图中的每个特征图为表征待分类图像的深层特征信息的特征图。
在一些实施例中,上述装置还包括:第二得到单元,被配置成针对于至少一个特征图中的每个特征图,响应于得到对应于该特征图的易区分信息和易混淆信息,在该特征图的基础上,添加对应于该特征图的易区分信息,去除对应于该特征图的易混淆信息,得到提取该特征图的下一层次特征的特征提取阶段的输入信息。
第四方面,本申请实施例提供了一种图像分类模型的训练装置,图像分类模型用于实现如第一方面任一实现方式描述的方法,包括:样本获取单元,被配置成获取训练样本集,其中,训练样本集中的训练样本包括样本图像和分类标签;训练单元,被配置成基于机器学习方法,将训练样本中的样本图像作为初始图像分类模型的输入,将对应于输入的样本图像的分类标签作为期望输出,利用第一损失函数、第二损失函数和第三损失函数调整初始图像分类模型的参数,训练得到图像分类模型,其中,在初始图像分类模型中,通过特征提取模块提取输入的样本图像的特征信息,通过注意力模块基于特征信息得到易区分信息和易混淆信息,通过特征融合模块融合输入的样本图像对应的特征信息、易区分信息和易混淆信息,第一损失函数用于诱导注意力模块得到易区分信息,第二损失函数用于诱导注意力模块得到易混淆信息,第三损失函数用于诱导初始图像分类模型输出分类标签。
在一些实施例中,特征提取模块提取的特征信息包括特征层次递进的多个特征图;上述通过注意力模块基于特征信息得到易区分信息和易混淆信息,包括:针对于特征信息中的至少一个特征图中的每个特征图,通过注意力模块获取对应于该特征图的易区分信息和易混淆信息;以及上述通过特征融合模块融合样本图像对应的特征信息、易区分信息和易混淆信息,包括:通过特征融合模块融合至少一个特征图、至少一个易区分信息和至少一个易混淆信息。
第五方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面、第二方面任一实现方式描述的方法。
第六方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面、第二方面任一实现方式描述的方法。
本申请实施例提供的图像分类方法及装置,通过对获取的待分类图像进行特征提取,得到特征信息;基于特征信息,得到易区分信息和易混淆信息,其中,易区分信息表征待分类图像与同类型的其他图像之间易于区分的信息,易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的信息;根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果,从而准确地确定出待分类图像的分类结果,提高了图像分类的准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的图像分类方法的一个实施例的流程图;
图3是根据本实施例的图像分类方法的应用场景的示意图;
图4是根据本申请的图像分类方法的又一个实施例的流程图;
图5是根据本申请的图像分类模型的训练方法的一个实施例的流程图;
图6是根据本申请的图像分类装置的一个实施例的结构图;
图7是根据本申请的图像分类模型的训练装置的一个实施例的结构图;
图8是适于用来实现本申请实施例的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的图像分类方法及装置的示例性架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103可以是支持网络连接从而进行数据交互和数据处理的硬件设备或软件。当终端设备101、102、103为硬件时,其可以是支持网络连接,信息交互、显示、处理等功能的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如基于终端设备101、102、103发送的待分类图像,确定待分类图像的分类结果的后台处理服务器。后台处理服务器可以对待分类图像进行特征提取,得到特征信息;基于特征信息,得到易区分信息和易混淆信息;根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果。可选的,后台处理服务器还可以将待分类图像的分类结果反馈给终端设备,以供终端设备显示。作为示例,服务器105可以是云端服务器。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
还需要说明的是,本公开的实施例所提供的图像分类方法可以由服务器执行,也可以由终端设备执行,还可以由服务器和终端设备彼此配合执行。相应地,图像分类装置包括的各个部分(例如各个单元、子单元、模块、子模块)可以全部设置于服务器中,也可以全部设置于终端设备中,还可以分别设置于服务器和终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。当图像分类方法运行于其上的电子设备不需要与其他电子设备进行数据传输时,该系统架构可以仅包括图像分类方法运行于其上的电子设备(例如服务器或终端设备)。
继续参考图2,示出了图像分类方法的一个实施例的流程200,包括以下步骤:
步骤201,对获取的待分类图像进行特征提取,得到特征信息。
本实施例中,图像分类方法的执行主体(例如图1中的终端设备或服务器)可以通过有线连接方式或者无线连接方式从远程,或从本地获取待分类图像,并对待分类图像进行特征提取,得到特征信息。
其中,待分类图像中可以包括各种类型的对象,包括但不限于人物、动物、植物、绘画等对象。
作为示例,上述执行主体中设有预先训练的特征提取模型,将待分类图像输入特征提取模型,可以得到待分类图像的特征信息,其中,特征提取模型用于表征待分类图像和特征信息之间的对应关系。特征提取模型可以采用具体特征提取功能的任一网络模型,包括但不限于卷积神经网络模型、残差神经网络模型等。
步骤202,基于特征信息,得到易区分信息和易混淆信息。
本实施例中,上述执行主体可以基于步骤201得到的特征信息,得到易区分信息和易混淆信息。其中,易区分信息表征待分类图像与同类型的其他图像之间易于区分的信息,易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的信息。
同类型用于表征待分类图像中包括的对象所属的类别与其他图像中包括的对象所属的类别相同。其中,对象的类别可以是根据实际情况而设定的粗粒度的类别或细粒度的类别。作为示例,待分类图像中的对象为德国牧羊犬,当设定的类别为粗粒度的类别时,德国牧羊犬所属的类别为“狗”;当设定的类别为细粒度的类别时,德国牧羊犬所属的类别为“德国牧羊犬”。
作为示例,上述执行主体中设有预先训练的注意力模型,将特征信息输入注意力模型,可以得到特征信息对应的易区分信息和易混淆信息。其中,注意力模型用于表征特征信息与易区分信息、易混淆信息之间的对应关系。
继续以待分类图像中的对象为德国牧羊犬为例,德国牧羊犬与其他品种的犬类相比,易区分信息例如可以是毛色信息、后肢信息(目前绝大多数的德国牧羊犬为弓背牧羊犬)等信息。易混淆信息例如可以是犬齿信息、四肢着地等信息。
可以理解的是,针对于不同分类粒度得到的类别,注意力模型可以学习到不同的易区分信息和易混淆信息。针对于粗粒度的类别,注意力模型学习到粗粒度的不同类别之间的易区分信息和易混淆信息,针对于细粒度的类别,注意力模型学习到细粒度的不同类别之间的易区分信息和易混淆信息。
步骤203,根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果。
本实施例中,上述执行主体基于步骤201得到的特征信息和步骤202得到的易区分信息、易混淆信息,可以确定待分类图像的分类结果。
本实施例中,上述执行主体可以在特征信息的基础上,添加易区分信息,或者去除易混淆信息,从而得到改善后的更明确的特征信息,进而根据改善后的特征信息确定特征信息所表征的对象的类别。
作为示例,上述执行主体中可以设有各种各样的改善后的特征信息与分类类别的对应关系表,将对应关系表中与待分类图像的改善后的特征信息相同的特征信息所对应的分类类别确定为待分类图像的分类结果。
作为又一示例,上述执行主体中可是设置有预先训练的分类模型,将待分类图像对应的特征信息、易区分信息和易混淆信息输入分类模型,确定待分类图像的分类结果。其中,分类模型用于表征特征信息、易区分信息、易混淆信息与分类结果的对应关系。分类模型可以采用具体图像分类功能的任一网络模型,包括但不限于残差神经网络模型、可视化几何组网络模型等。
继续参见图3,图3是根据本实施例的图像分类方法的应用场景的一个示意图。在图3的应用场景中,用户301在浏览网页的过程中,发现并不知道一图像中所展示的犬类名称。于是,用户301触发终端设备302上的识别操作,终端设备302将该犬类图像(待分类图像)303上传至服务器304。服务器304对获取的待分类图像303进行特征提取,得到特征信息305;基于特征信息305,得到易区分信息306和易混淆信息307,其中,易区分信息表征待分类图像与同为犬类的其他图像之间易于区分的信息,易混淆信息表征待分类图像与同为犬类类的其他图像之间易于混淆的信息;根据特征信息305、易区分信息306和易混淆信息307,确定待分类图像的分类结果为“德国牧羊犬”。
本公开的上述实施例提供的方法,通过对获取的待分类图像进行特征提取,得到特征信息;基于特征信息,得到易区分信息和易混淆信息,其中,易区分信息表征待分类图像与同类型的其他图像之间易于区分的信息,易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的信息;根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果,从而可以准确地确定出待分类图像的分类结果,提高了图像分类的准确度。
继续参考图4,示出了根据本申请的图像分类方法的另一个实施例的示意性流程400,包括以下步骤:
步骤401,对获取的待分类图像进行特征提取,得到特征层次递进的多个特征图。
本实施例中,特征层次递进表征多个特征图各自表征的特征是层层递进的,在浅层特征的基础上可以进一步提取深层的特征。
以101层的残差神经网络模型RESNET101为例,模型中包括五个特征提取阶段,其中,第一阶段至第五阶段依次包括1层卷积层、9层卷积层、12层卷积层、69层卷积层、9层卷积层。每个特征提取阶段的每层卷积层都会在上一层卷积层输出的特征图的基础上进行特征提取,得到新的特征图。针对于五个特征提取阶段中的每个特征提取阶段,上述执行主体可以从该特征提取阶段中的卷积层得到的特征图中选取一个或多个特征图。
作为示例,上述执行主体可以将每个特征提取阶段中最后一层卷积层得到的特征图确定为特征层次递进的多个特征图。
在本实施例的一些可选的实现方式中,上述执行主体可以将提取较深层次特征的特征提取阶段中最后一层卷积层得到的特征图,例如选取第三层至第五层特征提取阶段中最后一层卷积层得到的特征图,确定为特征层次递进的多个特征图。包含深层次特征的特征图更能表征待分类图像的特性,针对于包含深层次特征的特征图进行后续步骤的处理,在保证正确性的同时,可以减小信息处理的运算量。
步骤402,针对于特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的易区分信息和易混淆信息。
本实施例中,针对于特征信息中的至少一个特征图中的每个特征图,上述执行主体可以参照步骤202中记载的方案得到对应于该特征图的易区分信息和易混淆信息。
在本实施例的一些可选的实现方式中,上述执行主体可以通过如下方式执行步骤402:
首先,针对于特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的通道易区分信息、通道易混淆信息、区域易区分信息和区域易混淆信息,其中,通道易区分信息表征待分类图像与同类型的其他图像之间易于区分的、表征该特征图的通道的重要性的信息,通道易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的、表征该特征图的通道的重要性的信息,区域易区分信息表征待分类图像与同类型的其他图像之间易于区分的、表征该特征图中的各区域的重要性的信息,区域易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的、表征该特征图中的各区域的信息。
其次,融合对应于该特征图的通道易区分信息和区域易区分信息,得到对应于该特征图的易区分信息。
最后,融合对应于该特征图的通道易混淆信息和区域易混淆信息,得到对应于该特征图的易混淆信息。
根据通道易区分信息和区域易区分信息,上述执行主体可以得到更全面、更准确的易区分信息;根据通道易混淆信息和区域易混淆信息,上述执行主体可以得到更全面、更准确的易混淆信息。
步骤403,根据至少一个特征图、至少一个易区分信息和至少一个易混淆信息,确定待分类图像的分类结果。
本实施例中,上述执行主体可以根据至少一个特征图以及与至少一个特征图一一对应的至少一个易区分信息和至少一个易混淆信息,确定待分类图像的分类结果。
在本实施例的一些可选的实现方式中,上述执行主体可以通过如下方式执行步骤403:
第一,融合至少一个特征图中的每个特征图,得到目标特征信息。
第二,融合至少一个易区分信息中的每个易区分信息,得到目标易区分信息。
第三,融合至少一个易混淆信息中的每个易混淆信息,得到目标易混淆信息。
在上述同类型信息的融合过程中,所采用的技术为信息融合领域成熟的技术,在此不做赘述。
第四,基于目标特征信息、目标易区分信息和目标易混淆信息,确定待分类图像的分类结果。
作为示例,上述执行主体在目标特征信息的基础上,添加目标易区分信息,去除目标易混淆信息,得到最终特征信息;根据最终特征信息,确定待分类图像的分类结果
本实施例中,上述执行主体可以通过一个预先训练的图像分类模型执行上述步骤401-403。
从本实施例中可以看出,与图2对应的实施例相比,本实施例中的图像分类方法的流程400具体说明了基于特征层次递进的多个特征图,得到对应于每个特征图的易区分信息和易混淆信息,以及基于同种类型信息的融合确定待分类图像的分类结果。如此,本实施例进一步提高了图像分类的准确度。
在本实施例的一些可选的实现方式中,针对于至少一个特征图中的每个特征图,响应于得到对应于该特征图的易区分信息和易混淆信息,在该特征图的基础上,添加对应于该特征图的易区分信息,去除对应于该特征图的易混淆信息,得到提取该特征图的下一层次特征的特征提取阶段的输入信息。
作为示例,针对于残差神经网络的第三特征提取阶段中最后一层卷积层得到的特征图,得到对应的易区分信息和易混淆信息,在该特征图的基础上,添加对应于该特征图的易区分信息,去除对应于该特征图的易混淆信息,得到第四特征提取阶段的输入信息。
继续参考图5,示出了根据本申请的图像分类模型的训练方法的一个实施例的示意性流程500,包括以下步骤:
步骤501,获取训练样本集。
本实施例中,图像分类模型的训练方法的执行主体(例如图1中的终端设备或服务器)可以通过有线连接方式或者无线连接方式从远程,或从本地获取训练样本集。其中,训练样本集中的训练样本包括样本图像和分类标签。
步骤502,基于机器学习方法,将训练样本中的样本图像作为初始图像分类模型的输入,将对应于输入的样本图像的分类标签作为期望输出,利用第一损失函数、第二损失函数和第三损失函数调整初始图像分类模型的参数,训练得到图像分类模型。
本实施例中,初始图像分类模型中包括特征提取模块、注意力模块和特征融合模块。在初始图像分类模型中,通过特征提取模块提取输入的样本图像的特征信息,通过注意力模块基于特征信息得到易区分信息和易混淆信息,通过特征融合模块融合输入的样本图像对应的特征信息、易区分信息和易混淆信息。易区分信息表征样本图像与同类型的其他图像之间易于区分的信息,易混淆信息表征样本图像与同类型的其他图像之间易于混淆的信息
第一损失函数用于诱导注意力模块得到易区分信息,第二损失函数用于诱导注意力模块得到易混淆信息,第三损失函数用于诱导初始图像分类模型输出分类标签。
具体的,第一损失函数通过如下表达式得到:
Ldis=MAE(GAP(dis_fm),GAP(dis_fn))
其中,Ldis表征第一损失函数值,MAE(mean absolute deviation,平均绝对偏差)表征平均绝对偏差,GAP(global average pooling,全局平均池化)表示全局平均池化,dis_fm和dis_fn分别代表两种易区分特征(通道易区分信息、区域易区分信息)。
第二损失函数通过如下表达式得到:
Lcon=MAE(FC(GAP(con_fn)),T)
其中,Lcon表征第二损失函数值,MAE表征平均绝对偏差,FC表征全连接层,GAP表征全局平均池化,con_fn表征融合后的易混淆特征(目标易混淆信息),T表征每个维度的值为1的向量,其维数是可识别的分类结果的类别数。
第三损失函数通过如下表达式得到:
Lcls=-∑l·log[C(GAP(F5)))]
其中,Lcls表征第三损失函数值,l表征样本图像的分类标签,C表征用于最终分类的可训练分类器,GAP表示全局平均池化,F5表示用于分类的最终特征(最终特征信息)。
响应于确定第一损失函数、第二损失函数和第三损失函数均收敛,可以确定图像分类模型训练完成。训练完成后的图像分类模型用于实现如实施例200、400中的图像分类方法。
具体的,可以通过如下公式确定图像分类模型是否训练完成:
L=Ldis+Lcon+Lcls
其中,Ldis表征第一损失函数值,Lcon表征第二损失函数值,Lcls表征第三损失函数值。响应于L收敛到最小值,确定图像分类模型是否训练完成。
其中,特征提取模块可以采用具有特征提取功能的任意网络模型,包括但不限于循环神经网络模型、残差神经网络模型。
在本实施例的一些可选的实现方式中,特征提取模块提取的特征信息包括特征层次递进的多个特征图;在初始图像分类模型中,针对于特征信息中的至少一个特征图中的每个特征图,通过注意力模块获取对应于该特征图的易区分信息和易混淆信息;通过特征融合模块融合至少一个特征图、至少一个易区分信息和至少一个易混淆信息。在本实施例的一些可选的实现方式中,注意力模块包括通道注意力模块和区域注意力模块。通道注意力模块用于得到通道易区分信息、通道易混淆信息,区域注意力模块用于得到区域易区分信息和区域易混淆信息。在图像分类模型中,针对于特征信息中的至少一个特征图中的每个特征图,通过通道注意力模块获取对应于该特征图的通道易区分信息和通道易混淆信息,通过区域注意力模块获取对应于该特征图的区域易区分信息和区域易混淆信息。然后,通过特征融合模块融合对应于该特征图的通道易区分信息和区域易区分信息,得到对应于该特征图的易区分信息;融合对应于该特征图的通道易混淆信息和区域易混淆信息,得到对应于该特征图的易混淆信息。
进而,通过特征融合模块融合至少一个特征图中的每个特征图,得到目标特征信息;融合至少一个易区分信息中的每个易区分信息,得到目标易区分信息;融合至少一个易混淆信息中的每个易混淆信息,得到目标易混淆信息;最后,图像分类模型基于目标特征信息、目标易区分信息和目标易混淆信息,确定待分类图像的分类结果。
本公开的上述实施例提供的方法,提供了一种图像分类模型的训练方法,丰富了图像分类模型的训练方式,可以提高图像分类模型的准确度。
继续参考图6,作为对上述各图所示方法的实现,本公开提供了一种图像分类装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,图像分类装置包括:包括:提取单元601被配置成对获取的待分类图像进行特征提取,得到特征信息;第一得到单元602被配置成基于特征信息,得到易区分信息和易混淆信息,其中,易区分信息表征待分类图像与同类型的其他图像之间易于区分的信息,易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的信息;确定单元603被配置成根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果。
在一些实施例中,特征信息包括特征层次递进的多个特征图;第一得到单元602进一步被配置成针对于特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的易区分信息和易混淆信息;以及确定单元603进一步被配置成根据至少一个特征图、至少一个易区分信息和至少一个易混淆信息,确定待分类图像的分类结果。
在一些实施例中,第一得到单元602进一步被配置成:针对于特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的通道易区分信息、通道易混淆信息、区域易区分信息和区域易混淆信息,其中,通道易区分信息表征待分类图像与同类型的其他图像之间易于区分的、表征该特征图的通道的重要性的信息,通道易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的、表征该特征图的通道的重要性的信息,区域易区分信息表征待分类图像与同类型的其他图像之间易于区分的、表征该特征图中的各区域的重要性的信息,区域易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的、表征该特征图中的各区域的信息;融合对应于该特征图的通道易区分信息和区域易区分信息,得到对应于该特征图的易区分信息;融合对应于该特征图的通道易混淆信息和区域易混淆信息,得到对应于该特征图的易混淆信息。
在一些实施例中,确定单元603进一步被配置成:融合至少一个特征图中的每个特征图,得到目标特征信息;融合至少一个易区分信息中的每个易区分信息,得到目标易区分信息;融合至少一个易混淆信息中的每个易混淆信息,得到目标易混淆信息;基于目标特征信息、目标易区分信息和目标易混淆信息,确定待分类图像的分类结果。
在一些实施例中,确定单元603进一步被配置成:在目标特征信息的基础上,添加目标易区分信息,去除目标易混淆信息,得到最终特征信息;根据最终特征信息,确定待分类图像的分类结果。
在一些实施例中,至少一个特征图中的每个特征图为表征待分类图像的深层特征信息的特征图。
在一些实施例中,上述装置还包括:第二得到单元(图中未示出),被配置成针对于至少一个特征图中的每个特征图,响应于得到对应于该特征图的易区分信息和易混淆信息,在该特征图的基础上,添加对应于该特征图的易区分信息,去除对应于该特征图的易混淆信息,得到提取该特征图的下一层次特征的特征提取阶段的输入信息。
本实施例中,图像分类装置中的提取单元对获取的待分类图像进行特征提取,得到特征信息;第一得到单元基于特征信息,得到易区分信息和易混淆信息,其中,易区分信息表征待分类图像与同类型的其他图像之间易于区分的信息,易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的信息;确定单元根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果,从而准确地确定出待分类图像的分类结果,提高了图像分类的准确度。
继续参考图7,作为对上述各图所示方法的实现,本公开提供了一种图像分类模型的训练装置的一个实施例,该装置实施例与图5所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,图像分类模型的训练装置包括:样本获取单元701,被配置成获取训练样本集,其中,训练样本集中的训练样本包括样本图像和分类标签;训练单元702,被配置成基于机器学习方法,将训练样本中的样本图像作为初始图像分类模型的输入,将对应于输入的样本图像的分类标签作为期望输出,利用第一损失函数、第二损失函数和第三损失函数调整初始图像分类模型的参数,训练得到图像分类模型,其中,在初始图像分类模型中,通过特征提取模块提取输入的样本图像的特征信息,通过注意力模块基于特征信息得到易区分信息和易混淆信息,通过特征融合模块融合输入的样本图像对应的特征信息、易区分信息和易混淆信息,第一损失函数用于诱导注意力模块得到易区分信息,第二损失函数用于诱导注意力模块得到易混淆信息,第三损失函数用于诱导初始图像分类模型输出分类标签。
在本实施例的一些可选的实现方式中,特征提取模块提取的特征信息包括特征层次递进的多个特征图;通过注意力模块基于特征信息得到易区分信息和易混淆信息,包括:针对于特征信息中的至少一个特征图中的每个特征图,通过注意力模块获取对应于该特征图的易区分信息和易混淆信息;以及通过特征融合模块融合样本图像对应的特征信息、易区分信息和易混淆信息,包括:通过特征融合模块融合至少一个特征图、至少一个易区分信息和至少一个易混淆信息。
下面参考图8,其示出了适于用来实现本申请实施例的设备(例如图1所示的设备101、102、103、105)的计算机系统800的结构示意图。图8示出的设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括处理器(例如CPU,中央处理器)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中,还存储有系统800操作所需的各种程序和数据。处理器801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向目标的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在客户计算机上执行、部分地在客户计算机上执行、作为一个独立的软件包执行、部分在客户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到客户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器,包括提取单元、第一得到单元和确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,确定单元还可以被描述为“根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果”的单元。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该计算机设备:对获取的待分类图像进行特征提取,得到特征信息;基于特征信息,得到易区分信息和易混淆信息,其中,易区分信息表征待分类图像与同类型的其他图像之间易于区分的信息,易混淆信息表征待分类图像与同类型的其他图像之间易于混淆的信息;根据特征信息、易区分信息和易混淆信息,确定待分类图像的分类结果。或者使得该计算机设备:获取训练样本集,其中,训练样本集中的训练样本包括样本图像和分类标签;基于机器学习方法,将训练样本中的样本图像作为初始图像分类模型的输入,将对应于输入的样本图像的分类标签作为期望输出,利用第一损失函数、第二损失函数和第三损失函数调整初始图像分类模型的参数,训练得到图像分类模型,其中,在初始图像分类模型中,通过特征提取模块提取输入的样本图像的特征信息,通过注意力模块基于特征信息得到易区分信息和易混淆信息,通过特征融合模块融合输入的样本图像对应的特征信息、易区分信息和易混淆信息,第一损失函数用于诱导注意力模块得到易区分信息,第二损失函数用于诱导注意力模块得到易混淆信息,第三损失函数用于诱导初始图像分类模型输出分类标签。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (20)
1.一种图像分类方法,包括:
对获取的待分类图像进行特征提取,得到特征信息;
基于所述特征信息,得到易区分信息和易混淆信息,其中,所述易区分信息表征所述待分类图像与同类型的其他图像之间易于区分的信息,所述易混淆信息表征所述待分类图像与同类型的其他图像之间易于混淆的信息;
根据所述特征信息、所述易区分信息和所述易混淆信息,确定所述待分类图像的分类结果。
2.根据权利要求1所述的方法,其中,所述特征信息包括特征层次递进的多个特征图;
所述基于所述特征信息,得到易区分信息和易混淆信息,包括:
针对于所述特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的易区分信息和易混淆信息;以及
所述根据所述特征信息、所述易区分信息和所述易混淆信息,确定所述待分类图像的分类结果,包括:
根据所述至少一个特征图、至少一个易区分信息和至少一个易混淆信息,确定所述待分类图像的分类结果。
3.根据权利要求2所述的方法,其中,所述针对于所述特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的易区分信息和易混淆信息,包括:
针对于所述特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的通道易区分信息、通道易混淆信息、区域易区分信息和区域易混淆信息,其中,通道易区分信息表征所述待分类图像与同类型的其他图像之间易于区分的、表征该特征图的通道的重要性的信息,通道易混淆信息表征所述待分类图像与同类型的其他图像之间易于混淆的、表征该特征图的通道的重要性的信息,区域易区分信息表征所述待分类图像与同类型的其他图像之间易于区分的、表征该特征图中的各区域的重要性的信息,区域易混淆信息表征所述待分类图像与同类型的其他图像之间易于混淆的、表征该特征图中的各区域的信息;
融合对应于该特征图的通道易区分信息和区域易区分信息,得到对应于该特征图的易区分信息;
融合对应于该特征图的通道易混淆信息和区域易混淆信息,得到对应于该特征图的易混淆信息。
4.根据权利要求2所述的方法,其中,所述根据所述至少一个特征图、至少一个易区分信息和至少一个易混淆信息,确定所述待分类图像的分类结果,包括:
融合所述至少一个特征图中的每个特征图,得到目标特征信息;
融合所述至少一个易区分信息中的每个易区分信息,得到目标易区分信息;
融合所述至少一个易混淆信息中的每个易混淆信息,得到目标易混淆信息;
基于所述目标特征信息、所述目标易区分信息和所述目标易混淆信息,确定所述待分类图像的分类结果。
5.根据权利要求4所述的方法,其中,所述基于所述目标特征信息、所述目标易区分信息和所述目标易混淆信息,确定所述待分类图像的分类结果,包括:
在所述目标特征信息的基础上,添加所述目标易区分信息,去除所述目标易混淆信息,得到最终特征信息;
根据所述最终特征信息,确定所述待分类图像的分类结果。
6.根据权利要求2所述的方法,其中,所述至少一个特征图中的每个特征图为表征待分类图像的深层特征信息的特征图。
7.根据权利要求2所述的方法,其中,还包括:
针对于所述至少一个特征图中的每个特征图,响应于得到对应于该特征图的易区分信息和易混淆信息,在该特征图的基础上,添加对应于该特征图的易区分信息,去除对应于该特征图的易混淆信息,得到提取该特征图的下一层次特征的特征提取阶段的输入信息。
8.一种图像分类模型的训练方法,包括:
获取训练样本集,其中,所述训练样本集中的训练样本包括样本图像和分类标签;
将训练样本中的样本图像作为初始图像分类模型的输入,将对应于输入的样本图像的分类标签作为期望输出,利用第一损失函数、第二损失函数和第三损失函数调整初始图像分类模型的参数,训练得到图像分类模型,其中,在所述初始图像分类模型中,通过特征提取模块提取输入的样本图像的特征信息,通过注意力模块基于特征信息得到易区分信息和易混淆信息,通过特征融合模块融合输入的样本图像对应的特征信息、易区分信息和易混淆信息,所述第一损失函数用于诱导所述注意力模块得到易区分信息,所述第二损失函数用于诱导所述注意力模块得到易混淆信息,所述第三损失函数用于诱导初始图像分类模型输出分类标签。
9.根据权利要求8所述的方法,其中,所述特征提取模块提取的特征信息包括特征层次递进的多个特征图;
所述通过注意力模块基于特征信息得到易区分信息和易混淆信息,包括:
针对于所述特征信息中的至少一个特征图中的每个特征图,通过注意力模块获取对应于该特征图的易区分信息和易混淆信息;以及
所述通过特征融合模块融合样本图像对应的特征信息、易区分信息和易混淆信息,包括:
通过所述特征融合模块融合所述至少一个特征图、至少一个易区分信息和至少一个易混淆信息。
10.一种图像分类装置,包括:
提取单元,被配置成对获取的待分类图像进行特征提取,得到特征信息;
第一得到单元,被配置成基于所述特征信息,得到易区分信息和易混淆信息,其中,所述易区分信息表征所述待分类图像与同类型的其他图像之间易于区分的信息,所述易混淆信息表征所述待分类图像与同类型的其他图像之间易于混淆的信息;
确定单元,被配置成根据所述特征信息、所述易区分信息和所述易混淆信息,确定所述待分类图像的分类结果。
11.根据权利要求10所述的装置,其中,所述特征信息包括特征层次递进的多个特征图;
所述第一得到单元,进一步被配置成针对于所述特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的易区分信息和易混淆信息;以及
所述确定单元,进一步被配置成根据所述至少一个特征图、至少一个易区分信息和至少一个易混淆信息,确定所述待分类图像的分类结果。
12.根据权利要求11所述的装置,其中,所述第一得到单元,进一步被配置成:
针对于所述特征信息中的至少一个特征图中的每个特征图,获取对应于该特征图的通道易区分信息、通道易混淆信息、区域易区分信息和区域易混淆信息,其中,通道易区分信息表征所述待分类图像与同类型的其他图像之间易于区分的、表征该特征图的通道的重要性的信息,通道易混淆信息表征所述待分类图像与同类型的其他图像之间易于混淆的、表征该特征图的通道的重要性的信息,区域易区分信息表征所述待分类图像与同类型的其他图像之间易于区分的、表征该特征图中的各区域的重要性的信息,区域易混淆信息表征所述待分类图像与同类型的其他图像之间易于混淆的、表征该特征图中的各区域的信息;融合对应于该特征图的通道易区分信息和区域易区分信息,得到对应于该特征图的易区分信息;融合对应于该特征图的通道易混淆信息和区域易混淆信息,得到对应于该特征图的易混淆信息。
13.根据权利要求11所述的装置,其中,所述确定单元,进一步被配置成:
融合所述至少一个特征图中的每个特征图,得到目标特征信息;融合所述至少一个易区分信息中的每个易区分信息,得到目标易区分信息;融合所述至少一个易混淆信息中的每个易混淆信息,得到目标易混淆信息;基于所述目标特征信息、所述目标易区分信息和所述目标易混淆信息,确定所述待分类图像的分类结果。
14.根据权利要求13所述的装置,其中,所述确定单元,进一步被配置成:
在所述目标特征信息的基础上,添加所述目标易区分信息,去除所述目标易混淆信息,得到最终特征信息;根据所述最终特征信息,确定所述待分类图像的分类结果。
15.根据权利要求11所述的装置,其中,所述至少一个特征图中的每个特征图为表征待分类图像的深层特征信息的特征图。
16.根据权利要求11所述的装置,其中,还包括:
第二得到单元,被配置成针对于所述至少一个特征图中的每个特征图,响应于得到对应于该特征图的易区分信息和易混淆信息,在该特征图的基础上,添加对应于该特征图的易区分信息,去除对应于该特征图的易混淆信息,得到提取该特征图的下一层次特征的特征提取阶段的输入信息。
17.一种图像分类模型的训练装置,包括:
样本获取单元,被配置成获取训练样本集,其中,所述训练样本集中的训练样本包括样本图像和分类标签;
训练单元,被配置成将训练样本中的样本图像作为初始图像分类模型的输入,将对应于输入的样本图像的分类标签作为期望输出,利用第一损失函数、第二损失函数和第三损失函数调整初始图像分类模型的参数,训练得到图像分类模型,其中,在所述初始图像分类模型中,通过特征提取模块提取输入的样本图像的特征信息,通过注意力模块基于特征信息得到易区分信息和易混淆信息,通过特征融合模块融合输入的样本图像对应的特征信息、易区分信息和易混淆信息,所述第一损失函数用于诱导所述注意力模块得到易区分信息,所述第二损失函数用于诱导所述注意力模块得到易混淆信息,所述第三损失函数用于诱导初始图像分类模型输出分类标签。
18.根据权利要求17所述的装置,其中,所述特征提取模块提取的特征信息包括特征层次递进的多个特征图;
所述通过注意力模块基于特征信息得到易区分信息和易混淆信息,包括:
针对于所述特征信息中的至少一个特征图中的每个特征图,通过注意力模块获取对应于该特征图的易区分信息和易混淆信息;以及
所述通过特征融合模块融合样本图像对应的特征信息、易区分信息和易混淆信息,包括:
通过所述特征融合模块融合所述至少一个特征图、至少一个易区分信息和至少一个易混淆信息。
19.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
20.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011005211.6A CN112308090B (zh) | 2020-09-21 | 2020-09-21 | 图像分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011005211.6A CN112308090B (zh) | 2020-09-21 | 2020-09-21 | 图像分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112308090A true CN112308090A (zh) | 2021-02-02 |
CN112308090B CN112308090B (zh) | 2024-06-18 |
Family
ID=74488244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011005211.6A Active CN112308090B (zh) | 2020-09-21 | 2020-09-21 | 图像分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308090B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569986A (zh) * | 2021-08-18 | 2021-10-29 | 网易(杭州)网络有限公司 | 计算机视觉数据分类方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3349152A1 (en) * | 2017-01-17 | 2018-07-18 | Catchoom Technologies S.L. | Classifying data |
CN111126386A (zh) * | 2019-12-20 | 2020-05-08 | 复旦大学 | 场景文本识别中基于对抗学习的序列领域适应方法 |
CN111368893A (zh) * | 2020-02-27 | 2020-07-03 | Oppo广东移动通信有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111414951A (zh) * | 2020-03-16 | 2020-07-14 | 中国人民解放军国防科技大学 | 用于图像的细分类方法及装置 |
CN111652273A (zh) * | 2020-04-27 | 2020-09-11 | 西安工程大学 | 一种基于深度学习的rgb-d图像分类方法 |
-
2020
- 2020-09-21 CN CN202011005211.6A patent/CN112308090B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3349152A1 (en) * | 2017-01-17 | 2018-07-18 | Catchoom Technologies S.L. | Classifying data |
CN111126386A (zh) * | 2019-12-20 | 2020-05-08 | 复旦大学 | 场景文本识别中基于对抗学习的序列领域适应方法 |
CN111368893A (zh) * | 2020-02-27 | 2020-07-03 | Oppo广东移动通信有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111414951A (zh) * | 2020-03-16 | 2020-07-14 | 中国人民解放军国防科技大学 | 用于图像的细分类方法及装置 |
CN111652273A (zh) * | 2020-04-27 | 2020-09-11 | 西安工程大学 | 一种基于深度学习的rgb-d图像分类方法 |
Non-Patent Citations (1)
Title |
---|
何山;方利;张政;: "基于改进的区域全卷积神经网络和联合双边滤波的图像着色方法", 激光与光电子学进展, no. 12, 25 June 2020 (2020-06-25) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569986A (zh) * | 2021-08-18 | 2021-10-29 | 网易(杭州)网络有限公司 | 计算机视觉数据分类方法、装置、电子设备及存储介质 |
CN113569986B (zh) * | 2021-08-18 | 2023-06-30 | 网易(杭州)网络有限公司 | 计算机视觉数据分类方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112308090B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110288049B (zh) | 用于生成图像识别模型的方法和装置 | |
CN108427939B (zh) | 模型生成方法和装置 | |
CN108280477B (zh) | 用于聚类图像的方法和装置 | |
CN108960316B (zh) | 用于生成模型的方法和装置 | |
CN109376267B (zh) | 用于生成模型的方法和装置 | |
CN110046254B (zh) | 用于生成模型的方法和装置 | |
CN109740018B (zh) | 用于生成视频标签模型的方法和装置 | |
CN112232384A (zh) | 模型训练方法、图像特征提取方法、目标检测方法和装置 | |
CN112966712A (zh) | 语言模型训练方法、装置、电子设备和计算机可读介质 | |
CN111523640B (zh) | 神经网络模型的训练方法和装置 | |
CN110363220B (zh) | 行为类别检测方法、装置、电子设备和计算机可读介质 | |
CN109034069B (zh) | 用于生成信息的方法和装置 | |
CN110009059B (zh) | 用于生成模型的方法和装置 | |
CN109976997B (zh) | 测试方法和装置 | |
CN108416003A (zh) | 一种图片分类方法和装置、终端、存储介质 | |
CN109947989B (zh) | 用于处理视频的方法和装置 | |
CN111311480B (zh) | 图像融合方法和装置 | |
CN108509921B (zh) | 用于生成信息的方法和装置 | |
CN112650867B (zh) | 图片匹配方法、装置、电子设备以及存储介质 | |
CN109816023B (zh) | 用于生成图片标签模型的方法和装置 | |
CN113033682B (zh) | 视频分类方法、装置、可读介质、电子设备 | |
CN114548192A (zh) | 样本数据处理方法、装置、电子设备及介质 | |
US20220180252A1 (en) | Annotation data collection to reduce machine model uncertainty | |
CN115810135A (zh) | 样本分析的方法、电子设备、存储介质和程序产品 | |
CN111582360A (zh) | 用于标注数据的方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |