CN115239986B - 图像分类方法、装置、设备及存储介质 - Google Patents
图像分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115239986B CN115239986B CN202210663966.8A CN202210663966A CN115239986B CN 115239986 B CN115239986 B CN 115239986B CN 202210663966 A CN202210663966 A CN 202210663966A CN 115239986 B CN115239986 B CN 115239986B
- Authority
- CN
- China
- Prior art keywords
- image
- target
- generator
- encoder
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013145 classification model Methods 0.000 claims abstract description 34
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 51
- 238000000605 extraction Methods 0.000 claims description 25
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000003902 lesion Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003759 clinical diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种图像分类方法、装置、设备及存储介质,该方法包括:获取待识别的目标图像,以及图像分类模型,图像分类模型中包括目标编码器、目标生成器和分类器;通过目标编码器提取目标图像的第一目标图像特征,其中,目标编码器用于学习第一图像类别对应的图像特征;将第一目标图像特征输入到目标生成器,以获得目标生成器转换后的第二目标图像特征,其中,目标生成器用于实现第一图像类别对应的图像特征向第二图像类别对应的图像特征的转换,图像分类模型用于识别第一图像类别和第二图像类别;将第二目标图像特征输入到分类器,以获取分类器输出的目标图像类别。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种图像分类方法、装置、设备及存储介质。
背景技术
随着计算机技术的飞速发展,基于计算机视觉、深度学习的图像智能化分析成为研究热门。以医学场景为例,医学影像自动处理为临床诊断、手术规划、临床教学等任务提供了可靠的参考依据。具体的,医学影像的异常检测任务,已经在众多不同的研究和应用领域得到了广泛探索。目前医学影像的异常检测通常采用有监督的学习模式,但是,若异常图像样本(如存在病灶信息的图像等)与正常图像样本之间的差异较小,则会降低网络模型的分类性能。
综上所述,在图像处理场景中,由于图像类内差异较大,而类间差异相对局部,导致网络模型的分类性能较差的问题。
发明内容
本发明实施例提供一种图像分类方法、装置、设备及存储介质,用以提高图像分类效果及效率。
第一方面,本发明实施例提供一种图像分类方法,包括:
获取待识别的目标图像,以及图像分类模型,所述图像分类模型中包括目标编码器、目标生成器和分类器;
通过所述目标编码器提取所述目标图像的第一目标图像特征,其中,所述目标编码器用于学习第一图像类别对应的图像特征;
将所述第一目标图像特征输入到所述目标生成器,以获得所述目标生成器转换后的第二目标图像特征,其中,所述目标生成器用于实现所述第一图像类别对应的图像特征向第二图像类别对应的图像特征的转换,所述图像分类模型用于识别所述第一图像类别和所述第二图像类别;
将所述第二目标图像特征输入到所述分类器,以获取所述分类器输出的目标图像类别。
根据本发明的实施例,所述方法还包括:
采用所述第一图像类别对应的第一样本图像对用于实现图像重建任务的第一自编码网络进行训练,所述第一自编码网络中包括第一编码器和第一解码器;
采用所述第二图像类别对应的第二样本图像对用于实现图像重建任务的第二自编码网络进行训练,所述第二自编码网络中包括第二编码器和第二解码器;
所述目标编码器为所述第一编码器或所述第二编码器。
根据本发明的实施例,所述方法还包括:
使用所述第一编码器对所述第一样本图像进行特征提取得到第一样本图像特征,以及使用所述第二编码器对所述第二样本图像进行特征提取得到第二样本图像特征;
将所述第二样本图像特征输入到第一对抗网络中的第一生成器,将所述第一生成器转换后的第三样本图像特征输入到所述第一对抗网络中的第一判别器,以及将所述第一样本图像特征输入到所述第一判别器,以训练所述第一对抗网络;
将所述第一样本图像特征输入到第二对抗网络中的第二生成器,将所述第二生成器转换后的第四样本图像特征输入到所述第二对抗网络中的第二判别器,以及将所述第二样本图像特征输入到所述第二判别器,以训练所述第二对抗网络;
若所述目标编码器为所述第一编码器,则所述目标生成器为所述第二生成器;若所述目标编码器为所述第二编码器,则所述目标生成器为所述第一生成器。
根据本发明的实施例,在训练所述第一对抗网络和所述第二对抗网络的过程中,所述第一编码器和所述第二编码器的模型参数保持不变。
根据本发明的实施例,所述方法还包括:
获取由所述第一编码器、所述第二生成器以及所述第二解码器构成的第一图像生成模型;
将所述第一样本图像输入所述第一图像生成模型中,以得到由所述第一图像生成模型生成的第五样本图像;
将所述第五样本图像添加到所述第二图像类别对应的样本集中。
根据本发明的实施例,所述方法还包括:
获取由所述第二编码器、所述第一生成器以及所述第一解码器构成的第二图像生成模型;
将所述第二样本图像输入所述第二图像生成模型中,以得到由所述第二图像生成模型生成的第六样本图像;
将所述第六样本图像添加到所述第一图像类别对应的样本集中。
根据本发明的实施例,所述第一图像类别对应的样本图像数量远大于所述第二图像类别对应的样本图像数量。
第二方面,本发明实施例提供一种图像分类装置,包括:
获取模块,用于获取待识别的目标图像,以及图像分类模型,所述图像分类模型中包括目标编码器、目标生成器和分类器;
提取模块,用于通过所述目标编码器提取所述目标图像的第一目标图像特征,其中,所述目标编码器用于学习第一图像类别对应的图像特征;
转换模块,用于将所述第一目标图像特征输入到所述目标生成器,以获得所述目标生成器转换后的第二目标图像特征,其中,所述目标生成器用于实现所述第一图像类别对应的图像特征向第二图像类别对应的图像特征的转换,所述图像分类模型用于识别所述第一图像类别和所述第二图像类别;
分类模块,用于将所述第二目标图像特征输入到所述分类器,以获取所述分类器输出的目标图像类别。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如第一方面所述的图像分类方法。
第四方面,本发明实施例提供一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如第一方面所述的图像分类方法。
本发明实施例中,假设想要对待识别的目标图像进行分类,首先,获取用于识别第一图像类别和第二图像类别的图像分类模型,图像分类模型包括目标编码器、目标生成器和分类器。然后,通过图像分类模型中用于学习第一图像类别对应的图像特征的目标编码器对目标图像进行特征提取,获得第一目标图像特征。通过用于实现第一图像类别对应的图像特征向第二图像类别对应的图像特征的转换的目标生成器,将第一目标图像特征转换为第二目标图像特征。这样,分类器就可以基于第二目标图像特征,对目标图像进行分类,确定目标图像的类别。基于目标生成器,在特征空间实现第一目标图像特征向第二目标图像特征的转换,能够突出第一图像类别与第二图像类别的鉴别特征,进而提升图像分类模型的分类性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像分类方法的流程图。
图2为本发明实施例提供的一种图像分类模型的结构示意图。
图3为本发明实施例提供的第一对抗网络训练方法的流程图。
图4为本发明实施例提供的第二对抗网络训练方法的流程图。
图5为本发明实施例提供的第一图像生成模型的结构示意图。
图6为本发明实施例提供的第二图像生成模型的结构示意图。
图7为本发明实施例提供的一种图像分类装置的结构示意图。
图8为本发明实施例提供的一种电子设备的结构示意图。
图9为本发明实施例提供的另一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
本发明实施例提供的图像分类方法可以由一电子设备来执行,该电子设备可以是诸如PC机、笔记本电脑等终端设备,也可以是服务器。该服务器可以是物理服务器,或者也可以为虚拟服务器。该服务器可以是用户侧的物理或虚拟服务器,也可以为云端服务器。
本发明实施例提供的方案,可以用于实现图像的分类与检测。简单来说,用户(本文中的用户可以是有图像分类、检测需求的研究人员等)在获取到不同的图像之后,可以通过执行本发明实施例提供的方案,实现上述对图像的分类与检测,这样,能够提高图像分类的准确性以及效率。
以目标图像为医学影像为例。目前,基于计算机视觉、深度学习的医学影像智能化分析成为研究热门,医学影像自动处理为临床诊断、手术规划、临床教学等任务提供了可靠的参考依据。由于医学影像具有极强的专业性,医学影像上呈现的异常又具有多样性、复杂性的特点,需要针对特定临床应用的特殊算法进行研究。但是,基于深度学习的医学影像检测仍面临标记样本成本较高且难以获得,正常图像(如健康影像等)与异常图像(如存在病灶信息的影像等)的比例极不平衡的问题。
在样本数量较少的情况下,无法实现对网络模型的充分训练,并且由于图像类内差异较大,而类间差异相对局部的现象,也会导致网络模型的分类性能较差。
需要说明的是,本发明提供的图像分类方法可以应用于医学影像的处理,也可以应用于其他领域的图像处理场景中。
下面结合以下实施例对本发明提供的图像生成方法的执行过程进行详细说明。
图1为本发明实施例提供的一种图像分类方法的流程图,如图1所示,该图像分类方法可以包括如下步骤:
S101,获取待识别的目标图像,以及图像分类模型。
S102,通过目标编码器提取目标图像的第一目标图像特征。
S103,将第一目标图像特征输入到目标生成器,以获得目标生成器转换后的第二目标图像特征。
S104,将第二目标图像特征输入到分类器,以获取分类器输出的目标图像类别。
首先,获取待识别的目标图像以及图像分类模型。在本实施例中,图像分类模型用于识别第一图像类别和第二图像类别,具体的,如图2所示,本发明实施例提供的图像分类模型包括目标编码器、目标生成器和分类器。
其中,第一图像类别和第二图像类别中的图像分别对应有不同的图像特征,相应的,第一图像类别和第二图像类别中的图像也可以具有相同的图像特征。以目标图像为医学影像图像为例,第一图像类别可以包括正常图像,正常图像可以是不含有病灶信息的健康图像等。第二图像类别可以包括异常图像,异常图像可以是含有病灶信息的病灶图像等。
目标编码器用于学习第一图像类别的图像特征,可以实现对目标图像的特征提取的处理。目标生成器用于实现第一图像类别对应的图像特征向第二图像类别对应的图像特征的转换。
然后,通过目标编码器提取目标图像的第一目标图像特征。
目标图像可以对应于第一图像类别或第二图像类别,因此,目标图像中可以包括第一图像类别对应的图像特征或第二图像类别对应的图像特征。在本实施例中,第一目标图像特征可以是第一图像类别对应的图像特征,第一目标图像特征也可以是第二图像类别对应的图像特征。相应的,用于特征提取的目标编码器可以通过基于第一图像类别对应的第一样本图像对第一自编码网络进行训练得到,也可以通过基于第二图像类别对应的第二样本图像对自编码网络进行训练得到。
在获取到第一目标图像特征之后,将第一目标图像特征输入到目标生成器中,通过目标生成器对第一目标图像特征进行处理,以得到第二目标图像特征。
在本实施例中,由于目标生成器可以用于实现第一图像类别对应的图像特征向第二图像类别对应的图像特征的转换,因此,在将第一目标图像特征输入至目标生成器后,目标生成器可以将第一图像类别对应的第一目标图像特征转换为第二图像类别对应的第二目标图像特征。
最后,将第二目标图像特征输入至分类器后,分类器可以对第二目标图像特征进行识别,以确定该目标图像的图像类别。
在本实施例中,通过用于实现第一图像类别对应的图像特征向第二图像类别对应的图像特征的转换的目标生成器,将第一目标图像特征转换为第二目标图像特征。这样,分类器就可以基于第二目标图像特征,对目标图像进行分类,确定目标图像的类别。基于目标生成器,在特征空间实现第一目标图像特征向第二目标图像特征的转换,能够突出第一图像类别与第二图像类别的鉴别特征,削弱但保留了其他可用于描述图像的复杂背景特征,减少了训练过程中网络遗漏鉴别特征,进而提升图像分类模型的分类性能。
为了便于理解上述图像分类模型,下面结合具体实施例对图像分类模型的训练过程进行说明。
实际应用中,图像分类模型中的目标编码器可以为第一编码器或第二编码器。其中,第一编码器可以通过基于第一图像类别对应的第一样本图像对第一自编码网络进行训练得到。第二编码器可以通过基于第二图像类别对应的第二样本图像对自编码网络进行训练得到。
具体的,可以采用第一图像类别对应的第一样本图像对用于实现图像重建任务的第一自编码网络进行训练,第一自编码网络中包括第一编码器和第一解码器。以及,采用第二图像类别对应的第二样本图像对用于实现图像重建任务的第二自编码网络进行训练,第二自编码网络中包括第二编码器和第二解码器。
需要说明的是,上述第一自编码网络以及第二自编码网络的具体训练过程可以基于本领域中任意自编码网络的训练方法实现,本发明在此不做赘述。
在本发明的实施例中,与上述目标编码器相对应,目标生成器可以为第一生成器和第二生成器。具体的,若目标编码器为第一编码器,则目标生成器为第二生成器;若目标编码器为第二编码器,则目标生成器为第一生成器。
在实际应用中,第一生成器可以基于第一样本图像和第二样本图像对第一对抗网络进行训练得到,相应的,第二生成器也可以基于第一样本图像和第二样本图像对第二对抗网络进行训练得到。其中,第一对抗网络可以包括第一生成器和第一判别器,第二对抗网络可以包括第二生成器和第二判别器。
图3为本发明实施例提供的第一对抗网络训练方法的流程图,如图3所示,该训练方法可以包括如下步骤:
S301,使用第一编码器对第一样本图像进行特征提取得到第一样本图像特征。
在本实施例中,在对第一对抗网络的训练过程中,第一编码器的模型参数保持不变。
S302,使用第二编码器对第二样本图像进行特征提取得到第二样本图像特征。
在本实施例中,在对第一对抗网络的训练过程中,第二编码器的模型参数保持不变。
S303,将第二样本图像特征输入到第一对抗网络中的第一生成器,输出第三样本图像。
在本实施例中,第三样本图像是第一生成器对第二样本图像进行转换得到的。
S304,将第三样本图像和第一样本图像输入至第一对抗网络中的第一判别器,以训练第一对抗网络。
实际应用中,再将第三样本图像和第一样本图像输入至第一判别器后,第一判别器可以基于第三样本图像和第一样本图像确定判别结果,然后,基于判别结果,采用目标损失函数对所述生成器和所述判别器进行训练,得到训练后的第一生成对抗网络。具体的,可以先固定第一生成器的网络参数,采用基于目标损失函数设定的损失函数对第一判别器的网络参数进行训练,得到训练后的第一判别器;随后,固定第一判别器的网络参数,采用基于目标损失函数设定的损失函数对所述第一生成器的网络参数进行训练,得到训练后的第一生成器。需要说明的是,在本实施例中,目标损失函数可以包括基于无偏估计设定的对数损失函数等。
以图像分类模型为用于医学影像分类的模型,第一样本图像为正常图像,第二样本图像为异常图像为例,则第一编码器用于学习正常图像类别对应的图像特征,第二编码器用于学习异常图像类别对应的图像特征。
在对第一对抗网络进行训练时,首先,使用第一编码器对正常图像进行特征提取得到正常样本图像特征,使用第二编码器对异常图像进行特征提取得到异常样本图像特征。然后,将异常样本图像特征输入至第一生成器中,以通过第一生成器将异常样本图像特征进行转换,得到由异常样本图像特征转换后的正常样本图像特征。
将正常样本图像特征作为真实输入,将由异常样本图像特征转换后的正常样本图像特征作为第一生成器的输入,利用第一判别器判别上述两个图像特征,最后基于判别结果对第一生成器和第一判别器进行训练。
需要说明的是,上述第一对抗网络的具体训练过程可以基于本领域中任意生成对抗网络的训练方法实现,本发明在此不做赘述。
图4为本发明实施例提供的第二对抗网络训练方法的流程图,如图4所示,该训练方法可以包括如下步骤:
S401,使用第一编码器对第一样本图像进行特征提取得到第一样本图像特征。
在本实施例中,在对第二对抗网络的训练过程中,第一编码器的模型参数保持不变。
S402,使用第二编码器对第二样本图像进行特征提取得到第二样本图像特征。
在本实施例中,在对第二对抗网络的训练过程中,第二编码器的模型参数保持不变。
S403,将第一样本图像特征输入到第二对抗网络中的第二生成器,输出第四样本图像。
在本实施例中,第三样本图像是第二生成器对第二样本图像进行转换得到的。
S404,将第四样本图像和第二样本图像输入至第二对抗网络中的第二判别器,以训练第二对抗网络。
实际应用中,再将第三样本图像和第一样本图像输入至第二判别器后,第二判别器可以基于第三样本图像和第一样本图像确定判别结果,然后,基于判别结果,采用目标损失函数对所述生成器和所述判别器进行训练,得到训练后的第一生成对抗网络。具体的,可以先固定第二生成器的网络参数,采用基于目标损失函数设定的损失函数对第二判别器的网络参数进行训练,得到训练后的第二判别器;随后,固定第二判别器的网络参数,采用基于目标损失函数设定的损失函数对所述第二生成器的网络参数进行训练,得到训练后的第二生成器。需要说明的是,在本实施例中,目标损失函数可以包括基于无偏估计设定的对数损失函数等。
需要说明的是,上述第二对抗网络的训练过程与第一对抗网络的训练过程相似,第二对抗网络的具体训练过程可参照第一对抗网络的训练过程,本发明在此不做赘述。
在一些训练场景中,经常会出现第一图像类别对应的样本图像与第二图像类别对应的样本图像数量不均衡的情况。例如,在医学领域中,医学影像中的异常图像样本难以获得,正常图像样本的数量远远多于异常图像样本的数量,即第一图像类别对应的样本图像数量远大于第二图像类别对应的样本图像数量。在这种情况下,也会影响图像分类模型的训练效果,导致图像分类模型的分类性能较差。
为了克服上述问题,可以对数量较少的样本进行样本扩充处理。
在本实施例中,若需要扩充第二样本图像的数量,可以基于第一图像生成模型实现。
图5为本发明实施例提供的第一图像生成模型的结构示意图,如图5所示,该第一图像生成模型包括第一编码器501、第二生成器502以及第二解码器503。
实际应用中,首先,获取由第一编码器501、第二生成器502以及第二解码器503构成的第一图像生成模型。
然后,将第一样本图像输入第一图像生成模型中,以得到由第一图像生成模型生成的第五样本图像。具体的,将第一样本图像输入至第一编码器501中,通过第一编码器501对第一样本图像进行特征提取,得到第一样本图像特征。第二生成器502将第一样本图像特征转换为第五样本图像特征,随后第二解码器503基于第五样本图像特征生成第五样本图像。
最后,将第五样本图像添加到第二图像类别对应的样本集中。
相应的,若扩充第一样本图像的数量,可以基于第二图像生成模型实现。
图6为本发明实施例提供的第二图像生成模型的结构示意图,如图6所示,该第二图像生成模型包括第二编码器601、第一生成器602以及第一解码器603。
实际应用中,首先,获取由第二编码器601、第一生成器602以及第一解码器603构成的第二图像生成模型。
然后,将第二样本图像输入第二图像生成模型中,以得到由第二图像生成模型生成的第六样本图像。具体的,将第一样本图像输入至第二编码器601中,通过第二编码器601对第一样本图像进行特征提取,得到第一样本图像特征。第一生成器602将第一样本图像特征转换为第五样本图像特征,随后第一解码器603基于第五样本图像特征生成第五样本图像。
最后,将第六样本图像添加到第一图像类别对应的样本集中。
在本发明的实施例中,第一生成器和第二生成器的网络结果可以同时包含通道注意力机制、空间注意力机制和残差模块,具体的,可以由两个嵌入至残差网络的卷积块注意模块(Convolutional Block Attention Module,简称CBAM)级联构成;第一判别器和第二判别器可以由两个卷积层一个池化层和三个全连接层组成;第一编码器和第二编码器可以由卷积输入层、下采样层和残差层组成,相应的,第一解码器和第二解码器可以由残差层、上采样层和卷积输出层组成;分类器可以由四个卷积层和三个全连接层组成。
需要说明的是,本发明实施中所提供的自编码器、生成对抗网络以及分类器的网络结构仅为示意性结构,自编码器、生成对抗网络以及分类器的网络结构可以根据图像重建难度和特征维度的不同进行针对性的改变。
图7为本发明实施例提供的一种图像分类装置的结构示意图,如图7所示,该装置包括:获取模块701、提取模块702、转换模块703和分类模块704。
获取模块701,用于获取待识别的目标图像,以及图像分类模型,图像分类模型中包括目标编码器、目标生成器和分类器。
提取模块702,用于通过目标编码器提取目标图像的第一目标图像特征,其中,目标编码器用于学习第一图像类别对应的图像特征。
转换模块703,用于将第一目标图像特征输入到目标生成器,以获得目标生成器转换后的第二目标图像特征,其中,目标生成器用于实现第一图像类别对应的图像特征向第二图像类别对应的图像特征的转换,图像分类模型用于识别第一图像类别和第二图像类别。
分类模块704,用于将第二目标图像特征输入到分类器,以获取分类器输出的目标图像类别。
根据本发明的实施例,该装置还包括训练模块。
训练模块,用于采用第一图像类别对应的第一样本图像对用于实现图像重建任务的第一自编码网络进行训练,第一自编码网络中包括第一编码器和第一解码器;以及采用第二图像类别对应的第二样本图像对用于实现图像重建任务的第二自编码网络进行训练,第二自编码网络中包括第二编码器和第二解码器。
根据本发明的实施例,目标编码器为第一编码器或第二编码器。
根据本发明的实施例,提取模块702,还用于使用第一编码器对第一样本图像进行特征提取得到第一样本图像特征,以及使用第二编码器对第二样本图像进行特征提取得到第二样本图像特征。
训练模块,还用于将第二样本图像特征输入到第一对抗网络中的第一生成器,将第一生成器转换后的第三样本图像特征输入到第一对抗网络中的第一判别器,以及将第一样本图像特征输入到第一判别器,以训练第一对抗网络;以及将第一样本图像特征输入到第二对抗网络中的第二生成器,将第二生成器转换后的第四样本图像特征输入到第二对抗网络中的第二判别器,以及将第二样本图像特征输入到第二判别器,以训练第二对抗网络;
根据本发明的实施例,若目标编码器为第一编码器,则目标生成器为第二生成器;若目标编码器为第二编码器,则目标生成器为第一生成器。
根据本发明的实施例,在训练第一对抗网络和第二对抗网络的过程中,第一编码器和第二编码器的模型参数保持不变。
根据本发明的实施例,获取模块701,还用于获取由第一编码器、第二生成器以及第二解码器构成的第一图像生成模型;将第一样本图像输入第一图像生成模型中,以得到由第一图像生成模型生成的第五样本图像;将第五样本图像添加到第二图像类别对应的样本集中。
根据本发明的实施例,获取模块701,还用于获取由第二编码器、第一生成器以及第一解码器构成的第二图像生成模型;将第二样本图像输入第二图像生成模型中,以得到由第二图像生成模型生成的第六样本图像;将第六样本图像添加到第一图像类别对应的样本集中。
根据本发明的实施例,第一图像类别对应的样本图像数量远大于第二图像类别对应的样本图像数量。
在一个可能的设计中,上述图7所示的图像分类装置的结构可实现为一电子设备。如图8所示,该电子设备800可以包括:处理器801、存储器802。其中,存储器802上存储有可执行代码,当所述可执行代码被处理器801执行时,至少使处理器801可以实现如前述图1所示实施例中提供的图像分类方法。
其中,该控制设备的结构中还可以包括通信接口803,用于与其他设备通信。
图9为本发明实施例提供的另一种电子设备的结构示意图,如图9所示,上述电子设备900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)接口912,传感器组件914,以及通信组件916。
处理组件902通常控制电子设备900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法S101-S105中的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在电子设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为电子设备900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为电子设备900生成、管理和分配电力相关联的组件。
多媒体组件908包括在电子设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当电子设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当电子设备900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
输入/输出接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为电子设备900提供各个方面的状态评估。例如,传感器组件914可以检测到电子设备900的打开/关闭状态,组件的相对定位,例如所述组件为电子设备900的显示器和小键盘,传感器组件914还可以检测电子设备900或电子设备900一个组件的位置改变,用户与电子设备900接触的存在或不存在,电子设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络,如WiFi,2G或3G或4G或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由电子设备900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行前述图1所示实施例中提供的电子凭证发放方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的各个模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对本发明做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种图像分类方法,其特征在于,包括:
获取待识别的目标图像,以及图像分类模型,所述图像分类模型中包括目标编码器、目标生成器和分类器;
通过所述目标编码器提取所述目标图像的第一目标图像特征,其中,所述目标编码器用于学习第一图像类别对应的图像特征;
将所述第一目标图像特征输入到所述目标生成器,以获得所述目标生成器转换后的第二目标图像特征,其中,所述目标生成器用于实现所述第一图像类别对应的图像特征向第二图像类别对应的图像特征的转换,所述图像分类模型用于识别所述第一图像类别和所述第二图像类别;
将所述第二目标图像特征输入到所述分类器,以获取所述分类器输出的目标图像类别,所述目标图像类别为第一图像类别或者为第二图像类别,所述第一图像类别为正常图像类别,所述第二图像类别为异常图像类别;
所述目标编码器为第一自编码网络中的第一编码器,所述目标生成器为第二对抗网络中的第二生成器;其中,所述第一自编码网络用于实现图像重建任务,是采用第一图像类别对应的第一样本图像进行训练得到的;
其中,所述第二对抗网络的训练过程为:使用所述第一编码器对所述第一样本图像进行特征提取得到第一样本图像特征,以及使用第二自编码网络中的第二编码器对第二图像类别对应的第二样本图像进行特征提取得到第二样本图像特征;将所述第一样本图像特征输入到第二对抗网络中的第二生成器,将所述第二生成器转换后的第四样本图像特征和所述第二样本图像特征输入到所述第二对抗网络中的第二判别器进行对抗训练,以得到所述第二对抗网络,所述第二对抗网络中的第二生成器用于将输入的图像特征向第二图像类别对应的图像特征转换;
或者,
所述目标编码器为第二自编码网络中的第二编码器,所述目标生成器为第一对抗网络中的第一生成器;其中,所述第二自编码网络用于实现图像重建任务,是采用第二图像类别对应的第二样本图像进行训练得到的;
其中,所述第一对抗网络的训练过程为:使用所述第一编码器对所述第一样本图像进行特征提取得到第一样本图像特征,以及使用第二自编码网络中的第二编码器对第二图像类别对应的第二样本图像进行特征提取得到第二样本图像特征;将所述第二样本图像特征输入到第一对抗网络中的第一生成器,将所述第一生成器转换后的第三样本图像特征和所述第一样本图像特征输入到所述第一对抗网络中的第一判别器进行对抗训练,以得到所述第一对抗网络,所述第一对抗网络中的第一生成器用于将输入的图像特征向第一图像类别对应的图像特征转换。
2.根据权利要求1所述的方法,其特征在于,在训练所述第一对抗网络和所述第二对抗网络的过程中,所述第一编码器和所述第二编码器的模型参数保持不变。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取由所述第一编码器、所述第二生成器以及第二解码器构成的第一图像生成模型;
将所述第一样本图像输入所述第一图像生成模型中,以得到由所述第一图像生成模型生成的第五样本图像;
将所述第五样本图像添加到所述第二图像类别对应的样本集中。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取由所述第二编码器、所述第一生成器以及第一解码器构成的第二图像生成模型;
将所述第二样本图像输入所述第二图像生成模型中,以得到由所述第二图像生成模型生成的第六样本图像;
将所述第六样本图像添加到所述第一图像类别对应的样本集中。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一图像类别对应的样本图像数量大于所述第二图像类别对应的样本图像数量。
6.一种图像分类装置,其特征在于,包括:
获取模块,用于获取待识别的目标图像,以及图像分类模型,所述图像分类模型中包括目标编码器、目标生成器和分类器;
提取模块,用于通过所述目标编码器提取所述目标图像的第一目标图像特征,其中,所述目标编码器用于学习第一图像类别对应的图像特征;
转换模块,用于将所述第一目标图像特征输入到所述目标生成器,以获得所述目标生成器转换后的第二目标图像特征,其中,所述目标生成器用于实现所述第一图像类别对应的图像特征向第二图像类别对应的图像特征的转换,所述图像分类模型用于识别所述第一图像类别和所述第二图像类别;
分类模块,用于将所述第二目标图像特征输入到所述分类器,以获取所述分类器输出的目标图像类别,所述目标图像类别为第一图像类别或者为第二图像类别,所述第一图像类别为正常图像类别,所述第二图像类别为异常图像类别;
所述目标编码器为第一自编码网络中的第一编码器,所述目标生成器为第二对抗网络中的第二生成器;其中,所述第一自编码网络用于实现图像重建任务,是采用第一图像类别对应的第一样本图像进行训练得到的;
其中,所述第二对抗网络的训练过程为:使用所述第一编码器对所述第一样本图像进行特征提取得到第一样本图像特征,以及使用第二自编码网络中的第二编码器对第二图像类别对应的第二样本图像进行特征提取得到第二样本图像特征;将所述第一样本图像特征输入到第二对抗网络中的第二生成器,将所述第二生成器转换后的第四样本图像特征和所述第二样本图像特征输入到所述第二对抗网络中的第二判别器进行对抗训练,以得到所述第二对抗网络,所述第二对抗网络中的第二生成器用于将输入的图像特征向第二图像类别对应的图像特征转换;
或者,
所述目标编码器为第二自编码网络中的第二编码器,所述目标生成器为第一对抗网络中的第一生成器;其中,所述第二自编码网络用于实现图像重建任务,是采用第二图像类别对应的第二样本图像进行训练得到的;
其中,所述第一对抗网络的训练过程为:使用所述第一编码器对所述第一样本图像进行特征提取得到第一样本图像特征,以及使用第二自编码网络中的第二编码器对第二图像类别对应的第二样本图像进行特征提取得到第二样本图像特征;将所述第二样本图像特征输入到第一对抗网络中的第一生成器,将所述第一生成器转换后的第三样本图像特征和所述第一样本图像特征输入到所述第一对抗网络中的第一判别器进行对抗训练,以得到所述第一对抗网络,所述第一对抗网络中的第一生成器用于将输入的图像特征向第一图像类别对应的图像特征转换。
7.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至5中任一项所述的图像分类方法。
8.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至5中任一项所述的图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663966.8A CN115239986B (zh) | 2022-06-10 | 2022-06-10 | 图像分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663966.8A CN115239986B (zh) | 2022-06-10 | 2022-06-10 | 图像分类方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115239986A CN115239986A (zh) | 2022-10-25 |
CN115239986B true CN115239986B (zh) | 2023-11-07 |
Family
ID=83670282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210663966.8A Active CN115239986B (zh) | 2022-06-10 | 2022-06-10 | 图像分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115239986B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699809A (zh) * | 2020-12-31 | 2021-04-23 | 深圳数联天下智能科技有限公司 | 痘痘类别识别方法、装置、计算机设备及存储介质 |
CN113947136A (zh) * | 2021-09-30 | 2022-01-18 | 清华大学 | 图像压缩和分类方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726308B2 (en) * | 2017-07-07 | 2020-07-28 | Accenture Global Solutions Limited | Image content moderation |
-
2022
- 2022-06-10 CN CN202210663966.8A patent/CN115239986B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699809A (zh) * | 2020-12-31 | 2021-04-23 | 深圳数联天下智能科技有限公司 | 痘痘类别识别方法、装置、计算机设备及存储介质 |
CN113947136A (zh) * | 2021-09-30 | 2022-01-18 | 清华大学 | 图像压缩和分类方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115239986A (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11532180B2 (en) | Image processing method and device and storage medium | |
CN110647834B (zh) | 人脸和人手关联检测方法及装置、电子设备和存储介质 | |
CN111462268B (zh) | 图像重建方法及装置、电子设备和存储介质 | |
US10930010B2 (en) | Method and apparatus for detecting living body, system, electronic device, and storage medium | |
US11455788B2 (en) | Method and apparatus for positioning description statement in image, electronic device, and storage medium | |
US20210248718A1 (en) | Image processing method and apparatus, electronic device and storage medium | |
US20210103733A1 (en) | Video processing method, apparatus, and non-transitory computer-readable storage medium | |
KR102538164B1 (ko) | 이미지 처리 방법 및 장치, 전자 장치 및 기억 매체 | |
US11461925B2 (en) | Pose prediction method and apparatus, and model training method and apparatus | |
CN112149740B (zh) | 目标重识别方法、装置、存储介质及设备 | |
EP3901827B1 (en) | Image processing method and apparatus based on super network, intelligent device and computer storage medium | |
CN110889469A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110532956B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
EP3043246A1 (en) | Apparatus and method for implementing functions of touch button and fingerprint identification, and terminal device | |
CN109934275B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN107527059A (zh) | 文字识别方法、装置及终端 | |
CN109145970B (zh) | 基于图像的问答处理方法和装置、电子设备及存储介质 | |
CN111931844A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN109977860B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN112016344A (zh) | 信号指示灯的状态检测方法及装置、驾驶控制方法及装置 | |
CN113313115B (zh) | 车牌属性识别方法及装置、电子设备和存储介质 | |
CN114338083A (zh) | 控制器局域网络总线异常检测方法、装置和电子设备 | |
CN113139471A (zh) | 目标检测方法及装置、电子设备和存储介质 | |
CN113269307A (zh) | 神经网络训练方法以及目标重识别方法 | |
CN112819714A (zh) | 目标对象曝光方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |