CN112801238A - 一种图像分类方法、装置、电子设备及存储介质 - Google Patents
一种图像分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112801238A CN112801238A CN202110403926.5A CN202110403926A CN112801238A CN 112801238 A CN112801238 A CN 112801238A CN 202110403926 A CN202110403926 A CN 202110403926A CN 112801238 A CN112801238 A CN 112801238A
- Authority
- CN
- China
- Prior art keywords
- pixel
- image
- representation
- feature
- preset category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000000605 extraction Methods 0.000 claims description 53
- 238000013145 classification model Methods 0.000 claims description 18
- 230000003902 lesion Effects 0.000 claims description 13
- 230000004256 retinal image Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 210000001525 retina Anatomy 0.000 claims description 7
- 206010012689 Diabetic retinopathy Diseases 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000036285 pathological change Effects 0.000 description 6
- 231100000915 pathological change Toxicity 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002207 retinal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 201000010183 Papilledema Diseases 0.000 description 1
- 206010038848 Retinal detachment Diseases 0.000 description 1
- 208000017442 Retinal disease Diseases 0.000 description 1
- 206010038886 Retinal oedema Diseases 0.000 description 1
- 206010038923 Retinopathy Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000002189 macula lutea Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004264 retinal detachment Effects 0.000 description 1
- 201000011195 retinal edema Diseases 0.000 description 1
- 210000001210 retinal vessel Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图像分类方法、装置、电子设备及存储介质,该方法包括:确定待分类图像中每一像素的特征表示;基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别;其中,所述全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。本发明提供的方法、装置、电子设备及存储介质,采用像素级的特征增强方式提高了对图像中细节的表达能力,提高了图像的分类准确性。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种图像分类方法、装置、电子设备及存储介质。
背景技术
深度学习是近年来机器学习领域一个热门研究方向,已经在计算机视觉、自然语言处理等领域获得了巨大的成功。尤其是深度卷积神经网络,凭借局部感受野、共享权值以及特征下采样等特点,在图像分类任务中表现出优越的性能。
现有技术中,一般是通过提取图像特征来对图像进行分类的,图像特征往往是基于整个图像进行提取,对图像中细节的表达能力较差,使得图像的分类准确性差。
发明内容
本发明提供一种图像分类方法、装置、电子设备及存储介质,用以解决现有技术中的图像分类方法对图像中细节的表达能力较差,图像的分类准确性差的技术问题。
本发明提供一种图像分类方法,包括:
确定待分类图像中每一像素的特征表示;
基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;
基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别;
其中,所述全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。
根据本发明提供的图像分类方法,所述各个预设类别对应的全局特征表示是基于如下步骤确定的:
确定多个样本图像以及每一样本图像中每一像素对应的预设类别;
基于任一样本图像中每一像素的特征表示和对应的预设类别,以及每一像素在所述任一样本图像中的像素位置,确定所述任一样本图像中各个预设类别对应的区域特征表示;
基于每一样本图像中各个预设类别对应的区域特征表示,确定各个预设类别对应的全局特征表示。
根据本发明提供的图像分类方法,所述基于每一样本图像中各个预设类别对应的区域特征表示,确定各个预设类别对应的全局特征表示,包括:
基于每一样本图像中各个预设类别对应的区域特征表示,确定迭代计算序列;
基于当前样本图像中各个预设类别对应的区域特征表示,以及上一次迭代计算的各个预设类别对应的全局特征表示预测值,确定当前次迭代计算的各个预设类别对应的全局特征表示预测值;
将最后一次迭代计算的各个预设类别对应的全局特征表示预测值作为各个预设类别对应的全局特征表示。
根据本发明提供的图像分类方法,所述基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示,包括:
基于任一像素的特征表示,以及每一预设类别对应的全局特征表示,确定所述任一像素与每一预设类别对应的全局特征表示之间的相似度;
基于所述任一像素与每一预设类别对应的全局特征表示之间的相似度,以及每一预设类别对应的全局特征表示,确定所述任一像素的特征增强表示。
根据本发明提供的图像分类方法,所述基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别,包括:
将每一像素的特征表示和特征增强表示,输入至图像分类模型,得到所述图像分类模型输出的所述待分类图像对应的预设类别;
其中,所述图像分类模型是基于确定所述全局特征表示的样本图像训练得到的。
根据本发明提供的图像分类方法,所述确定待分类图像中每一像素的特征表示,包括:
将所述待分类图像输入至特征提取模型,得到所述特征提取模型输出的每一像素的特征表示;
其中,所述特征提取模型包括一个特征提取主网络以及与所述特征提取主网络并行连接的多个特征提取子网络;所述特征提取子网络的感受野小于所述特征提取主网络的感受野。
根据本发明提供的图像分类方法,所述待分类图像为视网膜图像,所述预设类别为视网膜的病变类型。
本发明还提供一种图像分类装置,包括:
特征提取单元,用于确定待分类图像中每一像素的特征表示;
特征增强单元,用于基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;
图像分类单元,用于基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别;
其中,所述全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像分类方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像分类方法的步骤。
本发明实施例提供的图像分类方法、装置、电子设备及存储介质,通过样本图像,以及样本图像中每一像素对应的预设类别确定的全局特征表示,对待分类图像中每一像素的特征表示进行增强后得到每一像素的特征增强表示,再结合每一像素的特征表示和特征增强表示,确定待分类图像对应的预设类别,采用像素级的特征增强方式,利用了像素中的有效信息,减少了无效信息的干扰,增强了每一像素的判别力,提高了对图像中细节的表达能力,提高了图像的分类准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的图像分类方法的流程示意图;
图2为本发明提供的视网膜图像病变分类识别模型的结构示意图;
图3为本发明提供的特征增强网络的结构示意图;
图4为本发明提供的图像分类装置的结构示意图;
图5为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的图像分类方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待分类图像中每一像素的特征表示。
具体地,对图像进行分类,就是利用计算机对图像进行分析,把图像或图像中的每个像素或者区域划归为若干个类别中的某一种,以代替人的视觉判读。待分类图像可以为医学图像、照片、艺术绘画等。
像素的特征表示为对像素所具有的属性进行表示,例如,像素的特征表示可以体现为向量形式。像素的属性可以包括尺寸、颜色、亮度和位置等。例如,可以采用特征向量对像素的像素值进行表示,像素值代表了该像素所在图像区域内的平均亮度信息,其取值可以为[0,255]。
步骤120,基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;其中,全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。
具体地,预设类别为图像对应的分类结果,可以预先根据图像的内容进行设定。一个图像可以对应一个预设类别,也可以对应多个预设类别。
例如,如果待分类图像为糖尿病视网膜病变图像,则预设类别可以为视网膜水肿、视网膜黄斑、视网膜血管阻塞和视网膜脱落等。又例如,如果待分类图像为汽车照片,则预设类别可以为汽车的各个类型等,比如卡车、轿车、货车等。
全局特征表示为预设类别在多个图像中的像素特征,用于衡量像素与多个图像中各个预设类别之间的相似程度。全局特征表示可以通过对大量的样本图像中的像素进行特征提取后分析得到。
可以预先收集大量的样本图像,然后对每一样本图像中每一像素对应的预设类别进行标注。根据标注后的结果,可以得到每一预设类别在每一样本图像中的像素区域。例如,可以收集大量的视网膜图像,对每一张视网膜图像中的每一像素对应的视网膜病变类型进行标注,可以得到每一张视网膜图像中的病变区域。然后,对同一类型的预设类别在所有样本图像中对应的像素进行特征提取,得到各个预设类别对应的全局特征表示。
由于各个预设类别对应的全局特征表示反映了像素与所有样本图像中各个预设类别之间的相似程度,可以根据相似程度的大小对像素的特征表示进行增强。例如,与预设类别相似程度大的像素,可以赋予较大的权值,使得该像素的特征表示中的有效信息更加明显,根据该像素确定的预设类别也更加准确和可靠。
若每一像素的特征表示,以及各个预设类别对应的全局特征表示均采用向量表示,则可以采用向量相乘或者相加的方式,对每一像素的特征表示进行增强,得到每一像素的特征增强表示。
步骤130,基于每一像素的特征表示和特征增强表示,确定待分类图像对应的预设类别。
具体地,采用了各个预设类别对应的全局特征表示对每一像素的特征表示进行增强后,得到的特征增强表示。由于在增强的过程中,可能会存在过度增强的情况,例如,增强了像素中的无效信息,使得仅采用特征增强表示无法得到准确的预设类别。
因此,对于每一像素,可以采用特征表示和特征增强表示相结合的方式,既能够利用特征表示中保留的最原始的图像细节信息,又能够利用特征增强表示中保留的可以用于分类的有效信息,从而提高预设类别的准确性。
例如,某图像的每一像素的特征表示可以用特征维度为256的特征图A表示,每一像素的特征增强表示可以用特征维度为256的特征图B表示,将特征图A和特征图B按照通道维度进行拼接后,得到特征维度为512的特征图C,经过一层1x1的卷积核改变通道数之后,可以得到特征维度为256的特征图D。将特征图D用于对该图像进行分类,得到该图像对应的预设类别。
本发明实施例提供的图像分类方法,通过样本图像,以及样本图像中每一像素对应的预设类别确定的全局特征表示,对待分类图像中每一像素的特征表示进行增强后得到每一像素的特征增强表示,再结合每一像素的特征表示和特征增强表示,确定待分类图像对应的预设类别,采用像素级的特征增强方式,利用了像素中的有效信息,减少了无效信息的干扰,增强了每一像素的判别力,提高了对图像中细节的表达能力,提高了图像的分类准确性。
基于上述实施例,各个预设类别对应的全局特征表示是基于如下步骤确定的:
确定多个样本图像以及每一样本图像中每一像素对应的预设类别;
基于任一样本图像中每一像素的特征表示和对应的预设类别,以及每一像素在该样本图像中的像素位置,确定该样本图像中各个预设类别对应的区域特征表示;
基于每一样本图像中各个预设类别对应的区域特征表示,确定各个预设类别对应的全局特征表示。
具体地,可以预先收集大量的样本图像,然后对每一样本图像中每一像素对应的预设类别进行标注。
对于任一样本图像,首先提取每一像素的特征表示。然后,提取该样本图像上属于任一预设类别的所有像素的特征表示,结合每一像素在该样本图像中的像素位置,进行求和后,得到该样本图像中该预设类别对应的区域特征表示。由于该样本图像中该预设类别对应的区域特征表示是由标注后的像素确定的,因此,该区域特征表示为可靠的区域特征表示。
照此方法,得到该样本图像中各个预设类别对应的区域特征表示。
区域特征表示用于表示预设类别在单个样本图像中的像素位置特征。任一样本图像中各个预设类别对应的区域特征表示可以用公式表示为:
式中, 为预设类别的序号, , 为预设类别的数量, 为样本图像
中像素的序号, 为该样本图像中第个预设类别的区域特征表示, 为第 个像素在第
个预设类别对应的图像区域中的像素位置, 为第 个像素的特征表示。
根据每一样本图像中各个预设类别对应的区域特征表示,确定各个预设类别对应的全局特征表示。例如,可以对每一样本图像中各个预设类别对应的区域特征表示,按照预设类别进行求和或者求平均值的方式,得到各个预设类别对应的全局特征表示。
基于上述任一实施例,基于每一样本图像中各个预设类别对应的区域特征表示,确定各个预设类别对应的全局特征表示,包括:
基于每一样本图像中各个预设类别对应的区域特征表示,确定迭代计算序列;
基于当前样本图像中各个预设类别对应的区域特征表示,以及上一次迭代计算的各个预设类别对应的全局特征表示预测值,确定当前次迭代计算的各个预设类别对应的全局特征表示预测值;
将最后一次迭代计算的各个预设类别对应的全局特征表示预测值作为各个预设类别对应的全局特征表示。
具体地,可以采用迭代计算的方式,根据每一样本图像中各个预设类别对应的区域特征表示,确定各个预设类别对应的全局特征表示。
首先,建立迭代计算序列,迭代计算序列以样本图像的序号为迭代计算顺序,每一次迭代计算均使用一个样本图像。由于每一样本图像中包括多个预设类别,可以根据预设类别,在一次迭代计算中同时计算各个预设类别对应的全局特征表示。
其次,第一次迭代计算时,可以将迭代计算序列中第一个样本图像中各个预设类别对应的区域特征表示作为各个预设类别对应的全局特征表示预测值的初始值。此后,根据当前样本图像中各个预设类别对应的区域特征表示,以及上一次迭代计算的各个预设类别对应的全局特征表示预测值,确定当前次迭代计算的各个预设类别对应的全局特征表示预测值。
例如,上述过程中的迭代计算可以采用指数滑动平均法。每一次迭代计算时,当前次迭代计算的各个预设类别对应的全局特征表示预测值可以为当前样本图像中各个预设类别对应的区域特征表示与上一次迭代计算的各个预设类别对应的全局特征表示预测值进行指数加权平均计算后得到的指数平滑值,用公式表示为:
式中, 为第 次迭代计算的第 个预设类别对应的全局特征表示预测值,
为参与第 次迭代计算的样本图像中第 个预设类别对应的区域特征表示, 为指数平滑
系数, , 为样本图像的数量。当 =1式, 采用 进行初始化。
基于上述任一实施例,步骤120包括:
基于任一像素的特征表示,以及每一预设类别对应的全局特征表示,确定该像素与每一预设类别对应的全局特征表示之间的相似度;
基于该像素与每一预设类别对应的全局特征表示之间的相似度,以及每一预设类别对应的全局特征表示,确定该像素的特征增强表示。
具体地,任一预设类别对应的全局特征表示反映了像素与所有样本图像中该预设类别之间的相似程度,可以用相似度来表示。
对于任一像素而言,该像素与每一预设类别对应的全局特征表示之间的相似度可以通过该像素的特征表示和每一预设类别对应的全局特征表示进行计算得到,用公式表示为:
式中, 为第 个像素与第 个预设类别对应的全局特征表示 之间的相似
度, 为预设类别的标号, 为未经归一化的像素的特征向量x与全局特征表示g之间的
关系函数, 和 为线性变换函数,可以根据需要设定和调整。
进一步地,可以根据该像素与每一预设类别对应的全局特征表示之间的相似度,以及每一预设类别对应的全局特征表示,确定该像素的特征增强表示,用公式表示为:
由上可知,每一像素的特征增强表示,实际上是采用了每一像素与所有样本图像中各个预设类别之间的相似度进行增强,相似度越高,像素中的有效信息越多,无效信息越少,由此增强了每一像素的判别力。
基于上述任一实施例,步骤130包括:
将每一像素的特征表示和特征增强表示,输入至图像分类模型,得到图像分类模型输出的待分类图像对应的预设类别;
其中,图像分类模型是基于确定全局特征表示的样本图像训练得到的。
具体地,可以将用来确定全局特征表示的样本图像用来训练得到图像分类模型。
可以预先训练得到图像分类模型,具体可以通过如下训练方式得到图像分类模型:首先,将用来确定全局特征表示的大量样本图像作为图像分类模型的训练样本,此处,每一样本图像中每一像素对应的预设类别已被标注。然后,根据大量的样本图像,以及每一样本图像中每一像素对应的预设类别,对初始模型进行训练,以提高初始模型对于图像对应的预设类别的预测能力,得到图像分类模型。
初始模型可以选择卷积神经网络(Convolutional Neural Networks,CNN)等,本发明实施例对于初始模型的选择不作具体限定。
在训练得到图像分类模型后,将待分类图像中每一像素的特征表示和特征增强表示进行融合拼接后,输入图像分类模型,可以得到待分类图像对应的预设类别,相比于仅仅输入每一像素的特征表示或者特征增强表示得到的图像分类结果更加准确和可靠。
基于上述任一实施例,步骤110包括:
将待分类图像输入至特征提取模型,得到特征提取模型输出的每一像素的特征表示;
其中,特征提取模型包括一个特征提取主网络以及与特征提取主网络并行连接的多个特征提取子网络;特征提取子网络的感受野小于特征提取主网络的感受野。
具体地,可以构建特征提取模型,对待分类图像进行特征提取,得到特征提取模型输出的每一像素的特征表示。
为了保留待分类图像中的细节信息,特征提取模型的模型结构可以包括一个特征提取主网络以及与特征提取主网络并行连接的多个特征提取子网络。其中,特征提取主网络可以采用较大的感受野,尽可能提取到高分辨率的特征图,特征提取子网络可以采用较小的感受野,使用重复的多尺度融合,利用相同深度和相似级别的低分辨率表示来提高高分辨率表示。此处,感受野是卷积神经网络每一层输出的特征图上的像素点在输入图像上映射的区域大小。
例如,特征提取模型可以为HRNet网络模型。
基于上述任一实施例,待分类图像为视网膜图像,预设类别为视网膜的病变类型。
具体地,糖尿病性视网膜病变区域识别是医学图像领域的热门研究课题之一,也是基于计算机视觉的模式识别应用的一个重要研究方向。这项任务需要将视网膜图像中的病变区域分割出来,进行像素级别的分类识别。由于糖尿病视网膜病变区域呈现多种不同的形态,且不同病变类别有相似性,因此,视网膜图像病变区域识别的准确性较差。
因此,可以以视网膜图像为待分类图像,以视网膜的病变类型为预设类别,将本发明实施例提供的图像分类方法应用到糖尿病性视网膜病变区域识别中。
基于上述任一实施例,本发明实施例提供一种基于可靠区域特征学习的糖尿病视网膜病变区域识别方法,包括以下步骤:
步骤一、收集视网膜图像,标注病变区域和该区域病变类别,构建糖尿病视网膜病变分割数据集;
步骤二、利用糖尿病视网膜病变分割数据集,得到视网膜图像的像素特征表示;
步骤三、利用图像的像素特征表示,通过标注的像素级别标签引导,利用指数滑动平均方法(EMA)迭代更新全局的可靠区域特征表示,输出各病变类别全局可靠的区域特征表示;
步骤四、利用全局的区域特征表示,计算出像素特征与区域特征的相似系数,得到像素-区域关系;
步骤五、结合步骤三中的各病变类别可靠的区域特征表示,和步骤四中输出的像素-区域关系,利用区域特征来表示每个像素的特征,作为增强的像素特征表示;
步骤六、利用步骤五中的增强的像素特征表示和像素特征表示进行结合,进行像素级别类别预测,输出糖尿病视网膜病变区域识别结果。
该方法可以通过视网膜图像病变分类识别模型实现,图2为本发明提供的视网膜图像病变分类识别模型的结构示意图,如图2所示,该视网膜图像病变分类识别模型包括特征提取网络、特征增强网络和图像分类网络。
特征提取网络可以选用HRNet网络,用于执行上述方法的步骤二。图3为本发明提供的特征增强网络的工作示意图,如图3所示,特征增强网络,与特征提取网络连接,可以以卷积神经网络为初始模型进行训练后得到,用于执行上述方法的步骤三、步骤四和步骤五。图像分类网络与特征提取网络、特征增强网络连接,用于执行上述方法的步骤六。
本发明实施例提供的糖尿病视网膜病变区域识别方法具有以下优势:
(1)基于特征提取网络可以提取出图像中细节信息,因此可以有效地保留微小病变的特征;
(2)采用每一类的标注的像素标签来指导区域特征表示的生成,排除了其他干扰信息,生成的区域特征表达是可靠的;
(3)基于指数滑动平均法的循环结构整合了整个数据集的病变区域信息,生成的区域特征表达是全局的,具有更好的泛化性能和特征判别力;
(4)相似性特征表达为各个像素点的特征增加了与各个类别区域的相似权重,使用区域特征来表示每个像素特征,增强了特征的判别力。
基于上述任一实施例,图4为本发明提供的图像分类装置的结构示意图,如图4所示,该装置包括:
特征提取单元410,用于确定待分类图像中每一像素的特征表示;
特征增强单元420,用于基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;
图像分类单元430,用于基于每一像素的特征表示和特征增强表示,确定待分类图像对应的预设类别;
其中,全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。
本发明实施例提供的图像分类装置,通过样本图像,以及样本图像中每一像素对应的预设类别确定的全局特征表示,对待分类图像中每一像素的特征表示进行增强后得到每一像素的特征增强表示,再结合每一像素的特征表示和特征增强表示,确定待分类图像对应的预设类别,采用像素级的特征增强方式,利用了像素中的有效信息,减少了无效信息的干扰,增强了每一像素的判别力,提高了对图像中细节的表达能力,提高了图像的分类准确性。
基于上述任一实施例,该装置还包括全局特征确定单元,全局特征确定单元包括:
样本确定子单元,用于确定多个样本图像以及每一样本图像中每一像素对应的预设类别;
区域特征确定子单元,用于基于任一样本图像中每一像素的特征表示和对应的预设类别,以及每一像素在任一样本图像中的像素位置,确定任一样本图像中各个预设类别对应的区域特征表示;
全局特征确定子单元,用于基于每一样本图像中各个预设类别对应的区域特征表示,确定各个预设类别对应的全局特征表示。
基于上述任一实施例,全局特征确定子单元具体用于:
基于每一样本图像中各个预设类别对应的区域特征表示,确定迭代计算序列;
基于当前样本图像中各个预设类别对应的区域特征表示,以及上一次迭代计算的各个预设类别对应的全局特征表示预测值,确定当前次迭代计算的各个预设类别对应的全局特征表示预测值;
将最后一次迭代计算的各个预设类别对应的全局特征表示预测值作为各个预设类别对应的全局特征表示。
基于上述任一实施例,特征增强单元420包括:
相似度确定子单元,用于基于任一像素的特征表示,以及每一预设类别对应的全局特征表示,确定任一像素与每一预设类别对应的全局特征表示之间的相似度;
特征增强子单元,用于基于任一像素与每一预设类别对应的全局特征表示之间的相似度,以及每一预设类别对应的全局特征表示,确定任一像素的特征增强表示。
基于上述任一实施例,图像分类单元430用于:
将每一像素的特征表示和特征增强表示,输入至图像分类模型,得到图像分类模型输出的待分类图像对应的预设类别;
其中,图像分类模型是基于确定全局特征表示的样本图像训练得到的。
基于上述任一实施例,特征提取单元410用于:
将待分类图像输入至特征提取模型,得到特征提取模型输出的每一像素的特征表示;
其中,特征提取模型包括一个特征提取主网络以及与特征提取主网络并行连接的多个特征提取子网络;特征提取子网络的感受野小于特征提取主网络的感受野。
基于上述任一实施例,待分类图像为视网膜图像,预设类别为视网膜的病变类型。
基于上述任一实施例,图5为本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线(Communications Bus)540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令,以执行如下方法:
确定待分类图像中每一像素的特征表示;基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;基于每一像素的特征表示和特征增强表示,确定待分类图像对应的预设类别;其中,全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。
此外,上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
确定待分类图像中每一像素的特征表示;基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;基于每一像素的特征表示和特征增强表示,确定待分类图像对应的预设类别;其中,全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种图像分类方法,其特征在于,包括:
确定待分类图像中每一像素的特征表示;
基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;
基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别;
其中,所述全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。
2.根据权利要求1所述的图像分类方法,其特征在于,所述各个预设类别对应的全局特征表示是基于如下步骤确定的:
确定多个样本图像以及每一样本图像中每一像素对应的预设类别;
基于任一样本图像中每一像素的特征表示和对应的预设类别,以及每一像素在所述任一样本图像中的像素位置,确定所述任一样本图像中各个预设类别对应的区域特征表示;
基于每一样本图像中各个预设类别对应的区域特征表示,确定各个预设类别对应的全局特征表示。
3.根据权利要求2所述的图像分类方法,其特征在于,所述基于每一样本图像中各个预设类别对应的区域特征表示,确定各个预设类别对应的全局特征表示,包括:
基于每一样本图像中各个预设类别对应的区域特征表示,确定迭代计算序列;
基于当前样本图像中各个预设类别对应的区域特征表示,以及上一次迭代计算的各个预设类别对应的全局特征表示预测值,确定当前次迭代计算的各个预设类别对应的全局特征表示预测值;
将最后一次迭代计算的各个预设类别对应的全局特征表示预测值作为各个预设类别对应的全局特征表示。
4.根据权利要求1所述的图像分类方法,其特征在于,所述基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示,包括:
基于任一像素的特征表示,以及每一预设类别对应的全局特征表示,确定所述任一像素与每一预设类别对应的全局特征表示之间的相似度;
基于所述任一像素与每一预设类别对应的全局特征表示之间的相似度,以及每一预设类别对应的全局特征表示,确定所述任一像素的特征增强表示。
5.根据权利要求1所述的图像分类方法,其特征在于,所述基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别,包括:
将每一像素的特征表示和特征增强表示,输入至图像分类模型,得到所述图像分类模型输出的所述待分类图像对应的预设类别;
其中,所述图像分类模型是基于确定所述全局特征表示的样本图像训练得到的。
6.根据权利要求1所述的图像分类方法,其特征在于,所述确定待分类图像中每一像素的特征表示,包括:
将所述待分类图像输入至特征提取模型,得到所述特征提取模型输出的每一像素的特征表示;
其中,所述特征提取模型包括一个特征提取主网络以及与所述特征提取主网络并行连接的多个特征提取子网络;所述特征提取子网络的感受野小于所述特征提取主网络的感受野。
7.根据权利要求1至6任一项所述的图像分类方法,其特征在于,所述待分类图像为视网膜图像,所述预设类别为视网膜的病变类型。
8.一种图像分类装置,其特征在于,包括:
特征提取单元,用于确定待分类图像中每一像素的特征表示;
特征增强单元,用于基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;
图像分类单元,用于基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别;
其中,所述全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述图像分类方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110403926.5A CN112801238B (zh) | 2021-04-15 | 2021-04-15 | 一种图像分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110403926.5A CN112801238B (zh) | 2021-04-15 | 2021-04-15 | 一种图像分类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801238A true CN112801238A (zh) | 2021-05-14 |
CN112801238B CN112801238B (zh) | 2021-07-27 |
Family
ID=75811456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110403926.5A Active CN112801238B (zh) | 2021-04-15 | 2021-04-15 | 一种图像分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801238B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449770A (zh) * | 2021-05-18 | 2021-09-28 | 科大讯飞股份有限公司 | 图像检测方法以及电子设备、存储装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030228049A1 (en) * | 2002-06-11 | 2003-12-11 | Dainippon Screen Mfg. Co., Ltd. | Apparatus and method for inspecting pattern |
CN102968637A (zh) * | 2012-12-20 | 2013-03-13 | 山东科技大学 | 一种复杂背景图像文字分割方法 |
CN108256426A (zh) * | 2017-12-15 | 2018-07-06 | 安徽四创电子股份有限公司 | 一种基于卷积神经网络的人脸表情识别方法 |
CN108537102A (zh) * | 2018-01-25 | 2018-09-14 | 西安电子科技大学 | 基于稀疏特征与条件随机场的高分辨sar图像分类方法 |
CN110503149A (zh) * | 2019-08-26 | 2019-11-26 | 咪咕文化科技有限公司 | 一种图像中局部特征分类方法及系统 |
CN111079900A (zh) * | 2019-12-17 | 2020-04-28 | 中山大学 | 一种基于自适应连接神经网络的图像处理方法及装置 |
CN111091574A (zh) * | 2019-12-21 | 2020-05-01 | 中国人民解放军第四军医大学 | 一种基于单像素特征的医学图像分割方法 |
CN111783754A (zh) * | 2020-09-04 | 2020-10-16 | 中国科学院自动化研究所 | 基于部位上下文的人体属性图像分类方法、系统和装置 |
CN111783753A (zh) * | 2020-09-04 | 2020-10-16 | 中国科学院自动化研究所 | 基于语义一致水平条和前景修正的行人重识别方法 |
-
2021
- 2021-04-15 CN CN202110403926.5A patent/CN112801238B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030228049A1 (en) * | 2002-06-11 | 2003-12-11 | Dainippon Screen Mfg. Co., Ltd. | Apparatus and method for inspecting pattern |
CN102968637A (zh) * | 2012-12-20 | 2013-03-13 | 山东科技大学 | 一种复杂背景图像文字分割方法 |
CN108256426A (zh) * | 2017-12-15 | 2018-07-06 | 安徽四创电子股份有限公司 | 一种基于卷积神经网络的人脸表情识别方法 |
CN108537102A (zh) * | 2018-01-25 | 2018-09-14 | 西安电子科技大学 | 基于稀疏特征与条件随机场的高分辨sar图像分类方法 |
CN110503149A (zh) * | 2019-08-26 | 2019-11-26 | 咪咕文化科技有限公司 | 一种图像中局部特征分类方法及系统 |
CN111079900A (zh) * | 2019-12-17 | 2020-04-28 | 中山大学 | 一种基于自适应连接神经网络的图像处理方法及装置 |
CN111091574A (zh) * | 2019-12-21 | 2020-05-01 | 中国人民解放军第四军医大学 | 一种基于单像素特征的医学图像分割方法 |
CN111783754A (zh) * | 2020-09-04 | 2020-10-16 | 中国科学院自动化研究所 | 基于部位上下文的人体属性图像分类方法、系统和装置 |
CN111783753A (zh) * | 2020-09-04 | 2020-10-16 | 中国科学院自动化研究所 | 基于语义一致水平条和前景修正的行人重识别方法 |
Non-Patent Citations (4)
Title |
---|
QICHAO LIU 等: "CNN-Enhanced Graph Convolutional Network With Pixel- and Superpixel-Level Feature Fusion for Hyperspectral Image Classification", 《 IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》 * |
ZHUANG LIU 等: "Confidence Adaptive Anytime Pixel-Level Recognition", 《ARXIV》 * |
武京相: "融合全局和局部特征的医学图像分类", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
郭雨薇: "基于超像素表征和模糊特征学习的图像分类与识别", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449770A (zh) * | 2021-05-18 | 2021-09-28 | 科大讯飞股份有限公司 | 图像检测方法以及电子设备、存储装置 |
CN113449770B (zh) * | 2021-05-18 | 2024-02-13 | 科大讯飞股份有限公司 | 图像检测方法以及电子设备、存储装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112801238B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107506761B (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN110689025B (zh) | 图像识别方法、装置、系统及内窥镜图像识别方法、装置 | |
CN110490850B (zh) | 一种肿块区域检测方法、装置和医学图像处理设备 | |
US20210118144A1 (en) | Image processing method, electronic device, and storage medium | |
Tareef et al. | Optimizing the cervix cytological examination based on deep learning and dynamic shape modeling | |
US20220051404A1 (en) | Pathological section image processing method and apparatus, system, and storage medium | |
CN109389129A (zh) | 一种图像处理方法、电子设备及存储介质 | |
CN107679466B (zh) | 信息输出方法和装置 | |
CN109522908A (zh) | 基于区域标签融合的图像显著性检测方法 | |
CN110555481A (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
US11967181B2 (en) | Method and device for retinal image recognition, electronic equipment, and storage medium | |
TW202013311A (zh) | 一種圖像處理方法、電子設備及存儲介質 | |
CN109615614B (zh) | 基于多特征融合的眼底图像中血管的提取方法与电子设备 | |
CN111080670A (zh) | 图像提取方法、装置、设备及存储介质 | |
WO2024016812A1 (zh) | 显微图像的处理方法、装置、计算机设备及存储介质 | |
CN110473176B (zh) | 图像处理方法及装置、眼底图像处理方法、电子设备 | |
CN112801238B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN117274278B (zh) | 基于模拟感受野的视网膜图像病灶部位分割方法及系统 | |
CN112991281B (zh) | 视觉检测方法、系统、电子设备及介质 | |
CN114219936A (zh) | 目标检测方法、电子设备、存储介质和计算机程序产品 | |
Kim et al. | Facial landmark extraction scheme based on semantic segmentation | |
CN113781387A (zh) | 模型训练方法、图像处理方法、装置、设备及存储介质 | |
CN113378609B (zh) | 代理商代签名的识别方法及装置 | |
CN117218400A (zh) | 一种图像识别模型训练方法、装置、电子设备及存储介质 | |
CN110633666A (zh) | 一种基于手指颜色贴片的手势轨迹识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |