CN114764589A - 一种图像分类方法、装置及电子设备 - Google Patents
一种图像分类方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114764589A CN114764589A CN202110046659.0A CN202110046659A CN114764589A CN 114764589 A CN114764589 A CN 114764589A CN 202110046659 A CN202110046659 A CN 202110046659A CN 114764589 A CN114764589 A CN 114764589A
- Authority
- CN
- China
- Prior art keywords
- image
- classified
- target sub
- images
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 238000012512 characterization method Methods 0.000 claims abstract description 12
- 230000015654 memory Effects 0.000 claims description 17
- 208000007107 Stomach Ulcer Diseases 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 201000005917 gastric ulcer Diseases 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 208000023984 stomach polyp Diseases 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 230000002496 gastric effect Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 208000008469 Peptic Ulcer Diseases 0.000 description 5
- 208000037062 Polyps Diseases 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 206010017817 Gastric polyps Diseases 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 102000057297 Pepsin A Human genes 0.000 description 2
- 108090000284 Pepsin A Proteins 0.000 description 2
- 208000025865 Ulcer Diseases 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000000718 duodenal ulcer Diseases 0.000 description 2
- 210000004211 gastric acid Anatomy 0.000 description 2
- 210000001156 gastric mucosa Anatomy 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 208000017819 hyperplastic polyp Diseases 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229940111202 pepsin Drugs 0.000 description 2
- 208000011906 peptic ulcer disease Diseases 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 210000002784 stomach Anatomy 0.000 description 2
- 231100000397 ulcer Toxicity 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000004804 Adenomatous Polyps Diseases 0.000 description 1
- 208000034991 Hiatal Hernia Diseases 0.000 description 1
- 206010020028 Hiatus hernia Diseases 0.000 description 1
- 208000010728 Meckel diverticulum Diseases 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 206010066969 Vitello-intestinal duct remnant Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 229910052788 barium Inorganic materials 0.000 description 1
- DSAJWYNOEDNPEQ-UHFFFAOYSA-N barium atom Chemical compound [Ba] DSAJWYNOEDNPEQ-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000002318 cardia Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001079 digestive effect Effects 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 210000001198 duodenum Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 210000003238 esophagus Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 238000002575 gastroscopy Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 210000002954 meckel diverticulum Anatomy 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000004400 mucous membrane Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000002601 radiography Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 210000004876 tela submucosa Anatomy 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30092—Stomach; Gastric
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图像分类方法、装置及电子设备,其中,方法包括:获取待分类图像;将待分类图像分割为多个目标子图像,每一个目标子图像的图像信息中包含其在待分类图像中的位置表征信息;将多个目标子图像输入预先训练好的第一神经网络,得到多个目标子图像的图像表征信息以及目标子图像注意力权重;根据多个目标子图像的图像表征信息以及目标子图像注意力权重,得到待分类图像的局部特征;根据待分类图像的局部特征,得到待分类图像的图像分类结果。通过实施本发明,对分割后的各个目标子图像进行图像表征信息提取,并根据权重对各个目标子图像进行图像表征信息进行联合,得到待分类图像的局部特征,从而根据局部特征对图像进行有效分类。
Description
技术领域
本发明涉及图像智能处理技术领域,具体涉及一种图像分类方法、装置及电子设备。
背景技术
胃息肉是指胃黏膜表面长出的突起状乳头状组织,起源于胃黏膜上皮或粘膜下层的带蒂或无蒂的病变,并伸入胃腔,这样在胃镜下就看到一个胃腔内的隆起物,较小时常无明显症状,一般都是在胃肠钡餐造影、胃镜检查或其他原因手术时偶然发现。“息肉”这一名称通常只表示肉眼所观察到的隆起物。胃息肉的检出率为1.1%-6.49%,不同病理类型的胃息肉,其流行病学特征有差异。胃底腺息肉和增生性息肉以女性患者更为多见。腺瘤性息肉以老年男性为主,男女比例约为3.69:1。增生性息肉是最常见的类型,近年来胃底腺息肉的比例有所增加,胃息肉患者的平均年龄呈下降趋势。
胃溃疡是指发生在胃角、胃窦、贲门和裂孔疝等部位的溃疡,是消化性溃疡的一种。消化性溃疡是一种常见的消化道疾病,可发生于食管、胃或十二指肠,也可发生于胃-空肠吻合口附近或含有胃黏膜的Meckel憩室内,因为胃溃疡和十二指肠溃疡最常见,故一般所谓的消化性溃疡是指胃溃疡和十二指肠溃疡。它之所以称之为消化性溃疡,是因为既往认为胃溃疡和十二指肠溃疡是由于胃酸和胃蛋白酶对黏膜自身消化所形成的,事实上胃酸和胃蛋白酶只是溃疡形成的主要原因之一,还有其他原因可以形成消化性溃疡。胃溃疡是一种常见的消化疾病,任何年龄的人都可能患病。在全球范围内,约占10%的人群一生中都会患有消化性溃疡。在患病人群中,40-60岁的中老年患者最为多见,而且男性多于女性。因此,亟需提出一种图像分类方法,以区分图像类型。
发明内容
有鉴于此,本发明实施例提供了一种图像分类方法、装置及电子设备,以解决现有技术中识别结果准确率低的缺陷。
根据第一方面,本发明实施例提供一种图像分类方法,包括如下步骤:获取待分类图像;将所述待分类图像分割为多个目标子图像,每一个目标子图像的图像信息中包含其在所述待分类图像中的位置表征信息;将所述多个目标子图像输入预先训练好的第一神经网络,得到所述多个目标子图像的图像表征信息以及目标子图像注意力权重;根据所述多个目标子图像的图像表征信息以及目标子图像注意力权重,得到所述待分类图像的局部特征;根据所述待分类图像的局部特征,得到所述待分类图像的图像分类结果。
可选地,根据所述待分类图像的局部特征,得到所述待分类图像的图像分类结果,还包括:将所述待分类图像输入至第二神经网络,得到所述待分类图像的全局特征;根据所述待分类图像的全局特征和所述待分类图像的局部特征,得到所述全局特征的注意力权重以及局部特征的注意力权重;根据所述全局特征的注意力权重以及所述局部特征的注意力权重,得到所述待分类图像的联合特征;根据所述待分类图像的联合特征,得到所述待分类图像的图像分类结果。
可选地,所述将所述待分类图像分割为多个目标子图像,每一个目标子图像的图像信息中包含其在所述待分类图像中的位置表征信息,包括:从所述待分类图像的横向中心位置以及纵向中心位置进行分割,得到左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像;从所述待分类图像中分割出预设尺寸的中心目标子图像,所述中心目标子图像分别与左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像存在重叠部分。
可选地,所述第一神经网络为基于BiT-ResNet模型训练得到。
可选地,所述待分类图像为胃息肉图像和胃溃疡图像中的任意一种。
根据第二方面,本发明实施例提供一种图像分类装置,包括:待分类图像获取模块,用于获取待分类图像;分割模块,用于将所述待分类图像分割为多个目标子图像,每一个目标子图像的图像信息中包含其在所述待分类图像中的位置表征信息;第一神经网络模块,用于将所述多个目标子图像输入预先训练好的第一神经网络,得到所述多个目标子图像的图像表征信息以及目标子图像注意力权重;局部特征确定模块,用于根据所述多个目标子图像的图像表征信息以及目标子图像注意力权重,得到所述待分类图像的局部特征;分类结果确定模块,用于根据所述待分类图像的局部特征,得到所述待分类图像的图像分类结果。
可选地,图像分类装置还包括:全局特征确定模块,用于将所述待分类图像输入至第二神经网络,得到所述待分类图像的全局特征;权重确定模块,用于根据所述待分类图像的全局特征和所述待分类图像的局部特征,得到所述全局特征的注意力权重以及局部特征的注意力权重;联合特征确定模块,用于根据所述全局特征的注意力权重以及所述局部特征的注意力权重,得到所述待分类图像的联合特征;分类结果确定模块,用于根据所述待分类图像的联合特征,得到所述待分类图像的图像分类结果。
可选地,所述分割模块,包括:第一分割模块,用于从所述待分类图像的横向中心位置以及纵向中心位置进行分割,得到左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像;第二分割模块,用于从所述待分类图像中分割出预设尺寸的中心目标子图像,所述中心目标子图像分别与左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像存在重叠部分。
根据第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面或第一方面任一实施方式所述的图像分类方法的步骤。
根据第四方面,本发明实施例提供一种存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面或第一方面任一实施方式所述的图像分类方法的步骤。
本发明技术方案,具有如下优点:
(1)本实施例提供的图像分类方法/装置,通过对待分类图像进行分割,对分割后的各个目标子图像进行图像表征信息提取,并根据权重对各个目标子图像进行图像表征信息进行联合,从而得到待分类图像的局部特征,从而根据局部特征对图像进行分类。
(2)本实施例提供的图像分类方法/装置,通过全局特征和局部特征进行联合学习,使得分类时不仅考虑了局部特征同时深度捕获全局特征,并且通过注意力机制进行更深层次的融合,从而提高了图像分类的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中图像分类方法的一个具体示例的流程图;
图2为本发明实施例中图像分类方法的一个具体示例的流程图;
图3为本发明实施例中图像分类方法的一个具体示例的流程图;
图4为本发明实施例中图像分类方法的一个具体示例的流程图;
图5为本发明实施例中图像分类装置的一个具体示例原理框图;
图6为本发明实施例中电子设备的一个具体示例的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本实施例提供一种图像分类方法,如图1所示,包括如下步骤:
S101,获取待分类图像。
示例性地,待分类图像可以是包含需要分类的任意图像,比如,需要区分疾病种类的医学图像,具体可以是胃镜图像,用以区分胃息肉和胃溃疡。本实施例对待分类图像的类型不做限定,本领域技术人员可以根据需要确定。获取待分类图像的方式可以是接收用户输入的待分类图像,接收到的用户输入的待分类图像可以是对待分类图像进行预处理后的图像,预处理的方式可以包括缩放,裁剪,随机水平翻转以及标准化四个部分。其中缩放是将所有不同输入图像的尺寸缩放为第一尺寸,比如448*448*3的大小,随后裁剪为第二尺寸,比如224*224*3,第二尺寸小于第一尺寸,对于胃镜图像而言,剪裁的目的是为了剪去胃镜图像四个边角的黑色冗余部分,随机翻转由参数P控制,P是图像翻转的概率,最后进行数据标准化得到最终的输入图像的特征。
S102,将待分类图像分割为多个目标子图像,每一个目标子图像的图像信息中包含其在待分类图像中的位置表征信息。
示例性地,位置表征信息可以是多个目标子图像的序号标识和方向标识,序号标识和方向标识按照该目标子图像在待分类图像上的位置确定,比如,按照左上,右上,左下,右下将待分类图像分割为4个目标子图像,左上对应的目标子图像中包含序号标识“1”以及与其他相邻图像之间的衔接方向标识,衔接方向标识可以是标记左上目标子图像中与右上子图像衔接的位置以及左上目标子图像中与左下子图像衔接的位置,通过序号标识以及方向标识即可得到目标子图像之间的关联信息。位置表征信息还可以是任意目标子图像与其他目标子图像之间存在重叠区域,从而能够表征目标子图像在待分类图像中的位置信息,以还原目标子图像之间的关联信息。
任意目标子图像与其他目标子图像之间存在重叠区域的图像分割方式可以如图2所示,从待分类图像的横向中心位置以及纵向中心位置进行分割,得到左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像,从待分类图像中分割出预设尺寸的中心目标子图像,中心目标子图像分别与左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像存在重叠部分。预设尺寸可以与分割出的目标子图像尺寸相同。任意目标子图像与其他目标子图像之间存在重叠区域的图像分割方式还可以如图3所示,每一个目标子图像与相邻目标子图像之间存在重叠区域。
S103,将多个目标子图像输入预先训练好的第一神经网络,得到多个目标子图像的图像表征信息以及目标子图像注意力权重。
示例性地,第一神经网络可以是根据BiT-ResNet模型训练而成的神经网络,BiT-ResNet模型主要由ResNet-50组成,一共由50个带有权重的层组成,使用的卷积核是1*1,3*3,1*1组成。ResNet-50主要分为6个部分,分别为conv1、conv2_x、conv3_x、conv4_x、conv5_x以及最后的全局平均池化层和全连接层部分组成。全局平均池化层将二维特征图映射为向量,输入到全连接层,全连接层包括两层,第一层全连接层包含1000个神经元,第二层全连接层包含100个神经元,得到最终对应输入图像的图像表征信息。本实施例中第一神经网络隐藏层中还引入了注意力机制,从而获得输入图像的注意力权重。
本实施例以如图2所示的分割方式对待分类图像进行分割为例,那么将左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像、中心目标子图像输入第一神经网络,分别得到各个目标子图像的图像表征信息:r1,r2,r3,r4,r5,将r1,r2,r3,r4,r5经过注意力机制对应的注意力隐藏层得到对应的目标子图像注意力权重α1,α2,α3,α4,α5。
为了更好地说明注意力机制,本实施例以每张图片用长度为100的向量表示为例,那么分割后的左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像、中心目标子图像这5张图像可以用[5*100]的矩阵表示。首先对[5*100]的矩阵做非线性变换,即将[5*100]的矩阵分别通过两个线性层(输入是100维,输出也是100维)和激活函数得到两个不同的表示,分别为V和U,目的是将其映射到不同的空间,经过非线性可学习的权重能够多维度的挖掘更多信息,其中V是[5*100]矩阵,U也是[5*100]矩阵。接着通过点乘加线性变化的方式进行相似度计算,具体如下:
对于V和U,进行点乘得到V*U,其为[5*100]向量,接着将其通过(输入100维,输出1维)线性层,得到[5*1]的矩阵。将[5*1]的矩阵进行压缩得到长度为5的向量,例如[3,0.2,0.75,1.1,0.1],通过softmax进行归一化,得到注意力权重(也相当于一个概率分布)[0.75,0.01,0.05,0.185,0.005],可以发现第一张图片的权重是0.75,它在所有图片中是最大的,表示它包含的信息更重要。而其他图片例如第二张,它的权重很小,说明重要信息很少,因此在结果输出时第二张图片的向量乘以其系数0.01,大大降低冗余数据对最终的结果影响。
S104,根据多个目标子图像的图像表征信息以及目标子图像注意力权重,得到待分类图像的局部特征。
示例性地,根据多个目标子图像的图像表征信息以及目标子图像注意力权重,得到待分类图像的局部特征r1的方式可以是求取目标子图像的图像表征信息与其目标子图像注意力权重乘积之和:
r1=α1×r1+α2×r2+α3×r3+α4×r4+α5×r5
S105,根据待分类图像的局部特征,得到待分类图像的图像分类结果。
示例性地,最后将待分类图像的局部特征r1输入到线性分类层通过Softmax激活函数得到最终的概率分布,当待分类图像为胃镜图像,用于区分胃溃疡和胃息肉时,P=[p1,p2],其中p1表示胃镜图片分类为胃溃疡的概率,p2表示胃镜图片分类为胃息肉的概率,因此p1,p2∈[0,1]且p1+p2=1。根据最终的概率分布,则可以得到待分类图像的图像分类结果,比如,当p1≥p2则将当前图片分类为胃溃疡胃镜图像,反之当p1<p2则将当前图片分类为胃息肉胃镜图像。
本实施例提供的图像分类方法,通过对待分类图像进行分割,对分割后的各个目标子图像进行图像表征信息提取,并根据权重对各个目标子图像进行图像表征信息进行联合,得到待分类图像的局部特征,从而根据局部特征对图像进行有效分类。
作为本实施例一种可选的实施方式,如图4所示,根据待分类图像的局部特征,得到待分类图像的图像分类结果,还包括:
首先,将待分类图像输入至第二神经网络,得到待分类图像的全局特征。
示例性地,第二神经网络可以与第一神经网络为同一个神经网络,同样是基于BiT-ResNet模型得到。BiT-ResNet模型结构见上述S103对应部分,在此不再赘述。将完整的待分类图像输入第二神经网络之前还可以将待分类图像按照第二神经网络输入数据的要求将待分类图像进行压缩,压缩至第三尺寸,比如224*224*3。通过完整的待分类图像得到全局特征r2。
其次,根据待分类图像的全局特征和待分类图像的局部特征,得到全局特征的注意力权重以及局部特征的注意力权重。
示例性地,根据待分类图像的全局特征和待分类图像的局部特征,得到全局特征的注意力权重以及局部特征的注意力权重的方式可以是将待分类图像的全局特征和待分类图像的局部特征输入至注意力层,通过注意力机制得到局部特征的注意力权重β1以及全局特征的注意力权重β2。
再次,根据全局特征的注意力权重以及局部特征的注意力权重,得到待分类图像的联合特征。
示例性地,根据全局特征的注意力权重以及局部特征的注意力权重,得到待分类图像的联合特征ru的方式可以是通过以下公式:
ru=r1×β1+r2×β2;
然后,根据待分类图像的联合特征,得到待分类图像的图像分类结果。
示例性地,根据待分类图像的联合特征,得到待分类图像的图像分类结果的方式可以是将待分类图像的联合特征输入至线性分类层通过Softmax激活函数得到最终的概率分布,具体内容参见上述实施例S105部分,在此不再赘述。
为了显示本实施例的分类准确性,本实施例提供上述S101-S105步骤中得到的分类结果准确性与本实施例中基于联合特征,得到分类结果的准确性对比数据,见下表1所示:
表1
使用方法 | 准确率acc | Avg-F值 |
S101-S105步骤的方法 | 88.75% | 88.4% |
基于联合特征分类方法 | 91.25% | 91% |
本实施例提供的图像分类方法,通过全局特征和局部特征进行联合学习,使得分类时不仅考虑了局部特征同时深度捕获全局特征,并且通过注意力机制进行更深层次的融合,从而提高了图像分类的准确性。
对BiT-ResNet模型进行训练的过程可以包括:首先,用BiT-ResNet预训练模型初始化参数以及获取训练样本,训练样本可以是包括设置好标签的胃溃疡图像150张,胃息肉像150张;其次,将训练样本输入至BiT-ResNet模型,设置初始的学习率为0.0001,使用Adam(Adaptive Moment Estimation[2])优化器来优化网络的参数,使用交叉熵损失函数(Cross Entropy Loss)作为模型的损失函数。
交叉熵损失函数具体为CrossEntropyLoss(P,label),其中label是该胃镜图片的真实标签,CrossEntropyLoss函数具体如下:
其中xi代表第i张胃镜图片,P(xi)表示第i张胃镜图片的概率分布,label(xi)表示第i张图片的标签,n表示胃镜图片的个数。
为了防止过拟合,使用Dropout随机忽略全连接层的部分神经元。训练的时候将BiT-ResNet模型基于训练样本进行训练,让BiT-ResNet模型学习胃癌检测任务,最后将分类层得到预测概率分布与真实标签差异来优化网络,具体可以是根据分类层得到预测概率分布与真实标签求取损失函数,批的大小设为64,使用优化器最小化图像分类的损失函数,让网络最终收敛。
本实施例提供一种图像分类装置,如图5所示,包括:
待分类图像获取模块201,用于获取待分类图像;具体内容参见上述方法对应部分,在此不再赘述。
分割模块202,用于将所述待分类图像分割为多个目标子图像,每一个目标子图像的图像信息中包含其在所述待分类图像中的位置表征信息;具体内容参见上述方法对应部分,在此不再赘述。
第一神经网络模块203,用于将所述多个目标子图像输入预先训练好的第一神经网络,得到所述多个目标子图像的图像表征信息以及目标子图像注意力权重;具体内容参见上述方法对应部分,在此不再赘述。
局部特征确定模块204,用于根据所述多个目标子图像的图像表征信息以及目标子图像注意力权重,得到所述待分类图像的局部特征;具体内容参见上述方法对应部分,在此不再赘述。
分类结果确定模块205,用于根据所述待分类图像的局部特征,得到所述待分类图像的图像分类结果。具体内容参见上述方法对应部分,在此不再赘述。
本实施例提供的图像分类方法,通过对待分类图像进行分割,对分割后的各个目标子图像进行图像表征信息提取,并根据权重对各个目标子图像进行图像表征信息进行联合,得到待分类图像的局部特征,从而根据局部特征对图像进行有效分类。
作为本实施例一种可选的实施方式,图像分类装置还包括:
全局特征确定模块,用于将所述待分类图像输入至第二神经网络,得到所述待分类图像的全局特征;具体内容参见上述方法对应部分,在此不再赘述。
权重确定模块,用于根据所述待分类图像的全局特征和所述待分类图像的局部特征,得到所述全局特征的注意力权重以及局部特征的注意力权重;具体内容参见上述方法对应部分,在此不再赘述。
联合特征确定模块,用于根据所述全局特征的注意力权重以及所述局部特征的注意力权重,得到所述待分类图像的联合特征;具体内容参见上述方法对应部分,在此不再赘述。
分类结果确定模块,用于根据所述待分类图像的联合特征,得到所述待分类图像的图像分类结果。具体内容参见上述方法对应部分,在此不再赘述。
本实施例提供的图像分类装置,通过全局特征和局部特征进行联合学习,使得分类时不仅考虑了局部特征同时深度捕获全局特征,并且通过注意力机制进行更深层次的融合,从而提高了图像分类的准确性。
作为本实施例一种可选的实施方式,分割模块202,包括:
第一分割模块,用于从所述待分类图像的横向中心位置以及纵向中心位置进行分割,得到左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像;具体内容参见上述方法对应部分,在此不再赘述。
第二分割模块,用于从所述待分类图像中分割出预设尺寸的中心目标子图像,所述中心目标子图像分别与左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像存在重叠部分。具体内容参见上述方法对应部分,在此不再赘述。
作为本实施例一种可选的实施方式,所述第一神经网络模块203中第一神经网络为基于BiT-ResNet模型训练得到。具体内容参见上述方法对应部分,在此不再赘述。
作为本实施例一种可选的实施方式,所述待分类图像为胃息肉图像和胃溃疡图像中的任意一种。具体内容参见上述方法对应部分,在此不再赘述。
本申请实施例还提供一种电子设备,如图6所示,处理器310和存储器320,其中处理器310和存储器320可以通过总线或者其他方式连接。
处理器310可以为中央处理器(Central Processing Unit,CPU)。处理器310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器320作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的图像分类方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理。
存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器320可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器320中,当被所述处理器310执行时,执行如图1所示实施例中的图像分类方法。
上述电子设备的具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例1中图像分类方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种图像分类方法,其特征在于,包括如下步骤:
获取待分类图像;
将所述待分类图像分割为多个目标子图像,每一个目标子图像的图像信息中包含其在所述待分类图像中的位置表征信息;
将所述多个目标子图像输入预先训练好的第一神经网络,得到所述多个目标子图像的图像表征信息以及目标子图像注意力权重;
根据所述多个目标子图像的图像表征信息以及目标子图像注意力权重,得到所述待分类图像的局部特征;
根据所述待分类图像的局部特征,得到所述待分类图像的图像分类结果。
2.根据权利要求1所述的方法,其特征在于,根据所述待分类图像的局部特征,得到所述待分类图像的图像分类结果,还包括:
将所述待分类图像输入至第二神经网络,得到所述待分类图像的全局特征;
根据所述待分类图像的全局特征和所述待分类图像的局部特征,得到所述全局特征的注意力权重以及局部特征的注意力权重;
根据所述全局特征的注意力权重以及所述局部特征的注意力权重,得到所述待分类图像的联合特征;
根据所述待分类图像的联合特征,得到所述待分类图像的图像分类结果。
3.根据权利要求1所述的方法,其特征在于,所述将所述待分类图像分割为多个目标子图像,每一个目标子图像的图像信息中包含其在所述待分类图像中的位置表征信息,包括:
从所述待分类图像的横向中心位置以及纵向中心位置进行分割,得到左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像;
从所述待分类图像中分割出预设尺寸的中心目标子图像,所述中心目标子图像分别与左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像存在重叠部分。
4.根据权利要求1所述的方法,其特征在于,所述第一神经网络为基于BiT-ResNet模型训练得到。
5.根据权利要求1所述的方法,其特征在于,所述待分类图像为胃息肉图像和胃溃疡图像中的任意一种。
6.一种图像分类装置,其特征在于,包括:
待分类图像获取模块,用于获取待分类图像;
分割模块,用于将所述待分类图像分割为多个目标子图像,每一个目标子图像的图像信息中包含其在所述待分类图像中的位置表征信息;
第一神经网络模块,用于将所述多个目标子图像输入预先训练好的第一神经网络,得到所述多个目标子图像的图像表征信息以及目标子图像注意力权重;
局部特征确定模块,用于根据所述多个目标子图像的图像表征信息以及目标子图像注意力权重,得到所述待分类图像的局部特征;
分类结果确定模块,用于根据所述待分类图像的局部特征,得到所述待分类图像的图像分类结果。
7.根据权利要求6所述的装置,其特征在于,还包括:
全局特征确定模块,用于将所述待分类图像输入至第二神经网络,得到所述待分类图像的全局特征;
权重确定模块,用于根据所述待分类图像的全局特征和所述待分类图像的局部特征,得到所述全局特征的注意力权重以及局部特征的注意力权重;
联合特征确定模块,用于根据所述全局特征的注意力权重以及所述局部特征的注意力权重,得到所述待分类图像的联合特征;
分类结果确定模块,用于根据所述待分类图像的联合特征,得到所述待分类图像的图像分类结果。
8.根据权利要求6所述的装置,其特征在于,所述分割模块,包括:
第一分割模块,用于从所述待分类图像的横向中心位置以及纵向中心位置进行分割,得到左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像;
第二分割模块,用于从所述待分类图像中分割出预设尺寸的中心目标子图像,所述中心目标子图像分别与左上目标子图像、右上目标子图像、左下目标子图像、右下目标子图像存在重叠部分。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任一所述的图像分类方法的步骤。
10.一种存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5任一所述的图像分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110046659.0A CN114764589A (zh) | 2021-01-15 | 2021-01-15 | 一种图像分类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110046659.0A CN114764589A (zh) | 2021-01-15 | 2021-01-15 | 一种图像分类方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114764589A true CN114764589A (zh) | 2022-07-19 |
Family
ID=82363005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110046659.0A Pending CN114764589A (zh) | 2021-01-15 | 2021-01-15 | 一种图像分类方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114764589A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188879A (zh) * | 2023-04-27 | 2023-05-30 | 广州医思信息科技有限公司 | 图像分类、图像分类模型训练方法、装置、设备及介质 |
CN116433992A (zh) * | 2023-06-14 | 2023-07-14 | 电子科技大学中山学院 | 基于全局特征补全的图像分类方法、装置、设备及介质 |
CN117132840A (zh) * | 2023-10-26 | 2023-11-28 | 苏州凌影云诺医疗科技有限公司 | 一种基于AHS分期和Forrest分级的消化性溃疡分类方法和系统 |
-
2021
- 2021-01-15 CN CN202110046659.0A patent/CN114764589A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188879A (zh) * | 2023-04-27 | 2023-05-30 | 广州医思信息科技有限公司 | 图像分类、图像分类模型训练方法、装置、设备及介质 |
CN116188879B (zh) * | 2023-04-27 | 2023-11-28 | 广州医思信息科技有限公司 | 图像分类、图像分类模型训练方法、装置、设备及介质 |
CN116433992A (zh) * | 2023-06-14 | 2023-07-14 | 电子科技大学中山学院 | 基于全局特征补全的图像分类方法、装置、设备及介质 |
CN117132840A (zh) * | 2023-10-26 | 2023-11-28 | 苏州凌影云诺医疗科技有限公司 | 一种基于AHS分期和Forrest分级的消化性溃疡分类方法和系统 |
CN117132840B (zh) * | 2023-10-26 | 2024-01-26 | 苏州凌影云诺医疗科技有限公司 | 一种基于AHS分期和Forrest分级的消化性溃疡分类方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114764589A (zh) | 一种图像分类方法、装置及电子设备 | |
EP3876190B1 (en) | Endoscopic image processing method and system and computer device | |
US10860930B2 (en) | Learning method, image recognition device, and computer-readable storage medium | |
US11361418B2 (en) | Transfer learning based capsule endoscopic images classification system and method thereof | |
EP3757937A1 (en) | Image recognition method, storage medium and computer device | |
EP3479348B1 (en) | Method and apparatus for real-time detection of polyps in optical colonoscopy | |
US10360474B2 (en) | Image processing device, endoscope system, and image processing method | |
US8705818B2 (en) | Image processing device, computer readable storage medium storing image processing program, and image processing method | |
CN113706526A (zh) | 内窥镜图像特征学习模型、分类模型的训练方法和装置 | |
CN114004847B (zh) | 一种基于图可逆神经网络的医学图像分割方法 | |
CN110110668B (zh) | 一种基于反馈权重卷积神经网络和胶囊神经网络的步态识别方法 | |
CN112364926A (zh) | 基于ResNet-50时间压缩的胃镜图片分类方法、装置和存储介质 | |
WO2019142243A1 (ja) | 画像診断支援システムおよび画像診断支援方法 | |
CN112466466B (zh) | 基于深度学习的消化道辅助检测方法、装置和计算设备 | |
Yue et al. | Automated endoscopic image classification via deep neural network with class imbalance loss | |
CN113469985A (zh) | 内镜图像特征点提取方法 | |
CN114511749B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN114782760A (zh) | 一种基于多任务学习的胃部疾病图片分类系统 | |
CN113610847A (zh) | 一种白光模式下胃部标志物评估方法及系统 | |
Bakht et al. | Colorectal cancer tissue classification using semi-supervised hypergraph convolutional network | |
CN112651375A (zh) | 基于深度学习模型的幽门螺杆菌胃部图像识别分类系统 | |
Vasilakakis et al. | DINOSARC: Color features based on selective aggregation of chromatic image components for wireless capsule endoscopy | |
CN113808137A (zh) | 上消化道内镜影像图的筛选方法、装置、设备及存储介质 | |
CN112053399B (zh) | 一种胶囊内镜视频中消化道器官的定位方法 | |
CN113920355A (zh) | 部位类别识别方法及检查质量监控系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Dai Jie Inventor after: Bai Yanhong Inventor after: Li Liang Inventor before: Dai Jie Inventor before: Li Liang |
|
CB03 | Change of inventor or designer information |