CN112927783B - 图像检索方法及装置 - Google Patents
图像检索方法及装置 Download PDFInfo
- Publication number
- CN112927783B CN112927783B CN202110338410.7A CN202110338410A CN112927783B CN 112927783 B CN112927783 B CN 112927783B CN 202110338410 A CN202110338410 A CN 202110338410A CN 112927783 B CN112927783 B CN 112927783B
- Authority
- CN
- China
- Prior art keywords
- feature
- global
- processing
- local
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 122
- 238000005070 sampling Methods 0.000 claims abstract description 122
- 238000012545 processing Methods 0.000 claims abstract description 111
- 239000011159 matrix material Substances 0.000 claims abstract description 73
- 230000009467 reduction Effects 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 65
- 239000013598 vector Substances 0.000 claims description 47
- 238000011176 pooling Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 6
- 230000000452 restraining effect Effects 0.000 claims description 2
- 241000157593 Milvus Species 0.000 description 5
- 238000012550 audit Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Radiology & Medical Imaging (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种图像检索方法及装置,其中该方法包括:对待检索图像及数据库图像利用已训练的特征提取网络进行第一次特征提取处理、正则化全局注意力采样处理、利用已训练的特征提取网络第二次特征提取处理和特征降维处理,获得待检索降维特征图和数据库降维特征图,将两者进行相似度计算获得检索结果;特征提取网络训练过程:对训练图像进行缩放处理,利用特征提取网络对缩放处理的训练图像进行特征提取,获得特征矩阵;对所述特征矩阵进行正则化注意力采样处理,获得全局结构采样图和局部结构采样图;基于全局结构采样图和局部结构采样图进行知识蒸馏处理,获得已训练的特征提取网络。本发明可以更深入学习场景局部特征,提高检索准确度。
Description
技术领域
本发明涉及图像检索技术领域,尤其涉及图像检索方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在医疗影像审核查重和财务稽核审核等领域,都会涉及到大量图片,传统方法都是相关人员采用肉眼排查的方式进行审核,当图片数量很多时,甚至可能会采取抽查的方式进行审核。如此方式非常低效而且不完备,尤其是随着涉及到的图片数量达到上百万上千万量级,再用人力方式进行审核既耗时耗力,又无法有效地从如此巨量的图片中找到问题图片,所以人们提出用图像检索的方法找到问题图片,可以达到省事省力的效果。
现有的图像检索方法往往采用传统的端到端的深度学习网络模型如vgg16、resnet50,提取输入图片的全局特征,然后根据该全局特征进行相似性度量。这种全局特征包含了太多的空间信息,在医疗影像审核查重和财务稽核审核过程中有很多图片,场景间的主要特征网络没有针对性学习,如存在重复相似影像、相同场景出现遮挡或者相似部分大面积遮挡,严重影响检索结果,检索准确度不高。
发明内容
本发明实施例提供一种图像检索方法,用以提高检索准确度,该方法包括:
对待检索图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索降维特征图;
将待检索降维特征图和数据库中的所有降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得排序在预设数量前的检索结果;其中,数据库中的所有降维特征图按照如下方式获得:对数据库中的所有图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理;利用已训练的特征提取网络进行第一次特征提取处理和第二次特征提取处理;
按照如下方式获得已训练的特征提取网络;
对训练图像进行缩放处理,利用特征提取网络对缩放处理的训练图像进行特征提取,获得特征矩阵;
对所述特征矩阵进行正则化注意力采样处理,获得全局结构采样图和局部结构采样图;
基于全局结构采样图和局部结构采样图进行知识蒸馏处理,获得已训练的特征提取网络。
本发明实施例还提供一种图像检索装置,用以提高检索准确度,该装置包括:
特征提取和采样模块,用于对待检索图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索降维特征图;
检索模块,用于将待检索降维特征图和数据库中的所有降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得排序在预设数量前的检索结果;其中,数据库中的所有降维特征图按照如下方式获得:对数据库中的所有图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理;利用已训练的特征提取网络进行第一次特征提取处理和第二次特征提取处理;
训练模块,用于按照如下方式获得已训练的特征提取网络:
对训练图像进行缩放处理,利用特征提取网络对缩放处理的训练图像进行特征提取,获得特征矩阵;
对所述特征矩阵进行正则化注意力采样处理,获得全局结构采样图和局部结构采样图;
基于全局结构采样图和局部结构采样图进行知识蒸馏处理,获得已训练的特征提取网络。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述图像检索方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述图像检索方法的步骤。
本发明实施例中,与现有技术中只获得输入图片的全局特征来进行图像检索的技术方案相比,本发明利用特征提取网络对缩放处理的训练图像进行特征提取,获得特征矩阵;对特征矩阵进行正则化注意力采样处理,获得全局结构采样图和局部结构采样图,基于全局结构采样图和局部结构采样图进行知识蒸馏处理,获得已训练的特征提取网络,通过正则化注意力采样选择更值得关注的注意力特征图,用知识蒸馏方法让特征提取网络学习到注意力特征图,既保证网络学习了整体上的特征,又获取了大量的局部细节特征。然后对待检索图像利用已训练的特征提取网络进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、利用已训练的特征提取网络进行第二次特征提取处理和特征降维处理后,获得待检索降维特征图;将待检索降维特征图和数据库中的所有降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得排序在预设数量前的检索结果,这样得到的检索结果准确度高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明的一个实施例中的图像检索方法流程图;
图2为本发明的一个实施例中的特征提取网络训练流程图;
图3为本发明的一个实施例中的正则化注意力采样处理流程图;
图4为本发明的一个实施例中的知识蒸馏流程图;
图5为本发明的一个实施例中的特征提取数据流向示意图;
图6为本发明的一个实施例中的图像检索数据流向示意图;
图7为本发明的一个实施例中的模糊图像和清洗图像对比示意图;
图8为本发明的一个实施例中的图像检索装置结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1为本发明的一个实施例中的图像检索方法流程图,如图1所示,该检索方法包括:
对待检索图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索降维特征图;
将待检索降维特征图和数据库中的所有降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得排序在预设数量前的检索结果;其中,数据库中的所有降维特征图按照如下方式获得:对数据库中的所有图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理;利用已训练的特征提取网络进行第一次特征提取处理和第二次特征提取处理;
按照如下方式获得已训练的特征提取网络;
对训练图像进行缩放处理,利用特征提取网络对缩放处理的训练图像进行特征提取,获得特征矩阵;
对所述特征矩阵进行正则化注意力采样处理,获得全局结构采样图和局部结构采样图;
基于全局结构采样图和局部结构采样图进行知识蒸馏处理,获得已训练的特征提取网络。
在本发明实施例中,对训练图像进行缩放处理,可以是将图像缩放到512×512,当然这个缩放数据可以选择其他数据。
在本发明实施例中,特征提取网络首先需要进行训练,下面介绍训练网络过程:
特征提取网络在训练时要加上正则化注意力采样(Attention RegularizationSampling,ARS)和知识蒸馏两步,让主干网络学习到该类图片主要特征。如图2所示,第一步利用ResNet50网络模型作为提取图像特征的backbone网络(即将ResNet50网络模型构成深度学习的主干),提取ResNet50的第预设个(比如可以是第4个)卷积结构后的特征矩阵f,f的大小可以选择为[32,32,2048],其中,[32,32,2048]分别对应[长,宽,通道];通道数对应图像张数。[32,32,2048]其中2048依据是backbone输出大小,具体可以通过改变backbone,改变;32,是实验确定的,可以根据情况灵活改变。
(一)正则化注意力采样。
正则化注意力采样包含一个注意力特征提取操作和两部采样操作,同时利用central loss约束局部注意力特征图,如图3所示,具体流程如下:
注意力特征提取:
对特征矩阵进行注意力特征提取,获得全局注意力矩阵图和局部注意力矩阵图,使用central loss对局部注意力矩阵图的每个通道特征进行约束。
具体的,(1)对所述特征矩阵进行卷积操作、大小变换处理,获得第一矩阵Xt;
(2)对所述特征矩阵大小变换处理,获得第二矩阵X;
(3)计算X(XTX),得到第三矩阵,将第三矩阵进行大小变换处理,获得全局注意力矩阵图A;
(4)计算Xt(Xt TXt),得到第四矩阵,将第四矩阵进行大小变换处理,获得局部注意力矩阵图At。
基于上述f的大小[32,32,2048],进行卷积操作、大小变换处理后得到的第一矩阵Xt、第二矩阵X、第三矩阵、全局注意力矩阵图A、第四矩阵、局部注意力矩阵图At的大小如下:
(1)对特征矩阵f进行1×1卷积操作,得到大小为[32,32,128]的矩阵,将大小为[32,32,128]的矩阵整理为[32×32,2048]的矩阵Xt;其中,[32×32,2048]分别对应[长×宽,通道];
(2)将特征矩阵f整理为大小为[32×32,2048]的矩阵X;
(3)计算X(XTX),得到大小为[32×32,2048]的矩阵并变形(reshape)为大小为[32,32,2048]的全局注意力矩阵图A;
(4)计算Xt(Xt TXt),得到大小为[32×32,128]的矩阵并变形(reshape)为大小为[32,32,64]的局部注意力矩阵图At。
全局注意力采样:
根据全局注意力矩阵图进行正则化全局注意力采样处理,获得全局结构采样图。
具体的,首先将全局注意力矩阵图A在通道上进行平均池化(即将2048通道的特征图平均成一个通道的全局特征图),接着根据池化后是全局注意力矩阵图在原始图像(指的是预处理后的图片)上采样,获得细节放大后的全局结构采样图。该结构采样图捕获了全局结构,并包含所有重要细节。与原始图像相比,保留的结构删除了没有实效的细节的区域,所以用高分辨率表示可区分的部分。即将平均池化后的特征图看作是一个概率质量函数,所以认为值越大的区域可能更被采样到。
局部注意力采样:
根据局部注意力矩阵图进行正则化局部注意力采样处理,获得局部结构采样图。
具体的,在64张局部注意力矩阵图At上随机选取一张局部注意力矩阵图,根据该张局部注意力矩阵图在缩放处理的训练图像上采样,获得局部结构采样图。采样图针对图像上单个部分,可以保留更多局部的细节。
central loss约束:
为了固定局部注意力矩阵图每个通道所代表的特征,本发明建立一种centralloss对局部注意矩阵力图的每个通道特征进行约束。流程如下:
(1)利用局部注意力矩阵图At对全局注意力矩阵图A进行双线性池化操作,得到局部特征k通道上的特征向量Ak,k∈(1,64),Ak向量大小为[1,2048];
(2)创建k个通道的中心特征向量Ck,Ck向量大小为[1×1024],并初始化为零;
(3)根据特征向量Ak和中心特征向量Ck建立损失函数:
(4)利用梯度下降法更新中心特征向量Ck,拟合损失函数。
(二)知识蒸馏
如图4所示,知识蒸馏的具体流程如下:
将全局结构采样图和局部结构采样图输入ResNet50网络中,然后各自连接全连接层,最后接入建立交叉熵损失函数。
具体的,(1)将全局结构采样图和局部结构采样图输入至特征提取网络ResNet50中,提取ResNet50的第预设个(比如可以是第4个)卷积结构后的全局特征矩阵fs和局部特征矩阵fp;矩阵大小都为[64,64,2048];
(2)将全局特征矩阵fs和局部特征矩阵fp分别进行全局池化,获得全局池化向量和局部池化向量;大小都为[1,2048];
(3)将全局池化向量和局部池化向量各自接入全连接层,使用softmax分类器将全局池化向量对应的全连接的输出转化为全局分类概率qs,将局部池化向量对应的全连接的输出转化为局部分类概率qp;
(4)计算全局分类概率qs和局部分类概率qp的交叉熵Ls,公式如下:
其中,N表示训练集图像类的种类,根据不同工作环境和应用场景选择不同数据集。
(5)计算预设的图像真实标签和全局分类概率qs的交叉熵Lc,公式如下:
其中,y表示标签类别的one-hot向量;训练时,数据分为N类,将数据的标签onehot化。
(6)基于交叉熵Ls和交叉熵Lc建立损失函数,公式如下:
L=Lc+λLs;
其中λ为蒸馏权重。
在本发明实施例中,上面获得训练后的特征提取网络,下面应用特征提取网络进行特征提取。
特征提取应用过程如图5所示,即对待检索图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索降维特征图,包括:
将待检索图像进行缩放处理后输入至已训练的特征提取网络ResNet50中,提取ResNet50的第预设个(比如可以是第4个)卷积结构后的待检索特征矩阵;
对待检索特征矩阵进行注意力特征提取,获得待检索全局注意力矩阵图;
根据待检索全局注意力矩阵图进行正则化全局注意力采样处理,获得待检索全局结构采样图;
将待检索全局结构采样图输入至已训练的特征提取网络ResNet50中,得到待检索特征图;大小可以为[32,32,2048];
对待检索特征图进行特征降维处理,获得待检索降维特征图。得到特征图后首先进行特征聚合和特征降维,本部分为常规操作,可以根据实际情况选择方法,如特征聚合方法可以但不限于全局平均池化、全局最大池化、广义最大期望、SCDA、SPoC等8种特征聚合方法,特征降维方法可以但不限于主成分分析和奇异值分解两种比较有代表性的降维方法。最终降维得到512维的特征向量。
在本发明实施例中,如图6所示为图像检索过程,即将待检索降维特征图(输入图片特征向量)和数据库(特征向量数据库)中的所有降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得排序在预设数量前的检索结果(相似图像特征向量)。
本发明进行向量相似度搜索时采用的是Milvus。Milvus是一个开源的向量相似度搜索引擎,它集成了业界成熟的向量搜索技术如Faiss和SPTAG,同时针对Faiss IVF索引进行了深度优化,实现了CPU与多GPU的融合计算,大幅提高了向量搜索性能,可以在秒内完成十亿级的向量搜索。此外,Milvus能够有效的管理向量数据,提供针对向量和非向量数据的增删改查的能力。将数据库所有图像进行特征提取得到特征向量后,将这些特征向量注册到Milvus中建立索引。检索时将待检索特征向量输入Milvus进行向量搜索,采用欧式距离作为相似度量,最终得到Top N个检索结果。
在本发明实施例中,利用本发明提出的图像检索方法可以针对真实医疗影像数据进行图像检索,包括医疗发票、住院首页、病历等等,需要剔除重复医疗影像,并且针对模糊的医疗影像,用重复的清晰的医疗影像进行替换。同样的图像检索技术可以应用于互联网医疗场景,利用检索方法检索到相同的清晰图片,互联网医疗场景下的医生可以选择清晰图片作为诊断依据并选择留存的图像在数据库中留存。
具体的,待检索图像为核保场景、理赔场景或互联网医疗场景下的医疗模糊图像;
对待检索图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索降维特征图,包括:
对医疗模糊图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索医疗模糊图像的降维特征图;
将待检索降维特征图和数据库中的所有降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得排序在预设数量前的检索结果,包括:
将待检索医疗模糊图像的降维特征图和数据库中的所有医疗图像的降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得相似度最大的医疗图像;
利用所述相似度最大的医疗图像替换所述医疗模糊图像,以便核保人员、理赔人员或互联网医疗医生使用。
具体的,在核保场景、理赔场景或互联网医疗场景中,传入图像进行第一次特征处理,得到适应各自场景的全局特征,该特征主要包含的是场景中的共性特征,全局特征可以完成对场景图片的初步判别即分辨出各个场景报销单据形式、医学影像图片类别等等,经过正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后提取的特征聚焦在图像的具体细节,如在理赔、核保和互联网医疗场景中对应关键字、关键图像的位置、大小、形状等具体位置特征,用于分别具体事件类型。
总的来说,全局特征只能用来完成理赔、核保和互联网医疗场景中事件类型的判断,如判断是上传身份证还是报销单据,判断上传胃部ct影像还是肺部ct影像。只有局部特征可以判断是否是同上传同一人的身份证信息,或者同一人的肺部ct影像。
利用本发明图像检索方法提取所有报销图像的特征,进行图像检索比对,将相似图像两两配对,结果如图7所示。图7中的左图是某客户新提供的诊断报告但图像明显模糊,根本看不到诊断具体内容。利用本发明检索方法检索到相同图片(图7中的右图),核保人员可以选择右图的清晰图片作为客户的诊断证明留存,删掉左图的模糊图像。
本发明实施例中还提供了一种图像检索装置,如下面的实施例所述。由于该装置解决问题的原理与图像检索方法相似,因此该装置的实施可以参见图像检索方法的实施,重复之处不再赘述。
图8为本发明的一个实施例中的图像检索装置结构框图,如图8所示,该图像检索装置包括:
特征提取和采样模块02,用于对待检索图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索降维特征图;
检索模块04,用于将待检索降维特征图和数据库中的所有降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得排序在预设数量前的检索结果;其中,数据库中的所有降维特征图按照如下方式获得:对数据库中的所有图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理;利用已训练的特征提取网络进行第一次特征提取处理和第二次特征提取处理;
训练模块06,用于按照如下方式获得已训练的特征提取网络;
对训练图像进行缩放处理,利用特征提取网络对缩放处理的训练图像进行特征提取,获得特征矩阵;
对所述特征矩阵进行正则化注意力采样处理,获得全局结构采样图和局部结构采样图;
基于全局结构采样图和局部结构采样图进行知识蒸馏处理,获得已训练的特征提取网络。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述图像检索方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述图像检索方法的步骤。
本发明实施例中,技术层面有益效果:
与现有技术中只获得输入图片的全局特征来进行图像检索的技术方案相比,本发明利用特征提取网络对缩放处理的训练图像进行特征提取,获得特征矩阵;对特征矩阵进行正则化注意力采样处理,获得全局结构采样图和局部结构采样图,基于全局结构采样图和局部结构采样图进行知识蒸馏处理,获得已训练的特征提取网络,通过正则化注意力采样识别图片整体空间结构信息和局部特征,选择更值得关注的注意力特征图,抗遮挡、无关物体干扰能力更强;用知识蒸馏方法让特征提取全局网络学习到图片局部特征,既保证网络学习了整体上的特征,又获取了大量的局部细节特征。让网络可以学习到。然后对待检索图像利用已训练的特征提取网络进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、利用已训练的特征提取网络进行第二次特征提取处理和特征降维处理后,获得待检索降维特征图;将待检索降维特征图和数据库中的所有降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得排序在预设数量前的检索结果,这样得到的检索结果准确度高。本方法可以聚焦局部细节,不会受底部背景影响。
业务层面有益效果:
针对医疗影像数据,本发明能够发现不同客户或者相同客户提交相同相似影像等,并结合图像质检等方法,极大的提高了医疗影像数据的质量,更好的影像也使需要处理相关影像的人员更好的完成业务。针对稽核,产说会照片、培训活动照片是否重复提交,本发明能够为其提供稽核线索。针对财务,本发明能够根据报销件中的影像找出重复报销行为。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像检索方法,其特征在于,包括:
对待检索图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索降维特征图;
将待检索降维特征图和数据库中的所有降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得排序在预设数量前的检索结果;其中,数据库中的所有降维特征图按照如下方式获得:对数据库中的所有图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理;利用已训练的特征提取网络进行第一次特征提取处理和第二次特征提取处理;
按照如下方式获得已训练的特征提取网络:
对训练图像进行缩放处理,利用特征提取网络对缩放处理的训练图像进行特征提取,获得特征矩阵;
对所述特征矩阵进行正则化注意力采样处理,获得全局结构采样图和局部结构采样图;
基于全局结构采样图和局部结构采样图进行知识蒸馏处理,获得已训练的特征提取网络;
基于全局结构采样图和局部结构采样图进行知识蒸馏处理,获得已训练的特征提取网络,包括:
将全局结构采样图和局部结构采样图输入至特征提取网络ResNet50中,提取ResNet50的第预设个卷积结构后的全局特征矩阵fs和局部特征矩阵fp;
将全局特征矩阵fs和局部特征矩阵fp分别进行全局池化,获得全局池化向量和局部池化向量;
将所述全局池化向量和局部池化向量各自接入全连接层,使用分类器将全局池化向量对应的全连接的输出转化为全局分类概率qs,将局部池化向量对应的全连接的输出转化为局部分类概率qp;
计算全局分类概率qs和局部分类概率qp的交叉熵Ls;
计算预设的图像真实标签和全局分类概率qs的交叉熵Lc;
基于交叉熵Ls和交叉熵Lc建立损失函数。
2.如权利要求1所述的图像检索方法,其特征在于,利用特征提取网络对缩放处理的训练图像进行特征提取,获得特征矩阵,包括:
将缩放处理的训练图像输入至特征提取网络ResNet50中,提取ResNet50的第预设个卷积结构后的特征矩阵;
对所述特征矩阵进行正则化注意力采样处理,获得全局结构采样图和局部结构采样图,包括:
对所述特征矩阵进行注意力特征提取,获得全局注意力矩阵图和局部注意力矩阵图,使用central loss对局部注意力矩阵图的每个通道特征进行约束;
根据全局注意力矩阵图进行正则化全局注意力采样处理,获得全局结构采样图;
根据局部注意力矩阵图进行正则化局部注意力采样处理,获得局部结构采样图。
3.如权利要求2所述的图像检索方法,其特征在于,对所述特征矩阵进行注意力特征提取,获得全局注意力矩阵图和局部注意力矩阵图,包括:
对所述特征矩阵进行卷积操作、大小变换处理,获得第一矩阵Xt;
对所述特征矩阵大小变换处理,获得第二矩阵X;
计算X(XTX),得到第三矩阵,将第三矩阵进行大小变换处理,获得全局注意力矩阵图A;
计算Xt(Xt TXt),得到第四矩阵,将第四矩阵进行大小变换处理,获得局部注意力矩阵图At。
4.如权利要求3所述的图像检索方法,其特征在于,使用central loss对局部注意力矩阵图的每个通道特征进行约束,包括:
利用局部注意力矩阵图At对全局注意力矩阵图A进行双线性池化操作,得到局部特征k通道上的特征向量Ak,k=1,2,……,局部注意力矩阵图At中的通道个数;
创建k个通道的中心特征向量Ck,并初始化为零;
根据特征向量Ak和中心特征向量Ck建立损失函数;
利用梯度下降法更新中心特征向量Ck,拟合损失函数。
5.如权利要求3所述的图像检索方法,其特征在于,根据全局注意力矩阵图进行正则化全局注意力采样处理,获得全局结构采样图,包括:
将全局注意力矩阵图A在通道上进行平均池化,根据池化后的全局注意力矩阵图在缩放处理的训练图像上采样,获得全局结构采样图;
根据局部注意力矩阵图进行正则化局部注意力采样处理,获得局部结构采样图,包括:
在局部注意力矩阵图At上随机选取一张局部注意力矩阵图,根据该张局部注意力矩阵图在缩放处理的训练图像上采样,获得局部结构采样图。
6.如权利要求1所述的图像检索方法,其特征在于,对待检索图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索降维特征图,包括:
将待检索图像缩放处理后输入至已训练的特征提取网络ResNet50中,提取ResNet50的第预设个卷积结构后的待检索特征矩阵;
对待检索特征矩阵进行注意力特征提取,获得待检索全局注意力矩阵图;
根据待检索全局注意力矩阵图进行正则化全局注意力采样处理,获得待检索全局结构采样图;
将待检索全局结构采样图输入至已训练的特征提取网络ResNet50中,得到待检索特征图;
对待检索特征图进行特征降维处理,获得待检索降维特征图。
7.如权利要求1所述的图像检索方法,其特征在于,所述待检索图像为核保场景、理赔场景或互联网医疗场景下的医疗模糊图像;
对待检索图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索降维特征图,包括:
对医疗模糊图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索医疗模糊图像的降维特征图;
将待检索降维特征图和数据库中的所有降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得排序在预设数量前的检索结果,包括:
将待检索医疗模糊图像的降维特征图和数据库中的所有医疗图像的降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得相似度最大的医疗图像;
利用所述相似度最大的医疗图像替换所述医疗模糊图像,以便核保人员、理赔人员或互联网医疗医生使用。
8.一种图像检索装置,其特征在于,包括:
特征提取和采样模块,用于对待检索图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理后,获得待检索降维特征图;
检索模块,用于将待检索降维特征图和数据库中的所有降维特征图进行相似度计算,将获得的相似度进行从大到小排序,获得排序在预设数量前的检索结果;其中,数据库中的所有降维特征图按照如下方式获得:对数据库中的所有图像进行缩放处理、第一次特征提取处理、正则化全局注意力采样处理、第二次特征提取处理和特征降维处理;利用已训练的特征提取网络进行第一次特征提取处理和第二次特征提取处理;
训练模块,用于按照如下方式获得已训练的特征提取网络:
对训练图像进行缩放处理,利用特征提取网络对缩放处理的训练图像进行特征提取,获得特征矩阵;
对所述特征矩阵进行正则化注意力采样处理,获得全局结构采样图和局部结构采样图;
基于全局结构采样图和局部结构采样图进行知识蒸馏处理,获得已训练的特征提取网络;
训练模块基于全局结构采样图和局部结构采样图进行知识蒸馏处理,获得已训练的特征提取网络,具体包括:
将全局结构采样图和局部结构采样图输入至特征提取网络ResNet50中,提取ResNet50的第预设个卷积结构后的全局特征矩阵fs和局部特征矩阵fp;
将全局特征矩阵fs和局部特征矩阵fp分别进行全局池化,获得全局池化向量和局部池化向量;
将所述全局池化向量和局部池化向量各自接入全连接层,使用分类器将全局池化向量对应的全连接的输出转化为全局分类概率qs,将局部池化向量对应的全连接的输出转化为局部分类概率qp;
计算全局分类概率qs和局部分类概率qp的交叉熵Ls;
计算预设的图像真实标签和全局分类概率qs的交叉熵Lc;
基于交叉熵Ls和交叉熵Lc建立损失函数。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110338410.7A CN112927783B (zh) | 2021-03-30 | 2021-03-30 | 图像检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110338410.7A CN112927783B (zh) | 2021-03-30 | 2021-03-30 | 图像检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112927783A CN112927783A (zh) | 2021-06-08 |
CN112927783B true CN112927783B (zh) | 2023-12-26 |
Family
ID=76176478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110338410.7A Active CN112927783B (zh) | 2021-03-30 | 2021-03-30 | 图像检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927783B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343920A (zh) * | 2021-07-01 | 2021-09-03 | 中诚信征信有限公司 | 人脸识别照片的分类方法、装置、电子设备和存储介质 |
CN114048341B (zh) * | 2021-11-03 | 2023-04-07 | 北京中知智慧科技有限公司 | 外观设计产品的安全检索方法、系统、客户端及服务器 |
CN116503933B (zh) * | 2023-05-24 | 2023-12-12 | 北京万里红科技有限公司 | 一种眼周特征提取方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086437A (zh) * | 2018-08-15 | 2018-12-25 | 重庆大学 | 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法 |
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
CN110414368A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于知识蒸馏的无监督行人重识别方法 |
CN111522986A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 图像检索方法、装置、设备和介质 |
CN111931624A (zh) * | 2020-08-03 | 2020-11-13 | 重庆邮电大学 | 基于注意力机制的轻量级多分支行人重识别方法及系统 |
CN111930983A (zh) * | 2020-08-18 | 2020-11-13 | 创新奇智(成都)科技有限公司 | 一种图像检索方法、装置、电子设备及存储介质 |
CN112200111A (zh) * | 2020-10-19 | 2021-01-08 | 厦门大学 | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 |
CN112232300A (zh) * | 2020-11-11 | 2021-01-15 | 汇纳科技股份有限公司 | 全局遮挡自适应的行人训练/识别方法、系统、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711481B (zh) * | 2019-01-02 | 2021-09-10 | 京东方艺云科技有限公司 | 用于画作多标签识别的神经网络、相关方法、介质和设备 |
-
2021
- 2021-03-30 CN CN202110338410.7A patent/CN112927783B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086437A (zh) * | 2018-08-15 | 2018-12-25 | 重庆大学 | 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法 |
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
CN110414368A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于知识蒸馏的无监督行人重识别方法 |
CN111522986A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 图像检索方法、装置、设备和介质 |
CN111931624A (zh) * | 2020-08-03 | 2020-11-13 | 重庆邮电大学 | 基于注意力机制的轻量级多分支行人重识别方法及系统 |
CN111930983A (zh) * | 2020-08-18 | 2020-11-13 | 创新奇智(成都)科技有限公司 | 一种图像检索方法、装置、电子设备及存储介质 |
CN112200111A (zh) * | 2020-10-19 | 2021-01-08 | 厦门大学 | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 |
CN112232300A (zh) * | 2020-11-11 | 2021-01-15 | 汇纳科技股份有限公司 | 全局遮挡自适应的行人训练/识别方法、系统、设备及介质 |
Non-Patent Citations (1)
Title |
---|
增量角度域损失和多特征融合的地标识别;毛雪宇;彭艳兵;;中国图象图形学报(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112927783A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112927783B (zh) | 图像检索方法及装置 | |
Liu et al. | LF-YOLO: A lighter and faster yolo for weld defect detection of X-ray image | |
Ju et al. | Fusing global and local features for generalized ai-synthesized image detection | |
US11809519B2 (en) | Semantic input sampling for explanation (SISE) of convolutional neural networks | |
CN111553422A (zh) | 手术器械自动识别回收方法及系统 | |
CN111950362B (zh) | 一种金丝猴面部图像识别方法、装置、设备及存储介质 | |
Jia et al. | Effective meta-attention dehazing networks for vision-based outdoor industrial systems | |
Zhao et al. | Double attention for multi-label image classification | |
Wang et al. | Small vehicle classification in the wild using generative adversarial network | |
Makwana et al. | PCBSegClassNet—A light-weight network for segmentation and classification of PCB component | |
CN107680037B (zh) | 改进的基于最近特征线流形学习的人脸超分辨率重建方法 | |
CN113888425A (zh) | 基于多帧融合的工业质检图像文字匹配方法及系统 | |
Ananthi et al. | A secure model on Advanced Fake Image-Feature Network (AFIFN) based on deep learning for image forgery detection | |
Ji et al. | Uncertainty-guided learning for improving image manipulation detection | |
Soni et al. | Image copy-move forgery detection using deep convolutional neural networks | |
CN115496950A (zh) | 邻域信息嵌入的半监督判别字典对学习的图像分类方法 | |
Kopparthi et al. | Content based image retrieval using deep learning technique with distance measures | |
Xiu et al. | Double discriminative face super-resolution network with facial landmark heatmaps | |
Guo et al. | Er-iqa: Boosting perceptual quality assessment using external reference images | |
Luo et al. | ICDAR 2023 Competition on Detecting Tampered Text in Images | |
CN116612335B (zh) | 一种基于对比学习的少样本细粒度图像分类方法 | |
Pihlgren et al. | A Systematic Performance Analysis of Deep Perceptual Loss Networks: Breaking Transfer Learning Conventions | |
Yu et al. | Towards Complex Real-World Safety Factory Inspection: A High-Quality Dataset for Safety Clothing and Helmet Detection | |
CN112115949B (zh) | 一种烟草证件以及订单的光学文字识别方法 | |
Chandra Mohan | Blind Image Quality Assessment of Smartphone-captured Images in the Wild |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231126 Address after: No. 322 Sixin North Road, Hanyang District, Wuhan City, Hubei Province, 430050 Applicant after: Taikang Tongji (Wuhan) Hospital Address before: 156 fuxingmennei street, Xicheng District, Beijing 100031 Applicant before: TAIKANG INSURANCE GROUP Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |