CN111597375B - 基于相似图片组代表特征向量的图片检索方法及相关设备 - Google Patents
基于相似图片组代表特征向量的图片检索方法及相关设备 Download PDFInfo
- Publication number
- CN111597375B CN111597375B CN202010426656.5A CN202010426656A CN111597375B CN 111597375 B CN111597375 B CN 111597375B CN 202010426656 A CN202010426656 A CN 202010426656A CN 111597375 B CN111597375 B CN 111597375B
- Authority
- CN
- China
- Prior art keywords
- picture
- feature vector
- similar
- pictures
- picture group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 344
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013527 convolutional neural network Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 38
- 230000009467 reduction Effects 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 208000006440 Open Bite Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提供一种基于相似图片组代表特征向量的图片检索方法及相关设备。所述方法包括:获取待检索图片和所述待检索图片的特征向量;获取多个相似图片组和每个相似图片组的特征向量;根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量;计算所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离;确定与所述待检索图片的特征向量之间的距离最小的代表特征向量;将确定的代表特征向量对应的相似图片组输出为所述待检索图片的检索结果。本发明可以实现快速、准确的图片检索。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于相似图片组代表特征向量的图片检索方法及相关设备。
背景技术
随着图像处理技术的发展,图片检索的需求日益剧增。图片检索就是根据用户输入的待检索图片输出与其相似的图片。然而,目前的图片检索方法正确率和效率不高,容易检索出非相似图片,且检索速度较慢。
发明内容
鉴于以上内容,有必要提出一种基于相似图片组代表特征向量的图片检索方法及相关设备,其可以实现快速、准确的图片检索。
本申请的第一方面提供一种基于相似图片组代表特征向量的图片检索方法,所述方法包括:
获取待检索图片和所述待检索图片的特征向量;
获取多个相似图片组和每个相似图片组的特征向量;
根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量;
计算所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离;
确定与所述待检索图片的特征向量之间的距离最小的代表特征向量;
将确定的代表特征向量对应的相似图片组输出为所述待检索图片的检索结果。
另一种可能的实现方式中,所述获取多个相似图片组和每个相似图片组的特征向量包括:
获取多个待归类图片;
将所述多个待归类图片进行预处理;
将每个预处理后的待归类图片输入卷积神经网络进行特征提取,得到每个待归类图片的特征向量;
计算每两个待归类图片的特征向量之间的距离;
根据每两个待归类图片的特征向量之间的距离构建至少一个连通图,所述至少一个连通图的每个顶点对应一个待归类图片,若两个待归类图片的特征向量之间的距离小于或等于预设阈值,则所述两个待归类图片对应的顶点用边相连;
对每个连通图进行减边处理,对于该连通图中的每条边,判断该条边的两个顶点所连接的顶点数是否小于该连通图的总顶点数,若该条边的两个顶点所连接的顶点数小于该连通图的总顶点数,则删除该条边;
根据所有减边处理后的连通图,输出所述多个相似图片组和每个相似图片组的特征向量。
另一种可能的实现方式中,所述对每个连通图进行减边处理之后,所述方法还包括:
对每个减边处理后的连通图进行增边处理,若两个顶点在一个连通图中但是没有相连的边,则在所述两个顶点之间增加一条边。
另一种可能的实现方式中,所述将每个预处理后的待归类图片输入卷积神经网络进行特征提取之前,所述方法还包括:
判断每个预处理后的待归类图片是否为遮挡图片;
若所述预处理后的待归类图片为遮挡图片,则对所述预处理后的待归类图片进行去遮挡处理。
另一种可能的实现方式中,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
计算所述相似图片组的特征向量的平均值,将所述平均值作为所述相似图片组的代表特征向量;或者
计算所述相似图片组的特征向量的中位数,将所述中位数作为所述相似图片组的代表特征向量;或者
计算与所述相似图片组的特征向量的距离之和最小的特征向量,将与所述相似图片组的特征向量的距离之和最小的特征向量作为所述相似图片组的代表特征向量。
另一种可能的实现方式中,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
获取参考图片和所述参考图片的特征向量;
计算所述相似图片组的特征向量与所述参考图片的特征向量之间的距离;
计算所述相似图片组的特征向量与所述参考图片的特征向量之间的距离的平均值,得到平均距离;
根据所述平均距离和所述参考图片的特征向量获取所述代表特征向量,所述代表特征向量与所述参考图片的特征向量之间的距离为所述平均距离。
另一种可能的实现方式中,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
训练生成器,所述生成器的输入为随机噪声,输出为图片,所述生成器的损失函数为所述生成器生成的图片的特征向量与所述相似图片组的特征向量的平均距离,通过优化所述损失函数得到所述相似图片组的代表图片;
提取所述代表图片的特征向量,以所述代表图片的特征向量作为所述代表特征向量。
本申请的第二方面提供一种基于相似图片组代表特征向量的图片检索装置,所述装置包括:
第一获取模块,用于获取待检索图片和所述待检索图片的特征向量;
第二获取模块,用于获取多个相似图片组和每个相似图片组的特征向量;
第一计算模块,用于根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量;
第二计算模块,用于计算所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离;
确定模块,用于确定与所述待检索图片的特征向量之间的距离最小的代表特征向量;
输出模块,用于将确定的代表特征向量对应的相似图片组输出为所述待检索图片的检索结果。
本申请的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于相似图片组代表特征向量的图片检索方法。
本申请的第四方面提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于相似图片组代表特征向量的图片检索方法。
本发明获取待检索图片和所述待检索图片的特征向量;获取多个相似图片组和每个相似图片组的特征向量;根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量;计算所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离;确定与所述待检索图片的特征向量之间的距离最小的代表特征向量;将确定的代表特征向量对应的相似图片组输出为所述待检索图片的检索结果。本发明可以实现快速、准确的图片检索。
附图说明
图1是本发明实施例提供的基于相似图片组代表特征向量的图片检索方法的流程图。
图2是本发明实施例提供的图1中102的细化流程图。
图3是本发明实施例提供的基于相似图片组代表特征向量的图片检索装置的结构图。
图4是本发明实施例提供的图3中302的细化结构图。
图5是本发明实施例提供的计算机设备的示意图。
图6是对图片构建连通图的示意图。
图7是对连通图进行删边处理的示意图。
图8是对连通图进行增边处理的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明的基于相似图片组代表特征向量的图片检索方法应用在一个或者多个计算机设备中。所述计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本发明实施例提供的基于相似图片组代表特征向量的图片检索方法的流程图。所述图片检索方法应用于计算机设备。所述图片检索方法检索与待检索图片相似的图片。
如图1所示,所述图片检索方法包括:
101,获取待检索图片和所述待检索图片的特征向量。
待检索图片可以是用户输入的图片。例如,可以显示检索界面,从所述检索界面接收用户输入的所述待检索图片。
可以将所述待检索图片输入卷积神经网络进行特征提取,得到待检索图片的特征向量。
所述待检索图片可以是jpg格式、PNG格式、TIF格式、BMP格式或其他格式的图片。
102,获取多个相似图片组和每个相似图片组的特征向量。
可以获取预先归类好的多个相似图片组,每个相似图片组包含多个相似图片。
每个相似图片组的特征向量是指每个相似图片组中的每个图片的特征向量。
可以将每个相似图片组中的每个图片输入卷积神经网络进行特征提取,得到每个相似图片组的特征向量。
或者,可以对多个待归类图片进行归类,得到所述多个相似图片组。
在一实施例中,获取多个相似图片组和每个相似图片组的特征向量的具体方法参见图2所示。
103,根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量。
在一实施例中,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
计算所述相似图片组的特征向量的平均值,将所述平均值作为所述相似图片组的代表特征向量;或者
计算所述相似图片组的特征向量的中位数,将所述中位数作为所述相似图片组的代表特征向量;或者
计算与所述相似图片组的特征向量的距离之和最小的特征向量,将与所述相似图片组的特征向量的距离之和最小的特征向量作为所述相似图片组的代表特征向量。
计算所述相似图片组的特征向量的平均值是指计算所述相似图片组的特征向量的每个特征分量的平均值。
计算所述相似图片组的特征向量的中位数是指计算所述相似图片组的特征向量的每个特征分量的中位数。
与所述相似图片组的特征向量的距离可以是余弦距离、欧式距离、绝对距离或其他距离。
在另一实施例中,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
获取参考图片和所述参考图片的特征向量;
计算所述相似图片组的特征向量与所述参考图片的特征向量之间的距离;
计算所述相似图片组的特征向量与所述参考图片的特征向量之间的距离的平均值,得到平均距离;
根据所述平均距离和所述参考图片的特征向量获取所述代表特征向量,所述代表特征向量与所述参考图片的特征向量之间的距离为所述平均距离。
所述参考图片可以是任意图片。例如可以是空白图片,也可以是任意选定的图片。
可以将所述参考图片输入卷积神经网络进行特征提取,得到所述参考图片的特征向量。
每个相似图片组的特征向量与所述参考图片的特征向量之间的距离是指每个相似图片组中的每个图片的特征向量与所述参考图片的特征向量之间的距离。
每个相似图片组的特征向量与所述参考图片的特征向量之间的距离可以是余弦距离、欧式距离、绝对距离或其他距离。
在另一实施例中,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
训练生成器,所述生成器的输入为随机噪声,输出为图片,所述生成器的损失函数为所述生成器生成的图片的特征向量与所述相似图片组的特征向量的平均距离,通过优化所述损失函数得到所述相似图片组的代表图片;
提取所述代表图片的特征向量,以所述代表图片的特征向量作为所述代表特征向量。
所述生成器生成的图片的特征向量与所述相似图片组的特征向量的平均距离是所述生成器生成的图片的特征向量与所述相似图片组中的每个图片的特征向量之间的距离的平均值。
所述生成器生成的图片的特征向量与所述相似图片组中的每个图片的特征向量之间的距离可以是余弦距离、欧式距离、绝对距离或其他距离。
可以将所述生成器生成的图片输入卷积神经网络进行特征提取,得到所述生成器生成的图片的特征向量。
对每个相似图片组训练一次生成器,得到所述相似图片组的代表图片。
可以将所述代表图片输入卷积神经网络进行特征提取,得到所述代表特征向量。
所述生成器可以是对抗生成网络。
104,计算所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离。
所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离可以是余弦距离、欧式距离、绝对距离或其他距离。
105,确定与所述待检索图片的特征向量之间的距离最小的代表特征向量。
例如,共有1000个相似图片组,确定第一个相似图片组的代表特征向量与所述待检索图片的特征向量之间的距离最小。
106,将确定的代表特征向量对应的相似图片组输出为所述待检索图片的检索结果。
例如,共有1000个相似图片组,第一个相似图片组的代表特征向量与所述待检索图片的特征向量之间的距离最小,则将第一个相似图片组输出为所述待检索图片的检索结果。
需要说明的是,本发明用于特征提取的卷积神经网络可以是同一个神经网络,例如VGG16网络。该卷积神经网络的示例可以参见203的相关描述。
所述图片检索方法获取待检索图片和所述待检索图片的特征向量;获取多个相似图片组和每个相似图片组的特征向量;根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量;计算所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离;确定与所述待检索图片的特征向量之间的距离最小的代表特征向量;将确定的代表特征向量对应的相似图片组输出为所述待检索图片的检索结果。所述图片检索方法对每个相似图片组计算代表特征向量,根据代表特征向量计算待检索图像与每个相似图片组的相似性/距离,无需对每个图片进行相似性计算,实现快速、准确的图片检索。
实施例二
图2是本发明实施例提供的图1中102的细化流程图。
201,获取多个待归类图片。
所述待归类图片可以是通过相机、摄像头等拍摄得到的图片,也可以是通过对纸本进行扫描得到的图片。
所述待归类图片可以是jpg格式、PNG格式、TIF格式、BMP格式或其他格式的图片。
所述待归类图片可以是灰度图片,也可以是彩色图片,例如RGB图片、YUV图片或HSV图片。
所述待归类图片可以是大规模的图片,例如十万张图片。
202,将所述多个待归类图片进行预处理。
将待归类图片进行预处理的目的是将待归类图片转换为规范图片。
在一实施例中,所述将所述多个待归类图片进行预处理包括:
将所述多个待归类图片转换为预设图片格式;和/或
将所述多个待归类图片转换为预设尺寸;和/或
将所述多个待归类图片转换为预设颜色。
示例性地,将所述多个待归类图片转换为预设图片格式可以是将所述多个待归类图片转换为JPG图片。例如,所述多个待归类图片中除了JPG图片,还包括PDF图片和TIF图片,则将所述多个待归类图片中的PDF图片和TIF图片转换为JPG图片。
示例性地,将所述多个待归类图片转换为预设尺寸可以是将所述多个待归类图片转换为224×224(即行像素和列像素均为224)的图片。将待归类图片转换为预设尺寸就是进行图片尺寸的归一化,也就是把长宽像素变为相同的值。可以将待归类图片按预设尺寸均匀切分成若干小块,对于每一个小块,计算其所覆盖的原图像素的平均值。
示例性地,将所述多个待归类图片转换为预设颜色可以是将所述多个待归类图片转换为RGB图片。
可以理解,可以对所述多个待归类图片进行其他的预处理。例如,可以判断所述多个待归类图片中是否存在空图片(即文件大小为0的图片),若所述多个待归类图片中存在空图片,则删除所述空图片。又如,可以对待归类图片进行平移。可以将待归类图片沿水平方向(即x轴)平移。或者,可以将待归类图片沿垂直方向(即y轴)平移。或者,可以将待归类图片沿水平方向和垂直方向平移。再如,可以对待归类图片进行预处理还可以包括对待归类图片进行旋转和/或翻转。可以对待归类图片进行任意角度和方向(顺时针或逆时针)的旋转。例如,将待归类图片逆时针旋转90度。又如,将待归类图片顺时针旋转180度。再如,将待归类图片顺时针旋转270度。可以对待归类图片进行水平翻转或垂直翻转。
203,将每个预处理后的待归类图片输入卷积神经网络进行特征提取,得到每个待归类图片的特征向量。
所述卷积神经网络为具有提取图片关键特征能力的卷积神经网络,包括AlexNet网络、VGGNet网络、GoogleNet网络、ResNet网络。可以理解,所述卷积神经网络可以是其他的卷积神经网络。
在一实施例中,所述将每个预处理后的待归类图片输入卷积神经网络进行特征提取之前,所述方法还包括:
使用公共图片库对所述卷积神经网络进行预训练;
使用已标注相似图片类别的图片对预训练后的卷积神经网络进行相似图片归类任务微调。
在该实施例中,所述卷积神经网络的训练包括预训练和训练微调。使用公共图片库对所述卷积神经网络进行预训练。例如,使用ImageNet对所述卷积神经网络进行预训练。ImageNet有超过100万张已标注类别的图像,涵盖超过1000个类别,适合大规模的网络训练。
使用已标注相似图片类别的图片对预训练后的卷积神经网络进行相似图片归类任务微调是对预训练后的卷积神经网络进行迁移学习,调整卷积神经网络的参数,从而能够进行相似归类。
在一实施例中,所述卷积神经网络是VGG16网络。VGG16网络一共有16层,网络的输入为224x224x3的图片。在用ImageNet进行预训练时,网络的输入为ImageNet图片,输出为ImageNet图片的1000个类别。用ImageNet对VGG16网络进行预训练可以得到VGG16网络的参数。选取VGG16卷积层最后一层的输出向量,也就是7x7x512那一层的输出作为图片的特征向量。因此,对于任何一个输入的图片,都会经过VGG16网络转化为一个7x7x512=25088维的向量。在通过迁移学习对VGG16网络进行训练微调时,网络的输入是已标注相似图片类别的图片,网络的初始参数是预训练得到的参数,保持卷积层的结构不变,针对类别的个数对VGG16的全连接层神经元个数进行修改后,进行参数的微调,使网络对待归类图片更加灵敏。训练完成后同样提取25088维向量作为图片的特征向量。
204,计算每两个待归类图片的特征向量之间的距离。
在一实施例中,根据每两个待归类图片的特征向量计算每两个待归类图片的余弦距离。
在其他的实施例中,可以根据每两个待归类图片的特征向量计算每两个待归类图片的其他距离,例如欧式距离或绝对距离。
205,根据每两个待归类图片的特征向量之间的距离构建至少一个连通图,所述至少一个连通图的每个顶点对应一个待归类图片,若两个待归类图片的特征向量之间的距离小于或等于预设阈值,则所述两个待归类图片对应的顶点用边相连。
在根据每两个待归类图片的特征向量之间的距离构建至少一个连通图时,以每个待归类图片作为连通图的一个顶点。判断两个待归类图片的特征向量之间的距离是否小于或等于预设阈值(例如0.7),若所述两个待归类图片的特征向量之间的距离小于或等于预设阈值,则所述两个待归类图片对应的顶点用边相连。
可以通过DFS(Depth First Search,深度优先搜索)或者BFS(Breath FirstSearch,广度优先搜索)算法找到各个连通图。
图6是对a、b、c、d四个图片构建连通图的示意图。图6中,将每两个图片的特征向量之间的距离与预设阈值进行比较,根据比较结果生成邻接矩阵(1表示大于或等于预设阈值,0表示小于预设阈值),根据邻近矩阵构建连通图。
206,对每个连通图进行减边处理,对于该连通图中的每条边,判断该条边的两个顶点所连接的顶点数是否小于该连通图的总顶点数,若该条边的两个顶点所连接的顶点数小于该连通图的总顶点数,则删除该条边。
构建的连通图可能存在一定错误,减边处理的目的就是纠正连通图中的错误。
对于每个连通图中的每一条边,若该边两个顶点所连接的顶点数小于该连通图的总顶点数,也即平均每个顶点连接了不到一半的顶点,则会将该边删除。每个减边处理后的连通图的所有顶点对应的待归类图片为一个相似图片组。
图7是对连通图进行删边处理的示意图。
207,根据所有减边处理后的连通图,输出所述多个相似图片组和每个相似图片组的特征向量。
每个减边处理后的连通图的所有顶点对应的待归类图片为一个相似图片组。可以将每个减边处理后的连通图的所有顶点对应的待归类图片组成一个相似图片集合。
卷积神经网络包含了图片的几乎所有特征,根据卷积神经网络提取的特征向量进行相似归类可以获得更加准确的归类结果,从而提高图片检索的正确率。构建待归类图片的连通图并进行减边处理可以减少归类错误,进一步提高图片检索的正确率。本方法可以对大规模图片数据进行相似归类,基于归类后的图片进行图片检索,可以快速获得检索结果。
在一实施例中,所述对每个连通图进行减边处理之后,所述方法还包括:
对每个减边处理后的连通图进行增边处理,若两个顶点在一个连通图中但是没有相连的边,则在所述两个顶点之间增加一条边。
在对每个连通图进行减边处理之后,可以对每个减边处理后的连通图进行增边处理。若两个顶点在一个连通图中但是没有相连的边,则在所述两个顶点之间增加一条边。增边处理是将连通图补全为完全图,以表达图片间完整的相似关系。
例如,有4张图片a、b、c、d,其中(a,b);(a,c);(a,d);(b,c);(b,d)两两相连,则可以在(c,d)中增加一条连线构成完全图。
图8是对连通图进行增边处理的示意图。
在一实施例中,所述对每个连通图进行减边处理之后,所述方法还包括:
在一实施例中,所述将每个预处理后的待归类图片输入卷积神经网络进行特征提取之前,所述方法还包括:
判断每个预处理后的待归类图片是否为遮挡图片;
若所述预处理后的待归类图片为遮挡图片,则对所述预处理后的待归类图片进行去遮挡处理。
可以将每个预处理后的待归类图片输入遮挡/无遮挡图片归类器,所述遮挡/无遮挡图片归类器确定所述预处理后的待归类图片是否为遮挡图像。
若所述预处理后的待归类图片为遮挡图片,可以将所述预处理后的待归类图片输入对抗生成网络进行去遮挡处理。
实施例三
图3是本发明实施例提供的基于相似图片组代表特征向量的图片检索装置的结构图。所述图片检索装置30应用于计算机设备。所述图片检索装置30检索与待检索图片相似的图片。
如图4所示,所述图片检索装置30可以包括第一获取模块301、第二获取模块302、第一计算模块303、第二计算模块304、确定模块305、输出模块306。
第一获取模块301,用于获取待检索图片和所述待检索图片的特征向量。
待检索图片可以是用户输入的图片。例如,可以显示检索界面,从所述检索界面接收用户输入的所述待检索图片。
可以将所述待检索图片输入卷积神经网络进行特征提取,得到待检索图片的特征向量。
所述待检索图片可以是jpg格式、PNG格式、TIF格式、BMP格式或其他格式的图片。
第二获取模块302,用于获取多个相似图片组和每个相似图片组的特征向量。
可以获取预先归类好的多个相似图片组,每个相似图片组包含多个相似图片。
每个相似图片组的特征向量是指每个相似图片组中的每个图片的特征向量。
可以将每个相似图片组中的每个图片输入卷积神经网络进行特征提取,得到每个相似图片组的特征向量。
或者,可以对多个待归类图片进行归类,得到所述多个相似图片组。
在一实施例中,第二获取模块302的细化结构图参见图4所示。
第一计算模块303,用于根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量。
在一实施例中,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
计算所述相似图片组的特征向量的平均值,将所述平均值作为所述相似图片组的代表特征向量;或者
计算所述相似图片组的特征向量的中位数,将所述中位数作为所述相似图片组的代表特征向量;或者
计算与所述相似图片组的特征向量的距离之和最小的特征向量,将与所述相似图片组的特征向量的距离之和最小的特征向量作为所述相似图片组的代表特征向量。
计算所述相似图片组的特征向量的平均值是指计算所述相似图片组的特征向量的每个特征分量的平均值。
计算所述相似图片组的特征向量的中位数是指计算所述相似图片组的特征向量的每个特征分量的中位数。
与所述相似图片组的特征向量的距离可以是余弦距离、欧式距离、绝对距离或其他距离。
在另一实施例中,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
获取参考图片和所述参考图片的特征向量;
计算所述相似图片组的特征向量与所述参考图片的特征向量之间的距离;
计算所述相似图片组的特征向量与所述参考图片的特征向量之间的距离的平均值,得到平均距离;
根据所述平均距离和所述参考图片的特征向量获取所述代表特征向量,所述代表特征向量与所述参考图片的特征向量之间的距离为所述平均距离。
所述参考图片可以是任意图片。例如可以是空白图片,也可以是任意选定的图片。
可以将所述参考图片输入卷积神经网络进行特征提取,得到所述参考图片的特征向量。
每个相似图片组的特征向量与所述参考图片的特征向量之间的距离是指每个相似图片组中的每个图片的特征向量与所述参考图片的特征向量之间的距离。
每个相似图片组的特征向量与所述参考图片的特征向量之间的距离可以是余弦距离、欧式距离、绝对距离或其他距离。
在另一实施例中,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
训练生成器,所述生成器的输入为随机噪声,输出为图片,所述生成器的损失函数为所述生成器生成的图片的特征向量与所述相似图片组的特征向量的平均距离,通过优化所述损失函数得到所述相似图片组的代表图片;
提取所述代表图片的特征向量,以所述代表图片的特征向量作为所述代表特征向量。
所述生成器生成的图片的特征向量与所述相似图片组的特征向量的平均距离是所述生成器生成的图片的特征向量与所述相似图片组中的每个图片的特征向量之间的距离的平均值。
所述生成器生成的图片的特征向量与所述相似图片组中的每个图片的特征向量之间的距离可以是余弦距离、欧式距离、绝对距离或其他距离。
可以将所述生成器生成的图片输入卷积神经网络进行特征提取,得到所述生成器生成的图片的特征向量。
对每个相似图片组训练一次生成器,得到所述相似图片组的代表图片。
可以将所述代表图片输入卷积神经网络进行特征提取,得到所述代表特征向量。
所述生成器可以是对抗生成网络。
第二计算模块304,用于计算所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离。
所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离可以是余弦距离、欧式距离、绝对距离或其他距离。
确定模块305,用于确定与所述待检索图片的特征向量之间的距离最小的代表特征向量。
例如,共有1000个相似图片组,确定第一个相似图片组的代表特征向量与所述待检索图片的特征向量之间的距离最小。
输出模块306,用于将确定的代表特征向量对应的相似图片组输出为所述待检索图片的检索结果。
例如,共有1000个相似图片组,第一个相似图片组的代表特征向量与所述待检索图片的特征向量之间的距离最小,则将第一个相似图片组输出为所述待检索图片的检索结果。
需要说明的是,本发明用于特征提取的卷积神经网络可以是同一个神经网络,例如VGG16网络。该卷积神经网络的示例可以参见特征提取子模块3023的相关描述。
所述图片检索装置30获取待检索图片和所述待检索图片的特征向量;获取多个相似图片组和每个相似图片组的特征向量;根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量;计算所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离;确定与所述待检索图片的特征向量之间的距离最小的代表特征向量;将确定的代表特征向量对应的相似图片组输出为所述待检索图片的检索结果。所述图片检索装置30对每个相似图片组计算代表特征向量,根据代表特征向量计算待检索图像与每个相似图片组的相似性/距离,无需对每个图片进行相似性计算,可以实现快速、准确的图片检索。
实施例四
图4是本发明实施例提供的图3中302的细化结构图。
如图4所示,所述第二获取模块302可以包括获取子模块3021、预处理子模块3022、特征提取子模块3023、计算子模块3024、构建子模块3025、减边子模块3026、输出子模块3027。
获取子模块3021,用于获取多个待归类图片。
所述待归类图片可以是通过相机、摄像头等拍摄得到的图片,也可以是通过对纸本进行扫描得到的图片。
所述待归类图片可以是jpg格式、PNG格式、TIF格式、BMP格式或其他格式的图片。
所述待归类图片可以是灰度图片,也可以是彩色图片,例如RGB图片、YUV图片或HSV图片。
所述待归类图片可以是大规模的图片,例如十万张图片。
预处理子模块3022,用于将所述多个待归类图片进行预处理。
将待归类图片进行预处理的目的是将待归类图片转换为规范图片。
在一实施例中,所述将所述多个待归类图片进行预处理包括:
将所述多个待归类图片转换为预设图片格式;和/或
将所述多个待归类图片转换为预设尺寸;和/或
将所述多个待归类图片转换为预设颜色。
示例性地,将所述多个待归类图片转换为预设图片格式可以是将所述多个待归类图片转换为JPG图片。例如,所述多个待归类图片中除了JPG图片,还包括PDF图片和TIF图片,则将所述多个待归类图片中的PDF图片和TIF图片转换为JPG图片。
示例性地,将所述多个待归类图片转换为预设尺寸可以是将所述多个待归类图片转换为224×224(即行像素和列像素均为224)的图片。将待归类图片转换为预设尺寸就是进行图片尺寸的归一化,也就是把长宽像素变为相同的值。可以将待归类图片按预设尺寸均匀切分成若干小块,对于每一个小块,计算其所覆盖的原图像素的平均值。
示例性地,将所述多个待归类图片转换为预设颜色可以是将所述多个待归类图片转换为RGB图片。
可以理解,可以对所述多个待归类图片进行其他的预处理。例如,可以判断所述多个待归类图片中是否存在空图片(即文件大小为0的图片),若所述多个待归类图片中存在空图片,则删除所述空图片。又如,可以对待归类图片进行平移。可以将待归类图片沿水平方向(即x轴)平移。或者,可以将待归类图片沿垂直方向(即y轴)平移。或者,可以将待归类图片沿水平方向和垂直方向平移。再如,可以对待归类图片进行预处理还可以包括对待归类图片进行旋转和/或翻转。可以对待归类图片进行任意角度和方向(顺时针或逆时针)的旋转。例如,将待归类图片逆时针旋转90度。又如,将待归类图片顺时针旋转180度。再如,将待归类图片顺时针旋转270度。可以对待归类图片进行水平翻转或垂直翻转。
特征提取子模块3023,用于将每个预处理后的待归类图片输入卷积神经网络进行特征提取,得到每个待归类图片的特征向量。
所述卷积神经网络为具有提取图片关键特征能力的卷积神经网络,包括AlexNet网络、VGGNet网络、GoogleNet网络、ResNet网络。可以理解,所述卷积神经网络可以是其他的卷积神经网络。
在一实施例中,所述将每个预处理后的待归类图片输入卷积神经网络进行特征提取之前,所述方法还包括:
使用公共图片库对所述卷积神经网络进行预训练;
使用已标注相似图片类别的图片对预训练后的卷积神经网络进行相似图片归类任务微调。
在该实施例中,所述卷积神经网络的训练包括预训练和训练微调。使用公共图片库对所述卷积神经网络进行预训练。例如,使用ImageNet对所述卷积神经网络进行预训练。ImageNet有超过100万张已标注类别的图像,涵盖超过1000个类别,适合大规模的网络训练。
使用已标注相似图片类别的图片对预训练后的卷积神经网络进行相似图片归类任务微调是对预训练后的卷积神经网络进行迁移学习,调整卷积神经网络的参数,从而能够进行相似归类。
在一实施例中,所述卷积神经网络是VGG16网络。VGG16网络一共有16层,网络的输入为224x224x3的图片。在用ImageNet进行预训练时,网络的输入为ImageNet图片,输出为ImageNet图片的1000个类别。用ImageNet对VGG16网络进行预训练可以得到VGG16网络的参数。选取VGG16卷积层最后一层的输出向量,也就是7x7x512那一层的输出作为图片的特征向量。因此,对于任何一个输入的图片,都会经过VGG16网络转化为一个7x7x512=25088维的向量。在通过迁移学习对VGG16网络进行训练微调时,网络的输入是已标注相似图片类别的图片,网络的初始参数是预训练得到的参数,保持卷积层的结构不变,针对类别的个数对VGG16的全连接层神经元个数进行修改后,进行参数的微调,使网络对待归类图片更加灵敏。训练完成后同样提取25088维向量作为图片的特征向量。
计算子模块3024,用于计算每两个待归类图片的特征向量之间的距离。
在一实施例中,根据每两个待归类图片的特征向量计算每两个待归类图片的余弦距离。
在其他的实施例中,可以根据每两个待归类图片的特征向量计算每两个待归类图片的其他距离,例如欧式距离或绝对距离。
构建子模块3025,用于根据每两个待归类图片的特征向量之间的距离构建至少一个连通图,所述至少一个连通图的每个顶点对应一个待归类图片,若两个待归类图片的特征向量之间的距离小于或等于预设阈值,则所述两个待归类图片对应的顶点用边相连。
在根据每两个待归类图片的特征向量之间的距离构建至少一个连通图时,以每个待归类图片作为连通图的一个顶点。判断两个待归类图片的特征向量之间的距离是否小于或等于预设阈值(例如0.7),若所述两个待归类图片的特征向量之间的距离小于或等于预设阈值,则所述两个待归类图片对应的顶点用边相连。
可以通过DFS(Depth First Search,深度优先搜索)或者BFS(Breath FirstSearch,广度优先搜索)算法找到各个连通图。
图6是对a、b、c、d四个图片构建连通图的示意图。图6中,将每两个图片的特征向量之间的距离与预设阈值进行比较,根据比较结果生成邻接矩阵(1表示大于或等于预设阈值,0表示小于预设阈值),根据邻近矩阵构建连通图。
减边子模块3026,用于对每个连通图进行减边处理,对于该连通图中的每条边,判断该条边的两个顶点所连接的顶点数是否小于该连通图的总顶点数,若该条边的两个顶点所连接的顶点数小于该连通图的总顶点数,则删除该条边。
构建的连通图可能存在一定错误,减边处理的目的就是纠正连通图中的错误。
对于每个连通图中的每一条边,若该边两个顶点所连接的顶点数小于该连通图的总顶点数,也即平均每个顶点连接了不到一半的顶点,则会将该边删除。每个减边处理后的连通图的所有顶点对应的待归类图片为一个相似图片组。
图7是对连通图进行删边处理的示意图。
输出子模块3027,用于根据所有减边处理后的连通图,输出所述多个相似图片组和每个相似图片组的特征向量。
每个减边处理后的连通图的所有顶点对应的待归类图片为一个相似图片组。可以将每个减边处理后的连通图的所有顶点对应的待归类图片组成一个相似图片集合。
卷积神经网络包含了图片的几乎所有特征,根据卷积神经网络提取的特征向量进行相似归类可以获得更加准确的归类结果,从而提高图片检索的正确率。构建待归类图片的连通图并进行减边处理可以减少归类错误,进一步提高图片检索的正确率。所述图片检索装置30通过所述第二获取模块302可以对大规模图片数据进行相似归类,基于归类后的图片进行图片检索,可以快速获得检索结果。
在一实施例中,所述第二获取模块302还包括增边子模块,用于对每个减边处理后的连通图进行增边处理,若两个顶点在一个连通图中但是没有相连的边,则在所述两个顶点之间增加一条边。
在对每个连通图进行减边处理之后,可以对每个减边处理后的连通图进行增边处理。若两个顶点在一个连通图中但是没有相连的边,则在所述两个顶点之间增加一条边。增边处理是将连通图补全为完全图,以表达图片间完整的相似关系。
例如,有4张图片a、b、c、d,其中(a,b);(a,c);(a,d);(b,c);(b,d)两两相连,则可以在(c,d)中增加一条连线构成完全图。
图8是对连通图进行增边处理的示意图。
若对每个减边处理后的连通图进行增边处理,则可以输出所有增边理后的连通图作为归类结果。
在一实施例中,所述第二获取模块302还包括去遮挡子模块,用于:
判断每个预处理后的待归类图片是否为遮挡图片;
若所述预处理后的待归类图片为遮挡图片,则对所述预处理后的待归类图片进行去遮挡处理。
可以将每个预处理后的待归类图片输入遮挡/无遮挡图片归类器,所述遮挡/无遮挡图片归类器确定所述预处理后的待归类图片是否为遮挡图像。
若所述预处理后的待归类图片为遮挡图片,可以将所述预处理后的待归类图片输入对抗生成网络进行去遮挡处理。
实施例五
本实施例提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤,例如图1所示的101-106。或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图3中的模块301-306。
实施例六
图5为本发明实施例提供的计算机设备的示意图。所述计算机设备50包括存储器501、处理器502以及存储在所述存储器501中并可在所述处理器502上运行的计算机程序503,例如图片检索程序。所述处理器502执行所述计算机程序503时实现上述方法实施例中的步骤,例如图1所示的101-106。或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图3中的模块301-306。
示例性的,所述计算机程序503可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器501中,并由所述处理器502执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序503在所述计算机设备50中的执行过程。
所述计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图5仅仅是计算机设备50的示例,并不构成对计算机设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备50还可以包括输入输出设备、网络接入设备、总线等。
所称处理器502可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器502也可以是任何常规的处理器等,所述处理器502是所述计算机设备50的控制中心,利用各种接口和线路连接整个计算机设备50的各个部分。
所述存储器501可用于存储所述计算机程序503,所述处理器502通过运行或执行存储在所述存储器501内的计算机程序或模块,以及调用存储在存储器501内的数据,实现所述计算机设备50的各种功能。所述存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备50的使用所创建的数据。此外,存储器501可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
所述计算机设备50集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于相似图片组代表特征向量的图片检索方法,其特征在于,所述方法包括:
获取待检索图片和所述待检索图片的特征向量;
根据多个待归类图片的特征向量构建至少一个连通图,并根据所有减边处理后的连通图输出多个相似图片组和每个相似图片组的特征向量,其中,对于该连通图中的每条边,判断该条边的两个顶点所连接的顶点数是否小于该连通图的总顶点数,若该条边的两个顶点所连接的顶点数小于该连通图的总顶点数,则删除该条边;
根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量;
计算所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离;
确定与所述待检索图片的特征向量之间的距离最小的代表特征向量;
将确定的代表特征向量对应的相似图片组输出为所述待检索图片的检索结果。
2.如权利要求1所述的基于相似图片组代表特征向量的图片检索方法,其特征在于,所述根据多个待归类图片的特征向量构建至少一个连通图,并根据所有减边处理后的连通图输出多个相似图片组和每个相似图片组的特征向量包括:
获取所述多个待归类图片;
将所述多个待归类图片进行预处理;
将每个预处理后的待归类图片输入卷积神经网络进行特征提取,得到每个待归类图片的特征向量;
计算每两个待归类图片的特征向量之间的距离;
根据每两个待归类图片的特征向量之间的距离构建至少一个连通图,所述至少一个连通图的每个顶点对应一个待归类图片,若两个待归类图片的特征向量之间的距离小于或等于预设阈值,则所述两个待归类图片对应的顶点用边相连;
对每个连通图进行减边处理;
根据所有减边处理后的连通图,输出所述多个相似图片组和每个相似图片组的特征向量。
3.如权利要求2所述的基于相似图片组代表特征向量的图片检索方法,其特征在于,所述对每个连通图进行减边处理之后,所述方法还包括:
对每个减边处理后的连通图进行增边处理,若两个顶点在一个连通图中但是没有相连的边,则在所述两个顶点之间增加一条边。
4.如权利要求2所述的基于相似图片组代表特征向量的图片检索方法,其特征在于,所述将每个预处理后的待归类图片输入卷积神经网络进行特征提取之前,所述方法还包括:
判断每个预处理后的待归类图片是否为遮挡图片;
若所述预处理后的待归类图片为遮挡图片,则对所述预处理后的待归类图片进行去遮挡处理。
5.如权利要求1至4中任一项所述的基于相似图片组代表特征向量的图片检索方法,其特征在于,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
计算所述相似图片组的特征向量的平均值,将所述平均值作为所述相似图片组的代表特征向量;或者
计算所述相似图片组的特征向量的中位数,将所述中位数作为所述相似图片组的代表特征向量;或者
计算与所述相似图片组的特征向量的距离之和最小的特征向量,将与所述相似图片组的特征向量的距离之和最小的特征向量作为所述相似图片组的代表特征向量。
6.如权利要求1至4中任一项所述的基于相似图片组代表特征向量的图片检索方法,其特征在于,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
获取参考图片和所述参考图片的特征向量;
计算所述相似图片组的特征向量与所述参考图片的特征向量之间的距离;
计算所述相似图片组的特征向量与所述参考图片的特征向量之间的距离的平均值,得到平均距离;
根据所述平均距离和所述参考图片的特征向量获取所述代表特征向量,所述代表特征向量与所述参考图片的特征向量之间的距离为所述平均距离。
7.如权利要求1至4中任一项所述的基于相似图片组代表特征向量的图片检索方法,其特征在于,所述根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量包括:
训练生成器,所述生成器的输入为随机噪声,输出为图片,所述生成器的损失函数为所述生成器生成的图片的特征向量与所述相似图片组的特征向量的平均距离,通过优化所述损失函数得到所述相似图片组的代表图片;
提取所述代表图片的特征向量,以所述代表图片的特征向量作为所述代表特征向量。
8.一种基于相似图片组代表特征向量的图片检索装置,其特征在于,所述装置包括:
第一获取模块,用于获取待检索图片和所述待检索图片的特征向量;
第二获取模块,用于根据多个待归类图片的特征向量构建至少一个连通图,并根据所有减边处理后的连通图输出多个相似图片组和每个相似图片组的特征向量,其中,对于该连通图中的每条边,判断该条边的两个顶点所连接的顶点数是否小于该连通图的总顶点数,若该条边的两个顶点所连接的顶点数小于该连通图的总顶点数,则删除该条边;
第一计算模块,用于根据每个相似图片组的特征向量计算每个相似图片组的代表特征向量;
第二计算模块,用于计算所述待检索图片的特征向量与每个相似图片组的代表特征向量之间的距离;
确定模块,用于确定与所述待检索图片的特征向量之间的距离最小的代表特征向量;
输出模块,用于将确定的代表特征向量对应的相似图片组输出为所述待检索图片的检索结果。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任一项所述的基于相似图片组代表特征向量的图片检索方法。
10.一种计算机存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于相似图片组代表特征向量的图片检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010426656.5A CN111597375B (zh) | 2020-05-19 | 2020-05-19 | 基于相似图片组代表特征向量的图片检索方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010426656.5A CN111597375B (zh) | 2020-05-19 | 2020-05-19 | 基于相似图片组代表特征向量的图片检索方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597375A CN111597375A (zh) | 2020-08-28 |
CN111597375B true CN111597375B (zh) | 2023-11-14 |
Family
ID=72182650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010426656.5A Active CN111597375B (zh) | 2020-05-19 | 2020-05-19 | 基于相似图片组代表特征向量的图片检索方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597375B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902826B (zh) * | 2012-11-08 | 2016-07-06 | 公安部第三研究所 | 一种基于基准图像索引的图像快速检索方法 |
CN105550222B (zh) * | 2015-12-07 | 2019-04-05 | 中国电子科技网络信息安全有限公司 | 一种基于分布式存储的图像服务系统及方法 |
CN106021362B (zh) * | 2016-05-10 | 2018-04-13 | 百度在线网络技术(北京)有限公司 | 查询式的图片特征表示的生成、图片搜索方法和装置 |
CN107609466A (zh) * | 2017-07-26 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 人脸聚类方法、装置、设备及存储介质 |
CN109101602B (zh) * | 2018-08-01 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 图像检索模型训练方法、图像检索方法、设备及存储介质 |
CN110135505B (zh) * | 2019-05-20 | 2021-09-17 | 北京达佳互联信息技术有限公司 | 图像分类方法、装置、计算机设备及计算机可读存储介质 |
CN110472090B (zh) * | 2019-08-20 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 基于语义标签的图像检索方法以及相关装置、存储介质 |
CN110609916A (zh) * | 2019-09-25 | 2019-12-24 | 四川东方网力科技有限公司 | 视频图像数据检索方法、装置、设备和存储介质 |
-
2020
- 2020-05-19 CN CN202010426656.5A patent/CN111597375B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111597375A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022033095A1 (zh) | 一种文本区域的定位方法及装置 | |
JP6393230B2 (ja) | オブジェクト検出方法及び画像検索システム | |
CN110852311A (zh) | 一种三维人手关键点定位方法及装置 | |
CN110598703B (zh) | 一种基于深度神经网络的ocr识别方法及装置 | |
CN111104941B (zh) | 图像方向纠正方法、装置及电子设备 | |
CN113159013A (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
Cai et al. | IOS-Net: An inside-to-outside supervision network for scale robust text detection in the wild | |
CN110163095B (zh) | 回环检测方法、回环检测装置及终端设备 | |
CN115049878A (zh) | 基于人工智能的目标检测优化方法、装置、设备及介质 | |
CN111353325A (zh) | 关键点检测模型训练方法及装置 | |
CN113159053A (zh) | 图像识别方法、装置及计算设备 | |
CN112116585A (zh) | 图像移除篡改盲检测方法、系统、设备及存储介质 | |
CN115345895B (zh) | 用于视觉检测的图像分割方法、装置、计算机设备及介质 | |
CN111597375B (zh) | 基于相似图片组代表特征向量的图片检索方法及相关设备 | |
CN110717405A (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
TWI803243B (zh) | 圖像擴增方法、電腦設備及儲存介質 | |
US20230237662A1 (en) | Dual-level model for segmentation | |
US20230062313A1 (en) | Generating 2d mapping using 3d data | |
CN111597373B (zh) | 基于卷积神经网络和连通图的图片归类方法及相关设备 | |
JP7337303B2 (ja) | 学習装置、及び学習方法 | |
US20240012966A1 (en) | Method and system for providing a three-dimensional computer aided-design (cad) model in a cad environment | |
CN113192085A (zh) | 三维器官图像分割方法、装置及计算机设备 | |
JP6336827B2 (ja) | 画像検索装置、画像検索方法および検索システム | |
CN111680722B (zh) | 内容识别方法、装置、设备及可读存储介质 | |
Sari et al. | An Approach For Stitching Satellite Images In A Bigdata Mapreduce Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |