CN110532414B - 一种图片检索方法及装置 - Google Patents

一种图片检索方法及装置 Download PDF

Info

Publication number
CN110532414B
CN110532414B CN201910806958.2A CN201910806958A CN110532414B CN 110532414 B CN110532414 B CN 110532414B CN 201910806958 A CN201910806958 A CN 201910806958A CN 110532414 B CN110532414 B CN 110532414B
Authority
CN
China
Prior art keywords
picture
target
size
feature
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910806958.2A
Other languages
English (en)
Other versions
CN110532414A (zh
Inventor
旷章辉
张伟
宋泓臻
陈益民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN201910806958.2A priority Critical patent/CN110532414B/zh
Publication of CN110532414A publication Critical patent/CN110532414A/zh
Priority to KR1020217036554A priority patent/KR20210145821A/ko
Priority to JP2021566478A priority patent/JP2022531938A/ja
Priority to PCT/CN2020/086455 priority patent/WO2021036304A1/zh
Priority to TW109116387A priority patent/TWI770507B/zh
Priority to US17/536,708 priority patent/US20220084308A1/en
Application granted granted Critical
Publication of CN110532414B publication Critical patent/CN110532414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/86Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Abstract

本公开提供了一种图片检索方法及装置,其中,该方法包括:按照预设的多个尺寸,分别对第一图片和第二图片进行特征提取,获得所述第一图片对应的多个第一特征图和所述第二图片对应的多个第二特征图;计算位于任意两个空间位置上的所述第一特征图和所述第二特征图之间的相似度值,获得与目标尺寸组合对应的所述相似度值;根据与每个所述目标尺寸组合对应的所述相似度值,建立目标无向图;将所述目标无向图输入预先建立的目标图神经网络,根据所述目标图神经网络的输出结果,确定所述第二图片是否属于与所述第一图片匹配的目标图片。本公开结合预设的多个尺寸进行相似度分析,确定两张图片之间是否匹配,匹配精度更高,鲁棒性更强。

Description

一种图片检索方法及装置
技术领域
本公开涉及图片处理领域,尤其涉及一种图片检索方法及装置。
背景技术
相关技术中,在将已有图片与图片库中的图片进行匹配搜索时,可以采用神经网络计算两张图片的全局相似度,从而在图片库中找到与已有图片匹配的图片。
但是,在计算两张图片的全局相似度时,图片中的背景干扰信息会对计算结果造成较大影响,例如图片的角度不同、图片的内容信息不同或遮挡等原因,会造成最终搜索的结果不准确。
发明内容
本公开提供了一种图片检索方法及装置。
根据本公开实施例的第一方面,提供一种图片检索方法,所述方法包括:按照预设的多个尺寸,分别对第一图片和第二图片进行特征提取,获得所述第一图片对应的多个第一特征图和所述第二图片对应的多个第二特征图;其中,所述第二图片是图片库中的任一图片;计算位于任意两个空间位置上的所述第一特征图和所述第二特征图之间的相似度值,获得与目标尺寸组合对应的所述相似度值;其中,所述目标尺寸组合包括所述预设的多个尺寸中的第一尺寸和第二尺寸,所述第一特征图对应所述第一尺寸,所述第二特征图对应所述第二尺寸;根据与每个所述目标尺寸组合对应的所述相似度值,建立目标无向图;将所述目标无向图输入预先建立的目标图神经网络,根据所述目标图神经网络的输出结果,确定所述第二图片是否属于与所述第一图片匹配的目标图片。上述实施例中,可以按照预设的多个尺寸,分别对第一图片和图片库中的第二图片进行特征提取,获得第一图片对应的多个第一特征图和第二图片对应的多个第二特征图,计算位于任意两个空间位置上的第一特征图和第二特征图之间的相似度值,获得与目标尺寸组合对应的相似度值。根据与每个目标尺寸组合对应的相似度值,建立目标无向图。将目标无向图输入预先建立的目标图神经网络,可以确定出第二图片是否属于与第一图片匹配的目标图片。通过上述过程,不再局限于两张图片的整体尺寸去进行全局相似度分析,而是结合预设的多个尺寸进行相似度分析,根据对应第一尺寸的第一图片的第一特征图和对应第二尺寸的第二图片的第二特征图位于任意两个空间位置的局部相似度值,来确定两张图片之间是否匹配,匹配精度更高,鲁棒性更强。
在一些可选实施例中,所述预设的多个尺寸包括第三尺寸和至少一个第四尺寸,所述第三尺寸是包括所述第一图片中的所有像素点在内的尺寸,所述第四尺寸小于所述第三尺寸。上述实施例中,预设的多个尺寸包括了第三尺寸和至少一个第四尺寸,第三尺寸是第一图片的整体尺寸,第四尺寸可以小于第三尺寸,从而在计算第一图片和第二图片的相似度时,不再局限于两张图片的整体相似度,而是考虑到了不同尺寸下的图片之间的相似度,可以提高匹配结果的精度,鲁棒性更好。
在一些可选实施例中,所述按照预设的多个尺寸,分别对第一图片和第二图片进行特征提取,获得所述第一图片对应的第一特征图和所述第二图片对应的第二特征图,包括:分别按照所述预设的多个尺寸中的每个尺寸,对所述第一图片和所述第二图片进行特征提取,获得所述每个尺寸下与所述第一图片对应的多个第一特征点和与所述第二图片对应的多个第二特征点;在所述每个尺寸下所述第一图片对应的所述多个第一特征点中,将位于每个预设池化窗口内的所有第一特征点中特征值最大的所述第一特征点作为第一目标特征点;在所述每个尺寸下所述第二图片对应的所述多个第二特征点中,将位于所述每个预设池化窗口内的所有第二特征点中特征值最大的所述第二特征点作为第二目标特征点;分别获得与所述每个尺寸对应的由所述第一目标特征点组成的第一特征图,和由所述第二目标特征点组成的所述第二特征图。上述实施例中,采用最大池化的方式对每个尺寸下的第一图片的多个第一特征点和第二图片的多个第二特征点进行处理,更关注于第一图片和第二图片中的重要元素信息,以便提高后续计算第一特征图和第二特征图之间相似度值的准确性同时减少计算量。
在一些可选实施例中,所述计算位于任意两个空间位置上的所述第一特征图和所述第二特征图之间的相似度值,获得与目标尺寸组合对应的所述相似度值,包括:计算与所述第一尺寸对应的所述第一特征图在第i个空间位置的特征值和与所述第二尺寸对应的所述第二特征图在第j个空间位置的特征值之间的差值的平方和值;计算所述平方和值与预设投影矩阵的乘积值;其中,所述预设投影矩阵是用于降低特征差异矢量维度的投影矩阵;计算所述乘积值的欧几里得范数值;将所述乘积值与所述欧几里得范数值的商作为与目标尺寸组合对应的所述相似度值。上述实施例中,可以计算任意两个空间位置上的对应第一尺寸的第一特征图和对应第二尺寸的第二特征图之间的相似度值,其中,第一尺寸和第二尺寸可以相同或不同,可用性高。
在一些可选实施例中,所述根据与每个所述目标尺寸组合对应的所述相似度值,建立目标无向图,包括:确定与每个所述目标尺寸组合对应的所述相似度值中任意两个所述相似度值之间的权重值;对所述权重值归一化处理后,获得归一化权重值;将与每个所述目标尺寸组合对应的所述相似度值分别作为所述目标无向图的节点,所述归一化权重值作为所述目标无向图的边,建立所述目标无向图。上述实施例中,在建立目标无向图时,可以将与每个目标尺寸组合对应的所述相似度值作为目标无向图的节点,将任意两个节点之间的权重值归一化处理后的归一化权重值作为目标无向图的边,通过目标无向图融合多个尺寸下两张图片的相似度,从而提高了匹配结果的精度,鲁棒性更好。
在一些可选实施例中,所述目标图神经网络的所述输出结果包括所述目标无向图的所述节点之间的相似度概率值;所述根据所述目标图神经网络的输出结果,确定所述第二图片是否属于与所述第一图片匹配的目标图片,包括:在所述相似度概率值大于预设阈值的情况下,确定所述第二图片属于与所述第一图片匹配的所述目标图片。上述实施例中,可以将目标无向图输入目标图神经网络,根据目标图神经网络输出的目标无向图的节点之间的相似度概率值是否大于预设阈值,确定第二图片是否是与第一图片匹配的目标图片。在节点之间的相似度概率值较大时,将第二图片作为与第一图片匹配的目标图片,通过上述过程,可以在图片库中更准确的搜索到与第一图片匹配的目标图片,搜索结果更加准确。
根据本公开实施例的第二方面,提供一种图片检索装置,所述装置包括:特征提取模块,用于按照预设的多个尺寸,分别对第一图片和第二图片进行特征提取,获得所述第一图片对应的多个第一特征图和所述第二图片对应的多个第二特征图;其中,所述第二图片是图片库中的任一图片;计算模块,用于计算位于任意两个空间位置上的所述第一特征图和所述第二特征图之间的相似度值,获得与目标尺寸组合对应的所述相似度值;其中,所述目标尺寸组合包括所述预设的多个尺寸中的第一尺寸和第二尺寸,所述第一特征图对应所述第一尺寸,所述第二特征图对应所述第二尺寸;无向图建立模块,用于根据与每个所述目标尺寸组合对应的所述相似度值,建立目标无向图;匹配结果确定模块,用于将所述目标无向图输入预先建立的目标图神经网络,根据所述目标图神经网络的输出结果,确定所述第二图片是否属于与所述第一图片匹配的目标图片。上述实施例中,不再局限于两张图片的整体尺寸去进行全局相似度分析,而是结合预设的多个尺寸进行相似度分析,根据对应第一尺寸的第一图片的第一特征图和对应第二尺寸的第二图片的第二特征图位于任意两个空间位置的局部相似度值,来确定两张图片之间是否匹配,匹配精度更高,鲁棒性更强。
在一些可选实施例中,所述预设的多个尺寸包括第三尺寸和至少一个第四尺寸,所述第三尺寸是包括所述第一图片中的所有像素点在内的尺寸,所述第四尺寸小于所述第三尺寸。上述实施例中,预设的多个尺寸包括了第三尺寸和至少一个第四尺寸,第三尺寸是第一图片的整体尺寸,第四尺寸可以小于第三尺寸,从而在计算第一图片和第二图片的相似度时,不再局限于两张图片的整体相似度,而是考虑到了不同尺寸下的图片之间的相似度,可以提高匹配结果的精度,鲁棒性更好。
在一些可选实施例中,所述特征提取模块包括:特征提取子模块,用于分别按照所述预设的多个尺寸中的每个尺寸,对所述第一图片和所述第二图片进行特征提取,获得所述每个尺寸下与所述第一图片对应的多个第一特征点和与所述第二图片对应的多个第二特征点;第一确定子模块,用于在所述每个尺寸下所述第一图片对应的所述多个第一特征点中,将位于每个预设池化窗口内的所有第一特征点中特征值最大的所述第一特征点作为第一目标特征点;第二确定子模块,用于在所述每个尺寸下所述第二图片对应的所述多个第二特征点中,将位于所述每个预设池化窗口内的所有第二特征点中特征值最大的所述第二特征点作为第二目标特征点;获取子模块,用于分别获得与所述每个尺寸对应的由所述第一目标特征点组成的第一特征图,和由所述第二目标特征点组成的所述第二特征图。上述实施例中,采用最大池化的方式对每个尺寸下的第一图片的多个第一特征点和第二图片的多个第二特征点进行处理,更关注于第一图片和第二图片中的重要元素信息,以便提高后续计算第一特征图和第二特征图之间相似度值的准确性同时减少计算量。
在一些可选实施例中,所述计算模块包括:第一计算子模块,用于计算与所述第一尺寸对应的所述第一特征图在第i个空间位置的特征值和与所述第二尺寸对应的所述第二特征图在第j个空间位置的特征值之间的差值的平方和值;第二计算子模块,用于计算所述平方和值与预设投影矩阵的乘积值;其中,所述预设投影矩阵是用于降低特征差异矢量维度的投影矩阵;第三计算子模块,用于计算所述乘积值的欧几里得范数值;第四计算子模块,用于将所述乘积值与所述欧几里得范数值的商作为与目标尺寸组合对应的所述相似度值。上述实施例中,可以计算任意两个空间位置上的对应第一尺寸的第一特征图和对应第二尺寸的第二特征图之间的相似度值,其中,第一尺寸和第二尺寸可以相同或不同,可用性高。
在一些可选实施例中,所述无向图建立模块包括:第三确定子模块,用于确定与每个所述目标尺寸组合对应的所述相似度值中任意两个所述相似度值之间的权重值;归一化处理子模块,用于对所述权重值归一化处理后,获得归一化权重值;无向图建立子模块,用于将与每个所述目标尺寸组合对应的所述相似度值分别作为所述目标无向图的节点,所述归一化权重值作为所述目标无向图的边,建立所述目标无向图。上述实施例中,在建立目标无向图时,可以将与每个目标尺寸组合对应的所述相似度值作为目标无向图的节点,将任意两个节点之间的权重值归一化处理后的归一化权重值作为目标无向图的边,通过目标无向图融合多个尺寸下两张图片的相似度,从而提高了匹配结果的精度,鲁棒性更好。
在一些可选实施例中,所述目标图神经网络的所述输出结果包括所述目标无向图的所述节点之间的相似度概率值;所述匹配结果确定模块包括:第四确定子模块,用于在所述相似度概率值大于预设阈值的情况下,确定所述第二图片属于与所述第一图片匹配的所述目标图片。上述实施例中,可以将目标无向图输入目标图神经网络,根据目标图神经网络输出的目标无向图的节点之间的相似度概率值是否大于预设阈值,确定第二图片是否是与第一图片匹配的目标图片。在节点之间的相似度概率值较大时,将第二图片作为与第一图片匹配的目标图片,通过上述过程,可以在图片库中更准确的搜索到与第一图片匹配的目标图片,搜索结果更加准确。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面任一所述的图片检索方法。
根据本公开实施例的第四方面,提供一种图片检索装置,所述装置包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现第一方面任一项所述的图片检索方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开根据一示例性实施例示出的一种图片检索方法流程图;
图2A至2C是本公开根据一示例性实施例示出的对应不同尺寸的第一图片示意图;
图3A至3C是本公开根据一示例性实施例示出的对应不同尺寸的第二图片示意图;
图4是本公开根据一示例性实施例示出的图片金字塔的结构示意图;
图5A至5B是本公开根据一示例性实施例示出的对图片划分空间窗口的示意图;
图6是本公开根据一示例性实施例示出的相似度值金字塔的结构示意图;
图7是本公开根据一示例性实施例示出的目标无向图的结构示意图;
图8是本公开根据一示例性实施例示出的按照尺寸划分图片的示意图;
图9是本公开根据一示例性实施例示出的另一种图片检索方法流程图;
图10A至10B是本公开根据一示例性实施例示出的池化处理的示意图;
图11是本公开根据一示例性实施例示出的另一种图片检索方法流程图;
图12是本公开根据一示例性实施例示出的一种图片检索网络的结构图;
图13是本公开根据一示例性实施例示出的一种图片检索装置框图;
图14是本公开根据一示例性实施例示出的一种用于图片检索装置的一结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开运行的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所运行的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开实施例提供了一种图片检索方法,可以用于进行图片检索的机器设备或装置上,或者通过处理器运行计算机可执行代码的方式执行。如图1所示,图1是根据一示例性实施例示出的一种图片检索方法,包括以下步骤:
在步骤101中,按照预设的多个尺寸,分别对第一图片和第二图片进行特征提取,获得所述第一图片对应的多个第一特征图和所述第二图片对应的多个第二特征图。
第一图片是需要搜索匹配的目标图片的一张图片,第二图片则是图片库中的任一张图片,该图片库例如是与第一图片的内容关联的图片库。其中,第一图片和第二图片的尺寸可以相同或不同,本公开对此不作限定。
例如,第一图片是关于衣物的,则图片库可以是DeepFashion和Street2Shop图片库,或者其他与衣物关联的图片库。第二图片则是该图片库中的任一张图片。
在进行特征提取时,可以先获得第一图片和第二图片分别对应预设的多个尺寸中每个尺寸下的图片。
例如,第一图片对应尺寸1得到的图片如图2A所示,对应尺寸2得到的图片如图2B所示,第一图片对应尺寸3得到的图片如图2C所示。同样地,第二图片对应尺寸1得到的如图3A所示,对应尺寸2得到的图片如图3B所示,对应尺寸3得到的图片如图3C所示。
此时可以分别针对第一图片和第二图片形成图片金字塔,例如图4所示。图2A的图片作为第一图片的图片金字塔的第一层,图2B的图片作为第一图片的图片金字塔的第二层,图2C的图片作为第一图片的图片金字塔的第三层,依次类推,得到整个第一图片的图片金字塔。同样地,可以得到整个第二图片的图片金字塔。
然后分别针对第一图片的图片金字塔和第二图片的图片金字塔,获取每个尺寸下,第一图片对应的第一特征图和第二图片对应的第二特征图。
例如对尺寸集合{1,2,……L}中的任意一个尺寸,采用SIFT(Scale InvariantFeature Transform,尺寸不变特征变换)的方式或训练好的神经网络分别对第一图片的图片金字塔的第i层的图片和第二图片的图片金字塔的第j层的图片进行特征提取,获得尺寸i下的第一图片对应的第一特征图和尺寸j下的第二图片对应的第二特征图。其中,i和j为上述尺寸集合中的任意一个尺寸。可选地,训练好的神经网络可以采用googlenet网络,本公开对此不作限定。
例如图5A所示,采用尺寸集合中的尺寸2,第一图片可以分别提取出在尺寸2下,与左上角、左下角、右上角和右下角的四个空间窗口分别对应的4个第一特征图。如果在尺寸3下,第二图片可以分别提取出九个空间窗口分别对应的9个第二特征图,例如图5B。
在步骤102中,计算位于任意两个空间位置上的所述第一特征图和所述第二特征图之间的相似度值,获得与目标尺寸组合对应的所述相似度值。
本公开实施例中,任意两个空间位置可以相同或不同。目标尺寸组合包括了预设的多个尺寸中的任意一个第一尺寸和任意一个第二尺寸,第一尺寸和第二尺寸可以相同或不同。其中,第一特征图对应的是第一尺寸,第二特征图对应了第二尺寸。
例如,假设第一尺寸为尺寸2,则第一图片可以分别提取出在当前尺寸下,与四个空间窗口分别对应的4个第一特征图。第二尺寸为尺寸3,第二图片分别提取出与九个空间窗口分别对应的9个第二特征图。
此时需要分别计算在尺寸2和尺寸3构成的目标尺寸组合下,第一图片的任意一个空间位置的第一特征图和第二图片的任意一个空间位置的第二特征图之间的相似度值,总共计算得到4×9=36个相似度值。
当然,如果第二尺寸与第一尺寸相同,则得到的是4×4=16个相似度值。
在本公开实施例中,以第一尺寸和第二尺寸相同为例,可以得到相似度值金字塔,例如图6所示,第一尺寸和第二尺寸均为尺寸1时,得到1个相似度值,即全局相似度值,该相似度值作为相似度值金字塔的第一层。第一尺寸和第二尺寸均为尺寸2时,得到4个局部相似度值,这4个相似度值作为相似度值金字塔的第二层。第一尺寸和第二尺寸均为尺寸3时,得到9个局部相似度值,这9个相似度值作为相似度值金字塔的第三层,依次类推,可以得到相似度值金字塔。
在步骤103中,根据与每个所述目标尺寸组合对应的所述相似度值,建立目标无向图。
本公开实施例中,例如图7所示,目标无向图的每个节点可以对应一个相似度值,每个相似度值对应一个目标尺寸组合,目标无向图的边可以是两个节点之间的权重值归一化处理后的归一化权重值。通过目标无向图可以更直观的表征两张图片之间的相似度。
在步骤104中,将所述目标无向图输入预先建立的目标图神经网络,根据所述目标图神经网络的输出结果,确定所述第二图片是否属于与所述第一图片匹配的目标图片。
本公开实施例中,目标图神经网络可以是预先建立的包括多个图卷积层和非线性激活函数ReLU层的图神经网络。
在对图神经网络进行训练时,可以采用样本图片库中带标签的任意两张样本图片,先获得两张样本图片在预设的多个尺寸中每个尺寸下各自对应的图片,然后分别对获得的图片进行特征提取,获得两张样本图片分别与每个尺寸对应的多个样本特征图,并计算在每个目标尺寸组合下,两张样本特征图之间的相似度值,根据与每个所述目标尺寸组合对应的样本特征图之间的所述相似度值,建立样本无向图。上述过程与步骤101至103的步骤相同,在此不再赘述。
由于这两张样本图片带有标签或其他信息,已经可以确定这两张样本图片是否匹配,可以将样本无向图作为图神经网络的输入值,对图神经网络进行训练,让匹配的两张样本图片通过图神经网络输出的样本无向图的节点之间的相似度概率值大于预设阈值,从而得到本公开实施例所需要的目标图神经网络。
本公开实施例中,在预先建立了目标图神经网络之后,可以直接将步骤103获得的目标无向图输入目标图神经网络中,根据目标图神经网络输出的目标无向图的节点之间的相似度概率值,来确定第二图片是否是与第一图片匹配的目标图片。
可选地,如果目标无向图的节点之间的相似度概率值大于预设阈值,那么第二图片是与第一图片匹配的目标图片,否则第二图片不是与第一图片匹配的目标图片。
本公开实施例中,对图片库中的每张第二图片都按照上述方式进行搜索后,可以得到该图片库中与第一图片匹配的目标图片。
上述实施例中,可以按照预设的多个尺寸,分别对第一图片和图片库中的第二图片进行特征提取,获得第一图片对应的多个第一特征图和第二图片对应的多个第二特征图,计算位于任意两个空间位置上的第一特征图和第二特征图之间的相似度值,获得与目标尺寸组合对应的相似度值。从而根据与每个目标尺寸组合对应的相似度值,建立目标无向图。将目标无向图输入预先建立的目标图神经网络,可以确定出第二图片是否属于与第一图片匹配的目标图片。通过上述过程,不再局限于两张图片的整体尺寸去进行全局相似度分析,而是结合预设的多个尺寸进行相似度分析,根据对应第一尺寸的第一图片的第一特征图和对应第二尺寸的第二图片的第二特征图位于任意两个空间位置的局部相似度值,来确定图片之间是否匹配,匹配精度更高,鲁棒性更强。在一些可选实施例中,多个尺寸包括了第三尺寸和至少一个第四尺寸。其中,第三尺寸是包括所述第一图片中的所有像素点在内的尺寸。例如,第三尺寸是尺寸集合中的尺寸1,对应图片的整体尺寸。
第四尺寸小于所述第三尺寸,例如第四尺寸为尺寸2,对应将第一图片或第二图片划分为2×2个尺寸较小的图片,例如图8所示。
本公开实施例中,并不局限于第一图片和第二图片的整体相似度,而是考虑到了不同尺寸下的图片之间的相似度,从而可以提高匹配结果的精度,鲁棒性更好。
在一些可选实施例中,例如图9所示,步骤101可以包括:
在步骤101-1中,分别按照所述预设的多个尺寸中的每个尺寸,对所述第一图片和所述第二图片进行特征提取,获得所述每个尺寸下与所述第一图片对应的多个第一特征点和与所述第二图片对应的多个第二特征点。
本公开实施例中,可以先按照预设的多个尺寸,例如尺寸集合{1,2,…L}中的每个尺寸,分别获得第一图片对应的图片和第二图片对应的图片,例如在尺寸2下,第一图片对应4个图片,第二图片同样对应4个图片。
进一步地,可以采用例如SIFT或训练好的神经网络的方式,分别对每个尺寸下第一图片对应的图片和第二图片对应的图片进行特征提取,得到每个尺寸下第一图片对应的多个第一特征点和第二图片对应的多个第二特征点。例如在尺寸2下,对第一图片对应的4个图片分别进行特征提取,可以得到尺寸2下第一图片对应的多个第一特征点。
可选地,训练好的神经网络可以采用googlenet网络,本公开对此不作限定。
在步骤101-2中,在所述每个尺寸下所述第一图片对应的所述多个第一特征点中,将位于每个预设池化窗口内的所有第一特征点中特征值最大的所述第一特征点作为第一目标特征点。
预设池化窗口是预先给定的包括多个特征点在内的池化窗口,在本公开实施例中,可以分别在每个预设池化窗口内对每个预设池化窗口所包括的所有特征点进行特征降维,例如,采用最大池化的方式从每个预设池化窗口所包括的所有特征点中选取特征值最大的一个特征点作为该预设池化窗口对应的一个目标特征点,该预设池化窗口内的其他特征点可以丢弃。
例如,预设池化窗口内包括的特征点的数目为4,则在每个尺寸下第一图片对应的多个第一特征点中,如图10A所示,可以将每个预设池化窗口内的所有第一特征点中特征值最大的第一特征点作为第一目标特征点。例如在图10A中,将第一特征点3作为第一个预设池化窗口内的第一目标特征点,将第一特征点5作为第二个预设池化窗口内的第一目标特征点。
在步骤101-3中,在所述每个尺寸下所述第二图片对应的所述多个第二特征点中,将位于所述每个预设池化窗口内的所有第二特征点中特征值最大的所述第二特征点作为第二目标特征点。
对每个尺寸下的第二图片同样采用与步骤101-2相同的方式,确定出第二目标特征点。
上述步骤101-2和101-3是分别对每个尺寸下的第一图片对应的多个第一特征点和第二图片对应的多个第二特征点进行最大池化处理,在本公开实施例中,并不局限于最大池化处理方式,还可以分别对每个尺寸下的第一图片对应的多个第一特征点和第二图片对应的多个第二特征点进行平均池化处理等其他方式。其中,平均池化处理方式是指对每个预设池化窗口内的所有特征点的特征值取平均值,将该平均值作为该预设池化窗口内的目标特征点对应的特征值,
例如图10B所示,某个预设池化窗口内包括4个第一特征点,对应的特征值分别为7、8、2、7,四个值的平均值为6,在进行平均池化处理时,可以将该预设池化窗口内的第一目标特征点的特征值确定为平均值6。
在步骤101-4中,分别获得与所述每个尺寸对应的由所述第一目标特征点组成的第一特征图,和由所述第二目标特征点组成的所述第二特征图。
所有的第一目标特征点就组成了与每个尺寸对应的第一特征图,所有的第二目标特征点就构成了与每个尺寸对应的第二特征图。
在一些可选实施例中,针对步骤102,可以采用以下公式1计算获得与目标尺寸组合对应的所述相似度值
Figure BDA0002183942710000141
Figure BDA0002183942710000142
其中,
Figure BDA0002183942710000143
是所述第一图片在第一尺寸l1下的第i个所述空间位置的特征值,
Figure BDA0002183942710000144
是所述第二图片在第二尺寸l2下的第j个所述空间位置上的特征值。P∈RD×C是预设投影矩阵,可以将特征差异矢量从C维度降为D维度,R代表实数集合,RD×C代表实数组成的D维度xC维度的矩阵。||*||2是*的L2范数,即欧几里得范数。
在本公开实施例中,无论第一尺寸和第二尺寸相同或不同,都可以使用上述公式1计算得到与目标尺寸组合对应的所述相似度值,其中,目标尺寸组合包括上述第一尺寸和第二尺寸。
在一些可选实施例中,例如图11所示,上述步骤103可以包括:
在步骤103-1中,确定与每个所述目标尺寸组合对应的所述相似度值中任意两个之间的权重值。
本公开实施例中,可以采用以下公式2直接计算任意两个相似度值之间的权重值
Figure BDA0002183942710000145
Figure BDA0002183942710000151
其中,
Figure BDA0002183942710000152
Tout∈RD×D对应每个节点的输出边的线性转换矩阵,Tin∈RD×D对应每个节点的输入边的线性转换矩阵,R代表实数集合,RD×D代表实数组成的D维度xD维度的矩阵。可选地,尺度l1和l2可以相同或不同。
在本公开实施例中,如果目标无向图中的节点为同一尺寸l的第一特征图和第二特征图之间的相似度值,该节点的权重值的计算方式可以如公式3所示。
Figure BDA0002183942710000153
其中,argmax是取最大值的运算。
如果目标无向图中的节点为对应尺寸l1的第一特征图和对应尺寸l2第二特征图之间的相似度值时,l1与l2不同时,可对上述公式3进行适应性变换,任何以公式3为基础进行变换后得到的对权重值的计算方式均属于本公开的保护范围。
在步骤103-2中,对所述权重值归一化处理后,获得归一化权重值。
可以采用归一化函数,例如softmax函数计算两个相似度值
Figure BDA0002183942710000154
Figure BDA0002183942710000155
之间的权重值
Figure BDA0002183942710000156
的归一化值。
在步骤103-3中,将与每个所述目标尺寸组合对应的所述相似度值分别作为所述目标无向图的节点,所述归一化权重值作为所述目标无向图的边,建立所述目标无向图。
例如,
Figure BDA0002183942710000157
Figure BDA0002183942710000158
作为目标无向图的两个节点,那么这两个节点之间的边就是
Figure BDA0002183942710000159
Figure BDA00021839427100001510
之间的归一化权重值,按照上述方式可以得到目标无向图。
在一些可选实施例中,针对上述步骤104,可以将之前步骤103中建立的目标无向图输入预先建立的目标图神经网络。
在本公开实施例中,在建立目标图神经网络时,可以先建立包括多个图卷积层和非线性激活函数ReLU层的图神经网络,以样本图片库中带标签的任意两张样本图片按照上述步骤101至103相同的方式,建立样本无向图,在此不再赘述。
由于这两张样本图片带有标签或其他信息,已经可以确定这两张样本图片是否匹配,可以将样本无向图作为该图神经网络的输入值,对图神经网络进行训练,让匹配的两张样本图片通过图神经网络输出的样本无向图的节点之间的相似度概率值大于预设阈值,从而得到本公开实施例所需要的目标图神经网络。
目标图神经网络中可以通过归一化函数,例如softmax函数输出相似度概率值。
在本公开实施例中,可以将目标无向图输入上述目标图神经网络,在尺寸集合中每增加一个尺寸得到的目标无向图是不同的,例如,尺寸集合中只包括尺寸1和尺寸2时,得到目标无向图1,尺寸集合中如果包括尺寸1、尺寸2和尺寸3,可以得到目标无向图2,目标无向图1与目标无向图2是不同的,目标图神经网络可以随时根据尺寸集合中尺寸的数目来更新目标无向图。
进一步地,上述步骤104可以包括:
在所述相似度概率值大于预设阈值的情况下,确定所述第二图片属于与所述第一图片匹配的所述目标图片。
采用目标图神经网络对输入的目标无向图进行分析,根据输出的目标无向图的节点之间的相似度概率值,将相似度概率值大于预设阈值的第二图片作为与第一图片匹配的目标图片。
采用上述方式搜索图片库中的所有图片,可以得到与第一图片匹配的目标图片。
上述实施例中,可以结合不同尺寸下第一图片和第二图片的局部特征,来度量图片之间的相似度,匹配精度更高,鲁棒性更强。
在一些可选实施例中,例如用户在浏览某个App时,发现该App推荐了当季的一件新款衣服,用户想要从另一个购物网站上购买与新款衣服类似的衣服,此时可以将App提供的新款衣服的图片作为第一图片,购物网站提供的所有衣服的图片作为第二图片。
采用本公开实施例的上述步骤101至104的方法,可以在购物网站中直接搜索到用户想要购买的与新款衣服类似的衣服图片,用户就可以下单进行购买了。
再例如,用户在线下的实体店中看中一样家电,用户想搜索一下网上的某个网站中线上类似产品是否价格更合适,此时用户可以用手机等终端拍摄实体店中家电的照片,并将拍摄得到的图片作为第一图片,打开需要搜索的网站,该网站内的所有图片均作为第二图片。
同样采用本公开实施例的上述步骤101至104的方法,可以直接在该网站内搜索到类似家电的图片和该家电的价格,用户可以选择更优惠价格的家电进行购买。
在一些可选实施例中,例如图12是本公开提供的一种图片搜索网络的结构图。
该图片搜索网络包括特征提取部分、相似度计算部分、匹配结果确定部分。
其中,第一图片和图片库中的第二图片可以通过特征提取部分进行特征提取,得到多个尺寸下第一图片对应的第一特征图和所述第二图片对应的第二特征图。可选地,特征提取部分可以采用googlenet网络。其中,第一图片和第二图片可以共享同一特征提取器或两个特征提取器共享同一组参数。
进一步地,可以通过相似度计算部分采用上述公式1,计算同一所述尺寸下,位于同一空间位置上的所述第一特征图和所述第二特征图之间的相似度值,从而得到了多个相似度值。
在进一步地,可以通过匹配结果确定部分先根据多个相似度值,建立目标无向图,从而将目标无向图输入预先建立的目标图神经网络,根据目标图神经网络进行图形推理,最终根据输出的目标无向图的所述节点之间的相似度概率值,来确定第二图片是否属于与第一图片匹配的目标图片。
上述实施例中,可以结合不同尺寸下第一图片和第二图片的局部特征,来度量图片之间的相似度,匹配精度更高,鲁棒性更强。
与前述方法实施例相对应,本公开还提供了装置的实施例。
如图13所示,图13是本公开根据一示例性实施例示出的一种图片检索装置框图,装置包括:特征提取模块210,用于按照预设的多个尺寸,分别对第一图片和第二图片进行特征提取,获得所述第一图片对应的多个第一特征图和所述第二图片对应的多个第二特征图;其中,所述第二图片是图片库中的任一图片;计算模块220,用于计算位于任意两个空间位置上的所述第一特征图和所述第二特征图之间的相似度值,获得与目标尺寸组合对应的所述相似度值;其中,所述目标尺寸组合包括所述预设的多个尺寸中的第一尺寸和第二尺寸,所述第一特征图对应所述第一尺寸,所述第二特征图对应所述第二尺寸;无向图建立模块230,用于根据与每个所述目标尺寸组合对应的所述相似度值,建立目标无向图;匹配结果确定模块240,用于将所述目标无向图输入预先建立的目标图神经网络,根据所述目标图神经网络的输出结果,确定所述第二图片是否属于与所述第一图片匹配的目标图片。
上述实施例中,不再局限于两张图片的整体尺寸去进行全局相似度分析,而是结合预设的多个尺寸进行相似度分析,根据对应第一尺寸的第一图片的第一特征图和对应第二尺寸的第二图片的第二特征图位于任意两个空间位置的局部相似度值,来确定两张图片之间是否匹配,匹配精度更高,鲁棒性更强。
在一些可选实施例中,所述预设的多个尺寸包括第三尺寸和至少一个第四尺寸,所述第三尺寸是包括所述第一图片中的所有像素点在内的尺寸,所述第四尺寸小于所述第三尺寸。
上述实施例中,预设的多个尺寸包括了第三尺寸和至少一个第四尺寸,第三尺寸是第一图片的整体尺寸,第四尺寸可以小于第三尺寸,从而在计算第一图片和第二图片的相似度时,不再局限于两张图片的整体相似度,而是考虑到了不同尺寸下的图片之间的相似度,可以提高匹配结果的精度,鲁棒性更好。
在一些可选实施例中,所述特征提取模块210包括:特征提取子模块,用于分别按照所述预设的多个尺寸中的每个尺寸,对所述第一图片和所述第二图片进行特征提取,获得所述每个尺寸下与所述第一图片对应的多个第一特征点和与所述第二图片对应的多个第二特征点;第一确定子模块,用于在所述每个尺寸下所述第一图片对应的所述多个第一特征点中,将位于每个预设池化窗口内的所有第一特征点中特征值最大的所述第一特征点作为第一目标特征点;第二确定子模块,用于在所述每个尺寸下所述第二图片对应的所述多个第二特征点中,将位于所述每个预设池化窗口内的所有第二特征点中特征值最大的所述第二特征点作为第二目标特征点;获取子模块,用于分别获得与所述每个尺寸对应的由所述第一目标特征点组成的第一特征图,和由所述第二目标特征点组成的所述第二特征图。
上述实施例中,采用最大池化的方式对每个尺寸下的第一图片的多个第一特征点和第二图片的多个第二特征点进行处理,更关注于第一图片和第二图片中的重要元素信息,以便提高后续计算第一特征图和第二特征图之间相似度值的准确性同时减少计算量。
在一些可选实施例中,所述计算模块220包括:第一计算子模块,用于计算与所述第一尺寸对应的所述第一特征图在第i个空间位置的特征值和与所述第二尺寸对应的所述第二特征图在第j个空间位置的特征值之间的差值的平方和值;第二计算子模块,用于计算所述平方和值与预设投影矩阵的乘积值;其中,所述预设投影矩阵是用于降低特征差异矢量维度的投影矩阵;第三计算子模块,用于计算所述乘积值的欧几里得范数值;第四计算子模块,用于将所述乘积值与所述欧几里得范数值的商作为与目标尺寸组合对应的所述相似度值。
上述实施例中,可以计算任意两个空间位置上的对应第一尺寸的第一特征图和对应第二尺寸的第二特征图之间的相似度值,其中,第一尺寸和第二尺寸可以相同或不同,可用性高。
在一些可选实施例中,所述无向图建立模块230包括:第三确定子模块,用于确定与每个所述目标尺寸组合对应的所述相似度值中任意两个所述相似度值之间的权重值;归一化处理子模块,用于对所述权重值归一化处理后,获得归一化权重值;无向图建立子模块,用于将与每个所述目标尺寸组合对应的所述相似度值分别作为所述目标无向图的节点,所述归一化权重值作为所述目标无向图的边,建立所述目标无向图。
上述实施例中,在建立目标无向图时,可以将与每个目标尺寸组合对应的所述相似度值作为目标无向图的节点,将任意两个节点之间的权重值归一化处理后的归一化权重值作为目标无向图的边,通过目标无向图融合多个尺寸下两张图片的相似度,从而提高了匹配结果的精度,鲁棒性更好。
在一些可选实施例中,所述目标图神经网络的所述输出结果包括所述目标无向图的所述节点之间的相似度概率;所述匹配结果确定模块240包括:第四确定子模块,用于在所述相似度概率值大于预设阈值的情况下,确定所述第二图片属于与所述第一图片匹配的所述目标图片。
上述实施例中,可以将目标无向图输入目标图神经网络,根据目标图神经网络输出的目标无向图的节点之间的相似度概率值是否大于预设阈值,确定第二图片是否是与第一图片匹配的目标图片。在节点之间的相似度概率值较大时,将第二图片作为与第一图片匹配的目标图片,通过上述过程,可以在图片库中更准确的搜索到与第一图片匹配的目标图片,搜索结果更加准确。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的图片检索方法。
本公开实施例还提供了一种图片检索装置,装置包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为调用所述存储器中存储的可执行指令,实现上述任一项所述的图片检索方法。
在一些可选实施例中,本公开实施例提供了一种计算机程序产品,包括计算机可读代码,当计算机可读代码在设备上运行时,设备中的处理器执行用于实现如上任一实施例提供的图片搜索方法的指令。
在一些可选实施例中,本公开实施例还提供了另一种计算机程序产品,用于存储计算机可读指令,指令被执行时使得计算机执行上述任一实施例提供的图片搜索方法的操作。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
在一些可选实施例中,如图14所示,图14是一些实施例提供的一种图片检索装置1400的一结构示意图。参照图14,装置1400包括处理组件1422,其进一步包括一个或多个处理器,以及由存储器1432所代表的存储器资源,用于存储可由处理部件1422的执行的指令,例如应用程序。存储器1432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1422被配置为执行指令,以执行上述任一的图片检索方法。
装置1400还可以包括一个电源组件1426被配置为执行装置1400的电源管理,一个有线或无线网络接口1450被配置为将装置1400连接到网络,和一个输入输出(I/O)接口1458。装置1400可以操作基于存储在存储器1432的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeB SDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (14)

1.一种图片检索方法,其特征在于,所述方法包括:
按照预设的多个尺寸,分别对第一图片和第二图片进行特征提取,获得所述第一图片对应的多个第一特征图和所述第二图片对应的多个第二特征图;其中,所述第二图片是图片库中的任一图片;
计算位于任意两个空间位置上的所述第一特征图和所述第二特征图之间的相似度值,获得与目标尺寸组合对应的所述相似度值;其中,所述目标尺寸组合包括所述预设的多个尺寸中的第一尺寸和第二尺寸,所述第一特征图对应所述第一尺寸,所述第二特征图对应所述第二尺寸;
根据与每个所述目标尺寸组合对应的所述相似度值,建立目标无向图;
将所述目标无向图输入预先建立的目标图神经网络,根据所述目标图神经网络的输出结果,确定所述第二图片是否属于与所述第一图片匹配的目标图片。
2.根据权利要求1所述的方法,其特征在于,所述预设的多个尺寸包括第三尺寸和至少一个第四尺寸,所述第三尺寸是包括所述第一图片中的所有像素点在内的尺寸,所述第四尺寸小于所述第三尺寸。
3.根据权利要求1或2所述的方法,其特征在于,所述按照预设的多个尺寸,分别对第一图片和第二图片进行特征提取,获得所述第一图片对应的第一特征图和所述第二图片对应的第二特征图,包括:
分别按照所述预设的多个尺寸中的每个尺寸,对所述第一图片和所述第二图片进行特征提取,获得所述每个尺寸下与所述第一图片对应的多个第一特征点和与所述第二图片对应的多个第二特征点;
在所述每个尺寸下所述第一图片对应的所述多个第一特征点中,将位于每个预设池化窗口内的所有第一特征点中特征值最大的所述第一特征点作为第一目标特征点;
在所述每个尺寸下所述第二图片对应的所述多个第二特征点中,将位于所述每个预设池化窗口内的所有第二特征点中特征值最大的所述第二特征点作为第二目标特征点;
分别获得与所述每个尺寸对应的由所述第一目标特征点组成的第一特征图,和由所述第二目标特征点组成的所述第二特征图。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述计算位于任意两个空间位置上的所述第一特征图和所述第二特征图之间的相似度值,获得与目标尺寸组合对应的所述相似度值,包括:
计算与所述第一尺寸对应的所述第一特征图在第i个空间位置的特征值和与所述第二尺寸对应的所述第二特征图在第j个空间位置的特征值之间的差值的平方和值;
计算所述平方和值与预设投影矩阵的乘积值;其中,所述预设投影矩阵是用于降低特征差异矢量维度的投影矩阵;
计算所述乘积值的欧几里得范数值;
将所述乘积值与所述欧几里得范数值的商作为与目标尺寸组合对应的所述相似度值。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据与每个所述目标尺寸组合对应的所述相似度值,建立目标无向图,包括:
确定与每个所述目标尺寸组合对应的所述相似度值中任意两个所述相似度值之间的权重值;
对所述权重值归一化处理后,获得归一化权重值;
将与每个所述目标尺寸组合对应的所述相似度值分别作为所述目标无向图的节点,所述归一化权重值作为所述目标无向图的边,建立所述目标无向图。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述目标图神经网络的所述输出结果包括所述目标无向图的节点之间的相似度概率值;
所述根据所述目标图神经网络的输出结果,确定所述第二图片是否属于与所述第一图片匹配的目标图片,包括:
在所述相似度概率值大于预设阈值的情况下,确定所述第二图片属于与所述第一图片匹配的所述目标图片。
7.一种图片检索装置,其特征在于,所述装置包括:
特征提取模块,用于按照预设的多个尺寸,分别对第一图片和第二图片进行特征提取,获得所述第一图片对应的多个第一特征图和所述第二图片对应的多个第二特征图;其中,所述第二图片是图片库中的任一图片;
计算模块,用于计算位于任意两个空间位置上的所述第一特征图和所述第二特征图之间的相似度值,获得与目标尺寸组合对应的所述相似度值;其中,所述目标尺寸组合包括所述预设的多个尺寸中的第一尺寸和第二尺寸,所述第一特征图对应所述第一尺寸,所述第二特征图对应所述第二尺寸;
无向图建立模块,用于根据与每个所述目标尺寸组合对应的所述相似度值,建立目标无向图;
匹配结果确定模块,用于将所述目标无向图输入预先建立的目标图神经网络,根据所述目标图神经网络的输出结果,确定所述第二图片是否属于与所述第一图片匹配的目标图片。
8.根据权利要求7所述的装置,其特征在于,所述预设的多个尺寸包括第三尺寸和至少一个第四尺寸,所述第三尺寸是包括所述第一图片中的所有像素点在内的尺寸,所述第四尺寸小于所述第三尺寸。
9.根据权利要求7或8所述的装置,其特征在于,所述特征提取模块包括:
特征提取子模块,用于分别按照所述预设的多个尺寸中的每个尺寸,对所述第一图片和所述第二图片进行特征提取,获得所述每个尺寸下与所述第一图片对应的多个第一特征点和与所述第二图片对应的多个第二特征点;
第一确定子模块,用于在所述每个尺寸下所述第一图片对应的所述多个第一特征点中,将位于每个预设池化窗口内的所有第一特征点中特征值最大的所述第一特征点作为第一目标特征点;
第二确定子模块,用于在所述每个尺寸下所述第二图片对应的所述多个第二特征点中,将位于所述每个预设池化窗口内的所有第二特征点中特征值最大的所述第二特征点作为第二目标特征点;
获取子模块,用于分别获得与所述每个尺寸对应的由所述第一目标特征点组成的第一特征图,和由所述第二目标特征点组成的所述第二特征图。
10.根据权利要求7-9任一项所述的装置,其特征在于,所述计算模块包括:
第一计算子模块,用于计算与所述第一尺寸对应的所述第一特征图在第i个空间位置的特征值和与所述第二尺寸对应的所述第二特征图在第j个空间位置的特征值之间的差值的平方和值;
第二计算子模块,用于计算所述平方和值与预设投影矩阵的乘积值;其中,所述预设投影矩阵是用于降低特征差异矢量维度的投影矩阵;
第三计算子模块,用于计算所述乘积值的欧几里得范数值;
第四计算子模块,用于将所述乘积值与所述欧几里得范数值的商作为与目标尺寸组合对应的所述相似度值。
11.根据权利要求7-10任一项所述的装置,其特征在于,所述无向图建立模块包括:
第三确定子模块,用于确定与每个所述目标尺寸组合对应的所述相似度值中任意两个所述相似度值之间的权重值;
归一化处理子模块,用于对所述权重值归一化处理后,获得归一化权重值;
无向图建立子模块,用于将与每个所述目标尺寸组合对应的所述相似度值分别作为所述目标无向图的节点,所述归一化权重值作为所述目标无向图的边,建立所述目标无向图。
12.根据权利要求7-11任一项所述的装置,其特征在于,所述目标图神经网络的所述输出结果包括所述目标无向图的节点之间的相似度概率值;
所述匹配结果确定模块包括:
第四确定子模块,用于在所述相似度概率值大于预设阈值的情况下,确定所述第二图片属于与所述第一图片匹配的所述目标图片。
13.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-6任一所述的图片检索方法。
14.一种图片检索装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现权利要求1至6中任一项所述的图片检索方法。
CN201910806958.2A 2019-08-29 2019-08-29 一种图片检索方法及装置 Active CN110532414B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201910806958.2A CN110532414B (zh) 2019-08-29 2019-08-29 一种图片检索方法及装置
KR1020217036554A KR20210145821A (ko) 2019-08-29 2020-04-23 이미지 검색 방법 및 장치
JP2021566478A JP2022531938A (ja) 2019-08-29 2020-04-23 ピクチャ検索方法及び装置
PCT/CN2020/086455 WO2021036304A1 (zh) 2019-08-29 2020-04-23 图片检索方法及装置
TW109116387A TWI770507B (zh) 2019-08-29 2020-05-18 圖片檢索方法、裝置及電腦可讀儲存介質
US17/536,708 US20220084308A1 (en) 2019-08-29 2021-11-29 Method and device for image search, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910806958.2A CN110532414B (zh) 2019-08-29 2019-08-29 一种图片检索方法及装置

Publications (2)

Publication Number Publication Date
CN110532414A CN110532414A (zh) 2019-12-03
CN110532414B true CN110532414B (zh) 2022-06-21

Family

ID=68665101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910806958.2A Active CN110532414B (zh) 2019-08-29 2019-08-29 一种图片检索方法及装置

Country Status (6)

Country Link
US (1) US20220084308A1 (zh)
JP (1) JP2022531938A (zh)
KR (1) KR20210145821A (zh)
CN (1) CN110532414B (zh)
TW (1) TWI770507B (zh)
WO (1) WO2021036304A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532414B (zh) * 2019-08-29 2022-06-21 深圳市商汤科技有限公司 一种图片检索方法及装置
CN111400591B (zh) * 2020-03-11 2023-04-07 深圳市雅阅科技有限公司 资讯信息推荐方法、装置、电子设备及存储介质
CN111598176B (zh) * 2020-05-19 2023-11-17 北京明略软件系统有限公司 一种图像匹配处理方法及装置
CN111651674B (zh) * 2020-06-03 2023-08-25 北京妙医佳健康科技集团有限公司 双向搜索方法、装置及电子设备
CN112772384B (zh) * 2021-01-28 2022-12-20 深圳市协润科技有限公司 一种基于卷积神经网络的农水灌溉系统和方法
CN115035015A (zh) * 2021-02-23 2022-09-09 京东方科技集团股份有限公司 图片处理方法、装置、计算机设备及存储介质
CN113688814B (zh) * 2021-10-27 2022-02-11 武汉邦拓信息科技有限公司 图像识别方法及装置
CN114742171A (zh) * 2022-04-24 2022-07-12 中山大学 一种本征正交分解样本压缩方法、装置及存储介质
CN115455227B (zh) * 2022-09-20 2023-07-18 上海弘玑信息技术有限公司 图形界面的元素搜索方法及电子设备、存储介质
CN116433887B (zh) * 2023-06-12 2023-08-15 山东鼎一建设有限公司 基于人工智能的建筑物快速定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447190A (zh) * 2015-12-18 2016-03-30 小米科技有限责任公司 基于卷积神经网络的图片检索方法、装置和服务器
CN107239535A (zh) * 2017-05-31 2017-10-10 北京小米移动软件有限公司 相似图片检索方法及装置
WO2018036146A1 (zh) * 2016-08-26 2018-03-01 东方网力科技股份有限公司 基于卷积神经网络的目标匹配方法、装置及存储介质
CN108563767A (zh) * 2018-04-19 2018-09-21 深圳市商汤科技有限公司 图像检索方法及装置
CN109857889A (zh) * 2018-12-19 2019-06-07 苏州科达科技股份有限公司 一种图像检索方法、装置、设备及可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6307964B1 (en) * 1999-06-04 2001-10-23 Mitsubishi Electric Research Laboratories, Inc. Method for ordering image spaces to represent object shapes
JP5201184B2 (ja) * 2010-08-24 2013-06-05 株式会社豊田中央研究所 画像処理装置及びプログラム
US10282431B1 (en) * 2015-12-18 2019-05-07 A9.Com, Inc. Image similarity-based group browsing
US20180284758A1 (en) * 2016-05-09 2018-10-04 StrongForce IoT Portfolio 2016, LLC Methods and systems for industrial internet of things data collection for equipment analysis in an upstream oil and gas environment
US10043109B1 (en) * 2017-01-23 2018-08-07 A9.Com, Inc. Attribute similarity-based search
CN108288067B (zh) * 2017-09-12 2020-07-24 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN109597907A (zh) * 2017-12-07 2019-04-09 深圳市商汤科技有限公司 服饰管理方法和装置、电子设备、存储介质
CN109960742B (zh) * 2019-02-18 2021-11-05 苏州科达科技股份有限公司 局部信息的搜索方法及装置
CN109919141A (zh) * 2019-04-09 2019-06-21 广东省智能制造研究所 一种基于骨架姿态的行人再识别方法
CN110532414B (zh) * 2019-08-29 2022-06-21 深圳市商汤科技有限公司 一种图片检索方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447190A (zh) * 2015-12-18 2016-03-30 小米科技有限责任公司 基于卷积神经网络的图片检索方法、装置和服务器
WO2018036146A1 (zh) * 2016-08-26 2018-03-01 东方网力科技股份有限公司 基于卷积神经网络的目标匹配方法、装置及存储介质
CN107239535A (zh) * 2017-05-31 2017-10-10 北京小米移动软件有限公司 相似图片检索方法及装置
CN108563767A (zh) * 2018-04-19 2018-09-21 深圳市商汤科技有限公司 图像检索方法及装置
CN109857889A (zh) * 2018-12-19 2019-06-07 苏州科达科技股份有限公司 一种图像检索方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
KR20210145821A (ko) 2021-12-02
WO2021036304A1 (zh) 2021-03-04
TW202109313A (zh) 2021-03-01
US20220084308A1 (en) 2022-03-17
JP2022531938A (ja) 2022-07-12
CN110532414A (zh) 2019-12-03
TWI770507B (zh) 2022-07-11

Similar Documents

Publication Publication Date Title
CN110532414B (zh) 一种图片检索方法及装置
CN111950638B (zh) 基于模型蒸馏的图像分类方法、装置和电子设备
CN109829775B (zh) 一种物品推荐方法、装置、设备及可读存储介质
Peng et al. RGBD salient object detection: A benchmark and algorithms
CN109815770B (zh) 二维码检测方法、装置及系统
CN109117854B (zh) 关键点匹配方法、装置、电子设备以及存储介质
CN110348362B (zh) 标签生成、视频处理方法、装置、电子设备及存储介质
CN110765882B (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN110008397B (zh) 一种推荐模型训练方法及装置
CN111291765A (zh) 用于确定相似图片的方法和装置
CN111461164B (zh) 样本数据集的扩容方法及模型的训练方法
CN112801215A (zh) 图像处理模型搜索、图像处理方法、装置和存储介质
CN112330383A (zh) 用于基于可视元素的物品推荐的设备及方法
CN111507285A (zh) 人脸属性识别方法、装置、计算机设备和存储介质
CN113344016A (zh) 深度迁移学习方法、装置、电子设备及存储介质
CN106910207B (zh) 用于识别图像局部区域的方法、装置及终端设备
CN111461196B (zh) 基于结构特征的快速鲁棒图像识别跟踪方法和装置
CN110956131B (zh) 单目标追踪方法、装置及系统
CN113190444A (zh) 一种测试方法、装置及存储介质
CN110210523B (zh) 一种基于形状图约束的模特穿着衣物图像生成方法及装置
CN111126457A (zh) 信息的获取方法和装置、存储介质和电子装置
CN113569070A (zh) 图像检测方法和装置、电子设备、存储介质
CN113989849A (zh) 基于骨架分离与统一及注意力机制的姿态识别方法与装置
CN109189773B (zh) 一种数据修复方法及装置
CN113393303A (zh) 物品推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40009996

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant