CN111831844A - 图像检索方法、图像检索装置、图像检索设备及介质 - Google Patents
图像检索方法、图像检索装置、图像检索设备及介质 Download PDFInfo
- Publication number
- CN111831844A CN111831844A CN201910308711.8A CN201910308711A CN111831844A CN 111831844 A CN111831844 A CN 111831844A CN 201910308711 A CN201910308711 A CN 201910308711A CN 111831844 A CN111831844 A CN 111831844A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- content
- global
- feature code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
公开了一种图像检索方法、图像检索装置、图像检索设备及介质,所述图像检索方法包括:提取输入图像的全局特征,并基于所述全局特征得到全局特征编码;提取输入图像的内容特征,并基于所述内容特征得到内容特征编码;将全局特征编码与内容特征编码相拼接,得到输入图像的复合特征编码;将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果。通过在图像检索过程中综合考虑图像的全局特征和内容特征,提高检索结果的精度及检索效率。
Description
技术领域
本公开涉及图像处理领域,更具体地涉及一种图像检索方法、图像检索装置、图像检索设备及介质。
背景技术
图像检索是图像处理领域中的关键技术,随着图像处理在民用和商用领域的广泛应用,图像检索也面临着更高的要求。目前在图像检索中,图像检索常采用的方法为基于输入图像,获取其整体特征或全局特征,并进一步经由全局特征进行检索,最终输出与输入图像相似的图像。
然而,使用基于全局特征的图像检索方法时,当对于一些特殊图像,例如艺术画作图像、艺术品的照片、或者其他具有较为突出或核心的内容的图像进行检索时,检索到的结果更加倾向于色彩和纹理相似,而忽视了画作中的内容相似性。
因此,需要一种在实现图像检索的前提下,具有较高图像检索准确率的图像检索方法。
发明内容
针对以上问题,本公开提供了一种图像检索方法、装置、设备及介质。利用本公开提供的图像检索方法可以在实现图像检索的基础上,有效提高图像检索准确率及其检索效率,实现高精度的图像检索,且该方法具有良好的鲁棒性。
根据本公开的一方面,提出了一种图像检索方法,包括:提取输入图像的全局特征,并基于所述全局特征得到全局特征编码;提取输入图像的内容特征,并基于所述内容特征得到内容特征编码;将全局特征编码与内容特征编码相拼接,得到输入图像的复合特征编码;将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果。
在一些实施例中,提取输入图像的全局特征,基于所述全局特征得到全局特征编码包括:通过第一卷积神经网络提取输入图像的特征,得到全局特征;将所述全局特征转换为具有第一预设位数的二值化特征编码,得到全局特征编码。
在一些实施例中,提取输入图像的内容特征,并基于所述内容特征得到内容特征编码包括:通过第二卷积神经网络,定位输入图像中的目标,得到定位结果;基于定位结果裁剪图像,得到局部区域图像,所述局部区域图像至少包括所述目标;通过第三卷积神经网络从所述局部区域图像中提取内容特征;将所述内容特征转换为具有第二预设位数的二值化特征编码,得到内容特征编码。
在一些实施例中,将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果包括:计算复合特征编码与预设特征编码库中每个预设特征编码的汉明距离;以及基于所述汉明距离,确定图像检索结果。
在一些实施例中,所述预设特征编码库包括至少一个预设特征编码,且其中:对于图像库中的预设图像,提取该图像的全局特征,基于所述全局特征得到该图像的全局特征编码;提取该图像的内容特征,基于所述内容特征得到该图像的内容特征编码;将该图像的全局特征编码与该图像的内容特征编码相拼接,得到该图像的复合特征编码,并将其作为预设特征编码。
在一些实施例中,通过第一卷积神经网络提取输入图像的特征并得到全局特征之前还包括:基于图片库中的预设图像,生成样本集;通过样本集训练所述第一卷积神经网络;将训练后的第一卷积神经网络保存。
在一些实施例中,通过第二卷积神经网络,定位输入图像中的目标,得到定位结果之前还包括:基于图片库中的预设图像,生成样本集;通过样本集训练所述第二卷积神经网络;将训练后的第二卷积神经网络保存。
在一些实施例中,通过第三卷积神经网络提取局部区域图像的特征,得到内容特征之前还包括:基于图片库中的预设图像,生成样本集;通过样本集训练所述第三卷积神经网络;将训练后的第三卷积神经网络保存。
根据本公开的另一方面,提供了一种图像检索装置,包括:全局特征处理模块,被配置为提取输入图像的全局特征,并基于所述全局特征得到全局特征编码;内容特征处理模块,被配置为提取输入图像的内容特征,并基于所述内容特征得到内容特征编码;复合特征编码生成模块,被配置为将全局特征编码与内容特征编码相拼接,得到输入图像的复合特征编码;特征比较模块,被配置为将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果。
在一些实施例中,所述全局特征处理模块包括:所述全局特征处理模块包括:全局特征提取模块,被配置为通过第一卷积神经网络提取输入图像的特征,得到全局特征;全局特征编码生成模块,被配置为将所述全局特征转换为具有第一预设位数的二值化特征编码,得到全局特征编码。
在一些实施例中,所述内容特征处理模块包括:目标定位模块,被配置为通过第二卷积神经网络,定位输入图像中的目标,得到定位结果;局部区域图像生成模块,被配置为基于定位结果裁剪图像,得到局部区域图像,所述局部区域图像至少包括所述目标;内容特征提取模块,被配置为通过第三卷积神经网络从所述局部区域图像中提取内容特征;内容特征编码生成模块,被配置为将所述内容特征转换为具有第二预设位数的二值化特征编码,得到内容特征编码。
在一些实施例中,所述特征比较模块包括:汉明距离计算模块,被配置为计算复合特征编码与预设特征编码库中每个预设特征编码的汉明距离;以及图像输出模块,被配置为基于所述汉明距离,确定图像检索结果。
在一些实施例中,所述预设特征编码库包括至少一个预设特征编码,且其中:对于图像库中的预设图像,提取该图像的全局特征,基于所述全局特征得到该图像的全局特征编码;提取该图像的内容特征,基于所述内容特征得到该图像的内容特征编码;将该图像的全局特征编码与该图像的内容特征编码相拼接,得到该图像的复合特征编码,并将其作为预设特征编码。
根据本公开的另一方面,提供了一种图像检索设备,其中所述设备包括处理器和存储器,所述存储器包含计算机可读指令,所述计算机可读指令在由所述处理器执行时使所述图像检索设备执行如上所述的方法。
根据本公开的另一方面,提供了一种算机可读存储介质,其特征在于,其上存储有计算机可读的指令,当利用计算机执行所述指令时执行如上所述的方法。
利用本公开提供的图像检索的方法,可以基于输入图像的全局特征和内容特征,很好地完成图像检索,特别地,可具有较高的图像检索准确率,且算法具有良好的鲁棒性。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员而言,在没有做出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本公开的主旨。
图1示出了根据本公开实施例的图像检索方法100的示例性的流程图;
图2A示出了根据本公开实施例的提取输入图像的全局特征并基于所述全局特征得到全局特征编码的示例性流程图;
图2B示出了图2A中的方法所采用的网络结构;
图2C示出了根据本公开实施例训练第一卷积神经网络的示例性流程图;
图3A示出了根据本公开实施例的提取输入图像的内容特征,基于所述内容特征得到内容特征编码的一种示例性方法300的流程图;
图3B示出了图3A中的方法所采用的网络结构;
图3C示出了根据本公开实施例训练第二卷积神经网络的示例性流程图;
图3D示出了根据本公开实施例训练第三卷积神经网络的示例性流程图;
图4示出了根据本公开实施例将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果的示例性方法400的流程图;
图5示出了根据本公开实施例的图像检索装置900的示例性的框图;
图6示出了根据本公开实施例的图像检索设备950的示例性的框图。
具体实施方式
下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本公开的部分实施例,而不是全部的实施例。基于本公开实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本公开保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1示出了根据本公开实施例的图像检索方法100的示例性流程图。
首先,在步骤S101中,提取输入图像的全局特征,并基于所述全局特征得到全局特征编码。
所述输入图像可以是通过摄像头或摄录装置实时捕获的图像,或者也可以是预先以其他方式获得的图像。本公开实施例不受输入图像的来源及获取方式的限制。例如,可以为由道路摄像头、无人超市的监控摄像头等直接拍摄的图像,或者也可以是经过计算机预先处理后得到的图像。
其次,在步骤S102中,提取输入图像的内容特征,并基于所述内容特征得到内容特征编码。
提取输入图像的全局特征和内容特征的过程可以通过深度学习算法实现,或者也可以通过其他方式实现,本公开的实施例不受提取图像全局特征和内容特征的方式的限制。
应了解,步骤S101和S102的操作可以并行进行,或者按照顺序执行,在此不对其作出任何限制。进一步地,根据需要,步骤S101及S102可基于经预处理或局部特征提取后得到的不同图像进行操作,只要这些图像皆来源于相同的原始输入图像即可。
得到全局特征编码及内容特征编码后,进一步地,在步骤S103中,将全局特征编码与内容特征编码相拼接,得到输入图像的复合特征编码。该拼接例如可以通过将全局特征编码和全局特征编码直接连接得到。
例如,所得到的全局特征编码为(w1,w2,w3),所得到的内容特征编码为(c1,c2,c3,c4,c5),则将其按顺序拼接后,可得到对应于当前输入图像的复合特征编码(w1,w2,w3,c1,c2,c3,c4,c5)。
进一步地,根据需要,该拼接也可以首先将所述全局特征编码及内容特征编码的各个子元素依照其所隶属的不同类型,或基于后续判别的需求分类,将隶属相同类别的全局特征编码及内容特征编码进行分组拼接。本公开的实施例不受所选择的拼接方式的限制。
例如,所得到的全局特征编码为(wa,wb,wd),所得到的内容特征编码为(ca1,ca2,cb1,cb2,cd),其中wa、ca1、ca2例如均表征图像的颜色特征,wb、cb1、cb2例如均表征图像的纹理特征,wd、cd例如均表征图像的形状特征,则可将其基于不同的类别进行拼接,得到对应于当前输入图像的复合特征编码(wa,ca1,ca2,wb,cb1,cb2,wd,cd)。
经拼接得到复合特征编码后,在步骤S104中,将所述复合特征编码与预设特征编码库中预设特征编码相比较,得到图像检索结果。
上述比较过程可以通过计算复合特征编码和预设特征编码的空间距离实现,或者也可以将其二者中对应数据进行比较判别并基于各判别结果生成最终的比较结果。在本公开实施例中,不受比较方式的限制。
通过提取输入图像中全局特征及内容特征,分别生成相应的全局特征编码和内容特征编码,并采用拼接全局特征编码和内容特征编码所得到的复合特征编码来实现图像检索,在检索过程中综合考虑到了图像的整体相似度和图像的核心内容相似度,解决了图像检索,特别是艺术画作类的图像检索时,检索结果内容相似度差及精确度低的问题,实现了高精度的检索,并进一步提高了检索效率。
图2A示出了根据本公开实施例的提取输入图像的全局特征并基于所述全局特征得到全局特征编码的示例性流程图。图2B示出了图2A中方法所采用的网络结构。
参照图2A,首先,在步骤S201中,通过第一卷积神经网络提取输入图像的特征,得到全局特征。
所述第一卷积神经网络可基于实际需要进行选取,例如采用深度残差网络(Resnet)模型的卷积神经网络算法、基于视觉几何组(VGG)模型的卷积神经网络算法(R-CNN)、基于Inception模型的卷积神经网络算法实现,或者采用将其与全连接网络或其他综合处理网络架构相集成所形成的复合神经网络实现。在此不对所选择的第一卷积神经网络的类型做出任何限制。
该步骤例如可经由图2B中所示出的第一卷积神经网络实现,具体而言,首先,在第一卷积神经网络的输入层输入图像,其后,经由第一卷积神经网络的多个卷积层的处理,最终在全连接层得到图像特征提取后的全局特征。所得到的全局特征可以为多维的全局特征向量的形式,诸如4096维或2048维。例如其可以为2048维的特征向量,其具体组成为(6.24,0.98,3.12,-1.46,……0.32)。本公开实施例不受所得到的全局特征的特征向量的维数及其具体数值的限制。
得到全局特征后,在步骤S202中,将所述全局特征转换为第一预设位数的二值化特征编码,得到全局特征编码。
所述第一预设位数例如可以小于全局特征的特征向量的维数、等于全局特征的特征向量的维数,或者大于全局特征的特征向量的维数。例如,所述第一预设位数例如可以是512位,或者也可以为1024位。本公开的实施例不受所设定的第一预设位数的具体数值及其与全局特征的特征向量的维数的关系的限制。
其中,所述二值化特征编码表征该编码的每一位为0或1。所述二值化特征编码可以具有向量的形式、数组的形式或字符串的形式,本公开的实施例不受二值化特征编码的形式的限制。
通过将提取得到的连续的全局特征转换为具有第一预设位数的二值化特征编码,有助于在后续的检索过程中,简化运算,提升检索速度。
所述二值化特征编码的转换过程例如可以通过哈希编码(Hashing Coding)算法实现,或者也可以通过其他方式实现,本公开实施例不受获得二值化特征编码的方式的限制。
当采用哈希编码算法实现时,参照图2B所示出的非限制性实施例,在卷积神经网络的全连接层之后,例如还设置有哈希转换层,所述哈希转换层例如可包括全连接层、激活层、损失层及阈值化层。
进一步地,该哈希编码过程可更具体地描述。例如得到的全局特征向量为m维向量WT,设定的全局特征编码的第一预设位数为n,则首先在全连接层中将m维全局特征向量WT映射为n维全局映射向量WS。其后,在激活层中,通过使用双曲正切函数,即tanh函数,将全局映射向量WS转换成全局激活向量WQ,所述全局激活向量WQ中的每一个子元素的数值被约束在-1至1的范围内。之后,将该全局激活向量WQ输出至损失层,在损失层中,对上述全局激活向量进行目标结构优化,弥补由于将连续值编码离散化及所导致的误差。
在一些实施例中,损失层中的误差计算例如可以采用S型生长曲线函数(Sigmoid)实现,或者可以采用兼顾交叉熵损失和量化损失的方法来实现,本公开的实施例不受进行误差计算的具体方法的限制。
当使用兼顾交叉熵损失和量化损失的方法实现时,该损失函数可以为:
F=min L+λQ (1)
其中F表征损失函数,L表征交叉熵损失,Q表征量化损失,λ是一个用来权衡交叉熵损失L和量化损失Q的参数,可基于图像的特征选取。所述交叉熵损失L和量化损失Q也可根据图像的特征,选取不同的函数。本公开的实施例不受具体选择的函数及算法的限制。
经过损失函数计算的得到的全局结果向量WR被进一步输出至阈值化层,在该阈值化层中,对于全局结果向量WR进行阈值二值化处理,其基于预设阈值,对于全局结果向量WR中的每一个子元素WR_i(i=1,...,n)进行阈值二值化,具体公式如下:
其中WO_i为全局特征编码WO中第i个子元素,且i=1,...,n,n为第一预设位数。例如当全局结果向量WR为(1,-1,1,1,1,-1),则基于上述公式,最终得到的全局特征编码WO为(1,0,1,1,1,0)。
通过将提取得到的连续的全局特征转换为具有第一预设位数的二值化特征编码,有助于在后续的检索过程中,简化运算,提升检索速度。并进一步通过计算误差,弥补了将连续值编码离散化为二值化编码而造成的特征损失,兼顾了速度与特征的精度。
此外,可利用现有图库对于上述第一卷积神经网络进行训练。
图2C示出了根据本公开实施例的训练第一卷积神经网络210的示例性流程图。参照上述附图,对上述第一卷积神经网络的训练过程可以更具体地描述。
参照图2C,对于第一卷积神经网络而言,首先,在步骤S211中,基于图片库中的预设图像,生成样本集。其中,所述样本集例如可以为对于预设图像进行图像增强处理,例如对于图库中的预设图像进行左右翻转或颜色的去均值操作所生成的样本图像;其次,通过样本集训练所述第一卷积神经网络,具体而言,在步骤S212中,将样本集输入第一卷积神经网络,经由第一卷积神经网络中多个卷积层处理,在全连接层得到输出结果;在步骤S213中,计算输出结果的损失函数,基于损失函数调整第一卷积神经网络的各层参数;最后,在步骤S214中,将训练后的第一卷积神经网络保存,以用于实现图像检索。
图3A示出了根据本公开实施例的提取输入图像的内容特征并基于所述内容特征得到内容特征编码的一种示例性方法300的流程图。图3B示出了图3A中方法所采用的网络结构。
首先,在步骤S301中,提取输入图像的内容特征。
具体而言,在步骤S3011中,通过第二卷积神经网络定位输入图像中的目标,得到定位结果。
根据不同的实施例,第二卷积神经网络可基于不同的预设规则实现目标定位。例如可以指定红色为目标颜色,或者可以指定位于图像正中的区域内为目标,或者其也可以根据时域规则及频域规则,例如设定在图像的图谱经高斯核平滑后的频谱尺度空间(Spectrum Scale-Space)中,熵最小的显著区域为目标,或设定输入图像在滤波后相对于周围区域具有高对比度的区域为目标,本公开的实施例不受所设定的目标的选取规则的限制。
所述第二卷积神经网络例如可以为深度卷积神经网络、神经网络与交并比算法、非最大值抑制算法等其他算法相结合形成的网络,或者采用将其与全连接网络或其他综合处理网络架构相集成所形成的复合神经网络。本公开的实施例不受所述第二卷积神经网络的类型的限制。
所述输入图像中的目标可以为一个,或者也可以为多个,本公开的实施例不受输入图像中目标个数的限制。
进一步地,如图3B所示,例如可以将图像输入至所选择的第二卷积神经网络的输入层,其后经由第二卷积神经网络结构中多个卷积层的处理,所述处理结果输出至第二卷积神经网络的全局平均池化层(GAP),全局平均池化层对于上述处理结果进行计算并进一步将计算结果输出至全连接层,全连接层进行分类输出,最终在第二卷积神经网络的输出端得到对图像中目标的定位结果。
所述定位结果可以以坐标向量表示,例如对图像中的每一个目标,可以采用包括所述目标且具有最小面积的矩形区域的四个角点坐标,例如以该矩形区域的四个角点相对于输入图像的中心点的偏移量表示其定位结果。然而,根据本公开实施例,所述定位结果还可以为包围所述目标且具有最小面积的圆形或不规则封闭图形,本公开实施例不对定位结果的表示方式做出限制。
得到定位结果后,在步骤S3012中,基于定位结果裁剪图像,得到局部区域图像,所述局部区域图像至少包括所述目标。
例如,在图像中仅包括一个目标时,局部区域图像包括所述一个目标,其例如可以是包括该目标的图像。当图像中包括多个目标,例如包括三个目标时,所述局部区域图像是包括所述三个目标的图像。
所述局部区域图像例如可以为矩形图像,或者基于目标的具体形状,也可以为圆形图像或不规则图像,本公开实施例不对局部区域的形状和大小做出限制。
最后,在步骤S3013中,通过第三卷积神经网络提取局部区域图像的特征,得到内容特征。
具体而言,在第三卷积神经网络的输入层输入局部区域图像,经由卷积层的处理,即可在全连接层得到图像特征提取后的内容特征。所得到的内容特征可以为多维的特征向量,诸如2048维或1024维。例如其可以为2048维的内容特征向量CT,其具体组成为(16.11,10.23,3.14,-1.64,……0.32)。本公开实施例不受所得到的内容特征的特征向量维数及其具体数值的限制。
所述第三卷积神经网络可基于实际需要进行选取,例如采用深度残差网络(Resnet)模型的卷积神经网络算法、基于视觉几何组(VGG)模型的卷积神经网络算法(R-CNN)、基于Inception模型的卷积神经网络算法实现,或者采用将其与全连接网络或其他综合处理网络架构相集成所形成的复合神经网络实现。在此不对所选择的第三卷积神经网络的类型做出任何限制。
在一些实施方式中,所述第三卷积神经网络例如可以与第一卷积神经网络具有相同的神经网络结构。
然而,本公开实施例不限于此,例如,第三卷积神经网络也可以与第一卷积神经网络具有不同的网络结构。在本公开的实施例中,不对第三卷积神经网络与第一卷积神经网络的网络结构关系做出任何限制。
通过对图像中的目标定位,并基于定位结果裁剪图像,得到包括图像全部目标且具有最小面积的局部区域图像,并对局部区域图像进行进一步地特征提取,可以实现对于图像中内容特征的提取,且在内容特征提取时,能够有效地降低图像中背景区域、非目标区域的属性特征的干扰,有利于得到精度更高的内容特征。
此外,可利用现有的图库中的训练数据,对于上述第第三卷积神经网络进行训练。
图3C示出了根据本公开实施例训练第二卷积神经网络310的示例性流程图;图3D示出了根据本公开实施例训练第三卷积神经网络320的示例性流程图。参照上述附图,对上述卷积神经网络的训练过程可以更具体地描述。参照图3C,对于第二卷积神经网络而言,首先,在步骤S311中,基于图片库中的预设图像,生成样本集。其中,所述样本集例如可以为对于预设图像进行图像增强处理,例如对于图库中的预设图像进行左右翻转或颜色的去均值操作所生成的样本图像;其次,通过样本集训练所述第二卷积神经网络,具体而言,在步骤S312中,将样本集输入第二卷积神经网络,经由第二卷积神经网络中多个卷积层、全局平均池化层及全连接层的处理及计算,得到输出结果;在步骤S313中,计算输出结果的损失函数,基于损失函数调整第二卷积神经网络的各层参数;最后,在步骤S314中,将训练后的第二卷积神经网络保存,以用于实现后续图像检索。
参照图3D,对上述第三卷积神经网络的训练过程可以更具体地描述。首先,在步骤S321中,基于图片库中的预设图像,生成样本集。其中,所述样本集例如可以为对于预设图像进行图像增强处理,例如对于图库中的预设图像进行左右翻转或颜色的去均值操作所生成的样本图像;其次,通过样本集训练所述第三卷积神经网络,具体而言,在步骤S322中,将样本集输入第三卷积神经网络,经由第三卷积神经网络中多个卷积层处理,在全连接层得到输出结果,在步骤S323中,计算输出结果的损失函数,基于损失函数调整第三卷积神经网络的各层参数;最后,在步骤S324中,将训练后的第三卷积神经网络保存,以用于实现图像检索。
例如,所述图片库例如可以是互联网中的艺术作品图库或本地图库,其中的预设图像可以是摄像机实时拍摄的图像或经由计算机预处理后的美术画作图像等。本公开的实施例不受所述图片库及预设图像的来源和类型的限制。
经由预设图像生成的样本集例如可以直接将所述预设图像作为样本。然而本公开的实施方式不限于此,在一些实施例中,生成样本集包括对于预设图像进行图像增强处理,所述增强处理例如包括对现有图库中的图像进行选择、平移来扩增训练数据的样本量和多样性。
通过对所述预设图像进行图像增强处理,可以进一步地提高卷积神经网络的数据训练量及其数据多样性,进一步增强所训练得到的卷积神经网络的性能,从而提升图像检索的速度和精确度。
得到内容特征后,在步骤S302中,基于所述内容特征得到内容特征编码。具体而言,在步骤S3021中,将所述内容特征转换为具有第二预设位数的二值化特征编码,得到内容特征编码。
所述第二预设位数例如可以小于内容特征的特征向量的维数、等于内容特征的特征向量的维数,或者大于内容特征的特征向量的维数。例如,所述第二预设位数例如可以是512位,或者也可以为1024位。本公开的实施例不受所设定的第二预设位数的具体数值及其与内容特征的特征向量的维数的关系的限制。
所述第二预设位数可以与第一预设位数相同,例如将两者均设置为512位,或者其二者可以不同,例如内容特征编码的第二预设位数为128,全局特征编码的第一预设位数为512。本公开实施例不受所设置的第一预设位数及第二预设位数的关系的限制。
通过将提取得到的特征转换为具有第二预设位数的二值化特征编码,有助于在后续的检索过程中,简化运算,提升检索速度。
所述二值化特征编码的转换过程例如可以通过哈希编码(Hashing Coding)算法实现,即,在卷积神经网络的全连接层之后设置哈希转换层,所述哈希转换层例如可包括全连接层、激活层、损失层及阈值化层。
进一步地,例如得到的内容特征向量为y维向量CT,设定的内容特征编码的第二预设位数为k,则首先在全连接层中将y维内容特征向量CT映射为k维内容映射向量CS。其后,在激活层中,使用双曲正切函数将连续的内容映射向量CS转换成内容激活向量CZ,所述内容激活向量CZ中的每一个子元素的数值被约束在-1至1的范围内。之后,将该内容激活向量CZ输出至损失层,在损失层中,对上述内容激活向量进行目标结构优化,弥补由于将连续值编码离散化及所导致的误差。
在一些实施例中,损失层中的误差计算例如可以采用S型生长曲线函数(Sigmoid)实现,或者可以采用兼顾交叉熵损失和量化损失的方法来实现。且对于内容特征进行误差计算所使用的算法可以与对全局特征进行误差计算所使用的算法相同,或者可以基于其二者不同的特征,而分别选择不同的算法。本公开的实施例不受内容特征进行误差计算的具体方法的限制。
经过损失函数计算的得到的内容结果向量CR被进一步输出至阈值化层,在该阈值化层中,对于内容结果向量CR进行阈值二值化处理,其基于预设阈值,对于内容结果向量CR中的每一个子元素进行阈值二值化,具体公式如下:
其中CO_i为内容特征编码CO中第i个子元素,且i=1,...,k,k为第二预设位数。当内容结果向量CR为(-1,-1,-1,1,1,-1)时,基于上述公式,最终得到的内容特征编码CO为(0,0,0,1,1,0)。
通过将提取得到的连续的内容特征转换为具有第二预设位数的二值化内容特征编码,有助于简化后续运算,提升检索速度。并进一步通过计算误差,弥补了将连续值编码离散化为二值化编码而造成的特征损失,兼顾了检索速度与获取的特征精度。
图4示出了根据本公开实施例将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果的示例性方法400的流程图。
参照图4,将全局特征编码与内容特征编码拼合得到复合特征编码后,首先,在步骤S401中,计算复合特征编码与预设特征编码库中每个预设特征编码的汉明距离。
所述预设特征编码库包括至少一个预设特征编码,获得预设特征编码具体过程类似于图像检索方法100中步骤S101至S103,具体而言:首先,对于图像库中的预设图像,提取该图像的全局特征,基于所述全局特征得到该图像的全局特征编码;其后,提取该图像的内容特征,基于所述内容特征得到该图像的内容特征编码;最后,将该图像的全局特征编码与该图像的内容特征编码相拼接,得到该图像的复合特征编码,并将其作为预设特征编码。
基于此,所述预设特征编码与输入图像的复合特征编码等长(二者向量具有相同的维数)。
所述汉明距离,是指两个等长的编码/相同维数的向量在对应的位置上数值彼此不同的数目。例如,编码A为100,编码B为101,则编码A与B的汉明距离为1。
基于上述,计算复合特征编码与预设特征编码库中的预设特征编码的汉明距离并得到相应的数值的过程可更具体地描述。例如,经过处理得到输入图像的复合特征编码D为(1,1,1,0,0,1,0,1,0),且预设特征编码库的第一预设特征编码G1为(1,1,0,0,0,1,0,1,1),预设特征编码库的第二预设特征编码G2为(0,0,0,1,0,1,0,1,0),则D与G1的汉明距离为2,D与G2的汉明距离为4。
进一步地,在步骤S402中,基于所述汉明距离,确定图像检索结果。
上述确定图像检索结果的过程可以更具体地描述。例如,在一些实施例中,基于所述汉明距离,输出具有最小汉明距离的预设特征编码所对应的图像。例如当第一预设特征编码G1具有最小汉明距离,则仅输出第一预设特征编码G1所对应的图像。
然而,本公开不限于此,例如,还可以输出汉明距离小于等于预设阈值的预设特征编码所对应的图像,具体而言,基于汉明距离的预设阈值对于预设特征编码进行筛选,输出汉明距离小于等于预设阈值的一个或多个预设特征编码所对应的图像。
其中,所述预设阈值例如可以设置为5,或者可以设置为10。本公开实施例不受预设阈值的具体数值的限制。
例如,当预设阈值为5时,对于输入图像的复合特征编码D而言,可将其与预设特征编码库中每个预设特征编码比较并基于汉明距离由小到大地排序,若其与第一预设特征编码G1的汉明距离为2,与第二预设特征编码G2的汉明距离为4,与其余的预设特征编码的汉明距离均大于5,则可相应地将第一预设特征编码G1和第二预设特征编码G2所对应的图像输出。
在一些实施例中,还可以在输出的预设特征编码的个数小于预设输出个数的情况下,按照汉明距离从小到大输出预设特征编码。
例如,当预设特征编码库中存在7个预设特征编码,且预设输出个数为8,此时由于全部的预设特征编码个数小于预设输出个数,则可将所述7个预设特征编码所对应的图像全部输出;当预设特征编码库中存在7个预设特征编码,且其汉明距离由小到大的排序例如为G1<G2<G3<G4<G5<G6<G7,当预设输出个数为4时,则按照汉明距离由小到大的顺序,将该设特征编码G1、G2、G3、G4所对应的图像输出。
通过计算汉明距离来实现检索过程,相较于通过计算空间距离来实现检索的方式,其计算量较低,且计算速度较快,有助于提升检索速度。
图5示出了根据本公开实施例的图像检索装置900的示例性框图。
如图5所示的图像检索装置900包括全局特征处理模块910、内容特征处理模块920、复合特征编码生成模块930和特征比较模块940,其可执行如图1所示的图像检索方法。
其中,全局特征处理模块910被配置为提取输入图像的全局特征,并基于所述全局特征得到全局特征编码。内容特征处理模块920被配置为提取输入图像的内容特征,并基于所述内容特征得到内容特征编码。复合特征编码生成模块930被配置为将全局特征编码与内容特征编码相拼接,得到输入图像的复合特征编码。特征比较模块940被配置为将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果。
所述输入图像可以是通过摄像头或摄录装置实时捕获的图像,或者也可以是预先以其他方式获得的图像。本公开实施例不受输入图像的来源及获取方式的限制。例如,可以为由道路摄像头、无人超市的监控摄像头等直接拍摄的图像,或者也可以是经过计算机预先处理后得到的图像。
所述复合特征编码与预设特征编码库中的预设特征编码的过程可以通过计算复合特征编码和预设特征编码的空间距离实现,或者也可以将其二者中对应数据进行比较判别并基于各判别结果生成最终的比较结果。在本公开实施例中,不受比较方式的限制。
通过提取输入图像中全局特征及内容特征,生成相应的全局特征编码和内容特征编码,并拼接全局特征编码和内容特征编码得到复合特征编码来实现图像检索,综合考虑到了图像的整体相似度和图像的核心内容相似度,解决了图像检索,特别是艺术画作类的图像检索时,检索结果内容相似度差及精确度低的问题,实现了高精度的检索,并进一步提高了检索效率。
其中,在全局特征处理模块910中进一步可包括:全局特征提取模块911和全局特征编码生成模块912,其可以执行如图2所示的流程,提取输入图像的全局特征,基于所述全局特征得到全局特征编码。
所述全局特征提取模块911被配置为执行如图2中步骤S201的操作,通过第一卷积神经网络提取输入图像的特征,得到全局特征。例如,可以采用深度残差网络(Resnet)模型的卷积神经网络算法、基于视觉几何组(VGG)模型的卷积神经网络算法(R-CNN)、基于Inception模型的卷积神经网络算法实现,或者采用将其与全连接网络或其他综合处理网络架构相集成所形成的复合神经网络实现。在此不对所选择的第一卷积神经网络的类型做出任何限制。
进一步地,所述全局特征编码生成模块912被配置为执行如图2中步骤S202的操作,将所述全局特征转换为具有第一预设位数的二值化特征编码,得到全局特征编码。
通过将提取得到的连续的全局特征转换为具有第一预设位数的二值化特征编码,有助于在后续的检索过程中,简化运算,提升检索速度。并进一步通过误差补偿过程,弥补了由于将连续值编码离散化所引入的误差,兼顾了速度与特征的精度。
其中,内容特征处理模块920中进一步包括:目标定位模块921、局部区域图像生成模块922、内容特征提取模块923和内容特征编码生成模块924,其可以执行如图3A所示的流程,提取输入图像的内容特征,基于所述内容特征得到内容特征编码。
所述目标定位模块921被配置为执行如图3A中步骤S3011的操作,通过第二卷积神经网络,定位输入图像中的目标,得到定位结果。所述输入图像中的目标可以为一个,或者也可以为多个,本公开的实施例不受输入图像中目标个数的限制。
所述定位结果可以以坐标向量表示,例如对于图像中的每一个目标,可以采用包括所述目标且具有最小面积的矩形区域的四个角点坐标,例如以该矩形区域的四个角点相对于输入图像的中心点的偏移量表示其定位结果。然而,根据本公开实施例,所述定位结果还可以为包围所述目标且具有最小面积的不规则封闭图形,还可以根据需要按照其他准测表示所述目标定位结果,本公开实施例不对定位结果的表示方式做出限制。
所述局部区域图像生成模块922被配置为执行如图3A中步骤S3012的操作,基于定位结果裁剪图像,得到局部区域图像,所述局部区域图像至少包括所述目标。
所述局部区域图像例如可以为矩形图像,或者基于目标的具体形状,也可以为圆形图像或不规则图像,本公开实施例不对局部区域的形状做出限制。
所述内容特征提取模块923被配置为执行如图3A中步骤S3013的操作,通过第三卷积神经网络从所述局部区域图像中提取内容特征。
所述内容特征编码生成模块924被配置为执行如图3A中步骤S3021的操作,将所述内容特征转换为具有第二预设位数的二值化特征编码,得到内容特征编码。
通过对图像中的目标定位,并基于定位结果裁剪图像,得到局部区域图像,并对局部区域图像进行进一步地特征提取,可以实现对于图像中内容特征的提取,且在内容特征提取时,能够有效地降低图像中背景区域、非目标区域的属性特征的干扰,有利于得到精度更高的内容特征。
其中,在特征比较模块940中进一步可包括:汉明距离计算模块941、图像输出模块942,其可以执行如图4所示的流程,将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果。
所述汉明距离计算模块941被配置为执行如图4中步骤S401的操作,计算复合特征编码与预设特征编码库中每个预设特征编码的汉明距离。所述图像输出模块942被配置为执行如图4中步骤S402的操作,基于所述汉明距离,确定图像检索结果。
在一些实施方式中,所述预设特征编码库包括至少一个预设特征编码,且其中:对于图像库中的预设图像,提取该图像的全局特征,基于所述全局特征得到该图像的全局特征编码;提取该图像的内容特征,基于所述内容特征得到该图像的内容特征编码;将该图像的全局特征编码与该图像的内容特征编码相拼接,得到该图像的复合特征编码,并将其作为预设特征编码。
通过计算汉明距离来实现检索过程,相较于通过计算空间距离来实现检索的方式,其计算量较低,且计算速度较快,有助于提升检索速度。
如图6所示的图像检索设备950可以实现为一个或多个专用或通用的计算机系统模块或部件,例如个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(personaldigital assistance,PDA)及任何智能便携设备。其中,图像检索设备950可以包括至少一个处理器960及存储器970。
其中,所述至少一个处理器用于执行程序指令。所述存储器970在图像检索设备950中可以以不同形式的程序储存单元以及数据储存单元存在,例如硬盘、只读存储器(ROM)、随机存取存储器(RAM),其能够用于存储处理器处理和/或执行图像检索过程中使用的各种数据文件,以及处理器所执行的可能的程序指令。虽然未在图中示出,但图像检索设备950还可以包括一个输入/输出组件,支持图像检索设备950与其他组件(如图像采集设备980)之间的输入/输出数据流。图像检索设备950也可以通过通信端口从网络发送和接收信息及数据。
在一些实施例中,所述存储器970所存储的计算机可读指令在由所述处理器960执行时,使所述图像检索设备950执行操作,所述操作包括:提取输入图像的全局特征,并基于所述全局特征得到全局特征编码;提取输入图像的内容特征,并基于所述内容特征得到内容特征编码;将全局特征编码与内容特征编码相拼接,得到输入图像的复合特征编码;将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果。
在一些实施例中,为提取输入图像的全局特征,基于所述全局特征得到全局特征编码,所述图像检索设备950执行的操作包括:通过第一卷积神经网络提取输入图像的特征,得到全局特征;以及将所述全局特征转换为第一预设位数的二值化特征编码,得到全局特征编码。
在一些实施例中,提取输入图像的内容特征包括:通过第二卷积神经网络,定位输入图像中的目标,得到定位结果;基于定位结果裁剪图像,得到局部区域图像,所述局部区域图像至少包括所述目标;通过第三卷积神经网络从所述局部区域图像中提取内容特征。
在一些实施例中,基于所述内容特征得到内容特征编码包括:将所述内容特征转换为具有第二预设位数的二值化特征编码,得到内容特征编码。
在一些实施例中,将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果的操作包括:计算复合特征编码与预设特征编码库中每个预设特征编码的汉明距离;基于所述汉明距离,确定图像检索结果。
在一些实施例中,图像检索设备950可以接收来自该图像检索设备950外部的图像采集设备所采集的图像,并对接收的图像数据执行上文描述的图像检索方法、实现上文描述的图像检索装置的功能。
尽管在图6中,处理器960、存储器970呈现为单独的模块,本领域技术人员可以理解,上述设备模块可以被实现为单独的硬件设备,也可以被集成为一个或多个硬件设备。只要能够实现本公开描述的原理,不同的硬件设备的具体实现方式不应作为限制本公开保护范围的因素。
根据本公开的另一方面,还提供了一种非易失性的计算机可读存储介质,其上存储有计算机可读的指令,当利用计算机执行所述指令时可以执行如前所述的方法。
技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如:从图像检索设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台,或其他实现系统的计算机环境,或与提供图像检索所需要的信息相关的类似功能的系统。因此,另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质,其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。
本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。
Claims (15)
1.一种图像检索方法,包括:
提取输入图像的全局特征,并基于所述全局特征得到全局特征编码;
提取输入图像的内容特征,并基于所述内容特征得到内容特征编码;
将全局特征编码与内容特征编码相拼接,得到输入图像的复合特征编码;
将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果。
2.如权利要求1所述的图像检索方法,其中,提取输入图像的全局特征,基于所述全局特征得到全局特征编码包括:
通过第一卷积神经网络提取输入图像的特征,得到全局特征;
将所述全局特征转换为具有第一预设位数的二值化特征编码,得到全局特征编码。
3.如权利要求1所述的图像检索方法,其中,提取输入图像的内容特征,并基于所述内容特征得到内容特征编码包括:
通过第二卷积神经网络,定位输入图像中的目标,得到定位结果;
基于定位结果裁剪图像,得到局部区域图像,所述局部区域图像至少包括所述目标;
通过第三卷积神经网络从所述局部区域图像中提取内容特征;
将所述内容特征转换为具有第二预设位数的二值化特征编码,得到内容特征编码。
4.如权利要求1所述的图像检索方法,其中,将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果包括:
计算复合特征编码与预设特征编码库中每个预设特征编码的汉明距离;以及
基于所述汉明距离,确定图像检索结果。
5.如权利要求1所述的图像检索方法,所述预设特征编码库包括至少一个预设特征编码,且其中:
对于图像库中的预设图像,提取该图像的全局特征,基于所述全局特征得到该图像的全局特征编码;
提取该图像的内容特征,基于所述内容特征得到该图像的内容特征编码;
将该图像的全局特征编码与该图像的内容特征编码相拼接,得到该图像的复合特征编码,并将其作为预设特征编码。
6.如权利要求2中所述的图像检索方法,其中,通过第一卷积神经网络提取输入图像的特征并得到全局特征之前还包括:
基于图片库中的预设图像,生成样本集;
通过样本集训练所述第一卷积神经网络;
将训练后的第一卷积神经网络保存。
7.如权利要求3中所述的图像检索方法,其中,通过第二卷积神经网络,定位输入图像中的目标,得到定位结果之前还包括:
基于图片库中的预设图像,生成样本集;
通过样本集训练所述第二卷积神经网络;
将训练后的第二卷积神经网络保存。
8.如权利要求4中所述的图像检索方法,其中,通过第三卷积神经网络提取局部区域图像的特征,得到内容特征之前还包括:
基于图片库中的预设图像,生成样本集;
通过样本集训练所述第三卷积神经网络;
将训练后的第三卷积神经网络保存。
9.一种图像检索装置,包括:
全局特征处理模块,被配置为提取输入图像的全局特征,并基于所述全局特征得到全局特征编码;
内容特征处理模块,被配置为提取输入图像的内容特征,并基于所述内容特征得到内容特征编码;
复合特征编码生成模块,被配置为将全局特征编码与内容特征编码相拼接,得到输入图像的复合特征编码;
特征比较模块,被配置为将所述复合特征编码与预设特征编码库中的预设特征编码相比较,得到图像检索结果。
10.如权利要求9所述的图像检索装置,其中,所述全局特征处理模块包括:
全局特征提取模块,被配置为通过第一卷积神经网络提取输入图像的特征,得到全局特征;
全局特征编码生成模块,被配置为将所述全局特征转换为具有第一预设位数的二值化特征编码,得到全局特征编码。
11.如权利要求9所述的图像检索装置,其中,所述内容特征处理模块包括:
目标定位模块,被配置为通过第二卷积神经网络,定位输入图像中的目标,得到定位结果;
局部区域图像生成模块,被配置为基于定位结果裁剪图像,得到局部区域图像,所述局部区域图像至少包括所述目标;
内容特征提取模块,被配置为通过第三卷积神经网络从所述局部区域图像中提取内容特征;
内容特征编码生成模块,被配置为将所述内容特征转换为具有第二预设位数的二值化特征编码,得到内容特征编码。
12.如权利要求9所述的图像检索装置,其中,所述特征比较模块包括:
汉明距离计算模块,被配置为计算复合特征编码与预设特征编码库中每个预设特征编码的汉明距离;以及
图像输出模块,被配置为基于所述汉明距离,确定图像检索结果。
13.如权利要求9所述的图像检索装置,所述预设特征编码库包括至少一个预设特征编码,且其中:
对于图像库中的预设图像,提取该图像的全局特征,基于所述全局特征得到该图像的全局特征编码;
提取该图像的内容特征,基于所述内容特征得到该图像的内容特征编码;
将该图像的全局特征编码与该图像的内容特征编码相拼接,得到该图像的复合特征编码,并将其作为预设特征编码。
14.一种图像检索设备,其中所述设备包括处理器和存储器,所述存储器包含计算机可读指令,所述计算机可读指令在由所述处理器执行时使所述图像检索设备执行权利要求1-8中任意一项所述的方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机可读的指令,当利用计算机执行所述指令时执行上述权利要求1-8中任意一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910308711.8A CN111831844A (zh) | 2019-04-17 | 2019-04-17 | 图像检索方法、图像检索装置、图像检索设备及介质 |
US16/561,858 US11132392B2 (en) | 2019-04-17 | 2019-09-05 | Image retrieval method, image retrieval apparatus, image retrieval device and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910308711.8A CN111831844A (zh) | 2019-04-17 | 2019-04-17 | 图像检索方法、图像检索装置、图像检索设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111831844A true CN111831844A (zh) | 2020-10-27 |
Family
ID=72832512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910308711.8A Pending CN111831844A (zh) | 2019-04-17 | 2019-04-17 | 图像检索方法、图像检索装置、图像检索设备及介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11132392B2 (zh) |
CN (1) | CN111831844A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051417A (zh) * | 2021-04-20 | 2021-06-29 | 南京理工大学 | 一种细粒度图像检索方法及系统 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753181A (zh) * | 2019-03-28 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 基于图像的搜索方法、装置、服务器、客户端及介质 |
JP7447417B2 (ja) * | 2019-09-27 | 2024-03-12 | ソニーグループ株式会社 | 画像処理装置、画像処理方法、プログラム |
CN112966137B (zh) * | 2021-01-27 | 2022-05-31 | 中国电子进出口有限公司 | 基于全局与局部特征重排的图像检索方法与系统 |
CN112507982B (zh) * | 2021-02-02 | 2021-05-07 | 成都东方天呈智能科技有限公司 | 一种人脸特征码的跨模型转换系统及方法 |
US11809520B1 (en) * | 2021-03-29 | 2023-11-07 | Amazon Technologies, Inc. | Localized visual similarity |
CN113177133B (zh) * | 2021-04-23 | 2024-03-29 | 深圳依时货拉拉科技有限公司 | 一种图像检索方法、装置、设备及存储介质 |
CN113780304B (zh) * | 2021-08-09 | 2023-12-05 | 国网安徽省电力有限公司超高压分公司 | 基于神经网络的变电站设备图像检索方法及系统 |
CN118170935A (zh) * | 2022-12-08 | 2024-06-11 | 华为技术有限公司 | 一种图像检索的方法、系统以及装置 |
CN117725252A (zh) * | 2023-11-16 | 2024-03-19 | 宁波大学 | 一种可解释性深度网络的卫星云图多标签哈希检索方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8369580B2 (en) * | 2007-09-11 | 2013-02-05 | Priv Id B.V. | Method for transforming a feature vector |
CN103714122A (zh) * | 2013-12-06 | 2014-04-09 | 安徽大学 | 一种基于局部分块二进制编码特征的图像检索方法 |
US9836481B2 (en) * | 2014-03-31 | 2017-12-05 | Paypal, Inc. | Image-based retrieval and searching |
US10089580B2 (en) * | 2014-08-11 | 2018-10-02 | Microsoft Technology Licensing, Llc | Generating and using a knowledge-enhanced model |
US9734436B2 (en) * | 2015-06-05 | 2017-08-15 | At&T Intellectual Property I, L.P. | Hash codes for images |
CN106548192B (zh) * | 2016-09-23 | 2019-08-09 | 北京市商汤科技开发有限公司 | 基于神经网络的图像处理方法、装置和电子设备 |
US10860898B2 (en) * | 2016-10-16 | 2020-12-08 | Ebay Inc. | Image analysis and prediction based visual search |
WO2018106663A1 (en) * | 2016-12-06 | 2018-06-14 | Ebay Inc. | Anchored search |
US10109275B2 (en) * | 2016-12-19 | 2018-10-23 | Asapp, Inc. | Word hash language model |
US10521691B2 (en) * | 2017-03-31 | 2019-12-31 | Ebay Inc. | Saliency-based object counting and localization |
CN107239565B (zh) * | 2017-06-14 | 2020-03-24 | 电子科技大学 | 一种基于显著性区域的图像检索方法 |
CN107480261B (zh) | 2017-08-16 | 2020-06-16 | 上海荷福人工智能科技(集团)有限公司 | 一种基于深度学习细粒度人脸图像快速检索方法 |
CN107679250B (zh) | 2017-11-01 | 2020-12-01 | 浙江工业大学 | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 |
CN108334901A (zh) | 2018-01-30 | 2018-07-27 | 福州大学 | 一种结合显著性区域的卷积神经网络的花卉图像分类方法 |
-
2019
- 2019-04-17 CN CN201910308711.8A patent/CN111831844A/zh active Pending
- 2019-09-05 US US16/561,858 patent/US11132392B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051417A (zh) * | 2021-04-20 | 2021-06-29 | 南京理工大学 | 一种细粒度图像检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20200334287A1 (en) | 2020-10-22 |
US11132392B2 (en) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111831844A (zh) | 图像检索方法、图像检索装置、图像检索设备及介质 | |
Xiao et al. | Image splicing forgery detection combining coarse to refined convolutional neural network and adaptive clustering | |
Chen et al. | Saliency detection via the improved hierarchical principal component analysis method | |
WO2022193335A1 (zh) | 点云数据处理方法、装置、计算机设备和存储介质 | |
CN109117801A (zh) | 人脸识别的方法、装置、终端及计算机可读存储介质 | |
US20160104056A1 (en) | Spatial pyramid pooling networks for image processing | |
Kadam et al. | [Retracted] Efficient Approach towards Detection and Identification of Copy Move and Image Splicing Forgeries Using Mask R‐CNN with MobileNet V1 | |
CN112435193B (zh) | 一种点云数据去噪的方法、装置、存储介质和电子设备 | |
CN113869282B (zh) | 人脸识别方法、超分模型训练方法及相关设备 | |
CN115311730B (zh) | 一种人脸关键点的检测方法、系统和电子设备 | |
CN107301643B (zh) | 基于鲁棒稀疏表示与拉普拉斯正则项的显著目标检测方法 | |
CN115630236B (zh) | 无源遥感影像的全球快速检索定位方法、存储介质及设备 | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN112529068B (zh) | 一种多视图图像分类方法、系统、计算机设备和存储介质 | |
CN112328715A (zh) | 视觉定位方法及相关模型的训练方法及相关装置、设备 | |
CN110766708A (zh) | 基于轮廓相似度的图像比较方法 | |
CN107169090A (zh) | 一种利用内容环绕信息提取图像表征的特定对象检索方法 | |
CN116503399A (zh) | 基于yolo-afps的绝缘子污闪检测方法 | |
CN110717405B (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
CN110163095B (zh) | 回环检测方法、回环检测装置及终端设备 | |
Liu et al. | Iris recognition in visible spectrum based on multi-layer analogous convolution and collaborative representation | |
CN114926734A (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN112734772B (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
Fu et al. | A pixel pair–based encoding pattern for stereo matching via an adaptively weighted cost | |
CN114820755B (zh) | 一种深度图估计方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |