CN112559781A - 一种图像检索系统和方法 - Google Patents
一种图像检索系统和方法 Download PDFInfo
- Publication number
- CN112559781A CN112559781A CN202011451941.9A CN202011451941A CN112559781A CN 112559781 A CN112559781 A CN 112559781A CN 202011451941 A CN202011451941 A CN 202011451941A CN 112559781 A CN112559781 A CN 112559781A
- Authority
- CN
- China
- Prior art keywords
- image
- hash
- module
- retrieval
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种图像检索系统和方法。其中,图像检索系统包含三个模块,分别为语义分割模块、哈希编码模块和哈希检索模块。在语义分割模块中将注意力机制结合到语义分割网络U‑Net上,以此实现对图像的重要特征信息的提取,有效避免了对图像局部重要特征提取不完全对结果造成的影响,提高图像特征提取效果。哈希编码模块采用基于卷积神经网络的哈希算法进行哈希编码,以此对标签的相似度进行学习并自我修正,进而能够更好的体现图像特征信息的编码。哈希检索模块依据汉明距离检索到与候选图像最相似的图像,以实现图像数据的自动检索,对图像的语义信息和相似度比对也有更好的表现,且能够在有效减少特征信息利用不完全的问题的同时,提高检索精度。
Description
技术领域
本发明涉及图像检索技术领域,特别是涉及一种图像检索系统和方法。
背景技术
近年来,随着互联网的普及与数字化多媒体技术和大数据技术的迅速发展,数字图像已经广泛应用于工业、医疗、教育、媒体和社会生活中的方方面面。如此广泛地应用场景下,图像数据出现了指数级的增长,产生了各式各样的图像数据库。如何方便、快捷、准确地从大量图像中检索到用户需要的图像,进而对图像数据进行更好地应用,已经成了当前的热点问题。
传统的图像数据检索主要依赖于关键字和文本信息,即对图像文件建立关键字和文本信息索引,并对存储路径做标记,以此来建立图像之间的联系。但是它的缺点在于以下几点:首先因为人思想的主观性,不同人对同一张图像的描述也不同,导致出现图像语义信息不明确的问题;其次随着数据量的增大,需要大量的人力成本去做标记和注释;并且不能进行相似性检索,无法对图像进行比对研究。伴随技术的发展,出现了基于内容的图像检索方法,此类方法利用图像的颜色、形状、纹理信息来进行图像检索,但是依然存在对图像局部特征利用不完整、图像实际语义信息存在偏差以及相似度比对不准确等问题。
图像检索技术在许多行业都发挥着重要的作用,当前对于图像检索技术的应用主要集中于传统的图像检索方法。在医学领域,影像科医师在阅片时可以在既往病例中检索与当前患者病理性状类似的病例,进而根据以往的经验认知辅助判断,但由于医学成像的特殊性和专业性,传统的图像检索方法并不能检索到最相似的图像;在教育领域,根据心理学和脑认知学研究,图像信息比文字信息更容易让学生理解吸收,中小学科学实验课程里在某些存在危险不适宜演示,或者学校不具备实验条件的情况下,根据实验结果检索出大量的相关图像和视频信息有助于学生对实验过程和结果更充分理解;婴幼儿早教幼教课程中,为了让幼童对知识和事物有更多感性认知,教师经常要通过大量相关图像辅助教学。比如对于“猫”这个概念,因为猫有不同颜色与品种,图像也有卡通、静态、动态等多种状态、且采集得到的实体图像上猫可能存在玩耍、休息、进食等多种状态,如果只通过文字和简单的图像并不足以让幼童完全理解概念。反之,利用图像检索技术,对于各种状态的图像,都能从大量数据里检索到相似度很高的图像辅助教学,则教学的效率会更高。但当前的图像检索技术和方法,并不足以完全满足用户的需求,在实际应用中存在着以下缺陷:首先是当前图像检索技术并不能完全实现自动检索,会增加使用者的工作量;其次当前图像检索技术主要依据图像的颜色、形状与纹理进行特征提取,对特征区域的提取和最终结果反馈效果较差,检索结果不准确,甚至可能出现误导,例如图片里通常会存在背景和环境信息,如果背景和环境信息的颜色比较丰富鲜艳,主体事物颜色形状比较简单,则可能出现将背景和环境当成主体特征的现象;最后当前图像检索技术对细节信息不敏感,仅仅依靠颜色和外观形状为主要依据进行判断,例如将冬天穿白色棉服的人群和雪人、北极熊等混为一谈,当作类似的特征进行识别和反馈,和用户的想法和初衷存在不符甚至背离的情况。
哈希算法凭借着其低计算成本和高应用效率被广泛应用于图像检索工作中,它是对传统图像检索方法的一种改进。哈希算法的核心思想即将高维度的图像特征转化为低维度的哈希编码,用哈希编码表示图像中的特征信息,进而通过对哈希编码的比对来反应图像之间的相似情况,哈希编码相似性越高,图像之间的相似程度越高。哈希编码可以很好地保存图像的特征信息,并且哈希编码的比对是在字符串层面的操作,计算成本和误差比图像之间的特征比对减少很多,相似性也更好体现。但是传统哈希算法存在以下几点问题:首先是对图像局部信息和重点特征并不能很好地学习和映射,其次传统哈希方法依赖于哈希函数的设定,如果函数设定不当,所得到的哈希编码将无法体现图像信息。
因此,提供一种能够在有效减少特征信息利用不完全问题的同时,提高检索准确度的图像检索方法或系统,是本领域亟待解决的一个技术难题。
发明内容
本发明的目的是提供一种图像检索系统和方法能够在有效减少特征信息利用不完全问题的同时,提高检索准确度。
为实现上述目的,本发明提供了如下方案:
一种图像检索系统,包括:
语义分割模块,用于基于注意力机制结合U-Net网络的网络结构根据查询图像得到语义分割后的图像;所述基于注意力机制结合U-Net网络的网络结构为在U-Net网络结构的扩展路径中引入注意力机制,并采用批量随机梯度下降的方法将所述U-Net网络结构中的最后一层卷积层的激活函数修改为sigmoid函数的网络结构;
哈希编码模块,与所述语义分割模块连接,用于采用基于卷积神经网络的深度哈希算法根据所述语义分割后的图像生成与所述语义分割后的图像对应的哈希编码,记为第一哈希编码;
哈希存储模块,与所述哈希编码模块连接,用于按照图像分类存储所有图像的哈希编码;所述图像分类为按照图像语义识别得到的分类;其中,每类图像对应的哈希编码以一个哈希编码数据集进行存储;每一所述哈希编码集包括多个第二哈希编码;
哈希检索模块,分别与所述哈希编码模块和所述哈希存储模块连接,用于根据所述查询图像的语义分割结果调取所述哈希编码数据集,并确定所述第一哈希编码和调取得到的哈希编码数据集中所有第二哈希编码间的汉明距离,根据所述汉明距离确定图像检索结果。
优选地,所述哈希编码模块包括:
分解单元,与所述语义分割模块连接,用于映射得到所述语义分割后的图像的相似度矩阵;
哈希编码确定单元,与所述分解单元连接,用于根据所述相似度矩阵,利用卷积神经网络生成与所述语义分割后的图像对应的哈希编码。
优选地,所述哈希检索模块包括:
查询单元,分别与所述哈希编码模块和所述哈希存储模块连接,用于根据所述查询图像的语义分割结果调取所述哈希编码数据集;
汉明距离确定单元,与所述查询单元连接,用于确定所述第一哈希编码和调取得到的哈希编码数据集中所有第二哈希编码间的汉明距离;
图像检索结果确定单元,与所述汉明距离确定单元连接,用于将所述汉明距离进行降序排列,得到所述汉明距离中的最小值;所述最小值对应的图像即为检索得到的图像。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的图像检索系统包含三个模块,分别为语义分割模块、哈希编码模块和哈希检索模块。在语义分割模块,本发明将注意力机制结合到语义分割网络U-Net上,以此实现对图像的重要特征信息的提取,有效避免了对图像局部重要特征提取不完全对结果造成的影响,将原图像转换为特征信息更加明显的图像。之后将语义分割模块的输出作为哈希编码模块的输入,采用基于卷积神经网络的哈希算法进行哈希编码,以此将高维度的特征转化为低维度的哈希编码,并约束最后一层的输出为二值化编码,该编码可以对标签的相似度进行学习并进行自我修正,最后输出更能体现图像特征信息的编码。哈希检索模块以哈希编码模块生成的编码为输入,依据汉明距离对生成的哈希编码进行比较和排序,将距离最近的哈希编码及其对应的图像输出,从而检索到与候选图像最相似的图像,且根据汉明距离的长短排序,也可以检索到其他相似的图像。对比传统图像检索方法,本发明提供的技术方案可以实现图像数据的自动检索,对图像的语义信息和相似度比对也有更好的表现,且能够在有效减少特征信息利用不完全的问题的同时,提高检索精度。
对应于上述提供的图像检索系统,本发明提供了一种图像检索方法,包括:
基于注意力机制结合U-Net网络的网络结构根据查询图像得到语义分割后的图像;所述基于注意力机制结合U-Net网络的网络结构为在U-Net网络结构的扩展路径中引入注意力机制,并采用批量随机梯度下降的方法将所述U-Net网络结构中的最后一层卷积层的激活函数修改为sigmoid函数的网络结构;
采用基于卷积神经网络的深度哈希算法根据所述语义分割后的图像生成与所述语义分割后的图像对应的哈希编码,记为第一哈希编码;
按照图像分类存储所有图像的哈希编码;所述图像分类为按照图像语义识别得到的分类;其中,每类图像对应的哈希编码以一个哈希编码数据集进行存储;每一所述哈希编码集包括多个第二哈希编码;
根据所述查询图像的语义分割结果调取所述哈希编码数据集;
确定所述第一哈希编码和调取得到的哈希编码数据集中所有第二哈希编码间的汉明距离;
根据所述汉明距离确定图像检索结果。
优选地,所述采用基于卷积神经网络的深度哈希算法根据所述语义分割后的图像生成与所述语义分割后的图像对应的哈希编码,记为第一哈希编码,具体包括:
映射得到所述语义分割后的图像的相似度矩阵;
根据所述相似度矩阵,利用卷积神经网络生成与所述语义分割后的图像对应的哈希编码。
优选地,所述根据所述汉明距离确定图像检索结果,具体包括:
将所述汉明距离进行降序排列,得到所述汉明距离中的最小值;所述最小值对应的图像即为检索得到的图像。
因本发明提供的图像检索方法与上述图像检索系统达到的技术效果相同,在此不再进行赘述。
此外,本发明还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序;其中,所述计算机程序被设置为运行时执行上述的图像检索方法。
优选地,所述存储介质为固态存储介质或非固态存储介质。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的图像检索系统的结构示意图;
图2为本发明实施例中注意力机制结合U-Net网络的网络结构的结构示意图;
图3为本发明实施例中注意力机制作用方式流程图;
图4为本发明实施例中注意力机制可视化展现图;
图5为本发明实施例中哈希编码模块的处理流程图;
图6为汉明距离实例图;
图7为语义分割模块对其他哈希方法的促进作用示意图;
图8为本发明提供的图像检索方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种图像检索系统和方法能够在有效减少特征信息利用不完全问题的同时,提高检索准确度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的图像检索系统的结构示意图,如图1所示,一种图像检索系统,包括:语义分割模块1、哈希编码模块2、哈希存储模块3和哈希检索模块4。
其中,语义分割模块1用于基于注意力机制结合U-Net网络的网络结构根据查询图像得到语义分割后的图像。基于注意力机制结合U-Net网络的网络结构为在U-Net网络结构的扩展路径中引入注意力机制,并采用批量随机梯度下降的方法将U-Net网络结构中的最后一层卷积层的激活函数修改为sigmoid函数的网络结构。
语义分割模块1的输入为原图像,将原图像输入结合注意力机制的U-Net网络,根据图像的信息标注来训练网络,训练后得到的模型用于图像语义分割。将进行语义分割后的图像作为下一模块(哈希编码模块2)的输入。
具体的,语义分割模块1将注意力机制引入经典语义分割网络U-Net中,主要对图像中的重要特征进行分割,注意力机制的引入使得模型方法对图像中细节信息有更加充分的提取。注意力机制(Attention Gate)借鉴了人类视觉所特有的大脑信号处理方式,通过快速扫描全局图像,获得需要重点关注的目标区域,称为注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。语义分割模块1中的具体步骤如下:
步骤1:将原图像作为语义分割模块1的输入,以U-Net的基本结构为主要框架,网络中共有4个最大池化层以及4个反卷积层。注意力机制(Attention Gate)的主要引入位置如图2所示。
步骤2:如图2所示的网络结构可以理解为一个“U”型结构,输入图像经过左半部分的收缩路径,经过该部分的卷积和池化操作后,网络即可通过获取到图像中所包含的语义、上下文信息及其代表的特征。其中,该部分每层由两个3*3的卷积层以及一个步长设置为2的最大池化层组成。卷积层的激活函数为ReLU。
步骤3:经过收缩路径后,输入内容所代表的特征进入图2右侧的扩展路径,每层先进行反卷积以拼接收缩路径对应层的特征图,之后特征通过两个3*3的卷积层。在该部分激活函数采用ReLU。扩展路径在上采样时可以与下采样的特征图相结合,从而可以有效保存语义以及局部信息,减少大量训练过程中的参数在扩展路径中引入注意力机制。注意力机制的作用方式如图3所示,输入特征(xl)按照学习得到的注意力系数(α)进行缩放,根据上下文信息得到的通路信号(g)来判断选择的空间区域,经过激活函数后利用三线性插值进行重采样,最后得到经过注意力机制作用的特征()。图4可以直观地对注意力机制的作用进行展现。其中,图3中H、W分别代表图像的高度及宽度,D代表图像的深度,即图像存储每个像素所用的位数,F代表对应卷积层每个卷积核的大小,ψ代表计算过程中线性变换卷积核的大小。
步骤4:特征经过每层都引入注意力机制的扩展路径,在最后一个卷积层后,输出的图像为经过语义分割包含重点特征信息的图像。输出图像的特点是特征信息更完整,细节信息更明确,重点特征得到的权重更大。在该过程中采用批量随机梯度下降的方法将最后一层的激活函数改为sigmoid函数,该模块损失函数b(y)定义为BCE-Loss,定义如下:
通过该语义分割模块,即可将输入的原图像输出为结合了注意力机制,包含了图像中重点细节特征信息的图像,作为下一模块的输入。
哈希编码模块2与语义分割模块1连接,用于采用基于卷积神经网络的深度哈希算法根据语义分割后的图像生成与语义分割后的图像对应的哈希编码,记为第一哈希编码。
哈希编码模块2以语义分割模块1生成的相关特征为输入,利用基于卷积神经网络的深度哈希算法进行有监督的哈希训练,训练所得模型用于生成图像对应的哈希编码,进而实现高维度特征到二值化哈希编码的映射。此模块的输出的哈希编码用于下一模块(哈希存储模块3和哈希检索模块4)的输入。
具体的,哈希编码模块2将语义分割后提取的特征图像作为输入。采用基于卷积神经网络的深度哈希网络,实现对标记信息的充分利用和学习,将高维度的特征信息映射为低维度的哈希编码,用哈希编码表示图像的特征信息,作为哈希存储模块3和哈希检索模块4的输入,进行相似性比对和排序。哈希编码模块2中的具体步骤如下:
将语义分割模块1提取的特征图像作为哈希编码模块2的输入,对特征图像所映射得到的相似度矩阵(矩阵中每个元素指示对应的两个样本是否相似)进行分解,利用卷积神经网络对其结果进行拟合。将成对的图像(候选图像和待检索图像为一对)输入权值共享的卷积神经网络,卷积核的规模设置为3*3,池化层的最大步长为2。经过卷积池化操作后,在最后一个全连接层输出哈希编码。其中,本发明限制最后一个全连接层的输出为二值化编码,该编码可以对标签的相似度进行学习并进行自我修正,学习得到的图像可以反作用于二值码,最后输出更能体现图像特征信息的编码。该部分模块示意图如图5所示。
该部分的损失函数定义如下:
由于本部分输出的是二值化的哈希编码,保证生成的哈希编码中0和1数量尽可能相等可以使得哈希函数分布均匀,因此定义该部分损失函数lh(x),表示对于任意样本x,其对应哈希函数h(x),因此编码中0和1的差异造成的损失为:
lh(x)=|∑hi|。
相似的图像所生成的哈希编码应尽可能相同,定义该部分损失函数为d(i,j),表示成对图像样本(i,j)汉明距离除以哈希编码长度与余弦相似度之和:
其中hmd表示(i,j)之间的汉明距离,n表示哈希编码的长度,cosd表示余弦相似度,li、hi分别表示第i张图像的标签向量以及哈希编码。
故总的损失函数即为上述两部分损失函数之和:
哈希存储模块3与哈希编码模块2连接,用于按照图像分类存储所有图像的哈希编码。图像分类为按照图像语义识别得到的分类。其中,每类图像对应的哈希编码以一个哈希编码数据集进行存储。每一哈希编码集包括多个第二哈希编码。
哈希检索模块4分别与哈希编码模块2和哈希存储模块3连接,用于根据查询图像的语义分割结果调取哈希编码数据集,并确定第一哈希编码和调取得到的哈希编码数据集中所有第二哈希编码间的汉明距离,根据汉明距离确定图像检索结果。
哈希检索模块4以上一步生成的哈希编码为输入,计算候选图像和待检索图像所对应哈希编码的汉明距离,根据汉明距离计算结果的大小由小到大进行排排序,输出待检索图像中与候选图像哈希编码汉明距离最小的哈希编码和对应的图像,此图像即为最终的结果输出,可以认为是最相似的检索图像,且排序后的其余哈希编码和对应图像也可以体现与候选图像的相似程度。
具体的,哈希检索模块4主要进行相似度比对和排序,最终输出与候选图像和其哈希编码最相似的哈希编码和所对应的图像,并且排序后的其余结果也可以反映其余图像的相似程度。科研人员通常利用“距离”的概念来计算图像的相似程度,如欧氏距离、马氏距离等。图像之间的距离越小,相似程度越高。之前哈希编码模块2已经将图像的特征信息转换为对应的哈希编码,哈希检索模块4可以直接用哈希编码之间的距离来表示图像的相似程度。
哈希检索模块4主要判断依据来源于汉明距离的计算,汉明距离可以表示两个(相同长度bit)字对应位不同的数量,通常用于计算哈希编码的距离,汉明距离计算结果越小,即代表哈希编码越相似。哈希检索模块4中的具体步骤如下:
步骤1:将哈希编码模块2生成的哈希编码作为输入,对于成对的哈希编码(查询图像和待检索图像所对应的哈希编码)进行编码字符的汉明距离运算。如图6所示,假设查询图像x1的哈希编码为[101011],待检索图像x2和x3对应的哈希码为[110101][100001],则x1、x2对应位bit码不同的有4位,即x1、x2的汉明距离为4。x1、x3对应位bit码不同的有2位,即x1、x3的汉明距离为2,就可以认为x1、x3是更加相似的哈希编码,即x1、x3所对应的图像是相似度更高的图像。
步骤2:比对同类别下所有待检索图像和查询图像的相似度,进行对应哈希编码汉明距离的计算,按照汉明距离从小到大进行排序,汉明距离计算结果。最小的汉明距离所对应的图像为哈希检索模块4的输出,即为与查询图像相似度最高的图像。对于剩余计算结果,根据汉明距离的大小排序,也能体现所对应图像与查询图像的相似程度。
基于本发明公开的上述内容,优选地,上述哈希编码模块2包括:
分解单元,与语义分割模块连接,用于映射得到语义分割后的图像的相似度矩阵。
哈希编码确定单元,与分解单元连接,用于根据相似度矩阵,利用卷积神经网络生成与语义分割后的图像对应的哈希编码。
优选地,哈希检索模块4包括:查询单元、汉明距离确定单元和图像检索结果确定单元。
其中,查询单元分别与哈希编码模块和哈希存储模块连接,用于根据查询图像的语义分割结果调取哈希编码数据集。
汉明距离确定单元与查询单元连接,用于确定第一哈希编码和调取得到的哈希编码数据集中所有第二哈希编码间的汉明距离。
图像检索结果确定单元与汉明距离确定单元连接,用于将汉明距离进行降序排列,得到汉明距离中的最小值,与最小值对应的图像即为检索得到的图像。
下面基于实验的方式,对本发明上述提供的技术方案的优越性进行说明。
实验过程中,本发明采用的图像数据采集为市场上主流的婴幼儿早教课程教材,共有3000张,统一处理为32*32的彩色图像,一共包含十个类别的RGB彩色图片。十个类别为:飞机(airplane)、汽车(automobile)、火车(train)、猫(cat)、房屋(house)、狗(dog)、鸟类(bird)、马(horse)、船(ship)和电脑(computer)。每类300张图,有2000张用于训练,构成了5个训练批,每一批500张图。另外500张用于测试,单独构成一批。测试批的数据里,取自10类中的每一类,每一类随机取50张。抽剩下的就随机排列组成了训练批。
以平均准确率为评估指标,对比的图像检索方法包括传统的图像检索方法,传统的哈希算法以及部分基于深度学习的哈希算法,基于上述数据集得到的实验结果如表1所示。根据这一实验结果能明显得到:哈希编码长度在72位之前时,各种方法的平均准确率随着哈希编码长度的增加而增加,之后达到基本稳定的状态。本发明所提出的方法和其他方法相比,在不同长度的哈希编码中准确率更高,并且,当哈希编码长度达到84位时,平均准确率最高,为0.833。并且本发明中的语义分割模块1能对别的哈希检索方法起到促进作用,如图7所示。
表1:不同编码长度下各种方法的平均准确度
综上,本发明提供的图像检索系统,通过对输入图像进行语义分割,生成分割后的图像能更好地表现特征信息,之后将得到的结果作为哈希编码模块的输入,输出对应的哈希编码,最后经过哈希检索模块,利用汉明距离作为排序的标准输出最终的检索结果。本发明能够实现图像的自动检索,并且有效改善传统图像检索方法存在的相似度比对效果差,不能充分利用图像重点特征信息等缺陷。实验表明,本方案的准确率达到了83.3%,高于其他哈希检索方法,有效实现了检索精度的提升,并且将本方案的语义分割模块引入其他哈希检索方法,也能得到正反馈的结果。
对应于上述提供的图像检索系统,本发明提供了一种图像检索方法,如图8所示,该图像检索方法包括:
步骤800:基于注意力机制结合U-Net网络的网络结构根据查询图像得到语义分割后的图像。基于注意力机制结合U-Net网络的网络结构为在U-Net网络结构的扩展路径中引入注意力机制,并采用批量随机梯度下降的方法将U-Net网络结构中的最后一层卷积层的激活函数修改为sigmoid函数的网络结构。
步骤810:采用基于卷积神经网络的深度哈希算法根据语义分割后的图像生成与语义分割后的图像对应的哈希编码,记为第一哈希编码。
步骤820:按照图像分类存储所有图像的哈希编码。图像分类为按照图像语义识别得到的分类。其中,每类图像对应的哈希编码以一个哈希编码数据集进行存储。每一哈希编码集包括多个第二哈希编码。
步骤830:根据查询图像的语义分割结果调取哈希编码数据集。
步骤840:确定第一哈希编码和调取得到的哈希编码数据集中所有第二哈希编码间的汉明距离。
步骤850:根据汉明距离确定图像检索结果。
优选地,上述步骤800具体包括:
映射得到语义分割后的图像的相似度矩阵。
根据相似度矩阵,利用卷积神经网络生成与语义分割后的图像对应的哈希编码。
优选地,上述步骤850具体包括:
将汉明距离进行降序排列,得到汉明距离中的最小值,与最小值对应的图像即为检索得到的图像。
因本发明提供的图像检索方法与上述提供的图像检索系统的所达到的技术效果完全相同,因此在此不再进行赘述。
此外,本发明还提供了一种计算机可读的存储介质,存储介质中存储有计算机程序。其中,计算机程序被设置为运行时执行上述的图像检索方法。
优选地,存储介质为固态存储介质或非固态存储介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种图像检索系统,其特征在于,包括:
语义分割模块,用于基于注意力机制结合U-Net网络的网络结构根据查询图像得到语义分割后的图像;所述基于注意力机制结合U-Net网络的网络结构为在U-Net网络结构的扩展路径中引入注意力机制,并采用批量随机梯度下降的方法将所述U-Net网络结构中的最后一层卷积层的激活函数修改为sigmoid函数的网络结构;
哈希编码模块,与所述语义分割模块连接,用于采用基于卷积神经网络的深度哈希算法根据所述语义分割后的图像生成与所述语义分割后的图像对应的哈希编码,记为第一哈希编码;
哈希存储模块,与所述哈希编码模块连接,用于按照图像分类存储所有图像的哈希编码;所述图像分类为按照图像语义识别得到的分类;其中,每类图像对应的哈希编码以一个哈希编码数据集进行存储;每一所述哈希编码集包括多个第二哈希编码;
哈希检索模块,分别与所述哈希编码模块和所述哈希存储模块连接,用于根据所述查询图像的语义分割结果调取所述哈希编码数据集,并确定所述第一哈希编码和调取得到的哈希编码数据集中所有第二哈希编码间的汉明距离,根据所述汉明距离确定图像检索结果。
2.根据权利要求1所述的图像检索系统,其特征在于,所述哈希编码模块包括:
分解单元,与所述语义分割模块连接,用于映射得到所述语义分割后的图像的相似度矩阵;
哈希编码确定单元,与所述分解单元连接,用于根据所述相似度矩阵,利用卷积神经网络生成与所述语义分割后的图像对应的哈希编码。
3.根据权利要求1所述的图像检索系统,其特征在于,所述哈希检索模块包括:
查询单元,分别与所述哈希编码模块和所述哈希存储模块连接,用于根据所述查询图像的语义分割结果调取所述哈希编码数据集;
汉明距离确定单元,与所述查询单元连接,用于确定所述第一哈希编码和调取得到的哈希编码数据集中所有第二哈希编码间的汉明距离;
图像检索结果确定单元,与所述汉明距离确定单元连接,用于将所述汉明距离进行降序排列,得到所述汉明距离中的最小值;所述最小值对应的图像即为检索得到的图像。
4.一种图像检索方法,其特征在于,包括:
基于注意力机制结合U-Net网络的网络结构根据查询图像得到语义分割后的图像;所述基于注意力机制结合U-Net网络的网络结构为在U-Net网络结构的扩展路径中引入注意力机制,并采用批量随机梯度下降的方法将所述U-Net网络结构中的最后一层卷积层的激活函数修改为sigmoid函数的网络结构;
采用基于卷积神经网络的深度哈希算法根据所述语义分割后的图像生成与所述语义分割后的图像对应的哈希编码,记为第一哈希编码;
按照图像分类存储所有图像的哈希编码;所述图像分类为按照图像语义识别得到的分类;其中,每类图像对应的哈希编码以一个哈希编码数据集进行存储;每一所述哈希编码集包括多个第二哈希编码;
根据所述查询图像的语义分割结果调取所述哈希编码数据集;
确定所述第一哈希编码和调取得到的哈希编码数据集中所有第二哈希编码间的汉明距离;
根据所述汉明距离确定图像检索结果。
5.根据权利要求4所述的图像检索方法,其特征在于,所述采用基于卷积神经网络的深度哈希算法根据所述语义分割后的图像生成与所述语义分割后的图像对应的哈希编码,记为第一哈希编码,具体包括:
映射得到所述语义分割后的图像的相似度矩阵;
根据所述相似度矩阵,利用卷积神经网络生成与所述语义分割后的图像对应的哈希编码。
6.根据权利要求4所述的图像检索方法,其特征在于,所述根据所述汉明距离确定图像检索结果,具体包括:
将所述汉明距离进行降序排列,得到所述汉明距离中的最小值;所述最小值对应的图像即为检索得到的图像。
7.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序;其中,所述计算机程序被设置为运行时执行如权利要求4-6任意一项所述的图像检索方法。
8.根据权利要求7所述的一种计算机可读的存储介质,其特征在于,所述存储介质为固态存储介质或非固态存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011451941.9A CN112559781B (zh) | 2020-12-10 | 2020-12-10 | 一种图像检索系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011451941.9A CN112559781B (zh) | 2020-12-10 | 2020-12-10 | 一种图像检索系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559781A true CN112559781A (zh) | 2021-03-26 |
CN112559781B CN112559781B (zh) | 2023-04-07 |
Family
ID=75061704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011451941.9A Active CN112559781B (zh) | 2020-12-10 | 2020-12-10 | 一种图像检索系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559781B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800260A (zh) * | 2021-04-09 | 2021-05-14 | 北京邮电大学 | 基于深度哈希能量模型的多标签图像检索方法和装置 |
CN113744203A (zh) * | 2021-08-13 | 2021-12-03 | 澳门科技大学 | 基于多任务辅助的上消化道病变区域确定方法及装置 |
CN115329118A (zh) * | 2022-10-14 | 2022-11-11 | 山东省凯麟环保设备股份有限公司 | 一种面向垃圾图像的图像相似性检索方法及系统 |
WO2024016691A1 (zh) * | 2022-07-22 | 2024-01-25 | 华为云计算技术有限公司 | 一种图像检索方法、模型训练方法、装置及存储介质 |
CN118445444A (zh) * | 2024-07-08 | 2024-08-06 | 常熟理工学院 | 一种密文图像检索方法、装置、计算机存储介质及程序 |
CN118445444B (zh) * | 2024-07-08 | 2024-10-25 | 常熟理工学院 | 一种密文图像检索方法、装置、计算机存储介质及程序 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3151160A1 (en) * | 2015-09-29 | 2017-04-05 | Omron Corporation | Visual attention detector and visual attention detection method |
CN108388656A (zh) * | 2018-03-06 | 2018-08-10 | 南京邮电大学 | 一种基于标记相关性的图片搜索方法 |
CN109509178A (zh) * | 2018-10-24 | 2019-03-22 | 苏州大学 | 一种基于改进的U-net网络的OCT图像脉络膜分割方法 |
CN110490083A (zh) * | 2019-07-23 | 2019-11-22 | 苏州国科视清医疗科技有限公司 | 一种基于快速人眼语义分割网络的瞳孔精确检测方法 |
CN110532417A (zh) * | 2019-09-02 | 2019-12-03 | 河北省科学院应用数学研究所 | 基于深度哈希的图像检索方法、装置及终端设备 |
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
JP2020103880A (ja) * | 2018-12-26 | 2020-07-09 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
CN111460200A (zh) * | 2020-03-04 | 2020-07-28 | 西北大学 | 基于多任务深度学习的图像检索方法、模型及其构建方法 |
CN111723220A (zh) * | 2020-06-18 | 2020-09-29 | 中南大学 | 基于注意力机制和哈希的图像检索方法、装置及存储介质 |
US20200357143A1 (en) * | 2019-05-09 | 2020-11-12 | Sri International | Semantically-aware image-based visual localization |
CN111968171A (zh) * | 2020-08-13 | 2020-11-20 | 北京航空航天大学 | 基于人工智能的飞机油量测量方法及系统 |
CN111984817A (zh) * | 2020-08-10 | 2020-11-24 | 湖南大学 | 一种基于自注意力机制加权的细粒度图像检索方法 |
-
2020
- 2020-12-10 CN CN202011451941.9A patent/CN112559781B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3151160A1 (en) * | 2015-09-29 | 2017-04-05 | Omron Corporation | Visual attention detector and visual attention detection method |
CN108388656A (zh) * | 2018-03-06 | 2018-08-10 | 南京邮电大学 | 一种基于标记相关性的图片搜索方法 |
CN109509178A (zh) * | 2018-10-24 | 2019-03-22 | 苏州大学 | 一种基于改进的U-net网络的OCT图像脉络膜分割方法 |
JP2020103880A (ja) * | 2018-12-26 | 2020-07-09 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
US20200357143A1 (en) * | 2019-05-09 | 2020-11-12 | Sri International | Semantically-aware image-based visual localization |
CN110490083A (zh) * | 2019-07-23 | 2019-11-22 | 苏州国科视清医疗科技有限公司 | 一种基于快速人眼语义分割网络的瞳孔精确检测方法 |
CN110532417A (zh) * | 2019-09-02 | 2019-12-03 | 河北省科学院应用数学研究所 | 基于深度哈希的图像检索方法、装置及终端设备 |
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
CN111460200A (zh) * | 2020-03-04 | 2020-07-28 | 西北大学 | 基于多任务深度学习的图像检索方法、模型及其构建方法 |
CN111723220A (zh) * | 2020-06-18 | 2020-09-29 | 中南大学 | 基于注意力机制和哈希的图像检索方法、装置及存储介质 |
CN111984817A (zh) * | 2020-08-10 | 2020-11-24 | 湖南大学 | 一种基于自注意力机制加权的细粒度图像检索方法 |
CN111968171A (zh) * | 2020-08-13 | 2020-11-20 | 北京航空航天大学 | 基于人工智能的飞机油量测量方法及系统 |
Non-Patent Citations (3)
Title |
---|
ZUDE WANG;LEIXIN ZHANG: "Semantic Segmentation of Brain MRI Based on U-net Network and Edge Loss" * |
周鹏程: "基于深度全卷积网络的图像语义分割研究及应用" * |
徐慧;白美丽;万韬阮;薛涛;汤汶;: "基于深度学习的服装图像语义分析与检索推荐" * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800260A (zh) * | 2021-04-09 | 2021-05-14 | 北京邮电大学 | 基于深度哈希能量模型的多标签图像检索方法和装置 |
CN113744203A (zh) * | 2021-08-13 | 2021-12-03 | 澳门科技大学 | 基于多任务辅助的上消化道病变区域确定方法及装置 |
WO2024016691A1 (zh) * | 2022-07-22 | 2024-01-25 | 华为云计算技术有限公司 | 一种图像检索方法、模型训练方法、装置及存储介质 |
CN115329118A (zh) * | 2022-10-14 | 2022-11-11 | 山东省凯麟环保设备股份有限公司 | 一种面向垃圾图像的图像相似性检索方法及系统 |
CN115329118B (zh) * | 2022-10-14 | 2023-02-28 | 山东省凯麟环保设备股份有限公司 | 一种面向垃圾图像的图像相似性检索方法及系统 |
CN118445444A (zh) * | 2024-07-08 | 2024-08-06 | 常熟理工学院 | 一种密文图像检索方法、装置、计算机存储介质及程序 |
CN118445444B (zh) * | 2024-07-08 | 2024-10-25 | 常熟理工学院 | 一种密文图像检索方法、装置、计算机存储介质及程序 |
Also Published As
Publication number | Publication date |
---|---|
CN112559781B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559781B (zh) | 一种图像检索系统和方法 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
Yu et al. | Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop | |
CN112100426B (zh) | 基于视觉和文本特征的通用表格信息检索的方法与系统 | |
US11288324B2 (en) | Chart question answering | |
CN111488931A (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN112000801A (zh) | 基于机器学习的政务文本分类、热点问题挖掘方法及系统 | |
CN111078837A (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN112131453B (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
CN112580351B (zh) | 一种基于自信息损失补偿的机器生成文本检测方法 | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
CN112115253A (zh) | 基于多视角注意力机制的深度文本排序方法 | |
CN112966117A (zh) | 实体链接方法 | |
CN114329181A (zh) | 一种题目推荐方法、装置及电子设备 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN116340530A (zh) | 基于机械知识图谱的智能设计方法 | |
CN113282729A (zh) | 基于知识图谱的问答方法及装置 | |
Lehenmeier et al. | Layout detection and table recognition–recent challenges in digitizing historical documents and handwritten tabular data | |
CN114020871A (zh) | 基于特征融合的多模态社交媒体情感分析方法 | |
CN115599962B (zh) | 基于教育领域的数据资源云存储共享方法 | |
CN117152770A (zh) | 一种面向手写输入的书写能力智能评测方法及系统 | |
CN116257618A (zh) | 一种基于细粒度情感分析的多源智能旅游推荐方法 | |
CN114168770A (zh) | 一种基于深度学习的以图搜图方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |