CN115146103A - 图像检索方法、装置、计算机设备、存储介质和程序产品 - Google Patents
图像检索方法、装置、计算机设备、存储介质和程序产品 Download PDFInfo
- Publication number
- CN115146103A CN115146103A CN202211065565.9A CN202211065565A CN115146103A CN 115146103 A CN115146103 A CN 115146103A CN 202211065565 A CN202211065565 A CN 202211065565A CN 115146103 A CN115146103 A CN 115146103A
- Authority
- CN
- China
- Prior art keywords
- image
- query
- label
- candidate
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请涉及一种图像检索方法、装置、计算机设备、存储介质和程序产品。该方法包括:接收终端响应于用户的触发操作发送的图像检索请求;其中,图像检索请求用于从图像数据库中获取目标图像,该图像检索请求包括图像场景信息以及图像查询参数,图像查询参数包括查询标签和/或参照图像,该参照图像为用于与目标图像进行相似度对比的图像;根据图像场景信息查询图像数据库,获取第一图像查询结果;其中,第一图像查询结果包括与图像场景信息对应的第一候选图像,图像数据库包括按照不同场景进行存储的多张图像;根据图像查询参数以及第一图像查询结果,确定目标图像;能够提高检索到的图像的匹配度。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像检索方法、装置、计算机设备、存储介质和程序产品。
背景技术
在保险行业,各类影像数据层出不穷,面对海量的影像数据,如何高效地进行影像数据的存储以及如何从海量的影像数据中获取有价值的影像资料,成为亟待解决的问题。
传统技术中,通常采用多标签识别的方法对各类影像数据进行归档入库,即对于每一个影像数据识别出多个不同的标签,并将每个影像数据的ID和该多个标签存储在数据库中,以便后期可以根据所需影像资料的标签进行批量影像资料的检索。
然而,目前的影像资料检索方法所检索的影像资料的匹配度较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高影像资源检索匹配度的图像检索方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种图像检索方法。该方法包括:
接收终端响应于用户的触发操作发送的图像检索请求;其中,图像检索请求用于从图像数据库中获取目标图像,该图像检索请求包括图像场景信息以及图像查询参数,图像查询参数包括查询标签和/或参照图像,该参照图像为用于与目标图像进行相似度对比的图像;
根据图像场景信息查询图像数据库,获取第一图像查询结果;其中,第一图像查询结果包括与图像场景信息对应的第一候选图像,图像数据库包括按照不同场景进行存储的多张图像;
根据图像查询参数以及第一图像查询结果,确定目标图像。
在其中一个实施例中,图像查询参数为查询标签,图像数据库还包括每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的图像标签和第一候选图像属于图像标签的概率;
相应的,根据图像查询参数以及第一图像查询结果,确定目标图像,包括:
根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像;
根据第二候选图像隶属于查询标签的概率,确定目标图像。
在其中一个实施例中,将隶属于查询标签的概率大于预设概率阈值的第二候选图像,确定为目标图像。
在其中一个实施例中,该方法还包括:
将图像集合中的每张图像输入至预设的标签识别网络进行标签识别处理,得到识别结果,该识别结果包括每张图像的图像标签以及图像属于图像标签的概率;
将图像集合以及识别结果存储至图像数据库。
在其中一个实施例中,图像查询参数为参照图像,图像数据库还包括每张图像的特征向量,第一图像查询结果还包括第一候选图像的特征向量;
相应的,根据图像查询参数以及第一图像查询结果,确定目标图像,包括:
获取参照图像的特征向量;
根据参照图像的特征向量与第一候选图像的特征向量之间的距离,从第一候选图像中确定目标图像。
在其中一个实施例中,根据参照图像的特征向量与第一候选图像的特征向量之间的距离,从第一候选图像中确定目标图像,包括:
将与参照图像的特征向量的距离小于预设距离阈值的第一候选图像,确定为目标图像。
在其中一个实施例中,图像查询参数包括查询标签以及参照图像,图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的特征向量、第一候选图像的图像标签和第一候选图像属于图像标签的概率;
相应的,根据图像查询参数以及第一图像查询结果,确定目标图像,包括:
根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像;
将第二候选图像中隶属于查询标签的概率大于预设概率阈值的第二候选图像确定为第三候选图像;
获取参照图像的特征向量;
根据参照图像的特征向量与第三候选图像的特征向量之间的距离,从第三候选图像中确定目标图像。
在其中一个实施例中,图像查询参数包括查询标签以及参照图像,图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的特征向量、第一候选图像的图像标签和第一候选图像属于图像标签的概率;
相应的,根据图像查询参数以及第一图像查询结果,确定目标图像,包括:
获取参照图像的特征向量;
根据参照图像的特征向量,将第一图像查询结果中与参照图像的特征向量之间的距离小于预设距离阈值的第一候选图像确定为第二候选图像;
根据查询标签,将与查询标签相同的第二候选图像确定为第三候选图像;
将第三候选图像中隶属于查询标签的概率大于预设概率阈值的第三候选图像确定为目标图像。
在其中一个实施例中,该方法还包括:
将图像集合中的每张图像输入至预设的特征提取网络进行特征提取,得到特征提取结果,该特征提取结果包括每张图像的特征向量;其中,特征提取网络包括至少两个不同的特征提取子网络,每个特征提取子网络的最后一层池化层输出的特征矩阵共同输入至公共全连接层进行全连接处理;
将图像集合以及特征提取结果存储至图像数据库。
在其中一个实施例中,特征提取子网络为ResNet152骨干网络、ResNet200骨干网络、SEResNet152骨干网络和InceptionV4骨干网络中的任一个。
第二方面,本申请还提供了一种图像检索装置。该装置包括:
第一获取模块,用于接收终端响应于用户的触发操作发送的图像检索请求;其中,图像检索请求用于从图像数据库中获取目标图像,该图像检索请求包括图像场景信息以及图像查询参数,图像查询参数包括查询标签和/或参照图像,该参照图像为用于与目标图像进行相似度对比的图像;
第二获取模块,用于根据图像场景信息查询图像数据库,获取第一图像查询结果;其中,第一图像查询结果包括与图像场景信息对应的第一候选图像,图像数据库包括按照不同场景进行存储的多张图像;
确定模块,用于根据图像查询参数以及第一图像查询结果,确定目标图像。
第三方面,本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述第一方面中任一方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。该计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面中任一方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面中任一方法的步骤。
上述图像检索方法、装置、计算机设备、存储介质和程序产品,服务器通过接收终端响应于用户的触发操作,发送的包括图像场景信息和图像查询参数的图像检索请求,并根据图像场景信息查询图像数据库,获取包括与图像场景信息对应的第一候选图像的第一图像查询结果,接着,根据图像查询参数以及第一图像查询结果,确定目标图像,其中,该图像查询参数包括查询标签和/或参照图像,该参照图像为用于与目标图像进行相似度对比的图像,另外,该图像数据库包括按照不同场景进行存储的多张图像;也就是说,本申请实施例中的图像检索方法,可以先根据图像场景信息查询出与该图像场景信息对应的多个第一候选图像,进一步地,在该多个第一候选图像中根据图像查询参数检索得到目标图像,即本申请中的图像数据库基于不同场景进行分区存储,并可以基于图像场景信息在特定的场景分区中进行图像检索,相比于现有技术中的通过图像标签检索到的该标签下的多个不同场景的图像而言,本申请中检索得到的图像场景下的目标图像更贴近于用户的检索需求,所检索到的目标图像与用户所需的图像的匹配度更高;另外,本实施例中在图像场景对应的候选图像中,不仅可以根据图像的查询标签进行检索,还可以根据参照图像进行检索,以及还可以根据查询标签和参照图像共同进行检索,检索方式全面,粒度精细,检索精度越高,所得到的图像的匹配度也越高。
附图说明
图1为一个实施例中图像检索方法的应用环境图;
图2为一个实施例中图像检索方法的流程示意图;
图3为另一个实施例中图像检索方法的流程示意图;
图4为另一个实施例中图像检索方法的流程示意图;
图5为另一个实施例中图像检索方法的流程示意图;
图6为另一个实施例中图像检索方法的流程示意图;
图7为另一个实施例中图像检索方法的流程示意图;
图8为一个实施例中图像检索装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
首先,针对现有技术中的图像检索方法进行简要概述,现有技术中,通过调用百度开源的影像标记功能对大量的图像数据进行多标签识别,获取每张图像的标签,并将每张图像的标签和图像的ID存储在数据库中;然而,由于现有技术中,仅通过标签对图像进行区分,在通过标签进行图像检索时,所检索得到的相同标签的图像中,包括多个不同场景下的图像,导致不同图像之间的相关性较差;如:检索标签为人物和灯光的图像,所检索到的包含人物和灯光的图像中有可能包括街景场景下的人物和灯光图像,也有可能包括室内会议场景下的人物和灯光图像,并不能满足用户对某一特定场景下的图像的检索需求。
另外,由于标签和图像的ID关联于数据库中,图像的检索速度依赖于数据库的查询速度,在图像数据量越来越大时,数据库中存储的数据也越来越多,整个数据库的查询速度越来越慢,导致图像检索的速度也越来越慢;另一方面,由于现有技术中的多标签识别服务依赖于百度影像多标签识别,数据流需要穿透至外网,网络延迟无法避免。
因此,本申请提出一种图像检索方法,通过场景划分的方式将数据库中的数据进行分区存储,并可以基于不同的场景从不同的场景分区中进行图像检索,大大提高了图像检索的准确性和灵活性,且通过场景分区进行图像检索,而无需在整个数据库进行图像检索,能够大大提高图像检索的检索速度;另外,通过标签查询和以图搜图的方式使得检索到的图像的匹配度更高,检索方式更全面广泛;还有,本申请中提出一种标签识别网络和特征提取网络,对入库的图像进行标签识别和特征向量提取,并将图像的标签、标签概率、以及该图像的特征向量存储在向量数据库中,无需调用外网的百度影像多标签识别算法,能够提高图像入库存储的速率,减少网络延迟,为用户提供高速流式的图像入库和图像检索服务。
本申请实施例提供的图像检索方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种图像检索方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤201,接收终端响应于用户的触发操作发送的图像检索请求。
其中,图像检索请求用于从图像数据库中获取目标图像,该图像检索请求包括图像场景信息以及图像查询参数,图像查询参数包括查询标签和/或参照图像,该参照图像为用于与目标图像进行相似度对比的图像。
可选地,在保险行业中,每天都会有大量的影像数据,该影像数据可以是拍摄的图像数据,也可以是视频帧图像数据,用户可以将不同的图像数据存储在图像数据库中,该图像数据库可以按照不同的场景分类划分不同的数据库分区,例如:该图像数据库中包括场景1的数据库分区、场景2的数据库分区等;可选地,该图像数据库也可以基于不同的业务部门或者不同的业务系统进行数据库分区,而在业务部门对应的数据库分区中可以进一步基于不同的场景分类进行数据库分区;例如:该图像数据库中包括业务部门A的数据库分区、业务部门B的数据库分区等等,在业务部门A的数据库分区中包括场景1的数据库分区、场景2的数据库分区等,在业务部门B的数据库分区中包括场景1的数据库分区、场景2的数据库分区、场景3的数据库分区等。需要说明的是,本实施例中对图像数据库基于场景的数据库分区的具体划分方式并不做限定。
可选地,用户可以基于场景,将影像数据存储在该图像数据库中与该场景对应的数据库分区中,相应地,在用户需要进行图像检索时,也可以在不同场景下对应的数据库分区中进行图像搜索。具体地,用户可以通过终端输入图像场景信息和图像查询参数,触发图像检索操作,终端响应于用户在终端上的触发操作向服务器发送携带该图像场景信息和图像查询参数的图像检索请求;其中,该图像查询参数可以包括查询标签和/或参照图像,也就是说,用户可以通过查询标签查询在该图像场景信息下的目标图像,也可以通过参照图像查询在该图像场景信息下的目标图像,还可以通过查询标签和参照图像查询在该图像场景信息下的目标图像。另外,对于该图像场景信息,可以包括一个图像场景、也可以包括多个图像场景,在实际检索过程中,用户可以根据实际检索需求进行灵活选择。
步骤202,根据图像场景信息查询图像数据库,获取第一图像查询结果。
其中,第一图像查询结果包括与图像场景信息对应的第一候选图像,图像数据库包括按照不同场景进行存储的多张图像。
可选地,服务器在接收到图像检索请求后,可以先根据该图像检索请求中的图像场景信息查询该图像数据库,以得到与该图像场景信息对应的至少一个第一候选图像;可选地,在该图像检索请求中还可以包括业务部门信息,服务器可以根据该业务部门信息和该图像场景信息查询该图像数据库,得到该业务部门下的该图像场景对应的至少一个候选图像;也就是说,本申请实施例中,支持按照图像数据库的数据库分区进行图像检索,用户可以在任一某个数据库分区中进行图像检索,当然,对于不同业务部门,也可以设置相应的检索权限。
步骤203,根据图像查询参数以及第一图像查询结果,确定目标图像。
可选地,服务器在确定出图像数据库中与图像场景信息对应的第一图像查询结果之后,可以根据图像查询参数,从该图像场景信息对应的多个第一候选图像中,确定与该图像查询参数对应的目标图像;接着,服务器可以将检索到的目标图像发送至终端,以便终端将该目标图像输出并展示给用户。
上述图像检索方法中,服务器通过接收终端响应于用户的触发操作,发送的包括图像场景信息和图像查询参数的图像检索请求,并根据图像场景信息查询图像数据库,获取包括与图像场景信息对应的第一候选图像的第一图像查询结果,接着,根据图像查询参数以及第一图像查询结果,确定目标图像,其中,该图像查询参数包括查询标签和/或参照图像,该参照图像为用于与目标图像进行相似度对比的图像,另外,该图像数据库包括按照不同场景进行存储的多张图像;也就是说,本申请实施例中的图像检索方法,可以先根据图像场景信息查询出与该图像场景信息对应的多个第一候选图像,进一步地,在该多个第一候选图像中根据图像查询参数检索得到目标图像,即本申请中的图像数据库基于不同场景进行分区存储,并可以基于图像场景信息在特定的场景分区中进行图像检索,相比于现有技术中的通过图像标签检索到的该标签下的多个不同场景的图像而言,本申请中检索得到的图像场景下的目标图像更贴近于用户的检索需求,所检索到的目标图像与用户所需的图像的匹配度更高;另外,本实施例中在图像场景对应的候选图像中,不仅可以根据图像的查询标签进行检索,还可以根据参照图像进行检索,以及还可以根据查询标签和参照图像共同进行检索,检索方式全面,粒度精细,检索精度越高,所得到的图像的匹配度也越高。
在本申请的一个可选的实施例中,上述图像查询参数可以为查询标签,上述图像数据库还可以包括每张图像的图像标签以及每张图像隶属于图像标签的概率,上述第一图像查询结果还可以包括第一候选图像的图像标签和第一候选图像属于图像标签的概率;可选的,在前期的图像入库过程中,可以将图像集合中的每张图像输入至预设的标签识别网络进行标签识别处理,得到识别结果,该识别结果可以包括每张图像的图像标签以及图像属于图像标签的概率;接着,可以将该图像集合以及识别结果存储至图像数据库。
可选地,该预设的标签识别网络可以为图卷积网络(Graph ConvolutionalNetwork,简称GCN),也可以为基于图卷积网络的多标签图像识别模型(Multi-Label ImageRecognition with Graph Convolutional Networks,简称ML-GCN);该标签识别网络使用ResNet101作为CNN的骨干网络,并采用全局最大池化以获取图像特征,接着,可以将输出的图像特征输入语义注意模块,通过data-driven方式建立标记间有向图(directed graph),并由GCN分类器学习将类别映射函数从标签特征学习相互依赖的对应类别的分类器,建立类别关系图,可以提升表示学习能力;可选地,本申请实施例中,服务器可以将图像集合中的每张图像输入标签识别网络中,生成每张图像对应的图像标签、以及图像标签对应的标签概率,其中,每张图像可以对应至少一个图像标签和至少一个图像标签分别对应的标签概率。进一步地,可以将该图像集合,以及该图像集合中的每张图像的图像标签以及图像标签的概率,存储在该图像数据库中。本申请中的多标签的标签识别网络,由于考虑到不同标签之间的相关性,学习不同标签之间的相互依赖关系,即考虑到物体之间的复杂的拓扑结构,又考虑到标签之间的相关性,生成的分类器再被应用于CNN网络提取到的图像特征,以实现端到端训练,以使训练得到的该标签识别网络对图像标签和标签概率的识别结果更准确,进而使得基于该标签和标签概率所检索到的图像的匹配度更高,大大提高了图像检索效果。
基于此,如图3所示,上述步骤203“根据图像查询参数以及第一图像查询结果,确定目标图像”可以包括:
步骤301,根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像。
可选地,由于服务器在根据图像场景信息获取到的第一图像查询结果中,包括该图像场景下的所有第一候选图像,该第一候选图像可以为不同标签对应的图像,因此,服务器可以根据该查询标签,从第一图像查询结果中确定图像标签与该查询标签相同的第二候选图像,该第二候选图像为该图像场景和该查询标签下对应的图像。
步骤302,根据第二候选图像隶属于查询标签的概率,确定目标图像。
可选地,可以将隶属于查询标签的概率大于预设概率阈值的第二候选图像,确定为目标图像,该预设概率阈值可以是由用户在图像检索时输入的概率阈值,即在该图像检索请求包括查询标签的情况下,也可以包括用于提高与该查询标签对应的图像的匹配度的标签的概率阈值,在实际应用中,用户可以灵活选择图像检索条件。
本实施例中,在图像查询参数为查询标签的情况下,服务器可以根据该查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像,并根据第二候选图像隶属于查询标签的概率,确定目标图像;其中,图像数据库还可以包括每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还可以包括第一候选图像的图像标签和第一候选图像属于图像标签的概率;即将与该查询标签相同的第二候选图像中标签概率高的第二候选图像确定为目标图像,得到的该目标图像与用户想要检索的图像的匹配度更高,检索效果更好。
在本申请的一个可选的实施例中,上述图像查询参数可以为参照图像,上述图像数据库还可以包括每张图像的特征向量,上述第一图像查询结果还可以包括第一候选图像的特征向量;可选地,在前期的图像入库过程中,可以将图像集合中的每张图像输入至预设的特征提取网络进行特征提取,得到特征提取结果,该特征提取结果包括每张图像的特征向量;接着,可以将图像集合以及特征提取结果存储至图像数据库。
可选地,该预设的特征提取网络可以包括至少两个不同的特征提取子网络,每个特征提取子网络的最后一层池化层输出的特征矩阵共同输入至公共全连接层进行全连接处理,得到全连接后的特征向量;可选地,还可以将全连接处理后的特征向量,采用主成分分析技术(principal components analysis,简称PCA)对该特征向量进行降维处理,得到降维后的特征向量,该降维后的特征向量可以为512维、256维等,本申请对降维后的特征向量的维度并不做限定。
可选地,该特征提取子网络可以为ResNet152骨干网络、ResNet200骨干网络、SEResNet152骨干网络和InceptionV4骨干网络中的任一个,也就是说,该特征提取子网络可以是基于上述任一骨干网络训练得到的网络,可选地,不同的特征提取子网络可以是基于相同骨干网络、不同损失函数训练得到的网络,该不同的特征提取子网络也可以是相同骨干网络、不同训练样本训练得到的网络,该不同的特征提取子网络还可以是基于不同骨干网络、相同损失函数或者相同训练样本训练得到的网络等;本申请对至少两个不同的特征提取子网络的形式并不做限定,只要得到的多个特征提取子网络之间是存在差异性的即可,另外,本申请实施例对特征提取子网络的数量也不做限定。
如图4所示,提供一种可选的特征提取网络的网络结构图,其中,该特征提取网络包括六个特征提取子网络、一个公共全连接层以及一个PCA层,该六个特征提取子网络从右至左依次为:以ResNet152为骨干网络,采用arcmargin损失函数的第一特征提取子网络、以ResNet200为骨干网络,采用arcmargin损失函数的第二特征提取子网络、以SEResNet152为骨干网络,采用arcmargin损失函数的第三特征提取子网络、以InceptionV4为骨干网络,采用arcmargin损失函数的第四特征提取子网络、以ResNet152为骨干网络,采用Npairs损失函数的第五特征提取子网络、以ResNet152为骨干网络,采用arcmargin_index损失函数的第六特征提取子网络;其中,第六特征提取子网络可以采用google landmark训练样本数据集进行训练,其余的五个特征提取子网络可以采用google地标和microsoft coco训练样本数据集进行训练;需要说明的是,对于该六个特征提取子网络,将每个子网络单独的全连接层输出去除,采用一个公共全连接层使用网络特征堆叠的方式连接这六个特征提取子网络的最后一层池化层输出的特征矩阵,并进行迁移学习,接着,将该公共全连接层输出的特征向量输入PCA层降维至512维,得到该特征提取网络最终输出的特征向量。
基于此,如图5所示,上述步骤203“根据图像查询参数以及第一图像查询结果,确定目标图像”可以包括:
步骤501,获取参照图像的特征向量。
可选地,服务器可以将该参数图像输入上述预设的特征提取网络中,得到该特征提取网络输出的该参照图像的特征向量。
步骤502,根据参照图像的特征向量与第一候选图像的特征向量之间的距离,从第一候选图像中确定目标图像。
可选地,可以采用不同的距离计算方式计算该参照图像的特征向量与第一候选图像的各个图像的特征向量之间的距离,进行图像之间的相似性度量,检索出与该参照图像相似的多张目标图像;该距离计算方式可以为余弦距离、欧式距离、汉明距离、曼哈顿距离、切比雪夫距离等,本申请对距离计算方式并不做具体限定。可选地,服务器可以将与该参照图像的特征向量的距离小于预设距离阈值的第一候选图像,确定为目标图像。
本实施例中,在图像查询参数为参照图像的情况下,服务器可以获取该参照图像的特征向量,并根据参照图像的特征向量与第一候选图像的特征向量之间的距离,从第一候选图像中确定目标图像;其中,图像数据库还可以包括每张图像的特征向量,第一图像查询结果还可以包括第一候选图像的特征向量;即将与该参照图像的特征向量之间的距离较小的第一候选图像确定为目标图像,得到的该目标图像与用户想要检索的图像的匹配度更高,检索效果更好。
在本申请的一个可选的实施例中,上述图像查询参数还可以包括查询标签以及参照图像,上述图像数据库还可以包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,上述第一图像查询结果还可以包括第一候选图像的特征向量、第一候选图像的图像标签和第一候选图像属于图像标签的概率。可选地,可以采用上述预设的特征提取网络提取每张图像的特征向量,并采用上述预设的标签识别网络获取每张图像的至少一个图像标签、以及每个图像标签的概率,进而,服务器可以将该图像集合,该图像集合中每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率存储在该图像数据库中。
可选地,该图像数据库可以包括向量数据库、原始图像数据库和位置数据库,其中,该向量数据库可以包括每张图像的ID、每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,该位置数据库可以包括每张图像的ID和每张图像的存储位置,该原始图像数据库可以包括每张图像的存储位置和每张图像的图像数据;基于此,服务器可以根据图像检索请求,在向量数据库中进行图像检索,得到目标图像的ID,接着,根据该目标图像的ID从位置数据库中确定该目标图像对应的存储位置,最后,根据该目标图像的存储位置,从原始图像数据库中获取该目标图像。
可选地,该向量数据库可以为milvus向量数据库,该向量数据库采用分布式部署方式,能够实现千万级数据量搜索的实时响应;在图像特征存储与图像多标签存储方面有着极大的优势,无需使用传统的关系型数据库进行存储,直接进行归一化的向量存储,存储数据空间大小统一,格式统一,且向量数据库会对入库图像的特征向量进行无监督聚类索引,极大地加快向量的检索速度,真正做到传统关系型数据库无法做到的实时响应。也就是说,针对某一场景分区内的各个图像,对该场景分区内的图像进行聚类处理,得到多个聚类簇,在进行图像检索时,可以先判断每个聚类簇的聚类中心的特征向量与参照图像的特征向量之间的距离,确定出距离较近的至少一个目标聚类簇;接着,针对每一个目标聚类簇,判断每个目标聚类簇中的各个图像的特征向量与参照图像的特征向量之间的距离,并将与该参照图像的特征向量之间的距离小于预设距离阈值的图像确定为目标图像,能够大大提高图像检索的速率。
基于此,如图6所示,上述步骤203“根据图像查询参数以及第一图像查询结果,确定目标图像”可以包括:
步骤601,根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像。
步骤602,将第二候选图像中隶属于查询标签的概率大于预设概率阈值的第二候选图像确定为第三候选图像。
步骤603,获取参照图像的特征向量。
步骤604,根据参照图像的特征向量与第三候选图像的特征向量之间的距离,从第三候选图像中确定目标图像。
也就是说,本实施例中的图像检索过程可以在根据图像场景信息得到与该图像场景信息对应的第一候选图像之后,从该第一候选图像中筛选与该查询标签相同且隶属于该查询标签的概率大于预设概率阈值的第三候选图像,并从该第三候选图像中筛选与参照图像的特征向量之间的距离小于预设距离阈值的图像,作为该目标图像,得到的该目标图像是在该图像场景下,与该查询标签相同且与该参照图像相似的图像,图像的匹配度更高,检索效果更好。
在本实施例的另一个可选的实现过程中,如图7所示,上述步骤203“根据图像查询参数以及第一图像查询结果,确定目标图像”可以包括:
步骤701,获取参照图像的特征向量。
步骤702,根据参照图像的特征向量,将第一图像查询结果中与参照图像的特征向量之间的距离小于预设距离阈值的第一候选图像确定为第二候选图像。
步骤703,根据查询标签,将与查询标签相同的第二候选图像确定为第三候选图像。
步骤704,将第三候选图像中隶属于查询标签的概率大于预设概率阈值的第三候选图像确定为目标图像。
也就是说,本实施例中的图像检索过程可以在根据图像场景信息得到与该图像场景信息对应的第一候选图像之后,从该第一候选图像中筛选出与参照图像的特征向量之间的距离小于预设距离阈值的第二候选图像,并从该第二候选图像中筛选与该查询标签相同且隶属于该查询标签的概率大于预设概率阈值的图像,作为该目标图像,得到的该目标图像是在该图像场景下,与该参照图像相似且与该查询标签相同的图像,图像的匹配度更高,检索效果更好。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像检索方法的图像检索装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像检索装置实施例中的具体限定可以参见上文中对于图像检索方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种图像检索装置,包括:第一获取模块801、第二获取模块802和确定模块803,其中:
第一获取模块801,用于接收终端响应于用户的触发操作发送的图像检索请求;其中,图像检索请求用于从图像数据库中获取目标图像,该图像检索请求包括图像场景信息以及图像查询参数,图像查询参数包括查询标签和/或参照图像,该参照图像为用于与目标图像进行相似度对比的图像;
第二获取模块802,用于根据图像场景信息查询图像数据库,获取第一图像查询结果;其中,第一图像查询结果包括与图像场景信息对应的第一候选图像,图像数据库包括按照不同场景进行存储的多张图像;
确定模块803,用于根据图像查询参数以及第一图像查询结果,确定目标图像。
在其中一个实施例中,图像查询参数为查询标签,图像数据库还包括每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的图像标签和第一候选图像属于图像标签的概率;上述确定模块,具体用于根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像;根据第二候选图像隶属于查询标签的概率,确定目标图像。
在其中一个实施例中,上述确定模块,具体用于将隶属于查询标签的概率大于预设概率阈值的第二候选图像,确定为目标图像。
在其中一个实施例中,该装置还包括:第一处理模块和第一存储模块;其中,第一处理模块,用于将图像集合中的每张图像输入至预设的标签识别网络进行标签识别处理,得到识别结果,该识别结果包括每张图像的图像标签以及图像属于图像标签的概率;第一存储模块,用于将图像集合以及识别结果存储至图像数据库。
在其中一个实施例中,图像查询参数为参照图像,图像数据库还包括每张图像的特征向量,第一图像查询结果还包括第一候选图像的特征向量;上述确定模块,具体用于获取参照图像的特征向量;根据参照图像的特征向量与第一候选图像的特征向量之间的距离,从第一候选图像中确定目标图像。
在其中一个实施例中,上述确定模块,具体用于将与参照图像的特征向量的距离小于预设距离阈值的第一候选图像,确定为目标图像。
在其中一个实施例中,图像查询参数包括查询标签以及参照图像,图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的特征向量、第一候选图像的图像标签和第一候选图像属于图像标签的概率;上述确定模块,具体用于根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像;将第二候选图像中隶属于查询标签的概率大于预设概率阈值的第二候选图像确定为第三候选图像;获取参照图像的特征向量;根据参照图像的特征向量与第三候选图像的特征向量之间的距离,从第三候选图像中确定目标图像。
在其中一个实施例中,图像查询参数包括查询标签以及参照图像,图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的特征向量、第一候选图像的图像标签和第一候选图像属于图像标签的概率;上述确定模块,具体用于获取参照图像的特征向量;根据参照图像的特征向量,将第一图像查询结果中与参照图像的特征向量之间的距离小于预设距离阈值的第一候选图像确定为第二候选图像;根据查询标签,将与查询标签相同的第二候选图像确定为第三候选图像;将第三候选图像中隶属于查询标签的概率大于预设概率阈值的第三候选图像确定为目标图像。
在其中一个实施例中,该装置还包括:第二处理模块和第二存储模块;其中,第二处理模块,用于将图像集合中的每张图像输入至预设的特征提取网络进行特征提取,得到特征提取结果,该特征提取结果包括每张图像的特征向量;其中,特征提取网络包括至少两个不同的特征提取子网络,每个特征提取子网络的最后一层池化层输出的特征矩阵共同输入至公共全连接层进行全连接处理;第二存储模块,用于将图像集合以及特征提取结果存储至图像数据库。
在其中一个实施例中,特征提取子网络为ResNet152骨干网络、ResNet200骨干网络、SEResNet152骨干网络和InceptionV4骨干网络中的任一个。
上述图像检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储不同场景下的图像以及图像的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像检索方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
接收终端响应于用户的触发操作发送的图像检索请求;其中,图像检索请求用于从图像数据库中获取目标图像,该图像检索请求包括图像场景信息以及图像查询参数,图像查询参数包括查询标签和/或参照图像,该参照图像为用于与目标图像进行相似度对比的图像;
根据图像场景信息查询图像数据库,获取第一图像查询结果;其中,第一图像查询结果包括与图像场景信息对应的第一候选图像,图像数据库包括按照不同场景进行存储的多张图像;
根据图像查询参数以及第一图像查询结果,确定目标图像。
在一个实施例中,图像查询参数为查询标签,图像数据库还包括每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的图像标签和第一候选图像属于图像标签的概率;处理器执行计算机程序时还实现以下步骤:根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像;根据第二候选图像隶属于查询标签的概率,确定目标图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将隶属于查询标签的概率大于预设概率阈值的第二候选图像,确定为目标图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将图像集合中的每张图像输入至预设的标签识别网络进行标签识别处理,得到识别结果,该识别结果包括每张图像的图像标签以及图像属于图像标签的概率;将图像集合以及识别结果存储至图像数据库。
在一个实施例中,图像查询参数为参照图像,图像数据库还包括每张图像的特征向量,第一图像查询结果还包括第一候选图像的特征向量;处理器执行计算机程序时还实现以下步骤:获取参照图像的特征向量;根据参照图像的特征向量与第一候选图像的特征向量之间的距离,从第一候选图像中确定目标图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将与参照图像的特征向量的距离小于预设距离阈值的第一候选图像,确定为目标图像。
在一个实施例中,图像查询参数包括查询标签以及参照图像,图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的特征向量、第一候选图像的图像标签和第一候选图像属于图像标签的概率;处理器执行计算机程序时还实现以下步骤:根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像;将第二候选图像中隶属于查询标签的概率大于预设概率阈值的第二候选图像确定为第三候选图像;获取参照图像的特征向量;根据参照图像的特征向量与第三候选图像的特征向量之间的距离,从第三候选图像中确定目标图像。
在一个实施例中,图像查询参数包括查询标签以及参照图像,图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的特征向量、第一候选图像的图像标签和第一候选图像属于图像标签的概率;处理器执行计算机程序时还实现以下步骤:获取参照图像的特征向量;根据参照图像的特征向量,将第一图像查询结果中与参照图像的特征向量之间的距离小于预设距离阈值的第一候选图像确定为第二候选图像;根据查询标签,将与查询标签相同的第二候选图像确定为第三候选图像;将第三候选图像中隶属于查询标签的概率大于预设概率阈值的第三候选图像确定为目标图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将图像集合中的每张图像输入至预设的特征提取网络进行特征提取,得到特征提取结果,该特征提取结果包括每张图像的特征向量;其中,特征提取网络包括至少两个不同的特征提取子网络,每个特征提取子网络的最后一层池化层输出的特征矩阵共同输入至公共全连接层进行全连接处理;将图像集合以及特征提取结果存储至图像数据库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:特征提取子网络为ResNet152骨干网络、ResNet200骨干网络、SEResNet152骨干网络和InceptionV4骨干网络中的任一个。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收终端响应于用户的触发操作发送的图像检索请求;其中,图像检索请求用于从图像数据库中获取目标图像,该图像检索请求包括图像场景信息以及图像查询参数,图像查询参数包括查询标签和/或参照图像,该参照图像为用于与目标图像进行相似度对比的图像;
根据图像场景信息查询图像数据库,获取第一图像查询结果;其中,第一图像查询结果包括与图像场景信息对应的第一候选图像,图像数据库包括按照不同场景进行存储的多张图像;
根据图像查询参数以及第一图像查询结果,确定目标图像。
在一个实施例中,图像查询参数为查询标签,图像数据库还包括每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的图像标签和第一候选图像属于图像标签的概率;计算机程序被处理器执行时还实现以下步骤:根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像;根据第二候选图像隶属于查询标签的概率,确定目标图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将隶属于查询标签的概率大于预设概率阈值的第二候选图像,确定为目标图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将图像集合中的每张图像输入至预设的标签识别网络进行标签识别处理,得到识别结果,该识别结果包括每张图像的图像标签以及图像属于图像标签的概率;将图像集合以及识别结果存储至图像数据库。
在一个实施例中,图像查询参数为参照图像,图像数据库还包括每张图像的特征向量,第一图像查询结果还包括第一候选图像的特征向量;计算机程序被处理器执行时还实现以下步骤:获取参照图像的特征向量;根据参照图像的特征向量与第一候选图像的特征向量之间的距离,从第一候选图像中确定目标图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将与参照图像的特征向量的距离小于预设距离阈值的第一候选图像,确定为目标图像。
在一个实施例中,图像查询参数包括查询标签以及参照图像,图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的特征向量、第一候选图像的图像标签和第一候选图像属于图像标签的概率;计算机程序被处理器执行时还实现以下步骤:根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像;将第二候选图像中隶属于查询标签的概率大于预设概率阈值的第二候选图像确定为第三候选图像;获取参照图像的特征向量;根据参照图像的特征向量与第三候选图像的特征向量之间的距离,从第三候选图像中确定目标图像。
在一个实施例中,图像查询参数包括查询标签以及参照图像,图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的特征向量、第一候选图像的图像标签和第一候选图像属于图像标签的概率;计算机程序被处理器执行时还实现以下步骤:获取参照图像的特征向量;根据参照图像的特征向量,将第一图像查询结果中与参照图像的特征向量之间的距离小于预设距离阈值的第一候选图像确定为第二候选图像;根据查询标签,将与查询标签相同的第二候选图像确定为第三候选图像;将第三候选图像中隶属于查询标签的概率大于预设概率阈值的第三候选图像确定为目标图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将图像集合中的每张图像输入至预设的特征提取网络进行特征提取,得到特征提取结果,该特征提取结果包括每张图像的特征向量;其中,特征提取网络包括至少两个不同的特征提取子网络,每个特征提取子网络的最后一层池化层输出的特征矩阵共同输入至公共全连接层进行全连接处理;将图像集合以及特征提取结果存储至图像数据库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:特征提取子网络为ResNet152骨干网络、ResNet200骨干网络、SEResNet152骨干网络和InceptionV4骨干网络中的任一个。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
接收终端响应于用户的触发操作发送的图像检索请求;其中,图像检索请求用于从图像数据库中获取目标图像,该图像检索请求包括图像场景信息以及图像查询参数,图像查询参数包括查询标签和/或参照图像,该参照图像为用于与目标图像进行相似度对比的图像;
根据图像场景信息查询图像数据库,获取第一图像查询结果;其中,第一图像查询结果包括与图像场景信息对应的第一候选图像,图像数据库包括按照不同场景进行存储的多张图像;
根据图像查询参数以及第一图像查询结果,确定目标图像。
在一个实施例中,图像查询参数为查询标签,图像数据库还包括每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的图像标签和第一候选图像属于图像标签的概率;计算机程序被处理器执行时还实现以下步骤:根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像;根据第二候选图像隶属于查询标签的概率,确定目标图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将隶属于查询标签的概率大于预设概率阈值的第二候选图像,确定为目标图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将图像集合中的每张图像输入至预设的标签识别网络进行标签识别处理,得到识别结果,该识别结果包括每张图像的图像标签以及图像属于图像标签的概率;将图像集合以及识别结果存储至图像数据库。
在一个实施例中,图像查询参数为参照图像,图像数据库还包括每张图像的特征向量,第一图像查询结果还包括第一候选图像的特征向量;计算机程序被处理器执行时还实现以下步骤:获取参照图像的特征向量;根据参照图像的特征向量与第一候选图像的特征向量之间的距离,从第一候选图像中确定目标图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将与参照图像的特征向量的距离小于预设距离阈值的第一候选图像,确定为目标图像。
在一个实施例中,图像查询参数包括查询标签以及参照图像,图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的特征向量、第一候选图像的图像标签和第一候选图像属于图像标签的概率;计算机程序被处理器执行时还实现以下步骤:根据查询标签,从第一图像查询结果中确定图像标签与查询标签相同的第二候选图像;将第二候选图像中隶属于查询标签的概率大于预设概率阈值的第二候选图像确定为第三候选图像;获取参照图像的特征向量;根据参照图像的特征向量与第三候选图像的特征向量之间的距离,从第三候选图像中确定目标图像。
在一个实施例中,图像查询参数包括查询标签以及参照图像,图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于图像标签的概率,第一图像查询结果还包括第一候选图像的特征向量、第一候选图像的图像标签和第一候选图像属于图像标签的概率;计算机程序被处理器执行时还实现以下步骤:获取参照图像的特征向量;根据参照图像的特征向量,将第一图像查询结果中与参照图像的特征向量之间的距离小于预设距离阈值的第一候选图像确定为第二候选图像;根据查询标签,将与查询标签相同的第二候选图像确定为第三候选图像;将第三候选图像中隶属于查询标签的概率大于预设概率阈值的第三候选图像确定为目标图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将图像集合中的每张图像输入至预设的特征提取网络进行特征提取,得到特征提取结果,该特征提取结果包括每张图像的特征向量;其中,特征提取网络包括至少两个不同的特征提取子网络,每个特征提取子网络的最后一层池化层输出的特征矩阵共同输入至公共全连接层进行全连接处理;将图像集合以及特征提取结果存储至图像数据库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:特征提取子网络为ResNet152骨干网络、ResNet200骨干网络、SEResNet152骨干网络和InceptionV4骨干网络中的任一个。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (14)
1.一种图像检索方法,其特征在于,所述方法包括:
接收终端响应于用户的触发操作发送的图像检索请求;其中,所述图像检索请求用于从图像数据库中获取目标图像,所述图像检索请求包括图像场景信息以及图像查询参数,所述图像查询参数包括查询标签和/或参照图像,所述参照图像为用于与所述目标图像进行相似度对比的图像;
根据所述图像场景信息查询所述图像数据库,获取第一图像查询结果;其中,所述第一图像查询结果包括与所述图像场景信息对应的第一候选图像,所述图像数据库包括按照不同场景进行存储的多张图像;
根据所述图像查询参数以及所述第一图像查询结果,确定目标图像。
2.根据权利要求1所述的方法,其特征在于,所述图像查询参数为所述查询标签,所述图像数据库还包括每张图像的图像标签以及每张图像隶属于所述图像标签的概率,所述第一图像查询结果还包括所述第一候选图像的图像标签和所述第一候选图像属于所述图像标签的概率;
相应的,所述根据所述图像查询参数以及所述第一图像查询结果,确定目标图像,包括:
根据所述查询标签,从所述第一图像查询结果中确定图像标签与所述查询标签相同的第二候选图像;
根据所述第二候选图像隶属于所述查询标签的概率,确定所述目标图像。
3.根据权利要求2所述的方法,其特征在于,
将隶属于所述查询标签的概率大于预设概率阈值的第二候选图像,确定为所述目标图像。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将图像集合中的每张图像输入至预设的标签识别网络进行标签识别处理,得到识别结果,所述识别结果包括每张图像的图像标签以及所述图像属于所述图像标签的概率;
将所述图像集合以及所述识别结果存储至所述图像数据库。
5.根据权利要求1所述的方法,其特征在于,所述图像查询参数为所述参照图像,所述图像数据库还包括每张图像的特征向量,所述第一图像查询结果还包括所述第一候选图像的特征向量;
相应的,所述根据所述图像查询参数以及第一图像查询结果,确定目标图像,包括:
获取所述参照图像的特征向量;
根据所述参照图像的特征向量与所述第一候选图像的特征向量之间的距离,从所述第一候选图像中确定所述目标图像。
6.根据权利要求5所述的方法,其特征在于,所述根据所述参照图像的特征向量与所述第一候选图像的特征向量之间的距离,从所述第一候选图像中确定所述目标图像,包括:
将与所述参照图像的特征向量的距离小于预设距离阈值的第一候选图像,确定为所述目标图像。
7.根据权利要求1所述的方法,其特征在于,所述图像查询参数包括所述查询标签以及所述参照图像,所述图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于所述图像标签的概率,所述第一图像查询结果还包括所述第一候选图像的特征向量、所述第一候选图像的图像标签和所述第一候选图像属于所述图像标签的概率;
相应的,所述根据所述图像查询参数以及第一图像查询结果,确定目标图像,包括:
根据所述查询标签,从所述第一图像查询结果中确定图像标签与所述查询标签相同的第二候选图像;
将所述第二候选图像中隶属于所述查询标签的概率大于预设概率阈值的第二候选图像确定为第三候选图像;
获取所述参照图像的特征向量;
根据所述参照图像的特征向量与所述第三候选图像的特征向量之间的距离,从所述第三候选图像中确定所述目标图像。
8.根据权利要求1所述的方法,其特征在于,所述图像查询参数包括所述查询标签以及所述参照图像,所述图像数据库还包括每张图像的特征向量、每张图像的图像标签以及每张图像隶属于所述图像标签的概率,所述第一图像查询结果还包括所述第一候选图像的特征向量、所述第一候选图像的图像标签和所述第一候选图像属于所述图像标签的概率;
相应的,所述根据所述图像查询参数以及第一图像查询结果,确定目标图像,包括:
获取所述参照图像的特征向量;
根据所述参照图像的特征向量,将所述第一图像查询结果中与所述参照图像的特征向量之间的距离小于预设距离阈值的第一候选图像确定为第二候选图像;
根据所述查询标签,将与所述查询标签相同的第二候选图像确定为第三候选图像;
将所述第三候选图像中隶属于所述查询标签的概率大于预设概率阈值的第三候选图像确定为所述目标图像。
9.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将图像集合中的每张图像输入至预设的特征提取网络进行特征提取,得到特征提取结果,所述特征提取结果包括每张图像的特征向量;其中,所述特征提取网络包括至少两个不同的特征提取子网络,每个特征提取子网络的最后一层池化层输出的特征矩阵共同输入至公共全连接层进行全连接处理;
将所述图像集合以及所述特征提取结果存储至所述图像数据库。
10.根据权利要求9所述的方法,其特征在于,所述特征提取子网络为ResNet152骨干网络、ResNet200骨干网络、SEResNet152骨干网络和InceptionV4骨干网络中的任一个。
11.一种图像检索装置,其特征在于,所述装置包括:
第一获取模块,用于接收终端响应于用户的触发操作发送的图像检索请求;其中,所述图像检索请求用于从图像数据库中获取目标图像,所述图像检索请求包括图像场景信息以及图像查询参数,所述图像查询参数包括查询标签和/或参照图像,所述参照图像为用于与所述目标图像进行相似度对比的图像;
第二获取模块,用于根据所述图像场景信息查询所述图像数据库,获取第一图像查询结果;其中,所述第一图像查询结果包括与所述图像场景信息对应的第一候选图像,所述图像数据库包括按照不同场景进行存储的多张图像;
确定模块,用于根据所述图像查询参数以及所述第一图像查询结果,确定目标图像。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211065565.9A CN115146103A (zh) | 2022-09-01 | 2022-09-01 | 图像检索方法、装置、计算机设备、存储介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211065565.9A CN115146103A (zh) | 2022-09-01 | 2022-09-01 | 图像检索方法、装置、计算机设备、存储介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115146103A true CN115146103A (zh) | 2022-10-04 |
Family
ID=83416583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211065565.9A Pending CN115146103A (zh) | 2022-09-01 | 2022-09-01 | 图像检索方法、装置、计算机设备、存储介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115146103A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610848A (zh) * | 2023-07-17 | 2023-08-18 | 上海爱可生信息技术股份有限公司 | 基于npu优化的向量数据库检索方法及可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718555A (zh) * | 2016-01-19 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 一种基于层次化语义描述的图像检索方法 |
CN106528800A (zh) * | 2016-11-11 | 2017-03-22 | 叶火 | 一种基于真实场景的影像生成方法及装置 |
CN107025275A (zh) * | 2017-03-21 | 2017-08-08 | 腾讯科技(深圳)有限公司 | 视频搜索方法及装置 |
CN110209866A (zh) * | 2019-05-30 | 2019-09-06 | 苏州浪潮智能科技有限公司 | 一种图像检索方法、装置、设备及计算机可读存储介质 |
CN110472090A (zh) * | 2019-08-20 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 基于语义标签的图像检索方法以及相关装置、存储介质 |
CN111684441A (zh) * | 2019-11-15 | 2020-09-18 | 深圳海付移通科技有限公司 | 基于图像数据的消息推送方法、设备及计算机存储介质 |
CN112612913A (zh) * | 2020-12-28 | 2021-04-06 | 厦门市美亚柏科信息股份有限公司 | 一种用于图像的搜索方法和系统 |
CN113220928A (zh) * | 2020-01-21 | 2021-08-06 | 北京达佳互联信息技术有限公司 | 一种图像搜索方法、装置、电子设备及存储介质 |
CN113988147A (zh) * | 2021-12-08 | 2022-01-28 | 南京信息工程大学 | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 |
-
2022
- 2022-09-01 CN CN202211065565.9A patent/CN115146103A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718555A (zh) * | 2016-01-19 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 一种基于层次化语义描述的图像检索方法 |
CN106528800A (zh) * | 2016-11-11 | 2017-03-22 | 叶火 | 一种基于真实场景的影像生成方法及装置 |
CN107025275A (zh) * | 2017-03-21 | 2017-08-08 | 腾讯科技(深圳)有限公司 | 视频搜索方法及装置 |
CN110209866A (zh) * | 2019-05-30 | 2019-09-06 | 苏州浪潮智能科技有限公司 | 一种图像检索方法、装置、设备及计算机可读存储介质 |
CN110472090A (zh) * | 2019-08-20 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 基于语义标签的图像检索方法以及相关装置、存储介质 |
CN111684441A (zh) * | 2019-11-15 | 2020-09-18 | 深圳海付移通科技有限公司 | 基于图像数据的消息推送方法、设备及计算机存储介质 |
CN113220928A (zh) * | 2020-01-21 | 2021-08-06 | 北京达佳互联信息技术有限公司 | 一种图像搜索方法、装置、电子设备及存储介质 |
CN112612913A (zh) * | 2020-12-28 | 2021-04-06 | 厦门市美亚柏科信息股份有限公司 | 一种用于图像的搜索方法和系统 |
CN113988147A (zh) * | 2021-12-08 | 2022-01-28 | 南京信息工程大学 | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 |
Non-Patent Citations (1)
Title |
---|
闫龙川 等: "基于深度学习的电网图片智能管理系统设计与实现", 《电力信息与通信技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610848A (zh) * | 2023-07-17 | 2023-08-18 | 上海爱可生信息技术股份有限公司 | 基于npu优化的向量数据库检索方法及可读存储介质 |
CN116610848B (zh) * | 2023-07-17 | 2023-10-20 | 上海爱可生信息技术股份有限公司 | 基于npu优化的向量数据库检索方法及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Memon et al. | GEO matching regions: multiple regions of interests using content based image retrieval based on relative locations | |
US10025950B1 (en) | Systems and methods for image recognition | |
CN105912611B (zh) | 一种基于cnn的快速图像检索方法 | |
Masci et al. | Multimodal similarity-preserving hashing | |
US8676725B1 (en) | Method and system for entropy-based semantic hashing | |
US9053386B2 (en) | Method and apparatus of identifying similar images | |
Pedronette et al. | Multimedia retrieval through unsupervised hypergraph-based manifold ranking | |
WO2013129580A1 (ja) | 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム | |
CN113298197B (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
CN110555164B (zh) | 群体兴趣标签的生成方法、装置、计算机设备和存储介质 | |
US9665773B2 (en) | Searching for events by attendants | |
KR101472451B1 (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
CN113434716A (zh) | 一种跨模态信息检索方法和装置 | |
CN116703531B (zh) | 物品数据处理方法、装置、计算机设备和存储介质 | |
Yang et al. | A multimedia semantic retrieval mobile system based on HCFGs | |
CN112115281A (zh) | 数据检索方法、装置及存储介质 | |
Kawabata et al. | Non-Linear Mining of Social Activities in Tensor Streams | |
CN115146103A (zh) | 图像检索方法、装置、计算机设备、存储介质和程序产品 | |
Pavithra et al. | An improved seed point selection-based unsupervised color clustering for content-based image retrieval application | |
CN110209895B (zh) | 向量检索方法、装置和设备 | |
CN116980472A (zh) | 推送数据的处理方法、数据推送模型的训练方法和装置 | |
Dhoot et al. | Efficient Dimensionality Reduction for Big Data Using Clustering Technique | |
CN115082999A (zh) | 合影图像人物分析方法、装置、计算机设备和存储介质 | |
CN114566160A (zh) | 语音处理方法、装置、计算机设备、存储介质 | |
CN114329065A (zh) | 视频标签预测模型的处理方法、视频标签预测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221004 |
|
RJ01 | Rejection of invention patent application after publication |