CN115410199A - 图像内容检索方法、装置、设备及存储介质 - Google Patents

图像内容检索方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115410199A
CN115410199A CN202211070298.4A CN202211070298A CN115410199A CN 115410199 A CN115410199 A CN 115410199A CN 202211070298 A CN202211070298 A CN 202211070298A CN 115410199 A CN115410199 A CN 115410199A
Authority
CN
China
Prior art keywords
image
semantic
cluster
query
multidimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211070298.4A
Other languages
English (en)
Inventor
南晓停
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202211070298.4A priority Critical patent/CN115410199A/zh
Publication of CN115410199A publication Critical patent/CN115410199A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本说明书涉及图像检索技术领域,提供了一种图像内容检索方法、装置、设备及存储介质,该方法包括:接收输入的查询图像;将所述查询图像输入至预训练的HRNet网络中,以提取所述查询图像的图像语义多维特征;所述图像语义多维特征为所述查询图像的图像特征的多维语义表示;确定所述查询图像在图像簇集合中所归属的目标图像簇;确定所述图像语义多维特征分别与所述目标图像簇中每个图像的图像语义多维特征的相似度;根据所述相似度从所述目标图像簇中匹配出多个图像,以作为所述查询图像的检索结果。本说明书实施例可以提高图像检索结果的准确性。

Description

图像内容检索方法、装置、设备及存储介质
技术领域
本说明书涉及图像检索技术领域,尤其是涉及一种图像内容检索方法、装置、设备及存储介质。
背景技术
在金融行业,对监控图像进行分析(例如监控图像锁定),借助遥感图像辅助进行贷后风险管理、期货交易判断等场景下,均涉及到图像检索技术。随着大数据时代的来临和人工智能技术的快速发展,基于深度学习的图像内容检索方式逐渐代替传统图像检索方式。通过神经网络(例如深度学习网络)的学习,可以学习到具有语义的特征,缓解了语义鸿沟和算法泛化性受限问,从而避免繁琐的人工设计特征步骤。
然而,本申请的发明人研究发现:目前基于深度学习的图像内容检索,容易忽略图像本身的细节信息,难以获得准确性较高的图像检索结果。
发明内容
本说明书实施例的目的在于提供一种图像内容检索方法、装置、设备及存储介质,以提高图像检索结果的准确性。
为达到上述目的,一方面,本说明书实施例提供了一种图像内容检索方法,包括:
接收输入的查询图像;
将所述查询图像输入至预训练的HRNet网络中,以提取所述查询图像的图像语义多维特征;所述图像语义多维特征为所述查询图像的图像特征的多维语义表示;
确定所述查询图像在图像簇集合中所归属的目标图像簇;
确定所述图像语义多维特征分别与所述目标图像簇中每个图像的图像语义多维特征的相似度;
根据所述相似度从所述目标图像簇中匹配出多个图像,以作为所述查询图像的检索结果。
本说明书实施例的图像内容检索方法中,所述HRNet网络在预训练过程中所采用损失函数包括:
Figure BDA0003829793440000021
其中,L1为分类损失函数,L2为中心损失函数,L为损失函数值,m为输入HRNet网络中每一批次的大小,n为类别数量,xi为第i个训练样本的特征,yi为第i个训练样本的类别标签,
Figure BDA0003829793440000022
为yi的权重的转置,
Figure BDA0003829793440000023
为第j个类别标签的权重的转置,
Figure BDA0003829793440000024
为第i个训练样本的类别标签的偏置,bj为第j个类别标签,λ为用于平衡L1和L2的超参数,
Figure BDA0003829793440000025
为第i个训练样本的类别标签的类中心。
本说明书实施例的图像内容检索方法中,所述超参数的取值范围为0.0001~0.01。
本说明书实施例的图像内容检索方法中,所述确定所述查询图像在图像簇集合中所归属的目标图像簇,包括:
将所述查询图像的图像语义多维特征,分别与所述图像簇集合中每个图像簇的簇中心进行余弦距离相似度计算,获得多个余弦距离相似度值;
将所述多个余弦距离相似度值按照由大至小的顺序排序;
将位于排序中第一顺位对应的图像簇,作为所述查询图像在所述图像簇集合中所归属的目标图像簇。
本说明书实施例的图像内容检索方法中,所述图像簇集合预先通过以下方式确定:
在完成所述HRNet网络的训练后,基于所述HRNet网络提取全量图像的图像语义多维特征;
基于所述全量图像的图像语义多维特征对所述全量图像进行聚类,获得所述图像簇集合。
本说明书实施例的图像内容检索方法中,所述图像语义多维特征中包括512维度的图像语义特征。
另一方面,本说明书实施例还提供了一种图像内容检索装置,包括:
查询图像接收模块,用于接收输入的查询图像;
语义特征提取模块,用于将所述查询图像输入至预训练的HRNet网络中,以提取所述查询图像的图像语义多维特征;所述图像语义多维特征为所述查询图像的图像特征的多维语义表示;
图像簇确定模块,用于确定所述查询图像在图像簇集合中所归属的目标图像簇;
相似度计算模块,用于确定所述图像语义多维特征分别与所述目标图像簇中每个图像的图像语义多维特征的相似度;
检索结果生成模块,用于根据所述相似度从所述目标图像簇中匹配出多个图像,以作为所述查询图像的检索结果。
另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。
另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
另一方面,本说明书实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
由以上本说明书实施例提供的技术方案可见,本说明书实施例由于预训练的HRNet网络能够通过并行的多分辨率子网络反复交换特征信息来完成多尺度的融合,使得低分辨率表征可以从其他的并行表示中得到高分辨率特征,从而可以得到考虑更多图像细节的图像特征的多维语义表示,据此可以从图像簇集合中查询到与查询图像更加匹配的图像,从而通过这种细粒度的检索提高了图像检索结果的准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本说明书一些实施例中图像检索系统的示意图;
图2示出了本说明书一些实施例中图像内容检索方法的流程图;
图3示出了本说明书一些实施例中HRNet网络的结构示意图;
图4示出了图2所示方法中确定查询图像在图像簇集合中所归属的目标图像簇的流程图;
图5示出了本说明书一些实施例中HRNet网络的训练流程图;
图6示出了本说明书一些实施例中图像内容检索装置的结构框图;
图7示出了本说明书一些实施例中计算机设备的结构框图。
【附图标记说明】
10、客户端;
20、服务端;
30、数据库;
61、查询图像接收模块;
62、语义特征提取模块;
63、图像簇确定模块;
64、相似度计算模块;
65、检索结果生成模块;
702、计算机设备;
704、处理器;
706、存储器;
708、驱动机构;
710、输入/输出接口;
712、输入设备;
714、输出设备;
716、呈现设备;
718、图形用户接口;
720、网络接口;
722、通信链路;
724、通信总线。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例涉及图像检索技术,可以应用于金融行业的监控图像分析、基于遥感图像的贷后风险管理、期货交易判断等场景。本领域技术人员可以理解,本说明书实施例的图像检索技术并不限于金融行业的图像检索,还可以应用于其他行业(或领域)中的遥感图像获取、监控图像锁定、网上商城以图搜索等图像检索场景;本说明书对此不作唯一限定。
图1中示出了本说明书一些实施例的图像检索系统,该图像检索系统可以包括客户端10、服务端20和数据库30。服务端20中配置有预训练的高分辨率网络(High-resolution Network,HRNet)网络,数据库30中存储有图像簇集合。服务端20可以接收用户通过客户端10输入的查询图像;将所述查询图像输入至HRNet网络中,以提取所述查询图像的图像语义多维特征(图像语义多维特征为查询图像的图像特征的多维语义表示);确定所述查询图像在数据库30存储的图像簇集合中所归属的目标图像簇;确定所述图像语义多维特征分别与所述目标图像簇中每个图像的图像语义多维特征的相似度;根据所述相似度从所述目标图像簇中匹配出多个图像,以作为所述查询图像的检索结果。因此,
由于服务端20配置的预训练的HRNet网络能够通过并行的多分辨率子网络反复交换特征信息来完成多尺度的融合,使得低分辨率表征可以从其他的并行表示中得到高分辨率特征,从而可以得到考虑更多图像细节的图像特征的多维语义表示,据此可以从图像簇集合中查询到与查询图像更加匹配的图像,从而通过这种细粒度的检索提高了图像检索结果的准确性。
在一些实施例中,所述服务端20可以为具有运算和网络交互功能的电子设备;也可以为运行于该电子设备中,为数据处理和网络交互提供业务逻辑的软件。所述客户端10可以为自助终端设备、移动终端(即智能手机)、显示器、台式电脑、平板电脑、笔记本电脑、数字助理或智能可穿戴设备等。其中,智能可穿戴设备可以包括智能手环、智能手表、智能眼镜或智能头盔等。当然,所述客户端10并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软件。数据库30可以优选Redis数据库,与MySQL数据库等传统数据库相比,在实际图像检索过程中,Redis数据库的速度更快。
本说明书实施例提供了一种图像内容检索方法,可以应用于上述服务端侧,参考图2所示,在一些实施例中,所述图像内容检索方法可以包括以下步骤:
步骤201、接收输入的查询图像。
查询图像相当于用户输入的查询指令,以从数据库中检索出与查询图像最相似或最相关的图像,以实现以图搜图。当有图像内容检索需求时,用户可以通过客户端向服务端输入查询图像,以发起图像内容检索请求,从而使得服务端可以接收到输入的查询图像。
在一示例性实施例中,以金融业的监控图像锁定为例,查询图像可以是包含特定对象(例如人、保险箱等)图像的监控图像。在另一示例性实施例中,以金融业的基于遥感图像的贷后风险管理为例,查询图像可以是包含特定室外对象(例如牧场、农场等)图像的遥感图像。
步骤202、将所述查询图像输入至预训练的HRNet网络中,以提取所述查询图像的图像语义多维特征;所述图像语义多维特征为所述查询图像的图像特征的多维语义表示。
预训练的HRNet网络是一种预训练的用于图像语义多维特征提取的特征提取模型。HRNet网络可以从高分辨率子网作为第一阶段始,逐步增加高分辨率到低分辨率的子网形成更多的阶段,并将多分辨率子网并行连接。在整个过程中,通过在并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合,使得每一个高分辨率到低分辨率的表征都从其他并行表示中反复接收信息,从而得到丰富的高分辨率表征。因此,相比于ResNet等深度学习网络,利用HRNet网络进行图像特征提取时,可以降低或避免图像细节的丢失。
结合图3所示,在本说明书实施例中,可以将HRNet网络的高分辨率特征通过一个或若干过连续的步长为2的3×3卷积核的下采样方式降低到与原低分辨率特征相同,再通过逐元素相加来对不同分辨率特征进行融合。可以将HRNet网络的低分辨率特征通过最近邻插值的上采样方式(例如使用2倍或4倍的上采样率方式)来增加特征图的分辨率达到与原高分辨率特征图相同,最后再采用1×1卷积来改变通道数使得通道数与原高分辨率特征图一致,然后再进行相加融合。
图像语义即为图像内容的含义。图像语义可以通过语言来表达,包括自然语言和符号语言(数学语言)等。换而言之,图像语义的表达并不限于自然语言,其外延对应于人类视觉系统对于图像的所有理解方式。例如,对于一幅小狗的图像,其图像语义可以包括自然语言单词“小狗”,也可以是一个表示该幅图像中的小狗图像的符号(或向量),该符号指的是与该幅图像中的小狗具有相同品种、性别等属性的“小狗”。因此,图像语义多维特征即为查询图像的图像特征的多维语义表示,其具有可辨识性,能用于将一个图像与其他图像区分开。
图像语义特征的维度越多,越能精确描述图像(即图像的细节特征丢失越少),但对应的处理复杂度(或处理耗时)也就越高;反之,图像语义特征的维度越少,越难以精确描述图像(即图像的细节特征丢失越多),但对应的处理复杂度也就越低。为了平衡细节特征和处理复杂度,在一些实施例中,图像语义特征的特征维度可以优选512个维度(以下简称512维度)。即每个图像均可以通过HRNet网络提取出512维度的图像语义特征。
步骤203、确定所述查询图像在图像簇集合中所归属的目标图像簇。
图像簇集合对应的全量图像形成了查询图像的全量检索范围,即可以从全量图像中匹配与查询图像最相似或最相关的图像。图像簇集合中包含多个图像簇,每个图像簇即为一个图像类别。图像簇集合对应的全量图像作为全量检索范围,数据量巨大,如果直接在全量图像中进行检索,效率较低。因此需要对全量图像进行簇(即分类),在确定查询图像在图像簇集合中所归属的图像簇后,在所归属的图像簇范围内匹配与查询图像最相似或最相关的图像,则可以大大缩小检索范围,从而有利于提高检索效率。
在一些实施例中,以图像语义多维特征的特征维度为512维度的图像语义特征为例,图像簇集合中的每个图像均对应有512维度的图像语义多维特征。图像簇集合存储于Redis数据库中,在Redis数据库中,图像簇集合中每幅图像及其对应的512维度的图像语义多维特征以键值对方式存储,键为每幅图像的id,值为每幅图像的512维的图像语义特征。
参考图4所示,确定查询图像在图像簇集合中所归属的目标图像簇可以包括如下步骤:
步骤401、将所述查询图像的图像语义多维特征,分别与所述图像簇集合中每个图像簇的簇中心进行余弦距离相似度计算,获得多个余弦距离相似度值。
每个图像簇的簇中心即为该图像簇的聚类中心,可以用于表征该图像簇。
应当理解的是,这里的余弦距离相似度仅为计算相似度的示例性举例说明,在其他实施例中,余弦距离相似度也可以替换为其他任何合适的相似度算法,本说明书对此不作唯一限定。
步骤402、将所述多个余弦距离相似度值按照由大至小的顺序排序。
步骤403、将位于排序中第一顺位对应的图像簇,作为所述查询图像在所述图像簇集合中所归属的目标图像簇。
通过确定查询图像在图像簇集合中所归属的目标图像簇,可以大幅缩小检索范围。
步骤204、确定所述图像语义多维特征分别与所述目标图像簇中每个图像的图像语义多维特征的相似度。
在一些实施例中,在计算查询图像的图像语义多维特征分别与所述目标图像簇中每个图像的图像语义多维特征的相似度时,也可以基于余弦距离相似度等相似度算法实现,在此不再赘述。
步骤205、根据所述相似度从所述目标图像簇中匹配出多个图像,以作为所述查询图像的检索结果。
根据所述相似度从所述目标图像簇中匹配出多个图像可以包括:将这些相似度进行由大至小排序,然后从排序的第一顺位开始选择前N(即Top-N)个与查询图像最相似或最相关的多个图像,作为命中结果(即检索结果)。然后可以向客户端返回检索结果,以供用户查看。由于图像语义多维特征保留有更多的图像细节特征,从而据此进行检索,可以有利于获得更加准确的检索结果。
在一些实施例中,在将所述查询图像输入至预训练的HRNet网络中,以提取所述查询图像的图像语义多维特征之前,还可以判断查询图像是否满足预设尺寸要求;如果不满足,则需要先将其调整至预设尺寸;如果满足,则可以直接将所述查询图像输入至预训练的HRNet网络中。其中,预设尺寸与先前训练HRNet网络时所采用的预设尺寸一致,如此,可以有利于提高HRNet网络的预测精度。
参考图5所示,HRNet网络的训练过程可以包括如下步骤:
步骤501、输入图像和类别标签信息至HRNet网络,输出得到预测类别标签。
输入的图像为从图像训练集中选择的图像,类别标签用于表示图像语义特征的类别。由于从HRNet网络可以提取多个维度的图像语义特征,将图像和类别标签输入至HRNet网络中可以提取得到该图像的多个维度的图像语义特征。但是,在训练完成前,由于HRNet网络尚未达到期望的预测能力(例如预测精度等),不能直接应用。
在一些实施例中,HRNet网络的输出分类器可以采用softmax分类函数,网络优化器可以采用Adam优化方式。在训练前,可以设置初始学习率、迭代轮数。每批次输入的图像个数等。例如,在一示例性实施例中,可以设置初始学习率为0.001,训练30个迭代轮数(Epochs),每个批次送入HRNet网络的图像个数为32。
步骤502、计算输入的类别标签与输出的预测类别标签的误差损失。
在一些实施例中,可以根据如下损失函数来计算输入的类别标签与输出的预测类别标签的误差损失。
Figure BDA0003829793440000091
其中,L1为分类损失函数,L2为中心损失函数,L为损失函数值,m为输入HRNet网络中每一批次的大小,n为类别数量,xi为第i个训练样本的特征,yi为第i个训练样本的类别标签,
Figure BDA0003829793440000092
为yi的权重的转置,
Figure BDA0003829793440000093
为第j个类别标签的权重的转置,
Figure BDA0003829793440000094
为第i个训练样本的类别标签的偏置,bj为第j个类别标签,λ为用于平衡L1和L2的超参数,
Figure BDA0003829793440000095
为第i个训练样本的类别标签的类中心。
引入分类损失函数L1可以使得不同类别的特征在映射空间尽可能远(即类间更加稀疏),从而有利于加快模型的收敛,引入中心损失函数L2可以使得同一个类别的样本在映射空间应尽可能相近(即类内更加紧凑),从而可以解决图像中某些类别过于相似的问题。因此,在模型训练过程中,在分类损失函数L1和中心损失函数L2的联合监督下,模型(即HRNet网络)可以学习到更具有“辨识性”的特征,进而有利于提高检索准确率。此外,在分类损失函数L1和中心损失函数L2的联合监督下行学习时,需要一个超参数λ来平衡两个监督信号。经研究实践,超参数λ处于0.0001到0.01范围内时,分类准确率都较高。
步骤503、判断误差损失是否满足预设条件;如果不满足预设条件,则返回步骤504;如果满足预设条件,则执行步骤505。
误差损失是否满足预设条件可以是指:误差小于设定的误差阈值,或迭代次数达到迭代次数上限。
步骤504、利用反向传播算法优化网络权重参数,并跳转至步骤501,以继续训练。
步骤505、保存当前的HRNet网络,以作为预训练的HRNet网络。
步骤506、获取全量图像的图像语义多维特征,并据此对全量图像进行聚类,以生成图像簇集合。
在完成HRNet网络的训练后,可以基于预训练的HRNet网络对全量图像进行特征提取,获取全量图像的图像语义多维特征。然后基于全量图像的图像语义多维特征,对全量图像进行聚类,从而可以生成图像簇集合。
在一些实施例中,聚类可以采用无监督的小批量K-Means聚类模型(即Mini BatchK-Means),与传统的K-Means算法相比,无监督的小批量K-Means聚类模型采用随机采样的思想,每次使用的数据集是随机抽取的数据子集,从而可有效减少聚类耗时,提高聚类效率。
此外,在采用Mini Batch K-Means进行聚类时,需要设置超参数K(即图像簇(或类别)个数);将数据库中所有图像特征送入Mini Batch K-Means聚类模型,学习得到K个簇,K个簇的簇中心(均值)依次为Ci(i=0,1,2,3,...,K-1)。K值过小,容易造成簇中样本过多,在检索时相似度计算量过大,检索时间变长;K值过大,容易造成簇中样本过少,从而影响检索准确度。因此,需要适当设置超参数K,以利于平衡检索速度和检索准确度。例如,当数据库中图像特征条目数为10万时,可设置超参数K=50;当条目数增加到20万时,可设置超参数K=100。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
与上述的图像内容检索方法对应,本说明书实施例还提供了一种图像内容检索装置,其可以配置于上述服务端上,参考图6所示,在一些实施例中,图像内容检索装置可以包括:
查询图像接收模块61,用于接收输入的查询图像;
语义特征提取模块62,用于将所述查询图像输入至预训练的HRNet网络中,以提取所述查询图像的图像语义多维特征;所述图像语义多维特征为所述查询图像的图像特征的多维语义表示;
图像簇确定模块63,用于确定所述查询图像在图像簇集合中所归属的目标图像簇;
相似度计算模块64,用于确定所述图像语义多维特征分别与所述目标图像簇中每个图像的图像语义多维特征的相似度;
检索结果生成模块65,用于根据所述相似度从所述目标图像簇中匹配出多个图像,以作为所述查询图像的检索结果。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
需要说明的是,本说明书的实施例中,所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权同意且经过各方充分授权的信息和数据。
本说明书的实施例还提供一种计算机设备。如图7所示,在本说明书一些实施例中,所述计算机设备702可以包括一个或多个处理器704,诸如一个或多个中央处理单元(CPU)或图形处理器(GPU),每个处理单元可以实现一个或多个硬件线程。计算机设备702还可以包括任何存储器706,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具体实施例中,存储器706上并可在处理器704上运行的计算机程序,所述计算机程序被所述处理器704运行时,可以执行上述任一实施例所述的图像内容检索方法的指令。非限制性的,比如,存储器706可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备702的固定或可移除部件。在一种情况下,当处理器704执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备702可以执行相关联指令的任一操作。计算机设备702还包括用于与任何存储器交互的一个或多个驱动机构708,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备702还可以包括输入/输出接口710(I/O),其用于接收各种输入(经由输入设备712)和用于提供各种输出(经由输出设备714)。一个具体输出机构可以包括呈现设备716和相关联的图形用户接口718(GUI)。在其他实施例中,还可以不包括输入/输出接口710(I/O)、输入设备712以及输出设备714,仅作为网络中的一台计算机设备。计算机设备702还可以包括一个或多个网络接口720,其用于经由一个或多个通信链路722与其他设备交换数据。一个或多个通信总线724将上文所描述的部件耦合在一起。
通信链路722可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路722可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务端等的任何组合。
本申请是参照本说明书一些实施例的方法、设备(系统)、计算机可读存储介质和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产生一个机器,使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理器上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本说明书中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
还应理解,在本说明书实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种图像内容检索方法,其特征在于,包括:
接收输入的查询图像;
将所述查询图像输入至预训练的HRNet网络中,以提取所述查询图像的图像语义多维特征;所述图像语义多维特征为所述查询图像的图像特征的多维语义表示;
确定所述查询图像在图像簇集合中所归属的目标图像簇;
确定所述图像语义多维特征分别与所述目标图像簇中每个图像的图像语义多维特征的相似度;
根据所述相似度从所述目标图像簇中匹配出多个图像,以作为所述查询图像的检索结果。
2.如权利要求1所述的图像内容检索方法,其特征在于,所述HRNet网络在预训练过程中所采用损失函数包括:
Figure FDA0003829793430000011
其中,L1为分类损失函数,L2为中心损失函数,L为损失函数值,m为输入HRNet网络中每一批次的大小,n为类别数量,xi为第i个训练样本的特征,yi为第i个训练样本的类别标签,
Figure FDA0003829793430000012
为yi的权重的转置,
Figure FDA0003829793430000013
为第j个类别标签的权重的转置,
Figure FDA0003829793430000014
为第i个训练样本的类别标签的偏置,bj为第j个类别标签,λ为用于平衡L1和L2的超参数,
Figure FDA0003829793430000015
为第i个训练样本的类别标签的类中心。
3.如权利要求2所述的图像内容检索方法,其特征在于,所述超参数的取值范围为0.0001~0.01。
4.如权利要求1所述的图像内容检索方法,其特征在于,所述确定所述查询图像在图像簇集合中所归属的目标图像簇,包括:
将所述查询图像的图像语义多维特征,分别与所述图像簇集合中每个图像簇的簇中心进行余弦距离相似度计算,获得多个余弦距离相似度值;
将所述多个余弦距离相似度值按照由大至小的顺序排序;
将位于排序中第一顺位对应的图像簇,作为所述查询图像在所述图像簇集合中所归属的目标图像簇。
5.如权利要求1所述的图像内容检索方法,其特征在于,所述图像簇集合预先通过以下方式确定:
在完成所述HRNet网络的训练后,基于所述HRNet网络提取全量图像的图像语义多维特征;
基于所述全量图像的图像语义多维特征对所述全量图像进行聚类,获得所述图像簇集合。
6.如权利要求1所述的图像内容检索方法,其特征在于,所述图像语义多维特征中包括512维度的图像语义特征。
7.一种图像内容检索装置,其特征在于,包括:
查询图像接收模块,用于接收输入的查询图像;
语义特征提取模块,用于将所述查询图像输入至预训练的HRNet网络中,以提取所述查询图像的图像语义多维特征;所述图像语义多维特征为所述查询图像的图像特征的多维语义表示;
图像簇确定模块,用于确定所述查询图像在图像簇集合中所归属的目标图像簇;
相似度计算模块,用于确定所述图像语义多维特征分别与所述目标图像簇中每个图像的图像语义多维特征的相似度;
检索结果生成模块,用于根据所述相似度从所述目标图像簇中匹配出多个图像,以作为所述查询图像的检索结果。
8.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-6任意一项所述方法的指令。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-6任意一项所述方法的指令。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器运行时,执行根据权利要求1-6任意一项所述方法的指令。
CN202211070298.4A 2022-09-02 2022-09-02 图像内容检索方法、装置、设备及存储介质 Pending CN115410199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211070298.4A CN115410199A (zh) 2022-09-02 2022-09-02 图像内容检索方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211070298.4A CN115410199A (zh) 2022-09-02 2022-09-02 图像内容检索方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115410199A true CN115410199A (zh) 2022-11-29

Family

ID=84163922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211070298.4A Pending CN115410199A (zh) 2022-09-02 2022-09-02 图像内容检索方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115410199A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680435A (zh) * 2023-08-03 2023-09-01 南昌航空大学 一种基于多层特征提取的相似图像检索匹配方法
CN117421443A (zh) * 2023-12-19 2024-01-19 深圳须弥云图空间科技有限公司 一种针对跨域图片的检索方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680435A (zh) * 2023-08-03 2023-09-01 南昌航空大学 一种基于多层特征提取的相似图像检索匹配方法
CN116680435B (zh) * 2023-08-03 2024-01-19 南昌航空大学 一种基于多层特征提取的相似图像检索匹配方法
CN117421443A (zh) * 2023-12-19 2024-01-19 深圳须弥云图空间科技有限公司 一种针对跨域图片的检索方法及装置

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
Mienye et al. Prediction performance of improved decision tree-based algorithms: a review
Krishnaiah et al. Survey of classification techniques in data mining
CN115410199A (zh) 图像内容检索方法、装置、设备及存储介质
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
Li et al. DAHP: Deep attention-guided hashing with pairwise labels
Yu et al. Research on automatic music recommendation algorithm based on facial micro-expression recognition
WO2021169453A1 (zh) 用于文本处理的方法和装置
CN112395487A (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
Chen et al. Sparsity-regularized feature selection for multi-class remote sensing image classification
CN117556067B (zh) 数据检索方法、装置、计算机设备和存储介质
Zeng et al. Pyramid hybrid pooling quantization for efficient fine-grained image retrieval
Ke et al. Efficient multi-view clustering networks
WO2020147259A1 (zh) 一种用户画像方法、装置、可读存储介质及终端设备
Arulmozhi et al. DSHPoolF: deep supervised hashing based on selective pool feature map for image retrieval
Li et al. A deep multimodal generative and fusion framework for class-imbalanced multimodal data
Huang et al. Multi-view opinion mining with deep learning
CN117494051A (zh) 一种分类处理的方法、模型训练的方法以及相关装置
Variawa et al. Transfer learning and deep metric learning for automated galaxy morphology representation
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质
Sudha et al. An analysis on deep learning approaches: addressing the challenges in remote sensing image retrieval
Madushanka et al. MDNCaching: A strategy to generate quality negatives for knowledge graph embedding
Zheng et al. Deep learning hash for wireless multimedia image content security
Al-Baity et al. Towards effective service discovery using feature selection and supervised learning algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination