CN113761261A

CN113761261A - 图像检索方法、装置、计算机可读介质及电子设备

Info

Publication number: CN113761261A
Application number: CN202110581014.7A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-12-07

Abstract

本申请属于人工智能技术领域，具体涉及一种图像检索方法、图像检索装置、计算机可读介质以及电子设备。该图像检索方法包括：对待检索的查询图像进行特征提取，得到所述查询图像的图像特征；对所述图像特征进行分类预测，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇，所述目标聚类簇是从归属于所述目标语义类别的一个或多个候选聚类簇中选取得到的；将所述图像特征与所述目标聚类簇中的候选图像进行特征比对，以确定与所述查询图像相匹配的目标图像。本申请实施例可以提高图像检索效率和检索准确性。

Description

图像检索方法、装置、计算机可读介质及电子设备

技术领域

本申请属于人工智能技术领域，具体涉及一种图像检索方法、图像检索装置、计算机可读介质以及电子设备。

背景技术

图像检索是在视频和图像应用中的一项常用技术，其目标是根据查询图像的图像内容在数据库中查找与之具有相同或者相似内容的其他图像，例如可以用于进行图像来源识别、图像推荐或者视频推荐等等。

为了提高数据检索广度，用于进行数据检索的数据库一般会包含大量的图像数据样本，而且样本数量将随着时间推移而不断增长。过大的检索数据量将导致检索效率和检索精度的下降。

发明内容

本申请的目的在于提供一种图像检索方法、图像检索装置、计算机可读介质以及电子设备，能够克服相关技术中存在的检索效率低、检索准确性差等技术问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种图像检索方法，该方法包括：对待检索的查询图像进行特征提取，得到所述查询图像的图像特征；对所述图像特征进行分类预测，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇，所述目标聚类簇是从归属于所述目标语义类别的一个或多个候选聚类簇中选取得到的；将所述图像特征与所述目标聚类簇中的候选图像进行特征比对，以确定与所述查询图像相匹配的目标图像。

根据本申请实施例的一个方面，提供一种图像检索装置，该装置包括：特征提取模块，被配置为对待检索的查询图像进行特征提取，得到所述查询图像的图像特征；分类预测模块，被配置为对所述图像特征进行分类预测，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇，所述目标聚类簇是从归属于所述目标语义类别的一个或多个候选聚类簇中选取得到的；特征比对模块，被配置为将所述图像特征与所述目标聚类簇中的候选图像进行特征比对，以确定与所述查询图像相匹配的目标图像。

在本申请的一些实施例中，基于以上技术方案，分类预测模块被配置为：获取对图像检索数据库中的候选图像进行分类预测得到的候选语义类别和候选聚类簇；将所述图像特征分别与各个所述候选语义类别和候选聚类簇进行特征比对，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇。

在本申请的一些实施例中，基于以上技术方案，分类预测模块还被配置为：将所述图像特征与各个所述候选语义类别的分类中心向量进行特征比对，以确定与所述图像特征具有语义相关性的目标语义类别；将所述图像特征与归属于所述目标语义类别的各个候选聚类簇的聚类中心向量进行特征比对，以确定与所述图像特征具有语义相关性的目标聚类簇。

在本申请的一些实施例中，基于以上技术方案，分类预测模块还被配置为：将所述图像特征与各个所述候选语义类别的分类中心向量进行特征比对，得到所述图像特征与所述分类中心向量的分类相似度；将所述分类相似度大于预设相似度阈值的一个或者多个候选语义类别作为与所述图像特征具有语义相关性的目标语义类别。

在本申请的一些实施例中，基于以上技术方案，分类预测模块还被配置为：将各个所述候选语义类别分别与归属于所述候选语义类别的各个候选聚类簇进行特征拼接处理，得到由所述候选语义类别的分类中心向量和所述候选聚类簇的聚类中心向量组成的候选拼接向量；将所述图像特征与自身进行特征拼接处理，得到由两个所述图像特征组成的拼接图像特征；将所述拼接图像特征与各个所述候选拼接向量进行特征比对，以确定与所述图像特征具有语义相关性的目标拼接向量，并获取组成所述目标拼接向量的目标语义类别和目标聚类簇。

在本申请的一些实施例中，基于以上技术方案，分类预测模块被配置为：将所述图像特征分别输入联合训练得到的分类模型和聚类模型；通过所述分类模型预测所述图像特征在多个候选语义类别中的类别分布概率，并根据所述类别分布概率从所述多个候选语义类别中选取与所述图像特征具有语义相关性的目标语义类别；通过所述聚类模型预测所述图像特征在多个候选聚类簇中的聚类簇分布概率，并根据所述聚类簇分布概率从归属于所述目标语义类别的一个或多个候选聚类簇中选取与所述图像特征具有语义相关性的目标聚类簇。

在本申请的一些实施例中，基于以上技术方案，分类预测模块被配置为：获取用于对待检索的查询图像进行特征提取的特征提取模型以及用于对所述查询图像进行分类预测的语义分类模型和聚类模型；分别根据预设的模型参数对所述特征提取模型、所述语义分类模型和所述聚类模型进行模型初始化；基于带有语义类别标签的图像样本对所述特征提取模型、所述语义分类模型和所述聚类模型进行联合训练，以更新各个模型的模型参数。

在本申请的一些实施例中，基于以上技术方案，分类预测模块被配置为：通过所述特征提取模型对带有语义类别标签的图像样本进行特征提取，得到所述图像样本的样本特征；对具有相同语义类别标签的图像样本进行聚类处理，得到所述图像样本的聚类标签；交替执行具有指定轮次数量的分类训练轮次和聚类训练轮次；在所述分类训练轮次中，基于所述样本特征和所述语义类别标签联合训练所述特征提取模型和所述语义分类模型；在所述聚类训练轮次中，基于所述样本特征、所述语义类别标签和所述聚类标签联合训练所述特征提取模型、所述语义分类模型和所述聚类模型。

在本申请的一些实施例中，基于以上技术方案，基于所述样本特征和所述语义类别标签联合训练所述特征提取模型和所述语义分类模型，包括：通过所述语义分类模型对所述样本特征进行分类预测，得到所述图像样本的语义类别预测结果；根据所述语义类别标签和所述语义类别预测结果确定所述语义分类模型的分类预测误差，并根据所述分类预测误差更新所述特征提取模型和所述语义分类模型的模型参数；基于所述样本特征、所述语义类别标签和所述聚类标签联合训练所述特征提取模型、所述语义分类模型和所述聚类模型，包括：通过所述语义分类模型对所述样本特征进行分类预测，得到所述图像样本的语义类别预测结果；根据所述语义类别标签和所述语义类别预测结果确定所述语义分类模型的分类预测误差；通过所述聚类模型对所述样本特征进行聚类预测，得到所述图像样本的聚类预测结果；根据所述聚类标签和所述聚类预测结果确定所述聚类模型的聚类预测误差；根据所述分类预测误差和所述聚类预测误差更新所述特征提取模型、所述语义分类模型以及所述聚类模型的模型参数。

在本申请的一些实施例中，基于以上技术方案，分类预测模块被配置为：获取在当前聚类轮次中对具有相同语义类别标签的图像样本进行聚类处理得到的一个或多个聚类中心向量；从所述聚类模型中获取前一聚类轮次中作为聚类目标的聚类标签序列；根据所述聚类中心向量与所述聚类标签序列中的各个聚类标签的向量相似度，对所述聚类中心向量进行排序处理得到向量序列；根据所述向量序列更新所述聚类模型中的聚类标签序列。

在本申请的一些实施例中，基于以上技术方案，特征比对模块被配置为：获取对所述目标聚类簇中的各个候选图像进行特征提取得到的所述候选图像的候选特征向量；将所述图像特征与所述候选特征向量进行特征比对，得到所述图像特征与所述候选特征向量的特征相似度；根据所述特征相似度从所述目标聚类簇中选取与所述查询图像相匹配的目标图像。

在本申请的一些实施例中，基于以上技术方案，特征比对模块还被配置为：获取与所述目标语义类别相对应的相似度阈值；其中，不同的目标语义类别对应于不同的相似度阈值；从所述目标聚类簇中选取特征相似度大于所述相似度阈值的候选图像作为与所述查询图像相匹配的目标图像。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的图像检索方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的图像检索方法。

根据本申请实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行如以上技术方案中的图像检索方法。

在本申请实施例提供的技术方案中，通过对查询图像进行特征提取得到图像特征，可以基于语义相关性对图像特征进行分类预测得到相应的目标语义类别和目标聚类簇，进一步根据图像特征从归属于目标语义类别的目标聚类簇中进行图像检索召回。基于二级聚类的方式进行图像分类和聚类处理，可以缩小图像的检索范围，提高图像的检索准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了应用本申请技术方案的示例性系统架构框图。

图2示意性地示出了本申请实施例在一应用场景中对图像数据库进行二级聚类的原理框图。

图3示意性地示出了本申请实施例在一应用场景中基于二级聚类的方法进行图像检索的原理框图。

图4示意性地示出了本申请一个实施例中的图像检索方法的步骤流程图。

图5示出了本申请一个实施例中使用的特征提取模型的模型结构组成示意图。

图6示意性地示出了本申请一个实施例中对图像处理模型进行模型训练的方法步骤流程图。

图7示出了本申请一个实施例中使用的语义分类模型的模型结构组成示意图。

图8示出了本申请一个实施例中使用的聚类模型的模型结构组成示意图。

图9示意性地示出了本申请一个实施例中对聚类中心进行重排序的原理示意图。

图10示意性地示出了本申请实施例提供的图像检索装置的结构框图。

图11示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

如图1所示，系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑、智能电视、智能车载终端等各种电子设备。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

根据实现需要，本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如，服务器130可以是由多个服务器设备组成的服务器群组。另外，本申请实施例提供的技术方案可以应用于终端设备110，也可以应用于服务器130，或者可以由终端设备110和服务器130共同实施，本申请对此不做特殊限定。

举例而言，用户可以通过终端设备110上安装的图像检索客户端或者搜索引擎上传查询图像，从而主动发起图像检索请求。服务器130在接收到查询图像后，可以在数据库中进行图像检索，找到与查询图像内容相同或者相似的其他图像后，在基于检索到的图像向用户返回检索结果。

又例如，用户可以通过终端设备110上安装的视频客户端或者浏览器观看视频，在终端设备110播放视频的过程中，可以从当前播放的视频内容或者历史播放记录中提取部分图像作为查询图像，并将查询图像上传至服务器130。服务器130根据查询图像在数据库中进行图像检索，找到与查询图像内容相同或者相似的其他图像后，可以获取与其他图像相对应的关联视频，并将关联视频组成视频推荐列表，返回给终端设备110，从而实现向用户进行视频内容推荐。

在本申请的一些实施例中，终端设备110或者服务器130上可以安装基于人工智能技术进行图像检索的机器学习模型。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请的一些实施例中，终端设备110或者服务器130上可以配置用于进行图像检索的图像数据库。其中，该图像数据库可以保存在由区块链网络维护的区块链上。例如，终端设备110或者服务器130可以作为组成区块链网络的区块链节点。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

在本申请的相关技术中，可以采用分桶检索的方式进行大规模图像检索，分桶检索主要是把原始大量数据先分成多个不重叠的数据集合，每个数据集合属于一个分桶，检索时从与查询图像最匹配的桶中寻找匹配的图像样本。

在一些可选的实施方式中，分桶方法可以采用聚类的方式产生。例如，对于100万的图像样本，若将其聚类形成1万个数据分桶，则聚类中心为1万。分桶的效果对检索最终的结果影响极大，最好的分桶结果是希望具有相似特征的样本能够分类至同一个分桶中，使得某个分桶的召回与真实样本相似。然而在真实的数据分布中，常见的图像类别(成为头部类别)会反复出现，而其他图像类别则数据量呈长尾分布，即量级可能是头部类别的1/100甚至更少。直接进行全局的聚类分桶检索对于具有长尾分布的聚类结果不能进行恰当处理，使得长尾类别的图像与头部类别的图像样本混合在同一个聚类桶中，导致整体检索效果不佳。另外，不同类型图像的相似度阈值实际上是有差异的，如对于激烈打斗的场面由于图像变化过快，其聚类中特征分布相对分散，而用于人脸识别的人脸图像则往往分布集中且比较紧凑，如果按照统一的标准进行聚类和检索，则难以进行准确召回。因此，全局聚类的方式在面对长尾类别聚类以及不同分布密度的图像召回等两方面都存在一定的不足。

本申请实施例针对全局分桶检索的长尾处理不佳以及不同分布密度难以解决的问题，提出了基于语义类别的二级聚类方案。通过深度学习预先对全部样本进行一级分类，然后对各分类内部进行聚类得到二级聚类桶，通过端到端的分类与聚类学习使得不同类别的特征在聚类和分布密度上的一致性。在具体的图像检索应用中，可以通过分类桶、聚类桶联合实现二级分桶的检索。通过逐类别聚类解决了长尾类别聚类得不到保障的问题，通过端到端模型的学习使得不同分布密度的聚类簇约束到对应类别中，从而在检索中可以根据图像类别进行逐类别的定制化检索阈值调节，从更细力度层面解决全局检索的难样本。通过先分类再聚类的方法使得长尾问题得到控制，而且通过设计端到端特征同时支持分类桶与聚类桶联合检索使得整体检索时间与原检索时间相当。

图2示意性地示出了本申请实施例在一应用场景中对图像数据库进行二级聚类的原理框图。如图2所示，针对图像数据库210中的每个图像样本，可以通过语义推断得到其对应的图像特征220。根据图像特征220对图像样本进行深度学习分类处理后可以得到多个语义类别230，其中包括分类1、分类2……分类N，每个语义类别可以包括相应数量的图像样本。对归属于同一语义类别230的图像样本进行聚类处理，可以得到与每个语义类别230对应的一个或者多个聚类簇240。基于二级聚类可以得到多个语义类别230以及对应于每个语义类别230的聚类簇240，在进行图像检索时，可以将查询图像的查询范围缩小至聚类簇240中，因而可以提高图像检索效率和检索准确性。

基于二级聚类方法，首先对图像数据库310中的各个图像样本提取得到图像特征，该图像特征可以经过降维处理得到一维的样本特征向量320，基于样本特征向量320可以对图像样本进行分类处理得到对应于不同语义类别的多个分类中心330，进一步将对应于相同语义类别的图像样本进行聚类处理，可以得到对应于不同聚类簇的多个聚类中心340。在本申请实施例中，一个分类中心可以对应关联一个或者多个聚类中心。

针对待检索的查询图像350，本申请实施例采用与图像样本相同的特征提取方式对其进行特征提取，可以得到对应的图像特征向量360。将图像特征向量360分别与各个分类中心330进行分类比对，以从中选取与该图像特征向量360相匹配的目标语义类别i，例如目标语义类别是对应于分类中心N的第N个语义类别。该语义类别下的图像样本聚类形成了三个聚类簇，分别对应于聚类中心M-2、聚类中心M-1和聚类中心M。进一步将图像特征向量360与各个聚类簇对应的聚类中心进行聚类比对，从而得到与之匹配的目标聚类簇j。后续可以进一步从归属于目标语义类别i和目标聚类簇j的图像样本中进行检索召回，得到与查询图像350特征匹配的作为检索结果的目标图像。

下面结合具体实施方式对本申请提供的图像检索方法、图像检索装置、计算机可读介质以及电子设备等技术方案做出详细说明。

图4示意性地示出了本申请一个实施例中的图像检索方法的步骤流程图，该图像检索方法可以由终端设备或者服务器执行，也可以由终端设备和服务器共同执行。如图4所示，本申请实施例中的图像检索方法主要可以包括如下的步骤S410至步骤S430。

步骤S410：对待检索的查询图像进行特征提取，得到查询图像的图像特征。

步骤S420：对图像特征进行分类预测，以确定与图像特征具有语义相关性的目标语义类别和目标聚类簇，目标聚类簇是从归属于目标语义类别的一个或多个候选聚类簇中选取得到的。

步骤S430：将图像特征与目标聚类簇中的候选图像进行特征比对，以确定与查询图像相匹配的目标图像。

在本申请实施例提供的图像检索方法中，通过对查询图像进行特征提取得到图像特征，可以基于语义相关性对图像特征进行分类预测得到相应的目标语义类别和目标聚类簇，进一步根据图像特征从归属于目标语义类别的目标聚类簇中进行图像检索召回。基于二级聚类的方式进行图像分类和聚类处理，可以缩小图像的检索范围，提高图像的检索准确性。

下面对图像检索方法中的各个方法步骤的具体实现方式作出详细说明。

在步骤S410中，对待检索的查询图像进行特征提取，得到查询图像的图像特征。

在本申请的一个实施例中，对查询图像进行特征提取的方法可以是通过预先训练的特征提取模型对其进行数据映射得到嵌入向量embedding。

图5示出了本申请一个实施例中使用的特征提取模型的模型结构组成示意图。如图5所示，该特征提取模型是在ResNet-101的基础上搭建的神经网络模型。该模型主要包括了由输入端向输出端依次连接的Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x等五种卷积层，最后一个卷积层Conv5_x可以输出作为图像特征的嵌入向量embedding。其中，卷积层Conv1采用大小为7X7，通道数为64的卷积核按照步长2对输入图像进行卷积处理，得到输出尺寸为300X500的特征图。卷积层Conv2_x首先使用大小为3X3的池化窗口对Conv1输出的特征图按照步长2进行最大池化处理，然后再依次通过三个相同的卷积区块进行卷积处理。其中，每个卷积区块又依次包括了大小为1X1、3X3和1X1的卷积核，用以对输入的特征图进行卷积处理。后续的卷积层Conv3_x、Conv4_x、Conv5_x具有相似的卷积区块结构，此处不再赘述。

在本申请的一个实施例中，在最后一个卷积层Conv5_x之后，还可以通过一个池化层对其输出数据进行池化处理pooling，并进一步通过一个归一化层对经过池化处理后的输出数据进行向量归一化，从而方便后续将其与分类中心和向量中心进行特征比对。

在步骤S420中，对图像特征进行分类预测，以确定与图像特征具有语义相关性的目标语义类别和目标聚类簇，目标聚类簇是从归属于目标语义类别的一个或多个候选聚类簇中选取得到的。

在本申请的一个实施例中，对图像特征进行分类预测的方法可以是将图像特征与各个语义类别以及各个图像聚类簇进行语义匹配检测。本申请实施例可以获取对图像检索数据库中的候选图像进行分类预测得到的候选语义类别和候选聚类簇，然后将图像特征分别与各个候选语义类别和候选聚类簇进行特征比对，以确定与图像特征具有语义相关性的目标语义类别和目标聚类簇。对图像检索数据库中的候选图像进行分类预测的过程和原理可参考图2，此处不再赘述。

在本申请的一个实施例中，每个候选语言类别可以对应确定一个分类中心向量，每个候选聚类簇也可以对应确定一个聚类中心向量。在此基础上，将图像特征分别与各个候选语义类别和候选聚类簇进行特征比对的方法可以是将图像特征与各个分类中心向量以及聚类中心向量进行相似度匹配。针对图像特征可以采用二阶匹配或者一阶匹配的方式对其进行相似度匹配。

在本申请的一个实施例中，可以获取候选聚类簇与候选语义类别之间的数量比值，当数量比值大于预设的比例阈值时，可以采用二阶匹配的方式进行相似度匹配；当数量比值小于或等于预设的比例阈值时，可以采用一阶匹配的方式进行相似度匹配。其中，比例阈值例如可以取值为2。

在采用二阶匹配进行相似度匹配的实施例中，将图像特征分别与各个候选语义类别和候选聚类簇进行特征比对的方法可以包括：首先将图像特征与各个候选语义类别的分类中心向量进行特征比对，以确定与图像特征具有语义相关性的目标语义类别；然后再将图像特征与归属于目标语义类别的各个候选聚类簇的聚类中心向量进行特征比对，以确定与图像特征具有语义相关性的目标聚类簇。当候选聚类簇的数量较多，例如超过候选语义类别数量的指定倍数时，采用二阶匹配可以逐级地缩小匹配范围，降低数据计算量，进而提高特征比对的数据处理效率。

在本申请的一个实施例中，将图像特征与各个候选语义类别的分类中心向量进行特征比对的方法可以包括：将图像特征与各个候选语义类别的分类中心向量进行特征比对，得到图像特征与分类中心向量的分类相似度；将分类相似度大于预设相似度阈值的一个或者多个候选语义类别作为与图像特征具有语义相关性的目标语义类别。当多个分类中心向量与图像特征的分类相似度均大于预设相似度阈值时，表明该图像特征与多个候选语义类别都具有较高的语义相似度，此时可以将多个候选语义类别均选作目标语义类别。由于后续可以通过聚类匹配的方式进一步缩小范围，因此将多个候选语义类别选作目标语义类别虽然可能会引入一部分无关样本，但是并不会影响最终的检索精度。

在采用一阶匹配进行相似度匹配的实施例中，将图像特征分别与各个候选语义类别和候选聚类簇进行特征比对的方法可以包括：将各个候选语义类别分别与归属于候选语义类别的各个候选聚类簇进行特征拼接处理，得到由候选语义类别的分类中心向量和候选聚类簇的聚类中心向量组成的候选拼接向量；将图像特征与自身进行特征拼接处理，得到由两个图像特征组成的拼接图像特征；将拼接图像特征与各个候选拼接向量进行特征比对，以确定与图像特征具有语义相关性的目标拼接向量，并获取组成目标拼接向量的目标语义类别和目标聚类簇。当候选聚类簇的数量相对较少，例如少于候选语义类别数量的指定倍数时，采用一阶匹配可以减少向量计算的数据计算量，进而提高特征比对的数据处理效率。

在本申请的一个实施例中，对图像特征进行分类预测的方法可以包括利用预先训练的图像处理模型进行模型预测。该图像处理模型可以包括用于进行图像特征提取的特征提取模型，用于对图像进行语义分类的分类模型以及用于对相同语义的图像进行聚类处理的聚类模型。

在本申请的一个实施例中，步骤S420中对图像特征进行分类预测的方法可以包括：将图像特征分别输入联合训练得到的分类模型和聚类模型；通过分类模型预测图像特征在多个候选语义类别中的类别分布概率，并根据类别分布概率从多个候选语义类别中选取与图像特征具有语义相关性的目标语义类别；通过聚类模型预测图像特征在多个候选聚类簇中的聚类簇分布概率，并根据聚类簇分布概率从归属于目标语义类别的一个或多个候选聚类簇中选取与图像特征具有语义相关性的目标聚类簇。

图6示意性地示出了本申请一个实施例中对图像处理模型进行模型训练的方法步骤流程图。如图6所示，在本申请实施例中，对图像处理模型进行训练的方法可以包括如下的步骤S610至步骤S630。

步骤S610：获取用于对待检索的查询图像进行特征提取的特征提取模型以及用于对查询图像进行分类预测的语义分类模型和聚类模型。

特征提取模型可以是如图5中所示的基于ResNet-101的神经网络模型。

图7示出了本申请一个实施例中使用的语义分类模型的模型结构组成示意图。如图7所示，语义分类模型可以包括依次连接的池化层Pool_cr、归一化层Norm和全连接层Fc_cr。其中，N表示需要学习的语义类别的数量，与实际应用场景中的图像数据类型和图像样本数量相关，N可以为正整数，例如N可以取值为100～500中的指定数值。全连接层Fc_cr的网络参数为2048*N的权重矩阵，对应于N个向量长度为2048的分类中心向量。

图8示出了本申请一个实施例中使用的聚类模型的模型结构组成示意图。聚类模型可以使用与图7所示的分类模型相似的模型结构，即包括依次连接的池化层Pool_cluster、归一化层Norm和全连接层Fc_cluster。其中，M表示需要学习的语义类别的数量，与实际应用场景中的图像数据类型和图像样本数量相关，M可以为正整数，例如M可以取值为500～1000中的指定数值。全连接层Fc_cluster的网络参数为2048*M的权重矩阵，对应于M个向量长度为2048的聚类中心向量。

步骤S620：分别根据预设的模型参数对特征提取模型、语义分类模型和聚类模型进行模型初始化。

在本申请的一个实施例中，特征提取模型可以采用预训练好的模型参数进行初始化，例如可以包括Imagenet预训练的分类参数，或用于训练检索特征得到的参数等。语义分类模型和聚类模型中的全连接层可以采用具有预设方差和预设均值的符合高斯分布的参数进行模型初始化。其中，预设方差例如可以是0.01、预设均值例如可以是0。

步骤S630：基于带有语义类别标签的图像样本对特征提取模型、语义分类模型和聚类模型进行联合训练，以更新各个模型的模型参数。

在本申请的一个实施例中，基于带有语义类别标签的图像样本对特征提取模型、语义分类模型和聚类模型进行联合训练的方法可以包括：通过特征提取模型对带有语义类别标签的图像样本进行特征提取，得到图像样本的样本特征；对具有相同语义类别标签的图像样本进行聚类处理，得到图像样本的聚类标签；交替执行具有指定轮次数量的分类训练轮次和聚类训练轮次；在分类训练轮次中，基于样本特征和语义类别标签联合训练特征提取模型和语义分类模型；在聚类训练轮次中，基于样本特征、语义类别标签和聚类标签联合训练特征提取模型、语义分类模型和聚类模型。

在本申请的一个实施例中，基于样本特征和语义类别标签联合训练特征提取模型和语义分类模型的方法可以包括：通过语义分类模型对样本特征进行分类预测，得到图像样本的语义类别预测结果；根据语义类别标签和语义类别预测结果确定语义分类模型的分类预测误差，并根据分类预测误差更新特征提取模型和语义分类模型的模型参数。

在本申请实施例中，将特征提取模型和语义分类模型的所有参数都设为需要学习状态，训练时神经网络对输入的一张图片进行前向计算得到分类预测结果，与标注的类别标签对比计算模型的分类损失值(classification loss)。分类损失loss进行梯度后向计算得到全部模型参数的更新值，并更新特征提取模型和语义分类模型的模型参数。

在本申请的一个实施例中，基于样本特征、语义类别标签和聚类标签联合训练特征提取模型、语义分类模型和聚类模型的方法可以包括：通过语义分类模型对样本特征进行分类预测，得到图像样本的语义类别预测结果；根据语义类别标签和语义类别预测结果确定语义分类模型的分类预测误差；通过聚类模型对样本特征进行聚类预测，得到图像样本的聚类预测结果；根据聚类标签和聚类预测结果确定聚类模型的聚类预测误差；根据分类预测误差和聚类预测误差更新特征提取模型、语义分类模型以及聚类模型的模型参数。

在本申请实施例中，对于分类i，例如可以采用该分类的样本进行kmeans聚类得到Mi个聚类中心，聚类数量为Mi(不同分类的聚类中心数量各不相同)。得到了所有分类的聚类中心后，对所有样本委派其对应的聚类中心标签。将特征提取模型、语义分类模型和聚类模型的所有参数都设为需要学习状态，训练时神经网络对输入的一张图片进行前向计算得到分类预测结果、聚类预测结果，与标注的类别标签、聚类类别对比计算模型的总分类损失值(classification loss)。总分类损失loss进行梯度后向计算得到全部模型参数的更新值，并更新特征提取模型、语义分类模型和聚类模型的模型参数。

在本申请的一个实施例中，在对图像样本进行重新聚类后，需要根据聚类结果同步更新聚类模型中的相关参数。在本申请实施例中，基于重新聚类结果更新聚类模型的相关参数的方法可以包括：获取在当前聚类轮次中对具有相同语义类别标签的图像样本进行聚类处理得到的一个或多个聚类中心向量；从聚类模型中获取前一聚类轮次中作为聚类目标的聚类标签序列；根据聚类中心向量与聚类标签序列中的各个聚类标签的向量相似度，对聚类中心向量进行排序处理得到向量序列；根据向量序列更新聚类模型中的聚类标签序列。

在本申请的一个实施例中，在对图像样本进行聚类时，首先可以确定聚类数量，然后再确定符合该聚类数量的聚类中心。

针对每个分类中的样本，需要预先确定聚类中心数量。假设全局需要聚类M类，全量样本的数量为Q，Q可以为正整数，假设第i个分类的样本量为Si，则该分类内需要聚类的中心数量如下式Ci，即按照数据量比例得到的聚类中心数，至少需要一个聚类中心(即使对于数据量很少的类别)。

Ci＝Max(Si/(Q/M),1)

针对每个类别中的图像样本，根据上述确定的聚类中心进行kmeans聚类可以得到相应数量的聚类中心；完成所有类别聚类后，按照类别顺序记录各聚类中心的聚类序号(如图2中的聚类1，2，…，M)，得到本轮初始化聚类中心Ncluster，共M*2048的聚类向量。

在第一轮模型迭代中第一次进行聚类时，聚类模型中的全连接层Fc_cluster(M*2048)为高斯分布的初始化值，此时可以将上述步骤中的聚类中心复制到Fc_cluster中；同时记录每个分类类别对应的聚类中心序号(如图2中分类1对应聚类1、2，分类N对应聚类M-2、M-1、M)。

如果不是第一次聚类，则对Ncluster重排序后复制到Fc_cluster中。此时Fc_cluster记录了上次聚类的中心，新Ncluster每个中心可以根据余弦相似度与Fc_cluster中的上次聚类的M个中心选择最近中心的原则进行重排序。图9示意性地示出了本申请一个实施例中对聚类中心进行重排序的原理示意图。如图9所示，前一轮次的聚类中心组成序列P1、P2、P3、P4。在经过重新聚类后，得到新的聚类中心为Pnew1、Pnew2、Pnew3、Pnew4。例如，P1与Pnew4中心最相似，则Ncluster重排序后，第一位为Pnew4，以此类推完成其他聚类中新的重排序。重排序后把新的聚类中心Ncluster2复制到Fc_cluster中，并记录每个分类类别对应的聚类中心序号。

根据不断更新的聚类中心，对每个训练样本找到其所属分类中最近的聚类中心i，并为该样本赋以聚类中心i对应的聚类标签(中心的序号，1…M之间)。

这里对于非第一次聚类的重排序，目的是维持前后聚类id的最大相似性，前后聚类越相似，表示样本所属聚类类别越稳定。稳定的聚类类别对深度学习收敛非常重要，如果不做重排序，则每次重新聚类后，样本的所属聚类类别变化大，loss波动大，对上一次训练好的embedding干扰因素过大造成embedding需要重新开始长时间学习以达到上一次的收敛程度。

本申请实施例在一个应用场景中的模型训练过程如下。

1)先进行分类学习，完成E轮(如第10轮)分类学习后特征提取模型以及语义分类模型相对稳定。

2)第E+1轮，以分类学习与聚类学习联合训练的方法训练模型，即计算模型的分类loss与聚类loss的加权和作为最终的loss，实际上这一轮的重点是通过聚类让embedding对聚类友好(具备更合理的聚类分布)，但为了避免因聚类中心变化造成loss波动过大，需要同时加入分类loss控制，L＝(1-a)Lclass+a*Lcluster，其中a可以根据情况选择，例如取0.8。

4)第E+2轮，进行分类学习。

5)第E+3轮，进行分类+聚类学习。

……

逐轮进行交替地迭代训练后，最终达到模型收敛条件。该训练过程中分类与聚类交替训练的目的是保护分类的成果，避免由于聚类的波动造成分类以及embedding波动过大。

在步骤S430中，将图像特征与目标聚类簇中的候选图像进行特征比对，以确定与查询图像相匹配的目标图像。

在本申请的一个实施例中，将图像特征与目标聚类簇中的候选图像进行特征比对的方法可以包括：获取对目标聚类簇中的各个候选图像进行特征提取得到的候选图像的候选特征向量；将图像特征与候选特征向量进行特征比对，得到图像特征与候选特征向量的特征相似度；根据特征相似度从目标聚类簇中选取与查询图像相匹配的目标图像。

在本申请的一个实施例中，根据特征相似度从目标聚类簇中选取与查询图像相匹配的目标图像的方法可以包括：获取与目标语义类别相对应的相似度阈值；其中，不同的目标语义类别对应于不同的相似度阈值；从目标聚类簇中选取特征相似度大于相似度阈值的候选图像作为与查询图像相匹配的目标图像。

在本申请实施例中，针对不同的语义类别可以配置不同的相似度阈值，使得具有不同分布特征的语义类别的图像能够实现定制化的检索阈值调节。

本申请实施例同时适用于有限计算资源的聚类，即通过分解全量数据到不同的分类中，降低每次需要的聚类样本数，从而允许我们在有限的计算机内存空间中进行聚类。假设全局图像样本的数据量为1亿数据，某个查询图像与1千个语义类别中的5个语义类别的匹配度较高，假设这5个类别的图像样本数量为1万，那么图像检索的整体样本量可以减少4个数量级，因此本申请实施例可以实现在计算资源有限的情况下进行的大规模聚类和图像检索。

在实际应用中，本申请实施例可以通过二级分桶检索对库存图像进行召回。首先记录图像处理模型经过训练后得到的分类中心、以及每个分类中心对应的聚类中心；其次为注册阶段，把所有样本建立检索库，即提取样本的特征、特征对应的分类中心、特征对应的聚类中心(在分类中心内寻找)，同时记录每个聚类中心对应的库存样本id。最后在检索阶段，对于当前待检索的查询图，首先提取该查询图的图像特征，根据图像特征找到其对应的分类中心i，并获取分类中心i对应的Ri个聚类中心，找到Ri个聚类中心中与其图像特征最相近的聚类中心m，根据注册阶段的每个聚类中心的样本记录，得到库存样本作为分桶检索到的结果。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的图像检索方法。图10示意性地示出了本申请实施例提供的图像检索装置的结构框图。如图10所示，图像检索装置1000包括：特征提取模块1010，被配置为对待检索的查询图像进行特征提取，得到所述查询图像的图像特征；分类预测模块1020，被配置为对所述图像特征进行分类预测，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇，所述目标聚类簇是从归属于所述目标语义类别的一个或多个候选聚类簇中选取得到的；特征比对模块1030，被配置为将所述图像特征与所述目标聚类簇中的候选图像进行特征比对，以确定与所述查询图像相匹配的目标图像。

在本申请的一些实施例中，基于以上各实施例，分类预测模块1020被配置为：获取对图像检索数据库中的候选图像进行分类预测得到的候选语义类别和候选聚类簇；将所述图像特征分别与各个所述候选语义类别和候选聚类簇进行特征比对，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇。

在本申请的一些实施例中，基于以上各实施例，分类预测模块1020还被配置为：将所述图像特征与各个所述候选语义类别的分类中心向量进行特征比对，以确定与所述图像特征具有语义相关性的目标语义类别；将所述图像特征与归属于所述目标语义类别的各个候选聚类簇的聚类中心向量进行特征比对，以确定与所述图像特征具有语义相关性的目标聚类簇。

在本申请的一些实施例中，基于以上各实施例，分类预测模块1020还被配置为：将所述图像特征与各个所述候选语义类别的分类中心向量进行特征比对，得到所述图像特征与所述分类中心向量的分类相似度；将所述分类相似度大于预设相似度阈值的一个或者多个候选语义类别作为与所述图像特征具有语义相关性的目标语义类别。

在本申请的一些实施例中，基于以上各实施例，分类预测模块1020还被配置为：将各个所述候选语义类别分别与归属于所述候选语义类别的各个候选聚类簇进行特征拼接处理，得到由所述候选语义类别的分类中心向量和所述候选聚类簇的聚类中心向量组成的候选拼接向量；将所述图像特征与自身进行特征拼接处理，得到由两个所述图像特征组成的拼接图像特征；将所述拼接图像特征与各个所述候选拼接向量进行特征比对，以确定与所述图像特征具有语义相关性的目标拼接向量，并获取组成所述目标拼接向量的目标语义类别和目标聚类簇。

在本申请的一些实施例中，基于以上各实施例，分类预测模块1020被配置为：将所述图像特征分别输入联合训练得到的分类模型和聚类模型；通过所述分类模型预测所述图像特征在多个候选语义类别中的类别分布概率，并根据所述类别分布概率从所述多个候选语义类别中选取与所述图像特征具有语义相关性的目标语义类别；通过所述聚类模型预测所述图像特征在多个候选聚类簇中的聚类簇分布概率，并根据所述聚类簇分布概率从归属于所述目标语义类别的一个或多个候选聚类簇中选取与所述图像特征具有语义相关性的目标聚类簇。

在本申请的一些实施例中，基于以上各实施例，分类预测模块1020还被配置为：获取用于对待检索的查询图像进行特征提取的特征提取模型以及用于对所述查询图像进行分类预测的语义分类模型和聚类模型；分别根据预设的模型参数对所述特征提取模型、所述语义分类模型和所述聚类模型进行模型初始化；基于带有语义类别标签的图像样本对所述特征提取模型、所述语义分类模型和所述聚类模型进行联合训练，以更新各个模型的模型参数。

在本申请的一些实施例中，基于以上各实施例，分类预测模块1020还被配置为：通过所述特征提取模型对带有语义类别标签的图像样本进行特征提取，得到所述图像样本的样本特征；对具有相同语义类别标签的图像样本进行聚类处理，得到所述图像样本的聚类标签；交替执行具有指定轮次数量的分类训练轮次和聚类训练轮次；在所述分类训练轮次中，基于所述样本特征和所述语义类别标签联合训练所述特征提取模型和所述语义分类模型；在所述聚类训练轮次中，基于所述样本特征、所述语义类别标签和所述聚类标签联合训练所述特征提取模型、所述语义分类模型和所述聚类模型。

在本申请的一些实施例中，基于以上各实施例，基于所述样本特征和所述语义类别标签联合训练所述特征提取模型和所述语义分类模型，包括：通过所述语义分类模型对所述样本特征进行分类预测，得到所述图像样本的语义类别预测结果；根据所述语义类别标签和所述语义类别预测结果确定所述语义分类模型的分类预测误差，并根据所述分类预测误差更新所述特征提取模型和所述语义分类模型的模型参数；基于所述样本特征、所述语义类别标签和所述聚类标签联合训练所述特征提取模型、所述语义分类模型和所述聚类模型，包括：通过所述语义分类模型对所述样本特征进行分类预测，得到所述图像样本的语义类别预测结果；根据所述语义类别标签和所述语义类别预测结果确定所述语义分类模型的分类预测误差；通过所述聚类模型对所述样本特征进行聚类预测，得到所述图像样本的聚类预测结果；根据所述聚类标签和所述聚类预测结果确定所述聚类模型的聚类预测误差；根据所述分类预测误差和所述聚类预测误差更新所述特征提取模型、所述语义分类模型以及所述聚类模型的模型参数。

在本申请的一些实施例中，基于以上各实施例，分类预测模块1020还被配置为：获取在当前聚类轮次中对具有相同语义类别标签的图像样本进行聚类处理得到的一个或多个聚类中心向量；从所述聚类模型中获取前一聚类轮次中作为聚类目标的聚类标签序列；根据所述聚类中心向量与所述聚类标签序列中的各个聚类标签的向量相似度，对所述聚类中心向量进行排序处理得到向量序列；根据所述向量序列更新所述聚类模型中的聚类标签序列。

在本申请的一些实施例中，基于以上各实施例，特征比对模块1030被配置为：获取对所述目标聚类簇中的各个候选图像进行特征提取得到的所述候选图像的候选特征向量；将所述图像特征与所述候选特征向量进行特征比对，得到所述图像特征与所述候选特征向量的特征相似度；根据所述特征相似度从所述目标聚类簇中选取与所述查询图像相匹配的目标图像。

在本申请的一些实施例中，基于以上各实施例，特征比对模块1030还被配置为：获取与所述目标语义类别相对应的相似度阈值；其中，不同的目标语义类别对应于不同的相似度阈值；从所述目标聚类簇中选取特征相似度大于所述相似度阈值的候选图像作为与所述查询图像相匹配的目标图像。

本申请各实施例中提供的图像检索装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图11示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图，该电子设备可以是如图1中所示的终端设备110或者服务器130。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理器1101(Central Processing Unit，CPU)，其可以根据存储在只读存储器1102(Read-Only Memory，ROM)中的程序或者从存储部分1108加载到随机访问存储器1103(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1103中，还存储有系统操作所需的各种程序和数据。中央处理器1101、在只读存储器1102以及随机访问存储器1103通过总线1104彼此相连。输入/输出接口1105(Input/Output接口，即I/O接口)也连接至总线1104。

在一些实施例中，以下部件连接至输入/输出接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid CrystalDisplay，LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至输入/输出接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理器1101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台电子设备执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种图像检索方法，其特征在于，包括：

对待检索的查询图像进行特征提取，得到所述查询图像的图像特征；

对所述图像特征进行分类预测，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇，所述目标聚类簇是从归属于所述目标语义类别的一个或多个候选聚类簇中选取得到的；

将所述图像特征与所述目标聚类簇中的候选图像进行特征比对，以确定与所述查询图像相匹配的目标图像。

2.根据权利要求1所述的图像检索方法，其特征在于，对所述图像特征进行分类预测，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇，包括：

获取对图像检索数据库中的候选图像进行分类预测得到的候选语义类别和候选聚类簇；

将所述图像特征分别与各个所述候选语义类别和候选聚类簇进行特征比对，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇。

3.根据权利要求2所述的图像检索方法，其特征在于，将所述图像特征分别与各个所述候选语义类别和所述候选聚类簇进行特征比对，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇，包括：

将所述图像特征与各个所述候选语义类别的分类中心向量进行特征比对，以确定与所述图像特征具有语义相关性的目标语义类别；

将所述图像特征与归属于所述目标语义类别的各个候选聚类簇的聚类中心向量进行特征比对，以确定与所述图像特征具有语义相关性的目标聚类簇。

4.根据权利要求3所述的图像检索方法，其特征在于，将所述图像特征与各个所述候选语义类别的分类中心向量进行特征比对，以确定与所述图像特征具有语义相关性的目标语义类别，包括：

将所述图像特征与各个所述候选语义类别的分类中心向量进行特征比对，得到所述图像特征与所述分类中心向量的分类相似度；

将所述分类相似度大于预设相似度阈值的一个或者多个候选语义类别作为与所述图像特征具有语义相关性的目标语义类别。

5.根据权利要求2所述的图像检索方法，其特征在于，将所述图像特征分别与各个所述候选语义类别和所述候选聚类簇进行特征比对，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇，包括：

将各个所述候选语义类别分别与归属于所述候选语义类别的各个候选聚类簇进行特征拼接处理，得到由所述候选语义类别的分类中心向量和所述候选聚类簇的聚类中心向量组成的候选拼接向量；

将所述图像特征与自身进行特征拼接处理，得到由两个所述图像特征组成的拼接图像特征；

将所述拼接图像特征与各个所述候选拼接向量进行特征比对，以确定与所述图像特征具有语义相关性的目标拼接向量，并获取组成所述目标拼接向量的目标语义类别和目标聚类簇。

6.根据权利要求1所述的图像检索方法，其特征在于，对所述图像特征进行分类预测，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇，包括：

将所述图像特征分别输入联合训练得到的分类模型和聚类模型；

通过所述分类模型预测所述图像特征在多个候选语义类别中的类别分布概率，并根据所述类别分布概率从所述多个候选语义类别中选取与所述图像特征具有语义相关性的目标语义类别；

通过所述聚类模型预测所述图像特征在多个候选聚类簇中的聚类簇分布概率，并根据所述聚类簇分布概率从归属于所述目标语义类别的一个或多个候选聚类簇中选取与所述图像特征具有语义相关性的目标聚类簇。

7.根据权利要求6所述的图像检索方法，其特征在于，在对待检索的查询图像进行特征提取之前，所述方法还包括：

获取用于对待检索的查询图像进行特征提取的特征提取模型以及用于对所述查询图像进行分类预测的语义分类模型和聚类模型；

分别根据预设的模型参数对所述特征提取模型、所述语义分类模型和所述聚类模型进行模型初始化；

基于带有语义类别标签的图像样本对所述特征提取模型、所述语义分类模型和所述聚类模型进行联合训练，以更新各个模型的模型参数。

8.根据权利要求7所述的图像检索方法，其特征在于，基于带有语义类别标签的图像样本对所述特征提取模型、所述语义分类模型和所述聚类模型进行联合训练，包括：

通过所述特征提取模型对带有语义类别标签的图像样本进行特征提取，得到所述图像样本的样本特征；

对具有相同语义类别标签的图像样本进行聚类处理，得到所述图像样本的聚类标签；

交替执行具有指定轮次数量的分类训练轮次和聚类训练轮次；在所述分类训练轮次中，基于所述样本特征和所述语义类别标签联合训练所述特征提取模型和所述语义分类模型；在所述聚类训练轮次中，基于所述样本特征、所述语义类别标签和所述聚类标签联合训练所述特征提取模型、所述语义分类模型和所述聚类模型。

9.根据权利要求8所述的图像检索方法，其特征在于，基于所述样本特征和所述语义类别标签联合训练所述特征提取模型和所述语义分类模型，包括：

通过所述语义分类模型对所述样本特征进行分类预测，得到所述图像样本的语义类别预测结果；

根据所述语义类别标签和所述语义类别预测结果确定所述语义分类模型的分类预测误差，并根据所述分类预测误差更新所述特征提取模型和所述语义分类模型的模型参数；

基于所述样本特征、所述语义类别标签和所述聚类标签联合训练所述特征提取模型、所述语义分类模型和所述聚类模型，包括：

根据所述语义类别标签和所述语义类别预测结果确定所述语义分类模型的分类预测误差；

通过所述聚类模型对所述样本特征进行聚类预测，得到所述图像样本的聚类预测结果；

根据所述聚类标签和所述聚类预测结果确定所述聚类模型的聚类预测误差；

根据所述分类预测误差和所述聚类预测误差更新所述特征提取模型、所述语义分类模型以及所述聚类模型的模型参数。

10.根据权利要求8所述的图像检索方法，其特征在于，在对具有相同语义类别标签的图像样本进行聚类处理，得到所述图像样本的聚类标签之后，所述方法还包括：

获取在当前聚类轮次中对具有相同语义类别标签的图像样本进行聚类处理得到的一个或多个聚类中心向量；

从所述聚类模型中获取前一聚类轮次中作为聚类目标的聚类标签序列；

根据所述聚类中心向量与所述聚类标签序列中的各个聚类标签的向量相似度，对所述聚类中心向量进行排序处理得到向量序列；

根据所述向量序列更新所述聚类模型中的聚类标签序列。

11.根据权利要求1至10中任意一项所述的图像检索方法，其特征在于，将所述图像特征与所述目标聚类簇中的候选图像进行特征比对，以确定与所述查询图像相匹配的目标图像，包括：

获取对所述目标聚类簇中的各个候选图像进行特征提取得到的所述候选图像的候选特征向量；

将所述图像特征与所述候选特征向量进行特征比对，得到所述图像特征与所述候选特征向量的特征相似度；

根据所述特征相似度从所述目标聚类簇中选取与所述查询图像相匹配的目标图像。

12.根据权利要求11所述的图像检索方法，其特征在于，根据所述特征相似度从所述目标聚类簇中选取与所述查询图像相匹配的目标图像，包括：

获取与所述目标语义类别相对应的相似度阈值；其中，不同的目标语义类别对应于不同的相似度阈值；

从所述目标聚类簇中选取特征相似度大于所述相似度阈值的候选图像作为与所述查询图像相匹配的目标图像。

13.一种图像检索装置，其特征在于，包括：

特征提取模块，被配置为对待检索的查询图像进行特征提取，得到所述查询图像的图像特征；

分类预测模块，被配置为对所述图像特征进行分类预测，以确定与所述图像特征具有语义相关性的目标语义类别和目标聚类簇，所述目标聚类簇是从归属于所述目标语义类别的一个或多个候选聚类簇中选取得到的；

特征比对模块，被配置为将所述图像特征与所述目标聚类簇中的候选图像进行特征比对，以确定与所述查询图像相匹配的目标图像。

14.一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至12中任意一项所述的图像检索方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的图像检索方法。