CN113590863A

CN113590863A - 图像聚类方法、装置及计算机可读存储介质

Info

Publication number: CN113590863A
Application number: CN202110203651.0A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-11-02

Abstract

本申请提供了一种涉及人工智能领域的图像聚类方法、装置及计算机可读存储介质；方法包括：获取待处理图像集中每张待处理图像的语义信息，并基于每张待处理图像的语义信息，对待处理图像集进行语义簇划分，得到n个语义子簇；在n个语义子簇的每个语义子簇内进行图像聚类，得到每个语义子簇对应的C_i个聚类中心，进而得到n个语义子簇对应的聚类中心集合；基于聚类中心集合，对待处理图像集进行聚类，得到与聚类中心集合中每个聚类中心对应的图像子类；基于每个聚类中心对应的图像子类，得到图像子类集合；图像子类集合包括每个聚类中心对应的图像子类；图像子类集合用于图像检索。通过本申请，能够提高图像聚类的准确性和效率。

Description

图像聚类方法、装置及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像聚类方法、装置及计算机可读存储介质。

背景技术

大规模图像检索常依赖于分桶检索，分桶检索主要是把原始大量数据先分成多个不重叠的数据子集合，每个数据集属于一个分桶，检索时只要从与目标样本最匹配的桶中寻找匹配样本即可，因此，分桶检索可提升检索效率。目前常用的分桶方法采用kmeans聚类的方式产生，即对于100万样本，若分成1万桶，则聚类中心为1万，可以看出，分桶的效果对检索最终的结果影响极大。理想的分桶效果是桶内相似度较高，这样可以使得具有相似特征的样本能分到同一个桶，使得某个桶的召回与真实样本相似。然而常规的kmeans聚类方法聚类结果不稳定，并且在处理海量数据是需要较大的时间开销，从而降低了图像聚类的准确性和效率。

发明内容

本申请实施例提供一种图像聚类方法、装置及计算机可读存储介质，能够提高图像聚类的准确性和效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像聚类方法，包括：

获取待处理图像集中每张待处理图像的语义信息，并基于所述每张待处理图像的语义信息，对所述待处理图像集进行语义簇划分，得到n个语义子簇；其中，n为大于或等于1的正整数；

在所述n个语义子簇的每个语义子簇内进行图像聚类，得到所述每个语义子簇对应的C_i个聚类中心，进而得到所述n个语义子簇对应的聚类中心集合；其中，i为大于或等于1，且小于或等于n的正整数；所述C_i为大于或等于1的正整数；

基于所述聚类中心集合，对所述待处理图像集进行聚类，得到与所述聚类中心集合中每个聚类中心对应的图像子类；

基于所述每个聚类中心对应的图像子类，得到图像子类集合；所述图像子类集合包括所述聚类中心集合中每个聚类中心对应的图像子类；所述图像子类集合用于图像检索。

本申请实施例提供一种图像聚类装置，包括：。

分类识别模块，用于从待处理图像集的每张待处理图像中提取语义信息，并基于所述每张待处理图像的语义信息，对所述待处理图像集进行语义簇划分，得到n个语义子簇；其中，n为大于或等于1的正整数；

簇内聚类模块，用于在所述n个语义子簇的每个语义子簇内进行图像聚类，得到所述每个语义子簇对应的C_i个聚类中心，进而得到所述n个语义子簇对应的聚类中心集合；其中，i为大于或等于1，且小于或等于n的正整数；所述C_i为大于或等于1的正整数；

簇间聚类模块，用于基于所述聚类中心集合，对所述待处理图像集进行聚类，得到与所述聚类中心集合中每个聚类中心对应的图像子类；基于所述每个聚类中心对应的图像子类，得到图像子类集合；所述图像子类集合包括所述聚类中心集合中每个聚类中心对应的图像子类；所述图像子类集合用于图像检索。

上述装置中，所述分类识别模型是以样本图像集对应的标注语义分类结果与标注聚类中心，对初始分类识别模型进行自监督协同训练得到的；所述标注聚类中心是通过对所述样本图像集中样本图像的样本嵌入特征向量进行聚类得到；所述分类识别模型，还用于对所述每张待处理图像进行特征提取，得到嵌入特征向量；所述嵌入特征向量包含所述语义信息；基于所述嵌入特征向量与n种预设语义分类，对所述每张待处理图像进行分类，得到所述待处理图像集对应的所述n个语义子簇，每个语义子簇对应所述n种预设语义分类中一种预设语义类型。

上述装置中，所述图像聚类装置还包括模型训练模块，其中，

所述模型训练模块，用于所述利用分类识别模型，对所述每张待处理图像进行特征提取，得到嵌入特征向量之前，通过所述初始分类识别模型，从所述样本图像集中的每个样本图像中提取出样本嵌入特征向量；所述每个样本图像包含所述标注语义分类结果；基于预设中心数量与所述样本嵌入特征向量，对所述每个样本图像进行聚类，得到预设中心数量个样本聚类中心，并将与所述样本嵌入特征向量距离最小的样本聚类中心作为所述每个样本图像对应的标注聚类中心；在当前轮训练过程中，基于所述样本嵌入特征向量，对所述每个样本图像进行语义分类预测，得到所述每个样本图像对应的语义分类预测结果，进而根据所述语义分类预测结果得到每轮训练过程的样本语义子簇集合；在所述样本语义子簇集合的每个样本语义子簇中，基于每个样本图像的样本嵌入特征向量进行聚类预测，得到所述每个样本图像对应的预测聚类中心；对比所述语义分类预测结果与所述标注语义分类结果，得到分类损失；对比所述预测聚类中心与所述标注聚类中心，得到均衡损失；所述均衡损失表征所述预测聚类中心与所述标注聚类中心的分布差异；将所述分类损失与所述均衡损失作为所述当前轮训练的总损失，根据所述总损失对所述初始分类识别模型的模型参数进行更新并基于更新的模型参数进行下一轮训练，直至所述总损失小于预设训练阈值时，得到所述分类识别模型。

上述装置中，所述簇内聚类模块，还用于对于所述每个语义子簇，将所述每个语义子簇中子簇图像的数量与聚类中心比例的乘积，作为C_i个聚类中心数量；所述聚类中心比例为所述待处理图像集中待处理图像的总数量与预设聚类中心总数量的比值；所述子簇图像为所述每个语义子簇包含的待处理图像；基于所述C_i个聚类中心数量与所述每个子簇图像的图像特征，在所述每个语义子簇内进行子簇图像的聚类，得到所述C_i个聚类中心。

上述装置中，所述簇间聚类模块，还用于计算所述每张待处理图像分别到所述聚类中心集合中每个聚类中心的距离；将最小距离对应的聚类中心作为所述每张待处理图像对应的目标聚类中心；将对应同一目标聚类中心的待处理图像划分为一个图像子类，得到所述每个聚类中心对应的图像子类。

上述装置中，所述簇间聚类模块，还用于所述基于所述每个聚类中心对应的图像子类，得到图像子类集合之后，计算所述每个图像子类包含的图像数量；将所述图像数量小于预设数量阈值的图像子类作为待合并子类，计算所述待合并子类的待合并聚类中心到所述聚类中心集合中其他聚类中心的至少一个中心距离；将所述待合并子类与所述中心距离小于预设距离阈值的图像子类进行合并，得到合并图像子类，使用所述合并图像子类更新所述图像子类集合；计算所述合并图像子类的合并聚类中心，使用所述合并聚类中心更新所述聚类中心集合。

上述装置中，所述图像聚类装置还包括检索模块，所述检索模块，用于所述基于所述每个聚类中心对应的图像子类，得到图像子类集合之后，获取待检索图像以及所述待检索图像对应的检索特征；将所述检索特征与所述聚类中心集合进行特征比对，确定出与所述检索特征匹配的检索聚类中心，将所述检索聚类中心在所述图像子类集合中对应的图像子类作为目标图像子类；根据所述检索特征，在所述目标图像子类中确定出所述待检索图像匹配的目标图像。

本申请实施例提供一种图像聚类装置，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的图像聚类方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的图像聚类方法。

本申请实施例具有以下有益效果：

在进行图像聚类之前，先通过语义信息对全量的待处理图像集进行预先分簇，从而可以将相似语义内容的图像聚到同一类，每个语义子簇内的语义接近，提高了图像聚类的准确性，这样在基于图像聚类结果进行检索时，可以使得语义更相近的样本作为同一个或相近分桶检索召回，实现检索结果更符合预期；并且，通过在每个语义子簇内部进行聚类得到每个语义子簇的C_i个聚类中心，进而得到全部的聚类中心集合，一方面可以减少直接在全量数据上随机初始化类中心导致的不稳定和不确定性，提高图像聚类的准确性；一方面可以通过分簇聚类在有限开销内完成每次聚类，实现了有限资源下进行大规模数据样本的有效聚类，从而提高了图像聚类的效率，并且，基于在语义子簇内部确定出的聚类中心集合对待处理图像的全集进行再次聚类，能够同步提升子簇内与子簇间聚类的均衡度，达到全局聚类均衡的效果。

附图说明

图1是目前应用图像聚类进行大规模图像检索的过程示意图；

图2是本申请实施例提供的图像聚类检索系统架构的一个可选的结构示意图；

图3是本申请实施例提供的图像聚类装置的一个可选的结构示意图；

图4是本申请实施例提供的图像聚类方法的一个可选的流程示意图；

图5是本申请实施例提供的图像聚类方法的一个可选的流程示意图；

图6是本申请实施例提供的图像聚类方法的一个可选的流程示意图；

图7是本申请实施例提供的初始分类识别模型训练的过程示意图；

图8是本申请实施例提供的图像聚类方法的一个可选的流程示意图；

图9是本申请实施例提供的图像聚类方法的一个可选的流程示意图；

图10是本申请实施例提供的图像聚类方法的一个可选的流程示意图；

图11是本申请实施例提供的图像聚类方法与目前聚类方法实施过程的对比示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

3)图像识别：类别级别的识别，不考虑对象的特定实例，仅考虑对象的类别(如人、狗、猫、鸟等)进行的识别并给出对象所属类别。一个典型的例子是大型通用物体识别开源数据集imagenet中的识别任务，识别出某个物体是1000个类别中的哪一个。

4)imagenet：大型通用物体识别开源数据集。

5)imagenet预训练模型：基于imagenet训练一个深度学习网络模型，得到该模型的参数权重即为imagenet预训练模型。

6)自监督学习：自监督学习是没有人工标注的标签的监督学习，可以将它看作没有人工参与的监督学习。自监督学习利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。自监督学习不依赖任何标签值，自监督学习的监督信息不是人工标注的，而是算法在大规模无监督数据中，通过对数据内在特征的挖掘，自动构造监督信息(pretext)，来进行监督学习或训练。找到样本间的关系，比如聚类相关的任务。

7)监督学习：监督学习利用大量的标注数据来训练模型，模型的预测和数据的真实标签产生损失后进行反向传播(计算梯度、更新参数)，通过不断的学习，最终可以获得识别新样本的能力。

8)特征表达：特征表达的任务是要待处理的样本抽象成数值向量，供机器学习模型使用。因此，特征表达任务需要同时兼顾特征属性和模型需求两个方面因素。

目前，应用图像聚类进行大规模图像检索的过程可以如图1所示。对于图像库中的大量预存图像，可以预先设立聚类数量M，从每张预存图像中提取出预存图像特征，采用kmeans聚类算法根据样本特征与聚类数量M进行聚类，得到M个聚类中心以及M个聚类中心对应的图像子集。这样，在使用查询图像在图像库中进行检索时，可以将查询图像特征向M个聚类中心所在的特征空间进行聚类中心投影，得到对应的投影特征；并通过聚类比对的方式，将投影特征与M个聚类中心进行特征比对，确定出与投影特征对应的目标聚类中心，进而将目标聚类中心所在的图像子集作为召回类；在召回类的多个预存图像特征中，通过特征比对的方式，确定出多个预存图像特征中与投影特征匹配的目标特征，进而可以将目标特征对应的预存图像作为与查询图像匹配的目标图像，完成图像匹配。然而，由于kmeans算法是随机初始化类中心，因此目前采用k means算法进行直接聚类的方法会使得聚类效果非常依赖于初始化，具有不稳定不确定性；并且，面对海量数据时，kmeans聚类需要较大计算资源，造成开销过大，图像聚类效率较低。进一步的，目前的图像聚类方法不带语义信息，不能保证相似语义的内容可以聚到同一类；也不能保证各聚类类别数量均衡，可能出现极端的不均衡状态，即全部数据都只分布到同一个聚类后的图像子集，即分桶，从而无法发挥分桶方式对检索效率的提升作用。

本申请实施例提供一种图像聚类方法、装置和计算机可读存储介质，能够提高图像聚类的准确性和效率，下面说明本申请实施例提供的图像聚类装置的示例性应用，本申请实施例提供的图像聚类装置可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明图像聚类装置实施为服务器时示例性应用。

参见图2，图2是本申请实施例提供的图像聚类检索系统100的一个可选的架构示意图，为实现支撑一个图像检索应用，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于将待检索图像与检索范围通过网络300提交到服务器200，并接收服务器200根据待检索图像，在检索范围对应的图像集合中检索到的最匹配的目标图像，将目标图像在图形界面410显示。服务器200用于获取待检索图像与检索范围，从数据库500存储的样本图像图库中，将检索范围对应的图像集合作为待处理图像集；从待处理图像集的每张待处理图像中提取语义信息，并基于每张待处理图像的语义信息，对待处理图像集进行语义簇划分，得到n个语义子簇；其中，n为大于或等于1的正整数；对于n个语义子簇的每个语义子簇，从每个语义子簇中的至少一张子簇图像中提取图像特征；基于图像特征对至少一张子簇图像进行图像聚类，得到每个语义子簇对应的C_i个聚类中心，进而得到n个语义子簇对应的

个聚类中心；其中，i为大于或等于1，且小于或等于n的正整数；基于

个聚类中心，对待处理图像集进行聚类，得到

个图像子类；服务器可以进一步从待检索图像中提取出检索特征，根据检索特征从

个图像子类确定出与待检索图像匹配的目标图像子类；进而在目标图像子类中进一步确定出待检索图像匹配的目标图像，完成对待检索图像的检索，并将目标图像通过网络300返回给终端400。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图3，图3是本申请实施例提供的服务器200的结构示意图，图3所示的服务器200包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图3示出了存储在存储器450中的图像聚类装置455，其可以是程序和插件等形式的软件，包括以下软件模块：分类识别模块4551、簇内聚类模块4552和簇间聚类模块4553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像聚类方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specif ic Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic De vice)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的图像聚类方法。

参见图4，图4是本申请实施例提供的图像聚类方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

S101、获取待处理图像集中每张待处理图像的语义信息，并基于每张待处理图像的语义信息，对待处理图像集进行语义簇划分，得到n个语义子簇；其中，n为大于或等于1的正整数。

本申请实施例中，待处理图像集可以是用于图像检索或图像识别的图像库的数据总集，其中包含至少一张待处理图像。服务器可以获取每张待处理图像中的语义信息，将语义信息作为聚类约束来提升聚类相关度。

在一些实施例中，服务器可以用预先训练好的图像识别中的embedding模型，从每张待处理图像进行图像识别，从而获取到每张待处理图像的嵌入特征向量(embedding)，其中，由于嵌入特征向量出自图像识别，其中带有图像语义信息，服务器可以因此得到每张待处理图像的语义信息。

这里，嵌入特征向量可以是任意具有语义信息的网络模型输出的embedding。示例性地，嵌入特征向量可以是基于人工智能的神经网络模型在执行检索或者聚类任务时输出的embedding，也可以是任意语义丰富的识别任务输出的embedding，如采用imagenet1001类识别模型输出的embedding。

本申请实施例中，服务器可以根据每张待处理图像的语义信息，以及预设语义分类，对每张待处理图像进行语义推断，从n种预设语义分类中，确定出每张待处理图像所属一种预设语义类型，从而完成对待处理图像集的语义簇划分，将待处理图像集划分为n个语义子簇；其中，n为大于或等于1的正整数。

在一些实施例中，服务器可以使用预先训练好的分类识别模型，示例性地，采用1001类识别模型或imagenet1001类识别模型，对待处理图像集进行语义簇划分，产生1001个类别预测，从而把待处理图像集划分为小于或等于1001个互不相交的语义子簇。

在一些实施例中，服务器可以将残差网络模型作为初始模型，对初始模型进行训练，得到用于语义簇划分的分类识别模型。其中，初始模型可以是至少包含卷积层Conv1-Conv5与分类层的神经网络模型，如ResNet-101模型。

示例性地，当初始模型为ResNet-101模型时，在构造初始模型的参数初始化阶段，可以采用在imagenet数据集上预训练的ResNet-101的参数对ResNet-101模型中的卷积层Conv1-Conv5，采用方差为0.01，均值为0的高斯分布对ResNet-101模型中的分类层如全连接层Fc_cr层进行初始化，并将出ResNet-101模型中的所有参数都设为需要学习状态。在每轮训练过程中时，使用ResNet-101模型对输入的一张样本图片进行前向计算，通过Fc_cr层得到分类预测结果，将分类预测结果与该样本图像的真实类别标签进行对比，计算模型的分类损失值(classification loss)，根据分类损失值进行梯度后向计算，得到全部模型参数的更新值，并相应更新ResNet-101模型，直至达到预设训练目标，如迭代达到预设次数，或分类损失值小于预设分类损失阈值时，结束训练，得到训练完成的ResNet-101模型作为分类识别模型。

在一些实施例中，ResNet-101模型中卷积层的网络结构可以如表1所示：

表1

在一些实施例中，ResNet-101模型中分类层的网络结构可以如表2所示。

其中，N为模型训练需要学习的预设语义类别的类别数量。如下：

名称	输出尺寸	网络层
			Pool_cr	1x2048	Max pool
Fc_cr	1xN	full connetction

表2

需要说明的是，在一些实施例中，服务器也可以使用不同网络结构、不同预训练模型权重的初始模型进行模型训练，如ResNet-50模型。或者，除了imagenet训练的类别模型外，服务器还可以将其他大规模数据集分类模型，如openimage作为初始模型，具体的根据实际情况进行选择，本申请实施例不作限定。

S102、在n个语义子簇的每个语义子簇内进行图像聚类，得到每个语义子簇对应的C_i个聚类中心，进而得到n个语义子簇对应的聚类中心集合；其中，i为大于或等于1，且小于或等于n的正整数；C_i为大于或等于1的正整数。

本申请实施例中，服务器在根据语义信息所划分出的n个语义子簇的基础上，可以通过聚类算法，分别对每个语义子簇内部包含的至少一张待处理图像进行图像聚类，得到每个语义子簇对应的至少一个聚类中心。由于每个语义子簇中包含的待处理图像的数量不同，因此每个语义子簇进行聚类算法所得到的聚类中心数量不同，这里使用C_i表示每个语义子簇包含的聚类中心数量，其中，i为大于或等于1，且小于或等于n的正整数，i表征n个语义子簇中的第i个语义子簇。

这里，服务器在对每个语义子簇内的至少一张待处理图像进行图像聚类时，可以基于S101中得到的待处理图像的语义信息进行聚类，也可以根据图像聚类所面向的具体图像处理业务的需要，如图像检索业务，先从待处理图像中提取出可用于检索的图像特征，如视觉属性的图像特征，然后基于图像特征进行聚类，具体的根据实际情况进行选择，本申请实施例不作限定。

本申请实施例中，服务器对每个语义子簇内部包含的待处理图像进行聚类处理之后，可以得到该语义子簇对应的C_i个聚类中心，服务器对n个语义子簇进行相同过程的处理，从而得到n个语义子簇对应的

个聚类中心作为聚类中心集合。

S103、基于聚类中心集合，对待处理图像集进行聚类，得到与聚类中心集合中每个聚类中心对应的图像子类。

本申请实施例中，服务器可以将簇内聚类得到的聚类中心集合作为整个待处理图像集对应的聚类中心集合，对待处理图像集进行重新聚类，服务器可以重新计算待处理图像集中的每张待处理图像到聚类中心集合中每个聚类中心的距离，将最小距离的聚类中心对每张待处理图像对应的目标聚类中心，将对应同一目标聚类中心的待处理图像划分为一个图像子类，得到每个聚类中心对应的图像子类。

在一些实施例中，服务器可以计算每张待处理图像分别到

个聚类中心的距离；将最小距离对应的聚类中心作为每张待处理图像对应的目标聚类中心；将同一目标聚类中心的待处理图像划分为一个图像子类，进而得到

个图像子类。

S104、基于每个聚类中心对应的图像子类，得到图像子类集合；图像子类集合包括聚类中心集合中每个聚类中心对应的图像子类；图像子类集合用于图像检索。

本申请实施例中，服务器可以将每个聚类中心对应的图像子类汇总为图像子类集合，得到最终的聚类结果。

在一些实施例中，服务器可以将图像子类集合作为待处理图像集的分桶结果进行保存，以便于基于分桶结果进行图像检索。

可以理解的是，本申请实施例中，在进行图像聚类之前，先通过语义信息对全量的待处理图像集进行预先分簇，从而可以将相似语义内容的图像聚到同一类，每个语义子簇内的语义接近，提高了图像聚类的准确性，这样在基于图像聚类结果进行检索时，可以使得语义更相近的样本作为同一个或相近分桶检索召回，实现检索结果更符合预期；并且，通过在每个语义子簇内部进行聚类得到每个语义子簇的C_i个聚类中心，进而得到全部的聚类中心集合，一方面可以减少直接在全量数据上随机初始化类中心导致的不稳定和不确定性，提高图像聚类的准确性；另一方面可以通过分簇聚类在有限开销内完成每次聚类，实现了有限资源下进行大规模数据样本的有效聚类，从而提高了图像聚类的效率，并且，基于在语义子簇内部确定出的聚类中心集合对待处理图像的全集进行再次聚类，能够同步提升子簇内与子簇间聚类的均衡度，达到全局聚类均衡的效果。

在一些实施例中，参见图5，图5是本申请实施例提供的图像聚类方法的一个可选的流程示意图，图4示出的S101可以通过S1011-S1012实现，将结合各步骤进行说明。

S1011、利用分类识别模型，对每张待处理图像进行特征提取，得到嵌入特征向量，嵌入特征向量包含语义信息。

本申请实施例中，服务器可以利用神经网络结构的分类识别模型，从每张待处理图像中提取出包含语义信息的嵌入特征向量，以基于嵌入特征向量中语义维度的特征表达数据进行进一步的语义分类。

这里，分类识别模型所提取出的嵌入特征向量中还可以包含语义维度之外的特征表达数据，如用于表征图像中颜色、形状、轮廓等视觉特征的数据，具体的根据实际情况进行选择，本申请实施例不作限定。

S1012、基于嵌入特征向量与n种预设语义分类，对每张待处理图像进行分类，得到待处理图像集对应的n个语义子簇，每个语义子簇对应n种预设语义分类中一种预设语义类型；分类识别模型是以样本图像集对应的标注语义分类结果与标注聚类中心，对初始分类识别模型进行自监督协同训练得到的；标注聚类中心是通过对样本图像集中样本图像的样本嵌入特征向量进行聚类得到。

本申请实施例中，在对待处理图像集进行语义子簇划分后，可以减小全量数据聚类的不稳定性，保证每个语义子簇之间达到聚类均衡的状态。为了进一步保证每个语义子簇内部也达到聚类均衡的状态，示例性地，使得语义类别为“猫”的语义子簇中聚类中心数量与子簇图像数量的比例，与语义类别为“狗”的语义子簇中聚类中心数量与子簇图像数量的比例相同，避免图像数量较少的语义子簇中出现过多的聚类中心，或者图像数量较多的语义子簇中出现过少的聚类中心等内部聚类不均衡的情况，服务器可以在初始分类识别模型的训练过程中，将样本图像集中每个样本图像的人工标注的标注语义分类结果作为初始分类识别模型语义分类任务的监督信息，并通过聚类算法，对每个样本图像的样本嵌入特征向量进行聚类，得到每个样本图像对应的标注聚类中心，进而根据标注聚类中心生成与语义分类任务进行协同训练的自监督任务，在每轮训练过程中，将标注语义分类结果与标注聚类中心作为总监督信息，同时对初始分类识别模型展开协同训练，得到分类识别模型。这里，子簇图像为语义子簇中包含的待处理图像。

需要说明的是，服务器通过聚类算法，根据样本嵌入特征向量计算出标注聚类中心，根据标注聚类中心生成与语义分类任务进行协同训练的自监督任务的目的是为了使初始分类识别模型在对样本图像的特征表达进行机器学习时，能够学习到图像的特征表达与语义分类信息的关联性，这样，学习结束所得到分类识别模型可以更准确地理解待处理图像中语义信息的特征表达如embeddin g。服务器可以通过分类识别模型，在理解语义信息的基础上对每张待处理图像进行语义推断，得到每张待处理图像的语义推断结果；进而可以基于语义推断结果更准确地计算出每张待处理图像之间的语义相似度，根据语义相似度对每张待处理图像进行分类预测，使得划分后的每个语义子簇能够达到内部聚类均衡的聚类效果。

本申请实施例中，在完成对每张待处理图像的语义推断与分类预测后，服务器将相同预设语义类型对应的待处理图像归为一个语义子簇，从而将待处理图像集划分为n个语义子簇。

在一些实施例中，参见图6，图6是本申请实施例提供的图像聚类方法的一个可选的流程示意图，基于图5，S1011之前，还可以执行S001-S007，将结合各步骤进行说明。

S001、通过初始分类识别模型，从样本图像集中的每个样本图像中提取出样本嵌入特征向量；每个样本图像包含标注语义分类结果。

本申请实施例中，服务器可以建立初始分类识别模型，通过初始分类识别模型，从每个样本图像中提取出视觉属性的图像特征，如颜色、形状、纹理等特征数据；并且，通过初始分类识别模型，根据每个样本图像的图像特征或者从每个样本图像中提取的其他像素特征，对每个样本图像进行图像识别，进而从图像识别的结果提取出语义信息。服务器将从每个样本图像中提取出的语义信息与图像特征作为样本嵌入特征向量。

在一些实施例中，初始分类识别模型可以包含特征提取层，服务器可以通过初始分类识别模型的特征提取层，从每个样本图像中提取出嵌入特征向量embedding，作为样本嵌入特征向量。

这里，样本图像集中包含有用于对初始分类识别模型进行训练的多个样本图像，每个样本图像包含有人工标注的标注语义分类结果。

这里，特征提取层提取得到的样本嵌入特征向量可以是对应样本图像多个维度的特征表达，样本嵌入特征向量中可以包含语义信息维度以及视觉属性维度的特征表达数据，同时也可以根据具体的检索业务或图像处理业务，包含其他其他维度的特征表达数据，具体的根据实际情况进行选择，本申请实施例不作限定。

在一些实施例中，特征提取层可以是Resnet-101网络模型中的池化(pooling)层；对应于不同形式的样本图像集，标注语义分类结果可以是1001类imagenet标注数据，openimage识别数据，或者业务中通用识别数据等等，具体的根据实际情况进行选择，本申请实施例不做限定。

S002、基于预设中心数量与样本嵌入特征向量，对每个样本图像进行聚类，得到预设中心数量个样本聚类中心，并将与样本嵌入特征向量距离最小的样本聚类中心作为每个样本图像对应的标注聚类中心。

本申请实施例中，服务器可以预先设定对全量样本图像的样本嵌入特征向量进行聚类的聚类中心总数量，作为预设中心数量，进而初始化预设中心数量个初始样本聚类中心，根据样本嵌入特征向量与初始样本聚类中心的距离，对每个样本图像进行迭代地聚类计算，得到预设中心数量个样本聚类中心。服务器计算每个样本图像的嵌入特征向量到每个样本聚类中心的距离，将与每个样本图像距离最小的样本聚类中心作为该样本图像对应的标注聚类中心，进而可以将标注聚类中心作为该样本图像的特征表达标注数据，生成对应的自监督任务，与语义分类任务进行协同训练，将初始分类识别模型从样本嵌入特征向量中学习到的特征表达与语义信息进行关联。

在一些实施例中，服务器可以根据标注语义分类结果的类别数量来设定预设中心数量。对于根据n种预设语义分类对应标注语义分类结果，可以将预设学习数量设定为n的正整数倍。示例性地，服务器可以将预设中心数量设定为n*100，采用kmeans聚类算法根据样本嵌入特性向量对每张样本图像进行聚类，得到100n个聚类中心向量作为样本聚类中心；对于每个样本图像，服务器根据其样本嵌入特征向量与100n个样本聚类中心的距离，选择最近的样本聚类中心作为该样本图像对应的标注聚类中心。这样，服务器可以将每个样本图像与其对应的标注聚类中心，作为训练过程中样本数据-聚类标签的监督信息，对初始分类识别模型学习特征表达的过程进行自监督的训练。

需要说明的是，这里，服务器可以基于样本嵌入特征向量中的语义信息维度的特征向量数据，对每个样本图像进行聚类，也可以基于样本嵌入特征向量中的其他维度，如视觉属性维度的特征向量数据，对每个样本图像进行聚类，具体的根据实际情况进行选择，本申请实施例不作限定。

S003、在当前轮训练过程中，基于样本嵌入特征向量，对每个样本图像进行语义分类预测，得到每个样本图像对应的语义分类预测结果，进而根据语义分类预测结果得到每轮训练过程的样本语义子簇集合。

本申请实施例中，由于样本嵌入特征向量中包含有对应样本图像的语义信息，对于多次迭代训练过程中的当前轮训练过程，服务器可以通过初始分类识别模型，对样本嵌入特征向量中的语义信息进行理解，并基于语义理解结果对该语义信息所属的语义分类进行前向预测，得到每个样本图像对应的语义分类预测结果。

在一些实施例中，初始分类识别模型可以包括分类层，示例性地，可以将神经网络模型中的全连接层作为分类层，并将分类层与特征提取层相连接，以利用分类层对特征提取层输出的样本嵌入特征向量进行语义分类预测，得到每个样本图像对应的语义分类预测结果。

本申请实施例中，服务器将相同语义分类预测结果的样本图像归为一个样本语义子簇，进而可以通过对整个样本图像集的语义分类预测结果的归类，得到当前轮训练过程对应的样本语义子簇集合。其中，每个样本语义子簇集合包含相同语义分类预测结果的至少一个样本图像。服务器可以在多次迭代训练过程中的每轮训练过程中以相同的过程进行处理，得到每轮训练过程对应的样本语义子簇集合。

S004、在样本语义子簇集合的每个样本语义子簇中，基于每个样本图像的样本嵌入特征向量进行聚类预测，得到每个样本图像对应的预测聚类中心。

本申请实施例中，在当前轮训练过程中，对于样本语义子簇集合的一个样本语义子簇，服务器可以通过初始分类识别模型，根据该样本语义子簇中每个样本图像的样本嵌入特征向量，对该样本语义子簇所包含的样本图像进行聚类预测，得到该样本语义子簇中每个样本图像对应的预测聚类中心。服务器对每个样本语义子簇以相同的过程进行处理，可以得到每个样本语义子簇中每个样本图像对应的预测聚类中心。

在一些实施例中，初始分类识别模型可以包含特征重投影层，在当前轮训练过程中，特征提取层可以将提取出的样本嵌入特征向量输出至特征重投影层，由特征重投影层根据样本嵌入特征向量进行聚类预测。

这里，特征重投影层可以将样本嵌入特征向量中包含的预设属性维度的特征表达数据，映射至预设中心数量个样本聚类中心所在的特征空间，得到样本投影特征，并基于样本投影特征对每个样本语义子簇中的包含的样本图像进行聚类预测，得到每个样本图像对应的预测聚类中心，预设属性维度可以是基于图像聚类所要应用的图像处理业务所确定的图像属性维度，如视觉属性维度。

S005、对比语义分类预测结果与标注语义分类结果，得到分类损失。

本申请实施例中，语义分类预测结果表征初始分类识别模型对样本图像的语义类别进行前向计算的预测结果，标注语义分类结果表征人工标注的该样本图像所属预设语义分类的真实类别，服务器将语义分类预测结果与标注语义分类结果进行对比，通过计算两者之间的误差得到分类损失。

S006、对比预测聚类中心与标注聚类中心，得到均衡损失；均衡损失表征预测聚类中心与标注聚类中心的分布差异。

本申请实施例中，预测聚类中心表征初始分类模型对样本嵌入特征向量的聚类预测结果，标注聚类中心表征样本嵌入特征向量的标注聚类结果，服务器可以通过对比预测聚类中心与标注聚类中心的分布差异得到均衡损失，在每轮聚类预测中，通过均衡损失约束样本图像向靠近标注聚类中心的方向偏移。

在一些实施例中，均衡损失可以是为保持两个预测聚类中心与标注聚类中心的分布一致性的K_L散度损失。服务器可以通过公式(1)计算得到均衡损失，如下：

其中，D_KL(p||q)为K_L散度损失，x_i为每轮训练对应的样本图像，p(x_i)为样本图像x_i输入初始分类识别模型后特征重投影层输出的预测聚类中心；q(x_i)为样本图像x_i对应的标注聚类中心。

S007、将分类损失与均衡损失作为当前轮训练的总损失，根据总损失对初始分类识别模型的模型参数进行更新并基于更新的模型参数进行下一轮训练，直至总损失小于预设训练阈值时，得到分类识别模型。

本申请实施例中，服务器根据语义分类任务对应的分类损失以及自监督任务对应的均衡损失得到每轮训练的总训练损失，作为总监督信息，对初始分类识别模型的网络模型参数进行后向梯度更新与模型参数迭代，直至达到预设训练条件，如达到预设训练次数，或总训练损失小于预设训练损失阈值时，结束训练，得到分类识别模型。

在一些实施例中，服务器对初始分类识别模型的训练过程可以如图7所示。服务器将样本图像集输入初始分类识别模型的特征提取层，通过特征提取层从每个样本图像中提取出第一特征向量数据embedding1与第二特征向量数据embedding2。其中，embedding1中包含样本图像的语义信息；embedding2为视觉属性维度的embedding数据，如样本图像中主体对象的轮廓、纹理、颜色、形状等等。在每轮训练过程中，服务器通过监督分支与协同分支两路分支，对初始分类识别模型进行协同训练。对于监督分支，通过分类层根据embedding1中的语义信息与每个样本图像的预设的分类标签即标注语义分类结果，执行语义分类任务，得到每个样本图像的语义分类预测结果，进而将样本图像集分类为样本语义子簇集合。对于协同分支，需要预先采用聚类算法对每个样本图像的embedding2进行聚类，得到每个样本图像对应的标注聚类中心，进而生成协同分支上的自监督任务。自监督任务与监督分支进行协同训练，在监督分支得到的样本语义子簇集合的基础上，通过特征重投影层，基于embedding2对每个样本语义子簇内部的样本图像对应的进行聚类预测，得到每个样本图像对应的聚类预测结果，即预测聚类中心。这样，在每轮训练过程中，服务器可以通过监督分支上的每个样本图像的语义分类预测结果与其预设的分类标签得到分类损失，根据协同分支上每个样本图像的预测聚类中心与标注聚类中心得到均衡损失，将分类损失与均衡损失作为每轮训练的总损失，对初始分类识别模型的网络参数进行迭代更新，使得初始分类识别模型对图像语义信息与特征表达的关联进行不断地深度学习，最终得到训练完成的分类识别模型。

可以理解的是，本申请实施例中，服务器基于样本语义子簇数据进行模型的特征重投影，可以在模型训练的过程中实现聚类均衡的渐进推进过程，以使训练后的分类识别模型在进行语义簇划分时可以达到每个语义子簇内分布均衡的状态，从而提升了语义子簇内图像聚类的均衡度，且由于每个语义子簇是通过语义信息对图像进行预先的分簇得到的，因此可最终达到语义子簇内外聚类均衡，也即全局聚类均衡的效果。

在一些实施例中，参见图8，图8是本申请实施例提供的图像聚类方法的一个可选的流程示意图，图4、图5或图6中示出的S102中的得到每个语义子簇对应的C_i个聚类中心的过程可以通过执行S1021-S1022来实现，将结合各步骤进行说明。

S1021、对于每个语义子簇，将每个语义子簇中子簇图像的数量与聚类中心比例的乘积，作为C_i个聚类中心数量；聚类中心比例为待处理图像集中待处理图像的总数量与预设聚类中心总数量的比值；子簇图像为每个语义子簇包含的待处理图像。

本申请实施例中，对于n个语义子簇中的每个语义子簇，服务器可以预先根据每个语义子簇中包含待处理图像的数量与待处理图像集中待处理图像的总数，结合预设聚类中心总数量，按比例得到该语义子簇在后续进行聚类算法时对应的聚类中心数量，作为C_i个聚类中心数量。

这里，i表征n个语义子簇中的第i个语义子簇，C_i表征第i个语义子簇对应的聚类中心数量，由于每个语义子簇内包含的待处理图像不同，对应计算出的每个语义子簇的聚类中心数量，即C_i也不相同。

S1022、基于C_i个聚类中心数量与每个子簇图像的图像特征，在每个语义子簇内进行子簇图像的聚类，得到C_i个聚类中心。

本申请实施例中，对于每个语义子簇，服务器可以基于每张待处理图像的图像特征，在每个语义子簇内部进行C_i个聚类中心数量的聚类计算，得到每个语义子簇对应的C_i个聚类中心。

本申请实施例中，当在S101中，服务器通过分类识别模型，从每张待处理图像中提取出了包含语义信息的嵌入特征向量时，每张待处理图像的图像特征可以是分类识别模型与语义信息同步提取得到的、用于进行与图像聚类相关的图像处理业务的图像特征；或者，图像特征也可以是语义信息，也即通过语义信息在每个语义子簇中进行聚类；或者，图像特征也可以是由另外的特征提取模块对每张待处理图像进行特征提取得到的，具体的根据实际情况进行选择，本申请实施例不作限定。

在一些实施例中，第i个语义子簇中包含的子簇图像数量为M，待处理图像集中的待处理图像的总数量为sum，预设聚类中心总数量为Kcluster，服务器可以按比例计算第i个语义子簇聚类个数为C_i＝(M/sum)*Kcluster个。服务器通过特征提取模块提取第i个语义子簇中每个子簇图像的检索特征，采用kmeans聚类算法，根据检索特征对M个子簇图像进行C_i个中心的聚类，得到C_i个聚类中心。服务器对n个语义子簇都进行聚类，得到C₁+C₂...+C_n，也即

个聚类中心。

可以理解的是，将全量sum个待处理图像划分为n个语义子簇后，平均子簇中样本数量为sum/n个，在子簇中进行聚簇数据量比全量数据聚类要少得多，从而大大减少了图像聚类所需处理的数据量。对于大规模语义分类模型，如上万类模型，n可达到10000，通过本申请实施例的方法则可以使得图像聚类所需处理的样本量减少4个数量级，从而实现了在计算资源有限下进行大规模聚类。并且，在语义子簇内进行聚类时，通过预先按比例计算该语义子簇对应的聚类中心数量，可以进一步可以避免语义聚类不稳定问题，保证语义子簇内的聚类中心数量与子簇图像数量成相同比例，提高语义子簇内部聚类的均衡性，进而提高图像聚类的准确性。

在一些实施例中，参见图9，图9是本申请实施例提供的图像聚类方法的一个可选的流程示意图。S103之后，还可以执行S103_1至S103_4，将结合各步骤进行说明。

S103_1、计算每个图像子类包含的图像数量。

本申请实施例中，对于通过图像聚类过程得到的图像子类集合，服务器可以通过计算每个图像子类中包含的图像数量，对图像聚类的效果进行检查，检查分类后的图像子类集合中是否存在包含图像数量过少的图像子类。

S103_2、将图像数量小于预设数量阈值的图像子类作为待合并子类，计算待合并子类的待合并聚类中心到聚类中心集合中其他聚类中心的至少一个中心距离。

本申请实施例中，若图像子类包含的图像数量过少，说明该图像子类或与该图像子类相近的其他图像子类之中可能存在聚类不均衡的现象。服务器可以将图像数量小于预设聚类数据阈值的图像子类确定为待合并子类，将待合并子类的聚类中心作为待合并聚类中心，分别计算待合并聚类中心到聚类中心集合，中其他聚类中心的距离，得到待合并聚类中心相对于每个其他聚类中心的中心距离，作为至少一个中心距离。

S103_3、将待合并子类与中心距离小于预设距离阈值的图像子类进行合并，得到合并图像子类，使用合并图像子类更新图像子类集合。

本申请实施例中，当中心距离小于预设距离阈值时，说明在图像数量过少的待合并子类附近存在其他可用于合并的图像子类。服务器将待合并子类合并至与其中心距离小于预设距离阈值的其他图像子类中，得到合并图像子类。

这里，服务器可以确定出与待合并聚类中心的中心距离小于预设距离阈值的至少一个其他聚类中心，将至少一个其他聚类中心对应的至少一个其他图像子类与待合并子类进行合并，得到合并图像子类。

这里，在对至少一个其他图像子类与将待合并子类进行合并时，可以将全部的至少一个其他图像子类与待合并子类进行合并，也可以将在至少一个其他图像子类中与待合并子类最近的其他图像子类与待合并子类进行合并，还可以根据实际情况采用其他合并策略，本申请实施例不作限定。

本申请实施例中，服务器可以通过上述检查与合并过程，从图像子类集合中检测出至少一个待合并图像子类，服务器通过上述的聚类合并过程对至少一个待合并图像子类中的每个待合并图像子类进行聚类合并，得到至少一个合并图像子类。服务器使用至少一个合并图像子类对应替换原图像子类集合中的合并前的至少一个待合并图像子类与用于合并的至少一个其他图像子类，以对图像子类集合进行相应地更新。

在一些实施例中，服务器可以从

个图像子类中确定出一个待合并子类并与其他图像子类进行合并，从而将图像子类集合减少至

个。

S103_4、计算合并图像子类的合并聚类中心，使用合并聚类中心更新聚类中心集合。

本申请实施例中，相应地，服务器可以重新计算合并图像集的聚类中心，作为合并聚类中心，使用合并聚类中心替代原聚类中心集合，如

个聚类中心中的待合并聚类中心与用于合并的其他聚类中心，以对聚类中心集合进行更新。

可以理解的是，通过对聚类结果进行检查与聚类合并，可以从原始的聚类结果中发现聚类效果不理想的图像子类，与相邻近的图像子类进行优化合并，减少聚类中心的数量，避免不必要的分类，从而进一步提高了图像聚类的准确性。

在一些实施例中，参见图10，图10是本申请实施例提供的图像聚类方法的一个可选的流程示意图，基于图4-图9，S103或S103_4之后，还可以执行S105-S107，将结合各步骤进行说明。

S105、获取待检索图像以及待检索图像对应的检索特征。

本申请实施例中，服务器可以获取待检索图像，并从待检索图像中提取出用于检索的图像特征，作为检索特征。

这里，检索特征可以是根据实际检索业务需要所提取出的相应属性维度的图像特征，示例性地，可以是语义embedding特征，也可以是其他属性维度的特征数据，具体的根据实际情况进行选择，本申请实施例不作限定。

S106、将检索特征与聚类中心集合进行聚类比对，确定出与检索特征匹配的检索聚类中心，将检索聚类中心在图像子类集合中对应的图像子类作为目标图像子类。

本申请实施例中，由于聚类中心集合，如

个聚类中心是通过对待处理图像的图像特征进行聚类计算得到的，表征其所在图像子类的特征质心，服务器可以将检索特征与

个聚类中心进行特征比对，计算出检索特征与每个聚类中心的匹配度，并将匹配度最高的聚类中心作为与检索特征匹配的检索聚类中心，进而将检索聚类中心在图像子类集合中所对应的图像子类作为目标图像子类。

S107、根据检索特征，在目标图像子类中确定出待检索图像匹配的目标图像。

本申请实施例中，服务器可以根据检索特征，在目标图像子类中包含的图像中进行进一步的特征匹配，确定与待检索图像匹配的目标图像，将目标图像作为检索结果，从而完成对待检索图像的检索。

可以理解的是，由于

个聚类中心是预先通过语义信息对图像检索范围对应的图像全集分类得到的，可以使得语义更相近的图像处于同一个或相近分桶中以便检索召回，可以使得检索结果更符合预期，提高了图像检索的准确性。并且，本申请实施例中得到的各图像子类中的图像数量更为均衡，避免了在大量头部数据情况下所有图像都聚到同一个桶的情况，从而优化了检索中遇到大量聚类结果造成过多召回使得后续计算压力瞬间变大几个数量级的问题，提高图像检索的效率。

下面，将结合图11，说明本申请实施例在一个实际的应用场景中的示例性应用。

如图11所示，对于图像库中存储的各种海量图像，若采用目前的聚类方法直接进行kmeans聚类，会导致所得到的聚类结果聚类1至聚类C的语义不清，如聚类1中同时包含“狗”和“鸡”的图像，聚类结果不准确，进而导致在基于聚类结果进行图像检索时，降低图像检索的准确性和效率。

对于图像库中同样的图像数据，在使用本申请实施例提供的图像聚类方法时，服务器可以在语义推断与深度学习语义簇划分阶段，利用根据标注语义分类结果与标注聚类中心进行自监督协同训练所得到的分类识别模型，根据图像的语义信息，对图像库中的图像集合进行语义推断与分类预测，得到语义子簇1至语义子簇N，每个语义子簇对应一种语义信息，其中，分类识别模型的训练过程与S001-S007描述一致，此处不再赘述。在簇内均衡聚类阶段，服务器可以在划分得到的每个语义子簇内部，根据S1021-S1022中的方法，基于语义信息维度之外的特征表达数据，如主体对象的轮廓、纹理、颜色、形状等特征表达数据，对每个语义子簇内部包含的图像进行聚类计算，得到每个语义子簇对应的C_i个子类。其中，C_i为根据每个语义子簇中子簇图像的数量与聚类中心比例的乘积得到的数值。示例性地，对于语义信息为“狗”的语义子簇2，其中包含有多个语义信息为“狗”的图像，服务器可以计算得到语义子簇2对应的聚类中心数量为k，进而可以根据语义子簇2内每个语义信息为“狗”的图像所包含的颜色与形状属性的视觉特征表达数据进行聚类计算，将每种相似颜色与外型的“狗”的图像聚为一个子类，得到语义子簇2对应的k个子类，即子类1-子类k，以及k个子类对应的k个聚类中心。服务器对每个语义子簇进行相同过程的簇内均衡聚类，可以得到每个语义子簇对应的C_i个子类，汇总所有子类得到

个子类。在聚类合并阶段，服务器可以基于

个子类对应的

个聚类中心，计算图像库中的每张图像分别到

个聚类中心中每个聚类中心的距离，将最小距离对应的聚类中心作为每张图像最终对应的聚类中心，对每张图像的聚类结果进行更新。服务器进而将相同聚类中心的图像归入一个分桶，得到

个分桶。作为。示例性地，对于k个子类对应的k个聚类中心，通过计算整个图像库中每张图像到k个聚类中心的最小距离，对k个聚类中心对应的图像聚类结果进行更新，得到k个分桶。这里，k个分桶中包含的图像与k个子类中对应包含的图像可能不同。服务器完成对全部

个聚类中心的聚类合并，得到

个分桶后，可以将

个分桶对应的分桶结果保存下来，作为后续进行图像检索的依据。

可以理解的是，通过本申请实施例提供的图像聚类方法实现了基于语义的均衡聚类，从而提高了图像聚类的准确性与效率。

下面继续说明本申请实施例提供的图像聚类装置455的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器450的图像聚类装置455中的软件模块可以包括：

分类识别模块4551，用于获取待处理图像集中每张待处理图像的语义信息，并基于所述每张待处理图像的语义信息，对所述待处理图像集进行语义簇划分，得到n个语义子簇；其中，n为大于或等于1的正整数；

簇内聚类模块4552，用于在所述n个语义子簇的每个语义子簇内进行图像聚类，得到所述每个语义子簇对应的C_i个聚类中心，进而得到所述n个语义子簇对应的聚类中心集合；其中，i为大于或等于1，且小于或等于n的正整数；所述C_i为大于或等于1的正整数；

簇间聚类模块4553，簇间聚类模块，用于基于所述聚类中心集合，对所述待处理图像集进行聚类，得到与所述聚类中心集合中每个聚类中心对应的图像子类；基于所述每个聚类中心对应的图像子类，得到图像子类集合；所述图像子类集合包括所述聚类中心集合中每个聚类中心对应的图像子类；所述图像子类集合用于图像检索。

在一些实施例中，所述分类识别模块4551是以样本图像集对应的标注语义分类结果与标注聚类中心，对初始分类识别模型进行自监督协同训练得到的；所述标注聚类中心是通过对所述样本图像集中样本图像的样本嵌入特征向量进行聚类得到。所述分类识别模块4551，用于对所述每张待处理图像进行特征提取，得到嵌入特征向量；所述嵌入特征向量包含所述语义信息；基于所述嵌入特征向量与n种预设语义分类，对所述每张待处理图像分类，得到所述待处理图像集对应的所述n个语义子簇，每个语义子簇对应所述n种预设语义分类中一种预设语义类型。

在一些实施例中，所述图像聚类装置455还包括模型训练模块，所述模型训练模块，用于所述利用分类识别模型，对所述每张待处理图像进行特征提取，得到嵌入特征向量之前，通过所述初始分类识别模型，从所述样本图像集中的每个样本图像中提取出样本嵌入特征向量；所述每个样本图像包含所述标注语义分类结果；基于预设中心数量与所述样本嵌入特征向量，对所述每个样本图像进行聚类，得到预设中心数量个样本聚类中心，并将与所述样本嵌入特征向量距离最小的样本聚类中心作为所述每个样本图像对应的标注聚类中心；在当前轮训练过程中，基于所述样本嵌入特征向量，对所述每个样本图像进行分类预测，得到所述每个样本图像对应的语义分类预测结果，进而根据所述语义分类预测结果得到每轮训练过程的样本语义子簇集合；在所述样本语义子簇集合的每个样本语义子簇中，基于每个样本图像的样本嵌入特征向量进行聚类预测，得到所述每个样本图像对应的预测聚类中心；对比所述语义分类预测结果与所述标注语义分类结果，得到分类损失；对比所述预测聚类中心与所述标注聚类中心，得到均衡损失；所述均衡损失表征所述预测聚类中心与所述标注聚类中心的分布差异；将所述分类损失与所述均衡损失作为所述当前轮训练的总损失，根据所述总损失对所述初始分类识别模型的模型参数进行更新并基于更新的模型参数进行下一轮训练，直至所述总损失小于预设训练阈值时，得到所述分类识别模型。

在一些实施例中，所述簇内聚类模块4552，还用于对于所述每个语义子簇，将所述每个语义子簇中子簇图像的数量与聚类中心比例的乘积，作为C_i个聚类中心数量；所述聚类中心比例为所述待处理图像集中待处理图像的总数量与预设聚类中心总数量的比值；所述子簇图像为所述每个语义子簇包含的待处理图像；基于所述C_i个聚类中心数量与所述每个子簇图像的图像特征，在所述每个语义子簇内进行子簇图像的聚类，得到所述C_i个聚类中心。

在一些实施例中，所述簇间聚类模块4553，还用于计算所述每张待处理图像分别到所述聚类中心集合中每个聚类中心的距离；将最小距离对应的聚类中心作为所述每张待处理图像对应的目标聚类中心；将对应同一目标聚类中心的待处理图像划分为一个图像子类，得到所述每个聚类中心对应的图像子类。

在一些实施例中，所述簇间聚类模块4553，还用于所述基于所述每个聚类中心对应的图像子类，得到图像子类集合之后，计算所述每个图像子类包含的图像数量；将所述图像数量小于预设数量阈值的图像子类作为待合并子类，计算所述待合并子类的待合并聚类中心到所述聚类中心集合中其他聚类中心的至少一个中心距离；将所述待合并子类与所述中心距离小于预设距离阈值的图像子类进行合并，得到合并图像子类，使用所述合并图像子类更新所述图像子类集合；计算所述合并图像子类的合并聚类中心，使用所述合并聚类中心更新所述聚类中心集合。

在一些实施例中，所述图像聚类装置455还包括检索模块，所述检索模块，用于所述基于所述每个聚类中心对应的图像子类，得到图像子类集合之后，获取待检索图像以及所述待检索图像对应的检索特征；将所述检索特征与所述聚类中心集合进行特征比对，确定出与所述检索特征匹配的检索聚类中心，将所述检索聚类中心在所述图像子类集合中对应的图像子类作为目标图像子类；根据所述检索特征，在所述目标图像子类中确定出所述待检索图像匹配的目标图像。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在可读存储介质，也即计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的图像聚类方法。

本申请实施例提供一种存储有可执行指令可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4-6、以及图8-11中示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例，在进行图像聚类之前，先通过语义信息对全量的待处理图像集进行预先分簇，从而可以将相似语义内容的图像聚到同一类，每个语义子簇内的语义接近，提高了图像聚类的准确性，这样在基于图像聚类结果进行检索时，可以使得语义更相近的样本作为同一个或相近分桶检索召回，实现检索结果更符合预期；并且，通过在每个语义子簇内部进行聚类得到每个语义子簇的C_i个聚类中心，进而得到全部的

个聚类中心，一方面可以减少直接在全量数据上随机初始化类中心导致的不稳定和不确定性，提高图像聚类的准确性；另一方面可以通过分簇聚类在有限开销内完成每次聚类，实现了有限资源下进行大规模数据样本的有效聚类，从而提高了图像聚类的效率，并且，在训练用于语义簇划分的分类识别模型时，服务器可以基于对样本语义子簇数据进行模型的特征重投影，在模型训练的过程中实现聚类均衡的渐进推进过程，以使训练后的分类识别模型在进行语义簇划分时可以达到每个语义子簇内分布均衡的状态，从而提升了语义子簇内图像聚类的均衡度，且由于每个语义子簇是通过语义信息对图像进行预先的分簇得到的，因此可最终达到语义子簇内外聚类均衡，也即全局聚类均衡的效果。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像聚类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待处理图像集中每张待处理图像的语义信息，并基于所述每张待处理图像的语义信息，对所述待处理图像集进行语义簇划分，得到n个语义子簇，包括：

利用分类识别模型，对所述每张待处理图像进行特征提取，得到嵌入特征向量；所述嵌入特征向量包含所述语义信息；

基于所述嵌入特征向量与n种预设语义分类，对所述每张待处理图像进行分类，得到所述待处理图像集对应的所述n个语义子簇，每个语义子簇对应所述n种预设语义分类中一种预设语义类型；

所述分类识别模型是以样本图像集对应的标注语义分类结果与标注聚类中心，对初始分类识别模型进行自监督协同训练得到的；所述标注聚类中心是通过对所述样本图像集中样本图像的样本嵌入特征向量进行聚类得到。

3.根据权利要求2所述的方法，其特征在于，所述利用分类识别模型，对所述每张待处理图像进行特征提取，得到嵌入特征向量之前，所述方法还包括：

通过所述初始分类识别模型，从所述样本图像集中的每个样本图像中提取出样本嵌入特征向量；所述每个样本图像包含所述标注语义分类结果；

基于预设中心数量与所述样本嵌入特征向量，对所述每个样本图像进行聚类，得到预设中心数量个样本聚类中心，并将与所述样本嵌入特征向量距离最小的样本聚类中心作为所述每个样本图像对应的标注聚类中心；

在当前轮训练过程中，基于所述样本嵌入特征向量，对所述每个样本图像进行语义分类预测，得到所述每个样本图像对应的语义分类预测结果，进而根据所述语义分类预测结果得到每轮训练过程的样本语义子簇集合；

在所述样本语义子簇集合的每个样本语义子簇中，基于每个样本图像的样本嵌入特征向量进行聚类预测，得到所述每个样本图像对应的预测聚类中心；

对比所述语义分类预测结果与所述标注语义分类结果，得到分类损失；

对比所述预测聚类中心与所述标注聚类中心，得到均衡损失；所述均衡损失表征所述预测聚类中心与所述标注聚类中心的分布差异；

将所述分类损失与所述均衡损失作为所述当前轮训练的总损失，根据所述总损失对所述初始分类识别模型的模型参数进行更新并基于更新的模型参数进行下一轮训练，直至所述总损失小于预设训练阈值时，得到所述分类识别模型。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述在所述n个语义子簇的每个语义子簇内进行图像聚类，得到所述每个语义子簇对应的C_i个聚类中心，包括：

对于所述每个语义子簇，将所述每个语义子簇中子簇图像的数量与聚类中心比例的乘积，作为C_i个聚类中心数量；所述聚类中心比例为所述待处理图像集中待处理图像的总数量与预设聚类中心总数量的比值；所述子簇图像为所述每个语义子簇包含的待处理图像；

基于所述C_i个聚类中心数量与所述每个子簇图像的图像特征，在所述每个语义子簇内进行子簇图像的聚类，得到所述C_i个聚类中心。

5.根据权利要求4所述的方法，其特征在于，所述基于所述聚类中心集合，对所述待处理图像集进行聚类，得到与所述聚类中心集合中每个聚类中心对应的图像子类，包括：

计算所述每张待处理图像分别到所述聚类中心集合中每个聚类中心的距离；

将最小距离对应的聚类中心作为所述每张待处理图像对应的目标聚类中心；

将对应同一目标聚类中心的待处理图像划分为一个图像子类，得到所述每个聚类中心对应的图像子类。

6.根据权利要求5所述的方法，其特征在于，所述基于所述每个聚类中心对应的图像子类，得到图像子类集合之后，所述方法还包括：

计算所述每个图像子类包含的图像数量；

将所述图像数量小于预设数量阈值的图像子类作为待合并子类，计算所述待合并子类的待合并聚类中心到所述聚类中心集合中其他聚类中心的至少一个中心距离；

将所述待合并子类与所述中心距离小于预设距离阈值的图像子类进行合并，得到合并图像子类，使用所述合并图像子类更新所述图像子类集合；

计算所述合并图像子类的合并聚类中心，使用所述合并聚类中心更新所述聚类中心集合。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于所述每个聚类中心对应的图像子类，得到图像子类集合之后，所述方法还包括：

获取待检索图像以及所述待检索图像对应的检索特征；

将所述检索特征与所述聚类中心集合进行特征比对，确定出与所述检索特征匹配的检索聚类中心，将所述检索聚类中心在所述图像子类集合中对应的图像子类作为目标图像子类；

根据所述检索特征，在所述目标图像子类中确定出所述待检索图像匹配的目标图像。

8.一种图像聚类装置，其特征在于，包括：

9.一种图像聚类装置，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至7任一项所述的方法。