CN116935083A

CN116935083A - 一种图像聚类方法和装置

Info

Publication number: CN116935083A
Application number: CN202311168727.6A
Authority: CN
Inventors: 张星宇
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-10-24
Anticipated expiration: 2043-09-12
Also published as: CN116935083B

Abstract

本申请涉及计算机模型技术领域，提供了一种图像聚类方法和装置。该方法通过充分挖掘异质图信息将多个不同质的特征向量融合，提升了图像数据中特征的分辨能力，基于融合特征构建拓扑图，并基于拓扑图确定图像聚类结果，通过提升图像数据中特征的分辨能力，提升了图像聚类的准确度，同时提升了图像聚类的精度和鲁棒性，避免了相关技术中，由于图像数据质量差，对图像数据进行特征提取得到的特征不准确，导致难以将不同时刻、不同空间的图像聚类起来，图像聚类效果差的问题。

Description

一种图像聚类方法和装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像聚类方法和装置。

背景技术

基于视觉的身份识别方法具有非接触、非强制、无意识、速度快、精度高等优点，在安防监控、智慧零售、考勤打卡等领域都有应用需求。深度学习的发展以及算力的提升使得此项技术的实用性极大提升，目前已经得到了广泛的应用，在一些相对受控的环境，目前的技术已基本能满足需求。目前，基于视觉的身份识别提出一种人员聚合方法，具体地，在视频监控场景下，对场景内到访人员进行人员聚合，区别不同人在空间内的游逛情况。

然而，现有技术中，由于视频监控抓拍的图像经常呈现模糊、大姿态、遮挡等特点，难以将不同时刻、不同空间的图像聚类起来，图像聚类效果差。

发明内容

有鉴于此，本申请实施例提供了一种图像聚类方法和装置，以解决现有技术中，由于图像质量差，导致难以将不同时刻、不同空间的图像聚类起来，图像聚类效果差的问题。

本申请实施例的第一方面，提供了一种图像聚类方法，该方法包括：获取源数据集，源数据集中包括N条图像数据，每条图像数据中包含至少两种类型的特征信息；对每条图像数据的特征信息进行特征提取，得到每条图像数据对应的特征向量集，特征向量集中包含至少两种类型的特征向量；根据每条图像数据对应的特征向量集构建源数据集对应的异质图网络，并基于异质图网络对特征向量集中包含的特征向量进行特征融合，得到每条图像数据对应的融合特征；根据融合特征构建源数据集对应的拓扑图，并对拓扑图的目标节点进行聚类得到源数据集的图像聚类结果。

本申请实施例的第二方面，提供了一种图像聚类装置，该装置包括：获取模块，用于获取源数据集，源数据集中包括N条图像数据，每条图像数据中包含至少两种类型的特征信息；提取模块，用于对每条图像数据的特征信息进行特征提取，得到每条图像数据对应的特征向量集，特征向量集中包含至少两种类型的特征向量；构建模块，用于根据每条图像数据对应的特征向量集构建源数据集对应的异质图网络，并基于异质图网络对特征向量集中包含的特征向量进行特征融合，得到每条图像数据对应的融合特征；聚类模块，用于根据融合特征构建源数据集对应的拓扑图，并对拓扑图的目标节点进行聚类得到源数据集的图像聚类结果。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：本申请实施例中通过获取源数据集，对每条图像数据的特征信息进行特征提取，得到每条图像数据对应的特征向量集，根据每条图像数据对应的特征向量集构建源数据集对应的异质图网络，并基于异质图网络对特征向量集中包含的特征向量进行特征融合，得到每条图像数据对应的融合特征，根据融合特征构建源数据集对应的拓扑图，并对拓扑图中的目标节点进行聚类得到源数据集的图像聚类结果，通过异质图网络对图像数据的多个特征向量进行融合得到融合特征，通过充分挖掘异质图信息将多个不同质的特征向量融合，提升了图像数据中特征的分辨能力，基于融合特征构建拓扑图，并基于拓扑图确定图像聚类结果，通过提升图像数据中特征的分辨能力，提升了图像聚类的准确度，同时提升了图像聚类的精度和鲁棒性，避免了相关技术中，由于图像数据质量差，对图像数据进行特征提取得到的特征不准确，导致难以将不同时刻、不同空间的图像聚类起来，图像聚类效果差的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例的应用场景的场景示意图；

图2是申请实施例提供的一种图像聚类方法的流程示意图；

图3是本申请实施例提供的还一种图像聚类方法的流程示意图；

图4是申请实施例提供的一种为图像数据设置虚拟节点的基本示意图；

图5是本申请实施例提供的另一种图像聚类方法的流程示意图；

图6是本申请实施例提供的再一种图像聚类方法的流程示意图；

图7是本申请实施例提供的又一种图像聚类方法的流程示意图；

图8是本申请实施例提供的还一种可选的图像聚类方法的流程示意图；

图9是本申请实施例提供的一种基于异质图网络进行特征融合的基本流程图；

图10是本申请实施例提供的另一种可选的图像聚类方法的流程示意图；

图11是本申请实施例提供的一种图像聚类装置的结构示意图；

图12是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

下面将结合附图详细说明根据本申请实施例的一种图像聚类方法和装置。

图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。

终端设备1、2和3可以是硬件，也可以是软件。当终端设备1、2和3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1、2和3为软件时，其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本申请实施例对此不作限制。进一步地，终端设备1、2和3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本申请实施例对此不作限制。

需要说明的是，服务器4可以是硬件，也可以是软件。当服务器4为硬件时，其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时，其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块，也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块，本申请实施例对此不作限制。

网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙（Bluetooth）、近场通信（Near FieldCommunication，NFC）、红外（Infrared）等，本申请实施例对此不作限制。

用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接，以接收或发送信息等。

需要说明的是，终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本申请实施例对此不作限制。

图2是本申请实施例提供的一种图像聚类方法的流程示意图，如图2所示，该图像聚类方法包括：

S201、获取源数据集，源数据集中包括N条图像数据，每条图像数据中包含至少两种类型的特征信息；

S202、对每条图像数据的特征信息进行特征提取，得到每条图像数据对应的特征向量集，特征向量集中包含至少两种类型的特征向量；

S203、根据每条图像数据对应的特征向量集构建源数据集对应的异质图网络，并基于异质图网络对特征向量集中包含的特征向量进行特征融合，得到每条图像数据对应的融合特征；

S204、根据融合特征构建源数据集对应的拓扑图，并对拓扑图中的目标节点进行聚类得到源数据集的图像聚类结果。

具体地，上述源数据集可以是视频拍摄器拍摄的视频数据转换为图像数据得到的，上述源数据集还可以多个视频拍摄器拍摄的视频数据转换为图像数据得到的；其中，源数据集中每条图像数据中包含至少两种类型的特征信息，该特征信息包括但不限于：面部信息、人体信息以及头肩信息；以每条图像数据均包含面部信息、人体信息以及头肩信息为例，在上述步骤S202中，通过对每条图像数据的特征信息进行特征提取，则会得到每条图像数据对应的面部特征向量、人体特征向量以及头肩特征向量，将面部特征向量、人体特征向量以及头肩特征向量的集合作为特征向量集。

能够理解的是，本实施例并不限制对图像数据的特征信息进行特征提取的具体方法，相关人员可以根据实际需求灵活选取特征提取方法，本实施例并不对此进行限制；其中，为了使得数据更加标准化，以及使得数据具有可比性，本示例提供的图像聚类方法，在对每条图像数据的特征信息进行特征提取时，回对提取出的特征向量进行L2范数归一化处理，得到L2范数归一化处理后的特征向量；例如，源数据集中包括N条图像数据，每条图像数据均包含面部信息、人体信息以及头肩信息，对第i条图像数据的特征信息进行特征提取，得到、/>、/>三个特征向量，/>表示第/>条源数据L2范数归一化后的面部特征向量，/>表示第/>条源数据L2范数归一化后的人体特征向量、/>表示第/>条源数据L2范数归一化后的头肩特征向量。

承接上例，在获取到每条图像数据对应的特征向量后，根据每条图像数据对应的特征向量集构建源数据集对应的异质图网络，也即，N个图像数据的特征向量集共同构成了该源数据集对应的异质图网络。在构建该异质图网络后，基于异质图网络对特征向量集中包含的特征向量进行特征融合，得到每条图像数据对应的融合特征；具体的，以每条图像数据包含、/>、/>为例，其中，在构建异质图网络后，基于该异质图网络将/>、/>、/>转换为同质图，实现/>、/>、/>三个特征向量的融合，得到融合特征。

最后在基于每个图像数据对应的融合特征构建拓扑图，并对拓扑图中的目标节点进行聚类得到源数据集的图像聚类结果，实现准确聚类的效果，能够理解的是，本实施例并不限制对拓扑图的目标节点进行聚类的具体方法，相关人员可以灵活选取，例如，相关人员对拓扑图的目标节点使用社区发现算法infomap进行拓扑图聚类发现，将Q1作为最终聚类结果，则最终聚类结果Q1如下：

；

其中，S表示源数据集，表示第i个簇，每个簇内包括多条图像数据，且任意两个簇不重叠。

根据本申请实施例提供的技术方案，通过获取源数据集，对每条图像数据的特征信息进行特征提取，得到每条图像数据对应的特征向量集，根据每条图像数据对应的特征向量集构建源数据集对应的异质图网络，并基于异质图网络对特征向量集中包含的特征向量进行特征融合，得到每条图像数据对应的融合特征，根据融合特征构建源数据集对应的拓扑图，并对拓扑图中的目标节点进行聚类得到源数据集的图像聚类结果，通过异质图网络对图像数据的多个特征向量进行融合得到融合特征，通过充分挖掘异质图信息将多个不同质的特征向量融合，提升了图像数据中特征的分辨能力，基于融合特征构建拓扑图，并基于拓扑图确定图像聚类结果，通过提升图像数据中特征的分辨能力，提升了图像聚类的准确度，同时提升了图像聚类的精度和鲁棒性，避免了相关技术中，由于图像数据质量差，对图像数据进行特征提取得到的特征不准确，导致难以将不同时刻、不同空间的图像聚类起来，图像聚类效果差的问题。

在一些实施例中，如图3所示，根据每条图像数据对应的特征向量集构建源数据集对应的异质图网络，包括：

S301、为图像数据构建对应的虚拟节点，并将图像数据对应的特征向量与对应的虚拟节点连接；

S302、从图像数据对应的特征向量中确定图像数据对应的目标特征向量；

S303、基于每条图像数据对应的目标特征向量，确定虚拟节点之间的连接关系，并根据虚拟节点之间的连接关系构建异质图网络。

具体的，为每条图像数据均构建对应的虚拟节点，例如，源数据集S中包括了N条图像数据，则为N条图像数据分别构建对应的虚拟节点P，也即第i条图像数据对应虚拟节点。

承接上例，在为每条图像数据设置对应的虚拟节点后，将每条图像数据对应的特征向量与对应的虚拟节点连接；例如，如图4所示，源数据集S中包括了N条图像数据，第i条图像数据对应的特征向量为、/>以及/>，第i条图像数据对应虚拟节点为/>，则/>、/>以及与虚拟节点/>连接。

在本实施例的一些示例中，在将图像数据对应的特征向量与对应的虚拟节点连接后，本示例通过每个图像数据对应的目标特征向量确定各个虚拟节点之间的连接关系；具体的，从图像数据对应的特征向量中确定图像数据对应的目标特征向量，其中，从特征向量中选取出目标特征向量的方式本实施例并不进行限制，优选的，获取每个特征向量对应的权重，将权重高的特征向量作为目标特征向量；例如，第i条图像数据包含特征向量、/>以及/>，其中面部特征向量/>能够直观确定图像数据中目标的身份，因此，面部特征向量/>的权重高于人体特征向量/>以及头肩特征向量/>，将第i条图像数据的面部特征向量/>作为第i条图像数据的目标特征向量即可。

承接上例，在确定每条图像数据对应的目标特征向量后，基于目标特征向量之间的关系确定虚拟节点之间的连接关系，并根据虚拟节点之间的连接关系构建异质图网络；具体地，在确定N条图像数据的目标特征向量后，根据第i条图像数据的目标特征向量和第j条图像数据的目标特征向量之间关系确定虚拟节点和虚拟节点/>之间的连接关系，基于上述方式确定N条图像数据中所有虚拟节点两两之间的连接关系，然后根据所有虚拟节点之间的连接关系构建异质图网络。

根据本申请实施例提供的技术方案，通过为图像数据构建对应的虚拟节点，并将图像数据对应的特征向量与对应的虚拟节点连接；从图像数据对应的特征向量中确定图像数据对应的目标特征向量；基于每条图像数据对应的目标特征向量，确定虚拟节点之间的连接关系，并根据虚拟节点之间的连接关系构建异质图网络，其中，通过为每一图像数据构建虚拟节点，并将图像数据对应的特征向量与虚拟节点连接，最后在基于目标特征向量确定虚拟节点之间的连接关系来构建异质图网络，实现了构建的异质图网络中包含了图像数据的所有特征向量，使得后续能够通过该异质图网络对图像数据的特征向量进行特征融合，得到融合特征，提升了图像数据中特征的分辨能力，进而提升了图像聚类的准确度。

在一些实施例中，如图5所示，基于每条图像数据对应的目标特征向量，确定虚拟节点之间的连接关系，包括：

S501、确定当前图像数据对应的目标特征向量与其他图像数据对应的目标特征向量的相似度；

S502、若当前图像数据对应的目标特征向量与其他图像数据对应的目标特征向量的相似度高于预设阈值，则确定当前图像数据对应的虚拟节点与其他图像数据对应的虚拟节点相连。

具体的，在确定每条图像数据的目标特征向量后，获取当前图像数据对应的目标特征向量，然后将当前图像数据对应的目标特征向量与其他图像数据对应的目标特征向量进行比较，进而确定相似度；例如，以源数据集中包含N条图像数据为例，设当前图像数据为第i条图像数据，则其他图像数据为第j条图像数据（其中，，），然后将第i条图像数据对应的目标特征向量和第j条图像数据对应的目标特征向量进行比较，以确定第i条图像数据对应的目标特征向量和第j条图像数据对应的目标特征向量的相似度，进而实现获取所有目标特征向量两两之间的相似度。

承接上例，确定第i条图像数据对应的目标特征向量和第j条图像数据对应的目标特征向量的相似度后，将该相似度与预设阈值进行比较，若该相似度高于阈值，则确定当前图像数据对应的虚拟节点与其他图像数据对应的虚拟节点相连；反之，该相似度不高于阈值，则图像数据对应的虚拟节点与其他图像数据对应的虚拟节点不相连；能够理解的是，上述预设阈值可以由相关人员灵活设置。例如，以图像数据的目标特征向量为面部特征向量为例，若第i条图像数据对应的面部特征向量与第j条图像数据对应的面部特征向量/>相似度高于预设阈值，则第i条图像数据对应的虚拟节点/>和虚拟节点/>相连，同理，若第j条图像数据对应的面部特征向量/>与第k条图像数据对应的面部特征向量/>的相似度高于预设阈值，则虚拟节点/>和虚拟节点/>相连；若/>与/>的相似度高于预设阈值，则虚拟节点/>和虚拟节点/>相连；若/>与/>的相似度高于预设阈值，则虚拟节点/>和虚拟节点/>相连；反之，若/>与/>的相似度不高于预设阈值，则虚拟节点/>和虚拟节点/>不相连；若/>与/>的相似度不高于预设阈值，则虚拟节点/>和虚拟节点/>不相连，如图4所示，图4示出了上述示例中虚拟节点之间的连接关系，能够理解的是，任意两个虚拟节点相连，则可以说任意两个相连的虚拟节点为相邻节点。

根据本申请实施例提供的技术方案，通过确定当前图像数据对应的目标特征向量与其他图像数据对应的目标特征向量的相似度；若当前图像数据对应的目标特征向量与其他图像数据对应的目标特征向量的相似度高于预设阈值，则确定当前图像数据对应的虚拟节点与其他图像数据对应的虚拟节点相连，实现了根据目标特征向量准确的确定虚拟节点之间的连接关系，进而实现了根据目标特征向量准确的构建异质图网络，使得后续能够通过该异质图网络对图像数据的特征向量进行特征融合，得到融合特征，通过融合特征提升了图像数据中特征的分辨能力，进而提升了图像聚类的准确度。

在一些实施例中，如图6所示，基于异质图网络对特征向量集中包含的特征向量进行特征融合，得到每条图像数据对应的融合特征，包括：

S601、根据异质图网络中的虚拟节点的连接关系，为图像数据生成每个特征信息分别对应的目标数据集，每个目标数据集中仅包含相同类型的特征向量，且目标数据集中包含当前图像数据的特征向量和相邻节点的图像数据中的特征向量；

S602、基于目标数据集确定每个特征信息对应的语义特征；

S603、将图像数据对应的多个语义特征进行特征融合，得到图像数据对应的融合特征。

具体的，异质图网络为多个不同类型的特征向量转换而来的节点构成的，因此，该异质图网络无法直接进行模型推理和训练，因此，本示例通过异质图网络特征向量进行转换，将异质图转换为同质图；以每条图像数据包含面部特征向量、人体特征向量/>、头肩特征向量/>为例，由于/>为虚拟节点，依据“/>”，“/>”，“”三种路径，实现将异质图转为三个同质图。

承接上例，根据异质图网络中的虚拟节点的连接关系，为图像数据生成每个特征信息分别对应的目标数据集，具体步骤如下，首先确定当前图像数据对应的当前虚拟节点，然后根据异质图网络中的虚拟节点的连接关系，确定当前虚拟节点对应的相邻的虚拟节点，将相邻的虚拟节点作为相邻节点，然后确定相邻节点对应的图像数据，最后基于当前图像数据对应的特征向量和相邻节点对应的图像数据的特征向量构建每个特征信息分别对应的目标数据集。也即，若每条图像数据包含z个特征信息，则每条图像数据分别对应z个目标数据集，且每个目标数据集中包含当前图像数据的特征向量和相邻节点的图像数据中的特征向量，且每个数据集中包含的特征向量对应的特征信息相同；例如，以每条图像数据均包含了面部信息、人体信息以及头肩信息，且第i条数据对应的虚拟节点pi与虚拟节点pk相连，同时虚拟节点pi和虚拟节点pj相连为例，为第i条图像数据构建每个特征信息分别对应的目标数据集，具体步骤如下：

确定第i条图像数据对应的虚拟节点pi，然后根据异质图网络中虚拟节点的连接关系，确定相邻节点为pj和pk，然后确定相邻节点pj对应的图像数据为第j条图像数据，确定相邻节点pk对应的图像数据为第k条图像数据，然后基于第i条图像数据对应的面部特征向量、第j条图像数据对应的面部特征向量/>以及第k条图像数据对应的面部特征向量/>构建第i条图像数据的面部信息对应的目标数据集，该面部信息对应的目标数据集中包含：、/>以及/>；同理，构建人体信息对应的目标数据集，该人体信息对应的目标数据集包括：、/>以及/>；同理，构建头肩信息对应的目标数据集，则该头肩信息对应的目标数据集中包含：/>、/>以及/>。

其中，在确定每条图像数据对应的目标数据集后，基于每个目标数据集确定每个特征信息对应的语义特征，例如，第i条图像数据对应的目标数据集包括：面部信息对应的目标数据集、人体信息对应的目标数据集以及头肩信息对应的目标数据集，则分别根据面部信息对应的目标数据集确定第i条图像数据中面部信息对应的语义特征，根据人体信息对应的目标数据集确定第i条图像数据中人体信息对应的语义特征，根据头肩信息对应的目标数据集确定第i条图像数据中头肩信息对应的语义特征。

承接上例，在确定出图像数据对应的语义特征后，对图像数据对应的语义特征进行特征融合，进而得到图像数据对应的融合特征。例如，第i条图像数据包括面部信息对应的语义特征、人体信息对应的语义特征以及头肩信息对应的语义特征，通过对面部信息对应的语义特征、人体信息对应的语义特征以及头肩信息对应的语义特征进行特征融合，进而得到第i条图像数据对应的融合特征。

能够理解的是，通过虚拟节点之间的关系构建图像数据的目标数据集，进而使得目标数据集中的特征向量之间的关系与虚拟节点之间的关系具有关联性，也即，虚拟节点与相邻的虚拟节点具有相似性，进而目标数据集中的特征向量同样具有相似性。

根据本申请实施例提供的技术方案，通过虚拟节点之间的连接关系为图像数据生成对应的目标数据集，并基于目标数据集确定语义特征，最后将多个语义特征进行特征融合，得到图像数据对应的融合特征，实现了根据虚拟节点之间的连接关系为图像数据构建对应的目标数据集，使得目标数据集中包含的特征向量具有关联性，后续能够通过目标数据集中具有关联关系的特征向量进行特征融合，得到融合特征，提升了图像数据中特征的分辨能力，进而提升了图像聚类的准确度。

在一些示例中，如图7所示，基于目标数据集确定每个特征信息对应的语义特征，包括：

S701、对每个目标数据集中的特征向量进行维度变换，得到对应的维度变换数据集，每个维度变换数据集中包含多个转化特征向量；

S702、确定每一特征信息对应的第一维度权重系数，基于第一维度权重系数和当前图像数据对应的转化特征向量确定每一转化特征向量对应的注意力权重；

S703、根据每一转化特征向量对应的注意力权重对每个转化特征向量进行加权求和处理，得到每一特征信息对应的语义特征。

具体的，对每个目标数据集中的特征向量进行维度变换，得到对应的维度变换数据集，进而实现了将图像数据的对应的目标数据集转换为相同维度的数据，便于后续使用。能够理解的是，其中具体的维度变换转化矩阵由相关人员灵活设置。例如，以第i条图像数据的面部信息对应的目标数据集为例，设第i条图像数据的面部信息对应的目标数据集为，其中，/>中包含第i条图像数据对应的面部特征向量/>和相邻的虚拟节点对应的面部虚拟特征，则/>，使用全连接层对目标数据集/>中包含的特征向量进行维度变换，具体的维度变换公式如下：/>；其中，/>是转化矩阵，f为目标数据集中包含的特征向量，f'为进行维度变换后得到的转化特征向量；能够理解的是，转化矩阵/>是相关人员根据实际需求训练得到的矩阵，且维度变换后的特征向量f'的维数为512。

承接上例，基于上述相同的原理，能够获取图像数据对应每个目标数据集的语义特征，在此不再赘述。

在一些示例中，确定每一特征信息对应的第一维度权重系数，然后基于该第一维度权重系数和当前图像数据对应的转化特征向量确定每一转化特征向量对应的注意力权重，具体地，设第i条图像数据的面部信息对应的目标数据集为，设目标数据集/>进行维度转换后得到的维度变换数据集，则该维度变换数据集中包含的转化特征向量可以表示为/>，然后将维度变换数据集中的第j个转化特征向量/>、第一维度权重系数以及第i条图像数据对应的转化特征向量输入预设的注意力权重确定公式，进而确定第j个转化特征向量/>对应的注意力权重，其中，上述注意力权重确定公式具体如下：

；

其中，表示第j个转化特征向量/>对应的注意力权重，/>是激活函数（能够理解的是，上述激活函数可以由相关人员根据实际需求灵活选取），/>表示向量拼接，/>是面部信息对应的第一维度权重系数（该第一维度权重系数是由相关人员根据实际需求训练得到的），/>是第i条图像数据对应的转化特征向量，/>是维度变换数据集中的第j个转化特征向量，/>是该维度变换数据集中的转化特征向量，能够理解的是，基于上述方式获取的注意力权重的矩阵维度为1024*1。

承接上例，基于上述方法获取每一转化特征向量对应的注意力权重后，根据每一转化特征向量对应的注意力权重对每个转化特征向量进行加权求和处理，进而得到语义特征；具体的，以第i条图像数据的面部信息对应的目标数据集为为例，在获取第i条图像数据对应的每一转化特征向量对应的注意力权重后，根据每一转化特征向量对应的注意力权重对每个转化特征向量进行加权求和处理，进而得到第i条图像数据面部信息对应的语义特征，若用公式表示上述计算过程，则公式如下：

；

其中，表示第i条图像数据面部信息对应的语义特征，/>是激活函数（能够理解的是，上述激活函数可以由相关人员根据实际需求灵活选取），/>是维度变换数据集中的第j个转化特征向量，/>表示第j个转化特征向量对应的注意力权重；通过上述公式根据每一转化特征向量对应的注意力权重对每个转化特征向量进行加权求和处理，进而得到第i条图像数据面部信息对应的语义特征，能够理解的是，若第i条图像数据还包括了人体信息和头肩信息，则基于相同的原理，能够获取第i条图像数据人体信息对应的语义特征和头肩信息对应的语义特征。

根据本申请实施例提供的技术方案，对每个目标数据集中的特征向量进行维度变换，得到对应的维度变换数据集，每个维度变换数据集中包含多个转化特征向量；确定每一特征信息对应的第一维度权重系数，基于第一维度权重系数和当前图像数据对应的转化特征向量确定每一转化特征向量对应的注意力权重；根据每一转化特征向量对应的注意力权重对每个转化特征向量进行加权求和处理，得到每一特征信息对应的语义特征，实现了将每个图像数据对应的特征信息转换为对应的语义特征，使得后续能够对语音特征进行融合得到图像数据对应的融合特征，通过融合特征提升了图像数据中特征的分辨能力，进而提升了图像聚类的准确度。

在一些示例中，如图8所示，将图像数据对应的多个语义特征进行特征融合，得到图像数据对应的融合特征，包括：

S801、确定每一特征信息对应的第二维度权重系数，基于第二维度权重系数确定每一语义特征的语义相关权重；

S802、根据每一语义特征的语义相关权重对各个语义特征进行加权求和处理，得到融合特征。

具体的，确定每一特征信息对应的第二维度权重系数，基于第二维度权重系数确定每一语义特征的语义相关权重；具体地，以每条图像数据中均包含N个特征信息为例，则每条图像数据对应N个语义特征，则第i条图像数据中特征信息对应的语义特征分别记为、/>…/>，然后分别确定每一类型的特征信息对应的第二维度权重系数/>、/>、/>…/>（其中，/>为/>对应的第二维度权重系数，/>为/>对应的第二维度权重系数，以此类推），最后将每一特征信息对应的第二维度权重系数以及语义特征输入预设的语义相关权重确定公式中，进而确定每一语义特征对应的语义相关权重，该语义相关权重确定公式如下：

；

其中，是每条图像数据对应N个语义特征中第j个语义特征对应的语义相关权重，/>是第i条图像数据对应的第j个语义特征，/>是第j个语义特征对应的第二维度权重系数，/>是第i条图像数据对应的第k个语义特征，k∈n，/>是第k个语义特征对应的第二维度权重系数，能够理解的是，上述第二维度权重系数均为512维向量。

承接上例，基于上述方法确定每一语义特征的语义相关权重后，根据每一语义特征的语义相关权重对各个语义特征进行加权求和处理，得到融合特征，例如，以每条图像数据中均包含面部信息、人体信息以及头肩信息为例，则每条图像数据对应3个语义特征，面部信息对应的语义特征记为、人体信息对应的语义特征记为/>以及头肩信息对应的语义特征记为/>，/>对应的语义相关权重记为/>，/>对应的语义相关权重记为/>，对应的语义相关权重记为/>，将融合特征记为/>，则。

根据本申请实施例提供的技术方案，通过确定每一特征信息对应的第二维度权重系数，基于第二维度权重系数确定每一语义特征的语义相关权重；根据每一语义特征的语义相关权重对各个语义特征进行加权求和处理，得到融合特征，实现了将每个图像数据对应的特征信息转换为对应的语义特征，使得后续能够对语音特征进行融合得到图像数据对应的融合特征，通过融合特征提升了图像数据中特征的分辨能力，进而提升了图像聚类的准确度。

为了更好的说明“基于异质图网络对特征向量集中包含的特征向量进行特征融合，得到每条图像数据对应的融合特征”这一步骤，本实施例提供一种更为具体的示例进行说明：如图9所示，图9所示为本示例提供的一种基于异质图网络进行特征融合的基本流程图。

其中，如图9所示，以每条图像数据包含面部信息、人体信息以及头肩信息为例，对每条图像数据进行特征提取，得到面部特征向量、人体特征向量以及头肩特征向量，分别为基于每条图像数据对应的特征向量为每条图像数据建立对应的目标数据集，并对目标数据集中的特征进行维度变换，然后将维度变换后的特征输入注意力模块A，使得注意力模块A基于第一维度权重系数以及转化特征向量得到注意力权重，并基于注意力权重和转化特征向量得到每一特征信息对应的单语义特征，然后将单语义特征输入到注意力模块B，使得注意力模块B基于确定每一特征信息对应的第二维度权重系数，基于第二维度权重系数确定每一语义特征的语义相关权重根据每一语义特征的语义相关权重对各个语义特征进行加权求和处理，得到融合特征。能够理解的是，在异质图信息融合网络的训练阶段中，将融合特征输入多层感知机和分类器，使用softmax分类损失函数进行梯度回传和网络更新；在推理阶段，直接输出融合特征/>即可。

在一些示例中，如图10所示，根据融合特征构建源数据集对应的拓扑图，包括：

S1001、确定多个融合特征两两之间边的权重，根据两个融合特征之间边的权重确定两个融合特征之间边的连接关系；

S1002、根据多个融合特征两两之间边的连接关系构建拓扑图。

具体的，在确定出每条图像数据对应的融合特征后，确定每两个融合特征之间的权重，根据两个融合特征之间的权重确定两个融合特征之间的连接关系，具体地，将多个融合特征两两输入到权重确定公式中，实现确定多个融合特征两两之间的权重，其中，以第i条图像数据对应的融合特征和第j条图像数据对应的融合特征/>为例，将/>和/>输入到权重确定公式中，即可确定/>和/>的权重，其中，权重确定公式如下：

；

表示第i条图像数据对应的融合特征/>和第j条图像数据对应的融合特征/>之间边的权重，/>表示向量的内积，/>表示向量的模。

最后，在确定出两个融合特征之间边的权重后，基于两个融合特征之间边的权重确定两个融合特征之间边的连接关系，具体的，将两个融合特征之间边的权重与预设的权重阈值进行比较，若两个融合特征之间边的权重不低于预设的权重阈值，则表明两个融合特征之间存在边，反之，两个融合特征之间边的权重低于预设的权重阈值，则表明两个融合特征之间不存在边；其中，上述预设的权重阈值可以由相关人员灵活设置，本实施例并不对此进行限制。例如，第i条图像数据对应的融合特征和第j条图像数据对应的融合特征/>为/>为例，将/>输入到预设比较公式，进而确定第i条图像数据对应的融合特征/>和第j条图像数据对应的融合特征/>之间是否存在边，预设比较公式如下：/>

；

其中，为指示函数（若/>等于1，则表明第i条图像数据对应的融合特征/>和第j条图像数据对应的融合特征/>之间存在边，若/>等于0，则表明第i条图像数据对应的融合特征/>和第j条图像数据对应的融合特征/>之间不存在边），/>为阈值（优选地，/>）。

根据本申请实施例提供的技术方案，确定多个融合特征两两之间边的权重，根据两个融合特征之间边的权重确定两个融合特征之间边的连接关系；根据多个融合特征两两之间边的连接关系构建拓扑图，融合特征的权重边的连接关系，实现了基于融合特征准确构建拓扑图，并基于拓扑图确定图像聚类结果，通过提升图像数据中特征的分辨能力，提升了图像聚类的准确度，同时提升了图像聚类的精度和鲁棒性，避免了相关技术中，由于图像数据质量差，对图像数据进行特征提取得到的特征不准确，导致难以将不同时刻、不同空间的图像聚类起来，图像聚类效果差的问题。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

本实施例还提供一种图像聚类装置，如图11所示，该装置包括：

获取模块1101，被配置为获取源数据集，源数据集中包括N条图像数据，每条图像数据中包含至少两种类型的特征信息；

提取模块1102，被配置为对每条图像数据的特征信息进行特征提取，得到每条图像数据对应的特征向量集，特征向量集中包含至少两种类型的特征向量；

构建模块1103，被配置为根据每条图像数据对应的特征向量集构建源数据集对应的异质图网络，并基于异质图网络对特征向量集中包含的特征向量进行特征融合，得到每条图像数据对应的融合特征；

聚类模块1104，被配置为根据融合特征构建源数据集对应的拓扑图，并对拓扑图的目标节点进行聚类得到源数据集的图像聚类结果。

其中，构建模块1103还被配置为，为图像数据构建对应的虚拟节点，并将图像数据对应的特征向量与对应的虚拟节点连接；从图像数据对应的特征向量中确定图像数据对应的目标特征向量；基于每条图像数据对应的目标特征向量，确定虚拟节点之间的连接关系，并根据虚拟节点之间的连接关系构建异质图网络。

其中，构建模块1103还被配置为确定当前图像数据对应的目标特征向量与其他图像数据对应的目标特征向量的相似度；若当前图像数据对应的目标特征向量与其他图像数据对应的目标特征向量的相似度高于预设阈值，则确定当前图像数据对应的虚拟节点与其他图像数据对应的虚拟节点相连。

其中，构建模块1103还被配置为根据异质图网络中的虚拟节点的连接关系，为图像数据生成每个特征信息分别对应的目标数据集，每个目标数据集中仅包含相同类型的特征向量，且目标数据集中包含当前图像数据的特征向量和相邻节点的图像数据中的特征向量；基于目标数据集确定每个特征信息对应的语义特征；将图像数据对应的多个语义特征进行特征融合，得到图像数据对应的融合特征。

其中，构建模块1103还被配置为对每个目标数据集中的特征向量进行维度变换，得到对应的维度变换数据集，每个维度变换数据集中包含多个转化特征向量；确定每一特征信息对应的第一维度权重系数，基于第一维度权重系数和当前图像数据对应的转化特征向量确定每一转化特征向量对应的注意力权重；根据每一转化特征向量对应的注意力权重对每个转化特征向量进行加权求和处理，得到每一特征信息对应的语义特征。

其中，构建模块1103还被配置为确定每一特征信息对应的第二维度权重系数，基于第二维度权重系数确定每一语义特征的语义相关权重；根据每一语义特征的语义相关权重对各个语义特征进行加权求和处理，得到融合特征。

聚类模块1104，还被配置为确定多个融合特征两两之间边的权重，根据两个融合特征之间边的权重确定两个融合特征之间的连接关系；根据多个融合特征两两之间的连接关系构建拓扑图。

根据本申请实施例提供的技术方案，本申请实施例的装置通过获取源数据集，对每条图像数据的特征信息进行特征提取，得到每条图像数据对应的特征向量集，根据每条图像数据对应的特征向量集构建源数据集对应的异质图网络，并基于异质图网络对特征向量集中包含的特征向量进行特征融合，得到每条图像数据对应的融合特征，根据融合特征构建源数据集对应的拓扑图，并对拓扑图中的目标节点进行聚类得到源数据集的图像聚类结果，通过异质图网络对图像数据的多个特征向量进行融合得到融合特征，通过充分挖掘异质图信息将多个不同质的特征向量融合，提升了图像数据中特征的分辨能力，基于融合特征构建拓扑图，并基于拓扑图确定图像聚类结果，通过提升图像数据中特征的分辨能力，提升了图像聚类的准确度，同时提升了图像聚类的精度和鲁棒性，避免了相关技术中，由于图像数据质量差，对图像数据进行特征提取得到的特征不准确，导致难以将不同时刻、不同空间的图像聚类起来，图像聚类效果差的问题。

图12是本申请实施例提供的电子设备12的示意图。如图12所示，该实施例的电子设备12包括：处理器1201、存储器1202以及存储在该存储器1202中并且可在处理器1201上运行的计算机程序1203。处理器1201执行计算机程序1203时实现上述各个方法实施例中的步骤。或者，处理器1201执行计算机程序1203时实现上述各装置实施例中各模块/单元的功能。

电子设备12可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备12可以包括但不仅限于处理器1201和存储器1202。本领域技术人员可以理解，图12仅仅是电子设备12的示例，并不构成对电子设备12的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器1201可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器1202可以是电子设备12的内部存储单元，例如，电子设备12的硬盘或内存。存储器1202也可以是电子设备12的外部存储设备，例如，电子设备12上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（FlashCard）等。存储器1202还可以既包括电子设备12的内部存储单元也包括外部存储设备。存储器1202用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像聚类方法，其特征在于，所述方法包括：

获取源数据集，所述源数据集中包括N条图像数据，每条所述图像数据中包含至少两种类型的特征信息；

对每条所述图像数据的所述特征信息进行特征提取，得到每条所述图像数据对应的特征向量集，所述特征向量集中包含至少两种类型的特征向量；

根据每条所述图像数据对应的所述特征向量集构建所述源数据集对应的异质图网络，并基于所述异质图网络对所述特征向量集中包含的特征向量进行特征融合，得到每条所述图像数据对应的融合特征；

根据所述融合特征构建所述源数据集对应的拓扑图，并对所述拓扑图的目标节点进行聚类得到所述源数据集的图像聚类结果。

2.根据权利要求1所述的方法，其特征在于，根据每条所述图像数据对应的所述特征向量集构建所述源数据集对应的异质图网络，包括：

为所述图像数据构建对应的虚拟节点，并将所述图像数据对应的所述特征向量与对应的所述虚拟节点连接；

从所述图像数据对应的所述特征向量中确定所述图像数据对应的目标特征向量；

基于每条所述图像数据对应的所述目标特征向量，确定所述虚拟节点之间的连接关系，并根据所述虚拟节点之间的连接关系构建所述异质图网络。

3.根据权利要求2所述的方法，其特征在于，基于每条所述图像数据对应的所述目标特征向量，确定所述虚拟节点之间的连接关系，包括：

确定当前所述图像数据对应的所述目标特征向量与其他所述图像数据对应的所述目标特征向量的相似度；

若当前所述图像数据对应的所述目标特征向量与其他所述图像数据对应的所述目标特征向量的相似度高于预设阈值，则确定所述当前所述图像数据对应的所述虚拟节点与其他所述图像数据对应的所述虚拟节点相连。

4.根据权利要求3所述的方法，其特征在于，基于所述异质图网络对所述特征向量集中包含的特征向量进行特征融合，得到每条所述图像数据对应的融合特征，包括：

根据所述异质图网络中的所述虚拟节点的连接关系，为所述图像数据生成每个特征信息分别对应的目标数据集，每个所述目标数据集中仅包含相同类型的所述特征向量，且所述目标数据集中包含当前所述图像数据的所述特征向量和相邻节点的所述图像数据中的所述特征向量；

基于所述目标数据集确定每个所述特征信息对应的语义特征；

将所述图像数据对应的多个所述语义特征进行特征融合，得到所述图像数据对应的融合特征。

5.根据权利要求4所述的方法，其特征在于，基于所述目标数据集确定每个所述特征信息对应的语义特征，包括：

对每个所述目标数据集中的所述特征向量进行维度变换，得到对应的维度变换数据集，每个所述维度变换数据集中包含多个转化特征向量；

确定每一所述特征信息对应的第一维度权重系数，基于所述第一维度权重系数和当前所述图像数据对应的所述转化特征向量确定每一所述转化特征向量对应的注意力权重；

根据每一所述转化特征向量对应的所述注意力权重对每个所述转化特征向量进行加权求和处理，得到每一特征信息对应的所述语义特征。

6.根据权利要求4所述的方法，其特征在于，将所述图像数据对应的多个所述语义特征进行特征融合，得到所述图像数据对应的融合特征，包括：

确定每一所述特征信息对应的第二维度权重系数，基于所述第二维度权重系数确定每一所述语义特征的语义相关权重；

根据每一所述语义特征的所述语义相关权重对各个所述语义特征进行加权求和处理，得到所述融合特征。

7.根据权利要求1所述的方法，其特征在于，根据所述融合特征构建所述源数据集对应的拓扑图，包括：

确定多个所述融合特征两两之间边的权重，根据两个所述融合特征之间边的权重确定两个所述融合特征之间的连接关系；

根据多个所述融合特征两两之间的连接关系构建所述拓扑图。

8.一种图像聚类装置，其特征在于，所述装置包括：

获取模块，用于获取源数据集，所述源数据集中包括N条图像数据，每条所述图像数据中包含至少两种类型的特征信息；

提取模块，用于对每条所述图像数据的所述特征信息进行特征提取，得到每条所述图像数据对应的特征向量集，所述特征向量集中包含至少两种类型的特征向量；

构建模块，用于根据每条所述图像数据对应的所述特征向量集构建所述源数据集对应的异质图网络，并基于所述异质图网络对所述特征向量集中包含的特征向量进行特征融合，得到每条所述图像数据对应的融合特征；

聚类模块，用于根据所述融合特征构建所述源数据集对应的拓扑图，并对所述拓扑图的目标节点进行聚类得到所述源数据集的图像聚类结果。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。