CN113705603A

CN113705603A - 不完整多视角数据的聚类方法、电子设备

Info

Publication number: CN113705603A
Application number: CN202110784672.6A
Authority: CN
Inventors: 薛哲; 杜军平; 宋杰; 郑长伟; 梁美玉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Beijing University of Posts and Telecommunications
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Beijing University of Posts and Telecommunications
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-11-26

Abstract

本公开提供一种不完整多视角数据的聚类方法、电子设备，所述方法包括：通过多视角自编码器对不完整多视角数据缺失的多视角特征进行补全，以得到完整多视角数据及其统一特征表示；通过单层神经网络模型对完整多视角数据的局部结构进行学习，并利用图卷积网络对完整多视角数据的局部结构信息进行提取，以得到完整多视角数据各视角的节点特征表示；基于统一特征表示以及节点特征表示，通过预设的聚类算法进行聚类得到完整多视角数据的聚类结果。本公开的技术方案在补全不完整多视角数据的缺失特征后，通过结合多视角数据的全局结构和局部结构，增强多视角数据的特征表示，进而获得更准确的多视角数据的聚类结果。

Description

不完整多视角数据的聚类方法、电子设备

技术领域

本公开涉及数据分析技术领域，尤其涉及一种不完整多视角数据的聚类方法、电子设备。

背景技术

现有的不完整多视角数据的聚类方法一般利用深度多视角自编码器对来自多个视角的数据学习统一的数据表示，对每个视角的特征都建立一套多视角自编码器，其包括编码器部分和解码器两个部分。对于不完整的多视角数据，采用加权融合的方式，把各个视角编码器的输出融合并统一表示，同时，在统一表示学习过程中加入图嵌入约束，使得所学的表示能够保留局部结构信息，此外，在统一表示层后加入聚类的损失函数，对多视角数据进行聚类。

传统的不完整多视角数据的聚类方法没有补全缺失的多视角特征，对于全局结构信息和局部结构信息没有进行同时利用，也没有对不同视角的重要性分配权重，导致最终无法对多视角数据准确聚类。

发明内容

有鉴于此，本公开的目的在于提出一种用于解决上述问题的不完整多视角数据的聚类方法、电子设备。

基于上述目的，本公开提供了一种不完整多视角数据的聚类方法，包括：

通过预先训练的多视角自编码器获取所述不完整多视角数据的数据重构表示；

根据所述数据重构表示，对所述不完整多视角数据缺失的多视角特征进行补全，以得到完整多视角数据及其统一特征表示；

通过预先训练的单层神经网络模型对所述完整多视角数据的局部结构进行自适应学习，以得到所述完整多视角数据的图；

基于所述完整多视角数据的图，利用预先训练的图卷积网络对所述完整多视角数据的局部结构信息进行提取，以得到所述完整多视角数据各视角的节点特征表示；

基于所述统一特征表示以及所述节点特征表示，通过预设的聚类算法对所述完整多视角数据进行聚类，得到聚类结果。

基于同一发明构思，本公开还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的方法。

从上面所述可以看出，本公开提供的不完整多视角数据的聚类方法、电子设备，通过对不完整多视角数据缺失的多视角特征进行补全，能够得到完整的多视角数据，从而避免由数据缺失对聚类性能产生的影响；通过对补全后的完整多视角数据的局部结构信息进行学习并提取，能够得到多视角数据的内在分布规律，从而有效提升多视角聚类性能；基于多视角数据的全局结构信息和局部结构信息，并利用多核聚类算法对不同视角分配不同的权重，进而获得更准确、可靠的聚类结果。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的不完整多视角数据的聚类方法流程图；

图2为本公开实施例的对多视角自编码器和图卷积网络进行自监督训练的流程图；

图3为本公开实施例的不完整多视角数据的聚类装置结构示意图；

图4为本公开实施例的电子设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

如背景技术部分所述，相关技术中的不完整多视角数据聚类的技术方案还难以满足需要，申请人在实现本公开的过程中发现相关技术中的技术方案存在以下问题：对于不完整多视角数据，没有对缺失的多视角特征进行补全，因而容易受到缺失特征的影响；其次，在聚类时没有同时结合多视角数据的全局结构信息，导致无法准确表示多视角数据；另外，对于不准确的视角没有进行处理，导致对聚类结果产生影响，无法准确聚类多视角数据。

有鉴于此，本公开实施例提供了一种不完整多视角数据的聚类方法，通过训练好的不完整多视角数据的多视角自编码器的输出，对多视角数据缺失的多视角特征进行补全；利用训练好的图卷积网络对补全多视角特征后的多视角数据的局部结构信息进行提取；通过结合全局结构信息和局部结构信息，同时对多视角数据的不同视角分配不同权重，以准确聚类多视角数据。

以下，通过具体的是实施例来详细说明本公开的技术方案。

参考图1，本公开一个实施例的不完整多视角数据的聚类方法，包括以下步骤：

步骤S101，通过预先训练的多视角自编码器获取所述不完整多视角数据的数据重构表示；根据所述数据重构表示，对所述不完整多视角数据缺失的多视角特征进行补全，以得到完整多视角数据及其统一特征表示。

在本步骤中，不完整多视角数据可以通过矩阵

进行表示，其中，V表示视角数量，且v＝1,...,V，n表示样本样本数量，m_v表示第v个视角的特征维度，相应的，第i个样本x_i可表示为

需要说明的是，本公开中的变量R^(·)表示具有相应维度的矩阵，例如

表示一个大小为n行m_v列的矩阵。

不完整多视角数据的多视角自编码器包括编码器网络和解码器网络，需要说明的是，对不完整多视角数据的每个视角均需构建一个编码器网络f^(v)(·)和解码器网络g^(v)(·)，可将第v个视角的第i个样本经过相应编码器网络的输出记作

将各视角的编码网器络输出保持一致，以获得不完整多视角数据统一特征表示记作h，即

这样，对于不完整多视角数据任意一个样本x_i，均可通过编码器网络得到统一特征表示h_i,

因此不完整多视角数据所有样本的统一特征表示可记为

进而将各样本的统一特征表示h_i表示输入至解码器网络g^(v)(·)中，获得不完整多视角数据的数据重构表示

利用数据重构表示

对不完整多视角数据缺失的多视角特征进行补全，从而获得完整多视角数据

及其统一特征表示H。

此外，可通过预设的损失函数对所述多视角自编码器进行训练，所述损失函数L_R的表达式如下：

其中，X^(v)表示不完整多视角数据的特征矩阵，P^(v)表示对角矩阵，用于标记缺失样本，

表示第i个样本在第v个视角中时存在的，否则

X^(v)表示完整多视角数据的特征矩阵。

经过多视角自编码器输出的完整多视角数据的统一特征表示能够较完整的保留多视角数据的全局结构信息以及多视角数据的互补信息。

可见，通过解码器网络产生的数据重构表示，对不完整多视角数据缺失的多视角特征进行补全，从而得到完整多视角数据，能够克服多视角数据缺失对聚类结果的影响。

步骤S102，通过预先训练的单层神经网络模型对所述完整多视角数据的局部结构进行自适应学习，以得到所述完整多视角数据的图。

在本步骤中，通过多视角自编码器能够获得多视角数据的全局结构信息，但忽略了对局部结构信息的提取，为保证对多视角数据的局部结构信息进行有效提取，需要对多视角数据的局部结构进行学习。

将单层神经网络模型学习的图记作

图S^(v)是通过完整多视角数据第v个视角学习的图，该图能够有效保留多视角数据的近邻信息和局部结构信息，需要说明的是，图S^(v)中的每个节点均表示不同的多视角数据样本。

所述完整多视角数据的图S^(v)能够得到所述图S^(v)中第i个节点和第j个节点之间的相似度

其中，σ表示激活函数，可采用ReLu函数，a^(v)表示单层神经网络模型的网络参数，

表示完整多视角数据第i个样本在第v个视角的特征，

表示完整多视角数据第j个样本在第v个视角的特征，

表示完整多视角数据第k个样本在第v个视角的特征。

对于该单层神经网络模型采用softmax函数，可以保证图S^(v)结构的准确性，即满足以下条件成立：

进一步的，通过第一目标函数对多视角数据的局部结构进行学习，第一目标函数L_G的表达式如下：

其中，λ表示调节图稀疏度的参数。

通过调节图的稀疏度，能够使图S^(v)保留完整多视角数据的近邻信息和局部结构信息，进一步提高不完整多视角数据聚类结果的准确性。

步骤S103，基于所述完整多视角数据的图，利用预先训练的图卷积网络(GCN)对所述完整多视角数据的局部结构信息进行提取，以得到所述完整多视角数据各视角的节点特征表示。

在本步骤中，为每个多视角数据的视角创建图卷积网络，其卷积层的表达式为：

其中，

表示第v个视角的GCN网络的第l层，D^(v)表示对角矩阵，所述对角矩阵的对角元素满足

表示卷积层的权重矩阵，σ表示激活函数。

需要说明的是，可选择通过自编码网络补全多视角特征后的完整多视角数据特征作为图卷积网络节点的初始特征

记作

这样，经过多层的图卷积操作，GCN网络最高层的节点特征表示记作

将输出的节点特征表示编码至低维隐空间。该节点特征表示能够有效保留多视角数据的局部结构信息。

步骤S104，基于所述统一特征表示以及所述节点特征表示，通过预设的聚类算法对所述完整多视角数据进行聚类，得到聚类结果。

在本步骤中，根据完整多视角数据每个视角GCN所学的节点特征表示Z^(v)，确定第一核矩阵K^(v)，其表达式为K^(v)＝K(Z^(v),Z^(v))；此外，为了保留多视角数据的全局结构信息，根据多视角自编码器输出的完整多视角数据的统一特征表示，确定第二核矩阵K^(V+1)，其表达式为K^(V+1)＝K(H,H)；通过多核聚类算法将第一核矩阵和第二核矩阵进行融合，进而获得统一的核矩阵表示K_u，其表达式为

式中β＝[β⁽¹⁾,β⁽²⁾,...,β^(V)]表示权重系数，用于控制每个核矩阵的重要程度，参数r用于控制权重系数β的稀疏度；当0<r<1时，权重系数β中各分量的分布较为稀疏，此时多核聚类算法倾向于选择某个视角的信息来进行聚类；当r>1时，权重系数β中各分量的分布较为平滑，此时多核聚类倾向于选择多个视角的信息来进行聚类。

多核聚类算法的目标函数的表达式如下：

minTr(K_u(I_n-QQ^T))，

s.t.Q^TQ＝I_c,β^T1_V+1＝1,

其中，Q表示待学习的嵌入矩阵，Q^T表示待学习的嵌入矩阵的转置矩阵，

表示长度为V+1并且取值非负的向量，1_V+1表示长度为V+1并且取值全部为1的向量，β^T表示权重系数矩阵的转置矩阵，I_n和I_c分别表示一个大小为n*n和c*c的单位矩阵。

通过多核聚类算法的目标函数能够求得待学习的嵌入矩阵以及权重系数β，对待学习的嵌入矩阵进行k均值聚类，便可获得完整多视角数据各样本的聚类结果q_i，q_i∈{0,1}^c,i＝1,...,n。

可见，通过多视角自编码器的重构功能，能够将不完整缺失的多视角特征进行补全，产生完整的多视角数据，利用损失函数对多视角自编码器进行训练，使其输出的统一特征表示有效保留多视角数据的全局结构信息；通过单层神经网络模型对补全特征后的多视角数据的局部结构进行学习，能够构建反映多视角数据局部结构信息的图，利用图卷积网络对该图的局部结构信息进行提取，能够得到包含多视角数据局部结构信息的节点特征表示；依据统一特征表示和节点特征表示，经过聚类得到相应的聚类结果；通过本方法获得的聚类结果鲁棒性更高，大幅度提升了多视角聚类性能。

在一些实施例中，参考图2，所述多视角自编码器和所述图卷积网络是通过以下方式而被训练的：

步骤S201，将所述数据重构表示和所述节点特征表示进行拼接，以得到多视角数据表示。

在本步骤中，获得的多视角数据表示R的表达式如下：

其中，其中R的第i行r_i表示第i个多视角样本的特征向量。

步骤S202，将所述多视角数据表示输入至神经网络模型的全连接层，以得到对各样本的类别预测结果。

在本步骤中，将多视角数据表示R输入神经网络模型的全连接层

中进行类别预测，将该全连接层输出记作

其中y_i表示对第i个样本的类别预测结果。

步骤S203，基于所述类别预测结果和所述聚类结果，利用预设的第二目标函数对所述多视角自编码器和所述图卷积网络进行自监督训练。

在本步骤中，第二目标函数L_C的表达式如下：

其中，

表示通过softmax函数对类别预测结果y_i的归一化结果，φ_i表示基于q_i获得的第i个样本的伪类别，

表示类别的聚类中心向量，由该类别中所有样本的平均值得到，θ表示权重参数。

通过获得的聚类结果对多视角自编码器和GCN网络进行自监督训练，能够有效地增强所学的数据结构信息，经过不断迭代产生更为准确的聚类结果。

在一些实施例中，所述多视角自编码器、所述图卷积网络以及所述单层神经网络模型是通过以下方式而被训练的：

利用第三目标函数对所述损失函数、所述第一目标函数以及所述第二目标函数进行优化；其中，所述第三目标函数的表达式如下：

L＝L_R+η₁L_G+η₂L_C

其中，η₁和η₂均表示权重参数。

通过对损失函数、第一目标函数以及第二目标函数进行优化，能够联合利用多视角数据的全局结构信息和局部结构信息，进一步提升本技术方案的聚类算法的聚类性能，最终获得更为准确的聚类结果。

在一些实施例中，所述方法还包括：

对于多次聚类所得到的多个聚类结果，

利用匈牙利算法对相邻两次的聚类结果进行匹配，以使同一类簇在相邻两次的聚类中获得同一类别标号。

由于聚类算法每次迭代产生的聚类结果可能存在差异，同一类簇在前后两次聚类中获得的类别标号可能不一致，因而通过采用匈牙利算法对相邻两次的聚类结果进行匹配，能够保证类别标签在迭代过程中的一致性。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种不完整多视角数据的聚类装置。

参考图3，所述不完整多视角数据的聚类装置，包括：

多视角特征补全模块301：被配置为通过预先训练的多视角自编码器获取所述不完整多视角数据的数据重构表示；根据所述数据重构表示，对所述不完整多视角数据缺失的多视角特征进行补全，以得到完整多视角数据及其统一特征表示。

局部结构信息提取模块302：被配置为通过预先训练的单层神经网络模型对所述完整多视角数据的局部结构进行自适应学习，以得到所述完整多视角数据的图；基于所述完整多视角数据的图，利用预先训练的图卷积网络对所述完整多视角数据的局部结构信息进行提取，以得到所述完整多视角数据各视角的节点特征表示。

多视角数据聚类模块303：被配置为基于所述统一特征表示以及所述节点特征表示，通过预设的聚类算法对所述完整多视角数据进行聚类，得到聚类结果。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的不完整多视角数据的聚类方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的不完整多视角数据的聚类方法。

图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的不完整多视角数据的聚类方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的不完整多视角数据聚类。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的不完整多视角数据的聚类方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。