CN108629374A

CN108629374A - 一种基于卷积神经网络的无监督多模态子空间聚类方法

Info

Publication number: CN108629374A
Application number: CN201810429107.6A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-09

Abstract

本发明中提出的一种基于卷积神经网络的无监督多模态子空间聚类方法，其主要内容包括：多模态编码器、自表达层和多模态译码器，其过程为，对于输入的多模态数据，先用编码器实现空间融合，通过空间融合网络将其融合到潜在的空间表示中，然后将融合的结果输入自表达层，利用自表达性在潜在空间对联合表示进行编码，最后，由自表达层的输出所产生的联合表示输入到多模态解码器中，对不同的模态进行重构，得到最后的聚类结果。本发明解决了以往的子空间聚类方法依赖于模态之间的空间对应关系且会增加数据维度的问题，能够利用模态的自表达性获得联合表示，并提高子空间聚类的准确度。

Description

一种基于卷积神经网络的无监督多模态子空间聚类方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及了一种基于卷积神经网络的无监督多模态子空间聚类方法。

背景技术

在图像处理、图像识别和语音处理方面的任何实际应用都需要处理非常高维的数据，然而，这些数据通常位于低维的子空间，而子空间聚类方法通过在一个数据集内的不同子空间中找到集群，就可以对高维数据进行处理。子空间聚类方法可以应用于图像处理方面，可以有效提高数据处理的效率；在图像识别方面，子空间聚类方法可以对同一物体不同形式的图像进行处理，提高识别精度；同样在语音处理上，应用子空间聚类方法可以更有效地处理人类各种语气的语句。然而，以往的子空间聚类方法依赖于模态之间的空间对应关系，且输出时会增加数据维度。

本发明中提出了一种基于卷积神经网络的无监督多模态子空间聚类方法，对于输入的多模态数据，先用编码器实现空间融合，通过空间融合网络将其融合到潜在的空间表示中，然后将融合的结果输入自表达层，利用自表达性在潜在空间对联合表示进行编码，最后，由自表达层的输出所产生的联合表示输入到多模态解码器中，对不同的模态进行重构，得到最后的聚类结果。本发明能够利用模态的自表达性获得联合表示，并提高子空间聚类的准确度。

发明内容

针对以往的子空间聚类方法依赖于模态之间的空间对应关系，且输出时会增加数据维度的问题，本发明的目的在于提供一种基于卷积神经网络的无监督多模态子空间聚类方法，对于输入的多模态数据，先用编码器实现空间融合，通过空间融合网络将其融合到潜在的空间表示中，然后将融合的结果输入自表达层，利用自表达性在潜在空间对联合表示进行编码，最后，由自表达层的输出所产生的联合表示输入到多模态解码器中，对不同的模态进行重构，得到最后的聚类结果。

为解决上述问题，本发明提供一种基于卷积神经网络的无监督多模态子空间聚类方法，其主要内容包括：

(一)多模态编码器；

(二)自表达层；

(三)多模态译码器。

其中，所述的多模态编码器，是指将多模态数据作为输入，通过空间融合网络将其融合到潜在的空间表示中。

进一步地，所述的空间融合网络，使用了三种不同的融合技术，能够提供不同空间位置的模态表示，并学习一种包含不同模态的互补信息的联合表示，且联合表示中每一种模式都有对应的空间；空间融合网络的一个重要组成部分是融合函数，融合函数从多个输入表示中合并信息，输出一个融合结果；最后，为所提议的网络制定一个端到端的训练目标。

进一步地，所述的融合技术，是指在深度网络的情况下，由于融合网络选择的灵活性，多模态子空间聚类的空间融合技术可以分为早期、中期和后期三种；早期融合指把多模态数据输入网络之前先在特性级阶段综合多模态数据，后期融合则涉及到网络最后阶段的多模态数据的综合，而中期融合指在较早阶段将较弱或相关的模式聚集在一起，并在深层阶段将剩余的强模式结合在一起，在中期融合中，网络中间层中的特征映射被组合在一起，以实现更好的联合表示。

进一步地，所述的融合函数，是假设对于一个特定的数据点x_i，有M个对应于不同模式表示的特征映射，融合函数f:先融合特征映射，然后生成一个输出为了简单起见，假设所有的输入特性映射都具有相同的维度并且输出具有的维度，并使用和分别表示输出在空间位置(i,j,k)的值和第m个输入特征映射，具体的融合函数分为三种：

求和函数z＝sum(x¹,x²,···,x^M)：

其作用为计算同一空间位置的特征映射的和；

最大池函数z＝max(x¹,x²,···,x^M)：

其作用为计算输入特征映射中对应位置的最大值；

连接函数z＝cat(x¹,x²,···,x^M)：

其作用为通过连接输入特征映射构造输出；

通过这三种融合函数可以融合输入的特征映射。

其中，所述的端到端的训练目标，是指对于包含M种模态的N对数据样本定义对应的数据矩阵为m∈{1,···,M}，忽略网络结构和选择的融合函数，用Θ_me表示多模态编码器的参数；同样，用Θ_s表示自表达层的参数，Θ_md表示多模态解码器的参数，然后，使用以下的损失函数对空间融合模型进行端到端训练：

其中Θ表示包括Θ_me、Θ_s、Θ_md在内的所有训练网络参数，联合表示由表示，而是重构之后的X^m，λ₁和λ₂是两个调整参数，||·||_p可以是l₁或l₂范数。

其中，所述的自表达层，是指利用联合表示的自表达性，在潜在空间中对联合表示进行编码，同时，通过一种基于关联融合的网络，强制不同模式使用相同的自表达层权重，然后对网络进行端到端训练。

进一步地，所述的基于关联融合的网络，是指结合自表达层的相似性，通过强制网络建立一个联合关联矩阵来获得多模态数据的联合表示；由自表达层权重来计算关联矩阵的函数如下：

其中Θ_s对应一个端到端策略学习到的自表达层的权重，因此共享同一个Θ_s的不同模态有共同的W；对于M模态问题，使用M并行的分布式控制系统(DSC)网络，在其中共享一个自表达层，但每一个模态都有一个编码-解码器网络进行训练，因此可以产生M个对应不同模态的潜在表示；这些潜在表示通过共享的自表达层连接在一起，而最佳的自表达层能够发掘所有模式中的自表达属性。

进一步地，所述的端到端训练，是指用以下的损失函数训练网络，然后找到共享自表达层的权重：

其中Θ_s是共同的自表达层权重，和分别是潜在的空间表示和重构之后的X^m，λ₁和λ₂是两个调整参数，Θ^m是第m个模态的网络参数，而Θ表示所有训练参数。

其中，所述的多模态译码器，可以从潜在联合表示中重构不同的模式，对于M个输入模式的情况，译码器由M个分支组成，每个分支负责重构其中一个模式。

附图说明

图1是本发明一种基于卷积神经网络的无监督多模态子空间聚类方法的系统流程图。

图2是本发明一种基于卷积神经网络的无监督多模态子空间聚类方法的融合技术图。

图3是本发明一种基于卷积神经网络的无监督多模态子空间聚类方法的关联融合技术图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于卷积神经网络的无监督多模态子空间聚类方法的系统流程图。主要包括多模态编码器、自表达层和多模态译码器。

多模态编码器是指将多模态数据作为输入，通过空间融合网络将其融合到潜在的空间表示中。

其中，空间融合网络使用了三种不同的融合技术，能够提供不同空间位置的模态表示，并学习一种包含不同模态的互补信息的联合表示，且联合表示中每一种模式都有对应的空间；空间融合网络的一个重要组成部分是融合函数，融合函数从多个输入表示中合并信息，输出一个融合结果；最后，为所提议的网络制定一个端到端的训练目标。

求和函数z＝sum(x¹,x²,···,x^M)：

其作用为计算同一空间位置的特征映射的和；

最大池函数z＝max(x¹,x²,···,x^M)：

其作用为计算输入特征映射中对应位置的最大值；

连接函数z＝cat(x¹,x²,···,x^M)：

其作用为通过连接输入特征映射构造输出；

通过这三种融合函数可以融合输入的特征映射。

进一步地，所述的端到端的训练目标，是指对于包含M种模态的N对数据样本定义对应的数据矩阵为m∈{1,···,M}，忽略网络结构和选择的融合函数，用Θ_me表示多模态编码器的参数；同样，用Θ_s表示自表达层的参数，Θ_md表示多模态解码器的参数，然后，使用以下的损失函数对空间融合模型进行端到端训练：

除了关联融合技术，在深度网络的情况下，多模态子空间聚类的空间融合技术可以分为早期、中期和后期三种；早期融合指把多模态数据输入网络之前先在特性级阶段综合多模态数据，后期融合则涉及到网络最后阶段的多模态数据的综合，而中期融合指在较早阶段将较弱或相关的模式聚集在一起，并在深层阶段将剩余的强模式结合在一起，在中期融合中，网络中间层中的特征映射被组合在一起，以实现更好的联合表示。同时，这三种方法对应的自表达层和多模态译码器都是一样的。

关联融合技术是指结合自表达层的相似性，通过强制网络建立一个联合关联矩阵来获得多模态数据的联合表示。由自表达层权重来计算关联矩阵的函数如下：

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于卷积神经网络的无监督多模态子空间聚类方法，其特征在于，主要包括多模态编码器(一)；自表达层(二)；多模态译码器(三)。

2.基于权利要求书1所述的多模态编码器(一)，其特征在于，将多模态数据作为输入，通过空间融合网络将其融合到潜在的空间表示中。

3.基于权利要求书2所述的空间融合网络，其特征在于，使用了三种不同的融合技术，能够提供不同空间位置的模态表示，并学习一种包含不同模态的互补信息的联合表示，且联合表示中每一种模式都有对应的空间；空间融合网络的一个重要组成部分是融合函数，融合函数从多个输入表示中合并信息，输出一个融合结果；最后，为所提议的网络制定一个端到端的训练目标。

4.基于权利要求书3所述的融合技术，其特征在于，在深度网络的情况下，由于融合网络选择的灵活性，多模态子空间聚类的空间融合技术可以分为早期、中期和后期三种；早期融合指把多模态数据输入网络之前先在特性级阶段综合多模态数据，后期融合则涉及到网络最后阶段的多模态数据的综合，而中期融合指在较早阶段将较弱或相关的模式聚集在一起，并在深层阶段将剩余的强模式结合在一起，在中期融合中，网络中间层中的特征映射被组合在一起，以实现更好的联合表示。

5.基于权利要求书3所述的融合函数，其特征在于，假设对于一个特定的数据点x_i，有M个对应于不同模式表示的特征映射，融合函数f:{x¹,x²,…,x^M}→z先融合特征映射，然后生成一个输出z，为了简单起见，假设所有的输入特性映射都具有相同的维度并且输出具有的维度，并使用z_i,j，k和分别表示输出在空间位置(i，j，k)的值和第m个输入特征映射，具体的融合函数分为三种：

求和函数z＝sum(x¹，x²，…，x^M)：

其作用为计算同一空间位置的特征映射的和；

最大池函数z＝max(x¹,x²,…,x^M)：

其作用为计算输入特征映射中对应位置的最大值；

连接函数z＝cat(x¹,x²,…,x^M)：

z＝[x¹,x²,…,x^M] (3)

其作用为通过连接输入特征映射构造输出；

通过这三种融合函数可以融合输入的特征映射。

6.基于权利要求书2所述的端到端的训练目标，其特征在于，对于包含M种模态的N对数据样本定义对应的数据矩阵为忽略网络结构和选择的融合函数，用Θ_me表示多模态编码器的参数；同样，用Θ_s表示自表达层的参数，Θ_md表示多模态解码器的参数，然后，使用以下的损失函数对空间融合模型进行端到端训练：

7.基于权利要求书1所述的自表达层(二)，其特征在于，利用联合表示的自表达性，在潜在空间中对联合表示进行编码，同时，通过一种基于关联融合的网络，强制不同模式使用相同的自表达层权重，然后对网络进行端到端训练。

8.基于权利要求书7所述的基于关联融合的网络，其特征在于，结合自表达层的相似性，通过强制网络建立一个联合关联矩阵来获得多模态数据的联合表示；由自表达层权重来计算关联矩阵的函数如下：

9.基于权利要求书7所述的端到端训练，其特征在于，用以下的损失函数训练网络，然后找到共享自表达层的权重：

10.基于权利要求书1所述的多模态译码器(三)，其特征在于，可以从潜在联合表示中重构不同的模式，对于M个输入模式的情况，译码器由M个分支组成，每个分支负责重构其中一个模式。