CN108629374A - 一种基于卷积神经网络的无监督多模态子空间聚类方法 - Google Patents

一种基于卷积神经网络的无监督多模态子空间聚类方法 Download PDF

Info

Publication number
CN108629374A
CN108629374A CN201810429107.6A CN201810429107A CN108629374A CN 108629374 A CN108629374 A CN 108629374A CN 201810429107 A CN201810429107 A CN 201810429107A CN 108629374 A CN108629374 A CN 108629374A
Authority
CN
China
Prior art keywords
network
fusion
presentation layer
modal
joint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810429107.6A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201810429107.6A priority Critical patent/CN108629374A/zh
Publication of CN108629374A publication Critical patent/CN108629374A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明中提出的一种基于卷积神经网络的无监督多模态子空间聚类方法,其主要内容包括:多模态编码器、自表达层和多模态译码器,其过程为,对于输入的多模态数据,先用编码器实现空间融合,通过空间融合网络将其融合到潜在的空间表示中,然后将融合的结果输入自表达层,利用自表达性在潜在空间对联合表示进行编码,最后,由自表达层的输出所产生的联合表示输入到多模态解码器中,对不同的模态进行重构,得到最后的聚类结果。本发明解决了以往的子空间聚类方法依赖于模态之间的空间对应关系且会增加数据维度的问题,能够利用模态的自表达性获得联合表示,并提高子空间聚类的准确度。

Description

一种基于卷积神经网络的无监督多模态子空间聚类方法
技术领域
本发明涉及计算机视觉领域,尤其是涉及了一种基于卷积神经网络的无监督多模态子空间聚类方法。
背景技术
在图像处理、图像识别和语音处理方面的任何实际应用都需要处理非常高维的数据,然而,这些数据通常位于低维的子空间,而子空间聚类方法通过在一个数据集内的不同子空间中找到集群,就可以对高维数据进行处理。子空间聚类方法可以应用于图像处理方面,可以有效提高数据处理的效率;在图像识别方面,子空间聚类方法可以对同一物体不同形式的图像进行处理,提高识别精度;同样在语音处理上,应用子空间聚类方法可以更有效地处理人类各种语气的语句。然而,以往的子空间聚类方法依赖于模态之间的空间对应关系,且输出时会增加数据维度。
本发明中提出了一种基于卷积神经网络的无监督多模态子空间聚类方法,对于输入的多模态数据,先用编码器实现空间融合,通过空间融合网络将其融合到潜在的空间表示中,然后将融合的结果输入自表达层,利用自表达性在潜在空间对联合表示进行编码,最后,由自表达层的输出所产生的联合表示输入到多模态解码器中,对不同的模态进行重构,得到最后的聚类结果。本发明能够利用模态的自表达性获得联合表示,并提高子空间聚类的准确度。
发明内容
针对以往的子空间聚类方法依赖于模态之间的空间对应关系,且输出时会增加数据维度的问题,本发明的目的在于提供一种基于卷积神经网络的无监督多模态子空间聚类方法,对于输入的多模态数据,先用编码器实现空间融合,通过空间融合网络将其融合到潜在的空间表示中,然后将融合的结果输入自表达层,利用自表达性在潜在空间对联合表示进行编码,最后,由自表达层的输出所产生的联合表示输入到多模态解码器中,对不同的模态进行重构,得到最后的聚类结果。
为解决上述问题,本发明提供一种基于卷积神经网络的无监督多模态子空间聚类方法,其主要内容包括:
(一)多模态编码器;
(二)自表达层;
(三)多模态译码器。
其中,所述的多模态编码器,是指将多模态数据作为输入,通过空间融合网络将其融合到潜在的空间表示中。
进一步地,所述的空间融合网络,使用了三种不同的融合技术,能够提供不同空间位置的模态表示,并学习一种包含不同模态的互补信息的联合表示,且联合表示中每一种模式都有对应的空间;空间融合网络的一个重要组成部分是融合函数,融合函数从多个输入表示中合并信息,输出一个融合结果;最后,为所提议的网络制定一个端到端的训练目标。
进一步地,所述的融合技术,是指在深度网络的情况下,由于融合网络选择的灵活性,多模态子空间聚类的空间融合技术可以分为早期、中期和后期三种;早期融合指把多模态数据输入网络之前先在特性级阶段综合多模态数据,后期融合则涉及到网络最后阶段的多模态数据的综合,而中期融合指在较早阶段将较弱或相关的模式聚集在一起,并在深层阶段将剩余的强模式结合在一起,在中期融合中,网络中间层中的特征映射被组合在一起,以实现更好的联合表示。
进一步地,所述的融合函数,是假设对于一个特定的数据点xi,有M个对应于不同模式表示的特征映射,融合函数f:先融合特征映射,然后生成一个输出为了简单起见,假设所有的输入特性映射都具有相同的维度并且输出具有的维度,并使用分别表示输出在空间位置(i,j,k)的值和第m个输入特征映射,具体的融合函数分为三种:
求和函数z=sum(x1,x2,···,xM):
其作用为计算同一空间位置的特征映射的和;
最大池函数z=max(x1,x2,···,xM):
其作用为计算输入特征映射中对应位置的最大值;
连接函数z=cat(x1,x2,···,xM):
其作用为通过连接输入特征映射构造输出;
通过这三种融合函数可以融合输入的特征映射。
其中,所述的端到端的训练目标,是指对于包含M种模态的N对数据样本定义对应的数据矩阵为m∈{1,···,M},忽略网络结构和选择的融合函数,用Θme表示多模态编码器的参数;同样,用Θs表示自表达层的参数,Θmd表示多模态解码器的参数,然后,使用以下的损失函数对空间融合模型进行端到端训练:
其中Θ表示包括Θme、Θs、Θmd在内的所有训练网络参数,联合表示由表示,而是重构之后的Xm,λ1和λ2是两个调整参数,||·||p可以是l1或l2范数。
其中,所述的自表达层,是指利用联合表示的自表达性,在潜在空间中对联合表示进行编码,同时,通过一种基于关联融合的网络,强制不同模式使用相同的自表达层权重,然后对网络进行端到端训练。
进一步地,所述的基于关联融合的网络,是指结合自表达层的相似性,通过强制网络建立一个联合关联矩阵来获得多模态数据的联合表示;由自表达层权重来计算关联矩阵的函数如下:
其中Θs对应一个端到端策略学习到的自表达层的权重,因此共享同一个Θs的不同模态有共同的W;对于M模态问题,使用M并行的分布式控制系统(DSC)网络,在其中共享一个自表达层,但每一个模态都有一个编码-解码器网络进行训练,因此可以产生M个对应不同模态的潜在表示;这些潜在表示通过共享的自表达层连接在一起,而最佳的自表达层能够发掘所有模式中的自表达属性。
进一步地,所述的端到端训练,是指用以下的损失函数训练网络,然后找到共享自表达层的权重:
其中Θs是共同的自表达层权重,分别是潜在的空间表示和重构之后的Xm,λ1和λ2是两个调整参数,Θm是第m个模态的网络参数,而Θ表示所有训练参数。
其中,所述的多模态译码器,可以从潜在联合表示中重构不同的模式,对于M个输入模式的情况,译码器由M个分支组成,每个分支负责重构其中一个模式。
附图说明
图1是本发明一种基于卷积神经网络的无监督多模态子空间聚类方法的系统流程图。
图2是本发明一种基于卷积神经网络的无监督多模态子空间聚类方法的融合技术图。
图3是本发明一种基于卷积神经网络的无监督多模态子空间聚类方法的关联融合技术图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于卷积神经网络的无监督多模态子空间聚类方法的系统流程图。主要包括多模态编码器、自表达层和多模态译码器。
多模态编码器是指将多模态数据作为输入,通过空间融合网络将其融合到潜在的空间表示中。
其中,空间融合网络使用了三种不同的融合技术,能够提供不同空间位置的模态表示,并学习一种包含不同模态的互补信息的联合表示,且联合表示中每一种模式都有对应的空间;空间融合网络的一个重要组成部分是融合函数,融合函数从多个输入表示中合并信息,输出一个融合结果;最后,为所提议的网络制定一个端到端的训练目标。
进一步地,所述的融合函数,是假设对于一个特定的数据点xi,有M个对应于不同模式表示的特征映射,融合函数f:先融合特征映射,然后生成一个输出为了简单起见,假设所有的输入特性映射都具有相同的维度并且输出具有的维度,并使用分别表示输出在空间位置(i,j,k)的值和第m个输入特征映射,具体的融合函数分为三种:
求和函数z=sum(x1,x2,···,xM):
其作用为计算同一空间位置的特征映射的和;
最大池函数z=max(x1,x2,···,xM):
其作用为计算输入特征映射中对应位置的最大值;
连接函数z=cat(x1,x2,···,xM):
其作用为通过连接输入特征映射构造输出;
通过这三种融合函数可以融合输入的特征映射。
进一步地,所述的端到端的训练目标,是指对于包含M种模态的N对数据样本定义对应的数据矩阵为m∈{1,···,M},忽略网络结构和选择的融合函数,用Θme表示多模态编码器的参数;同样,用Θs表示自表达层的参数,Θmd表示多模态解码器的参数,然后,使用以下的损失函数对空间融合模型进行端到端训练:
其中Θ表示包括Θme、Θs、Θmd在内的所有训练网络参数,联合表示由表示,而是重构之后的Xm,λ1和λ2是两个调整参数,||·||p可以是l1或l2范数。
其中,所述的自表达层,是指利用联合表示的自表达性,在潜在空间中对联合表示进行编码,同时,通过一种基于关联融合的网络,强制不同模式使用相同的自表达层权重,然后对网络进行端到端训练。
进一步地,所述的端到端训练,是指用以下的损失函数训练网络,然后找到共享自表达层的权重:
其中Θs是共同的自表达层权重,分别是潜在的空间表示和重构之后的Xm,λ1和λ2是两个调整参数,Θm是第m个模态的网络参数,而Θ表示所有训练参数。
其中,所述的多模态译码器,可以从潜在联合表示中重构不同的模式,对于M个输入模式的情况,译码器由M个分支组成,每个分支负责重构其中一个模式。
图2是本发明一种基于卷积神经网络的无监督多模态子空间聚类方法的融合技术图。
除了关联融合技术,在深度网络的情况下,多模态子空间聚类的空间融合技术可以分为早期、中期和后期三种;早期融合指把多模态数据输入网络之前先在特性级阶段综合多模态数据,后期融合则涉及到网络最后阶段的多模态数据的综合,而中期融合指在较早阶段将较弱或相关的模式聚集在一起,并在深层阶段将剩余的强模式结合在一起,在中期融合中,网络中间层中的特征映射被组合在一起,以实现更好的联合表示。同时,这三种方法对应的自表达层和多模态译码器都是一样的。
图3是本发明一种基于卷积神经网络的无监督多模态子空间聚类方法的关联融合技术图。
关联融合技术是指结合自表达层的相似性,通过强制网络建立一个联合关联矩阵来获得多模态数据的联合表示。由自表达层权重来计算关联矩阵的函数如下:
其中Θs对应一个端到端策略学习到的自表达层的权重,因此共享同一个Θs的不同模态有共同的W;对于M模态问题,使用M并行的分布式控制系统(DSC)网络,在其中共享一个自表达层,但每一个模态都有一个编码-解码器网络进行训练,因此可以产生M个对应不同模态的潜在表示;这些潜在表示通过共享的自表达层连接在一起,而最佳的自表达层能够发掘所有模式中的自表达属性。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于卷积神经网络的无监督多模态子空间聚类方法,其特征在于,主要包括多模态编码器(一);自表达层(二);多模态译码器(三)。
2.基于权利要求书1所述的多模态编码器(一),其特征在于,将多模态数据作为输入,通过空间融合网络将其融合到潜在的空间表示中。
3.基于权利要求书2所述的空间融合网络,其特征在于,使用了三种不同的融合技术,能够提供不同空间位置的模态表示,并学习一种包含不同模态的互补信息的联合表示,且联合表示中每一种模式都有对应的空间;空间融合网络的一个重要组成部分是融合函数,融合函数从多个输入表示中合并信息,输出一个融合结果;最后,为所提议的网络制定一个端到端的训练目标。
4.基于权利要求书3所述的融合技术,其特征在于,在深度网络的情况下,由于融合网络选择的灵活性,多模态子空间聚类的空间融合技术可以分为早期、中期和后期三种;早期融合指把多模态数据输入网络之前先在特性级阶段综合多模态数据,后期融合则涉及到网络最后阶段的多模态数据的综合,而中期融合指在较早阶段将较弱或相关的模式聚集在一起,并在深层阶段将剩余的强模式结合在一起,在中期融合中,网络中间层中的特征映射被组合在一起,以实现更好的联合表示。
5.基于权利要求书3所述的融合函数,其特征在于,假设对于一个特定的数据点xi,有M个对应于不同模式表示的特征映射,融合函数f:{x1,x2,…,xM}→z先融合特征映射,然后生成一个输出z,为了简单起见,假设所有的输入特性映射都具有相同的维度并且输出具有的维度,并使用zi,j,k分别表示输出在空间位置(i,j,k)的值和第m个输入特征映射,具体的融合函数分为三种:
求和函数z=sum(x1,x2,…,xM):
其作用为计算同一空间位置的特征映射的和;
最大池函数z=max(x1,x2,…,xM):
其作用为计算输入特征映射中对应位置的最大值;
连接函数z=cat(x1,x2,…,xM):
z=[x1,x2,…,xM] (3)
其作用为通过连接输入特征映射构造输出;
通过这三种融合函数可以融合输入的特征映射。
6.基于权利要求书2所述的端到端的训练目标,其特征在于,对于包含M种模态的N对数据样本定义对应的数据矩阵为忽略网络结构和选择的融合函数,用Θme表示多模态编码器的参数;同样,用Θs表示自表达层的参数,Θmd表示多模态解码器的参数,然后,使用以下的损失函数对空间融合模型进行端到端训练:
其中Θ表示包括Θme、Θs、Θmd在内的所有训练网络参数,联合表示由表示,而是重构之后的Xm,λ1和λ2是两个调整参数,||·||p可以是l1或l2范数。
7.基于权利要求书1所述的自表达层(二),其特征在于,利用联合表示的自表达性,在潜在空间中对联合表示进行编码,同时,通过一种基于关联融合的网络,强制不同模式使用相同的自表达层权重,然后对网络进行端到端训练。
8.基于权利要求书7所述的基于关联融合的网络,其特征在于,结合自表达层的相似性,通过强制网络建立一个联合关联矩阵来获得多模态数据的联合表示;由自表达层权重来计算关联矩阵的函数如下:
其中Θs对应一个端到端策略学习到的自表达层的权重,因此共享同一个Θs的不同模态有共同的W;对于M模态问题,使用M并行的分布式控制系统(DSC)网络,在其中共享一个自表达层,但每一个模态都有一个编码-解码器网络进行训练,因此可以产生M个对应不同模态的潜在表示;这些潜在表示通过共享的自表达层连接在一起,而最佳的自表达层能够发掘所有模式中的自表达属性。
9.基于权利要求书7所述的端到端训练,其特征在于,用以下的损失函数训练网络,然后找到共享自表达层的权重:
其中Θs是共同的自表达层权重,分别是潜在的空间表示和重构之后的Xm,λ1和λ2是两个调整参数,Θm是第m个模态的网络参数,而Θ表示所有训练参数。
10.基于权利要求书1所述的多模态译码器(三),其特征在于,可以从潜在联合表示中重构不同的模式,对于M个输入模式的情况,译码器由M个分支组成,每个分支负责重构其中一个模式。
CN201810429107.6A 2018-05-08 2018-05-08 一种基于卷积神经网络的无监督多模态子空间聚类方法 Withdrawn CN108629374A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810429107.6A CN108629374A (zh) 2018-05-08 2018-05-08 一种基于卷积神经网络的无监督多模态子空间聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810429107.6A CN108629374A (zh) 2018-05-08 2018-05-08 一种基于卷积神经网络的无监督多模态子空间聚类方法

Publications (1)

Publication Number Publication Date
CN108629374A true CN108629374A (zh) 2018-10-09

Family

ID=63695860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810429107.6A Withdrawn CN108629374A (zh) 2018-05-08 2018-05-08 一种基于卷积神经网络的无监督多模态子空间聚类方法

Country Status (1)

Country Link
CN (1) CN108629374A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001438A (zh) * 2020-08-19 2020-11-27 四川大学 聚类数目自动选择的多模态数据聚类方法
CN114548367A (zh) * 2022-01-17 2022-05-27 中国人民解放军国防科技大学 基于对抗网络的多模态数据的重构方法及装置
WO2022156333A1 (zh) * 2021-01-25 2022-07-28 浙江师范大学 基于自编码器的多模态自适应融合深度聚类模型及方法
CN116403174A (zh) * 2022-12-12 2023-07-07 深圳市大数据研究院 一种端到端自动驾驶方法、系统、仿真系统及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001438A (zh) * 2020-08-19 2020-11-27 四川大学 聚类数目自动选择的多模态数据聚类方法
CN112001438B (zh) * 2020-08-19 2023-01-10 四川大学 聚类数目自动选择的多模态数据聚类方法
WO2022156333A1 (zh) * 2021-01-25 2022-07-28 浙江师范大学 基于自编码器的多模态自适应融合深度聚类模型及方法
CN114548367A (zh) * 2022-01-17 2022-05-27 中国人民解放军国防科技大学 基于对抗网络的多模态数据的重构方法及装置
CN114548367B (zh) * 2022-01-17 2024-02-20 中国人民解放军国防科技大学 基于对抗网络的多模态数据的重构方法及装置
CN116403174A (zh) * 2022-12-12 2023-07-07 深圳市大数据研究院 一种端到端自动驾驶方法、系统、仿真系统及存储介质

Similar Documents

Publication Publication Date Title
CN108629374A (zh) 一种基于卷积神经网络的无监督多模态子空间聚类方法
CN112070209B (zh) 基于w距离的稳定可控图像生成模型训练方法
CN109598732B (zh) 一种基于三维空间加权的医学图像分割方法
CN108121975A (zh) 一种联合原始数据和生成数据的人脸识别方法
CN110516530A (zh) 一种基于非对齐多视图特征增强的图像描述方法
CN106776517A (zh) 自动作诗方法和装置及系统
CN111126599B (zh) 一种基于迁移学习的神经网络权重初始化方法
CN105809201A (zh) 一种生物启发式自主提取图像语义概念的识别方法及装置
CN110222717A (zh) 图像处理方法和装置
CN109145974A (zh) 一种基于图文匹配的多层次图像特征融合方法
CN109635946A (zh) 一种联合深度神经网络和成对约束的聚类方法
CN111210382A (zh) 图像处理方法、装置、计算机设备和存储介质
CN111062865B (zh) 图像处理方法、装置、计算机设备和存储介质
CN116469561A (zh) 一种基于深度学习的乳腺癌生存预测方法
CN115713538A (zh) 一种基于跨模态对偶图对齐的参考图像分割方法
CN115984339A (zh) 基于几何特征精炼与对抗生成网络的双管道点云补全方法
CN113096239B (zh) 一种基于深度学习的三维点云重建方法
CN113989405A (zh) 一种基于小样本持续学习的图像生成方法
CN108710944A (zh) 一种可训练分段式线性激活函数生成方法
CN112686830A (zh) 基于图像分解的单一深度图的超分辨率方法
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN114880527B (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN116431827A (zh) 信息处理方法、装置、存储介质及计算机设备
CN116386102A (zh) 一种基于改进残差卷积网络inception块结构的人脸情绪识别方法
CN115527052A (zh) 一种基于对比预测的多视图聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181009