CN117542057B - 一种基于模块化网络建模视角间关系的多视角聚类方法 - Google Patents
一种基于模块化网络建模视角间关系的多视角聚类方法 Download PDFInfo
- Publication number
- CN117542057B CN117542057B CN202410029931.8A CN202410029931A CN117542057B CN 117542057 B CN117542057 B CN 117542057B CN 202410029931 A CN202410029931 A CN 202410029931A CN 117542057 B CN117542057 B CN 117542057B
- Authority
- CN
- China
- Prior art keywords
- view
- module
- data
- encoder
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005457 optimization Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 16
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18143—Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
- G06V30/18152—Extracting features based on a plurality of salient regional features, e.g. "bag of words"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19107—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于模块化网络建模视角间关系的多视角聚类方法,该方法包括以下步骤:通过提取数据不同视角的特征,构建多视角数据库;构建基于模块化的编码器‑解码器神经网络提取并训练得到多视角数据的统一表达;将统一表达进行转换并构造辅助优化目标函数;基于上述目标函数对模块化的编码器‑解码器中的编码器进行再优化获得优化的多视角数据统一表达;对多视角数据统一表达进行聚类得到多视角聚类结果。本发明利用模块化的编码器‑解码器神经网络进行多视角数据的统一表达获取,可以灵活且有效地建模多视角数据之间的关系,通过辅助优化目标函数进行编码器的优化,将进一步提升多视角聚类的性能。
Description
技术领域
本发明涉及模式识别技术领域,具体涉及一种基于模块化网络建模视角间关系的多视角聚类方法。
背景技术
现实世界的数据往往呈现出多视角的特性,例如对事件的描述可以通过文本以及图像进行刻画,图像数据往往可以通过不同的视觉描述算子如SIFT、GIST进行表示,文本可以通过各种词袋特征如BoW、TF-IDF进行表示。对多视角数据分析往往可以利用多视角数据表现出来的互补与一致特性提升性能,因此多视角数据分析受到研究者的广泛关注。多视角聚类,作为一种典型的无监督学习任务,通过将不同数据聚集到不同类别中,在现实世界巨大的无标注数据处理中具有重要的作用。为进行有效的多视角聚类,一般需要对多视角数据之间的互补与一致特性进行建模,但是现有的方法往往基于特定假设进行多视角统一表达的学习,难以应对各种数据表现特性的多视角聚类任务,不能有效地实现多视角数据间关系灵活的建模,需要提出更有效且灵活的多视角关系建模算法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于模块化网络建模视角间关系的多视角聚类方法。该方法利用模块化的编码器-解码器神经网络进行多视角数据的统一表达获取,可以灵活且有效地建模多视角数据之间的关系,通过辅助优化目标函数进行编码器的优化,将进一步提升多视角聚类的性能。
为实现上述目的,本发明采用的技术方案为:一种基于模块化网络建模视角间关系的多视角聚类方法,包括以下步骤:
步骤S1,对于给定的数据样本,根据样本的类型提取数据的多个视角的特征,构成多视角数据集;
步骤S2,构建基于模块化的编码器-解码器神经网络进行多视角数据的统一表达建模,通过最小化多个视角的编解码误差训练得到多视角数据的统一表达;
步骤S3,根据所述步骤S2中的多视角统一表达进行辅助优化目标函数的构建;
步骤S4,基于所述步骤S3中的辅助优化目标函数通过最小化该目标函数优化多视角的编码器,进而获得优化的多视角数据统一表达;
步骤S5,对所述多视角数据统一表达进行聚类获得多视角数据的聚类结果。
作为本发明的一种优选实施方式:所述样本的类型包括图像数据、文本数据和图像文本数据;
对于图像数据,采用提取图像的不同视觉描述子构成多视角数据;
对于文本数据,采用提取文本的不同词袋模型特征构成多视角数据;
对于图像文本数据,则分别提取图像的视角描述子与文本的词袋模型特征构成多视角数据。
作为本发明的一种优选实施方式:所述步骤S2中的模块化的编码器-解码器神经网络包括多视角编码器模块与多视角解码器模块,其中,多视角编码器模块由视角独立编码模块与模块化编码模块组成,多视角解码器模块与编码器模块对称设计,由视角独立解码模块与模块化解码模块组成。
作为本发明的一种优选实施方式:所述步骤S2具体包括以下步骤:
步骤S2.1,将多视角数据送入视角独立编码模块后得到模块化编码模块的输入,各视角独立编码后各个视角特征维度相同;
步骤S2.2,求各个视角经过模块化编码模块后的表达,其中模块化编码模块由层
组成,每层包含个模块,第视角下第层第模块计算为:
其中,为第视角下第层模块与第层模块之间的权重系数,为层模
块的计算权重,所有视角共享, 为第视角下第层模块的输入,ReLu为激活函数。上
述计算权重为待学习参数,权重系数计算方式为:
其中为层与层的权重矩阵,为层的计算权重,所有视角共享,为
待学习参数,第层输出即为各个视角经过模块化编码模块后的表达:
步骤S2.3多视角统一表达为各个视角表达加权平均:
其中,为总的视角个数。
步骤S2.4 以与多视角编码器对称的方式构造多视角解码器,各个视角输入经
过编码器-编解码神经网络获得解码输出,通过最小化目标函数获得,进而获得:
作为本发明的一种优选实施方式:所述步骤S2中, 计算为:
其中为视角独立编码后的输出。
作为本发明的一种优选实施方式:所述步骤S3具体包括以下步骤:步骤S3.1 将多
视角统一表达送K均值聚类算法获得个聚类中心以及每个样本属于各个聚类的概率
,样本属于聚类的概率为:
步骤S3.2 依据构造辅助变量:
步骤S3.3 构造辅助优化目标函数:
作为本发明的一种优选实施方式:步骤S4中辅助优化目标函数最小化时仅优
化编码器权重参数,优化完成计算获得多视角统一表达。
作为本发明的一种优选实施方式:所述步骤S5中的聚类为标准的谱聚类算法完成最终的聚类。
本发明相比现有技术,具有以下有益效果:
该方法利用模块化的编码器-解码器神经网络进行多视角数据的统一表达获取,可以灵活且有效地建模多视角数据之间的关系,通过辅助优化目标函数进行编码器的优化,将进一步提升多视角聚类的性能。
附图说明
图1为模块化网络建模视角间关系的多视角聚类方法的编码器-解码器神经网络结构示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
图1是本发明本发明基于模块化网络建模视角间关系的多视角聚类方法的编码器-解码器神经网络结构示意图,参考此图,该方法包括以下步骤:
步骤S1,对于给定的数据样本,根据样本的类型提取数据的多个视角的特征,构成多视角数据集。
所述样本的类型一般为图像数据、文本数据或者图像文本数据,对于图像提取图像的不同视觉描述子如SIFT、GIST构成多视角数据,对于文本提取文本的不同词袋模型特征如BoW、TF-IDF构成多视角数据集,对于图像文本则分别提取图像的视角描述子与文本的词袋模型特征构成多视角数据。
步骤S2,构建基于模块化的编码器-解码器神经网络进行多视角数据的统一表达建模,通过最小化多个视角的编解码误差训练得到多视角数据的统一表达。
该步骤包含以下子步骤:
步骤S2.1,将多视角数据送入视角独立编码模块后得到模块化编码模块的输入,各视角独立编码后各个视角特征维度相同。其中视角独立编码模块每个视角均为全连接网络,输出维度如256.
步骤S2.2,求各个视角经过模块化编码模块后的表达,其中模块化编码模块由层
组成,每层包含个模块,第视角下第层第模块计算为:
其中,为第视角下第层模块与第层模块之间的权重系数,为层模
块的计算权重,所有视角共享, 为第视角下第层模块的输入,ReLu为激活函数。上
述计算权重为待学习参数,权重系数计算方式为:
其中为层与层的权重矩阵,为层的计算权重,所有视角共享,为
待学习参数,第层输出即为各个视角经过模块化编码模块后的表达:
步骤S2.3,多视角统一表达为各个视角表达加权平均:
其中,为总的视角个数。
步骤S2.4 以对称多视角编码器的方式构造多视角解码器,各个视角输入经过
编码器-编解码神经网络获得解码输出,通过最小化目标函数获得,进而获得:
在上述计算中,, 计算为:
其中,为视角独立编码后的输出。
步骤S3,根据所述步骤S2中的多视角统一表达进行辅助优化目标函数的构建。
该步骤包含以下子步骤:
步骤S3.1 将多视角统一表达送K均值聚类算法获得个聚类中心以及每个样本
属于各个聚类的概率,样本属于聚类的概率:
步骤S3.2 依据构造辅助变量:
步骤S3.3 构造辅助优化目标函数:
步骤S4,基于所述步骤S3中的辅助优化目标函数,通过最小化该目标函数优
化多视角的编码器,进而获得优化的多视角数据统一表达。
该步骤中,最小化时仅优化编码器权重参数,优化完成计算获得多视角统一
表达。
步骤S5,对所述多视角数据统一表达进行聚类获得多视角数据的聚类结果;该步骤中,采用标准的谱聚类算法完成最终的聚类。
本申请利用模块化的编码器-解码器神经网络进行多视角数据的统一表达获取,可以灵活且有效地建模多视角数据之间的关系,通过辅助优化目标函数进行编码器的优化,将进一步提升多视角聚类的性能。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于模块化网络建模视角间关系的多视角聚类方法,其特征在于,包括以下步骤:
步骤S1,对于给定的图像数据、文本数据和图像文本数据样本,根据样本的类型提取数据的多个视角的特征,构成多视角数据集,对于图像数据,采用提取图像的不同视觉描述子构成多视角数据;对于文本数据,采用提取文本的不同词袋模型特征构成多视角数据;对于图像文本数据,则分别提取图像的视角描述子与文本的词袋模型特征构成多视角数据;
步骤S2,构建基于模块化的编码器-解码器神经网络进行多视角数据的统一表达建模,通过最小化多个视角的编解码误差训练得到多视角数据的统一表达;其中,模块化的编码器-解码器神经网络包括多视角编码器模块与多视角解码器模块,所述多视角编码器模块由视角独立编码模块与模块化编码模块组成,多视角解码器模块与编码器模块对称设计,由视角独立解码模块与模块化解码模块组成;具体包括以下步骤:
步骤S2.1,将多视角数据送入视角独立编码模块后得到模块化编码模块的输入,各视角独立编码后各个视角特征维度相同;
步骤S2.2,求各个视角经过模块化编码模块后的表达,其中模块化编码模块由层组成,每层包含/>个模块,第/>视角下第/>层第/>模块计算为:
;
其中,为第/>视角下第/>层模块/>与第/>层模块/>之间的权重系数,/>为/>层模块/>的计算权重,所有视角共享, />为第/>视角下第/>层模块/>的输入,ReLu为激活函数;上述计算权重为待学习参数,权重系数/>计算方式为:
;
;
其中为/>层与/>层的权重矩阵,/>为/>层的计算权重,所有视角共享,为待学习参数,第/>层输出即为各个视角经过模块化编码模块后的表达/>:
;
步骤S2.3多视角统一表达为各个视角表达加权平均:
;
其中,为总的视角个数;
步骤S2.4 以与多视角编码器对称的方式构造多视角解码器,各个视角输入经过编码器-编解码神经网络获得解码输出/>,通过最小化目标函数/>获得/>,进而获得/>:
;
步骤S3,根据所述步骤S2中的多视角统一表达进行辅助优化目标函数的构建;
步骤S4,基于所述步骤S3中的辅助优化目标函数通过最小化该目标函数优化多视角的编码器,进而获得优化的多视角数据统一表达;
步骤S5,对所述多视角数据统一表达进行聚类获得多视角数据的聚类结果。
2.根据权利要求1所述一种基于模块化网络建模视角间关系的多视角聚类方法,其特征在于,所述步骤S2中, />计算为:/>;/>;其中/>为视角/>独立编码后的输出。
3.根据权利要求1所述一种基于模块化网络建模视角间关系的多视角聚类方法,其特征在于,所述步骤S3具体包括以下步骤:步骤S3.1 将多视角统一表达送K均值聚类算法获得/>个聚类中心/>以及每个样本属于各个聚类的概率/>,样本/>属于聚类/>的概率为:;步骤S3.2 依据/>构造辅助变量/>:/>;;步骤S3.3 构造辅助优化目标函数:/>。
4.根据权利要求1所述的方法,其特征在于,步骤S4中辅助优化目标函数最小化时仅优化编码器权重参数,优化完成计算获得多视角统一表达/>。
5.根据权利要求1所述的方法,其特征在于,所述步骤S5中的聚类为标准的谱聚类算法完成最终的聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410029931.8A CN117542057B (zh) | 2024-01-09 | 2024-01-09 | 一种基于模块化网络建模视角间关系的多视角聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410029931.8A CN117542057B (zh) | 2024-01-09 | 2024-01-09 | 一种基于模块化网络建模视角间关系的多视角聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117542057A CN117542057A (zh) | 2024-02-09 |
CN117542057B true CN117542057B (zh) | 2024-04-05 |
Family
ID=89788469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410029931.8A Active CN117542057B (zh) | 2024-01-09 | 2024-01-09 | 一种基于模块化网络建模视角间关系的多视角聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117542057B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400143A (zh) * | 2013-07-12 | 2013-11-20 | 中国科学院自动化研究所 | 一种基于多视角的数据子空间聚类方法 |
CN112464004A (zh) * | 2020-11-26 | 2021-03-09 | 大连理工大学 | 一种多视角深度生成图像聚类方法 |
CN113128600A (zh) * | 2021-04-23 | 2021-07-16 | 湖北珞珈环创科技有限公司 | 一种结构化深度非完整多视角聚类方法 |
CN113610139A (zh) * | 2021-08-02 | 2021-11-05 | 大连理工大学 | 一种多视角强化图像聚类方法 |
CN113705603A (zh) * | 2021-07-12 | 2021-11-26 | 北京邮电大学 | 不完整多视角数据的聚类方法、电子设备 |
CN116204804A (zh) * | 2023-02-14 | 2023-06-02 | 中国科学院自动化研究所 | 多视角聚类方法、装置、电子设备及存储介质 |
CN116863177A (zh) * | 2023-06-14 | 2023-10-10 | 内蒙古工业大学 | 一种面向通用多视图对象聚类的对象视图蒸馏方法 |
CN117009838A (zh) * | 2023-09-27 | 2023-11-07 | 江西师范大学 | 一种多尺度融合对比学习多视图聚类方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6893194B2 (ja) * | 2018-05-28 | 2021-06-23 | 日本電信電話株式会社 | モデル学習装置、モデル学習方法、及びプログラム |
US20220129751A1 (en) * | 2020-10-23 | 2022-04-28 | California Institute Of Technology | Scalable and distributed machine learning framework with unified encoder (sulu) |
-
2024
- 2024-01-09 CN CN202410029931.8A patent/CN117542057B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400143A (zh) * | 2013-07-12 | 2013-11-20 | 中国科学院自动化研究所 | 一种基于多视角的数据子空间聚类方法 |
CN112464004A (zh) * | 2020-11-26 | 2021-03-09 | 大连理工大学 | 一种多视角深度生成图像聚类方法 |
CN113128600A (zh) * | 2021-04-23 | 2021-07-16 | 湖北珞珈环创科技有限公司 | 一种结构化深度非完整多视角聚类方法 |
CN113705603A (zh) * | 2021-07-12 | 2021-11-26 | 北京邮电大学 | 不完整多视角数据的聚类方法、电子设备 |
CN113610139A (zh) * | 2021-08-02 | 2021-11-05 | 大连理工大学 | 一种多视角强化图像聚类方法 |
CN116204804A (zh) * | 2023-02-14 | 2023-06-02 | 中国科学院自动化研究所 | 多视角聚类方法、装置、电子设备及存储介质 |
CN116863177A (zh) * | 2023-06-14 | 2023-10-10 | 内蒙古工业大学 | 一种面向通用多视图对象聚类的对象视图蒸馏方法 |
CN117009838A (zh) * | 2023-09-27 | 2023-11-07 | 江西师范大学 | 一种多尺度融合对比学习多视图聚类方法及系统 |
Non-Patent Citations (3)
Title |
---|
Deep embedded multi-view clustering with collaborative training;Jie Xu等;Information Sciences;20210617;279-290 * |
Deep multi-view document clustering with enhanced semantic embedding;Ruina Bai等;Information Sciences;20210516;273-287 * |
聚类算法中图学习的若干方法研究;蔡志铃;中国博士学位论文全文数据库信息科技辑;20230415;I138-5 * |
Also Published As
Publication number | Publication date |
---|---|
CN117542057A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378334B (zh) | 一种基于二维特征注意力机制的自然场景文本识别方法 | |
CN111144448B (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
CN105512289B (zh) | 基于深度学习和哈希的图像检索方法 | |
CN110458216B (zh) | 基于条件生成对抗网络的图像风格迁移方法 | |
CN110222668B (zh) | 基于生成对抗网络的多姿态面部表情识别方法 | |
CN112070209B (zh) | 基于w距离的稳定可控图像生成模型训练方法 | |
CN110517329B (zh) | 一种基于语义分析的深度学习图像压缩方法 | |
CN109784280A (zh) | 基于Bi-LSTM-Attention模型的人体行为识别方法 | |
CN108647599B (zh) | 结合3d跃层连接和循环神经网络的人体行为识别方法 | |
CN112766217B (zh) | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN109360146A (zh) | 基于深度卷积对抗生成网络dcgan的双光图像融合模型 | |
CN112037228A (zh) | 一种基于双倍注意力的激光雷达点云目标分割方法 | |
CN110674774A (zh) | 一种改进的深度学习人脸面部表情识别方法及系统 | |
CN115330620A (zh) | 一种基于循环生成对抗网络的图像去雾方法 | |
CN114006870A (zh) | 一种基于自监督卷积子空间聚类网络的网络流量识别方法 | |
CN107330381A (zh) | 一种人脸识别方法 | |
Liu et al. | Viewpoint invariant action recognition using rgb-d videos | |
CN114004220A (zh) | 一种基于cpc-ann的文本情绪原因识别方法 | |
CN113505719A (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
CN110414431B (zh) | 基于弹性上下文关系损失函数的人脸识别方法及系统 | |
CN116543269A (zh) | 基于自监督的跨域小样本细粒度图像识别方法及其模型 | |
Ma et al. | Cascade transformer decoder based occluded pedestrian detection with dynamic deformable convolution and Gaussian projection channel attention mechanism | |
CN117542057B (zh) | 一种基于模块化网络建模视角间关系的多视角聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |