CN117542057B - 一种基于模块化网络建模视角间关系的多视角聚类方法 - Google Patents

一种基于模块化网络建模视角间关系的多视角聚类方法 Download PDF

Info

Publication number
CN117542057B
CN117542057B CN202410029931.8A CN202410029931A CN117542057B CN 117542057 B CN117542057 B CN 117542057B CN 202410029931 A CN202410029931 A CN 202410029931A CN 117542057 B CN117542057 B CN 117542057B
Authority
CN
China
Prior art keywords
view
perspective
module
data
modular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410029931.8A
Other languages
English (en)
Other versions
CN117542057A (zh
Inventor
刘如一
孙玉宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202410029931.8A priority Critical patent/CN117542057B/zh
Publication of CN117542057A publication Critical patent/CN117542057A/zh
Application granted granted Critical
Publication of CN117542057B publication Critical patent/CN117542057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18143Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
    • G06V30/18152Extracting features based on a plurality of salient regional features, e.g. "bag of words"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19107Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模块化网络建模视角间关系的多视角聚类方法,该方法包括以下步骤:通过提取数据不同视角的特征,构建多视角数据库;构建基于模块化的编码器‑解码器神经网络提取并训练得到多视角数据的统一表达;将统一表达进行转换并构造辅助优化目标函数;基于上述目标函数对模块化的编码器‑解码器中的编码器进行再优化获得优化的多视角数据统一表达;对多视角数据统一表达进行聚类得到多视角聚类结果。本发明利用模块化的编码器‑解码器神经网络进行多视角数据的统一表达获取,可以灵活且有效地建模多视角数据之间的关系,通过辅助优化目标函数进行编码器的优化,将进一步提升多视角聚类的性能。

Description

一种基于模块化网络建模视角间关系的多视角聚类方法
技术领域
本发明涉及模式识别技术领域,具体涉及一种基于模块化网络建模视角间关系的多视角聚类方法。
背景技术
现实世界的数据往往呈现出多视角的特性,例如对事件的描述可以通过文本以及图像进行刻画,图像数据往往可以通过不同的视觉描述算子如SIFT、GIST进行表示,文本可以通过各种词袋特征如BoW、TF-IDF进行表示。对多视角数据分析往往可以利用多视角数据表现出来的互补与一致特性提升性能,因此多视角数据分析受到研究者的广泛关注。多视角聚类,作为一种典型的无监督学习任务,通过将不同数据聚集到不同类别中,在现实世界巨大的无标注数据处理中具有重要的作用。为进行有效的多视角聚类,一般需要对多视角数据之间的互补与一致特性进行建模,但是现有的方法往往基于特定假设进行多视角统一表达的学习,难以应对各种数据表现特性的多视角聚类任务,不能有效地实现多视角数据间关系灵活的建模,需要提出更有效且灵活的多视角关系建模算法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于模块化网络建模视角间关系的多视角聚类方法。该方法利用模块化的编码器-解码器神经网络进行多视角数据的统一表达获取,可以灵活且有效地建模多视角数据之间的关系,通过辅助优化目标函数进行编码器的优化,将进一步提升多视角聚类的性能。
为实现上述目的,本发明采用的技术方案为:一种基于模块化网络建模视角间关系的多视角聚类方法,包括以下步骤:
步骤S1,对于给定的数据样本,根据样本的类型提取数据的多个视角的特征,构成多视角数据集;
步骤S2,构建基于模块化的编码器-解码器神经网络进行多视角数据的统一表达建模,通过最小化多个视角的编解码误差训练得到多视角数据的统一表达;
步骤S3,根据所述步骤S2中的多视角统一表达进行辅助优化目标函数的构建;
步骤S4,基于所述步骤S3中的辅助优化目标函数通过最小化该目标函数优化多视角的编码器,进而获得优化的多视角数据统一表达;
步骤S5,对所述多视角数据统一表达进行聚类获得多视角数据的聚类结果。
作为本发明的一种优选实施方式:所述样本的类型包括图像数据、文本数据和图像文本数据;
对于图像数据,采用提取图像的不同视觉描述子构成多视角数据;
对于文本数据,采用提取文本的不同词袋模型特征构成多视角数据;
对于图像文本数据,则分别提取图像的视角描述子与文本的词袋模型特征构成多视角数据。
作为本发明的一种优选实施方式:所述步骤S2中的模块化的编码器-解码器神经网络包括多视角编码器模块与多视角解码器模块,其中,多视角编码器模块由视角独立编码模块与模块化编码模块组成,多视角解码器模块与编码器模块对称设计,由视角独立解码模块与模块化解码模块组成。
作为本发明的一种优选实施方式:所述步骤S2具体包括以下步骤:
步骤S2.1,将多视角数据送入视角独立编码模块后得到模块化编码模块的输入,各视角独立编码后各个视角特征维度相同;
步骤S2.2,求各个视角经过模块化编码模块后的表达,其中模块化编码模块由层 组成,每层包含个模块,第视角下第层第模块计算为:
其中,为第视角下第层模块与第层模块之间的权重系数,层模 块的计算权重,所有视角共享, 为第视角下第层模块的输入,ReLu为激活函数。上 述计算权重为待学习参数,权重系数计算方式为:
其中层与层的权重矩阵,层的计算权重,所有视角共享,为 待学习参数,第层输出即为各个视角经过模块化编码模块后的表达
步骤S2.3多视角统一表达为各个视角表达加权平均:
其中,为总的视角个数。
步骤S2.4 以与多视角编码器对称的方式构造多视角解码器,各个视角输入经 过编码器-编解码神经网络获得解码输出,通过最小化目标函数获得,进而获得
作为本发明的一种优选实施方式:所述步骤S2中, 计算为:
其中为视角独立编码后的输出。
作为本发明的一种优选实施方式:所述步骤S3具体包括以下步骤:步骤S3.1 将多 视角统一表达送K均值聚类算法获得个聚类中心以及每个样本属于各个聚类的概率 ,样本属于聚类的概率为:
步骤S3.2 依据构造辅助变量
步骤S3.3 构造辅助优化目标函数:
作为本发明的一种优选实施方式:步骤S4中辅助优化目标函数最小化时仅优 化编码器权重参数,优化完成计算获得多视角统一表达
作为本发明的一种优选实施方式:所述步骤S5中的聚类为标准的谱聚类算法完成最终的聚类。
本发明相比现有技术,具有以下有益效果:
该方法利用模块化的编码器-解码器神经网络进行多视角数据的统一表达获取,可以灵活且有效地建模多视角数据之间的关系,通过辅助优化目标函数进行编码器的优化,将进一步提升多视角聚类的性能。
附图说明
图1为模块化网络建模视角间关系的多视角聚类方法的编码器-解码器神经网络结构示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
图1是本发明本发明基于模块化网络建模视角间关系的多视角聚类方法的编码器-解码器神经网络结构示意图,参考此图,该方法包括以下步骤:
步骤S1,对于给定的数据样本,根据样本的类型提取数据的多个视角的特征,构成多视角数据集。
所述样本的类型一般为图像数据、文本数据或者图像文本数据,对于图像提取图像的不同视觉描述子如SIFT、GIST构成多视角数据,对于文本提取文本的不同词袋模型特征如BoW、TF-IDF构成多视角数据集,对于图像文本则分别提取图像的视角描述子与文本的词袋模型特征构成多视角数据。
步骤S2,构建基于模块化的编码器-解码器神经网络进行多视角数据的统一表达建模,通过最小化多个视角的编解码误差训练得到多视角数据的统一表达。
该步骤包含以下子步骤:
步骤S2.1,将多视角数据送入视角独立编码模块后得到模块化编码模块的输入,各视角独立编码后各个视角特征维度相同。其中视角独立编码模块每个视角均为全连接网络,输出维度如256.
步骤S2.2,求各个视角经过模块化编码模块后的表达,其中模块化编码模块由层 组成,每层包含个模块,第视角下第层第模块计算为:
其中,为第视角下第层模块与第层模块之间的权重系数,层模 块的计算权重,所有视角共享, 为第视角下第层模块的输入,ReLu为激活函数。上 述计算权重为待学习参数,权重系数计算方式为:
其中层与层的权重矩阵,层的计算权重,所有视角共享,为 待学习参数,第层输出即为各个视角经过模块化编码模块后的表达:
步骤S2.3,多视角统一表达为各个视角表达加权平均:
其中,为总的视角个数。
步骤S2.4 以对称多视角编码器的方式构造多视角解码器,各个视角输入经过 编码器-编解码神经网络获得解码输出,通过最小化目标函数获得,进而获得
在上述计算中,, 计算为:
其中,为视角独立编码后的输出。
步骤S3,根据所述步骤S2中的多视角统一表达进行辅助优化目标函数的构建。
该步骤包含以下子步骤:
步骤S3.1 将多视角统一表达送K均值聚类算法获得个聚类中心以及每个样本 属于各个聚类的概率,样本属于聚类的概率:
步骤S3.2 依据构造辅助变量
步骤S3.3 构造辅助优化目标函数:
步骤S4,基于所述步骤S3中的辅助优化目标函数,通过最小化该目标函数优 化多视角的编码器,进而获得优化的多视角数据统一表达
该步骤中,最小化时仅优化编码器权重参数,优化完成计算获得多视角统一 表达
步骤S5,对所述多视角数据统一表达进行聚类获得多视角数据的聚类结果;该步骤中,采用标准的谱聚类算法完成最终的聚类。
本申请利用模块化的编码器-解码器神经网络进行多视角数据的统一表达获取,可以灵活且有效地建模多视角数据之间的关系,通过辅助优化目标函数进行编码器的优化,将进一步提升多视角聚类的性能。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于模块化网络建模视角间关系的多视角聚类方法,其特征在于,包括以下步骤:
步骤S1,对于给定的图像数据、文本数据和图像文本数据样本,根据样本的类型提取数据的多个视角的特征,构成多视角数据集,对于图像数据,采用提取图像的不同视觉描述子构成多视角数据;对于文本数据,采用提取文本的不同词袋模型特征构成多视角数据;对于图像文本数据,则分别提取图像的视角描述子与文本的词袋模型特征构成多视角数据;
步骤S2,构建基于模块化的编码器-解码器神经网络进行多视角数据的统一表达建模,通过最小化多个视角的编解码误差训练得到多视角数据的统一表达;其中,模块化的编码器-解码器神经网络包括多视角编码器模块与多视角解码器模块,所述多视角编码器模块由视角独立编码模块与模块化编码模块组成,多视角解码器模块与编码器模块对称设计,由视角独立解码模块与模块化解码模块组成;具体包括以下步骤:
步骤S2.1,将多视角数据送入视角独立编码模块后得到模块化编码模块的输入,各视角独立编码后各个视角特征维度相同;
步骤S2.2,求各个视角经过模块化编码模块后的表达,其中模块化编码模块由层组成,每层包含/>个模块,第/>视角下第/>层第/>模块计算为:
其中,为第/>视角下第/>层模块/>与第/>层模块/>之间的权重系数,/>为/>层模块/>的计算权重,所有视角共享, />为第/>视角下第/>层模块/>的输入,ReLu为激活函数;上述计算权重为待学习参数,权重系数/>计算方式为:
其中为/>层与/>层的权重矩阵,/>为/>层的计算权重,所有视角共享,为待学习参数,第/>层输出即为各个视角经过模块化编码模块后的表达/>
步骤S2.3多视角统一表达为各个视角表达加权平均:
其中,为总的视角个数;
步骤S2.4 以与多视角编码器对称的方式构造多视角解码器,各个视角输入经过编码器-编解码神经网络获得解码输出/>,通过最小化目标函数/>获得/>,进而获得/>
步骤S3,根据所述步骤S2中的多视角统一表达进行辅助优化目标函数的构建;
步骤S4,基于所述步骤S3中的辅助优化目标函数通过最小化该目标函数优化多视角的编码器,进而获得优化的多视角数据统一表达;
步骤S5,对所述多视角数据统一表达进行聚类获得多视角数据的聚类结果。
2.根据权利要求1所述一种基于模块化网络建模视角间关系的多视角聚类方法,其特征在于,所述步骤S2中, />计算为:/>;/>;其中/>为视角/>独立编码后的输出。
3.根据权利要求1所述一种基于模块化网络建模视角间关系的多视角聚类方法,其特征在于,所述步骤S3具体包括以下步骤:步骤S3.1 将多视角统一表达送K均值聚类算法获得/>个聚类中心/>以及每个样本属于各个聚类的概率/>,样本/>属于聚类/>的概率为:;步骤S3.2 依据/>构造辅助变量/>:/>;步骤S3.3 构造辅助优化目标函数:/>
4.根据权利要求1所述的方法,其特征在于,步骤S4中辅助优化目标函数最小化时仅优化编码器权重参数,优化完成计算获得多视角统一表达/>
5.根据权利要求1所述的方法,其特征在于,所述步骤S5中的聚类为标准的谱聚类算法完成最终的聚类。
CN202410029931.8A 2024-01-09 2024-01-09 一种基于模块化网络建模视角间关系的多视角聚类方法 Active CN117542057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410029931.8A CN117542057B (zh) 2024-01-09 2024-01-09 一种基于模块化网络建模视角间关系的多视角聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410029931.8A CN117542057B (zh) 2024-01-09 2024-01-09 一种基于模块化网络建模视角间关系的多视角聚类方法

Publications (2)

Publication Number Publication Date
CN117542057A CN117542057A (zh) 2024-02-09
CN117542057B true CN117542057B (zh) 2024-04-05

Family

ID=89788469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410029931.8A Active CN117542057B (zh) 2024-01-09 2024-01-09 一种基于模块化网络建模视角间关系的多视角聚类方法

Country Status (1)

Country Link
CN (1) CN117542057B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400143A (zh) * 2013-07-12 2013-11-20 中国科学院自动化研究所 一种基于多视角的数据子空间聚类方法
CN112464004A (zh) * 2020-11-26 2021-03-09 大连理工大学 一种多视角深度生成图像聚类方法
CN113128600A (zh) * 2021-04-23 2021-07-16 湖北珞珈环创科技有限公司 一种结构化深度非完整多视角聚类方法
CN113610139A (zh) * 2021-08-02 2021-11-05 大连理工大学 一种多视角强化图像聚类方法
CN113705603A (zh) * 2021-07-12 2021-11-26 北京邮电大学 不完整多视角数据的聚类方法、电子设备
CN116204804A (zh) * 2023-02-14 2023-06-02 中国科学院自动化研究所 多视角聚类方法、装置、电子设备及存储介质
CN116863177A (zh) * 2023-06-14 2023-10-10 内蒙古工业大学 一种面向通用多视图对象聚类的对象视图蒸馏方法
CN117009838A (zh) * 2023-09-27 2023-11-07 江西师范大学 一种多尺度融合对比学习多视图聚类方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6893194B2 (ja) * 2018-05-28 2021-06-23 日本電信電話株式会社 モデル学習装置、モデル学習方法、及びプログラム
US20220129751A1 (en) * 2020-10-23 2022-04-28 California Institute Of Technology Scalable and distributed machine learning framework with unified encoder (sulu)

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400143A (zh) * 2013-07-12 2013-11-20 中国科学院自动化研究所 一种基于多视角的数据子空间聚类方法
CN112464004A (zh) * 2020-11-26 2021-03-09 大连理工大学 一种多视角深度生成图像聚类方法
CN113128600A (zh) * 2021-04-23 2021-07-16 湖北珞珈环创科技有限公司 一种结构化深度非完整多视角聚类方法
CN113705603A (zh) * 2021-07-12 2021-11-26 北京邮电大学 不完整多视角数据的聚类方法、电子设备
CN113610139A (zh) * 2021-08-02 2021-11-05 大连理工大学 一种多视角强化图像聚类方法
CN116204804A (zh) * 2023-02-14 2023-06-02 中国科学院自动化研究所 多视角聚类方法、装置、电子设备及存储介质
CN116863177A (zh) * 2023-06-14 2023-10-10 内蒙古工业大学 一种面向通用多视图对象聚类的对象视图蒸馏方法
CN117009838A (zh) * 2023-09-27 2023-11-07 江西师范大学 一种多尺度融合对比学习多视图聚类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep embedded multi-view clustering with collaborative training;Jie Xu等;Information Sciences;20210617;279-290 *
Deep multi-view document clustering with enhanced semantic embedding;Ruina Bai等;Information Sciences;20210516;273-287 *
聚类算法中图学习的若干方法研究;蔡志铃;中国博士学位论文全文数据库信息科技辑;20230415;I138-5 *

Also Published As

Publication number Publication date
CN117542057A (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN110598221A (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN109829499B (zh) 基于同一特征空间的图文数据融合情感分类方法和装置
CN114399646B (zh) 一种基于Transformer结构的图像描述方法和装置
CN110516530A (zh) 一种基于非对齐多视图特征增强的图像描述方法
CN112905762B (zh) 一种基于同等注意力图网络的视觉问答方法
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN111522923B (zh) 一种多轮任务式对话状态追踪方法
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN108537120A (zh) 一种基于深度学习的人脸识别方法及系统
CN117972337A (zh) 基于多模态深度学习的农业气象灾害监测预测方法
CN116168324A (zh) 基于循环交互Transformer与维度交叉融合的视频情感识别方法
CN114548038A (zh) 一种基于汉字字形扰动的字体风格迁移方法
CN118656511A (zh) 一种基于生成式语言模型的多模态人脸检索方法
CN117313750A (zh) 一种融合Bert预训练语言知识的神经机器翻译方法
CN115361595B (zh) 一种视频弹幕生成方法
CN112507937A (zh) 融合多源数据的卫星影像无监督分类方法和装置
CN116150383A (zh) 基于跨模态注意力机制的谣言检测方法及模型
CN117542057B (zh) 一种基于模块化网络建模视角间关系的多视角聚类方法
CN115170888A (zh) 基于视觉信息和语义属性的电子元器件零样本识别模型及方法
CN113344060B (zh) 文本分类模型训练方法、诉讼状分类方法及装置
CN115565080A (zh) 一种基于自注意力机制的多特征融合sar图像海冰分类方法
Li et al. A general framework for incomplete cross-modal retrieval with missing labels and missing modalities
CN117237968A (zh) 基于Transformer的逐行扫描的表格结构识别方法及系统
CN116597229A (zh) 基于变分自编码器和多维模态对齐的零样本图像分类方法
CN117573949A (zh) 一种多头注意力和图谱嵌入算法融合的类案推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant