CN112001437A - 面向模态非完全对齐的数据聚类方法 - Google Patents

面向模态非完全对齐的数据聚类方法 Download PDF

Info

Publication number
CN112001437A
CN112001437A CN202010834767.XA CN202010834767A CN112001437A CN 112001437 A CN112001437 A CN 112001437A CN 202010834767 A CN202010834767 A CN 202010834767A CN 112001437 A CN112001437 A CN 112001437A
Authority
CN
China
Prior art keywords
data
modal
alignment
aligned
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010834767.XA
Other languages
English (en)
Other versions
CN112001437B (zh
Inventor
彭玺
缑元彪
黄振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010834767.XA priority Critical patent/CN112001437B/zh
Publication of CN112001437A publication Critical patent/CN112001437A/zh
Application granted granted Critical
Publication of CN112001437B publication Critical patent/CN112001437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向模态非完全对齐的数据聚类方法,其包括S1获取多种模态数据集,将其中一个作为对齐模态数据,余下模拟非对齐模态数据;S2将每个模态数据集分别输入一个自编码网络;S3计算对齐模态与非对齐模态的距离矩阵;S4将非对齐模态数据的距离矩阵送入可微的对齐模块计算预测置换矩阵;S5采用损失函数计算损失值;S6基于损失值进行反向传播优化自编码网络;S7将步骤S1中的模态数据集分别输入与其对应优化后的自编码网络;S8采用步骤S3和S4的执行方式得到新的预测置换矩阵,并采用新的预测置换矩阵对步骤S7输出的公共表示进行置换得到对齐的公共表示;S9将步骤S8中输出的公共表示进行拼接,之后进行聚类得到聚类结果。

Description

面向模态非完全对齐的数据聚类方法
技术领域
本发明涉及数据分类技术,具体涉及一种面向模态非完全对齐的数据聚类方法。
背景技术
数据聚类是一类无监督的机器学习方法,旨在根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大。由于大多数真实世界的数据都以多个模态的形式呈现,多模态数据聚类通过探索和利用在不同模态之间数据内在的相关性和不变性进行聚类。通常来说,大多数现有的多模态数据聚类方法通过联合学习多个模态的一种公共表示来弥合不同模态之间的差距,再利用公共表示通过k-means之类的传统聚类方法进行数据聚类。
目前多模态数据聚类技术广泛应用于各个领域,比如在机器翻译应用中,通过输入一种语言的词汇即时翻译为另一种语言的词汇,其实质就是一种模态之间的对齐聚类。类似的还有唇读识别和语音翻译,也就是分别将唇部视觉和语音信息转换为对应的文本信息。在商品推荐中,结合海量商品图像与文本属性,学习图像语义特征表达,提高符合用户需求的商品推荐度。在与智能客服进行的多轮对话中,融入视觉与语言的多模态聚类技术,可以自动实现对用户进行自动的文本、图片或视频应答。
但这些多模态技术之所以取得成功主要得益于满足两个假设的高质量多模态数据的存在。一是数据的完备性假设,即所有的样本要在所有的模态中都存在,不能发生数据缺失的情况;二是模态对齐性假设,即不同的模态中数据项之间存在正确的对应关系。换句话说,在目前的技术基础上,要对多模态数据进行聚类,需要人工预先对数据进行筛选和对齐以保证待聚类对象的完备性和对齐性。但是在这些实际场景中,由于时间和空间的复杂性和不协调性,要收集完整的、完全对齐的多模态数据是一项艰巨的任务。
发明内容
针对现有技术中上述不足,本发明提供的面向模态非完全对齐的数据聚类方法在聚类之前不需要预先对数据进行对齐处理,即不需要满足模态对齐性假设。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种面向模态非完全对齐的数据聚类方法,其包括:
S1、根据应用场景获取多目标对象的多种模态的模态数据集,采用任一模态数据集中模态数据作为对齐模态数据,将余下模态数据集通过预设置换矩阵进行置换模拟非对齐模态数据;
S2、将对齐模态数据和所有模拟的非对齐模态数据分别输入一个独立的自编码网络,自编码网络中编码器输出每个模态数据集的公共表示;
S3、根据每个模态数据集的公共表示,计算对齐模态与非对齐模态的距离矩阵:
Figure BDA0002639240740000021
其中,
Figure BDA0002639240740000022
为模态v的第i个对齐模态数据
Figure BDA0002639240740000023
和模态u的第j个非对齐模态数据
Figure BDA0002639240740000024
之间的距离,i和j分别为数据索引,v为对齐模态数据对应的模态;u为非对齐模态数据对应的模态;
Figure BDA0002639240740000025
Figure BDA0002639240740000026
对应的编码器输出;
Figure BDA0002639240740000027
Figure BDA0002639240740000028
对应的编码器输出;
Figure BDA0002639240740000031
为2范数的平方;
S4、将非对齐模态数据对应的距离矩阵送入可微的对齐模块,采用目标优化算法迭代得到预测置换矩阵;
S5、根据自编码网络的编码器和解码器的输出及预设置换矩阵和预测置换矩阵,采用损失函数计算损失值;
S6、基于损失值进行反向传播优化所有自编码网络的网络参数和权重,之后在存在自编码网络未收敛时返回步骤S2,所有自编码网络收敛时进入步骤S7;
S7、将步骤S1中获取的所有模态数据集分别输入与其对应收敛后的自编码网络,得到每个模态数据集的公共表示;
S8、采用步骤S3和步骤S4的执行方式得到新的预测置换矩阵,并采用新的预测置换矩阵对步骤S7得到的公共表示进行置换,获得对齐的公共表示;
S9、将步骤S8得到的所有模态的公共表示拼接在一起,并采用聚类算法进行聚类得到聚类结果。
进一步地,采用损失函数计算损失值
Figure BDA0002639240740000032
的公式为:
Figure BDA0002639240740000033
Figure BDA0002639240740000034
其中,λ是权重系数;
Figure BDA0002639240740000035
为学习跨模态公共表示的损失函数;Puv
Figure BDA0002639240740000036
分别为模态u向模态v对齐时的预测置换矩阵和预设置换矩阵;
Figure BDA0002639240740000037
为Puv
Figure BDA0002639240740000038
之间的损失函数;m为模态的数量;A(k)和A(v)分别为模态k和模态v的模态数据;
Figure BDA0002639240740000039
为模态v以外的非对齐模态u的模态数据;f(k)(A(k))为A(k)对应的编码器输出;g(k)(f(k)(A(k)))为A(k)对应的解码器输出。
进一步地,在对齐模块中,采用目标优化算法迭代得到预测置换矩阵进一步包括:
S41、初始化参数:Puv为距离矩阵,更新步长σ和迭代次数τ1、τ2
S42、采用公式Puv=Puv-σDuv更新Puv,之后初始化初始状态T0和状态变化量d1,d2,d3为:T0=Puv,d1=d2=d3=0;
S43、通过公式T1=Ψ1(T0+d1)计算得到中间状态T1,之后更新状态变化量d1=T0+d1-T1
S44、通过公式T2=Ψ2(T1+d2)计算得到中间状态T2,之后更新状态变化量d2=T1+d2-T2
S45、通过公式T3=Ψ3(T2+d3)计算得到中间状态T3,之后更新状态变化量d3=T2+d3-T3;Ψ1、Ψ2和Ψ3均为与Puv相关的转换函数;
S46、迭代执行步骤S33~步骤S35迭代次数τ2次,之后令Puv=T3
S47、迭代执行步骤S32~步骤S36迭代次数τ1次,之后输出Puv
进一步地,转换函数Ψ1、Ψ2和Ψ3分别为:
Ψ1=ReLU(Puv),
Figure BDA0002639240740000041
其中,n为Puv的维度,ReLU(·)为激活函数。
进一步地,每个模态在获取非对齐数据时对应的预设置换矩阵
Figure BDA0002639240740000042
为一个初等行/列变换矩阵,且每一行和每一列中有且仅有一项为1,其余项为0。
进一步地,所有模态对应的自编码网络采用相同的网络结构;
编码器网络共四层:
第一层为全连接层,输入维度为模态对应的模态数据维度,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为10,激活函数为ReLU;
解码器网络共4层:
第一层为全连接层,输入为10,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为模态对应的模态数据维度,激活函数为ReLU。
进一步地,当聚类方法的应用场景为商品推荐时,多模态数据为图像和文本,多目标对象为不同的商品;
当聚类方法的应用场景为与智能客服多轮对话时,多模态数据为图像、文本和视/音频,多目标对象为不同的话题;
当聚类方法的应用场景为搜索引擎检索时,多模态数据为图像、文本,多目标对象为不同的检索主题。
本发明的有益效果为:与其它的多模态数据聚类技术相比,本方案能够在隐空间中对输入的部分对齐的多模态数据执行对齐并同时学习跨模态的公共表示用于聚类,因此,本方案能够有效地对部分对齐的多模态数据进行聚类,以解决现有需要人工预先对数据进行筛选和对齐以保证待聚类对象的对齐性所带来的操作人员劳动强度大及效率低的问题。
本方案中可微的对齐模块进行预测置换矩阵过程中,能够在统一的框架下联合学习公共的表示并执行对齐,进而使数据的对齐信息能够被利用于提升多模态聚类的性能。
附图说明
图1为面向模态非完全对齐的数据聚类方法的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参考图1,图1示出了面向模态非完全对齐的数据聚类方法的流程图;如图1所示,该方法S包括步骤S1至步骤S5。
在步骤S1中,根据应用场景获取多目标对象的多种模态的模态数据集,采用任一模态数据集中模态数据作为对齐模态数据,将余下模态数据集通过预设置换矩阵进行置换模拟非对齐模态数据;。
实施时,本方案优选每个模态在获取非对齐数据时对应的预设置换矩阵
Figure BDA0002639240740000061
为一个初等行/列变换矩阵,且每一行和每一列中有且仅有一项为1,其余项为0。任意两个模态X(i)和X(j)之间的对齐关系可以表示为:
X(i)~PX(j),即X(j)经过初等行(列)变换后与X(i)对齐,其中~表示二者对齐,P是一个初等行(列)变换矩阵且每一行和每一列中有且仅有一项为1,其余项为0。
在步骤S2中,将对齐模态数据和所有模拟的非对齐模态数据分别输入一个独立的自编码网络,自编码网络中编码器输出每个模态数据集的公共表示;
在本发明的一个实施例中,所有模态对应的自编码网络采用相同的网络结构;
编码器网络共四层:
第一层为全连接层,输入维度为模态对应的模态数据维度,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为10,激活函数为ReLU;
解码器网络共4层:
第一层为全连接层,输入为10,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为模态对应的模态数据维度,激活函数为ReLU。
在步骤S3中,根据每个模态数据集的公共表示,计算对齐模态与非对齐模态的距离矩阵:
Figure BDA0002639240740000071
其中,
Figure BDA0002639240740000072
为模态v的第i个对齐模态数据
Figure BDA0002639240740000073
和模态u的第j个非对齐模态数据
Figure BDA0002639240740000074
之间的距离,i和j分别为数据索引,v为对齐模态数据对应的模态;u为非对齐模态数据对应的模态;
Figure BDA0002639240740000075
Figure BDA0002639240740000076
对应的编码器输出;
Figure BDA0002639240740000077
Figure BDA0002639240740000078
对应的编码器输出;
Figure BDA0002639240740000079
为2范数的平方;
假设步骤S1中获取了a、b、c、d、e共5种模态的模态数据集,若对齐目标对应的模态为模态a,那么余下模态数据集对应的模态就为b、c、d、e。
在步骤S4中,将非对齐模态数据对应的距离矩阵送入可微的对齐模块,采用目标优化算法迭代得到预测置换矩阵;
在本发明的一个实施例中,在对齐模块中,采用目标优化算法迭代得到预测置换矩阵进一步包括:
S41、初始化参数:Puv为距离矩阵,更新步长σ和迭代次数τ1、τ2
S42、采用公式Puv=Puv-σDuv更新Puv,之后初始化初始状态T0和状态变化量d1,d2,d3为:T0=Puv,d1=d2=d3=0;
S43、通过公式T1=Ψ1(T0+d1)计算得到中间状态T1,之后更新状态变化量d1=T0+d1-T1
S44、通过公式T2=Ψ2(T1+d2)计算得到中间状态T2,之后更新状态变化量d2=T1+d2-T2
S45、通过公式T3=Ψ3(T2+d3)计算得到中间状态T3,之后更新状态变化量d3=T2+d3-T3;Ψ1、Ψ2和Ψ3均为与Puv相关的转换函数;
S46、迭代执行步骤S33~步骤S35迭代次数τ2次,之后令Puv=T3
S47、迭代执行步骤S32~步骤S36迭代次数τ1次,之后输出Puv
在对齐模块进行预测置换矩阵过程中,可微对齐模块能够在统一的框架下联合学习公共的表示并执行对齐,进而使数据的对齐信息能够被利用于提升多模态聚类的性能。
在步骤S5中,根据自编码网络的编码器和解码器的输出及预设置换矩阵和预测置换矩阵,采用损失函数计算损失值:
Figure BDA0002639240740000081
Figure BDA0002639240740000091
其中,λ是权重系数;
Figure BDA0002639240740000092
为学习跨模态公共表示的损失函数;Puv
Figure BDA0002639240740000093
分别为模态u向模态v对齐时的预测置换矩阵和预设置换矩阵;
Figure BDA0002639240740000094
为Puv
Figure BDA0002639240740000095
之间的损失函数;m为模态的数量;A(k)和A(v)分别为模态k和模态v的模态数据;
Figure BDA0002639240740000096
为模态v以外的非对齐模态u的模态数据。
Figure BDA0002639240740000097
中的第二项为通过预测置换矩阵对非对齐数据进行恢复得到的对齐的公共表示,计算得到的该公共表示间的跨模态一致性损失;
Figure BDA0002639240740000098
中的第一项为将各公共表示再分别送入各自编码网络的解码器中,输出预测的输入数据,并与真实的输入数据计算得到的重建损失。
在步骤S6中,基于损失值进行反向传播优化所有自编码网络的网络参数和权重,之后在存在自编码网络未收敛时返回步骤S2,所有自编码网络收敛时进入步骤S7;
在步骤S7中,将步骤S1中获取的所有模态数据集分别输入与其对应收敛后的自编码网络,得到每个模态数据集的公共表示;
S8、采用步骤S3和步骤S4的执行方式得到新的预测置换矩阵,并采用新的预测置换矩阵对步骤S7得到的公共表示进行置换,获得对齐的公共表示;
S9、将步骤S8得到的所有模态的公共表示拼接在一起,并采用聚类算法进行聚类得到聚类结果。
基于本方案的步骤S1至步骤S9,在聚类过程中能够在多个模态中的对齐数据上得到充分的训练,并且隐式地利用对齐信息来学习各个模态的公共表示,进而使得模型能够有效地处理非对齐的多模态数据。
本方案的数据聚类算法主要应用于多模态数据中只有一部分数据跨模态对齐的场景,比如:
在商品推荐中,结合海量商品图像与对应的商品描述,学习特征表达和商品聚类,以提高符合用户需求的商品推荐度,这种情况下多模态数据为图像和文本,多目标对象为不同的商品。
与智能客服的多轮对话中,融入视觉、听觉、语言的跨模态理解和聚类,可以实现通过图片、视/音频等联合的方式对用户提问进行自动应答,这种情况下多模态数据为图像、文本和视/音频,多目标对象为不同的话题。
在搜索引擎检索中,对于输入的文本/图像进行跨模态的聚类,以提供符合用户预期的检索结果,这种情况下多模态数据为图像、文本多目标对象为不同的检索主题。
下面结合具体的实例,对本方案提供的自动聚类方法的效果进行说明:
实验一:使用Reuters数据集对技术方案的性能进行评估。Reuters是一个由6个类别组成的文本数据集,包含来自5种语言的文本,即英语文本及其对应的法语,德语,西班牙语和印度语的翻译。
每个模态样本数量
模态 英语 法语 德语 西班牙语 印度语
样本数 18758 26648 29953 24039 12342
每个类别对应的样本数量
类别 C15 CCAT E21 ECAT GCAT M11
样本数 18816 21426 13701 19198 19178 9421
其中,每种语言作为一个模态,使用德语模态中随机的3000个样本和西班牙语模态中对应的3000个样本构建非完全对齐的多模态数据来对本方案进行评估。
为了验证本方案的优越性,将本方案(PVC)与现有技术中的8种多模态聚类技术进行比较,即典型相关性分析(CCA),核典型相关性分析(KCCA),深度典型相关性分析(DCCA),深度典型相关性自编码器(DCCAE),基于矩阵分解的多模态聚类(MvC-DMF),潜在多模态子空间聚类(LMSC),自权重的多模态聚类(SwMC)和二值多模态聚类(BMVC)。
由于现有技术中的8种多模态聚类技术无法处理部分非对齐数据,现有方法在聚类前,采取先用PCA降维,之后用匈牙利算法求得对齐矩阵,再用对齐后的矩阵进行数据对齐并聚类;本方案与现有聚类算法进行数据对齐并聚类后的效果参见下表:
Figure BDA0002639240740000111
从表格中可以看到,本方案提供的方法相比其他聚类方法在准确率和标准化互信息指标上有比较大的提升,意味着在实际应用中能很好地将非对齐的语言文本数据聚类正确,避免了耗费大量人力资源用于语言的纯手工对齐。
实验二:使用Pascal Sentences数据集对技术方案的性能进行评估,PascalSentences数据集包含来自20个类别的1000组图片及其文本描述对,类别包含飞机,自行车,船,瓶子,公交车,汽车,猫,椅子,牛,餐桌,狗,马,摩托车,人,盆栽植物,羊,火车,电视。
Pascal Sentences数据集被分为三个部分:800对的训练集、100对的测试集和100对的验证集。这里只使用总共900个样本的训练集和测试集构建非完全对齐的多模态数据来对本技术方案进行评估。
为了验证本方案的优越性,将本方案(PVC)与现有技术的8种多模态聚类技术进行比较,即典型相关性分析(CCA),核典型相关性分析(KCCA),深度典型相关性分析(DCCA),深度典型相关性自编码器(DCCAE),基于矩阵分解的多模态聚类(MvC-DMF),潜在多模态子空间聚类(LMSC),自权重的多模态聚类(SwMC)和二值多模态聚类(BMVC)。
由于现有技术中的8种多模态聚类技术无法处理部分非对齐数据,现有方法在聚类前,采取先用PCA降维,之后用匈牙利算法求得对齐矩阵,再用对齐后的矩阵进行数据对齐并聚类;本方案与现有聚类算法进行数据对齐并聚类后的效果参见下表:
Figure BDA0002639240740000121
从表格中可以看到,本方案提供的方法相比其他聚类方法在准确率和标准化互信息指标上有比较大的提升,意味着在实际应用中能很好地将非对齐的图片和文本数据聚类正确,避免了耗费大量人力资源用于图片和文本对的纯手工对齐。

Claims (7)

1.面向模态非完全对齐的数据聚类方法,其特征在于,包括:
S1、根据应用场景获取多目标对象的多种模态的模态数据集,采用任一模态数据集中模态数据作为对齐模态数据,将余下模态数据集通过预设置换矩阵进行置换模拟非对齐模态数据;
S2、将对齐模态数据和所有模拟的非对齐模态数据分别输入一个独立的自编码网络,自编码网络中编码器输出每个模态数据集的公共表示;
S3、根据每个模态数据集的公共表示,计算对齐模态与非对齐模态的距离矩阵:
Figure FDA0002639240730000011
其中,
Figure FDA0002639240730000012
为模态v的第i个对齐模态数据
Figure FDA0002639240730000013
和模态u的第j个非对齐模态数据
Figure FDA0002639240730000014
之间的距离,i和j分别为数据索引,v为对齐模态数据对应的模态;u为非对齐模态数据对应的模态;
Figure FDA0002639240730000015
Figure FDA0002639240730000016
对应的编码器输出;
Figure FDA0002639240730000017
Figure FDA0002639240730000018
对应的编码器输出;
Figure FDA0002639240730000019
为2范数的平方;
S4、将非对齐模态数据对应的距离矩阵送入可微的对齐模块,采用目标优化算法迭代得到预测置换矩阵;
S5、根据自编码网络的编码器和解码器的输出及预设置换矩阵和预测置换矩阵,采用损失函数计算损失值;
S6、基于损失值进行反向传播优化所有自编码网络的网络参数和权重,之后在存在自编码网络未收敛时返回步骤S2,所有自编码网络收敛时进入步骤S7;
S7、将步骤S1中获取的所有模态数据集分别输入与其对应收敛后的自编码网络,得到每个模态数据集的公共表示;
S8、采用步骤S3和步骤S4的执行方式得到新的预测置换矩阵,并采用新的预测置换矩阵对步骤S7得到的公共表示进行置换,获得对齐的公共表示;
S9、将步骤S8得到的所有模态的公共表示拼接在一起,并采用聚类算法进行聚类得到聚类结果。
2.根据权利要求1所述的面向模态非完全对齐的数据聚类方法,其特征在于,采用损失函数计算损失值
Figure FDA0002639240730000021
的公式为:
Figure FDA0002639240730000022
Figure FDA0002639240730000023
其中,λ是权重系数;
Figure FDA0002639240730000024
为学习跨模态公共表示的损失函数;Puv
Figure FDA0002639240730000025
分别为模态u向模态v对齐时的预测置换矩阵和预设置换矩阵;
Figure FDA0002639240730000026
为Puv
Figure FDA0002639240730000027
之间的损失函数;m为模态的数量;A(k)和A(v)分别为模态k和模态v的模态数据;
Figure FDA0002639240730000028
为模态v以外的非对齐模态u的模态数据;f(k)(A(k))为A(k)对应的编码器输出;g(k)(f(k)(A(k)))为A(k)对应的解码器输出。
3.根据权利要求2所述的面向模态非完全对齐的数据聚类方法,其特征在于,在对齐模块中,采用目标优化算法迭代得到预测置换矩阵进一步包括:
S41、初始化参数:Puv为距离矩阵,更新步长σ和迭代次数τ1、τ2
S42、采用公式Puv=Puv-σDuv更新Puv,之后初始化初始状态T0和状态变化量d1,d2,d3为:T0=Puv,d1=d2=d3=0;
S43、通过公式T1=Ψ1(T0+d1)计算得到中间状态T1,之后更新状态变化量d1=T0+d1-T1
S44、通过公式T2=Ψ2(T1+d2)计算得到中间状态T2,之后更新状态变化量d2=T1+d2-T2
S45、通过公式T3=Ψ3(T2+d3)计算得到中间状态T3,之后更新状态变化量d3=T2+d3-T3;Ψ1、Ψ2和Ψ3均为与Puv相关的转换函数;
S46、迭代执行步骤S33~步骤S35迭代次数τ2次,之后令Puv=T3
S47、迭代执行步骤S32~步骤S36迭代次数τ1次,之后输出Puv
4.根据权利要求3所述的面向模态非完全对齐的数据聚类方法,其特征在于,转换函数Ψ1、Ψ2和Ψ3分别为:
Ψ1=ReLU(Puv),
Figure FDA0002639240730000031
其中,n为Puv的维度,ReLU(·)为激活函数。
5.根据权利要求2所述的面向模态非完全对齐的数据聚类方法,其特征在于,每个模态在获取非对齐数据时对应的预设置换矩阵
Figure FDA0002639240730000032
为一个初等行/列变换矩阵,且每一行和每一列中有且仅有一项为1,其余项为0。
6.根据权利要求1-5任一所述的面向模态非完全对齐的数据聚类方法,其特征在于,所有模态对应的自编码网络采用相同的网络结构;
编码器网络共四层:
第一层为全连接层,输入维度为模态对应的模态数据维度,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为10,激活函数为ReLU;
解码器网络共4层:
第一层为全连接层,输入为10,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为模态对应的模态数据维度,激活函数为ReLU。
7.根据权利要求1-5任一所述的面向模态非完全对齐的数据聚类方法,其特征在于,当聚类方法的应用场景为商品推荐时,多模态数据为图像和文本,多目标对象为不同的商品;
当聚类方法的应用场景为与智能客服多轮对话时,多模态数据为图像、文本和视/音频,多目标对象为不同的话题;
当聚类方法的应用场景为搜索引擎检索时,多模态数据为图像、文本,多目标对象为不同的检索主题。
CN202010834767.XA 2020-08-19 2020-08-19 面向模态非完全对齐的数据聚类方法 Active CN112001437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010834767.XA CN112001437B (zh) 2020-08-19 2020-08-19 面向模态非完全对齐的数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010834767.XA CN112001437B (zh) 2020-08-19 2020-08-19 面向模态非完全对齐的数据聚类方法

Publications (2)

Publication Number Publication Date
CN112001437A true CN112001437A (zh) 2020-11-27
CN112001437B CN112001437B (zh) 2022-06-14

Family

ID=73472759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010834767.XA Active CN112001437B (zh) 2020-08-19 2020-08-19 面向模态非完全对齐的数据聚类方法

Country Status (1)

Country Link
CN (1) CN112001437B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001438A (zh) * 2020-08-19 2020-11-27 四川大学 聚类数目自动选择的多模态数据聚类方法
CN112784902A (zh) * 2021-01-25 2021-05-11 四川大学 一种有缺失数据的两模态聚类方法
CN112906770A (zh) * 2021-02-04 2021-06-04 浙江师范大学 一种基于跨模态融合的深度聚类方法及系统
CN113033438A (zh) * 2021-03-31 2021-06-25 四川大学 一种面向模态非完全对齐的数据特征学习方法
CN116862626A (zh) * 2023-09-05 2023-10-10 广州数说故事信息科技有限公司 一种多模态商品对齐方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与系统
CN104899921A (zh) * 2015-06-04 2015-09-09 杭州电子科技大学 基于多模态自编码模型的单视角视频人体姿态恢复方法
CN105760815A (zh) * 2016-01-26 2016-07-13 南京大学 基于第二代身份证人像和视频人像的异构人脸核实方法
US20180005400A1 (en) * 2016-06-30 2018-01-04 General Electric Company Systems and methods for multi-modality imaging component alignment
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN107944490A (zh) * 2017-11-22 2018-04-20 中南大学 一种基于半多模态融合特征约简框架的图像分类方法
US20180189572A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Modal Fusion Model
US20180330511A1 (en) * 2017-05-11 2018-11-15 Kla-Tencor Corporation Learning based approach for aligning images acquired with different modalities
CN109033245A (zh) * 2018-07-05 2018-12-18 清华大学 一种移动机器人视觉-雷达图像跨模态检索方法
CN109741378A (zh) * 2018-12-13 2019-05-10 华南理工大学 基于mrf模型的多模态医学图像配准方法、装置、平台及介质
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法
US20200089755A1 (en) * 2017-05-19 2020-03-19 Google Llc Multi-task multi-modal machine learning system
CN111523361A (zh) * 2019-12-26 2020-08-11 中国科学技术大学 一种人体行为识别方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与系统
CN104899921A (zh) * 2015-06-04 2015-09-09 杭州电子科技大学 基于多模态自编码模型的单视角视频人体姿态恢复方法
CN105760815A (zh) * 2016-01-26 2016-07-13 南京大学 基于第二代身份证人像和视频人像的异构人脸核实方法
US20180005400A1 (en) * 2016-06-30 2018-01-04 General Electric Company Systems and methods for multi-modality imaging component alignment
US20180189572A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Modal Fusion Model
US20180330511A1 (en) * 2017-05-11 2018-11-15 Kla-Tencor Corporation Learning based approach for aligning images acquired with different modalities
US20200089755A1 (en) * 2017-05-19 2020-03-19 Google Llc Multi-task multi-modal machine learning system
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN107944490A (zh) * 2017-11-22 2018-04-20 中南大学 一种基于半多模态融合特征约简框架的图像分类方法
CN109033245A (zh) * 2018-07-05 2018-12-18 清华大学 一种移动机器人视觉-雷达图像跨模态检索方法
CN109741378A (zh) * 2018-12-13 2019-05-10 华南理工大学 基于mrf模型的多模态医学图像配准方法、装置、平台及介质
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法
CN111523361A (zh) * 2019-12-26 2020-08-11 中国科学技术大学 一种人体行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XUANWU LIU等: "Flexible Cross-Modal Hashing", 《ARXIV:1905.12203V1》 *
YAO-HUNG HUBERT TSAI等: "Multimodal Transformer for Unaligned Multimodal Language Sequences", 《PROCEEDINGS OF THE CONFERENCE:ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
李志义等: "基于表示学习的跨模态检索模型与特征抽取研究综述", 《情报学报》 *
赵其鲁和李宗民: "跨模态社交图像聚类", 《计算机学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001438A (zh) * 2020-08-19 2020-11-27 四川大学 聚类数目自动选择的多模态数据聚类方法
CN112784902A (zh) * 2021-01-25 2021-05-11 四川大学 一种有缺失数据的两模态聚类方法
CN112784902B (zh) * 2021-01-25 2023-06-30 四川大学 一种模态有缺失数据的图像分类方法
CN112906770A (zh) * 2021-02-04 2021-06-04 浙江师范大学 一种基于跨模态融合的深度聚类方法及系统
CN113033438A (zh) * 2021-03-31 2021-06-25 四川大学 一种面向模态非完全对齐的数据特征学习方法
CN113033438B (zh) * 2021-03-31 2022-07-01 四川大学 一种面向模态非完全对齐的数据特征学习方法
CN116862626A (zh) * 2023-09-05 2023-10-10 广州数说故事信息科技有限公司 一种多模态商品对齐方法
CN116862626B (zh) * 2023-09-05 2023-12-05 广州数说故事信息科技有限公司 一种多模态商品对齐方法

Also Published As

Publication number Publication date
CN112001437B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN112001437B (zh) 面向模态非完全对齐的数据聚类方法
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN111046661B (zh) 基于图卷积网络的阅读理解方法
CN113591902A (zh) 基于多模态预训练模型的跨模态理解与生成方法和装置
CN112036276B (zh) 一种人工智能视频问答方法
CN112613308A (zh) 用户意图识别方法、装置、终端设备及存储介质
CN113033438B (zh) 一种面向模态非完全对齐的数据特征学习方法
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN114818703B (zh) 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN113516198A (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN115293348A (zh) 一种多模态特征提取网络的预训练方法及装置
CN112749556A (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN114328934A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN117746143A (zh) 基于aigc的图像描述文本的生成方法及装置、存储介质
CN116883723A (zh) 一种基于并联语义嵌入的组成式零样本图像分类方法
Ma et al. Multi-scale cooperative multimodal transformers for multimodal sentiment analysis in videos
Wu et al. Deep semantic hashing with dual attention for cross-modal retrieval
CN114118113A (zh) 一种基于语境识别的机器翻译方法
CN111340067B (zh) 一种用于多视图分类的再分配方法
CN113239678A (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN116975347A (zh) 图像生成模型训练方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant