CN112001437B - 面向模态非完全对齐的数据聚类方法 - Google Patents
面向模态非完全对齐的数据聚类方法 Download PDFInfo
- Publication number
- CN112001437B CN112001437B CN202010834767.XA CN202010834767A CN112001437B CN 112001437 B CN112001437 B CN 112001437B CN 202010834767 A CN202010834767 A CN 202010834767A CN 112001437 B CN112001437 B CN 112001437B
- Authority
- CN
- China
- Prior art keywords
- data
- modal
- alignment
- aligned
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 58
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000004088 simulation Methods 0.000 claims abstract description 4
- 230000004913 activation Effects 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 7
- 238000010219 correlation analysis Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000014616 translation Effects 0.000 description 3
- FKOQWAUFKGFWLH-UHFFFAOYSA-M 3,6-bis[2-(1-methylpyridin-1-ium-4-yl)ethenyl]-9h-carbazole;diiodide Chemical compound [I-].[I-].C1=C[N+](C)=CC=C1C=CC1=CC=C(NC=2C3=CC(C=CC=4C=C[N+](C)=CC=4)=CC=2)C3=C1 FKOQWAUFKGFWLH-UHFFFAOYSA-M 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 102100025230 2-amino-3-ketobutyrate coenzyme A ligase, mitochondrial Human genes 0.000 description 1
- 108010087522 Aeromonas hydrophilia lipase-acyltransferase Proteins 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 101000829958 Homo sapiens N-acetyllactosaminide beta-1,6-N-acetylglucosaminyl-transferase Proteins 0.000 description 1
- 102100023315 N-acetyllactosaminide beta-1,6-N-acetylglucosaminyl-transferase Human genes 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013107 unsupervised machine learning method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向模态非完全对齐的数据聚类方法,其包括S1获取多种模态数据集,将其中一个作为对齐模态数据,余下模拟非对齐模态数据;S2将每个模态数据集分别输入一个自编码网络;S3计算对齐模态与非对齐模态的距离矩阵;S4将非对齐模态数据的距离矩阵送入可微的对齐模块计算预测置换矩阵;S5采用损失函数计算损失值;S6基于损失值进行反向传播优化自编码网络;S7将步骤S1中的模态数据集分别输入与其对应优化后的自编码网络;S8采用步骤S3和S4的执行方式得到新的预测置换矩阵,并采用新的预测置换矩阵对步骤S7输出的公共表示进行置换得到对齐的公共表示;S9将步骤S8中输出的公共表示进行拼接,之后进行聚类得到聚类结果。
Description
技术领域
本发明涉及数据分类技术,具体涉及一种面向模态非完全对齐的数据聚类方法。
背景技术
数据聚类是一类无监督的机器学习方法,旨在根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大。由于大多数真实世界的数据都以多个模态的形式呈现,多模态数据聚类通过探索和利用在不同模态之间数据内在的相关性和不变性进行聚类。通常来说,大多数现有的多模态数据聚类方法通过联合学习多个模态的一种公共表示来弥合不同模态之间的差距,再利用公共表示通过k-means之类的传统聚类方法进行数据聚类。
目前多模态数据聚类技术广泛应用于各个领域,比如在机器翻译应用中,通过输入一种语言的词汇即时翻译为另一种语言的词汇,其实质就是一种模态之间的对齐聚类。类似的还有唇读识别和语音翻译,也就是分别将唇部视觉和语音信息转换为对应的文本信息。在商品推荐中,结合海量商品图像与文本属性,学习图像语义特征表达,提高符合用户需求的商品推荐度。在与智能客服进行的多轮对话中,融入视觉与语言的多模态聚类技术,可以自动实现对用户进行自动的文本、图片或视频应答。
但这些多模态技术之所以取得成功主要得益于满足两个假设的高质量多模态数据的存在。一是数据的完备性假设,即所有的样本要在所有的模态中都存在,不能发生数据缺失的情况;二是模态对齐性假设,即不同的模态中数据项之间存在正确的对应关系。换句话说,在目前的技术基础上,要对多模态数据进行聚类,需要人工预先对数据进行筛选和对齐以保证待聚类对象的完备性和对齐性。但是在这些实际场景中,由于时间和空间的复杂性和不协调性,要收集完整的、完全对齐的多模态数据是一项艰巨的任务。
发明内容
针对现有技术中上述不足,本发明提供的面向模态非完全对齐的数据聚类方法在聚类之前不需要预先对数据进行对齐处理,即不需要满足模态对齐性假设。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种面向模态非完全对齐的数据聚类方法,其包括:
S1、根据应用场景获取多目标对象的多种模态的模态数据集,采用任一模态数据集中模态数据作为对齐模态数据,将余下模态数据集通过预设置换矩阵进行置换模拟非对齐模态数据;
S2、将对齐模态数据和所有模拟的非对齐模态数据分别输入一个独立的自编码网络,自编码网络中编码器输出每个模态数据集的公共表示;
S3、根据每个模态数据集的公共表示,计算对齐模态与非对齐模态的距离矩阵:
其中,为模态v的第i个对齐模态数据和模态u的第j个非对齐模态数据之间的距离,i和j分别为数据索引,v为对齐模态数据对应的模态;u为非对齐模态数据对应的模态;为对应的编码器输出;为对应的编码器输出;为2范数的平方;
S4、将非对齐模态数据对应的距离矩阵送入可微的对齐模块,采用目标优化算法迭代得到预测置换矩阵;
S5、根据自编码网络的编码器和解码器的输出及预设置换矩阵和预测置换矩阵,采用损失函数计算损失值;
S6、基于损失值进行反向传播优化所有自编码网络的网络参数和权重,之后在存在自编码网络未收敛时返回步骤S2,所有自编码网络收敛时进入步骤S7;
S7、将步骤S1中获取的所有模态数据集分别输入与其对应收敛后的自编码网络,得到每个模态数据集的公共表示;
S8、采用步骤S3和步骤S4的执行方式得到新的预测置换矩阵,并采用新的预测置换矩阵对步骤S7得到的公共表示进行置换,获得对齐的公共表示;
S9、将步骤S8得到的所有模态的公共表示拼接在一起,并采用聚类算法进行聚类得到聚类结果。
其中,λ是权重系数;为学习跨模态公共表示的损失函数;Puv和分别为模态u向模态v对齐时的预测置换矩阵和预设置换矩阵;为Puv和之间的损失函数;m为模态的数量;A(k)和A(v)分别为模态k和模态v的模态数据;为模态v以外的非对齐模态u的模态数据;f(k)(A(k))为A(k)对应的编码器输出;g(k)(f(k)(A(k)))为A(k)对应的解码器输出。
进一步地,在对齐模块中,采用目标优化算法迭代得到预测置换矩阵进一步包括:
S41、初始化参数:Duv为距离矩阵,更新步长σ和迭代次数τ1、τ2;
S42、采用公式Puv=Puv-σDuv更新Puv,之后初始化初始状态T0和状态变化量d1,d2,d3为:T0=Puv,d1=d2=d3=0;
S43、通过公式T1=Ψ1(T0+d1)计算得到中间状态T1,之后更新状态变化量d1=T0+d1-T1;
S44、通过公式T2=Ψ2(T1+d2)计算得到中间状态T2,之后更新状态变化量d2=T1+d2-T2;
S45、通过公式T3=Ψ3(T2+d3)计算得到中间状态T3,之后更新状态变化量d3=T2+d3-T3;Ψ1、Ψ2和Ψ3均为与Puv相关的转换函数;
S46、迭代执行步骤S43~步骤S45迭代次数τ2次,之后令Puv=T3;
S47、迭代执行步骤S42~步骤S46迭代次数τ1次,之后输出Puv。
进一步地,转换函数Ψ1、Ψ2和Ψ3分别为:
其中,n为Puv的维度,ReLU(·)为激活函数。
进一步地,所有模态对应的自编码网络采用相同的网络结构;
编码器网络共四层:
第一层为全连接层,输入维度为模态对应的模态数据维度,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为10,激活函数为ReLU;
解码器网络共4层:
第一层为全连接层,输入为10,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为模态对应的模态数据维度,激活函数为ReLU。
进一步地,当聚类方法的应用场景为商品推荐时,多模态数据为图像和文本,多目标对象为不同的商品;
当聚类方法的应用场景为与智能客服多轮对话时,多模态数据为图像、文本和视/音频,多目标对象为不同的话题;
当聚类方法的应用场景为搜索引擎检索时,多模态数据为图像、文本,多目标对象为不同的检索主题。
本发明的有益效果为:与其它的多模态数据聚类技术相比,本方案能够在隐空间中对输入的部分对齐的多模态数据执行对齐并同时学习跨模态的公共表示用于聚类,因此,本方案能够有效地对部分对齐的多模态数据进行聚类,以解决现有需要人工预先对数据进行筛选和对齐以保证待聚类对象的对齐性所带来的操作人员劳动强度大及效率低的问题。
本方案中可微的对齐模块进行预测置换矩阵过程中,能够在统一的框架下联合学习公共的表示并执行对齐,进而使数据的对齐信息能够被利用于提升多模态聚类的性能。
附图说明
图1为面向模态非完全对齐的数据聚类方法的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参考图1,图1示出了面向模态非完全对齐的数据聚类方法的流程图;如图1所示,该方法S包括步骤S1至步骤S5。
在步骤S1中,根据应用场景获取多目标对象的多种模态的模态数据集,采用任一模态数据集中模态数据作为对齐模态数据,将余下模态数据集通过预设置换矩阵进行置换模拟非对齐模态数据;。
X(i)~PX(j),即X(j)经过初等行(列)变换后与X(i)对齐,其中~表示二者对齐,P是一个初等行(列)变换矩阵且每一行和每一列中有且仅有一项为1,其余项为0。
在步骤S2中,将对齐模态数据和所有模拟的非对齐模态数据分别输入一个独立的自编码网络,自编码网络中编码器输出每个模态数据集的公共表示;
在本发明的一个实施例中,所有模态对应的自编码网络采用相同的网络结构;
编码器网络共四层:
第一层为全连接层,输入维度为模态对应的模态数据维度,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为10,激活函数为ReLU;
解码器网络共4层:
第一层为全连接层,输入为10,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为模态对应的模态数据维度,激活函数为ReLU。
在步骤S3中,根据每个模态数据集的公共表示,计算对齐模态与非对齐模态的距离矩阵:
其中,为模态v的第i个对齐模态数据和模态u的第j个非对齐模态数据之间的距离,i和j分别为数据索引,v为对齐模态数据对应的模态;u为非对齐模态数据对应的模态;为对应的编码器输出;为对应的编码器输出;为2范数的平方;
假设步骤S1中获取了a、b、c、d、e共5种模态的模态数据集,若对齐目标对应的模态为模态a,那么余下模态数据集对应的模态就为b、c、d、e。
在步骤S4中,将非对齐模态数据对应的距离矩阵送入可微的对齐模块,采用目标优化算法迭代得到预测置换矩阵;
在本发明的一个实施例中,在对齐模块中,采用目标优化算法迭代得到预测置换矩阵进一步包括:
S41、初始化参数:Duv为距离矩阵,更新步长σ和迭代次数τ1、τ2;
S42、采用公式Puv=Puv-σDuv更新Puv,之后初始化初始状态T0和状态变化量d1,d2,d3为:T0=Puv,d1=d2=d3=0;
S43、通过公式T1=Ψ1(T0+d1)计算得到中间状态T1,之后更新状态变化量d1=T0+d1-T1;
S44、通过公式T2=Ψ2(T1+d2)计算得到中间状态T2,之后更新状态变化量d2=T1+d2-T2;
S45、通过公式T3=Ψ3(T2+d3)计算得到中间状态T3,之后更新状态变化量d3=T2+d3-T3;Ψ1、Ψ2和Ψ3均为与Puv相关的转换函数;
S46、迭代执行步骤S43~步骤S45迭代次数τ2次,之后令Puv=T3;
S47、迭代执行步骤S42~步骤S46迭代次数τ1次,之后输出Puv。
在对齐模块进行预测置换矩阵过程中,可微对齐模块能够在统一的框架下联合学习公共的表示并执行对齐,进而使数据的对齐信息能够被利用于提升多模态聚类的性能。
在步骤S5中,根据自编码网络的编码器和解码器的输出及预设置换矩阵和预测置换矩阵,采用损失函数计算损失值:
其中,λ是权重系数;为学习跨模态公共表示的损失函数;Puv和分别为模态u向模态v对齐时的预测置换矩阵和预设置换矩阵;为Puv和之间的损失函数;m为模态的数量;A(k)和A(v)分别为模态k和模态v的模态数据;为模态v以外的非对齐模态u的模态数据。
中的第二项为通过预测置换矩阵对非对齐数据进行恢复得到的对齐的公共表示,计算得到的该公共表示间的跨模态一致性损失;中的第一项为将各公共表示再分别送入各自编码网络的解码器中,输出预测的输入数据,并与真实的输入数据计算得到的重建损失。
在步骤S6中,基于损失值进行反向传播优化所有自编码网络的网络参数和权重,之后在存在自编码网络未收敛时返回步骤S2,所有自编码网络收敛时进入步骤S7;
在步骤S7中,将步骤S1中获取的所有模态数据集分别输入与其对应收敛后的自编码网络,得到每个模态数据集的公共表示;
S8、采用步骤S3和步骤S4的执行方式得到新的预测置换矩阵,并采用新的预测置换矩阵对步骤S7得到的公共表示进行置换,获得对齐的公共表示;
S9、将步骤S8得到的所有模态的公共表示拼接在一起,并采用聚类算法进行聚类得到聚类结果。
基于本方案的步骤S1至步骤S9,在聚类过程中能够在多个模态中的对齐数据上得到充分的训练,并且隐式地利用对齐信息来学习各个模态的公共表示,进而使得模型能够有效地处理非对齐的多模态数据。
本方案的数据聚类算法主要应用于多模态数据中只有一部分数据跨模态对齐的场景,比如:
在商品推荐中,结合海量商品图像与对应的商品描述,学习特征表达和商品聚类,以提高符合用户需求的商品推荐度,这种情况下多模态数据为图像和文本,多目标对象为不同的商品。
与智能客服的多轮对话中,融入视觉、听觉、语言的跨模态理解和聚类,可以实现通过图片、视/音频等联合的方式对用户提问进行自动应答,这种情况下多模态数据为图像、文本和视/音频,多目标对象为不同的话题。
在搜索引擎检索中,对于输入的文本/图像进行跨模态的聚类,以提供符合用户预期的检索结果,这种情况下多模态数据为图像、文本多目标对象为不同的检索主题。
下面结合具体的实例,对本方案提供的自动聚类方法的效果进行说明:
实验一:使用Reuters数据集对技术方案的性能进行评估。Reuters是一个由6个类别组成的文本数据集,包含来自5种语言的文本,即英语文本及其对应的法语,德语,西班牙语和印度语的翻译。
每个模态样本数量
模态 | 英语 | 法语 | 德语 | 西班牙语 | 印度语 |
样本数 | 18758 | 26648 | 29953 | 24039 | 12342 |
每个类别对应的样本数量
类别 | C15 | CCAT | E21 | ECAT | GCAT | M11 |
样本数 | 18816 | 21426 | 13701 | 19198 | 19178 | 9421 |
其中,每种语言作为一个模态,使用德语模态中随机的3000个样本和西班牙语模态中对应的3000个样本构建非完全对齐的多模态数据来对本方案进行评估。
为了验证本方案的优越性,将本方案(PVC)与现有技术中的8种多模态聚类技术进行比较,即典型相关性分析(CCA),核典型相关性分析(KCCA),深度典型相关性分析(DCCA),深度典型相关性自编码器(DCCAE),基于矩阵分解的多模态聚类(MvC-DMF),潜在多模态子空间聚类(LMSC),自权重的多模态聚类(SwMC)和二值多模态聚类(BMVC)。
由于现有技术中的8种多模态聚类技术无法处理部分非对齐数据,现有方法在聚类前,采取先用PCA降维,之后用匈牙利算法求得对齐矩阵,再用对齐后的矩阵进行数据对齐并聚类;本方案与现有聚类算法进行数据对齐并聚类后的效果参见下表:
从表格中可以看到,本方案提供的方法相比其他聚类方法在准确率和标准化互信息指标上有比较大的提升,意味着在实际应用中能很好地将非对齐的语言文本数据聚类正确,避免了耗费大量人力资源用于语言的纯手工对齐。
实验二:使用Pascal Sentences数据集对技术方案的性能进行评估,PascalSentences数据集包含来自20个类别的1000组图片及其文本描述对,类别包含飞机,自行车,船,瓶子,公交车,汽车,猫,椅子,牛,餐桌,狗,马,摩托车,人,盆栽植物,羊,火车,电视。
Pascal Sentences数据集被分为三个部分:800对的训练集、100对的测试集和100对的验证集。这里只使用总共900个样本的训练集和测试集构建非完全对齐的多模态数据来对本技术方案进行评估。
为了验证本方案的优越性,将本方案(PVC)与现有技术的8种多模态聚类技术进行比较,即典型相关性分析(CCA),核典型相关性分析(KCCA),深度典型相关性分析(DCCA),深度典型相关性自编码器(DCCAE),基于矩阵分解的多模态聚类(MvC-DMF),潜在多模态子空间聚类(LMSC),自权重的多模态聚类(SwMC)和二值多模态聚类(BMVC)。
由于现有技术中的8种多模态聚类技术无法处理部分非对齐数据,现有方法在聚类前,采取先用PCA降维,之后用匈牙利算法求得对齐矩阵,再用对齐后的矩阵进行数据对齐并聚类;本方案与现有聚类算法进行数据对齐并聚类后的效果参见下表:
从表格中可以看到,本方案提供的方法相比其他聚类方法在准确率和标准化互信息指标上有比较大的提升,意味着在实际应用中能很好地将非对齐的图片和文本数据聚类正确,避免了耗费大量人力资源用于图片和文本对的纯手工对齐。
Claims (6)
1.面向模态非完全对齐的数据聚类方法,其特征在于,包括:
S1、根据应用场景获取多目标对象的多种模态的模态数据集,采用任一模态数据集中模态数据作为对齐模态数据,将余下模态数据集通过预设置换矩阵进行置换模拟非对齐模态数据;
S2、将对齐模态数据和所有模拟的非对齐模态数据分别输入一个独立的自编码网络,自编码网络中编码器输出每个模态数据集的公共表示;
S3、根据每个模态数据集的公共表示,计算对齐模态与非对齐模态的距离矩阵:
其中,为模态v的第i个对齐模态数据和模态u的第j个非对齐模态数据之间的距离,i和j分别为数据索引,v为对齐模态数据对应的模态;u为非对齐模态数据对应的模态;为对应的编码器输出;为对应的编码器输出;为2范数的平方;
S4、将非对齐模态数据对应的距离矩阵送入可微的对齐模块,采用目标优化算法迭代得到预测置换矩阵;
S5、根据自编码网络的编码器和解码器的输出及预设置换矩阵和预测置换矩阵,采用损失函数计算损失值;
S6、基于损失值进行反向传播优化所有自编码网络的网络参数和权重,之后在存在自编码网络未收敛时返回步骤S2,所有自编码网络收敛时进入步骤S7;
S7、将步骤S1中获取的所有模态数据集分别输入与其对应收敛后的自编码网络,得到每个模态数据集的公共表示;
S8、采用步骤S3和步骤S4的执行方式得到新的预测置换矩阵,并采用新的预测置换矩阵对步骤S7得到的公共表示进行置换,获得对齐的公共表示;
S9、将步骤S8得到的所有模态的公共表示拼接在一起,并采用聚类算法进行聚类得到聚类结果;
在对齐模块中,采用目标优化算法迭代得到预测置换矩阵进一步包括:
S41、初始化参数:Duv为距离矩阵,更新步长σ和迭代次数τ1、τ2;
S42、采用公式Puv=Puv-σDuv更新Puv,之后初始化初始状态T0和状态变化量d1,d2,d3为:T0=Puv,d1=d2=d3=0,Puv为模态u向模态v对齐时的预测置换矩阵;
S43、通过公式T1=Ψ1(T0+d1)计算得到中间状态T1,之后更新状态变化量d1=T0+d1-T1;
S44、通过公式T2=Ψ2(T1+d2)计算得到中间状态T2,之后更新状态变化量d2=T1+d2-T2;
S45、通过公式T3=Ψ3(T2+d3)计算得到中间状态T3,之后更新状态变化量d3=T2+d3-T3;Ψ1、Ψ2和Ψ3均为与Puv相关的转换函数;
S46、迭代执行步骤S43~步骤S45迭代次数τ2次,之后令Puv=T3;
S47、迭代执行步骤S42~步骤S46迭代次数τ1次,之后输出Puv。
5.根据权利要求1-4任一所述的面向模态非完全对齐的数据聚类方法,其特征在于,所有模态对应的自编码网络采用相同的网络结构;
编码器网络共四层:
第一层为全连接层,输入维度为模态对应的模态数据维度,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为10,激活函数为ReLU;
解码器网络共4层:
第一层为全连接层,输入为10,输出为1024,激活函数为ReLU;
第二层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第三层为全连接层,输入为1024,输出为1024,激活函数为ReLU;
第四层为全连接层,输入为1024,输出为模态对应的模态数据维度,激活函数为ReLU。
6.根据权利要求1-4任一所述的面向模态非完全对齐的数据聚类方法,其特征在于,当聚类方法的应用场景为商品推荐时,多模态数据为图像和文本,多目标对象为不同的商品;
当聚类方法的应用场景为与智能客服多轮对话时,多模态数据为图像、文本和视/音频,多目标对象为不同的话题;
当聚类方法的应用场景为搜索引擎检索时,多模态数据为图像、文本,多目标对象为不同的检索主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010834767.XA CN112001437B (zh) | 2020-08-19 | 2020-08-19 | 面向模态非完全对齐的数据聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010834767.XA CN112001437B (zh) | 2020-08-19 | 2020-08-19 | 面向模态非完全对齐的数据聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001437A CN112001437A (zh) | 2020-11-27 |
CN112001437B true CN112001437B (zh) | 2022-06-14 |
Family
ID=73472759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010834767.XA Active CN112001437B (zh) | 2020-08-19 | 2020-08-19 | 面向模态非完全对齐的数据聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001437B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001438B (zh) * | 2020-08-19 | 2023-01-10 | 四川大学 | 聚类数目自动选择的多模态数据聚类方法 |
CN112784902B (zh) * | 2021-01-25 | 2023-06-30 | 四川大学 | 一种模态有缺失数据的图像分类方法 |
CN112906770A (zh) * | 2021-02-04 | 2021-06-04 | 浙江师范大学 | 一种基于跨模态融合的深度聚类方法及系统 |
CN113033438B (zh) * | 2021-03-31 | 2022-07-01 | 四川大学 | 一种面向模态非完全对齐的数据特征学习方法 |
CN116862626B (zh) * | 2023-09-05 | 2023-12-05 | 广州数说故事信息科技有限公司 | 一种多模态商品对齐方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425757A (zh) * | 2013-07-31 | 2013-12-04 | 复旦大学 | 融合多模态信息的跨媒体人物新闻检索方法与系统 |
CN104899921A (zh) * | 2015-06-04 | 2015-09-09 | 杭州电子科技大学 | 基于多模态自编码模型的单视角视频人体姿态恢复方法 |
CN105760815A (zh) * | 2016-01-26 | 2016-07-13 | 南京大学 | 基于第二代身份证人像和视频人像的异构人脸核实方法 |
CN107832351A (zh) * | 2017-10-21 | 2018-03-23 | 桂林电子科技大学 | 基于深度关联网络的跨模态检索方法 |
CN107944490A (zh) * | 2017-11-22 | 2018-04-20 | 中南大学 | 一种基于半多模态融合特征约简框架的图像分类方法 |
CN109033245A (zh) * | 2018-07-05 | 2018-12-18 | 清华大学 | 一种移动机器人视觉-雷达图像跨模态检索方法 |
CN109741378A (zh) * | 2018-12-13 | 2019-05-10 | 华南理工大学 | 基于mrf模型的多模态医学图像配准方法、装置、平台及介质 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
CN111523361A (zh) * | 2019-12-26 | 2020-08-11 | 中国科学技术大学 | 一种人体行为识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10049465B2 (en) * | 2016-06-30 | 2018-08-14 | General Electric Company | Systems and methods for multi-modality imaging component alignment |
US10417498B2 (en) * | 2016-12-30 | 2019-09-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for multi-modal fusion model |
US10733744B2 (en) * | 2017-05-11 | 2020-08-04 | Kla-Tencor Corp. | Learning based approach for aligning images acquired with different modalities |
CN110574049B (zh) * | 2017-05-19 | 2023-05-16 | 谷歌有限责任公司 | 多任务多模态机器学习系统 |
-
2020
- 2020-08-19 CN CN202010834767.XA patent/CN112001437B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425757A (zh) * | 2013-07-31 | 2013-12-04 | 复旦大学 | 融合多模态信息的跨媒体人物新闻检索方法与系统 |
CN104899921A (zh) * | 2015-06-04 | 2015-09-09 | 杭州电子科技大学 | 基于多模态自编码模型的单视角视频人体姿态恢复方法 |
CN105760815A (zh) * | 2016-01-26 | 2016-07-13 | 南京大学 | 基于第二代身份证人像和视频人像的异构人脸核实方法 |
CN107832351A (zh) * | 2017-10-21 | 2018-03-23 | 桂林电子科技大学 | 基于深度关联网络的跨模态检索方法 |
CN107944490A (zh) * | 2017-11-22 | 2018-04-20 | 中南大学 | 一种基于半多模态融合特征约简框架的图像分类方法 |
CN109033245A (zh) * | 2018-07-05 | 2018-12-18 | 清华大学 | 一种移动机器人视觉-雷达图像跨模态检索方法 |
CN109741378A (zh) * | 2018-12-13 | 2019-05-10 | 华南理工大学 | 基于mrf模型的多模态医学图像配准方法、装置、平台及介质 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
CN111523361A (zh) * | 2019-12-26 | 2020-08-11 | 中国科学技术大学 | 一种人体行为识别方法 |
Non-Patent Citations (4)
Title |
---|
Flexible Cross-Modal Hashing;Xuanwu Liu等;《arXiv:1905.12203v1》;20190529;第1-9页 * |
Multimodal Transformer for Unaligned Multimodal Language Sequences;Yao-Hung Hubert Tsai等;《Proceedings of the conference:Association for Computational Linguistics》;20190731;第6558-6569页 * |
基于表示学习的跨模态检索模型与特征抽取研究综述;李志义等;《情报学报》;20180430;第37卷(第4期);第422-435页 * |
跨模态社交图像聚类;赵其鲁和李宗民;《计算机学报》;20180131;第41卷(第1期);第98-111页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112001437A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001437B (zh) | 面向模态非完全对齐的数据聚类方法 | |
CN111554268B (zh) | 基于语言模型的语言识别方法、文本分类方法和装置 | |
Sabour et al. | Dynamic routing between capsules | |
CN114398961A (zh) | 一种基于多模态深度特征融合的视觉问答方法及其模型 | |
CN111046661B (zh) | 基于图卷积网络的阅读理解方法 | |
CN112613308A (zh) | 用户意图识别方法、装置、终端设备及存储介质 | |
CN112036276B (zh) | 一种人工智能视频问答方法 | |
CN113033438B (zh) | 一种面向模态非完全对齐的数据特征学习方法 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN115145551A (zh) | 一种面向机器学习应用低代码开发的智能辅助系统 | |
CN114818703B (zh) | 基于BERT语言模型和TextCNN模型的多意图识别方法及系统 | |
CN112861936A (zh) | 一种基于图神经网络知识蒸馏的图节点分类方法及装置 | |
CN113516198A (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN116304984A (zh) | 基于对比学习的多模态意图识别方法及系统 | |
CN115293348A (zh) | 一种多模态特征提取网络的预训练方法及装置 | |
CN112749556A (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN117746143A (zh) | 基于aigc的图像描述文本的生成方法及装置、存储介质 | |
Ma et al. | Multi-scale cooperative multimodal transformers for multimodal sentiment analysis in videos | |
Wu et al. | Deep semantic hashing with dual attention for cross-modal retrieval | |
CN114463552A (zh) | 迁移学习、行人重识别方法及相关设备 | |
CN114118113A (zh) | 一种基于语境识别的机器翻译方法 | |
CN111340067B (zh) | 一种用于多视图分类的再分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |