CN106202281A

CN106202281A - 一种多模态数据表示学习方法及系统

Info

Publication number: CN106202281A
Application number: CN201610507736.7A
Authority: CN
Inventors: 刘文印; 杨振国; 李青
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2016-12-07
Anticipated expiration: 2036-06-28
Also published as: CN106202281B

Abstract

本发明公开一种多模态数据表示学习方法及系统，通过接收目标多模态数据，并获取目标多模态数据对应的各个模态以及各个模态的特征表示；根据目标多模态数据、特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；根据预设数据重构模型、数据表示和词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。基于上述公开的方法，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

Description

一种多模态数据表示学习方法及系统

技术领域

本发明涉及信息技术领域，尤其涉及一种多模态数据表示学习方法及系统。

背景技术

随着互联网的快速普及，社交媒体网站也在不断的兴起，人们能够更方便的在社交媒体网站上产生或分享多媒体内容，因此社交媒体平台上存储着大量多样的由多模态数据构成的事件。在实际应用中，就单个事件而言，社交媒体平台中关于该事件的内容可能被多个用户发布或分享，由于用户在地理分布、分享时间、模态形式或描述角度不同会造成信息分布散乱。因此多模态数据存在异构性、数据量大、数据缺失和计算代价大的特点，这给多模态数据的处理及蕴含的事件挖掘带来了挑战。

目前，单一模态数据挖掘方法由于多模态数据的异构性和数据量大的特点，不能处理场景中的数据；多模态融合技术虽然可针对多模态数据进行有效处理，但较高的计算复杂度使得进行多模态数据处理时占用大量内存，不适用于社交媒体平台。另外，单一模态数据挖掘方法和多模态融合技术都是处理原始数据，而对多模态数据存在的数据缺失问题未涉及。

有鉴于此，现有技术方案在对多模态数据进行处理时无法同时解决存在的异构性、数据量大、数据缺失和计算代价大的问题。

发明内容

有鉴于此，本发明提供一种多模态数据表示学习方法及系统，以解决现有的技术方案在对多模态数据进行处理时无法同时解决存在的异构性、数据量大、数据缺失和计算代价大的问题。技术方案如下：

一种多模态数据表示学习方法，应用于一种多模态数据表示学习系统，包括：

接收目标多模态数据，并获取所述目标多模态数据对应的各个模态以及所述各个模态的特征表示；

根据所述目标多模态数据、所述特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；

根据预设数据重构模型、所述数据表示和所述词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。

优选的，所述接收目标多模态数据，并获取所述目标多模态数据对应的各个模态以及所述各个模态的特征表示，包括：

接收所述目标多模态数据，获取所述目标多模态数据对应的所述各个模态，并提取所述各个模态的原始特征；

基于预设数据先验分布和各个所述原始特征获取所述各个模态的缺失特征，得到所述各个模态的特征表示。

优选的，所述根据所述目标多模态数据、所述特征表示、预设相似度算法和预设图随机走模型获取融合多模态特征的数据表示和词典表示，包括：

根据所述目标多模态数据选取词典原子，并根据所述特征表示提取所述词典原子相应的特征表示，得到所述各个模态的模式词典；

基于所述模式词典编码所述目标多模态数据，并根据所述预设相似度算法计算所述目标多模态数据和所述模式词典在所述各个模态下的相似度，得到所述各个模态的近邻图

其中，为所述目标多模态数据中第i个数据与所述模式词典中第j个原子的相似度值，为第m个模态下所述模式词典中的第j个原子，为第m个模态下所述模式词典中第j个原子在所述目标多模态数据中第i个数据的第一预设范围内的近邻集合；

依据所述预设图随机走模型迭代计算所述近邻图，获取所述各个模态的迭代稳态并确定为融合多模态特征的所述数据表示X^M，并根据所述数据表示更新所述模式词典，得到融合多模态特征的所述词典表示；

其中，p_m为第m个第一预设参数，取值范围为0～1，n为迭代次数。

优选的，所述根据预设数据重构模型、所述数据表示和所述词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库，包括：

基于预设数据重构模型并根据增量式拉格朗日乘子和梯度下降法求解所述数据表示和所述词典表示，得到数据表示有效解和词典表示有效解

其中，Subject to Z＝J，Z为所述数据表示，D^M为所述词典表示，P^M为所述词典表示上的距离矩阵，W_ij为所述目标多模态数据中第i个数据与所述模式词典中第j个原子在第v个预设模态上的相似度值，为所述目标多模态数据中第f个数据与所述模式词典中第i个原子在第v个所述预设模态上相似度值，所述目标多模态数据中第j个数据与所述模式词典中的第i个原子在第v个所述预设模态上的相似度值，d为所述词典表示中原子数目；

判断所述数据表示有效解和所述词典表示有效解是否收敛；

若是，将所述数据表示有效解确定为低维判别表示最优解，将所述词典表示有效解确定为所述词典最优表示，并将所述低维判别表示最优解和所述词典最优表示存储于数据库；

若否，返回执行所述根据增量式拉格朗日乘子和梯度下降法求解所述数据表示和所述词典表示，得到数据表示有效解和词典表示有效解这一步骤。

优选的，所述根据所述目标多模态数据选取词典原子，并根据所述特征表示提取所述词典原子相应的特征表示，得到所述各个模态的模式词典，包括：

判断所述目标多模态数据是否带有标签；

若否，选取所述特征表示中的任意一个作为单一模态，基于预设中心聚类算法对所述单一模态对应的目标多模态数据进行聚类处理，并选取聚类中心点第二预设范围内的目标多模态数据作为所述词典原子；

若是，选取预设数量的所述带标签数据作为所述词典原子；

获取所述词典原子相应的特征表示，构成所述模式词典。

一种多模态数据表示学习系统，包括：

数据处理装置，用于接收目标多模态数据，并获取所述目标多模态数据对应的各个模态以及所述各个模态的特征表示；

多模态融合装置，用于根据所述目标多模态数据、所述特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；

判别特征学习装置，用于根据预设数据重构模型、所述数据表示和所述词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。

优选的，所述数据处理装置包括：

原始特征提取模块，用于接收所述目标多模态数据，获取所述目标多模态数据对应的所述各个模态，并提取所述各个模态的原始特征；

缺失特征补充模块，用于基于预设数据先验分布和各个所述原始特征获取所述各个模态的缺失特征，得到所述各个模态的特征表示。

优选的，所述多模态融合装置包括：

构造模式词典模块，用于根据所述目标多模态数据选取词典原子，并根据所述特征表示提取所述词典原子相应的特征表示，得到所述各个模态的模式词典；

近邻图构造模块，用于基于所述模式词典编码所述目标多模态数据，并根据所述预设相似度算法计算所述目标多模态数据和所述模式词典在所述各个模态下的相似度，得到所述各个模态的近邻图其中，为所述目标多模态数据中第i个数据与所述模式词典中第j个原子的相似度值，为第m个模态下所述模式词典中的第j个原子，为第m个模态下所述模式词典中第j个原子在所述目标多模态数据中第i个数据的第一预设范围内的近邻集合；

图融合模块，用于依据所述预设图随机走模型迭代计算所述近邻图，获取所述各个模态的迭代稳态并确定为融合多模态特征的所述数据表示X^M，并根据所述数据表示更新所述模式词典，得到融合多模态特征的所述词典表示，其中，p_m为第m个第一预设参数，取值范围为0～1，n为迭代次数。

优选的，所述判别特征学习装置包括：

数据重构模块，用于基于预设数据重构模型并根据增量式拉格朗日乘子和梯度下降法求解所述数据表示和所述词典表示，得到数据表示有效解和词典表示有效解其中，Subject to Z＝J，Z为所述数据表示，D^M为所述词典表示，P^M为所述词典表示上的距离矩阵，W_ij为所述目标多模态数据中第i个数据与所述模式词典中第j个原子在第v个预设模态上的相似度值，为所述目标多模态数据中第f个数据与所述模式词典中第i个原子在第v个所述预设模态上相似度值，所述目标多模态数据中第j个数据与所述模式词典中的第i个原子在第v个所述预设模态上的相似度值，d为所述词典表示中原子数目；

优化处理模块，用于判断所述数据表示有效解和所述词典表示有效解是否收敛；若是，将所述数据表示有效解确定为低维判别表示最优解，将所述词典表示有效解确定为所述词典最优表示，并将所述低维判别表示最优解和所述词典最优表示存储于数据库；若否，返回执行数据重构模块。

优选的，所述构造模式词典模块包括：

判断单元，用于判断所述目标多模态数据是否带有标签；若否，向第一控制单元发送第一执行指令；若是，向第二控制单元发送第二执行指令；

所述第一控制单元，用于选取所述特征表示中的任意一个作为单一模态，基于预设中心聚类算法对所述单一模态对应的目标多模态数据进行聚类处理，并选取聚类中心点第二预设范围内的目标多模态数据作为所述词典原子；

所述第二控制单元，用于选取预设数量的所述带标签数据作为所述词典原子；

模式词典构造单元，用于获取所述词典原子相应的特征表示，构成所述模式词典。

相较与现有技术，本发明实现的有益效果为：

以上本发明所提供的一种多模态数据表示学习方法及系统，通过接收目标多模态数据，并获取目标多模态数据对应的各个模态以及各个模态的特征表示；根据目标多模态数据、特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；根据预设数据重构模型、数据表示和词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。基于上述公开的方法，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例一公开的一种多模态数据表示学习方法流程图；

图2为本发明实施例二公开的一种多模态数据表示学习方法部分流程图；

图3为本发明实施例二公开的另一种多模态数据表示学习方法部分流程图；

图4为本发明实施例二公开的另一种多模态数据表示学习方法部分流程图；

图5为本发明实施例三公开的一种多模态数据表示学习方法部分流程图；

图6为本发明实施例四公开的一种多模态数据表示学习系统结构示意图；

图7为本发明实施例五公开的一种多模态数据表示学习系统结构示意图；

图8为本发明实施例五公开的另一种多模态数据表示学习系统结构示意图；

图9为本发明实施例五公开的另一种多模态数据表示学习系统结构示意图；

图10为本发明实施例六公开的一种多模态数据表示学习系统中构造模式词典模块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例一公开的一种多模态数据表示学习方法，应用于一种多模态数据表示学习系统，流程图如图1所示，多模态数据表示学习方法包括：

S101，接收目标多模态数据，并获取目标多模态数据对应的各个模态以及各个模态的特征表示；

在执行步骤S101的过程中，根据社交媒体数据收集装置发送的目标多模态数据，获取目标多模态数据对应的各个模态，并根据获取的各个模态得到各个模态相应的特征表示。

S102，根据目标多模态数据、特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；

S103，根据预设数据重构模型、所述数据表示和所述词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。

本发明实施例公开的多模态数据表示学习方法，通过接收目标多模态数据，并获取目标多模态数据对应的各个模态以及各个模态的特征表示；根据目标多模态数据、特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；根据预设数据重构模型、数据表示和词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。基于上述公开的方法，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

实施例二

基于上述本发明实施例一公开的一种多模态数据表示学习方法，如图1所示出的步骤S101中，接收目标多模态数据，并获取目标多模态数据对应的各个模态以及各个模态的特征表示的具体执行过程，如图2所示，包括：

S201，接收目标多模态数据，获取目标多模态数据对应的各个模态，并提取各个模态的原始特征；

在执行步骤S201的过程中，接收目标多模态数据，获取目标多模态数据对应的各个模态，并对各个模态的原始特征进行提取，其中，原始特征包括：视觉特征、文本特征和深度学习神经网络各层特征。

S202，基于预设数据先验分布和各个原始特征获取各个模态的缺失特征，得到各个模态的特征表示。

在执行步骤S202的过程中，基于预设数据先验分布和各个模态的原始特征，补充各个模态缺失的特征，例如，目标多模态数据中没有位置信息，根据用户和时间信息可检索出该用户在该时间范围内的其他资源，根据这些资源的位置信息能够补充目标多模态数据缺失的位置信息。

本发明实施例公开的多模态数据表示学习方法，通过接收目标多模态数据，获取目标多模态数据对应的各个模态并提取各个模态的原始特征；基于预设数据先验分布和各个原始特征获取各个模态的缺失特征，得到各个模态的特征表示；根据目标多模态数据、特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；根据预设数据重构模型、数据表示和词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。基于上述公开的方法，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

基于上述本发明实施例一公开的一种多模态数据表示学习方法，如图1所示出的步骤S102中，根据目标多模态数据、特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示的具体执行过程，如图3所示，包括：

S301，根据目标多模态数据选取词典原子，并根据特征表示提取词典原子相应的特征表示，得到各个模态的模式词典；

S302，基于模式词典编码目标多模态数据，并根据预设相似度算法计算目标多模态数据和模式词典在各个模态下的相似度，得到各个模态的近邻图

在S302中，各个模态的近邻图采用公式(1)：

其中，为目标多模态数据中第i个数据与模式词典中第j个原子的相似度值，为第m个模态下模式词典中的第j个原子，为第m个模态下模式词典中第j个原子在目标多模态数据中第i个数据的第一预设范围内的近邻集合；

S303，依据预设图随机走模型迭代计算近邻图，获取各个模态的迭代稳态并确定为融合多模态特征的数据表示X^M，并根据数据表示更新模式词典，得到融合多模态特征的词典表示；

在S303中，融合多模态特征的数据表示X^M采用公式(2)：

本发明实施例公开的多模态数据表示学习方法，通过接收目标多模态数据，并获取目标多模态数据对应的各个模态以及各个模态的特征表示；根据目标多模态数据选取词典原子，并根据特征表示提取词典原子相应的特征表示，得到各个模态的模式词典；基于模式词典编码目标多模态数据，并根据预设相似度算法计算目标多模态数据和模式词典在各个模态下的相似度，得到各个模态的近邻图；依据预设图随机走模型迭代计算近邻图，获取各个模态的迭代稳态并确定为融合多模态特征的数据表示，并根据数据表示更新模式词典，得到融合多模态特征的词典表示；根据预设数据重构模型、数据表示和词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。基于上述公开的方法，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

基于上述本发明实施例一公开的一种多模态数据表示学习方法，如图1所示出的步骤S103中，根据预设数据重构模型、所述数据表示和所述词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库的具体执行过程，如图4所示，包括：

S401，基于预设数据重构模型，并根据增量式拉格朗日乘子和梯度下降法求解数据表示和词典表示，得到数据表示有效解和词典表示有效解；

在S401中，预设数据重构模型采用公式(3)：

采用公式(4)得到数据表示有效解和词典表示有效解：

其中，Subject to Z＝J，Z为数据表示，D^M为词典表示，P^M为词典表示上的距离矩阵，W_ij为目标多模态数据中第i个数据与模式词典中第j个原子在第v个预设模态上的相似度值，为目标多模态数据中第f个数据与模式词典中第i个原子在第v个预设模态上相似度值，目标多模态数据中第j个数据与模式词典中的第i个原子在第v个预设模态上的相似度值，d为词典表示中原子数目；

S402，判断数据表示有效解和词典表示有效解是否收敛；

S403，若是，将数据表示有效解确定为低维判别表示最优解，将词典表示有效解确定为所述词典最优表示，并将低维判别表示最优解和词典最优表示存储于数据库；

S404，若否，返回执行所述根据增量式拉格朗日乘子和梯度下降法求解所述数据表示和所述词典表示，得到数据表示有效解和词典表示有效解这一步骤。

本发明实施例公开的多模态数据表示学习方法，通过接收目标多模态数据，并获取目标多模态数据对应的各个模态以及各个模态的特征表示；根据目标多模态数据、特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；基于预设数据重构模型，并根据增量式拉格朗日乘子和梯度下降法求解数据表示和词典表示，得到数据表示有效解和词典表示有效解；判断数据表示有效解和词典表示有效解是否收敛；若是，将数据表示有效解确定为低维判别表示最优解，将词典表示有效解确定为所述词典最优表示，并将低维判别表示最优解和词典最优表示存储于数据库；若否，返回执行所述根据增量式拉格朗日乘子和梯度下降法求解所述数据表示和所述词典表示，得到数据表示有效解和词典表示有效解这一步骤。基于上述公开的方法，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

实施例三

基于上述本发明实施例二公开的一种多模态数据表示学习方法，如图3所示出的步骤S301中，根据目标多模态数据选取词典原子，并根据特征表示提取词典原子相应的特征表示，得到各个模态的模式词典的具体执行过程，如图5所示，包括：

S501，判断目标多模态数据是否带有标签；

S502，若否，选取特征表示中的任意一个作为单一模态，基于预设中心聚类算法对单一模态对应的目标多模态数据进行聚类处理，并选取聚类中心点第二预设范围内的目标多模态数据作为词典原子；

可选的，预设中心聚类算法包括：K-Means聚类算法。

S503，若是，选取预设数量的所带标签数据作为词典原子；

S504，获取词典原子相应的特征表示，构成模式词典。

本发明实施例公开的多模态数据表示学习方法，通过接收目标多模态数据，并获取目标多模态数据对应的各个模态以及各个模态的特征表示；判断目标多模态数据是否带有标签；若否，选取特征表示中的任意一个作为单一模态，基于预设中心聚类算法对单一模态对应的目标多模态数据进行聚类处理，并选取聚类中心点第二预设范围内的目标多模态数据作为词典原子；若是，选取预设数量的所带标签数据作为词典原子；获取词典原子相应的特征表示，构成模式词典；基于模式词典编码目标多模态数据，并根据预设相似度算法计算目标多模态数据和模式词典在各个模态下的相似度，得到各个模态的近邻图；依据预设图随机走模型迭代计算近邻图，获取各个模态的迭代稳态并确定为融合多模态特征的数据表示，并根据数据表示更新模式词典，得到融合多模态特征的词典表示；根据预设数据重构模型、数据表示和词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。基于上述公开的方法，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

实施例四

基于上述本发明各实施例提供的多模态数据表示学习方法，本实施例四则对应公开了执行上述多模态数据表示学习方法的多模态数据表示学习系统，其结构示意图如图6所示，多模态数据表示学习系统600包括：

数据处理装置601，用于接收目标多模态数据，并获取目标多模态数据对应的各个模态以及所述各个模态的特征表示；

多模态融合装置602，用于根据目标多模态数据、特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；

判别特征学习装置603，用于根据预设数据重构模型、数据表示和词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。

本发明实施例公开的多模态数据表示学习系统，通过数据处理装置接收目标多模态数据，并获取目标多模态数据对应的各个模态以及各个模态的特征表示；多模态融合装置根据目标多模态数据、特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；判别特征学习装置根据预设数据重构模型、数据表示和词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。基于上述公开的系统，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

实施例五

结合上述实施例四公开的多模态数据表示学习系统和附图6，本实施例五还公开了一种多模态数据表示学习系统，其结构示意图如图7所示，

其中，数据处理装置601包括：

原始特征提取模块701，用于接收目标多模态数据，获取目标多模态数据对应的各个模态并提取各个模态的原始特征；

缺失特征补充模块702，用于基于预设数据先验分布和各个原始特征获取各个模态的缺失特征，得到各个模态的特征表示。

本发明实施例公开的多模态数据表示学习系统，通过原始特征提取模块接收目标多模态数据，获取目标多模态数据对应的各个模态并提取各个模态的原始特征；缺失特征补充模块基于预设数据先验分布和各个原始特征获取各个模态的缺失特征，得到各个模态的特征表示；多模态融合装置根据目标多模态数据、特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；判别特征学习装置根据预设数据重构模型、数据表示和词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。基于上述公开的系统，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

结合上述实施例四公开的多模态数据表示学习系统和附图6，本实施例五还公开了另一种多模态数据表示学习系统，其结构示意图如图8所示，

其中，多模态融合装置602包括：

构造模式词典模块801，用于根据目标多模态数据选取词典原子，并根据特征表示提取词典原子相应的特征表示，得到各个模态的模式词典；

近邻图构造模块802，用于基于模式词典编码所述目标多模态数据，并根据预设相似度算法计算目标多模态数据和模式词典在各个模态下的相似度，得到各个模态的近邻图其中，为目标多模态数据中第i个数据与模式词典中第j个原子的相似度值，为第m个模态下模式词典中的第j个原子，为第m个模态下模式词典中第j个原子在目标多模态数据中第i个数据的第一预设范围内的近邻集合；

图融合模块803，用于依据预设图随机走模型迭代计算近邻图，获取各个模态的迭代稳态并确定为融合多模态特征的数据表示X^M，并根据数据表示更新模式词典，得到融合多模态特征的词典表示，其中，p_m为第m个第一预设参数，取值范围为0～1，n为迭代次数。

本发明实施例公开的多模态数据表示学习系统，通过数据处理装置接收目标多模态数据，并获取目标多模态数据对应的各个模态以及各个模态的特征表示；构造模式词典模块根据目标多模态数据选取词典原子，并根据特征表示提取词典原子相应的特征表示，得到各个模态的模式词典；近邻图构造模块基于模式词典编码所述目标多模态数据，并根据预设相似度算法计算目标多模态数据和模式词典在各个模态下的相似度，得到各个模态的近邻图；图融合模块依据预设图随机走模型迭代计算近邻图，获取各个模态的迭代稳态并确定为融合多模态特征的数据表示，并根据数据表示更新模式词典，得到融合多模态特征的词典表示；判别特征学习装置根据预设数据重构模型、数据表示和词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库。基于上述公开的系统，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

结合上述实施例四公开的多模态数据表示学习系统和附图6，本实施例五还公开了另一种多模态数据表示学习系统，其结构示意图如图9所示，

其中，判别特征学习装置603包括：

数据重构模块901，用于基于预设数据重构模型并根据增量式拉格朗日乘子和梯度下降法求解数据表示和词典表示，得到数据表示有效解和词典表示有效解其中，Subject to Z＝J， Z为数据表示，D^M为词典表示，P^M为词典表示上的距离矩阵，W_ij为目标多模态数据中第i个数据与模式词典中第j个原子在第v个预设模态上的相似度值，为目标多模态数据中第f个数据与模式词典中第i个原子在第v个预设模态上相似度值，目标多模态数据中第j个数据与模式词典中的第i个原子在第v个预设模态上的相似度值，d为词典表示中原子数目；

优化处理模块902，用于判断数据表示有效解和词典表示有效解是否收敛；若是，将数据表示有效解确定为低维判别表示最优解，将词典表示有效解确定为词典最优表示，并将低维判别表示最优解和词典最优表示存储于数据库；若否，返回执行数据重构模块。

本发明实施例公开的多模态数据表示学习系统，通过数据处理装置接收目标多模态数据，并获取目标多模态数据对应的各个模态以及各个模态的特征表示；多模态融合装置根据目标多模态数据、特征表示和预设图随机走模型获取融合多模态特征的数据表示和词典表示；数据重构模块基于预设数据重构模型，并根据增量式拉格朗日乘子和梯度下降法求解数据表示和词典表示，得到数据表示有效解和词典表示有效解；优化处理模块判断数据表示有效解和词典表示有效解是否收敛；若是，将数据表示有效解确定为低维判别表示最优解，将词典表示有效解确定为词典最优表示，并将低维判别表示最优解和词典最优表示存储于数据库；若否，返回执行数据重构模块。基于上述公开的系统，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

实施例六

结合上述实施例五公开的多模态数据表示学习系统和附图8，本实施例六还公开了一种多模态数据表示学习系统，其中，构造模式词典模块801的结构示意图如图10所示，

构造模式词典模块801包括：

判断单元1001，用于判断目标多模态数据是否带有标签；若否，向第一控制单元发送第一执行指令；若是，向第二控制单元发送第二执行指令；

第一控制单元1002，用于选取特征表示中的任意一个作为单一模态，基于预设中心聚类算法对单一模态对应的目标多模态数据进行聚类处理，并选取聚类中心点第二预设范围内的目标多模态数据作为词典原子；

第二控制单元1003，用于选取预设数量的带标签数据作为所述词典原子；

模式词典构造单元1004，用于获取词典原子相应的特征表示，构成模式词典。

本发明实施例公开的多模态数据表示学习系统，通过判断单元判断目标多模态数据是否带有标签；若否，向第一控制单元发送第一执行指令；若是，向第二控制单元发送第二执行指令；第一控制单元选取特征表示中的任意一个作为单一模态，基于预设中心聚类算法对单一模态对应的目标多模态数据进行聚类处理，并选取聚类中心点第二预设范围内的目标多模态数据作为词典原子；第二控制单元选取预设数量的带标签数据作为所述词典原子；模式词典构造单元获取词典原子相应的特征表示，构成模式词典。基于上述公开的系统，同时解决了处理多模态数据时存在的异构性、数据量大、数据缺失和计算代价大的问题。

举例来说，当多模态数据表示学习系统应用于事件检测系统中时，多模态数据表示学习系统针对收集的多模态社交媒体数据，获取多模态社交媒体数据对应的各个模态，并对各个模态进行原始特征提取，得到各个模态的原始特征；基于预设数据先验分布和各个模态的原始特征，对多模态社交媒体数据对应的各个模态进行缺失特征补充，得到各个模态的特征表示。

根据多模态社交媒体数据选取词典原子，并根据特征表示提取词典原子相应的特征表示，得到模态的模式词典；基于模式词典编码多模态社交媒体数据，并根据预设相似度算法计算多模态社交媒体数据和模式词典在模态下的相似度，得到模态的近邻图；依据预设图随机走模型迭代计算近邻图，获取模态的迭代稳态并确定为融合多模态特征的数据表示，并根据数据表示更新模式词典，得到融合多模态特征的词典表示。

基于预设数据重构模型，并根据增量式拉格朗日乘子和梯度下降法求解数据表示和词典表示，得到数据表示有效解和词典表示有效解；判断数据表示有效解和词典表示有效解是否收敛；若是，将数据表示有效解确定为低维判别表示最优解，将词典表示有效解确定为所述词典最优表示，并将低维判别表示最优解和词典最优表示存储于数据库；若否，返回执行所述根据增量式拉格朗日乘子和梯度下降法求解所述数据表示和所述词典表示，得到数据表示有效解和词典表示有效解这一步骤。

根据多模态社交媒体数据中是否存在带标签数据选择相应的算法进行多模态社交媒体数据中的事件概念挖掘，其中，若不存在，基于设定的聚类算法挖掘多模态社交媒体数据中的事件概念，其中，设定的聚类算法包括：基于数据密度的混合聚类算法、基于类别信息的混合聚类算法；若存在，基于少量标签信息分类算法挖掘目标数据中的事件概念；提取事件的时间或地理分布；呈现事件的时间分布或地理分布。

以上对本发明所提供的一种多模态数据表示学习方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多模态数据表示学习方法，其特征在于，应用于一种多模态数据表示学习系统，包括：

2.根据权利要求1所述的方法，其特征在于，所述接收目标多模态数据，并获取所述目标多模态数据对应的各个模态以及所述各个模态的特征表示，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标多模态数据、所述特征表示、预设相似度算法和预设图随机走模型获取融合多模态特征的数据表示和词典表示，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据预设数据重构模型、所述数据表示和所述词典表示，获取低维判别表示最优解和词典最优表示并存储于数据库，包括：

判断所述数据表示有效解和所述词典表示有效解是否收敛；

5.根据权利要求3所述的方法，其特征在于，所述根据所述目标多模态数据选取词典原子，并根据所述特征表示提取所述词典原子相应的特征表示，得到所述各个模态的模式词典，包括：

判断所述目标多模态数据是否带有标签；

若是，选取预设数量的所述带标签数据作为所述词典原子；

获取所述词典原子相应的特征表示，构成所述模式词典。

6.一种多模态数据表示学习系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述数据处理装置包括：

8.根据权利要求6所述的系统，其特征在于，所述多模态融合装置包括：

9.根据权利要求6所述的系统，其特征在于，所述判别特征学习装置包括：

数据重构模块，用于基于预设数据重构模型并根据增量式拉格朗日乘子和梯度下降法求解所述数据表示和所述词典表示，得到数据表示有效解和词典表示有效解其中，Subject to Z＝J， Z为所述数据表示，D^M为所述词典表示，P^M为所述词典表示上的距离矩阵，W_ij为所述目标多模态数据中第i个数据与所述模式词典中第j个原子在第v个预设模态上的相似度值，为所述目标多模态数据中第f个数据与所述模式词典中第i个原子在第v个所述预设模态上相似度值，所述目标多模态数据中第j个数据与所述模式词典中的第i个原子在第v个所述预设模态上的相似度值，d为所述词典表示中原子数目；

10.根据权利要求8所述的系统，其特征在于，所述构造模式词典模块包括：