CN117972359A

CN117972359A - 基于多模态数据的智能数据分析方法

Info

Publication number: CN117972359A
Application number: CN202410361376.9A
Authority: CN
Inventors: 刘义辉
Original assignee: Beijing Shangboxin Technology Co ltd
Current assignee: Beijing Shangboxin Technology Co ltd
Priority date: 2024-03-28
Filing date: 2024-03-28
Publication date: 2024-05-03
Anticipated expiration: 2044-03-28
Also published as: CN117972359B

Abstract

本申请涉及数据处理技术领域，提出了基于多模态数据的智能数据分析方法，包括：基于词向量、目标区域构成的无向图获取聚类结果；基于目标区域对应的类别标签确定单模态数据描述子；基于元素在投影矩阵中投影结果之间差异确定公共语义基相似度；基于元素间的上下文语义信息相似度、公共语义基相似度确定双模语义可拓展重叠度；基于双模语义可拓展重叠度确定模态上下文融合性；根据词语与不同目标区域语义信息的可融合性确定融合筛选权重；基于融合筛选权重确定融合分割上限值；采用多模态融合模型基于融合分割上限值获取数据融合结果。本申请通过降低文本数据与图像数据语义上下文信息中语义密度不一致的影响，提高多模态数据融合的效果。

Description

基于多模态数据的智能数据分析方法

技术领域

本申请涉及数据处理技术领域，具体涉及基于多模态数据的智能数据分析方法。

背景技术

多模态数据指的是多种模态的信息数据，包括文本数据、图像数据、音频数据等等，多模态数据之间能够进行不同维度的信息互补，而多模态数据的融合可以进一步提升数据分析的准确性。

多模态数据的融合过程需要对不同模态的数据进行信息融合，例如，图像数据能够提高视觉信息、视觉特征，而文字数据能够提高文本信息、文本特征，将文本数据和图像数据进行多模态融合可以更好的理解、利用数据，使得数据分析的结果更符合分析对象的真实情况。但是由于文本数据和图像数据表示的语义上下文信息存在语义密度不一致的问题，导致两个模态的数据融合结果表示效果不佳，从而影响文本数据、图像数据进行数据融合结果的可靠性和有效性。

发明内容

本申请提供基于多模态数据的智能数据分析方法，以解决文本数据和图像数据表示的语义上下文信息存在语义密度不一致导致多模态数据融合效果较差的问题，所采用的技术方案具体如下：

本申请一个实施例提供了基于多模态数据的智能数据分析方法，该方法包括以下步骤：

分别从不同数据源获取文本数据、图像数据；

采用聚类算法分别基于词语的词向量、目标区域构成的无向图获取词向量、目标区域的聚类结果；基于每个目标区域在识别模型中对应的类别标签确定每个目标区域的单模态数据描述子；

基于聚类结果中每个聚类簇内不同元素在每个聚类簇的语义非负矩阵分解所得投影矩阵中投影结果之间差异确定每个元素的公共语义基相似度；

基于两个两种模态下聚类簇中元素之间的上下文语义信息相似度以及元素之间的公共语义基相似度确定每个词语与每个目标区域之间的双模语义可拓展重叠度；

基于两个两种模态下聚类簇中元素在不同模态下的一致性矩阵上投影结果的差异性以及元素之间对应的双模语义可拓展重叠度确定每个词语与每个目标区域之间的模态上下文融合性；

根据每个词语与所有目标区域聚类簇中不同目标区域之间的模态上下文融合性以及语义信息的可融合性确定每个词语的融合筛选权重；

基于每个文本数据序列中每个词语的融合筛选权重以及每个词语的语义共基偏差稳定度确定每个文本数据序列的融合分割上限值；

采用多模态融合模型基于每个文本数据序列的融合分割上限值获取每个文本数据序列对应的数据融合结果。

优选的，所述采用聚类算法分别基于词语的词向量、目标区域构成的无向图获取词向量、目标区域的聚类结果的方法为：

将每个原始文本数据依次经过分词、去停用词处理后得到词语组成的序列作为一个文本数据序列；将所有文本数据序列作为ELMo模型的输入，利用ELMo模型得到每个文本数据序列中每个词语的词向量；

将所有文本数据序列中词语的词向量均作为图中的一个节点，将两个词向量之间的余弦相似度作为对应两个节点之间的相似性度量结果，将由所有词语的词向量构成的图作为输入，采用AP聚类算法获取词向量的聚类结果；

将每个图像数据的去噪结果作为一幅干净图像数据，利用CNN识别模型获取每幅干净图像数据中每个目标区域以及每个目标区域的预设数量个类别标签；

将每个目标区域均作为图中的一个节点，将两个目标区域之间的结构相似性作为对应两个节点之间的相似性度量结果，将由所有目标区域构成的图作为输入，采用AP聚类算法获取目标区域的聚类结果。

优选的，所述基于每个目标区域在识别模型中对应的类别标签确定每个目标区域的单模态数据描述子的方法为：

将每个目标区域的预设数量个类别标签对应的类别描述数据作为Word2vec模型的输入，利用Word2vec模型获取每个类别标签的词向量，将每个目标区域的预设数量个类别标签的词向量按照类别标签置信度降序顺序组成的向量作为每个目标区域的单模态数据描述子。

优选的，所述基于聚类结果中每个聚类簇内不同元素在每个聚类簇的语义非负矩阵分解所得投影矩阵中投影结果之间差异确定每个元素的公共语义基相似度的方法为：

基于每个聚类簇中所有元素获取每个聚类簇的语义非负矩阵分解所得的一致性矩阵和一个投影矩阵；

将任意一个聚类簇中每个元素与每个元素在所述聚类簇的语义非负矩阵分解结果中投影矩阵上投影结果之间的皮尔逊相关系数作为每个元素对应的内涵语义相似度；

将每个元素的内涵语义相似度与每个元素所在聚类簇中所有元素对应的内涵语义相似度最小值的差值作为分子；

将每个元素与其所在聚类簇内其余元素在所述聚类簇的语义非负矩阵分解结果中投影矩阵上投影结果之间位方差在所有所述其余元素上的累加结果与0.01的和作为分母；

将分子与分母的比值作为每个元素的公共语义基相似度。

优选的，所述基于每个聚类簇中所有元素获取每个聚类簇的语义非负矩阵分解所得的一致性矩阵和一个投影矩阵的方法为：

对于任意一个词向量的聚类簇，将每个聚类簇中每个词向量作为矩阵中的一个行向量，将每个聚类簇内所有词向量组成的矩阵作为每个聚类簇的语义非负矩阵；

对于任意一个目标区域的聚类簇，将每个聚类簇中每个目标区域的单模态数据描述子作为矩阵中的一个行向量，将每个聚类簇内所有目标区域的单模态数据描述子组成的矩阵作为每个聚类簇的语义非负矩阵；

对于任意一个聚类簇，将每个聚类簇的语义非负矩阵作为输入，采用NMF算法将所述语义非负矩阵分解为一个一致性矩阵和一个投影矩阵相乘的结果。

优选的，所述基于两个两种模态下聚类簇中元素之间的上下文语义信息相似度以及元素之间的公共语义基相似度确定每个词语与每个目标区域之间的双模语义可拓展重叠度的方法为：

计算每个词语的词向量所在语义非负矩阵的一致性矩阵与每个目标区域的单模态数据描述子所在语义非负矩阵的一致性矩阵之间的杰卡德系数；将每个词语的词向量与每个目标区域的单模态数据描述子之间的余弦相似度与所述杰卡德系数之间的乘积作为分子；

将每个词语的公共语义基相似度与每个目标区域的公共语义基相似度之间差值的绝对值与0.01的和作为分母；

将分子与分母的比值作为每个词语与每个目标区域之间的双模语义可拓展重叠度。

优选的，所述基于两个两种模态下聚类簇中元素在不同模态下的一致性矩阵上投影结果的差异性以及元素之间对应的双模语义可拓展重叠度确定每个词语与每个目标区域之间的模态上下文融合性的方法为：

式中，是第i个词语与第j个目标区域之间的模态上下文融合性，N是第i个词语的词向量所在聚类簇中词向量的数量，n是除第i个词语的词向量之外第n个词向量，M是第j个目标区域的单模态数据描述子所在聚类簇中单模态数据描述子的数量，m是除第j个目标区域的单模态数据描述子之外第m个单模态数据描述子，/>是第i个词语与第j个目标区域之间的双模语义可拓展重叠度，/>是第n个词向量对应词语与第m个单模态数据描述子对应目标区域之间的双模语义可拓展重叠度，/>是第i个词语的词向量在第j个目标区域的单模态数据描述子所在语义非负矩阵的一致性矩阵上的投影结果，/>是第j个目标区域的单模态数据描述子在第i个词语的词向量所在语义非负矩阵的一致性矩阵上的投影结果，/>是DTW距离函数，/>是/>、/>之间的DTW距离，/>是调参因子。

优选的，所述根据每个词语与所有目标区域聚类簇中不同目标区域之间的模态上下文融合性以及语义信息的可融合性确定每个词语的融合筛选权重的方法为：

将每个词语与每个目标区域的单模态数据描述子所在聚类簇中所有单模态数据描述子对应目标区域之间的模态上下文融合性的均值作为每个词语与每个所述聚类簇的整簇融合评估值；

将以自然常数为底数，以每个词语与所有目标区域对应聚类簇的整簇融合评估值的均值为指数的计算结果作为第一特征值，将第一特征值与每个词语与所有目标区域对应聚类簇的整簇融合评估值组成集合内元素的分布方差的乘积与0.01的和作为分母，将每个词语的公共语义基相似度与分母的比值作为每个词语的融合可能性系数；

将每个词语的融合可能性系数与每个词语所在文本数据序列中所有词语的融合可能性系数之和的比值作为每个词语的融合筛选权重。

优选的，所述基于每个文本数据序列中每个词语的融合筛选权重以及每个词语的语义共基偏差稳定度确定每个文本数据序列的融合分割上限值的方法为：

将每个文本数据序列中任意两个词语与同一个目标区域之间的双模语义可拓展重叠度之间差值的绝对值与0.01的和作为分子；

将每个文本数据序列中任意两个词语的词向量所在语义非负矩阵的一致性矩阵与同一个目标区域的单模态数据描述子所在语义非负矩阵的一致性矩阵之间欧式距离的差值的绝对值与0.01的和作为分母；

将分子与分母的比值在每个文本数据序列和所有目标区域上二次累加的均值作为每个文本数据序列中每个词语的语义共基偏差稳定度；

计算以自然常数为底数，以1与每个文本数据序列中每个词语的语义共基偏差稳定度之间差值的平方的相反数为指数的计算结果，将所述计算结果与每个文本数据序列中每个词语的融合筛选权重的乘积作为所述每个词语的融合影响系数；

将与每个文本数据序列中每个词语之间模态上下文融合性最大的目标区域对应单模态数据描述子所在聚类簇内元素的数量与所述每个词语的融合影响系数的乘积作为所述每个词语的上限值；

将每个文本数据序列中所有词语的上限值中的最大值作为每个文本数据序列的融合分割上限值。

优选的，所述采用多模态融合模型基于每个文本数据序列的融合分割上限值获取每个文本数据序列对应的数据融合结果的方法为：

将所有文本数据序列中每个词语与每个目标区域聚类簇的整簇融合评估值作为输入，采用大津阈值分割算法获取评估值分割阈值；

对于任意一个文本数据序列，将每个大于评估值分割阈值的整簇融合评估值对应的目标区域聚类簇作为每个文本数据的一个第二模态聚类簇，并从每个文本数据序列的所有第二模态聚类簇中按照模态上下文融合性降序顺序选取每个文本数据序列的融合分割上限值个目标区域图像数据组成每个文本数据序列的融合模态范围；

将每个文本数据序列与其融合模态范围内的目标区域图像数据作为多模态融合模型的输入，分别采用MLP、CNN提取每个文本数据序列、每个目标区域图像的深度特征，并采用首尾拼接的方式进行融合得到多模态深度向量，将多模态融合模型的输出作为每个文本数据序列对应的数据融合结果。

本申请的有益效果是：本申请通过对图像数据的聚类处理获取每个目标区域的单模态数据描述子，并结合文本数据序列的聚类结果分析不同模态聚类簇之间语义范围的重叠情况评估不同模态中数据潜在表示的一致性构建模态上下文融合性，模态上下文融合性的有益效果在于通过进行不同模态中数据的局部上下文信息的提取能够降低多模态数据异构因素的影响，并降低噪声等无用成分对真实语义的影响；其次基于每个文本数据序列中不同词语对文本数据序列进行多模态融合时选择图像数据的影响大小确定每个词语的融合筛选权重，基于融合筛选权重以及每个文本序列数据中词语的语义纯净度自适应确定每个文本数据序列的融合分割上限值，其有益效果在于能够在加快融合速度的同时避免一些不相干、甚至干扰语义对融合结果的影响，提高数据融合结果的可靠性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例所提供的基于多模态数据的智能数据分析方法的流程示意图；

图2为本申请一个实施例所提供的基于多模态数据的智能数据分析方法的实施流程图；

图3为本申请一个实施例所提供的确定模态上下文融合性的实施流程图；

图4为本申请一个实施例所提供的多模态融合模型的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，其示出了本申请一个实施例提供的基于多模态数据的智能数据分析方法的流程图，该方法包括以下步骤：

步骤S001，分别从不同数据源获取文本数据、图像数据。

本申请中，将文本数据、图像数据作为多模态数据进行数据分析，分别获取与购车推荐相关的原始文本数据、图像数据。具体地，从大量汽车知识、汽车科普的相关网页中获取汽车相关文本数据，所述文本数据包括但不限于性能参数、厂家说明、配置文件、购买权益等。其次，从大量汽车相关网页中获取汽车相关的图像数据，所述图像数据包括但不限于汽车整体、汽车零配件、机械结构等。

进一步地，对于原始文本数据，将每个原始文本数据输入jieba分词工具进行分词处理，其次，将每个原始文本数据分词的结果作为输入，利用现有去停用词表进行去停用词的处理，将所得结果组成的序列作为一个文本数据序列。其中，去停用词、分词均为公知技术，具体过程不再赘述。对于所获图像数据，为了消除图像噪声对后续数据分析结果的影响，利用双边滤波去噪算法对每幅图像数据进行去噪处理，将去噪后的结果作为一幅干净图像数据，双边滤波去噪算法为公知技术，具体过程不再赘述。

至此，得到预处理后的文本数据序列、干净图像数据，用于后续分析不同模态数据之间的语义可融合性。

步骤S002，基于聚类簇中元素在聚类簇对应的投影矩阵中投影结果之间差异确定元素的公共语义基相似度；基于不同模态下元素之间的上下文语义信息相似度以及公共语义基相似度确定双模语义可拓展重叠度；基于不同模态下元素在一致性矩阵上投影结果的差异性以及双模语义可拓展重叠度确定每个词语与每个目标区域之间的模态上下文融合性。

每种模态数据中包含大量的实体以及实体属性信息，而在进行多模态数据融合时，同等级的数据融合才能得到较好的数据分析结果。每个文本数据中包含语义相对清晰的实体、或关键词，例如，车轮轮毂是20寸的、百公里加速时间第一等；每幅图像数据中不仅包含大量的目标、还包含大面积的背景区域等语义抽象的区域。如果直接将整个文本数据与整幅图像数据进行融合将会得到质量较低、语义可解释性不高的结果。因此，本申请中考虑对每个模态的数据进行分割处理，进行单个实体等级的数据融合，整个方案的实施流程如图2所示。例如，将一个文本数据序列中的车轮和一幅干净图像数据中车轮图像区域融合，从而达到提高数据融合效果的目的。

对于任意一种模态数据，每个词语或者每个目标都会有类似的对象存在，例如汽车轮毂与刀锋轮毂，白色轮胎图像与金色轮胎图像，这些类似的数据在每个模态中的上下文信息之间同样存在一定的相似程度。因此，本申请对每种模态的数据进行聚类处理，在获取更全面，覆盖范围更大的语义信息时，减少模态异构对数据融合效率的影响。

由于文本数据中包含明确的上下文信息，而图像数据中上下文信息的相对模糊。因此，对于任意一幅干净图像数据，将每幅干净图像数据作为目标识别模型的输入，目标识别模型输出为标记出所有目标区域的识别结果，并保存每个目标区域置信度取值前b个的类别标签，b的大小取经验值3，目标识别模型的结构为CNN（Convolutional NeuralNetwork）网络，优化算法为Adam算法，损失函数为交叉熵函数，神经网络的训练为公知技术，具体过程不再赘述。

对于文本数据，将所有文本数据序列作为ELMo(Embeddings form LanguageModels)模型的输入，利用ELMo模型得到每个文本数据序列中每个词语的词向量，ELMo模型为公知技术，具体过程不再赘述。进一步地，将所有文本数据序列中词语的词向量均作为图中的一个节点，将两个词向量之间的余弦相似度作为对应两个节点之间的相似性度量结果，将由所有词语的词向量构成的图作为输入，采用AP（Affinity Propagation）聚类算法获取词向量的聚类结果，将第i个词语的词向量所在聚类簇记为；对于图像数据，将每幅干净图像数中的任意一个目标区域作为图中的一个节点，将两个目标区域之间的结构相似性作为对应两个节点之间的相似性度量结果，将由所有目标区域构成的图作为输入，采用AP聚类算法获取目标区域的聚类结果，AP算法为公知技术，具体过程不再赘述。这样聚类的原因在于每种模态数据中包含大量的数据，无法预设聚类簇的数量。

进一步地，以第A幅干净图像数据为例，对于第A幅干净图像数据中的每个目标区域，由于图像信息的复杂度或者目标的语义密度过大，每个目标区域在目标识别模型中会有多个类别标签，为了更准确的描述每个目标区域的上下文信息，本申请中利用多个类别标签描述目标区域的语义信息。将每个目标区域的b个的类别标签对应的类别描述数据作为Word2vec模型的输入，利用Word2vec模型获取每个类别标签的词向量，Word2vec模型为公知技术，具体过程不再赘述。其次，将每个类别标签的词向量、置信度组成的每个类别标签的信息数组，将每个目标区域所得b个类别标签的词向量按照置信度降序顺序组成的向量作为每个目标区域的单模态数据描述子。

在进行多模态数据融合时，理想状态下是将同一对象在不同模态下应该有近似的语义，在多模态数据构建的公共子空间中每个模态的数据特征应该尽可能的相似，即每个模态的潜在表示近似一致。而每个对象在不同模态下又会存在不同的限定的条件或者会与不同的约束条件相结合产生有所区别的语义信息，因此本申请中考虑通过不同模态聚类簇之间语义范围的重叠情况评估不同模态中数据潜在表示的一致性，并基于此确定每个词语与每个目标区域之间模态上下文融合性，实施流程如图3所示。

进一步地，对于任意一个聚类簇，将每个聚类簇中每个元素对应的向量作为矩阵中的一个行向量，需要说明的是，如果是文本数据对应的聚类簇，则每个元素对应的向量为词向量；如果是图像数据对应的聚类簇，则每个元素对应的向量为单模态数据描述子。其次，将每个聚类簇内所有元素对应向量组成的矩阵作为每个聚类簇的语义非负矩阵。其次，将每个聚类簇的语义非负矩阵作为输入，采用NMF(Non-negative Matrix Factorization)算法将所述语义非负矩阵分解为一个一致性矩阵和一个投影矩阵相乘的结果，其中，投影矩阵中的每一列为所述语义非负矩阵中每个行向量在一致性矩阵上的投影结果，NMF算法为公知技术，具体过程不再赘述。

基于上述分析，此处构建模态上下文融合性，用于表征不同模态中不同实体上下文关系的可融合程度。计算第i个词语与第j个目标区域之间的模态上下文融合性：

式中，是第i个词语的公共语义基相似度，/>是第i个词语的词向量，/>是/>在/>所在语义非负矩阵的投影矩阵中的投影结果，/>为第i个词语的内涵语义相似度，的大小等于/>与/>之间的皮尔逊相关系数，/>是聚类簇/>中所有词语的内涵语义相似度的最小值，N是聚类簇/>中词向量的数量，n是聚类簇/>中除/>之外第n个词向量，是所述投影矩阵中第n个词向量的投影结果，/>是向量/>、/>之间的位方差，/>是调参因子，用于防止分母为0，/>的大小取经验值0.01，皮尔逊相关系数、位方差均为公知技术，具体过程不再赘述；

是第i个词语与第j个目标区域之间的双模语义可拓展重叠度，/>是第j个目标区域的单模态数据描述子，/>、/>分别是/>、/>所在语义非负矩阵的一致性矩阵，/>是矩阵/>、/>之间杰卡德系数，/>是余弦相似度函数，/>是/>、/>之间的余弦相似度，/>是第j个目标区域的公共语义基相似度，需要说明的是，目标区域、词语的公共语义基相似度的计算原理一致，计算过程不再赘述；杰卡德系数为公知技术，具体过程不再赘述；

是第i个词语与第j个目标区域之间的模态上下文融合性，M是/>所在聚类簇中单模态数据描述子的数量，m是除/>之外第m个单模态数据描述子，/>是第n个词向量对应词语与第m个单模态数据描述子对应目标区域之间的双模语义可拓展重叠度，/>是/>在所在语义非负矩阵的一致性矩阵上的投影结果，/>是/>在/>所在语义非负矩阵的一致性矩阵上的投影结果，/>是DTW(Dynamic Time Warping)距离函数，/>是、/>之间的DTW距离，DTW距离为公知技术，具体过程不再赘述。

其中，第i个词语的语义信息越能代表所在聚类簇内所有词向量的语义信息，第i个词语越有可能是语义稳定的词语，分解前后对应向量的变化越小，/>的值越大，的值越大；词向量/>与聚类簇/>中其余词向量的语义信息越接近，相应的投影结果之间的相似度越大，/>的值越小，/>的值越大；/>、/>表征同一对象在不同模态下语义信息的概率越高，不同模态中数据潜在表示的一致性，/>、/>所在聚类簇的一致性矩阵的差异性越小，/>的值越大，/>的值越大；同时/>、/>的语义信息越稳定，第i个词语、第j个目标区域受到相邻数据语义影响越小，语义的稳定程度越接近，/>的值越小，/>的值越大；/>、/>是同一对象在不同模态下的数据表征结果的概率越高，在多模态的分解子空间中的一致性越高，在不同一致性矩阵上的投影结果越相似，的值越小；即/>的值越大，第i个词语与第j个目标区域之间上下文信息越相似，可融合性越强。模态上下文融合性的有益效果在于通过进行不同模态中数据的局部上下文信息的提取能够降低多模态数据异构因素的影响，并降低噪声等无用成分对真实语义的影响。

至此，得到每个词语与每个目标区域之间的模态上下文融合性，用于后续确定每种模态中每个数据的融合结果。

步骤S003，根据每个词语与所有目标区域聚类簇中不同目标区域之间的模态上下文融合性以及语义信息的可融合性确定每个词语的融合筛选权重；基于每个文本数据序列中每个词语的融合筛选权重以及每个词语的语义共基偏差稳定度确定每个文本数据序列的融合分割上限值。

进一步地，分别计算每个词语与每个目标区域之间的模态上下文融合性，并根据所述模态上下文融合性确定进行数据融合时的融合范围，使得每个文本数据序列只与确定的融合范围内的数据进行融合。这样能够在加快融合速度的同时避免一些不相干、甚至干扰语义对融合结果的影响，提高数据融合结果的可靠性。

具体地，在进行多模态数据融合时是将每个文本数据序列与相应的目标区域图像进行融合，由于每个文本数据序列中不同位置词语的语义重要程度、被上下文语义影响的程度不同，对文本数据序列筛选能够融合的目标区域图像的影响也不同。因此，对于任意一个词语，以第q个文本数据序列中第i个词语为例，将第i个词语与每个目标区域聚类簇中所有目标区域之间的模态上下文融合性的均值作为第i个词语与每个目标区域聚类簇的整簇融合评估值，如果第i个词语与多个目标区域聚类簇的整簇融合评估值大小接近，说明第i个词语能够与多个目标进行融合，对第q个文本数据序列筛选可融合数据的影响越大。

基于上述分析，此处构建融合筛选权重，用于表征每个文本数据序列中每个词语对可融合图像数据的筛选影响的大小。计算第q个文本数据序列中第i个词语的融合筛选权重：

式中，是第q个文本数据序列中第i个词语的融合可能性系数，/>是第i个词语的公共语义基相似度，/>是第i个词语与所有目标区域聚类簇的整簇融合评估值的均值，/>是第i个词语与所有目标区域聚类簇的整簇融合评估值组成的集合，/>是集合/>内元素的分布方差，/>是以自然常数为底数的指数函数，/>是调参因子，用于防止分母为0，/>的大小取经验值0.01；

是第q个文本数据序列中第i个词语的融合筛选权重，/>是第q个文本数据序列中词语的数量。

其中，第i个词语的语义信息越稳定，的值越大第i个词语与所有目标区域聚类簇的整簇融合评估值的均值越大，/>的值越大，/>的值越小，说明第i个词语与每个目标区域之间的模态上下文融合性都比较大，那么第i个词语极大概率是在所有文本数据序列中出现频率较高的词语，属于汽车涉及的多个领域相关的词语，第i个词语与所有目标区域聚类簇的整簇融合评估值的大小越接近，/>的值越小，/>的值越大；即/>的值越大，第i个词语的语义和第q个文本数据序列的主题语义越接近，对第q个文本数据序列可融合图像数据的筛选的影响越大。

进一步地，分别得到每个文本数据序列中每个词语的融合筛选权重，并基于每个文本数据序列中所有词语的融合筛选权重确定每个文本数据序列进行多模态融合时的目标区域图像数据。

基于上述分析，此处构建融合分割上限值，用于筛选每个文本数据序列进行融合时的目标区域。计算第q个文本数据序列的融合分割上限值：

式中，是第q个文本数据序列中第i个词语的语义共基偏差稳定度，/>是第q个文本数据序列中词语的数量，/>是目标区域的数量，/>、/>分别是第i个、第i+1个词语与第j个目标区域之间的双模语义可拓展重叠度，/>、/>分别是第i个、第i+1个词语的词向量所在语义非负矩阵的一致性矩阵与j个目标区域的单模态数据描述子所在语义非负矩阵的一致性矩阵之间的欧式距离，/>是调参因子，用于防止分母为0，/>的大小取经验值0.01；

是第q个文本数据序列中第i个词语的融合影响系数，/>是第q个文本数据序列中第i个词语的融合筛选权重，/>是以自然常数为底数的指数函数；

是第q个文本数据序列的融合分割上限值，max()是取最大值函数，/>是与第i个词语之间模态上下文融合性最大的目标区域对应单模态数据描述子所在聚类簇内元素的数量。

其中，第q个文本数据序列中词语的语义纯净度越高，不同词语在不同模态下一致性矩阵的公共子空间上的偏差越小，、/>之间的差异越小；两个词语的词向量越相似，越有可能位于同一个语义非负矩阵中，/>、/>的之间的差异越小，/>的值越接近于1，/>的值越大；而/>的值越接近于1，/>的值越接近于1，第i个词语对融合数据筛选的影响越大，/>的值越大，/>的值越大，第i个词语的上限值的值越大；即/>的值越大，第q个文本数据序列中词语的可融合度越高，且融合后语义出现偏差的概率越低，能够进行融合的目标区域图像数据量越大。

至此，得到每个文本数据序列的融合分割上限值，用于后续确定多模态融合模型进行数据融合时每个文本数据序列所选择的图像数据量。

步骤S004，采用多模态融合模型基于每个文本数据序列的融合分割上限值获取每个文本数据序列对应的数据融合结果。

进一步地，将所有文本数据序列中每个词语与每个目标区域聚类簇的整簇融合评估值作为输入，采用大津阈值分割算法获取评估值分割阈值，大津阈值分割算法为公知技术，具体过程不再赘述。其次，对于任意一个文本数据序列，将每个大于评估值分割阈值的整簇融合评估值对应的目标区域聚类簇作为每个文本数据的一个第二模态聚类簇，并从每个文本数据序列的所有第二模态聚类簇中按照模态上下文融合性降序顺序选取每个文本数据序列的融合分割上限值个目标区域图像数据组成每个文本数据序列的融合模态范围。

将每个文本数据序列与其融合模态范围内的目标区域图像数据作为多模态融合模型的输入，分别采用MLP（Multilayer Perceptron）、CNN提取每个文本数据序列与每个输入目标区域图像的深度特征，并采用首尾拼接的方式进行融合得到多模态深度向量，多模态融合模型的结构如图4所示，预测模块为3层的全连接层构成，将多模态融合模型的输出作为每个文本数据序列对应的数据融合结果，神经网络的训练为公知技术，具体过程不再赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多模态数据的智能数据分析方法，其特征在于，该方法包括以下步骤：

分别从不同数据源获取文本数据、图像数据；

2.根据权利要求1所述基于多模态数据的智能数据分析方法，其特征在于，所述采用聚类算法分别基于词语的词向量、目标区域构成的无向图获取词向量、目标区域的聚类结果的方法为：

3.根据权利要求1所述基于多模态数据的智能数据分析方法，其特征在于，所述基于每个目标区域在识别模型中对应的类别标签确定每个目标区域的单模态数据描述子的方法为：

4.根据权利要求1所述基于多模态数据的智能数据分析方法，其特征在于，所述基于聚类结果中每个聚类簇内不同元素在每个聚类簇的语义非负矩阵分解所得投影矩阵中投影结果之间差异确定每个元素的公共语义基相似度的方法为：

将分子与分母的比值作为每个元素的公共语义基相似度。

5.根据权利要求4所述基于多模态数据的智能数据分析方法，其特征在于，所述基于每个聚类簇中所有元素获取每个聚类簇的语义非负矩阵分解所得的一致性矩阵和一个投影矩阵的方法为：

6.根据权利要求1所述基于多模态数据的智能数据分析方法，其特征在于，所述基于两个两种模态下聚类簇中元素之间的上下文语义信息相似度以及元素之间的公共语义基相似度确定每个词语与每个目标区域之间的双模语义可拓展重叠度的方法为：

7.根据权利要求1所述基于多模态数据的智能数据分析方法，其特征在于，所述基于两个两种模态下聚类簇中元素在不同模态下的一致性矩阵上投影结果的差异性以及元素之间对应的双模语义可拓展重叠度确定每个词语与每个目标区域之间的模态上下文融合性的方法为：

式中，是第i个词语与第j个目标区域之间的模态上下文融合性，N是第i个词语的词向量所在聚类簇中词向量的数量，n是除第i个词语的词向量之外第n个词向量，M是第j个目标区域的单模态数据描述子所在聚类簇中单模态数据描述子的数量，m是除第j个目标区域的单模态数据描述子之外第m个单模态数据描述子，/>是第i个词语与第j个目标区域之间的双模语义可拓展重叠度，/>是第n个词向量对应词语与第m个单模态数据描述子对应目标区域之间的双模语义可拓展重叠度，/>是第i个词语的词向量在第j个目标区域的单模态数据描述子所在语义非负矩阵的一致性矩阵上的投影结果，/>是第j个目标区域的单模态数据描述子在第i个词语的词向量所在语义非负矩阵的一致性矩阵上的投影结果，是DTW距离函数，/>是/>、/>之间的DTW距离，/>是调参因子。

8.根据权利要求1所述基于多模态数据的智能数据分析方法，其特征在于，所述根据每个词语与所有目标区域聚类簇中不同目标区域之间的模态上下文融合性以及语义信息的可融合性确定每个词语的融合筛选权重的方法为：

9.根据权利要求1所述基于多模态数据的智能数据分析方法，其特征在于，所述基于每个文本数据序列中每个词语的融合筛选权重以及每个词语的语义共基偏差稳定度确定每个文本数据序列的融合分割上限值的方法为：

10.根据权利要求1所述基于多模态数据的智能数据分析方法，其特征在于，所述采用多模态融合模型基于每个文本数据序列的融合分割上限值获取每个文本数据序列对应的数据融合结果的方法为：