CN116108215A

CN116108215A - 基于深度融合的跨模态大数据检索方法及系统

Info

Publication number: CN116108215A
Application number: CN202310149747.2A
Authority: CN
Inventors: 吴珺; 郑欣丽; 袁子健; 王江鹏; 王春枝
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-05-12

Abstract

本发明提供了一种基于深度融合的跨模态大数据检索方法及系统，系统包括：特征提取模块：将预处理后的文本模态输入BERT+BiLSTM网络进行特征提取，图像模态输入Vision Transformer网络进行特征提取；多模态融合模块：将文本和图像特征输入E‑DCCA网络进行多次全连接层的非线性变换，再进行相关性分析得到两种模态的相关性系数，并根据最高相关系数输出对应的图文表示对。本发明能有效提高工作人员对相关资料的检索效率，辅助该地区人民迅速了解当地发展状况，极大的减轻了人工的工作量，提高了人员的工作效率。在网络结构上，本发明能有效学习图像与文本双模态之间的相似性，实现图文跨模态检索，并加入极限学习机来提升网络泛化性能，解决模型过拟合问题。

Description

基于深度融合的跨模态大数据检索方法及系统

技术领域

本发明涉及跨模态检索技术领域，尤其涉及一种基于深度融合的跨模态大数据检索方法及系统。

背景技术

随着信息技术的飞速发展，信息的存在形式多种多样，来源也十分广泛，对单一模态的处理不再能满足信息化社会的需求。在治理领域，单一的文本形式难以直观反映事务的发展与需求，结合图像与文本的多模态数据处理技术逐渐成为主流。跨模态检索能够将多个模态的信息进行有效的整合，汲取不同模态的优点，完成对信息的整合，能有效提升工作人员对复杂信息的处理效率。

治理数据集包含复杂的城市发展信息，包括工业建设、经济发展、医疗卫生服务、生态环境、人才引进等方面的图像和文本双模态信息，充分利用好两种模态之间的内在联系，使用跨模态技术进行学习，能够辅助工作人员更好的进行城市治理，整合建设结果和未来发展方向，提高工作效率，也能帮助城市居民便捷直观的了解城市发展现状。

跨模态检索提供了一些有效的方法，可以为任何模态的给定查询搜索不同模态的语义相关结果，使用户能够获得有关事件/主题的更多信息，从而达到以一种模态数据检索另外一种模态数据的效果。随着数据检索需求以及各种新技术的发展，单一模态检索难以满足用户需求，研究者提出许多跨模态检索的技术来解决这个问题。

目前多模态领域常见的融合模型有：Alec Radford等人提出的CLIP模型，其结构主要由一个文本编码器和一个图像编码器组成，通过计算文本向量和图像向量的相似度进行匹配，但是CLIP使用编码器代替特征提取，需要庞大的训练数据集；Amir Zadeh等人提出的张量融合模型(TFN)，是以单模态特征作为输入，使用模态嵌入的3-fold笛卡尔积显示的模拟单模态、双模态和三模态的相互作用，但是TFN需要三种模态的维度进行对齐，导致处理速度不够。

发明内容

本发明的目的在于提供一种基于深度融合的跨模态大数据检索方法及系统，用以解决或者至少部分解决现有技术中存在的效果不佳和融合效率不高的技术问题。

为了解决上述技术问题，本发明采用如下技术方案：

第一方面提供了基于深度融合的跨模态大数据检索方法，包括：

S1：采集原始数据集，对采集的原始数据集进行预处理，其中，采集的原始数据集包括文本数据和图像，定义文本数据为第一模态数据Text，图像数据为第二模态数据Vision；

S2：将第一模态数据输入基于Transformer的双向编码器和双向长短记忆网络结合的模块BERT-BiLSTM中进行特征抽取，得到第一模态特征向量T＝(t₁，t₂，...，t_n)，其中，n为第一模态特征向量的长度，t₁，t₂，...，t_n分别表示第一模态特征向量中的第一个、第二个和第n个元素；将第二模态数据输入基于自注意力机制的图像分类方法VisionTransformer网络进行特征抽取，得到第二模态特征向量V＝(v₁，v₂，...，v_m)，其中，V表示图像模态向量，m为第一模态特征向量的长度，v₁，v₂，...，v_m分别表示第二模态特征向量中的第一个、第二个和第n个元素；

s3：将第一模态特征向量T＝(t₁，t₂，...，t_n)和第二模态特征向量V＝(v₁，v₂，...，v_m)输入极限学习机及深度典型相关性网络的组合模块：E-DCCA模型，进行多模态特征融合，其中，E-DCCA模型包括极限学习机和深度典型相关性网络，极限学习机用于对输入的第一模态特征向量和第二模态特征向量进行处理得到第一模态特征信息和第二模态特征信息；深度典型相关性网络用于对第一模态特征信息和第二模态特征信息进行相关性分析，输出两组模态特征信息的相关系数；

S4：对E-DCCA模型进行训练并学习最优隐层参数，得到使步骤S3中模态特征信息的相关系数尽可能大的隐层参数；使用最优隐层参数来学习图文多模态数据的相关系数，并根据最高相关系数输出对应的模态表示。

在一种实施方式中，步骤S1中对采集的原始数据集进行预处理，包括：

对第一模态数据进行填补或截断，在句首加入[CLS]标识，句尾加入[SEP]标识，然后输入词元获得词向量；对第二模态数据进行降噪、增强和分割；其中，第一模态数据Text，经过预处理后得到的数据特征表示为T∈R^b×len×ht，第二模态数据Vision经过数据预处理后得到的数据特征表示为V∈R^b×len×hv；其中，b是batch_size的大小，表示预设阈值，len表示数据的固定长度，ht、hv分别表示第一模态数据和第二模态数据经过数据预处理后的得到的数据特征维度。

在一种实施方式中，BERT-BiLSTM包括BERT模块和BiLSTM网络，步骤S2中将第一模态数据输入基于Transformer的双向编码器和双向长短记忆网络结合的模块BERT-BiLSTM中进行特征抽取，包括：

通过BERT模块进行词嵌入，将文本数据转化成词向量；

将转化得到的词向量输入BiLSTM网络进行特征抽取。

在一种实施方式中，步骤S3中极限学习机的处理过程包括：

对输入的第一模态特征向量和第二模态特征向量分别进行多次全连接层的非线性变换，得到经过权重矩阵和偏置调整得到第一模态特征信息和第二模态特征信息，表示为T′＝(t₁′,t₂′,…,t_n′)和V′＝(v₁′,v₂′,…,v_n′)。

在一种实施方式中，对输入的第一模态特征向量和第二模态特征向量分别进行多次全连接层的非线性变换，得到经过权重矩阵和偏置调整得到第一模态特征信息和第二模态特征信息，包括：

初始化隐含层的输出函数g(w,x,b)，其中，隐含层神经元节点的个数L，随机生成隐含层节点参数；

分别对第一模态特征向量和第二模态特征量进行非线性变换，得到第一输出

第一输出t_j′为第一模态特征信息的组成；得到第二输出

第二输出v_j′为第二模态特征信息的组成，g()代表激活函数，w_i是输入层神经元到隐含层的权重，β_i为隐含层神经元到输出层的权重，b_i为隐含层单元的偏置。

在一种实施方式中，深度典型相关性网络包括深度神经网络和典型相关性分析模块，步骤S3中深度典型相关性网络的处理过程包括：

通过深度神经网络的每一层对输入的第一模态特征信息进行处理，得到第1层输出为

第2层输出为

第d层输出为

通过深度神经网络的每一层对输入的第二模态特征信息进行处理，得到第1层输出为

第2层输出为

第d层输出为

其中，G()是深度神经网络的激活函数，W_i是第i层神经网络的权重，W_i为第i层神经网络的权重，B_i为第i层神经网络的偏置，d为深度神经网络的深度；

将经过深度神经网络得到的第一模态特征信息和第二模态特征信息，分析两组模态的相关系数：对齐图像与文本两组模态，对低维度的特征补0填充；学习两组模态相关系数，训练得到使输出层相关系数ρ尽可能大的参数θ_T＝{W^T，B^T}，θV＝{W^V，B^V}，公式为：

其中ρ为第一模态第二模态经过典型相关性分析后得到的相关系数，θ_T为第一模态在深度神经网络中的参数，θ_V为第二模态在深度神经网络中的参数，W为对应模态的网络权重，B为对应模态的网络偏置，f_T为得到文本模态网络输出向量的函数，f_V为得到图像模态网络输出向量的函数；相关系数ρ的取值为[-1，1]，ρ的绝对值越接近于1，则文本模态与图像模态的线性相关性越高，越接近于0，则文本模态与图像模态的线性相关性越低。

在一种实施方式中，S4的训练过程中采用mini-batch方法的随机梯度下降算法。

基于同样的发明构思，本发明第二方面提供了基于深度融合的跨模态大数据检索系统，包括：

数据采集与预处理模块，用于采集原始数据集，对采集的原始数据集进行预处理，其中，采集的原始数据集包括文本数据和图像，定义文本数据为第一模态数据Text，图像数据为第二模态数据Vision；

特征抽取模块，用于将第一模态数据输入基于Transformer的双向编码器和双向长短记忆网络结合的模块BERT-BiLSTM中进行特征抽取，得到第一模态特征向量T＝(t₁，t₂，...，t_n)，其中，n为第一模态特征向量的长度，t₁，t₂，...，t_n分别表示第一模态特征向量中的第一个、第二个和第n个元素；将第二模态数据输入基于自注意力机制的图像分类方法Vision Transformer网络进行特征抽取，得到第二模态特征向量V＝(v₁，v₂，...，v_m)，其中，V表示图像模态向量，m为第一模态特征向量的长度，v₁，v₂，...，v_m分别表示第二模态特征向量中的第一个、第二个和第n个元素；

特征融合模块，用于将第一模态特征向量T＝(t₁，t₂，...，t_n)和第二模态特征向量V＝(v₁，v₂，...，v_m)输入极限学习机及深度典型相关性网络的组合模块：E-DCCA模型，进行多模态特征融合，其中，E-DCCA模型包括极限学习机和深度典型相关性网络，极限学习机用于对输入的第一模态特征向量和第二模态特征向量进行处理得到第一模态特征信息和第二模态特征信息；深度典型相关性网络用于对第一模态特征信息和第二模态特征信息进行相关性分析，输出两组模态特征信息的相关系数；

输出模块，用于对E-DCCA模型进行训练并学习最优隐层参数，得到使特征融合模块中模态特征信息的相关系数尽可能大的隐层参数；使用最优隐层参数来学习图文多模态数据的相关系数，并根据最高相关系数输出对应的模态表示。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

相对于现有技术，本发明的优点和有益的技术效果如下：

本发明公开的基于深度融合的跨模态大数据检索方法，首先对采集的原始数据集进行预处理，分别得到第一模态数据(文本模态数据)和第二模态数据(图像模态数据)，然后分别利用BERT-BiLSTM和Vision Transformer进行特征抽取，接着利用E-DCCA模型，进行多模态特征融合，E-DCCA模型为极限学习机及深度典型相关性网络的组合模块，可以通过深度神经网络对两组变量之间复杂的非线性变换进行学习，并使其结果高度线性相关，充分利用神经网络的深度非线性映射，将多模态数据从样本空间映射到特征空间；并通过在网络结果上连接一个简单的前馈神经网络——极限学习机，其单层的神经网络，在达到良好性能的同时能提供更快的学习速率。从而改善了检索效果，并提高了数据融合的速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于深度融合的跨模态大数据检索方法的流程图；

图2是本发明实施例中E-DCCA网络结构图；

图3是本发明实施例中采用的图像模态数据示意图。

具体实施方式

为解决不同模态间的异步鸿沟问题，提高多模态信息间的融合效率，本发明的目的在于提供一种深度融合的跨模态大数据检索方法，协助工作人员对地区发展数据有更好的整合和分析能力，提供人员工作效率，实现更高效精准的对经济、建设、文化、医疗、人才、工业等多方面信息起到一个管理作用，实现治理数据的可视化；本发明所使用的网络能够有针对性的提取图像和文本模态的特征信息，再通过深度典型相关性分析模型进行特征融合，学习不同模态之间的相关性系数，来进行图文匹配和检索，并加入了极限学习机网络来提高泛化能力，解决过拟合问题。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了基于深度融合的跨模态大数据检索方法，包括：

请参见图1，是本发明实施例提供的基于深度融合的跨模态大数据检索方法的流程图；

具体来说，步骤S1中文本数据为第一模态数据Text，图像数据为第二模态数据Vision，即第一模态为文本模态，第二模态为图像模态。

具体实施过程中，可以使用基于地区治理报告的数据集：选择从百度百科、湖北省发展规划数据库、湖北省人民政府官网等权威网站获取的信息资料，包含工业建设、经济发展、医疗卫生服务、生态环境、人才引进等方面的治理报告及相关影音图像，选取其中相对应的文本与图像对作为本实施例的数据集；

文本模态：[2018年4月16日，武汉长江公铁隧道右线成功贯通。5月27日，武汉长江公铁隧道左线成功贯通。10月1日，武汉地铁7号线一期工程(园博园北站至野芷湖站)开通运营。]

图像模态：为对应的地铁线路运营图，如图3所示。

步骤S2利用BERT-BiLSTM对第一模态数据进行特征提取，首先在BERT阶段进行词嵌入，然后将嵌入的词向量输入BiLSTM网络进行特征抽取；利用Vision Transformer网络对第二模态数据进行特征提取。

步骤S3是特征的融合，即将步骤S2提取的第一模态特征信息与第二模态特征信息进行融合，并得到两组特征信息的相关系数。

步骤S4根据隐含层参数调整训练模型，学习图文多模态数据的相关系数，根据最高相关系数输出对应的模态表示。

本发明的主要优点包括：

(1)用深度神经网络对两组变量之间复杂的非线性变换进行学习，并使其结果高度线性相关，充分利用神经网络的深度非线性映射，将多模态数据从样本空间映射到特征空间；

(2)在网络结果上连接一个简单的前馈神经网络——极限学习机，其单层的神经网络，在达到良好性能的同时能提供更快的学习速率。

通过BERT模块进行词嵌入，将文本数据转化成词向量；

将转化得到的词向量输入BiLSTM网络进行特征抽取。

具体实施过程中，首先进行词嵌入，将文本数据转化成词向量，词向量进入BERT层进行预训练得到包含上下文语义的BERT模型，这个过程会进行掩码预测任务MLM和二分类预测任务NSP，最后输入BiLSTM网络进行特征抽取。

在一种实施方式中，步骤S3中极限学习机的处理过程包括：

对输入的第一模态特征向量和第二模态特征向量分别进行多次全连接层的非线性变换，得到经过权重矩阵和偏置调整得到第一模态特征信息和第二模态特征信息，表示为T′＝(t₁′，t₂′，...，t_n′)和V′＝(v₁′，v₂′，...，v_m′)。

初始化隐含层的输出函数g(w，x，b)，其中，隐含层神经元节点的个数L，随机生成隐含层节点参数；

第一输出t_j′为第一模态特征信息的组成；得到第二输出

具体实施过程中，极限学习机的输入为：T＝(t₁，t₂，...，t_n)，V＝(v₁，v₂，...，v_m)；然后初始化隐层节点参数；经过处理得到输出；

然后经过极限学习机网络输出的第一模态特征信息为T′＝(t₁′，t₂′，...，t_n′)，第二模态特征信息为V′＝(v₁′，v₂′，...，v_m′)。

请参见图2，是本发明实施例中E-DCCA网络结构图。

第2层输出为

第d层输出为

第2层输出为

第d层输出为

将经过深度神经网络得到的第一模态特征信息和第二模态特征信息，分析两组模态的相关系数：对齐图像与文本两组模态，对低维度的特征补0填充；学习两组模态相关系数，训练得到使输出层相关系数ρ尽可能大的参数θ_T＝{W^T，B^T}，θ_V＝{W^V，B^V}，公式为：

其中ρ为第一模态第二模态经过典型相关性分析后得到的相关系数，θ_T为第一模态在深度神经网络中的参数，θ_V为第二模态在深度神经网络中的参数，W为对应模态的网络权重，B为对应模态的网络偏置，f_T为得到文本模态网络输出向量的函数，f_V为得到图像模态网络输出向量的函数；相关系数ρ的取值为[-1,1],ρ的绝对值越接近于1，则文本模态与图像模态的线性相关性越高，越接近于0，则文本模态与图像模态的线性相关性越低。

具体实施过程中，采用上述算法对网络进行训练，根据训练数据集的图文匹配信息，学习得到使两组特征信息的相关系数尽可能大的隐层参数；

对训练好的网络，输入图文检索测试数据集，分别经过特征提取模块得到图文特征信息，将特征信息输入E-DCCA网络学习得到两组模态数据的相关系数，并输出相关系数最高的图文数据对。

本实施例使用基于地区治理报告的数据集：选择从百度百科、湖北省发展规划数据库、湖北省人民政府官网等权威网站获取的信息资料，包含工业建设、经济发展、医疗卫生服务、生态环境、人才引进等方面的治理报告及相关影音图像，选取其中相对应的文本与图像对作为本实施例的数据集。该数据集结合跨模态检索的方法，能有效提高工作人员对相关资料的检索效率，也能辅助该地区人民迅速了解当地发展状况，结合图文的检索能获得更丰富的结果，得到更精准的指向，极大的减轻了人工的工作量，提高了工作人员的工作效率。

本实施例使用L1Loss损失函数和AdamW优化器作为网络的处理。

其中，MAE表示平方绝对误差，y_i′表示第i′个样本标签的情感值大小，

表示预测值大小，n表示总的样本数。

总体来说，本发明的优点和有益技术效果如下：

本发明结合图文特征提取方法和多模态融合，考虑网络结构的简洁和模型训练的高效率，提出了一种深度融合的跨模态城市治理大数据检索方法，能有效提高工作人员对相关资料的检索效率，辅助该地区人民迅速了解当地发展状况，极大的减轻了人工的工作量，提高了人员的工作效率。在网络结构上，本发明能有效学习图像与文本双模态之间的相似性，实现图文跨模态检索，并加入极限学习机来提升网络泛化性能，解决模型过拟合问题。

实施例二

基于同样的发明构思，本发明公开了基于深度融合的跨模态大数据检索系统，包括：

输出模块，用于对E-DCCA模型进行训练并学习最优隐层参数，得到使步骤S3中模态特征信息的相关系数尽可能大的隐层参数；使用最优隐层参数来学习图文多模态数据的相关系数，并根据最高相关系数输出对应的模态表示。

具体来说，数据采集与预处理模块：主要用于数据的采集与预处理，

特征提取(抽取)模块：将预处理后的文本模态输入BERT+BiLSTM网络进行特征提取，图像模态输入Vision Transformer网络进行特征提取；

多模态融合模块：将文本和图像特征输入E-DCCA网络进行多次全连接层的非线性变换，再进行相关性分析得到两种模态的相关性系数，并根据最高相关系数输出对应的图文表示对；

输出模块，根据隐层参数调整训练模型，学习图文多模态数据的相关系数，根据最高相关系数输出对应的模态表示。

由于本发明实施例二所介绍的系统为实施本发明实施例一中基于深度融合的跨模态大数据检索方法所采用的系统，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该系统的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的系统都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于深度融合的跨模态大数据检索方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本申请还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于深度融合的跨模态大数据检索方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于深度融合的跨模态大数据检索方法，其特征在于，包括：

S2：将第一模态数据输入基于Transformer的双向编码器和双向长短记忆网络结合的模块BERT-BiLSTM中进行特征抽取，得到第一模态特征向量T＝(t₁,t₂,…,t_n)，其中，n为第一模态特征向量的长度，t₁，t₂,…,t_n分别表示第一模态特征向量中的第一个、第二个和第n个元素；将第二模态数据输入基于自注意力机制的图像分类方法Vision Transformer网络进行特征抽取，得到第二模态特征向量V＝(v₁,v₂,…,v_m)，其中，V表示图像模态向量，m为第一模态特征向量的长度，v₁,v₂,…,v_m分别表示第二模态特征向量中的第一个、第二个和第n个元素；

S3：将第一模态特征向量T＝(t₁,t₂,…,t_n)和第二模态特征向量V＝(v₁,v₂,…,v_m)输入极限学习机及深度典型相关性网络的组合模块：E-DCCA模型，进行多模态特征融合，其中，E-DCCA模型包括极限学习机和深度典型相关性网络，极限学习机用于对输入的第一模态特征向量和第二模态特征向量进行处理得到第一模态特征信息和第二模态特征信息；深度典型相关性网络用于对第一模态特征信息和第二模态特征信息进行相关性分析，输出两组模态特征信息的相关系数；

2.如权利要求1所述的基于深度融合的跨模态大数据检索方法，其特征在于，步骤S1中对采集的原始数据集进行预处理，包括：

3.如权利要求1所述的基于深度融合的跨模态大数据检索方法，其特征在于，BERT-BiLSTM包括BERT模块和BiLSTM网络，步骤S2中将第一模态数据输入基于Transformer的双向编码器和双向长短记忆网络结合的模块BERT-BiLSTM中进行特征抽取，包括：

通过BERT模块进行词嵌入，将文本数据转化成词向量；

将转化得到的词向量输入BiLSTM网络进行特征抽取。

4.如权利要求1所述的基于深度融合的跨模态大数据检索方法，其特征在于，步骤S3中极限学习机的处理过程包括：

对输入的第一模态特征向量和第二模态特征向量分别进行多次全连接层的非线性变换，得到经过权重矩阵和偏置调整得到第一模态特征信息和第二模态特征信息，表示为T′＝(t₁′,t₂′,…,t_n′)和V′＝(v₁′,v₂′,…,v_m′)。

5.如权利要求4所述的基于深度融合的跨模态大数据检索方法，其特征在于，对输入的第一模态特征向量和第二模态特征向量分别进行多次全连接层的非线性变换，得到经过权重矩阵和偏置调整得到第一模态特征信息和第二模态特征信息，包括：

第一输出t_j′为第一模态特征信息的组成；得到第二输出

6.如权利要求5所述的基于深度融合的跨模态大数据检索方法，其特征在于，深度典型相关性网络包括深度神经网络和典型相关性分析模块，步骤S3中深度典型相关性网络的处理过程包括：

第2层输出为

第d层输出为

第2层输出为

第d层输出为

7.如权利要求1所述的基于深度融合的跨模态大数据检索方法，其特征在于，S4的训练过程中采用mini-batch方法的随机梯度下降算法。

8.基于深度融合的跨模态大数据检索系统，其特征在于，包括：

特征抽取模块，用于将第一模态数据输入基于Transformer的双向编码器和双向长短记忆网络结合的模块BERT-BiLSTM中进行特征抽取，得到第一模态特征向量T＝(t₁,t₂,…,t_n)，其中，n为第一模态特征向量的长度，t₁，t₂,…,t_n分别表示第一模态特征向量中的第一个、第二个和第n个元素；将第二模态数据输入基于自注意力机制的图像分类方法VisionTransformer网络进行特征抽取，得到第二模态特征向量V＝(v₁,v₂,…,v_m)，其中，V表示图像模态向量，m为第一模态特征向量的长度，v₁,v₂,…,v_m分别表示第二模态特征向量中的第一个、第二个和第n个元素；

特征融合模块，用于将第一模态特征向量T＝(t₁,t₂,…,t_n)和第二模态特征向量V＝(v₁,v₂,…,v_m)输入极限学习机及深度典型相关性网络的组合模块：E-DCCA模型，进行多模态特征融合，其中，E-DCCA模型包括极限学习机和深度典型相关性网络，极限学习机用于对输入的第一模态特征向量和第二模态特征向量进行处理得到第一模态特征信息和第二模态特征信息；深度典型相关性网络用于对第一模态特征信息和第二模态特征信息进行相关性分析，输出两组模态特征信息的相关系数；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如权利要求1至7中任一项权利要求所述的方法。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。