CN109785409B - 一种基于注意力机制的图像-文本数据融合方法和系统 - Google Patents
一种基于注意力机制的图像-文本数据融合方法和系统 Download PDFInfo
- Publication number
- CN109785409B CN109785409B CN201811644583.6A CN201811644583A CN109785409B CN 109785409 B CN109785409 B CN 109785409B CN 201811644583 A CN201811644583 A CN 201811644583A CN 109785409 B CN109785409 B CN 109785409B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- data
- vector
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制的图像‑文本数据融合方法和系统,该方法首先构建基于注意力机制的图像‑文本数据融合网络,并基于特定任务构建完整的训练网络,再利用训练集进行训练,然后将待融合的图像和文本数据输入训练好的数据融合网络中,实现两者的数据融合。具有如下突出的特点和优点:第一,引入位置编码代替循环神经网络对文本上下文进行建模,数据融合网络的可并行化程度更高,训练模型的训练速率更快;第二,通过图像和文本在语义层次上的融合,使得融合后的数据质量更高,可用性更强;第三,该方法可以通过多种任务训练数据融合网络,鲁棒性更强。
Description
技术领域
本发明涉及一种图像和文本的数据融合方法,具体是构建基于注意力机制的图像-文本数据融合网络,然后根据特定任务构建完整的训练网络,再利用训练集进行训练,最后将需要融合的图像和文本数据输入训练好的数据融合网络得到融合后的数据,是一种基于注意力机制的图像-文本数据融合方法。
背景技术
近年来,随着传感器技术和计算机技术的迅速发展大大推动了数据融合技术的研究,数据融合技术的应用领域也从军事迅速扩展到了民用。目前,数据融合技术己在许多民用领域取得成效。这些领域主要包括机器人和智能仪器系统、智能制造系统、战场任务与无人驾驶飞机、航天应用、目标检测与跟踪、图像分析与理解、惯性导航等领域。
当前主流的数据融合方法利用多个传感器所获取的关于对象和环境全面、完整信息,主要体现在融合算法上。因此,多传感器系统的核心问题是选择合适的融合算法。对于多传感器系统来说,信息具有多样性和复杂性,因此,对信息融合方法的基本要求是具有鲁棒性和并行处理能力。此外,还有方法的运算速度和精度;与前续预处理系统和后续信息识别系统的接口性能;与不同技术和方法的协调能力;对信息样本的要求等。一般情况下,基于非线性的数学方法,如果它具有容错性、自适应性、联想记忆和并行处理能力,则都可以用来作为融合方法。多传感器数据融合虽然未形成完整的理论体系和有效的融合算法,但在不少应用领域根据各自的具体应用背景,已经提出了许多成熟并且有效的融合方法。
近年来,人们提出了多种信息融合模型.其共同点或中心思想是在数据融合过程中进行多级处理。从模型层面上主要分为两大类:a)功能型模型,主要根据节点顺序构建;b)数据型模型,主要根据数据提取加以构建。从算法层面考虑数据融合的常用方法基本上可概括为随机和人工智能两大类。随机类算法有加权平均法、卡尔曼滤波法、多贝叶斯估计法、证据推理、产生式规则等;而人工智能类则有模糊逻辑理论、神经网络、粗糙集理论、专家系统等。在计算机计算能力的迅速增长和大数据背景下,神经网络这一方法表现出来远超其他方法的融合效果。
随机类算法在过往都有过较好的融合表现力,但随着技术的不断发展,这些方法或多或少存在着一些局限性:
(1)如卡尔曼滤波器在组合信息大量冗余的情况下,计算量将以滤波器维数的三次方剧增,实时性不能满足;传感器子系统的增加使故障随之增加,在某一系统出现故障而没有来得及被检测出时,故障会污染整个系统,使可靠性降低;
(2)多贝叶斯估计法只适用于静态环境的高层数据融合,同时它需要满足的假设条件在现实情况中很难达到;
(3)当有新的数据源加入到系统中时,产生式规则需要及时加入新的附加规则,在实际操作过程中维护比较困难。
发明内容
本发明的目的在于针对目前各源数据融合算法中存在的适用范围受限,融合效果不理想,提供一种基于注意力机制的图像-文本数据融合方法。该方法首先构建基于注意力机制的图像-文本数据融合网络,并基于特定任务构建完整的训练网络,再利用训练集进行训练,然后将待融合的图像和文本数据输入训练好的数据融合网络中,实现两者的数据融合。
为了达到上述的目的,本发明的构思如下:收集特定任务的图像-文本训练数据并进行预处理;构建基于注意力机制的图像-文本数据融合网络并根据相应任务构建完整的训练网络;对训练网络进行训练;将训练好的数据融合网络用于图像和文本的数据融合中。
根据上述的发明思想,本发明采用下述技术方案:一种基于注意力机制的图像-文本数据融合方法,其具体步骤如下:
步骤S1,收集特定任务下的图像和文本数据集;
步骤S2,对收集到的图像和文本数据集进行预处理,作为训练集;
步骤S3,构建基于注意力机制的图像-文本数据融合网络;
步骤S4,根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
步骤S5,利用训练集对训练网络进行训练;
步骤S6,对待融合的图像和文本数据集进行预处理;
步骤S7,将预处理后的图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
进一步的,所述步骤S2和S6中,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
进一步的,步骤S3中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,
(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi;
(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;
(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积。
本发明还提供一种基于注意力机制的图像-文本数据融合系统,包括如下模块:
数据收集模块,用于收集特定任务下的图像和文本数据集;
预处理模块,用于对收集到的图像和文本数据集进行预处理,作为训练集;以及对待融合的图像和文本数据集进行预处理;
融合网络构建模块,用于构建基于注意力机制的图像-文本数据融合网络;
训练网络构建模块,用于根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
训练网络训练模块,用于利用训练集对训练网络进行训练;
数据融合模块,用于将预处理后的待融合图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
进一步的,所述预处理模块,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
进一步的,融合网络构建模块中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,
(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi;
(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;
(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积。
本发明的一种基于注意力机制的图像-文本数据融合方法,与现有的技术相比较,具有如下突出特点和优点:第一,引入位置编码代替循环神经网络对文本上下文进行建模,数据融合网络的可并行化程度更高,训练模型的训练速率更快;第二,通过图像和文本在语义层次上的融合,使得融合后的数据质量更高,可用性更强;第三,该方法可以通过多种任务训练数据融合网络,鲁棒性更强。
附图说明
图1是本发明的一种基于注意力机制的图像-文本数据融合方法的流程图。
图2是设计的基于注意力机制的图像-文本数据融合网络。
图3是设计的图像-文本匹配任务的训练网络。
具体实施方式
以下结合附图对本发明的实施例作进一步的说明。
实施例一:参见图1,本基于注意力机制的图像-文本数据融合方法,其特征在于:针对图像和文本数据,基于注意力机制,结合词向量、位置编码和基于卷积核的特征映射构建图像-文本数据融合网络,并根据具体任务构建完整的训练网络,通过训练得到可用的数据融合网络,进而实现图像和文本数据的融合。具体步骤如下;
步骤S1,收集特定任务下的图像和文本数据集;
步骤S2,对收集到的图像和文本数据集进行预处理,作为训练集;
步骤S3,构建基于注意力机制的图像-文本数据融合网络;
步骤S4,根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
步骤S5,利用训练集对训练网络进行训练;
步骤S6,对待融合的图像和文本数据集进行预处理;
步骤S7,将预处理后的图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
所述步骤S1中特定任务需要同时包含图像和文本数据集,可以构建图像-文本对作为任务输入,并有一个任务输出。
所述步骤S2和S6中对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
所述步骤S3中基于注意力机制的图像-文本数据融合网络的输入包括预处理后的图像数据和文本数据。参见图2,网络的描述如下:
(3a)对输入的文本数据,结合词向量(图2中的Word Embedding)和位置编码(图2中的Position Encoding)生成文本中的每个词项的编码向量。具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值。
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi;
(3b)对输入的图像数据,使用二维滑动窗口(图2中的Sliding Window)以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作(图2中的Flatten),生成窗口向量;
(3c)对每个窗口向量,利用注意力机制(图2中的Attention)将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量。具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状(图2中的Reshape),得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核(图2中的Kernel)对所有融合后的图像数据块进行特征映射(图2中的Feature Mapping),得到的特征图(图2中的FeatureMaps)即为图像和文本最终融合了的数据。具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积;
所述步骤S4中数据融合网络的输出为输出网络的输入,训练网络的输出为任务输出。
实施例二:本基于注意力机制的图像-文本数据融合方法,以图像检索任务为特定任务,并以图3中设计的网络为训练网络,数据融合网络如图2所示。根据图1,本实施例的一种基于注意力机制的图像-文本数据融合方法,其步骤如下:
S1.选择著名的Flickr30k数据集作为特定任务的数据集,该数据集中共有31000张图像,每张图像对应有5个不同的文本标注。将图像及其文本标注视为任务输入,任务输出为1,表示图像和文本标注是匹配的。
S2.对收集到的图像和文本数据集进行预处理,即对图像数据进行去均值化操作,对文本标注进行分词操作,预处理后的数据集作为训练集。
S3.构建基于注意力机制的图像-文本数据融合网络(图3中的Image-Text FusionNetworks)。参见图2,网络的具体构建过程如下:
(3a)对输入的文本数据,结合词向量(图2中的Word Embedding)和位置编码(图2中的Position Encoding)生成文本中的每个词项的编码向量。具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D=200维的词向量vi,而该词项对应的200维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值。
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi;
(3b)对输入的图像数据,使用尺寸为3×3的二维滑动窗口(图2中的SlidingWindow)以1为步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作(图2中的Flatten),生成9维的窗口向量;
(3c)对每个窗口向量,利用注意力机制(图2中的Attention)将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量。具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的9×200大小的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3分别是需要训练的100×200和100×9大小的参数矩阵,y是需要训练的100维的参数向量;
(3d)重构融合后的9维窗口向量的形状(图2中的Reshape),得到与滑动窗口尺寸相同的3×3大小的图层数据块,然后合并所有通道下的图层数据块,得到融合后的3×3×3大小的图像数据块;
(3e)使用20个与滑动窗口长宽同等的3×3大小的卷积核(图2中的Kernel)对所有融合后的图像数据块进行特征映射(图2中的Feature Mapping),得到的20个特征图(图2中的Feature Maps)即为图像和文本最终融合了的数据。具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积。
S4.根据任务构建输出网络,连接于数据融合网络之后,形成训练网络。其中,输出网络包括扁平化层(图3中的Flatten)、全连接层(图3中的Full Connection)和Softmax层(图3中的Softmax),数据融合网络输出的特征图为输出网络的输入,训练网络的输出为任务输出,即1。
S5.利用训练集对训练网络进行训练,选择Adam作为优化器,批大小batchsize设为32,迭代次数epoch设为20。
S6.对待融合的图像和文本数据集进行预处理,即对图像数据进行去均值化操作,对文本进行分词操作。
S7.将预处理后的图像和文本数据输入训练好的数据融合网络,输出的特征图即为图像和文本的融合数据。
本发明还提供一种基于注意力机制的图像-文本数据融合系统,包括如下模块:
数据收集模块,用于收集特定任务下的图像和文本数据集;
预处理模块,用于对收集到的图像和文本数据集进行预处理,作为训练集;以及对待融合的图像和文本数据集进行预处理;
融合网络构建模块,用于构建基于注意力机制的图像-文本数据融合网络;
训练网络构建模块,用于根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
训练网络训练模块,用于利用训练集对训练网络进行训练;
数据融合模块,用于将预处理后的待融合图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
进一步的,所述预处理模块,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
进一步的,融合网络构建模块中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,
(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi;
(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;
(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积。
各模块的具体实现和各步骤相应,本发明不予撰述。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (4)
1.一种基于注意力机制的图像-文本数据融合方法,其特征在于,包括如下步骤:
步骤S1,收集特定任务下的图像和文本数据集;
步骤S2,对收集到的图像和文本数据集进行预处理,作为训练集;
步骤S3,构建基于注意力机制的图像-文本数据融合网络;
步骤S3中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,
(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi;
(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;
(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积;
步骤S4,根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
步骤S5,利用训练集对训练网络进行训练;
步骤S6,对待融合的图像和文本数据集进行预处理;
步骤S7,将预处理后的图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
2.如权利要求1所述的一种基于注意力机制的图像-文本数据融合方法,其特征在于:所述步骤S2和S6中,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
3.一种基于注意力机制的图像-文本数据融合系统,其特征在于,包括如下模块:
数据收集模块,用于收集特定任务下的图像和文本数据集;
预处理模块,用于对收集到的图像和文本数据集进行预处理,作为训练集;以及对待融合的图像和文本数据集进行预处理;
融合网络构建模块,用于构建基于注意力机制的图像-文本数据融合网络;
融合网络构建模块中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,
(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi;
(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;
(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积;
训练网络构建模块,用于根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
训练网络训练模块,用于利用训练集对训练网络进行训练;
数据融合模块,用于将预处理后的待融合图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
4.如权利要求3所述的一种基于注意力机制的图像-文本数据融合系统,其特征在于:所述预处理模块,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811644583.6A CN109785409B (zh) | 2018-12-29 | 2018-12-29 | 一种基于注意力机制的图像-文本数据融合方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811644583.6A CN109785409B (zh) | 2018-12-29 | 2018-12-29 | 一种基于注意力机制的图像-文本数据融合方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109785409A CN109785409A (zh) | 2019-05-21 |
CN109785409B true CN109785409B (zh) | 2020-09-08 |
Family
ID=66499563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811644583.6A Active CN109785409B (zh) | 2018-12-29 | 2018-12-29 | 一种基于注意力机制的图像-文本数据融合方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109785409B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008726B (zh) * | 2019-10-28 | 2023-08-29 | 武汉理工大学 | 一种电力负荷预测中类图片转换方法 |
CN110929013A (zh) * | 2019-12-04 | 2020-03-27 | 成都中科云集信息技术有限公司 | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
CN111916207B (zh) * | 2020-08-07 | 2023-08-08 | 杭州深睿博联科技有限公司 | 一种基于多模态融合的疾病识别方法及装置 |
CN115330898B (zh) * | 2022-08-24 | 2023-06-06 | 晋城市大锐金马工程设计咨询有限公司 | 一种基于改进Swin Transformer的杂志广告嵌入方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN107679582A (zh) * | 2017-10-20 | 2018-02-09 | 深圳市唯特视科技有限公司 | 一种基于多模态分解模型进行可视问答的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180350459A1 (en) * | 2017-06-05 | 2018-12-06 | University Of Florida Research Foundation, Inc. | Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network |
CN107766894B (zh) * | 2017-11-03 | 2021-01-22 | 吉林大学 | 基于注意力机制和深度学习的遥感图像自然语言生成方法 |
-
2018
- 2018-12-29 CN CN201811644583.6A patent/CN109785409B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN107679582A (zh) * | 2017-10-20 | 2018-02-09 | 深圳市唯特视科技有限公司 | 一种基于多模态分解模型进行可视问答的方法 |
Non-Patent Citations (2)
Title |
---|
Channel attention and multi-level features fusion for single image super-resolution;Yue Lu等;《arxiv.org》;20181016;1-4 * |
多媒体内容理解的研究现状与展望;彭宇新等;《计算机研究与发展》;20181221;第56卷(第1期);183-208 * |
Also Published As
Publication number | Publication date |
---|---|
CN109785409A (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khelifi et al. | Deep learning for change detection in remote sensing images: Comprehensive review and meta-analysis | |
CN109785409B (zh) | 一种基于注意力机制的图像-文本数据融合方法和系统 | |
Wang et al. | RSNet: The search for remote sensing deep neural networks in recognition tasks | |
Gamboa | Deep learning for time-series analysis | |
CN112991354B (zh) | 一种基于深度学习的高分辨率遥感影像语义分割方法 | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
Xie et al. | Point clouds learning with attention-based graph convolution networks | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
CN113657450B (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
US11816841B2 (en) | Method and system for graph-based panoptic segmentation | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN113221852B (zh) | 一种目标识别方法及装置 | |
CN103065158A (zh) | 基于相对梯度的isa模型的行为识别方法 | |
CN115100574A (zh) | 基于融合图卷积网络与Transformer网络的动作识别方法及系统 | |
Li et al. | Towards broad learning networks on unmanned mobile robot for semantic segmentation | |
CN116152611B (zh) | 一种多级多尺度点云补全方法、系统、设备及存储介质 | |
Kakillioglu et al. | 3D capsule networks for object classification with weight pruning | |
CN114373099A (zh) | 一种基于稀疏图卷积的三维点云分类方法 | |
Sun et al. | Two-stage deep regression enhanced depth estimation from a single RGB image | |
Luo et al. | Dense-tnt: Efficient vehicle type classification neural network using satellite imagery | |
Sellat et al. | Semantic segmentation for self-driving cars using deep learning: a survey | |
CN113887330A (zh) | 一种基于遥感图像的目标检测系统 | |
Alam et al. | Novel hierarchical Cellular Simultaneous Recurrent neural Network for object detection | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |