CN109785409A - 一种基于注意力机制的图像-文本数据融合方法和系统 - Google Patents

一种基于注意力机制的图像-文本数据融合方法和系统 Download PDF

Info

Publication number
CN109785409A
CN109785409A CN201811644583.6A CN201811644583A CN109785409A CN 109785409 A CN109785409 A CN 109785409A CN 201811644583 A CN201811644583 A CN 201811644583A CN 109785409 A CN109785409 A CN 109785409A
Authority
CN
China
Prior art keywords
text
data
image
vector
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811644583.6A
Other languages
English (en)
Other versions
CN109785409B (zh
Inventor
刘进
郭峻材
沈晨凯
崔晓晖
储玮
周平义
余啸
付忠旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201811644583.6A priority Critical patent/CN109785409B/zh
Publication of CN109785409A publication Critical patent/CN109785409A/zh
Application granted granted Critical
Publication of CN109785409B publication Critical patent/CN109785409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的图像‑文本数据融合方法和系统,该方法首先构建基于注意力机制的图像‑文本数据融合网络,并基于特定任务构建完整的训练网络,再利用训练集进行训练,然后将待融合的图像和文本数据输入训练好的数据融合网络中,实现两者的数据融合。具有如下突出的特点和优点:第一,引入位置编码代替循环神经网络对文本上下文进行建模,数据融合网络的可并行化程度更高,训练模型的训练速率更快;第二,通过图像和文本在语义层次上的融合,使得融合后的数据质量更高,可用性更强;第三,该方法可以通过多种任务训练数据融合网络,鲁棒性更强。

Description

一种基于注意力机制的图像-文本数据融合方法和系统
技术领域
本发明涉及一种图像和文本的数据融合方法,具体是构建基于注意力机制的图像-文本数据融合网络,然后根据特定任务构建完整的训练网络,再利用训练集进行训练,最后将需要融合的图像和文本数据输入训练好的数据融合网络得到融合后的数据,是一种基于注意力机制的图像-文本数据融合方法。
背景技术
近年来,随着传感器技术和计算机技术的迅速发展大大推动了数据融合技术的研究,数据融合技术的应用领域也从军事迅速扩展到了民用。目前,数据融合技术己在许多民用领域取得成效。这些领域主要包括机器人和智能仪器系统、智能制造系统、战场任务与无人驾驶飞机、航天应用、目标检测与跟踪、图像分析与理解、惯性导航等领域。
当前主流的数据融合方法利用多个传感器所获取的关于对象和环境全面、完整信息,主要体现在融合算法上。因此,多传感器系统的核心问题是选择合适的融合算法。对于多传感器系统来说,信息具有多样性和复杂性,因此,对信息融合方法的基本要求是具有鲁棒性和并行处理能力。此外,还有方法的运算速度和精度;与前续预处理系统和后续信息识别系统的接口性能;与不同技术和方法的协调能力;对信息样本的要求等。一般情况下,基于非线性的数学方法,如果它具有容错性、自适应性、联想记忆和并行处理能力,则都可以用来作为融合方法。多传感器数据融合虽然未形成完整的理论体系和有效的融合算法,但在不少应用领域根据各自的具体应用背景,已经提出了许多成熟并且有效的融合方法。
近年来,人们提出了多种信息融合模型.其共同点或中心思想是在数据融合过程中进行多级处理。从模型层面上主要分为两大类:a)功能型模型,主要根据节点顺序构建;b)数据型模型,主要根据数据提取加以构建。从算法层面考虑数据融合的常用方法基本上可概括为随机和人工智能两大类。随机类算法有加权平均法、卡尔曼滤波法、多贝叶斯估计法、证据推理、产生式规则等;而人工智能类则有模糊逻辑理论、神经网络、粗糙集理论、专家系统等。在计算机计算能力的迅速增长和大数据背景下,神经网络这一方法表现出来远超其他方法的融合效果。
随机类算法在过往都有过较好的融合表现力,但随着技术的不断发展,这些方法或多或少存在着一些局限性:
(1)如卡尔曼滤波器在组合信息大量冗余的情况下,计算量将以滤波器维数的三次方剧增,实时性不能满足;传感器子系统的增加使故障随之增加,在某一系统出现故障而没有来得及被检测出时,故障会污染整个系统,使可靠性降低;
(2)多贝叶斯估计法只适用于静态环境的高层数据融合,同时它需要满足的假设条件在现实情况中很难达到;
(3)当有新的数据源加入到系统中时,产生式规则需要及时加入新的附加规则,在实际操作过程中维护比较困难。
发明内容
本发明的目的在于针对目前各源数据融合算法中存在的适用范围受限,融合效果不理想,提供一种基于注意力机制的图像-文本数据融合方法。该方法首先构建基于注意力机制的图像-文本数据融合网络,并基于特定任务构建完整的训练网络,再利用训练集进行训练,然后将待融合的图像和文本数据输入训练好的数据融合网络中,实现两者的数据融合。
为了达到上述的目的,本发明的构思如下:收集特定任务的图像-文本训练数据并进行预处理;构建基于注意力机制的图像-文本数据融合网络并根据相应任务构建完整的训练网络;对训练网络进行训练;将训练好的数据融合网络用于图像和文本的数据融合中。
根据上述的发明思想,本发明采用下述技术方案:一种基于注意力机制的图像-文本数据融合方法,其具体步骤如下:
步骤S1,收集特定任务下的图像和文本数据集;
步骤S2,对收集到的图像和文本数据集进行预处理,作为训练集;
步骤S3,构建基于注意力机制的图像-文本数据融合网络;
步骤S4,根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
步骤S5,利用训练集对训练网络进行训练;
步骤S6,对待融合的图像和文本数据集进行预处理;
步骤S7,将预处理后的图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
进一步的,所述步骤S2和S6中,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
进一步的,步骤S3中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,
(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi
(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;
(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积。
本发明还提供一种基于注意力机制的图像-文本数据融合系统,包括如下模块:
数据收集模块,用于收集特定任务下的图像和文本数据集;
预处理模块,用于对收集到的图像和文本数据集进行预处理,作为训练集;以及对待融合的图像和文本数据集进行预处理;
融合网络构建模块,用于构建基于注意力机制的图像-文本数据融合网络;
训练网络构建模块,用于根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
训练网络训练模块,用于利用训练集对训练网络进行训练;
数据融合模块,用于将预处理后的待融合图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
进一步的,所述预处理模块,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
进一步的,融合网络构建模块中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,
(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi
(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;
(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积。
本发明的一种基于注意力机制的图像-文本数据融合方法,与现有的技术相比较,具有如下突出特点和优点:第一,引入位置编码代替循环神经网络对文本上下文进行建模,数据融合网络的可并行化程度更高,训练模型的训练速率更快;第二,通过图像和文本在语义层次上的融合,使得融合后的数据质量更高,可用性更强;第三,该方法可以通过多种任务训练数据融合网络,鲁棒性更强。
附图说明
图1是本发明的一种基于注意力机制的图像-文本数据融合方法的流程图。
图2是设计的基于注意力机制的图像-文本数据融合网络。
图3是设计的图像-文本匹配任务的训练网络。
具体实施方式
以下结合附图对本发明的实施例作进一步的说明。
实施例一:参见图1,本基于注意力机制的图像-文本数据融合方法,其特征在于:针对图像和文本数据,基于注意力机制,结合词向量、位置编码和基于卷积核的特征映射构建图像-文本数据融合网络,并根据具体任务构建完整的训练网络,通过训练得到可用的数据融合网络,进而实现图像和文本数据的融合。具体步骤如下;
步骤S1,收集特定任务下的图像和文本数据集;
步骤S2,对收集到的图像和文本数据集进行预处理,作为训练集;
步骤S3,构建基于注意力机制的图像-文本数据融合网络;
步骤S4,根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
步骤S5,利用训练集对训练网络进行训练;
步骤S6,对待融合的图像和文本数据集进行预处理;
步骤S7,将预处理后的图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
所述步骤S1中特定任务需要同时包含图像和文本数据集,可以构建图像-文本对作为任务输入,并有一个任务输出。
所述步骤S2和S6中对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
所述步骤S3中基于注意力机制的图像-文本数据融合网络的输入包括预处理后的图像数据和文本数据。参见图2,网络的描述如下:
(3a)对输入的文本数据,结合词向量(图2中的Word Embedding)和位置编码(图2中的Position Encoding)生成文本中的每个词项的编码向量。具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值。
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi
(3b)对输入的图像数据,使用二维滑动窗口(图2中的Sliding Window)以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作(图2中的Flatten),生成窗口向量;
(3c)对每个窗口向量,利用注意力机制(图2中的Attention)将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量。具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状(图2中的Reshape),得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核(图2中的Kernel)对所有融合后的图像数据块进行特征映射(图2中的Feature Mapping),得到的特征图(图2中的FeatureMaps)即为图像和文本最终融合了的数据。具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积;
所述步骤S4中数据融合网络的输出为输出网络的输入,训练网络的输出为任务输出。
实施例二:本基于注意力机制的图像-文本数据融合方法,以图像检索任务为特定任务,并以图3中设计的网络为训练网络,数据融合网络如图2所示。根据图1,本实施例的一种基于注意力机制的图像-文本数据融合方法,其步骤如下:
S1.选择著名的Flickr30k数据集作为特定任务的数据集,该数据集中共有31000张图像,每张图像对应有5个不同的文本标注。将图像及其文本标注视为任务输入,任务输出为1,表示图像和文本标注是匹配的。
S2.对收集到的图像和文本数据集进行预处理,即对图像数据进行去均值化操作,对文本标注进行分词操作,预处理后的数据集作为训练集。
S3.构建基于注意力机制的图像-文本数据融合网络(图3中的Image-Text FusionNetworks)。参见图2,网络的具体构建过程如下:
(3a)对输入的文本数据,结合词向量(图2中的Word Embedding)和位置编码(图2中的Position Encoding)生成文本中的每个词项的编码向量。具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D=200维的词向量vi,而该词项对应的200维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值。
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi
(3b)对输入的图像数据,使用尺寸为3×3的二维滑动窗口(图2中的SlidingWindow)以1为步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作(图2中的Flatten),生成9维的窗口向量;
(3c)对每个窗口向量,利用注意力机制(图2中的Attention)将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量。具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的9×200大小的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3分别是需要训练的100×200和100×9大小的参数矩阵,y是需要训练的100维的参数向量;
(3d)重构融合后的9维窗口向量的形状(图2中的Reshape),得到与滑动窗口尺寸相同的3×3大小的图层数据块,然后合并所有通道下的图层数据块,得到融合后的3×3×3大小的图像数据块;
(3e)使用20个与滑动窗口长宽同等的3×3大小的卷积核(图2中的Kernel)对所有融合后的图像数据块进行特征映射(图2中的Feature Mapping),得到的20个特征图(图2中的Feature Maps)即为图像和文本最终融合了的数据。具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积。
S4.根据任务构建输出网络,连接于数据融合网络之后,形成训练网络。其中,输出网络包括扁平化层(图3中的Flatten)、全连接层(图3中的Full Connection)和Softmax层(图3中的Softmax),数据融合网络输出的特征图为输出网络的输入,训练网络的输出为任务输出,即1。
S5.利用训练集对训练网络进行训练,选择Adam作为优化器,批大小batchsize设为32,迭代次数epoch设为20。
S6.对待融合的图像和文本数据集进行预处理,即对图像数据进行去均值化操作,对文本进行分词操作。
S7.将预处理后的图像和文本数据输入训练好的数据融合网络,输出的特征图即为图像和文本的融合数据。
本发明还提供一种基于注意力机制的图像-文本数据融合系统,包括如下模块:
数据收集模块,用于收集特定任务下的图像和文本数据集;
预处理模块,用于对收集到的图像和文本数据集进行预处理,作为训练集;以及对待融合的图像和文本数据集进行预处理;
融合网络构建模块,用于构建基于注意力机制的图像-文本数据融合网络;
训练网络构建模块,用于根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
训练网络训练模块,用于利用训练集对训练网络进行训练;
数据融合模块,用于将预处理后的待融合图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
进一步的,所述预处理模块,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
进一步的,融合网络构建模块中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,
(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi
(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;
(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积。
各模块的具体实现和各步骤相应,本发明不予撰述。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种基于注意力机制的图像-文本数据融合方法,其特征在于,包括如下步骤:
步骤S1,收集特定任务下的图像和文本数据集;
步骤S2,对收集到的图像和文本数据集进行预处理,作为训练集;
步骤S3,构建基于注意力机制的图像-文本数据融合网络;
步骤S4,根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
步骤S5,利用训练集对训练网络进行训练;
步骤S6,对待融合的图像和文本数据集进行预处理;
步骤S7,将预处理后的图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
2.如权利要求1所述的一种基于注意力机制的图像-文本数据融合方法,其特征在于:所述步骤S2和S6中,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
3.如权利要求1所述的一种基于注意力机制的图像-文本数据融合方法,其特征在于:步骤S3中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,
(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi
(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;
(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积。
4.一种基于注意力机制的图像-文本数据融合系统,其特征在于,包括如下模块:
数据收集模块,用于收集特定任务下的图像和文本数据集;
预处理模块,用于对收集到的图像和文本数据集进行预处理,作为训练集;以及对待融合的图像和文本数据集进行预处理;
融合网络构建模块,用于构建基于注意力机制的图像-文本数据融合网络;
训练网络构建模块,用于根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;
训练网络训练模块,用于利用训练集对训练网络进行训练;
数据融合模块,用于将预处理后的待融合图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
5.如权利要求4所述的一种基于注意力机制的图像-文本数据融合系统,其特征在于:所述预处理模块,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。
6.如权利要求4所述的一种基于注意力机制的图像-文本数据融合系统,其特征在于:融合网络构建模块中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,
(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:
其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;
根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:
hi=vi+pi
(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;
(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:
其中,W1是需要训练的参数矩阵,权重αt,i计算如下:
其中,关联度ut,i计算如下:
ut,i=yT·tanh(W2·hi+W3·st),
其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;
(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;
(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:
Ft,j=∑(u't⊙kj),
其中,⊙表示逐点乘积。
CN201811644583.6A 2018-12-29 2018-12-29 一种基于注意力机制的图像-文本数据融合方法和系统 Active CN109785409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811644583.6A CN109785409B (zh) 2018-12-29 2018-12-29 一种基于注意力机制的图像-文本数据融合方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811644583.6A CN109785409B (zh) 2018-12-29 2018-12-29 一种基于注意力机制的图像-文本数据融合方法和系统

Publications (2)

Publication Number Publication Date
CN109785409A true CN109785409A (zh) 2019-05-21
CN109785409B CN109785409B (zh) 2020-09-08

Family

ID=66499563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811644583.6A Active CN109785409B (zh) 2018-12-29 2018-12-29 一种基于注意力机制的图像-文本数据融合方法和系统

Country Status (1)

Country Link
CN (1) CN109785409B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929013A (zh) * 2019-12-04 2020-03-27 成都中科云集信息技术有限公司 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN111008726A (zh) * 2019-10-28 2020-04-14 武汉理工大学 一种电力负荷预测中类图片转换方法
CN111916207A (zh) * 2020-08-07 2020-11-10 杭州深睿博联科技有限公司 一种基于多模态融合的疾病识别方法及装置
CN115330898A (zh) * 2022-08-24 2022-11-11 晋城市大锐金马工程设计咨询有限公司 一种基于改进Swin Transformer的杂志、书刊广告嵌入方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
US20180350459A1 (en) * 2017-06-05 2018-12-06 University Of Florida Research Foundation, Inc. Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
US20180350459A1 (en) * 2017-06-05 2018-12-06 University Of Florida Research Foundation, Inc. Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUE LU等: "Channel attention and multi-level features fusion for single image super-resolution", 《ARXIV.ORG》 *
彭宇新等: "多媒体内容理解的研究现状与展望", 《计算机研究与发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008726A (zh) * 2019-10-28 2020-04-14 武汉理工大学 一种电力负荷预测中类图片转换方法
CN111008726B (zh) * 2019-10-28 2023-08-29 武汉理工大学 一种电力负荷预测中类图片转换方法
CN110929013A (zh) * 2019-12-04 2020-03-27 成都中科云集信息技术有限公司 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN111916207A (zh) * 2020-08-07 2020-11-10 杭州深睿博联科技有限公司 一种基于多模态融合的疾病识别方法及装置
CN111916207B (zh) * 2020-08-07 2023-08-08 杭州深睿博联科技有限公司 一种基于多模态融合的疾病识别方法及装置
CN115330898A (zh) * 2022-08-24 2022-11-11 晋城市大锐金马工程设计咨询有限公司 一种基于改进Swin Transformer的杂志、书刊广告嵌入方法

Also Published As

Publication number Publication date
CN109785409B (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
Zhang et al. A spatial attentive and temporal dilated (SATD) GCN for skeleton‐based action recognition
Wang et al. RSNet: The search for remote sensing deep neural networks in recognition tasks
Fei et al. Comprehensive review of deep learning-based 3d point cloud completion processing and analysis
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
Chen et al. Efficient and robust deep learning with correntropy-induced loss function
Xie et al. Point clouds learning with attention-based graph convolution networks
CN109785409A (zh) 一种基于注意力机制的图像-文本数据融合方法和系统
CN109902583B (zh) 一种基于双向独立循环神经网络的骨架手势识别方法
CN111950594A (zh) 基于子图采样的大规模属性图上的无监督图表示学习方法和装置
CN111160294B (zh) 基于图卷积网络的步态识别方法
CN113379771A (zh) 带有边缘约束的层次化人体解析语义分割方法
Du et al. Multiview subspace clustering with multilevel representations and adversarial regularization
Sun et al. Two-stage deep regression enhanced depth estimation from a single RGB image
Mogan et al. Advances in vision-based gait recognition: From handcrafted to deep learning
Cao et al. QMEDNet: A quaternion-based multi-order differential encoder–decoder model for 3D human motion prediction
Jiao et al. Brain-Inspired Remote Sensing Foundation Models and Open Problems: A Comprehensive Survey
Bu et al. A high-order CFS algorithm for clustering big data
CN115661861A (zh) 基于动态时序多维自适应图卷积网络的骨架行为识别方法
Biasotti et al. Shape abstraction using computational topology techniques
Liu et al. Li Zhang
Temir et al. Image classification by distortion-free graph embedding and KNN-random forest
Gong et al. Hamming embedding sensitivity guided fusion network for 3D shape representation
Ge et al. Fine-tune vision foundation model for crack segmentation in civil infrastructures
Xiao et al. Multi-dimensional graph interactional network for progressive point cloud completion
Yoon et al. IMG2IMU: Applying Knowledge from Large-Scale Images to IMU Applications via Contrastive Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant