CN109785409B

CN109785409B - 一种基于注意力机制的图像-文本数据融合方法和系统

Info

Publication number: CN109785409B
Application number: CN201811644583.6A
Authority: CN
Inventors: 刘进; 郭峻材; 沈晨凯; 崔晓晖; 储玮; 周平义; 余啸; 付忠旺
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2020-09-08
Anticipated expiration: 2038-12-29
Also published as: CN109785409A

Abstract

本发明公开了一种基于注意力机制的图像‑文本数据融合方法和系统，该方法首先构建基于注意力机制的图像‑文本数据融合网络，并基于特定任务构建完整的训练网络，再利用训练集进行训练，然后将待融合的图像和文本数据输入训练好的数据融合网络中，实现两者的数据融合。具有如下突出的特点和优点：第一，引入位置编码代替循环神经网络对文本上下文进行建模，数据融合网络的可并行化程度更高，训练模型的训练速率更快；第二，通过图像和文本在语义层次上的融合，使得融合后的数据质量更高，可用性更强；第三，该方法可以通过多种任务训练数据融合网络，鲁棒性更强。

Description

一种基于注意力机制的图像-文本数据融合方法和系统

技术领域

本发明涉及一种图像和文本的数据融合方法，具体是构建基于注意力机制的图像-文本数据融合网络，然后根据特定任务构建完整的训练网络，再利用训练集进行训练，最后将需要融合的图像和文本数据输入训练好的数据融合网络得到融合后的数据，是一种基于注意力机制的图像-文本数据融合方法。

背景技术

近年来，随着传感器技术和计算机技术的迅速发展大大推动了数据融合技术的研究，数据融合技术的应用领域也从军事迅速扩展到了民用。目前，数据融合技术己在许多民用领域取得成效。这些领域主要包括机器人和智能仪器系统、智能制造系统、战场任务与无人驾驶飞机、航天应用、目标检测与跟踪、图像分析与理解、惯性导航等领域。

当前主流的数据融合方法利用多个传感器所获取的关于对象和环境全面、完整信息，主要体现在融合算法上。因此，多传感器系统的核心问题是选择合适的融合算法。对于多传感器系统来说，信息具有多样性和复杂性，因此，对信息融合方法的基本要求是具有鲁棒性和并行处理能力。此外，还有方法的运算速度和精度；与前续预处理系统和后续信息识别系统的接口性能；与不同技术和方法的协调能力；对信息样本的要求等。一般情况下，基于非线性的数学方法，如果它具有容错性、自适应性、联想记忆和并行处理能力，则都可以用来作为融合方法。多传感器数据融合虽然未形成完整的理论体系和有效的融合算法，但在不少应用领域根据各自的具体应用背景，已经提出了许多成熟并且有效的融合方法。

近年来，人们提出了多种信息融合模型.其共同点或中心思想是在数据融合过程中进行多级处理。从模型层面上主要分为两大类：a)功能型模型,主要根据节点顺序构建；b)数据型模型，主要根据数据提取加以构建。从算法层面考虑数据融合的常用方法基本上可概括为随机和人工智能两大类。随机类算法有加权平均法、卡尔曼滤波法、多贝叶斯估计法、证据推理、产生式规则等；而人工智能类则有模糊逻辑理论、神经网络、粗糙集理论、专家系统等。在计算机计算能力的迅速增长和大数据背景下，神经网络这一方法表现出来远超其他方法的融合效果。

随机类算法在过往都有过较好的融合表现力，但随着技术的不断发展，这些方法或多或少存在着一些局限性：

(1)如卡尔曼滤波器在组合信息大量冗余的情况下，计算量将以滤波器维数的三次方剧增，实时性不能满足；传感器子系统的增加使故障随之增加，在某一系统出现故障而没有来得及被检测出时，故障会污染整个系统，使可靠性降低；

(2)多贝叶斯估计法只适用于静态环境的高层数据融合，同时它需要满足的假设条件在现实情况中很难达到；

(3)当有新的数据源加入到系统中时，产生式规则需要及时加入新的附加规则，在实际操作过程中维护比较困难。

发明内容

本发明的目的在于针对目前各源数据融合算法中存在的适用范围受限，融合效果不理想，提供一种基于注意力机制的图像-文本数据融合方法。该方法首先构建基于注意力机制的图像-文本数据融合网络，并基于特定任务构建完整的训练网络，再利用训练集进行训练，然后将待融合的图像和文本数据输入训练好的数据融合网络中，实现两者的数据融合。

为了达到上述的目的，本发明的构思如下：收集特定任务的图像-文本训练数据并进行预处理；构建基于注意力机制的图像-文本数据融合网络并根据相应任务构建完整的训练网络；对训练网络进行训练；将训练好的数据融合网络用于图像和文本的数据融合中。

根据上述的发明思想，本发明采用下述技术方案：一种基于注意力机制的图像-文本数据融合方法，其具体步骤如下：

步骤S1，收集特定任务下的图像和文本数据集；

步骤S2，对收集到的图像和文本数据集进行预处理，作为训练集；

步骤S3，构建基于注意力机制的图像-文本数据融合网络；

步骤S4，根据任务构建输出网络，连接于数据融合网络之后，形成训练网络；

步骤S5，利用训练集对训练网络进行训练；

步骤S6，对待融合的图像和文本数据集进行预处理；

步骤S7，将预处理后的图像和文本数据输入训练好的数据融合网络，输出即为图像和文本的融合数据。

进一步的，所述步骤S2和S6中，对图像的预处理是指对图像数据进行去均值化操作，对文本的预处理是指对文本的分词操作。

进一步的，步骤S3中构建基于注意力机制的图像-文本数据融合网络，其输入包括预处理后的图像数据和文本数据，该融合网络的具体实现方式如下，

(3a)对输入的文本数据，结合词向量和位置编码生成文本中的每个词项的编码向量；具体地，对于文本中位置i的词项w_i，通过词向量层生成对于应的D维词向量v_i，而该词项对应的D维位置编码如下：

其中，p_i,2d和p_i,2d+1分别表示位置编码p_i中第2d和2d+1维的数值；

根据该词项的词向量v_i和位置编码p_i，其编码向量h_i计算如下：

h_i＝v_i+p_i；

(3b)对输入的图像数据，使用二维滑动窗口以一定的步长对每个通道的图层进行遍历，提取每个窗口的图层数据块并进行扁平化操作，生成窗口向量；

(3c)对每个窗口向量，利用注意力机制将文本中所有词项的编码向量与其进行融合，得到融合后的窗口向量；具体地，对于窗口向量s_t和文本中N个词项的编码向量序列[h₁,h₂,...,h_N]，基于注意力机制，融合后的窗口向量计算如下：

其中，W₁是需要训练的参数矩阵，权重α_t,i计算如下：

其中，关联度u_t,i计算如下：

u_t,i＝y^T·tanh(W₂·h_i+W₃·s_t)，

其中，W₂和W₃是需要训练的参数矩阵，y是需要训练的参数向量；

(3d)重构融合后的窗口向量的形状，得到与滑动窗口尺寸相同的图层数据块，然后合并所有通道下的图层数据块，得到融合后的图像数据块；

(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射，得到的特征图即为图像和文本最终融合了的数据；具体地，对于一个图像数据块u'_t和一个卷积核k_j，对应特征值F_t,j的特征映射计算式如下：

F_t,j＝∑(u'_t⊙k_j)，

其中，⊙表示逐点乘积。

本发明还提供一种基于注意力机制的图像-文本数据融合系统，包括如下模块：

数据收集模块，用于收集特定任务下的图像和文本数据集；

预处理模块，用于对收集到的图像和文本数据集进行预处理，作为训练集；以及对待融合的图像和文本数据集进行预处理；

融合网络构建模块，用于构建基于注意力机制的图像-文本数据融合网络；

训练网络构建模块，用于根据任务构建输出网络，连接于数据融合网络之后，形成训练网络；

训练网络训练模块，用于利用训练集对训练网络进行训练；

数据融合模块，用于将预处理后的待融合图像和文本数据输入训练好的数据融合网络，输出即为图像和文本的融合数据。

进一步的，所述预处理模块，对图像的预处理是指对图像数据进行去均值化操作，对文本的预处理是指对文本的分词操作。

进一步的，融合网络构建模块中构建基于注意力机制的图像-文本数据融合网络，其输入包括预处理后的图像数据和文本数据，该融合网络的具体实现方式如下，

h_i＝v_i+p_i；

其中，W₁是需要训练的参数矩阵，权重α_t,i计算如下：

其中，关联度u_t,i计算如下：

u_t,i＝y^T·tanh(W₂·h_i+W₃·s_t)，

F_t,j＝∑(u'_t⊙k_j)，

其中，⊙表示逐点乘积。

本发明的一种基于注意力机制的图像-文本数据融合方法，与现有的技术相比较，具有如下突出特点和优点：第一，引入位置编码代替循环神经网络对文本上下文进行建模，数据融合网络的可并行化程度更高，训练模型的训练速率更快；第二，通过图像和文本在语义层次上的融合，使得融合后的数据质量更高，可用性更强；第三，该方法可以通过多种任务训练数据融合网络，鲁棒性更强。

附图说明

图1是本发明的一种基于注意力机制的图像-文本数据融合方法的流程图。

图2是设计的基于注意力机制的图像-文本数据融合网络。

图3是设计的图像-文本匹配任务的训练网络。

具体实施方式

以下结合附图对本发明的实施例作进一步的说明。

实施例一：参见图1，本基于注意力机制的图像-文本数据融合方法，其特征在于：针对图像和文本数据，基于注意力机制，结合词向量、位置编码和基于卷积核的特征映射构建图像-文本数据融合网络，并根据具体任务构建完整的训练网络，通过训练得到可用的数据融合网络，进而实现图像和文本数据的融合。具体步骤如下；

步骤S1，收集特定任务下的图像和文本数据集；

步骤S3，构建基于注意力机制的图像-文本数据融合网络；

步骤S5，利用训练集对训练网络进行训练；

步骤S6，对待融合的图像和文本数据集进行预处理；

所述步骤S1中特定任务需要同时包含图像和文本数据集，可以构建图像-文本对作为任务输入，并有一个任务输出。

所述步骤S2和S6中对图像的预处理是指对图像数据进行去均值化操作，对文本的预处理是指对文本的分词操作。

所述步骤S3中基于注意力机制的图像-文本数据融合网络的输入包括预处理后的图像数据和文本数据。参见图2，网络的描述如下：

(3a)对输入的文本数据，结合词向量(图2中的Word Embedding)和位置编码(图2中的Position Encoding)生成文本中的每个词项的编码向量。具体地，对于文本中位置i的词项w_i，通过词向量层生成对于应的D维词向量v_i，而该词项对应的D维位置编码如下：

其中，p_i,2d和p_i,2d+1分别表示位置编码p_i中第2d和2d+1维的数值。

h_i＝v_i+p_i；

(3b)对输入的图像数据，使用二维滑动窗口(图2中的Sliding Window)以一定的步长对每个通道的图层进行遍历，提取每个窗口的图层数据块并进行扁平化操作(图2中的Flatten)，生成窗口向量；

(3c)对每个窗口向量，利用注意力机制(图2中的Attention)将文本中所有词项的编码向量与其进行融合，得到融合后的窗口向量。具体地，对于窗口向量s_t和文本中N个词项的编码向量序列[h₁,h₂,...,h_N]，基于注意力机制，融合后的窗口向量计算如下：

其中，W₁是需要训练的参数矩阵，权重α_t,i计算如下：

其中，关联度u_t,i计算如下：

u_t,i＝y^T·tanh(W₂·h_i+W₃·s_t)，

(3d)重构融合后的窗口向量的形状(图2中的Reshape)，得到与滑动窗口尺寸相同的图层数据块，然后合并所有通道下的图层数据块，得到融合后的图像数据块；

(3e)使用多个与滑动窗口长宽同等的卷积核(图2中的Kernel)对所有融合后的图像数据块进行特征映射(图2中的Feature Mapping)，得到的特征图(图2中的FeatureMaps)即为图像和文本最终融合了的数据。具体地，对于一个图像数据块u'_t和一个卷积核k_j，对应特征值F_t,j的特征映射计算式如下：

F_t,j＝∑(u'_t⊙k_j)，

其中，⊙表示逐点乘积；

所述步骤S4中数据融合网络的输出为输出网络的输入，训练网络的输出为任务输出。

实施例二：本基于注意力机制的图像-文本数据融合方法，以图像检索任务为特定任务，并以图3中设计的网络为训练网络，数据融合网络如图2所示。根据图1，本实施例的一种基于注意力机制的图像-文本数据融合方法，其步骤如下：

S1.选择著名的Flickr30k数据集作为特定任务的数据集，该数据集中共有31000张图像，每张图像对应有5个不同的文本标注。将图像及其文本标注视为任务输入，任务输出为1，表示图像和文本标注是匹配的。

S2.对收集到的图像和文本数据集进行预处理，即对图像数据进行去均值化操作，对文本标注进行分词操作，预处理后的数据集作为训练集。

S3.构建基于注意力机制的图像-文本数据融合网络(图3中的Image-Text FusionNetworks)。参见图2，网络的具体构建过程如下：

(3a)对输入的文本数据，结合词向量(图2中的Word Embedding)和位置编码(图2中的Position Encoding)生成文本中的每个词项的编码向量。具体地，对于文本中位置i的词项w_i，通过词向量层生成对于应的D＝200维的词向量v_i，而该词项对应的200维位置编码如下：

h_i＝v_i+p_i；

(3b)对输入的图像数据，使用尺寸为3×3的二维滑动窗口(图2中的SlidingWindow)以1为步长对每个通道的图层进行遍历，提取每个窗口的图层数据块并进行扁平化操作(图2中的Flatten)，生成9维的窗口向量；

其中，W₁是需要训练的9×200大小的参数矩阵，权重α_t,i计算如下：

其中，关联度u_t,i计算如下：

u_t,i＝y^T·tanh(W₂·h_i+W₃·s_t)，

其中，W₂和W₃分别是需要训练的100×200和100×9大小的参数矩阵，y是需要训练的100维的参数向量；

(3d)重构融合后的9维窗口向量的形状(图2中的Reshape)，得到与滑动窗口尺寸相同的3×3大小的图层数据块，然后合并所有通道下的图层数据块，得到融合后的3×3×3大小的图像数据块；

(3e)使用20个与滑动窗口长宽同等的3×3大小的卷积核(图2中的Kernel)对所有融合后的图像数据块进行特征映射(图2中的Feature Mapping)，得到的20个特征图(图2中的Feature Maps)即为图像和文本最终融合了的数据。具体地，对于一个图像数据块u'_t和一个卷积核k_j，对应特征值F_t,j的特征映射计算式如下：

F_t,j＝∑(u'_t⊙k_j),

其中，⊙表示逐点乘积。

S4.根据任务构建输出网络，连接于数据融合网络之后，形成训练网络。其中，输出网络包括扁平化层(图3中的Flatten)、全连接层(图3中的Full Connection)和Softmax层(图3中的Softmax)，数据融合网络输出的特征图为输出网络的输入，训练网络的输出为任务输出，即1。

S5.利用训练集对训练网络进行训练，选择Adam作为优化器，批大小batchsize设为32，迭代次数epoch设为20。

S6.对待融合的图像和文本数据集进行预处理，即对图像数据进行去均值化操作，对文本进行分词操作。

S7.将预处理后的图像和文本数据输入训练好的数据融合网络，输出的特征图即为图像和文本的融合数据。

数据收集模块，用于收集特定任务下的图像和文本数据集；

训练网络训练模块，用于利用训练集对训练网络进行训练；

h_i＝v_i+p_i；

其中，W₁是需要训练的参数矩阵，权重α_t,i计算如下：

其中，关联度u_t,i计算如下：

u_t,i＝y^T·tanh(W₂·h_i+W₃·s_t)，

F_t,j＝∑(u'_t⊙k_j)，

其中，⊙表示逐点乘积。

各模块的具体实现和各步骤相应，本发明不予撰述。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。