CN113516118B

CN113516118B - 一种图像与文本联合嵌入的多模态文化资源加工方法

Info

Publication number: CN113516118B
Application number: CN202110863497.XA
Authority: CN
Inventors: 郑杰; 梁雨昕; 胡心悦; 黄帝淞; 曹瑞; 高岭
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-06-16
Anticipated expiration: 2041-07-29
Also published as: CN113516118A

Abstract

一种图像与文本联合嵌入的多模态文化资源加工方法，包括以下步骤：对从开源或网络搜集的文化资源库中获取的图像‑文本对其中的图像进行目标检测，得到目标区域位置和目标类别名称，建立图像文本联合嵌入模型，使用联合嵌入模型中的各个模块获取目标区域特征、全图特征和文本特征，并在训练中对齐目标区域与文本中的单词，同时对齐整体图像文本特征。本发明综合文本和图像信息，并对其进行联合嵌入，能够有效融合多个模态的特征并用于多模态文化资源的特征提取和有效检索。

Description

一种图像与文本联合嵌入的多模态文化资源加工方法

技术领域

本发明属于图像处理技术领域，具体涉及图像与文本联合嵌入的多模态文化资源加工方法。

背景技术

文化资源是人类在历史发展过程中所积累的，通过文化创造、积累和延续所构建的，能够为社会经济发展提供对象、环境、条件、智能与创意的文化要素的综合。在当今的数据时代，文化资源也常以电子数据的形式存在和保存，其中往往包括了图片、文本和视频等等多种模态的数据形式。对这些多模态数据的特征提取和检索是充分利用文化资源的基础。

多模态检索技术是通过联合学习不同模态的特征并将不同模态的特征进行联系和对齐，使其在同一特征空间中可以相互检索。在数据模态不断丰富的今天，模态间的相互检索变得更加重要，如使用图像搜索文本信息，或使用文本描述搜索图像等。

本发明使用卷积网络作为图像特征提取的方法。卷积神经网络(Convolutionalneural network，CNNs)作为重要的深度学习模型之一，由于其强大的特征提取能力和泛化能力在图像处理、目标跟踪与检测、自然语言处理、场景分类、人脸识别等计算机视觉相关的领域中被广泛使用，在各类大规模视觉识别数据集上也获得了较高的正确率。

本发明使用词嵌入(word embedding)作为文本特征提取的方法。将文本数据转换为计算机可以识别的表示是自然语言处理中非常重要的一个环节。词嵌入技术的表示方法是目前流行且有效的方法。词嵌入又称词向量，词表征、文本表征等，是自然语言处理(NLP)中语言模型与表征学习技术的统称，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

现有多模态检索一般以关键字搜索为主，这种检索方式严重依赖数据标注文本质量，无法检索到数据中存在但未被标注的特征，而且对人工标注的工作量要求极大，不能满足当前数据急剧增加的时代要求。现有基于图像内容的检索则依赖于图像本身的颜色、纹理、布局等低层信息，虽然可以检索到在表面信息较为相似的图像，但不能有效利用图像本身的语义和图像之间的语义联系。

发明内容

为了充分融合图像和文本信息，有效利用图像本身的语义和图像之间的语义联系以进行更精准的图像文本间的相互检索，充分利用多模态文化资源，本发明采用的技术方案是：

一种图像与文本联合嵌入的多模态文化资源加工方法，通过联合嵌入对齐文本和图像对象，实现多个模态间的相互检索，其特征在于，包括以下步骤：

步骤S1，从开源数据集或网络搜集的的文化资源中获取图像文本对应的样本，并对其中的图像进行目标检测。通过预训练目标检测YOLO模型对图像进行处理，得到图像中一个或多个目标的在原图像中的坐标范围和对应的目标标签。YOLO是一种快速紧凑的开源对象检测模型，与其它网络相比，同等尺寸下性能更强，并且具有很不错的稳定性，可以预测对象的类别和边界框。

步骤S2，通过联合嵌入模型获取图像文本对中多种模态的对应特征。联合嵌入模型包括以下部分：词嵌入(word embedding)层，用于对文本中的单词进行嵌入；卷积神经网络层，用于对图像提取特征；全连接层，用于融合单模态特征。联合嵌入模型将提取如下几种特征：一个或多个目标区域的图像特征，目标区域所对应的文本单词的词向量特征，整体图像特征和整体文本特征。

步骤S3，通过损失函数反向传播，将S2中获取的目标区域特征与其在文本中对应单词的词向量特征对齐，同时将整体图像特征与整体文本特征对齐。此处的特征对齐指通过损失函数的反向传播，使得对应图像-文本特征对在特征空间中的欧氏距离尽可能小。损失函数包括目标区域特征与其在文本中对应单词的词向量特征的欧式距离，整体图像特征与整体文本特征的欧式距离，文本本身通过skip-gram算法预测上下文单词的训练损失。

步骤S4，在经过充分训练后，将联合嵌入模型用于文化资源数据中图像与文本间的相互检索。在输入图像或文本的单一模态数据后，使用预训练后的联合嵌入模型提取该输入数据的特征，并在特征空间中寻找与其欧式距离最近的图像特征点和文本特征点，得到输入特征检索得到的对应图像和文本。

所述步骤S1又包括以下步骤：

步骤S11，通过预训练目标检测YOLO模型对图像进行处理，通过特征提取网络对输入图像提取特征，得到特定大小的特征输出。输入图像分成均匀网格，如果某个目标对象的中心坐标落在某网格中，则由该网格来预测该目标的标签，并使用逻辑回归确定该目标的边界框。最终输出为图像中一个或多个目标的在原图像中的坐标范围和对应的目标标签。

所述步骤S2又包括以下步骤：

步骤S21，初始化网络参数，使用词向量维数为d的预训练Glove词向量初始化联合嵌入模型的词嵌入层；随机初始化模型其他参数，包括卷积神经网络层，全连接层。

步骤S22，通过步骤S1中得到的目标区域坐标和范围截取一个或多个目标的区域，使用联合嵌入模型中的卷积神经网络，获得k个目标的维数为d的特征表示{obj₁，obj₂，...obj_k}。

步骤S23，将步骤S1中检测出的目标对应名称，作为联合嵌入模型中的词嵌入层的输入，输出即为对应的词向量表示{o₁，o₂，...o_k}。

步骤S24将图像文本对中的文本，作为联合嵌入模型中的词嵌入层的输入，设文本中单词个数为n，则输出为对应的词向量表示{w₁，w₂，...w_n}。

步骤S25，通过图像检测目标名称词向量{o₁，o₂，...o_k}，与文本中的词向量{w₁，w₂，...w_n}的相似度计算，找出检测目标在文本中的对应词语及其词向量表示。相似度具体计算方式为计算对应(其中<>表示向量点积计算)：

simi(o_i，w_j)＝<o_i，w_j>

对每个目标名称词向量o_i，在文本中找出与其相似度最高的词向量作为该目标在文本中的对应单词。

步骤S26，将获得的目标区域特征{obj₁，obj₂，...obj_k}计算其平均向量，并作为对应的全连接层的输入，该全连接层输出为维度为d的图像整体特征v_img。

步骤S27，将文本中的所有词对应的词向量{w₁，w₂，...w_n}计算其平均向量，并作为对应的全连接层的输入，该全连接层输出为维度为d的整体文本特征v_text。

所述步骤S3又包括以下步骤：

步骤S31，对图像文本对中的文本通过skip-gram算法预测上下文单词，并得到skip-gram损失函数值，作为总体损失函数的第一项。具体计算方法为：

其中w_O为需要预测的上下文中单词词向量，w_I为输入的中心词向量。

步骤S32，将目标区域特征与其在文本中对应单词的词向量特征对齐，计算特征向量之间的欧式距离均值，作为损失函数的第二项。具体计算公式为：

步骤S33，将图像文本对的总体特征对齐，即计算图像的总体特征与文本的总体特征的欧氏距离，作为损失函数的第三项。

L₃＝||v_img-v_text||

步骤S34，将skip-gram损失函数值，目标区域特征与其对应单词的词向量的欧氏距离均值，和图像总体特征与文本总体特征的欧氏距离均值三项的加和作为总体损失函数。

L＝L₁+L₂+L₃

对联合嵌入模型的所有参数计算梯度并利用梯度下降算法反向传播更新参数。

所述步骤S4又包括以下步骤：

步骤S41，如在检索时输入的数据模态为图像，则通过预训练目标检测模型对图像进行处理，得到图像中一个或多个目标的坐标范围，使用联合嵌入模型中的卷积神经网络，获得检测目标的维数为d的特征表示。将获得的目标特征平均，并作为对应的全连接层的输入，输出为维度为d的图像整体特征。

步骤S42，如在检索时输入的数据模态为文本，则通过联合嵌入模型中的词嵌入层，获取文本对应的词向量表示。将文本对应的所有词向量平均，并作为对应的全连接层的输入，输出为维度为d的整体文本特征。

步骤S43，在获得输入的文化资源数据通过联合嵌入模型得到的特征表示后，在多模态对齐的文化资源特征空间中根据欧氏距离查找最近邻的文本特征表示和图像特征表示，即得到输入数据所检索得到的图像与文本。

本发明的有益效果是：

针对当前图像和文本相互检索中多模态语义信息未能充分利用的问题，通过联合嵌入图像和文本中多种模态的信息，实现文化资源数据多模态间的相互检索。本发明通过目标检测和卷积神经网络提取图像特征，通过词嵌入层提取文本信息，并将对应的目标-单词对和图像-文本对在训练过程中对齐，获得图像文本信息联合嵌入的特征空间。使用该方法使得图像与文本的相互检索能够在语义层面上进行，更加准确，从而充分利用多模态文化资源。

附图说明

附图中，图1为本发明方法的设计框架图，图2为联合嵌入模型的结构示意图。

具体实施方式

以下结合附图及实施例对本发明进一步叙述，但本发明不局限于以下实施例。

所述步骤S1又包括以下步骤：

所述步骤S2又包括以下步骤：

simi(o_i，w_j)＝<o_i，w_j>

所述步骤S3又包括以下步骤：

L₃＝||v_img-v_text||

L＝L₁+L₂+L₃

所述步骤S4又包括以下步骤：

实施例

在公共文化资源中存在各类多模态数据，其中包括大量艺术、文物、建筑等作品的图像及其描述文本。对类似的大规模多模态文化资源数据的共享中必然存在模态间相互检索的需求，可按照以下步骤进行：

步骤S1，从文化资源数据库中获取图像文本对应的样本，并对其中的图像进行目标检测。通过预训练目标检测YOLO模型对图像进行处理，得到图像中一个或多个目标的坐标范围和对应的目标标签。

步骤S3，通过损失函数反向传播，将目标区域特征与其在文本中对应单词的词向量特征对齐，同时将整体图像特征与整体文本特征对齐。损失函数包括目标区域特征与其在文本中对应单词的词向量特征的欧式距离，整体图像特征与整体文本特征的欧式距离，文本本身通过skip-gram算法预测上下文单词的训练损失。

步骤S4，在经过充分训练后，将联合嵌入模型用于文化资源数据的图像与文本间的相互检索。在输入图像或文本的单一模态数据后，使用预训练后的联合嵌入模型提取该输入数据的特征，并在特征空间中寻找与其欧式距离最近的图像特征点和文本特征点，得到输入特征检索得到的对应图像和文本。

Claims

1.一种图像与文本联合嵌入的多模态文化资源加工方法，通过联合嵌入对齐文本和图像对象，实现多个模态的文化资源的特征提取和相互检索，其特征在于，包括以下步骤：

步骤S1、从开源数据集或网络搜集的文化资源中获取图像文本对应的样本，并对其中的图像进行目标检测，通过预训练目标检测YOLO模型对图像进行处理，得到图像中一个或多个目标的在原图像中的坐标范围和对应的目标标签；

步骤S2、联合嵌入模型获取图像文本对中多种模态的对应特征，包括以下步骤：

步骤S21、初始化网络参数，使用词向量维数为d的预训练Glove词向量初始化联合嵌入模型的词嵌入层；随机初始化模型其他参数，包括卷积神经网络层，全连接层；

步骤S22、通过步骤S1中得到的目标区域坐标和范围截取一个或多个目标的区域，使用联合嵌入模型中的卷积神经网络，获得k个目标的维数为d的特征表示{obj₁,obj₂,…obj_k}；

步骤S23、将步骤S1中检测出的目标对应名称，作为联合嵌入模型中的词嵌入层的输入，输出即为对应的词向量表示{o₁,o₂,…o_k}；

步骤S24、将图像文本对中的文本，作为联合嵌入模型中的词嵌入层的输入，设文本中单词个数为n，则输出为对应的词向量表示{w₁,w₂,…w_n}；

步骤S25、通过图像检测目标名称词向量{o₁,o₂,…o_k}，与文本中的词向量{w₁,w₂,…w_n}的相似度计算，找出检测目标在文本中的对应词语及其词向量表示；相似度具体计算方式为计算对应，其中<>表示向量点积计算：

simi(o_i,w_j)＝<o_i,w_j>

对每个目标名称词向量o_i，在文本中找出与其相似度最高的词向量作为该目标在文本中的对应单词；

步骤S26、将获得的目标区域特征{obj₁,obj₂,…obj_k}计算其平均向量，并作为对应的全连接层的输入，该全连接层输出为维度为d的图像整体特征v_img；

步骤S27、将文本中的所有词对应的词向量{w₁,w₂,…w_n}计算其平均向量，并作为对应的全连接层的输入，该全连接层输出为维度为d的整体文本特征v_text；

步骤S3、特征的对齐：通过损失函数反向传播，使得目标区域特征与其在文本中对应单词的词向量特征在联合嵌入特征空间中距离最小化，同时使整体图像特征与整体文本特征在特征空间中距离最小化，损失函数包括目标区域特征与其在文本中对应单词的词向量特征的欧式距离，整体图像特征与整体文本特征的欧式距离，文本本身通过skip-gram算法预测上下文单词的训练损失，包括以下步骤：

步骤S31、对图像文本对中的文本通过skip-gram算法预测上下文单词，并得到skip-gram损失函数值，作为总体损失函数的第一项；具体计算方法为：

其中w_O为需要预测的上下文中单词词向量，w_I为输入的中心词向量；

步骤S32、通过最小化目标区域特征与其在文本中对应单词的词向量特征之间的欧式距离将目标区域与对应单词对齐；计算特征向量之间的欧式距离均值，作为损失函数的第二项；具体计算公式为：

步骤S33、通过最小化图像文本对的总体特征之间的欧氏距离将图像文本对齐，即计算图像的总体特征与文本的总体特征的欧氏距离，作为损失函数的第三项；

L₃＝||v_img-v_text||

步骤S34、将skip-gram损失函数值，目标区域特征与其对应单词的词向量的欧氏距离均值，和图像总体特征与文本总体特征的欧氏距离均值三项的加和作为总体损失函数；

L＝L₁+L₂+L₃

对联合嵌入模型的所有参数计算梯度并利用梯度下降算法反向传播更新参数；

步骤S4，在经过充分训练后，将联合嵌入模型用于文化资源库中图像与文本的特征提取和相互检索，在输入图像或文本的单一模态数据后，使用预训练后的联合嵌入模型提取图像或文本的单一模态数据的特征，并在特征空间中寻找与其欧式距离最近的图像特征点和文本特征点，得到输入特征检索得到的对应图像和文本，包括以下步骤：

步骤S41，如在检索时输入的文化资源数据模态为图像，则通过预训练目标检测模型对图像进行处理，得到图像中一个或多个目标的坐标范围，使用联合嵌入模型中的卷积神经网络，获得检测目标的维数为d的特征表示；将获得的目标特征平均，并通过对应的全连接层，获得维度为d的图像整体特征；

步骤S42，如在检索时输入的文化资源数据模态为文本，则通过联合嵌入模型中的词嵌入层，获取文本对应的词向量表示；将文本对应的所有词向量平均，并通过对应的全连接层，得到维度为d的整体文本特征；

步骤S43，在获得输入数据通过联合嵌入模型得到的特征表示后，在多模态对齐的文化资源特征空间中根据欧氏距离查找最近邻的文本特征表示和图像特征表示，即得到输入数据所检索得到的图像与文本。

2.根据权利要求1所述的一种图像与文本联合嵌入的多模态文化资源加工方法，其特征在于，所述步骤S1又包括以下步骤：

步骤S11，通过预训练目标检测YOLO模型对图像进行处理，通过特征提取网络对输入图像提取特征，得到特定大小的特征输出；输入图像分成均匀网格，如果某个目标对象的中心坐标落在某网格中，则由该网格来预测该目标的标签，并使用逻辑回归确定该目标的边界框；最终输出为图像中一个或多个目标的在原图像中的坐标范围和对应的目标标签。

3.根据权利要求1所述的一种图像与文本联合嵌入的多模态文化资源加工方法，其特征在于，联合嵌入模型包括：词嵌入(word embedding)层，用于对文本中的单词进行嵌入；卷积神经网络层，用于对图像提取特征；全连接层，用于融合单模态特征；联合嵌入模型将提取如下几种特征：一个或多个目标区域的图像特征，目标区域所对应的文本单词的词向量特征，整体图像特征和整体文本特征。