CN113516118B - 一种图像与文本联合嵌入的多模态文化资源加工方法 - Google Patents
一种图像与文本联合嵌入的多模态文化资源加工方法 Download PDFInfo
- Publication number
- CN113516118B CN113516118B CN202110863497.XA CN202110863497A CN113516118B CN 113516118 B CN113516118 B CN 113516118B CN 202110863497 A CN202110863497 A CN 202110863497A CN 113516118 B CN113516118 B CN 113516118B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- word
- target
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
一种图像与文本联合嵌入的多模态文化资源加工方法,包括以下步骤:对从开源或网络搜集的文化资源库中获取的图像‑文本对其中的图像进行目标检测,得到目标区域位置和目标类别名称,建立图像文本联合嵌入模型,使用联合嵌入模型中的各个模块获取目标区域特征、全图特征和文本特征,并在训练中对齐目标区域与文本中的单词,同时对齐整体图像文本特征。本发明综合文本和图像信息,并对其进行联合嵌入,能够有效融合多个模态的特征并用于多模态文化资源的特征提取和有效检索。
Description
技术领域
本发明属于图像处理技术领域,具体涉及图像与文本联合嵌入的多模态文化资源加工方法。
背景技术
文化资源是人类在历史发展过程中所积累的,通过文化创造、积累和延续所构建的,能够为社会经济发展提供对象、环境、条件、智能与创意的文化要素的综合。在当今的数据时代,文化资源也常以电子数据的形式存在和保存,其中往往包括了图片、文本和视频等等多种模态的数据形式。对这些多模态数据的特征提取和检索是充分利用文化资源的基础。
多模态检索技术是通过联合学习不同模态的特征并将不同模态的特征进行联系和对齐,使其在同一特征空间中可以相互检索。在数据模态不断丰富的今天,模态间的相互检索变得更加重要,如使用图像搜索文本信息,或使用文本描述搜索图像等。
本发明使用卷积网络作为图像特征提取的方法。卷积神经网络(Convolutionalneural network,CNNs)作为重要的深度学习模型之一,由于其强大的特征提取能力和泛化能力在图像处理、目标跟踪与检测、自然语言处理、场景分类、人脸识别等计算机视觉相关的领域中被广泛使用,在各类大规模视觉识别数据集上也获得了较高的正确率。
本发明使用词嵌入(word embedding)作为文本特征提取的方法。将文本数据转换为计算机可以识别的表示是自然语言处理中非常重要的一个环节。词嵌入技术的表示方法是目前流行且有效的方法。词嵌入又称词向量,词表征、文本表征等,是自然语言处理(NLP)中语言模型与表征学习技术的统称,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
现有多模态检索一般以关键字搜索为主,这种检索方式严重依赖数据标注文本质量,无法检索到数据中存在但未被标注的特征,而且对人工标注的工作量要求极大,不能满足当前数据急剧增加的时代要求。现有基于图像内容的检索则依赖于图像本身的颜色、纹理、布局等低层信息,虽然可以检索到在表面信息较为相似的图像,但不能有效利用图像本身的语义和图像之间的语义联系。
发明内容
为了充分融合图像和文本信息,有效利用图像本身的语义和图像之间的语义联系以进行更精准的图像文本间的相互检索,充分利用多模态文化资源,本发明采用的技术方案是:
一种图像与文本联合嵌入的多模态文化资源加工方法,通过联合嵌入对齐文本和图像对象,实现多个模态间的相互检索,其特征在于,包括以下步骤:
步骤S1,从开源数据集或网络搜集的的文化资源中获取图像文本对应的样本,并对其中的图像进行目标检测。通过预训练目标检测YOLO模型对图像进行处理,得到图像中一个或多个目标的在原图像中的坐标范围和对应的目标标签。YOLO是一种快速紧凑的开源对象检测模型,与其它网络相比,同等尺寸下性能更强,并且具有很不错的稳定性,可以预测对象的类别和边界框。
步骤S2,通过联合嵌入模型获取图像文本对中多种模态的对应特征。联合嵌入模型包括以下部分:词嵌入(word embedding)层,用于对文本中的单词进行嵌入;卷积神经网络层,用于对图像提取特征;全连接层,用于融合单模态特征。联合嵌入模型将提取如下几种特征:一个或多个目标区域的图像特征,目标区域所对应的文本单词的词向量特征,整体图像特征和整体文本特征。
步骤S3,通过损失函数反向传播,将S2中获取的目标区域特征与其在文本中对应单词的词向量特征对齐,同时将整体图像特征与整体文本特征对齐。此处的特征对齐指通过损失函数的反向传播,使得对应图像-文本特征对在特征空间中的欧氏距离尽可能小。损失函数包括目标区域特征与其在文本中对应单词的词向量特征的欧式距离,整体图像特征与整体文本特征的欧式距离,文本本身通过skip-gram算法预测上下文单词的训练损失。
步骤S4,在经过充分训练后,将联合嵌入模型用于文化资源数据中图像与文本间的相互检索。在输入图像或文本的单一模态数据后,使用预训练后的联合嵌入模型提取该输入数据的特征,并在特征空间中寻找与其欧式距离最近的图像特征点和文本特征点,得到输入特征检索得到的对应图像和文本。
所述步骤S1又包括以下步骤:
步骤S11,通过预训练目标检测YOLO模型对图像进行处理,通过特征提取网络对输入图像提取特征,得到特定大小的特征输出。输入图像分成均匀网格,如果某个目标对象的中心坐标落在某网格中,则由该网格来预测该目标的标签,并使用逻辑回归确定该目标的边界框。最终输出为图像中一个或多个目标的在原图像中的坐标范围和对应的目标标签。
所述步骤S2又包括以下步骤:
步骤S21,初始化网络参数,使用词向量维数为d的预训练Glove词向量初始化联合嵌入模型的词嵌入层;随机初始化模型其他参数,包括卷积神经网络层,全连接层。
步骤S22,通过步骤S1中得到的目标区域坐标和范围截取一个或多个目标的区域,使用联合嵌入模型中的卷积神经网络,获得k个目标的维数为d的特征表示{obj1,obj2,...objk}。
步骤S23,将步骤S1中检测出的目标对应名称,作为联合嵌入模型中的词嵌入层的输入,输出即为对应的词向量表示{o1,o2,...ok}。
步骤S24将图像文本对中的文本,作为联合嵌入模型中的词嵌入层的输入,设文本中单词个数为n,则输出为对应的词向量表示{w1,w2,...wn}。
步骤S25,通过图像检测目标名称词向量{o1,o2,...ok},与文本中的词向量{w1,w2,...wn}的相似度计算,找出检测目标在文本中的对应词语及其词向量表示。相似度具体计算方式为计算对应(其中<>表示向量点积计算):
simi(oi,wj)=<oi,wj>
对每个目标名称词向量oi,在文本中找出与其相似度最高的词向量作为该目标在文本中的对应单词。
步骤S26,将获得的目标区域特征{obj1,obj2,...objk}计算其平均向量,并作为对应的全连接层的输入,该全连接层输出为维度为d的图像整体特征vimg。
步骤S27,将文本中的所有词对应的词向量{w1,w2,...wn}计算其平均向量,并作为对应的全连接层的输入,该全连接层输出为维度为d的整体文本特征vtext。
所述步骤S3又包括以下步骤:
步骤S31,对图像文本对中的文本通过skip-gram算法预测上下文单词,并得到skip-gram损失函数值,作为总体损失函数的第一项。具体计算方法为:
其中wO为需要预测的上下文中单词词向量,wI为输入的中心词向量。
步骤S32,将目标区域特征与其在文本中对应单词的词向量特征对齐,计算特征向量之间的欧式距离均值,作为损失函数的第二项。具体计算公式为:
步骤S33,将图像文本对的总体特征对齐,即计算图像的总体特征与文本的总体特征的欧氏距离,作为损失函数的第三项。
L3=||vimg-vtext||
步骤S34,将skip-gram损失函数值,目标区域特征与其对应单词的词向量的欧氏距离均值,和图像总体特征与文本总体特征的欧氏距离均值三项的加和作为总体损失函数。
L=L1+L2+L3
对联合嵌入模型的所有参数计算梯度并利用梯度下降算法反向传播更新参数。
所述步骤S4又包括以下步骤:
步骤S41,如在检索时输入的数据模态为图像,则通过预训练目标检测模型对图像进行处理,得到图像中一个或多个目标的坐标范围,使用联合嵌入模型中的卷积神经网络,获得检测目标的维数为d的特征表示。将获得的目标特征平均,并作为对应的全连接层的输入,输出为维度为d的图像整体特征。
步骤S42,如在检索时输入的数据模态为文本,则通过联合嵌入模型中的词嵌入层,获取文本对应的词向量表示。将文本对应的所有词向量平均,并作为对应的全连接层的输入,输出为维度为d的整体文本特征。
步骤S43,在获得输入的文化资源数据通过联合嵌入模型得到的特征表示后,在多模态对齐的文化资源特征空间中根据欧氏距离查找最近邻的文本特征表示和图像特征表示,即得到输入数据所检索得到的图像与文本。
本发明的有益效果是:
针对当前图像和文本相互检索中多模态语义信息未能充分利用的问题,通过联合嵌入图像和文本中多种模态的信息,实现文化资源数据多模态间的相互检索。本发明通过目标检测和卷积神经网络提取图像特征,通过词嵌入层提取文本信息,并将对应的目标-单词对和图像-文本对在训练过程中对齐,获得图像文本信息联合嵌入的特征空间。使用该方法使得图像与文本的相互检索能够在语义层面上进行,更加准确,从而充分利用多模态文化资源。
附图说明
附图中,图1为本发明方法的设计框架图,图2为联合嵌入模型的结构示意图。
具体实施方式
以下结合附图及实施例对本发明进一步叙述,但本发明不局限于以下实施例。
一种图像与文本联合嵌入的多模态文化资源加工方法,通过联合嵌入对齐文本和图像对象,实现多个模态间的相互检索,其特征在于,包括以下步骤:
步骤S1,从开源数据集或网络搜集的的文化资源中获取图像文本对应的样本,并对其中的图像进行目标检测。通过预训练目标检测YOLO模型对图像进行处理,得到图像中一个或多个目标的在原图像中的坐标范围和对应的目标标签。YOLO是一种快速紧凑的开源对象检测模型,与其它网络相比,同等尺寸下性能更强,并且具有很不错的稳定性,可以预测对象的类别和边界框。
步骤S2,通过联合嵌入模型获取图像文本对中多种模态的对应特征。联合嵌入模型包括以下部分:词嵌入(word embedding)层,用于对文本中的单词进行嵌入;卷积神经网络层,用于对图像提取特征;全连接层,用于融合单模态特征。联合嵌入模型将提取如下几种特征:一个或多个目标区域的图像特征,目标区域所对应的文本单词的词向量特征,整体图像特征和整体文本特征。
步骤S3,通过损失函数反向传播,将S2中获取的目标区域特征与其在文本中对应单词的词向量特征对齐,同时将整体图像特征与整体文本特征对齐。此处的特征对齐指通过损失函数的反向传播,使得对应图像-文本特征对在特征空间中的欧氏距离尽可能小。损失函数包括目标区域特征与其在文本中对应单词的词向量特征的欧式距离,整体图像特征与整体文本特征的欧式距离,文本本身通过skip-gram算法预测上下文单词的训练损失。
步骤S4,在经过充分训练后,将联合嵌入模型用于文化资源数据中图像与文本间的相互检索。在输入图像或文本的单一模态数据后,使用预训练后的联合嵌入模型提取该输入数据的特征,并在特征空间中寻找与其欧式距离最近的图像特征点和文本特征点,得到输入特征检索得到的对应图像和文本。
所述步骤S1又包括以下步骤:
步骤S11,通过预训练目标检测YOLO模型对图像进行处理,通过特征提取网络对输入图像提取特征,得到特定大小的特征输出。输入图像分成均匀网格,如果某个目标对象的中心坐标落在某网格中,则由该网格来预测该目标的标签,并使用逻辑回归确定该目标的边界框。最终输出为图像中一个或多个目标的在原图像中的坐标范围和对应的目标标签。
所述步骤S2又包括以下步骤:
步骤S21,初始化网络参数,使用词向量维数为d的预训练Glove词向量初始化联合嵌入模型的词嵌入层;随机初始化模型其他参数,包括卷积神经网络层,全连接层。
步骤S22,通过步骤S1中得到的目标区域坐标和范围截取一个或多个目标的区域,使用联合嵌入模型中的卷积神经网络,获得k个目标的维数为d的特征表示{obj1,obj2,...objk}。
步骤S23,将步骤S1中检测出的目标对应名称,作为联合嵌入模型中的词嵌入层的输入,输出即为对应的词向量表示{o1,o2,...ok}。
步骤S24将图像文本对中的文本,作为联合嵌入模型中的词嵌入层的输入,设文本中单词个数为n,则输出为对应的词向量表示{w1,w2,...wn}。
步骤S25,通过图像检测目标名称词向量{o1,o2,...ok},与文本中的词向量{w1,w2,...wn}的相似度计算,找出检测目标在文本中的对应词语及其词向量表示。相似度具体计算方式为计算对应(其中<>表示向量点积计算):
simi(oi,wj)=<oi,wj>
对每个目标名称词向量oi,在文本中找出与其相似度最高的词向量作为该目标在文本中的对应单词。
步骤S26,将获得的目标区域特征{obj1,obj2,...objk}计算其平均向量,并作为对应的全连接层的输入,该全连接层输出为维度为d的图像整体特征vimg。
步骤S27,将文本中的所有词对应的词向量{w1,w2,...wn}计算其平均向量,并作为对应的全连接层的输入,该全连接层输出为维度为d的整体文本特征vtext。
所述步骤S3又包括以下步骤:
步骤S31,对图像文本对中的文本通过skip-gram算法预测上下文单词,并得到skip-gram损失函数值,作为总体损失函数的第一项。具体计算方法为:
其中wO为需要预测的上下文中单词词向量,wI为输入的中心词向量。
步骤S32,将目标区域特征与其在文本中对应单词的词向量特征对齐,计算特征向量之间的欧式距离均值,作为损失函数的第二项。具体计算公式为:
步骤S33,将图像文本对的总体特征对齐,即计算图像的总体特征与文本的总体特征的欧氏距离,作为损失函数的第三项。
L3=||vimg-vtext||
步骤S34,将skip-gram损失函数值,目标区域特征与其对应单词的词向量的欧氏距离均值,和图像总体特征与文本总体特征的欧氏距离均值三项的加和作为总体损失函数。
L=L1+L2+L3
对联合嵌入模型的所有参数计算梯度并利用梯度下降算法反向传播更新参数。
所述步骤S4又包括以下步骤:
步骤S41,如在检索时输入的数据模态为图像,则通过预训练目标检测模型对图像进行处理,得到图像中一个或多个目标的坐标范围,使用联合嵌入模型中的卷积神经网络,获得检测目标的维数为d的特征表示。将获得的目标特征平均,并作为对应的全连接层的输入,输出为维度为d的图像整体特征。
步骤S42,如在检索时输入的数据模态为文本,则通过联合嵌入模型中的词嵌入层,获取文本对应的词向量表示。将文本对应的所有词向量平均,并作为对应的全连接层的输入,输出为维度为d的整体文本特征。
步骤S43,在获得输入的文化资源数据通过联合嵌入模型得到的特征表示后,在多模态对齐的文化资源特征空间中根据欧氏距离查找最近邻的文本特征表示和图像特征表示,即得到输入数据所检索得到的图像与文本。
实施例
在公共文化资源中存在各类多模态数据,其中包括大量艺术、文物、建筑等作品的图像及其描述文本。对类似的大规模多模态文化资源数据的共享中必然存在模态间相互检索的需求,可按照以下步骤进行:
步骤S1,从文化资源数据库中获取图像文本对应的样本,并对其中的图像进行目标检测。通过预训练目标检测YOLO模型对图像进行处理,得到图像中一个或多个目标的坐标范围和对应的目标标签。
步骤S2,通过联合嵌入模型获取图像文本对中多种模态的对应特征。联合嵌入模型包括以下部分:词嵌入(word embedding)层,用于对文本中的单词进行嵌入;卷积神经网络层,用于对图像提取特征;全连接层,用于融合单模态特征。联合嵌入模型将提取如下几种特征:一个或多个目标区域的图像特征,目标区域所对应的文本单词的词向量特征,整体图像特征和整体文本特征。
步骤S3,通过损失函数反向传播,将目标区域特征与其在文本中对应单词的词向量特征对齐,同时将整体图像特征与整体文本特征对齐。损失函数包括目标区域特征与其在文本中对应单词的词向量特征的欧式距离,整体图像特征与整体文本特征的欧式距离,文本本身通过skip-gram算法预测上下文单词的训练损失。
步骤S4,在经过充分训练后,将联合嵌入模型用于文化资源数据的图像与文本间的相互检索。在输入图像或文本的单一模态数据后,使用预训练后的联合嵌入模型提取该输入数据的特征,并在特征空间中寻找与其欧式距离最近的图像特征点和文本特征点,得到输入特征检索得到的对应图像和文本。
Claims (3)
1.一种图像与文本联合嵌入的多模态文化资源加工方法,通过联合嵌入对齐文本和图像对象,实现多个模态的文化资源的特征提取和相互检索,其特征在于,包括以下步骤:
步骤S1、从开源数据集或网络搜集的文化资源中获取图像文本对应的样本,并对其中的图像进行目标检测,通过预训练目标检测YOLO模型对图像进行处理,得到图像中一个或多个目标的在原图像中的坐标范围和对应的目标标签;
步骤S2、联合嵌入模型获取图像文本对中多种模态的对应特征,包括以下步骤:
步骤S21、初始化网络参数,使用词向量维数为d的预训练Glove词向量初始化联合嵌入模型的词嵌入层;随机初始化模型其他参数,包括卷积神经网络层,全连接层;
步骤S22、通过步骤S1中得到的目标区域坐标和范围截取一个或多个目标的区域,使用联合嵌入模型中的卷积神经网络,获得k个目标的维数为d的特征表示{obj1,obj2,…objk};
步骤S23、将步骤S1中检测出的目标对应名称,作为联合嵌入模型中的词嵌入层的输入,输出即为对应的词向量表示{o1,o2,…ok};
步骤S24、将图像文本对中的文本,作为联合嵌入模型中的词嵌入层的输入,设文本中单词个数为n,则输出为对应的词向量表示{w1,w2,…wn};
步骤S25、通过图像检测目标名称词向量{o1,o2,…ok},与文本中的词向量{w1,w2,…wn}的相似度计算,找出检测目标在文本中的对应词语及其词向量表示;相似度具体计算方式为计算对应,其中<>表示向量点积计算:
simi(oi,wj)=<oi,wj>
对每个目标名称词向量oi,在文本中找出与其相似度最高的词向量作为该目标在文本中的对应单词;
步骤S26、将获得的目标区域特征{obj1,obj2,…objk}计算其平均向量,并作为对应的全连接层的输入,该全连接层输出为维度为d的图像整体特征vimg;
步骤S27、将文本中的所有词对应的词向量{w1,w2,…wn}计算其平均向量,并作为对应的全连接层的输入,该全连接层输出为维度为d的整体文本特征vtext;
步骤S3、特征的对齐:通过损失函数反向传播,使得目标区域特征与其在文本中对应单词的词向量特征在联合嵌入特征空间中距离最小化,同时使整体图像特征与整体文本特征在特征空间中距离最小化,损失函数包括目标区域特征与其在文本中对应单词的词向量特征的欧式距离,整体图像特征与整体文本特征的欧式距离,文本本身通过skip-gram算法预测上下文单词的训练损失,包括以下步骤:
步骤S31、对图像文本对中的文本通过skip-gram算法预测上下文单词,并得到skip-gram损失函数值,作为总体损失函数的第一项;具体计算方法为:
其中wO为需要预测的上下文中单词词向量,wI为输入的中心词向量;
步骤S32、通过最小化目标区域特征与其在文本中对应单词的词向量特征之间的欧式距离将目标区域与对应单词对齐;计算特征向量之间的欧式距离均值,作为损失函数的第二项;具体计算公式为:
步骤S33、通过最小化图像文本对的总体特征之间的欧氏距离将图像文本对齐,即计算图像的总体特征与文本的总体特征的欧氏距离,作为损失函数的第三项;
L3=||vimg-vtext||
步骤S34、将skip-gram损失函数值,目标区域特征与其对应单词的词向量的欧氏距离均值,和图像总体特征与文本总体特征的欧氏距离均值三项的加和作为总体损失函数;
L=L1+L2+L3
对联合嵌入模型的所有参数计算梯度并利用梯度下降算法反向传播更新参数;
步骤S4,在经过充分训练后,将联合嵌入模型用于文化资源库中图像与文本的特征提取和相互检索,在输入图像或文本的单一模态数据后,使用预训练后的联合嵌入模型提取图像或文本的单一模态数据的特征,并在特征空间中寻找与其欧式距离最近的图像特征点和文本特征点,得到输入特征检索得到的对应图像和文本,包括以下步骤:
步骤S41,如在检索时输入的文化资源数据模态为图像,则通过预训练目标检测模型对图像进行处理,得到图像中一个或多个目标的坐标范围,使用联合嵌入模型中的卷积神经网络,获得检测目标的维数为d的特征表示;将获得的目标特征平均,并通过对应的全连接层,获得维度为d的图像整体特征;
步骤S42,如在检索时输入的文化资源数据模态为文本,则通过联合嵌入模型中的词嵌入层,获取文本对应的词向量表示;将文本对应的所有词向量平均,并通过对应的全连接层,得到维度为d的整体文本特征;
步骤S43,在获得输入数据通过联合嵌入模型得到的特征表示后,在多模态对齐的文化资源特征空间中根据欧氏距离查找最近邻的文本特征表示和图像特征表示,即得到输入数据所检索得到的图像与文本。
2.根据权利要求1所述的一种图像与文本联合嵌入的多模态文化资源加工方法,其特征在于,所述步骤S1又包括以下步骤:
步骤S11,通过预训练目标检测YOLO模型对图像进行处理,通过特征提取网络对输入图像提取特征,得到特定大小的特征输出;输入图像分成均匀网格,如果某个目标对象的中心坐标落在某网格中,则由该网格来预测该目标的标签,并使用逻辑回归确定该目标的边界框;最终输出为图像中一个或多个目标的在原图像中的坐标范围和对应的目标标签。
3.根据权利要求1所述的一种图像与文本联合嵌入的多模态文化资源加工方法,其特征在于,联合嵌入模型包括:词嵌入(word embedding)层,用于对文本中的单词进行嵌入;卷积神经网络层,用于对图像提取特征;全连接层,用于融合单模态特征;联合嵌入模型将提取如下几种特征:一个或多个目标区域的图像特征,目标区域所对应的文本单词的词向量特征,整体图像特征和整体文本特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110863497.XA CN113516118B (zh) | 2021-07-29 | 2021-07-29 | 一种图像与文本联合嵌入的多模态文化资源加工方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110863497.XA CN113516118B (zh) | 2021-07-29 | 2021-07-29 | 一种图像与文本联合嵌入的多模态文化资源加工方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113516118A CN113516118A (zh) | 2021-10-19 |
CN113516118B true CN113516118B (zh) | 2023-06-16 |
Family
ID=78067939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110863497.XA Active CN113516118B (zh) | 2021-07-29 | 2021-07-29 | 一种图像与文本联合嵌入的多模态文化资源加工方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113516118B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297473A (zh) * | 2021-11-25 | 2022-04-08 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287313A (zh) * | 2019-05-20 | 2019-09-27 | 阿里巴巴集团控股有限公司 | 一种风险主体的确定方法及服务器 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760507B (zh) * | 2016-02-23 | 2019-05-03 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN110059217B (zh) * | 2019-04-29 | 2022-11-04 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
WO2021080577A1 (en) * | 2019-10-23 | 2021-04-29 | Google Llc | Online federated learning of embeddings |
CN111597371B (zh) * | 2020-04-14 | 2023-04-28 | 广东工业大学 | 外观专利的多模态图像检索方法及系统 |
-
2021
- 2021-07-29 CN CN202110863497.XA patent/CN113516118B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287313A (zh) * | 2019-05-20 | 2019-09-27 | 阿里巴巴集团控股有限公司 | 一种风险主体的确定方法及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN113516118A (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Image retrieval from remote sensing big data: A survey | |
US11816888B2 (en) | Accurate tag relevance prediction for image search | |
CN109993197B (zh) | 一种基于深度端对端示例差异化的零样本多标签分类方法 | |
CN107133569B (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
US11816149B2 (en) | Electronic device and control method thereof | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN110909820A (zh) | 基于自监督学习的图像分类方法及系统 | |
CN111709311A (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN112004111A (zh) | 一种全域深度学习的新闻视频信息抽提方法 | |
CN111339343A (zh) | 图像检索方法、装置、存储介质及设备 | |
CN111324765A (zh) | 基于深度级联跨模态相关性的细粒度草图图像检索方法 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN115131613B (zh) | 一种基于多向知识迁移的小样本图像分类方法 | |
CN113705218A (zh) | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN113065409A (zh) | 一种基于摄像分头布差异对齐约束的无监督行人重识别方法 | |
CN114298122A (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
Sahbi et al. | Frugal Learning for Interactive Satellite Image Change Detection | |
CN114579794A (zh) | 特征一致性建议的多尺度融合地标图像检索方法及系统 | |
CN113516118B (zh) | 一种图像与文本联合嵌入的多模态文化资源加工方法 | |
Yu et al. | Text-image matching for cross-modal remote sensing image retrieval via graph neural network | |
Zhao et al. | Domain adaptation with feature and label adversarial networks | |
Villamizar et al. | Online learning and detection of faces with low human supervision | |
CN116341521A (zh) | 一种基于文本特征的aigc文章辨识系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |