CN109145974A - 一种基于图文匹配的多层次图像特征融合方法 - Google Patents

一种基于图文匹配的多层次图像特征融合方法 Download PDF

Info

Publication number
CN109145974A
CN109145974A CN201810915359.XA CN201810915359A CN109145974A CN 109145974 A CN109145974 A CN 109145974A CN 201810915359 A CN201810915359 A CN 201810915359A CN 109145974 A CN109145974 A CN 109145974A
Authority
CN
China
Prior art keywords
image
text
features
training
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810915359.XA
Other languages
English (en)
Other versions
CN109145974B (zh
Inventor
郝志峰
李俊峰
蔡瑞初
温雯
王丽娟
陈炳丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201810915359.XA priority Critical patent/CN109145974B/zh
Publication of CN109145974A publication Critical patent/CN109145974A/zh
Application granted granted Critical
Publication of CN109145974B publication Critical patent/CN109145974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种基于图文匹配的多层次图像特征融合方法,通过使用预训练网络中的多层特征作为图像的多层次总预训练特征,并且在图文匹配的学习目标指导下,利用多层感知机(Multi‑Layer Perceptron)有监督地融合和降维图像的多层次总预训练特征,生成融合图像特征。从而能够充分地利用更多有用的、不同层次的预训练特征,并从中归纳出对图文匹配任务有用的特征和去除无用的特征,减少了噪声特征的干扰。然后即可利用融合图像特征和文本特征在特征空间上的余弦相似度来进行图文匹配。

Description

一种基于图文匹配的多层次图像特征融合方法
技术领域
本发明涉及数据挖掘技术领域,尤其是一种基于图文匹配的多层次图像特征融合方法。
背景技术
近年来,图文匹配任务在人工智能、机器学习等领域中逐渐变得热门。我们现在可以构建一个能根据文本内容推荐合适图像的图文匹配系统,反之亦然。这使得无须再进行繁琐的、重复的人工搜索,减轻工作压力。而作为一个图文匹配系统,其必须同时关注文本和图像这两个属于不同模态的研究对象,因此图文匹配是属于多模态(Multimodal)的任务,需要精准地抽取文本和图像的特征。特别是对于图像来说,由于其表达同样事物的方式更为丰富,因此获取图像的特征尤为困难。
实际上,在图文匹配中为了更丰富和更有效率地对图像进行表征,现有技术的做法是直接使用预训练网络中的单层特征去作为图像特征,或者对该单层特征进一步进行微调(Fine-tuning)。换言之,也就只能使用到预训练任务所归纳的某一单层次特征,或者只能从该单层次特征的基础上进一步进行归纳。但是,预训练任务和实际研究的图文匹配任务是有一定差别的(任务的不一致性)。直接使用某一单层次的预训练特征会存在图文匹配所需要的特征并没有被归纳到的情况,同时也存在大量没有作用的噪声特征。再者,对单层次的预训练特征进行微调也未能利用到其它层次的有用特征。因此,直接使用或微调预训练网络的某一单层次特征并没有充分地、合理地使用这种预训练特征。在图文匹配中如何更好地利用预训练特征,准确地表征图像,具有一定的研究价值和意义。
发明内容
针对现有技术的不足,本发明提供一种基于图文匹配的多层次图像特征融合方法,本发明能够充分地、合理地利用更多有用的预训练图像特征,减少噪声特征的干扰。
本发明的技术方案为:一种基于图文匹配的多层次图像特征融合方法,包括以下步骤:
S1)、文本表征,利用文本分析技术,为已经分词处理好的文本计算出相应的特征向量;
S2)、多层次图像表征,具体为:
S201)、利用丰富的图像分类数据集,在图像分类任务指导下预先训练得到一个预训练卷积神经网络;
S202)、把图像输入到该预训练卷积神经网络中,并使用网络中的多层特征作为图像的多层次总预训练特征;
S3)、构建一个多层感知机(Multi-Layer Perceptron,MLP);
S4)、利用图文匹配的学习目标,指导多层感知机MLP对图像的多层次总预训练特征进行融合和降维,生成融合图像特征;
S5)、融合图像特征的运用,直接对融合图像特征和文本特征进行相似度测量,从而进行图文匹配。
进一步的,上述技术方案中,步骤S201)中,所述的图像分类数据集为ImageNet数据集。
进一步的,上述技术方案中,步骤S3)中,所述的多层感知机MLP的各层维度随着深度增加相应降低,满足对高维度且包含大量噪声特征的多层次总预训练特征进行融合和降维的需要,并且该多层感知机MLP的输出层维度设置为与文本特征的维度一致,以便进行相似度测量,并在多层感知机MLP的隐藏层和输出层设置非线性激活函数,以增强表达能力。
本发明的有益效果为:
1、使用预训练网络的多个特征层能够充分地利用更多有用的、不同层次的预训练图像特征,防止图文匹配任务未能得到充分的图像特征信息。
2、在图文匹配的学习目标指导下,融合和降维的过程能在预训练特征中归纳出对图文匹配任务有用的特征,去除无用的特征,减少了噪声特征的干扰。
附图说明
图1为发明的流程示意图;
图2为本发明的多层次图像特征融合算法的实现框架图;
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,一种基于图文匹配的多层次图像特征融合方法,包括以下步骤:
S1)、文本表征,预设m1个分词处理好文本数据,分别为每个文本都有对应的图像,利用文本分析技术为所有文本数据生成相应的特征向量;
S2)、多层次图像表征,具体为:
S201)、预设m2个图像数据,分别为每个图像都有其对应的文本,在图像分类学习目标的指导下,利用丰富的图像分类数据集ImageNet数据集,预先训练得到一个预训练卷积神经网络;
S202)、把图像输入到该预训练卷积神经网络中,并对预训练网络中的n层特征进行拼接,以作为图像的多层次总预训练特征,具体为:
把图像Ik输入到预训练卷积神经网络中,即可生成对应的多层次总预训练特征
其中,为预训练网络中的使用到的第i层特征,为了令各层特征能拼接在一起,若使用到的某层特征为卷积层特征,必须要先进行池化操作以消除空间信息,若使用到的某层特征为全连接层特征,则不必进行池化操作;
S3)、为了从多层次的预训练特征中归纳出对图文匹配任务有用的特征和舍弃无用的噪声特征,构建一个多层感知机(Multi-Layer Perceptron,MLP),并且,各层维度随着深度越深变得越低,用于对高维度且包含大量噪声特征的多层次总预训练特征进行融合和降维,多层感知机MLP的输出层维度与文本特征维度一致,并在多层感知机MLP的隐藏层和输出层设置非线性激活函数,以增强表达能力;
S4)、利用图文匹配的学习目标,指导多层感知机MLP对图像的多层次总预训练特征进行融合和降维,生成融合图像特征,如图2所示,因此,为了训练MLP的网络参数,我们定义了一个约束,即
其中,分别代表文本Ti所对应的正类(匹配)和负类(不匹配)的图像集合,为Ti的特征向量,分别代表图像Ij,Ip的融合图像特征,代表的余弦相似度,m为强制间隔大小;
该约束表示,给定训练文本Ti,令其与对应的每个正类图像Ij的特征相似度,都要大于间隔大小m加上其与每个负类图像Ip的特征相似度,通过使用Hinge Loss的标准形式,将约束转化为MLP的训练损失函数,即
通过上述损失函数即可使用所有由训练文本,对应的正类图像,以及对应的负类图像所组成的三元组去训练MLP的网络参数;
S5)、融合图像特征的运用,直接对融合图像特征和文本特征进行相似度测量,从而进行图文匹配,由于MLP的训练约束能让其输出的融合图像特征向量与文本的特征向量直接在余弦相似度上进行匹配,因此利用在特征空间上的余弦相似度去进行图文匹配。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (5)

1.一种基于图文匹配的多层次图像特征融合方法,其特征在于,包括以下步骤:
S1)、文本表征,预设m1个分词处理好文本数据,分别为每个文本都有对应的图像,利用文本分析技术为所有文本数据生成相应的特征向量;
S2)、多层次图像表征,具体为:
S201)、预设m2个图像数据,分别为每个图像都有其对应的文本,在图像分类学习目标的指导下,利用丰富的图像分类数据集,预先训练得到一个预训练卷积神经网络;
S202)、把图像输入到该预训练卷积神经网络中,并对预训练网络中的n层特征进行拼接,以作为图像的多层次总预训练特征;
S3)、为了从多层次的预训练特征中归纳出对图文匹配任务有用的特征和舍弃无用的噪声特征,构建一个多层感知机(Multi-Layer Perceptron,MLP);
S4)、利用图文匹配的学习目标,指导多层感知机MLP对图像的多层次总预训练特征进行融合和降维,生成融合图像特征;
S5)、融合图像特征的运用,直接对融合图像特征和文本特征进行相似度测量,从而进行图文匹配,由于MLP的训练约束能让其输出的融合图像特征向量与文本的特征向量直接在余弦相似度上进行匹配,因此利用在特征空间上的余弦相似度去进行图文匹配。
2.根据权利要求1所述的一种基于图文匹配的多层次图像特征融合方法,其特征在于:步骤S201)中,所述的图像分类数据集为ImageNet数据集。
3.根据权利要求1所述的一种基于图文匹配的多层次图像特征融合方法,其特征在于:步骤S202)中,把图像Ik输入到预训练卷积神经网络中,即可生成对应的多层次总预训练特征
其中,为预训练网络中使用到的第i层特征,为了令各层特征能拼接在一起,若使用到的某层特征为卷积层特征,必须要先进行池化操作以消除空间信息,若使用到的某层特征为全连接层特征,则不必进行池化操作。
4.根据权利要求1所述的一种基于图文匹配的多层次图像特征融合方法,其特征在于:步骤S3)中,所述的多层感知机MLP的各层维度随着深度增加相应降低,以满足对高维度且包含大量噪声特征的多层次总预训练特征进行融合和降维的需要,并且该多层感知机MLP的输出层维度与文本特征的维度一致,在多层感知机MLP的隐藏层和输出层设置非线性激活函数,以增强表达能力。
5.根据权利要求1所述的一种基于图文匹配的多层次图像特征融合方法,其特征在于:步骤S4)中,为了训练多层感知机MLP的网络参数,定义一个约束,即:
其中,分别代表文本Ti所对应的正类(匹配)和负类(不匹配)的图像集合,为Ti的特征向量,分别代表图像Ij,Ip的融合图像特征,代表 的余弦相似度,m为强制间隔大小;
该约束表示,给定训练文本Ti,令其与对应的每个正类图像Ij的特征相似度,都要大于间隔大小m加上其与每个负类图像Ip的特征相似度,通过使用Hinge Loss的标准形式,将约束转化为MLP的训练损失函数,即
通过上述损失函数即可使用所有由训练文本,对应的正类图像,以及对应的负类图像所组成的三元组去训练MLP的网络参数。
CN201810915359.XA 2018-08-13 2018-08-13 一种基于图文匹配的多层次图像特征融合方法 Active CN109145974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810915359.XA CN109145974B (zh) 2018-08-13 2018-08-13 一种基于图文匹配的多层次图像特征融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810915359.XA CN109145974B (zh) 2018-08-13 2018-08-13 一种基于图文匹配的多层次图像特征融合方法

Publications (2)

Publication Number Publication Date
CN109145974A true CN109145974A (zh) 2019-01-04
CN109145974B CN109145974B (zh) 2022-06-24

Family

ID=64792640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810915359.XA Active CN109145974B (zh) 2018-08-13 2018-08-13 一种基于图文匹配的多层次图像特征融合方法

Country Status (1)

Country Link
CN (1) CN109145974B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885796A (zh) * 2019-01-25 2019-06-14 内蒙古工业大学 一种基于深度学习的网络新闻配图匹配性检测方法
CN110097010A (zh) * 2019-05-06 2019-08-06 北京达佳互联信息技术有限公司 图文检测方法、装置、服务器及存储介质
CN110232158A (zh) * 2019-05-06 2019-09-13 重庆大学 基于多模态数据的突发公共安全事件检测方法
CN110245719A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种面向实体和用户画像的特征融合方法
CN110458242A (zh) * 2019-08-16 2019-11-15 广东工业大学 一种图像描述生成方法、装置、设备以及可读存储介质
CN112818157A (zh) * 2021-02-10 2021-05-18 浙江大学 一种基于多阶对抗特征学习的组合查询图像检索方法
CN113961710A (zh) * 2021-12-21 2022-01-21 北京邮电大学 基于多模态分层融合网络的细粒度化论文分类方法及装置
CN114418038A (zh) * 2022-03-29 2022-04-29 北京道达天际科技有限公司 基于多模态融合的天基情报分类方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060285772A1 (en) * 2004-10-01 2006-12-21 Hull Jonathan J System and methods for creation and use of a mixed media environment
US9367763B1 (en) * 2015-01-12 2016-06-14 Xerox Corporation Privacy-preserving text to image matching
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106776545A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106997387A (zh) * 2017-03-28 2017-08-01 中国科学院自动化研究所 基于文本‑图像匹配的多模态自动文摘方法
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060285772A1 (en) * 2004-10-01 2006-12-21 Hull Jonathan J System and methods for creation and use of a mixed media environment
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
US9367763B1 (en) * 2015-01-12 2016-06-14 Xerox Corporation Privacy-preserving text to image matching
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106776545A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106997387A (zh) * 2017-03-28 2017-08-01 中国科学院自动化研究所 基于文本‑图像匹配的多模态自动文摘方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885796A (zh) * 2019-01-25 2019-06-14 内蒙古工业大学 一种基于深度学习的网络新闻配图匹配性检测方法
CN109885796B (zh) * 2019-01-25 2020-01-03 内蒙古工业大学 一种基于深度学习的网络新闻配图匹配性检测方法
CN110245719A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种面向实体和用户画像的特征融合方法
CN110245719B (zh) * 2019-03-27 2024-05-07 中国海洋大学 一种面向实体和用户画像的特征融合方法
CN110097010A (zh) * 2019-05-06 2019-08-06 北京达佳互联信息技术有限公司 图文检测方法、装置、服务器及存储介质
CN110232158A (zh) * 2019-05-06 2019-09-13 重庆大学 基于多模态数据的突发公共安全事件检测方法
CN110458242A (zh) * 2019-08-16 2019-11-15 广东工业大学 一种图像描述生成方法、装置、设备以及可读存储介质
CN112818157A (zh) * 2021-02-10 2021-05-18 浙江大学 一种基于多阶对抗特征学习的组合查询图像检索方法
CN113961710A (zh) * 2021-12-21 2022-01-21 北京邮电大学 基于多模态分层融合网络的细粒度化论文分类方法及装置
CN113961710B (zh) * 2021-12-21 2022-03-08 北京邮电大学 基于多模态分层融合网络的细粒度化论文分类方法及装置
CN114418038A (zh) * 2022-03-29 2022-04-29 北京道达天际科技有限公司 基于多模态融合的天基情报分类方法、装置及电子设备

Also Published As

Publication number Publication date
CN109145974B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN109145974B (zh) 一种基于图文匹配的多层次图像特征融合方法
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
Han et al. Memory-augmented dense predictive coding for video representation learning
Arevalo et al. Gated multimodal networks
Ma et al. TS-LSTM and temporal-inception: Exploiting spatiotemporal dynamics for activity recognition
Liu et al. Learn to combine modalities in multimodal deep learning
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
Nishida et al. Multimodal gesture recognition using multi-stream recurrent neural network
Mitra et al. A machine learning based approach for deepfake detection in social media through key video frame extraction
CN111461174B (zh) 多层次注意力机制的多模态标签推荐模型构建方法及装置
US20230290234A1 (en) Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration
CN114387567B (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
Gupta et al. ALMNet: Adjacent layer driven multiscale features for salient object detection
Wehrmann et al. Bidirectional retrieval made simple
CN110225368B (zh) 一种视频定位方法、装置及电子设备
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN113486669B (zh) 应急救援输入语音的语义识别方法
CN114020891A (zh) 双通道语义定位多粒度注意互增强的视频问答方法与系统
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
Wang et al. Dig into Multi-modal Cues for Video Retrieval with Hierarchical Alignment.
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN111339256A (zh) 用于文本处理的方法和装置
Tian et al. Lipreading model based on whole-part collaborative learning
Gao et al. Generalized pyramid co-attention with learnable aggregation net for video question answering
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant