CN109597998A - 一种视觉特征和语义表征联合嵌入的图像特征构建方法 - Google Patents

一种视觉特征和语义表征联合嵌入的图像特征构建方法 Download PDF

Info

Publication number
CN109597998A
CN109597998A CN201811562352.0A CN201811562352A CN109597998A CN 109597998 A CN109597998 A CN 109597998A CN 201811562352 A CN201811562352 A CN 201811562352A CN 109597998 A CN109597998 A CN 109597998A
Authority
CN
China
Prior art keywords
image
feature
target individual
characterizing semantics
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811562352.0A
Other languages
English (en)
Other versions
CN109597998B (zh
Inventor
杨波
倪旭彬
闫新童
刘珊
曾庆川
刘婷婷
郑文锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811562352.0A priority Critical patent/CN109597998B/zh
Publication of CN109597998A publication Critical patent/CN109597998A/zh
Application granted granted Critical
Publication of CN109597998B publication Critical patent/CN109597998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视觉特征和语义表征联合嵌入的图像特征构建方法,先提取图像视觉特征和语义表征,然后构建目标个体之间的关系矩阵,进而构建出联合嵌入图像特征;这样通过视觉特征和语义表征不仅能够提升图像特征的提取效果,而且更精确且冗余信息更少,其次,能够更快更精确地学习到目标个体间的相关关系,且结构简单易于复现。

Description

一种视觉特征和语义表征联合嵌入的图像特征构建方法
技术领域
本发明属于视觉问答技术领域,更为具体地讲,涉及一种视觉特征和语义表征联合嵌入的图像特征构建方法。
背景技术
视觉问答(VQA)是一个综合了自然语言处理技术和数字图像处理的新技术。解决VQA问题的一般流程是将图像和对应的自然语言描述的问题作为输入,最终得到答案。如果视觉问答的问题涉及到推理则被称为视觉推理。视觉推理所研究的问题和视觉问答很相似,只是可能需要更多相互依赖的推理步骤才能解决问题。
关于视觉问答的研究主要分为非深度学习模型和深度学习模型。非深度学习模型大多基于贝叶斯理论设计模型。提出了一个用于VQA的贝叶斯框架,预测一个问题的答案类型,并用它来产生答案。将从语义分析器得到的语义树和图像结合,构建SWQA模型预测对应的答案。然而近两年的深度模型在准确度上远远超过了非深度学习模型。iBOWIMG模型使用预训练的GoogleNet图像分类模型来提取图像特征,利用问题中每个词的词嵌入作为文本特征。之后拼接图像特征和文本特征,通过SOFTMAX回归得到答案。还有方法为每个图像和问题同时不间断地生成一个神经网络,即从各种基于问题的子模块中选择,并组合它们生成神经网络。关系网络通过限制函数的结构使得它能抓住关系推理的关键。
虽然深度学习模型较非深度学习模型而言取得了重大的进步,但在复杂问题上仍然和人类的推理水平有较大差距。我们发现目前的视觉推理模型任务基本是直接将图片或是图像特征作为输入。而人类不同的是,我们会用语言这一高层次、抽象的信息去描述事物和事物间的关系。
因此本发明通过构建一种视觉特征和语义表征联合嵌入的图像特征,使得联合嵌入的图像特征不仅包含低层次视觉特征也包含了高层次的语义表征。用更丰富的图像特征作为相关领域的输入,可以得到更精确的结果,也可以使神经网络训练收敛速度加快。
发明内容
本发明的目的在于克服现有技术的不足,提供一种视觉特征和语义表征联合嵌入的图像特征构建方法,通过视觉特征和语义表征提升图像特征的提取效果,而且更精确且冗余信息更少,还能进一步提取目标个体间的相关关系。
为实现上述发明目的,本发明一种视觉特征和语义表征联合嵌入的图像特征构建方法,其特征在于,包括以下步骤:
(1)、提取图像视觉特征
(1.1)、利用分类任务上的大规模图像数据集训练卷积神经网络,保留训练好的卷积神经网络的前k层,其余层删除,得到用来提取图像视觉特征的卷积神经网络;
(1.2)、将待提取图像输入至用来提取图像视觉特征的卷积神经网络,卷积神经网络的输出即为待提取图像的视觉特征,记为Feature;
(2)、对待提取图像进行预处理
(2.1)、利用目标检测模型对待提取图像进行分割处理,等分成s×s个格子;
(2.2)、预测每一个格子是否存在目标个体、目标个体的边界框以及目标个体的类别;
(2.3)、对存在目标个体的边框的格子采用非最大抑制算法将同一目标个体的不同子边框合并为一个刚好完整包含目标个体的最优边界框,从而得到不同个体类别的个体图像;
(3)、目标个体检测
先根据边界框裁剪出其内的目标个体,再将裁剪出的所有目标个体组合成集合I,I=I1,I2,…,In,In表示第n个目标个体;
(4)、提取目标个体的属性进行语义表征
(4.1)、根据当前任务搭建属性提取模块M,M={m1,m2,…,mk},mk表示目标个体的第k种属性;
(4.2)、将集合I输入至建属性提取模块M,提取目标个体的属性进行语义表征,其中,第i个目标个体的属性进行语义表征为Si={m1(Ii),m2(Ii),…,mk(Ii)},i=1,2,…,n;
(4.3)、将所有目标个体的属性进行语义表征为S={S1,S2,…,Sn};
(5)、利用语义表征S构建关系矩阵R
其中,R(i,j)表示第i个目标个体与第j个目标个体的语义表征Si、Sj的联合嵌入;
(6)、构建联合嵌入图像特征
(6.1)、构建用来对关系矩阵R编码,以及将关系矩阵R映射到与视觉特征Feature相同空间的多层全连接神经网络f;构建用于图像特征提取的多层全连接神经网络g;
(6.2)、将关系矩阵R输入至多层全连接神经网络f中,输出编码后的语义表征FeatureR
(6.3)、将编码后的语义表征FeatureR拼接在视觉特征Feature的尾端,得到未融合的联合嵌入图像特征;
(6.4)、将未融合的联合嵌入图像特征输入至多层全连接神经网络g中,输出得到待提取图像的联合嵌入图像特征FeatureX
本发明的发明目的是这样实现的:
本发明一种视觉特征和语义表征联合嵌入的图像特征构建方法,先提取图像视觉特征和语义表征,然后构建目标个体之间的关系矩阵,进而构建出联合嵌入图像特征;这样通过视觉特征和语义表征不仅能够提升图像特征的提取效果,而且更精确且冗余信息更少,其次,能够更快更精确地学习到目标个体间的相关关系,且结构简单易于复现。
附图说明
图1是本发明一种视觉特征和语义表征联合嵌入的图像特征构建方法的流程图;
图2是图像类型示意图;
图3是个体图像提取模型图;
图4是个体图像提取结果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种视觉特征和语义表征联合嵌入的图像特征构建方法的流程图。
在本实施例中,如图1所示,本发明一种视觉特征和语义表征联合嵌入的图像特征构建方法,包括以下步骤:
S1、提取图像视觉特征
在本实施例中,如图2所示,图像类型包括若干几何体(球体、圆柱体、立方体);每个物体有两种尺寸(大、小);有两种材质(金属、磨砂);和若干颜色(红、绿、紫、青、灰、蓝、综、黄)。
S1.1、利用分类任务上的大规模图像数据集训练卷积神经网络,保留训练好的卷积神经网络的前k层,其余层删除,得到用来提取图像视觉特征的卷积神经网络;
具体地可以选择RESNET101网络在ImageNet数据集上训练分类任务。训练完成后保留网络第3个Bottleneck前的所有部分(包括第3个Bottleneck),其余部分丢弃。保留的部分作为用来提取图像视觉特征的卷积神经网络。
S1.2、将待提取图像输入至用来提取图像视觉特征的卷积神经网络,卷积神经网络的输出即为待提取图像的视觉特征,记为Feature;
为了匹配用来提取图像视觉特征的卷积神经网络的默认参数(RESNET101的默认尺寸),需将待提取特征的图像尺寸转换为宽224像素,高也是224像素。将转换过尺寸的图片作为用来提取图像视觉特征的卷积神经网络的输入,输出即为待提取图像的视觉特征,记为Feature。
S2、对待提取图像进行预处理
S2.1、利用目标检测模型对待提取图像进行分割处理,等分成s×s个格子;
S2.2、预测每一个格子是否存在目标个体、目标个体的边界框以及目标个体的类别;
S2.3、在本实施例中,采用如图3所示的模型整体框架,对存在目标个体的边框的格子采用非最大抑制算法将同一目标个体的不同子边框合并为一个刚好完整包含目标个体的最优边界框,从而得到不同个体类别的个体图像;如图4所示,经过上述预处理后,图像中的目标个体被识别出来,并用矩形边框标记。
S3、目标个体检测
先根据边界框裁剪出其内的目标个体,再将裁剪出的所有目标个体组合成集合I,I=I1,I2,…,In,In表示第n个目标个体;
S4、提取目标个体的属性进行语义表征
S4.1、根据当前任务搭建属性提取模块M,M={m1,m2,…,mk},mk表示目标个体的第k种属性;
在本实施例中,搭建属性提取模块有:大小、材质、颜色、位置、形状。大小、材质和颜色可以构建卷积神经网络来提取;位置和形状可以直接通过步骤S2的结果得到,提取到的属性可以用硬编码表示,便于后续的计算。
S4.2、将集合I输入至建属性提取模块M,提取目标个体的属性进行语义表征,其中,第i个目标个体的属性进行语义表征为Si={m1(Ii),m2(Ii),…,mk(Ii)},i=1,2,…,n;
S4.3、将所有目标个体的属性进行语义表征为S={S1,S2,…,Sn};
S5、利用语义表征S构建关系矩阵R
其中,R(i,j)表示第i个目标个体与第j个目标个体的语义表征Si、Sj的联合嵌入;
S6、构建联合嵌入图像特征
S6.1、构建用来对关系矩阵R编码,以及将关系矩阵R映射到与视觉特征Feature相同空间的多层全连接神经网络f;构建用于图像特征提取的多层全连接神经网络g;
在本实施例中,f和g均4层全连接层神经网络构成,每个全连接层后采用ReLU非线性激活函数。
S6.2、将关系矩阵R输入至多层全连接神经网络f中,输出编码后的语义表征FeatureR
S6.3、将编码后的语义表征FeatureR拼接在视觉特征Feature的尾端,得到未融合的联合嵌入图像特征;
S6.4、将未融合的联合嵌入图像特征输入至多层全连接神经网络g中,输出得到待提取图像的联合嵌入图像特征FeatureX
实例对比:在VQA任务中,将视觉特征和语义表征联合嵌入的图像特征作为输入与单纯将图像视觉特征作为输入的结果对比如表1所示。可见本发明所提出的一种视觉特征和语义表征联合嵌入的图像特征构建方法在本实例得到了非常高的准确率。
表1
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种视觉特征和语义表征联合嵌入的图像特征构建方法,其特征在于,包括以下步骤:
(1)、提取图像视觉特征
(1.1)、利用分类任务上的大规模图像数据集训练卷积神经网络,保留训练好的卷积神经网络的前k层,其余层删除,得到用来提取图像视觉特征的卷积神经网络;
(1.2)、将待提取图像输入至用来提取图像视觉特征的卷积神经网络,卷积神经网络的输出即为待提取图像的视觉特征,记为Feature;
(2)、对待提取图像进行预处理
(2.1)、利用目标检测模型对待提取图像进行分割处理,等分成s×s个格子;
(2.2)、预测每一个格子是否存在目标个体、目标个体的边界框以及目标个体的类别;
(2.3)、对存在目标个体的边框的格子采用非最大抑制算法将同一目标个体的不同子边框合并为一个刚好完整包含目标个体的最优边界框,从而得到不同个体类别的个体图像;
(3)、目标个体检测
先根据边界框裁剪出其内的目标个体个体,再将裁剪出的所有目标个体组合成集合I,I=I1,I2,…,In,In表示第n个目标个体;
(4)、提取目标个体的属性进行语义表征
(4.1)、根据当前任务搭建属性提取模块M,M={m1,m2,…,mk},mk表示目标个体的第k种属性;
(4.2)、将集合I输入至建属性提取模块M,提取目标个体的属性进行语义表征,其中,第i个目标个体的属性进行语义表征为Si={m1(Ii),m2(Ii),…,mk(Ii)},i=1,2,…,n;
(4.3)、将所有目标个体的属性进行语义表征为S={S1,S2,…,Sn};
(5)、利用语义表征S构建关系矩阵R
其中,R(i,j)表示第i个目标个体与第j个目标个体的语义表征Si、Sj的联合嵌入;
(6)、构建联合嵌入图像特征
(6.1)、构建用来对关系矩阵R编码,以及将关系矩阵R映射到与视觉特征Feature相同空间的多层全连接神经网络f;构建用于图像特征提取的多层全连接神经网络g;
(6.2)、将关系矩阵R输入至多层全连接神经网络f中,输出编码后的语义表征FeatureR
(6.3)、将编码后的语义表征FeatureR拼接在视觉特征Feature的尾端,得到未融合的联合嵌入图像特征;
(6.3)、将未融合的联合嵌入图像特征输入至多层全连接神经网络g中,输出得到待提取图像的联合嵌入图像特征FeatureX
2.根据权利要求1所述的一种视觉特征和语义表征联合嵌入的图像特征构建方法,其特征在于,所述的R(i,j)满足:其中,表示语义表征Sj拼接在语义表征Si的尾端。
CN201811562352.0A 2018-12-20 2018-12-20 一种视觉特征和语义表征联合嵌入的图像特征构建方法 Active CN109597998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811562352.0A CN109597998B (zh) 2018-12-20 2018-12-20 一种视觉特征和语义表征联合嵌入的图像特征构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811562352.0A CN109597998B (zh) 2018-12-20 2018-12-20 一种视觉特征和语义表征联合嵌入的图像特征构建方法

Publications (2)

Publication Number Publication Date
CN109597998A true CN109597998A (zh) 2019-04-09
CN109597998B CN109597998B (zh) 2021-07-13

Family

ID=65964095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811562352.0A Active CN109597998B (zh) 2018-12-20 2018-12-20 一种视觉特征和语义表征联合嵌入的图像特征构建方法

Country Status (1)

Country Link
CN (1) CN109597998B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222770A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110321361A (zh) * 2019-06-15 2019-10-11 河南大学 基于改进的lstm神经网络模型的试题推荐判定方法
CN110517328A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于相关双自编码器在零次学习上的运用方法
CN110826639A (zh) * 2019-11-12 2020-02-21 福州大学 一种利用全量数据训练零样本图像分类方法
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法
CN111461211A (zh) * 2020-03-31 2020-07-28 中国科学院计算技术研究所 一种用于轻量级目标检测的特征提取方法及相应检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391505A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 一种图像处理方法及系统
KR20180045165A (ko) * 2016-10-25 2018-05-04 네이버 주식회사 시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시스템
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109034210A (zh) * 2018-07-04 2018-12-18 国家新闻出版广电总局广播科学研究院 基于超特征融合与多尺度金字塔网络的目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391505A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 一种图像处理方法及系统
KR20180045165A (ko) * 2016-10-25 2018-05-04 네이버 주식회사 시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시스템
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109034210A (zh) * 2018-07-04 2018-12-18 国家新闻出版广电总局广播科学研究院 基于超特征融合与多尺度金字塔网络的目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
俞俊 等: "视觉问答技术研究", 《计算机研究与发展》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222770A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110321361A (zh) * 2019-06-15 2019-10-11 河南大学 基于改进的lstm神经网络模型的试题推荐判定方法
CN110321361B (zh) * 2019-06-15 2021-04-16 河南大学 基于改进的lstm神经网络模型的试题推荐判定方法
CN110517328A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于相关双自编码器在零次学习上的运用方法
CN110826639A (zh) * 2019-11-12 2020-02-21 福州大学 一种利用全量数据训练零样本图像分类方法
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法
CN110826638B (zh) * 2019-11-12 2023-04-18 福州大学 基于重复注意力网络的零样本图像分类模型及其方法
CN110826639B (zh) * 2019-11-12 2023-05-12 福州大学 一种利用全量数据训练零样本图像分类方法
CN111461211A (zh) * 2020-03-31 2020-07-28 中国科学院计算技术研究所 一种用于轻量级目标检测的特征提取方法及相应检测方法

Also Published As

Publication number Publication date
CN109597998B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN109597998A (zh) 一种视觉特征和语义表征联合嵌入的图像特征构建方法
CN106022237B (zh) 一种端到端的卷积神经网络的行人检测方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN107122796B (zh) 一种基于多分支网络融合模型的光学遥感图像分类方法
CN110298361A (zh) 一种rgb-d图像的语义分割方法和系统
CN107463609A (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN108875807A (zh) 一种基于多注意力多尺度的图像描述方法
CN109543667A (zh) 一种基于注意力机制的文本识别方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN106920243A (zh) 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN106844442A (zh) 基于fcn特征提取的多模态循环神经网络图像描述方法
CN106372648A (zh) 基于多特征融合卷积神经网络的浮游生物图像分类方法
CN104142995B (zh) 基于视觉属性的社会事件识别方法
CA3069365A1 (en) Generation of point of interest copy
CN107391709A (zh) 一种基于新型注意模型进行图像字幕生成的方法
Gunawan et al. Sign language recognition using modified convolutional neural network model
CN110689012A (zh) 一种端到端的自然场景文本识别方法及系统
CN110163801A (zh) 一种图像超分辨和着色方法、系统及电子设备
CN107506792A (zh) 一种半监督的显著对象检测方法
CN104504007A (zh) 一种图像相似度的获取方法及系统
CN115391563B (zh) 一种基于多源异构数据融合的知识图谱链路预测方法
CN106997463A (zh) 一种基于压缩感知域和卷积神经网络的路牌识别方法
CN115035508A (zh) 基于主题引导的Transformer的遥感图像字幕生成方法
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN115330620A (zh) 一种基于循环生成对抗网络的图像去雾方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant