CN111783457B - 一种基于多模态图卷积网络的语义视觉定位方法及装置 - Google Patents

一种基于多模态图卷积网络的语义视觉定位方法及装置 Download PDF

Info

Publication number
CN111783457B
CN111783457B CN202010736128.XA CN202010736128A CN111783457B CN 111783457 B CN111783457 B CN 111783457B CN 202010736128 A CN202010736128 A CN 202010736128A CN 111783457 B CN111783457 B CN 111783457B
Authority
CN
China
Prior art keywords
semantic
visual
features
graph
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010736128.XA
Other languages
English (en)
Other versions
CN111783457A (zh
Inventor
俞益洲
史业民
杨思蓓
吴子丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Original Assignee
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenrui Bolian Technology Co Ltd, Shenzhen Deepwise Bolian Technology Co Ltd filed Critical Beijing Shenrui Bolian Technology Co Ltd
Priority to CN202010736128.XA priority Critical patent/CN111783457B/zh
Publication of CN111783457A publication Critical patent/CN111783457A/zh
Application granted granted Critical
Publication of CN111783457B publication Critical patent/CN111783457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于多模态图卷积网络的语义视觉定位方法及装置,其中方法包括:获取输入图片以及语料描述;用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;进行语义视觉位置推理,获得语义信息的视觉位置。本发明在处理歧义或者二义性语义元素时结合了上下文语义信息,能够利用语义关系信息指导视觉定位。

Description

一种基于多模态图卷积网络的语义视觉定位方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种基于多模态图卷积网络的语义视觉定位方法及装置。
背景技术
在现实世界中实现人类与机器之间的交流,让机器能够理解自然语言所描述的视觉场景,是人工智能领域的一个基本但十分有挑战性的问题。这一问题的基础是让机器能够在视觉场景中定位语义元素,即给定一个视觉场景的自然语言描述,机器要能够在视觉场景中定位对应的语义元素位置。近年来,语义视觉定位任务受到了广泛的关注,得到了快速发展,取得了优异的性能。然而,现有的解决方案在图片中逐个定位名词短语,没有建模名词短语之间的语义关系,或者仅仅粗略地利用了上下文信息。这些方法没有充分发掘语料中语义的上下文关系,例如,针对语料『A man in bread playing a violin while nextto another man playing a banjo.』,算法往往可以精确定位到没有歧义或者没有二义性的语义元素『violin』,而对『man』这个语义元素则需要结合『man-in-bread』、『next-to-another-man』和『another-man-playing-a-banjo』等语义关系信息进行定位。总体来说,缺乏名词短语之间语义关系建模的方法在处理具有歧义或者二义性的语义元素时往往难以获得理想的视觉定位,需要研究精细的名词短语语义关系建模方法,使得能够在语义结构信息指导下进行语义视觉定位。
现有的解决方案主要关注视觉特征和语料特征的融合、从语料对应的视觉区域重构语料或者粗略地结合语义上下文信息,缺少了对语料中名词短语间的语义关系信息的发掘,因此受限于需要结合上下文以及语义关系等信息进行视觉位置推理的语义元素。
发明内容
本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于多模态图卷积网络的语义视觉定位方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了基于多模态图卷积网络的语义视觉定位方法,包括:获取输入图片以及语料描述;用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;进行语义视觉位置推理,获得语义信息的视觉位置。
其中,解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征包括:给定一个语料描述,以及语料描述中的名词短语集合;使用场景图解析器语料描述,提取初始场景图;按照语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
其中,融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征包括:为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
其中,进行语义视觉位置推理,获得语义信息的视觉位置包括:为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
其中,用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征包括:使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
本发明另一方面提供了一种基于多模态图卷积网络的语义视觉定位装置,包括:获取模块,用于获取输入图片以及语料描述;图片表征模块,用于用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;语料表征模块,用于解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;多模态特征融合模块,用于融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;关系信息图传播模块,用于通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;视觉位置推理模块,用于进行语义视觉位置推理,获得语义信息的视觉位置。
其中,语料表征模块通过如下方式解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征:语料表征模块,具体用于给定一个语料描述,以及语料描述中的名词短语集合;使用场景图解析器语料描述,提取初始场景图;按照语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
其中,多模态特征融合模块通过如下方式融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征:多模态特征融合模块,具体用于为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
其中,视觉位置推理模块通过如下方式进行语义视觉位置推理,获得语义信息的视觉位置:视觉位置推理模块,具体用于为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
其中,图片表征模块通过如下方式用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征:图片表征模块,具体用于使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
由此可见,通过本发明提供的基于多模态图卷积网络的语义视觉定位方法及装置,将语料通过解析构建语义结构图,在语义信息指导下学习提取多模态特征,提升语义视觉定位任务性能;通过解析语料输入,构建基于语义信息的语义结构图,使用结合视觉特征、空间坐标信息以及语义特征的多模态特征,通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系,从而缓解歧义或者二义性语义元素带来的影响,更精准的获取语义视觉位置。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法的流程图;
图2为本发明实施例提供的图片和语料表征示意图;
图3为本发明实施例提供的图结构示意图;
图4为本发明实施例提供的关系信息图传播示意图;
图5为本发明实施例提供的语义视觉位置推理示意图;
图6为本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的核心在于:提出将语料通过解析构建语义结构图,在语义信息指导下学习提取多模态特征,提升语义视觉定位任务性能。本方法通过解析语料输入,构建基于语义信息的语义结构图,使用结合视觉特征、空间坐标信息以及语义特征的多模态特征,通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系,从而缓解歧义或者二义性语义元素带来的影响,更精准的获取语义视觉位置。
本发明可划分为三个主要步骤:图片和语料表征(图1步骤S1-S3)、关系信息图传播(图1步骤S4-S5)和语义视觉位置推理(图1步骤S6)。以下,通过图1对本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法进行具体说明,参见图1,本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法,包括:
S1,获取输入图片以及语料描述。
具体地,输入图片以及语料描述可以在同时获取,也可以不同时获取,只要可以获取到,则均应属于本发明的保护范围。
本发明中,将输入的图片和自然语言描述分别表征为空间感知特征和语义图。图片的空间感知特征在通过卷积神经网络提取视觉特征的基础上融合了空间坐标信息,捕捉了图片全局上下文信息。语义图则编码了语料描述的语义结构,引导联系信息在名词短语间传播。具体表征图片和语料的方法如下述步骤S2和S3,值得说明的是,以下步骤S2和S3的执行顺序可以先执行S2后执行S3,也可以先执行S3后执行S2,还可以同时执行,这在本发明中并不做具体限制。以下,结合图1和图2对图片和语料表征的具体方式进行说明。
S2,用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征。
作为本发明实施例的一个可选实施方式,用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征包括:使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
具体地,图片编码获取空间感知特征过程如下:
使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络。例如给定输入图片
Figure DEST_PATH_IMAGE001
,首先使用零填充将图片调整为
Figure 505990DEST_PATH_IMAGE002
大小,并保持其长宽比。提取特征金字塔网络的不同空间分辨率输出作为视觉特征,具体包含
Figure 823839DEST_PATH_IMAGE003
Figure 480079DEST_PATH_IMAGE004
Figure 262090DEST_PATH_IMAGE005
等三种分辨率。为了方便表述,以下采用V表示提取的大小为
Figure 978374DEST_PATH_IMAGE006
的视觉特征。
考虑到一个名词短语有时不仅描述目标的外形信息,也会描述目标的位置信息,因此,本发明将空间坐标信息嵌入视觉特征获得图片的空间感知特征。
具体地,定义空间图P,P与相关联的视觉特征有相同的空间分辨率,即P的大小为
Figure 783519DEST_PATH_IMAGE007
,其中每一个位置
Figure 368084DEST_PATH_IMAGE008
的定义如下:
Figure 384362DEST_PATH_IMAGE009
其中
Figure 396181DEST_PATH_IMAGE010
编码了对应位置
Figure 423042DEST_PATH_IMAGE011
处网格的左上、中心、右下、宽度和高度的标准化坐标。然后,融合视觉特征V和空间图P来获得空间感知特征
Figure 952244DEST_PATH_IMAGE012
Figure 177689DEST_PATH_IMAGE013
其中,
Figure 563671DEST_PATH_IMAGE014
卷积核为
Figure DEST_PATH_IMAGE015
的卷积层,
Figure 812249DEST_PATH_IMAGE016
是在特征通道维度上的L2正则化,符号
Figure 613983DEST_PATH_IMAGE017
表示拼接操作。
S3,解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征。
具体地,语料解析构建语义图过程如下:
本发明将自然语言描述编码为语义图,图中的每个节点表征一个名词短语,图中的边表征语料描述中提到的名词短语之间的语义关系,诸如介词或动词短语。
首先解析语料描述构建一个初始的场景图,然后再基于给定的名词短语提炼获得最终的语义图。
作为本发明实施例的一个可选实施方式,解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征包括:给定一个语料描述,以及语料描述中的名词短语集合;使用场景图解析器语料描述,提取初始场景图;按照语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
具体过程如下:
1、输入:给定一个语料描述L,以及L中的名词短语集合
Figure 897197DEST_PATH_IMAGE018
2、首先使用现有的场景图解析器解析语料L,提取一个初始的场景图。具体地,场景图解析器通过将语料描述解析为一棵依赖树,然后依据一些列手工规则将依赖树转化为图结构,以此获得初始场景图。图中的节点为具有修饰的名词,边为名词间的语义联系。例如,短语『a-man-in-beard』通过解析生成图中的两个节点(『aman』-『in』-『beard』),他们之间的边编码了名词节点间的关系。(详细例子如图3所示)。
3、然后按照语料库L中的原始顺序对每一个节点进行重排序,重排序后的名词短语记为
Figure 516397DEST_PATH_IMAGE019
集合。
4、然而有时候,给定的语料L中的名词短语集合
Figure 954070DEST_PATH_IMAGE018
和提取的到的场景图中的名词短语集合
Figure 684128DEST_PATH_IMAGE019
不能完全匹配。因此,本发明基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语。
5、最后,对每一条边基于与之相连的替换后的名词短语增加或删除单词。在调整完场景图中节点和边之后,获得语义图G。
6、输出:语义图G。
为了方便表述,本发明可以采用如下符号定义语义图G。语义图G表示为
Figure 821849DEST_PATH_IMAGE020
,其中,
Figure 752895DEST_PATH_IMAGE021
表示节点集合,
Figure 38383DEST_PATH_IMAGE022
表示边集合。具体地,每个节点
Figure 509816DEST_PATH_IMAGE023
对应于由语料L中若干个单词组成的名词短语
Figure 439726DEST_PATH_IMAGE024
;每条边
Figure 666308DEST_PATH_IMAGE025
是一个三元组
Figure 48879DEST_PATH_IMAGE026
。在边对应的三元组中,
Figure 324002DEST_PATH_IMAGE027
Figure 764211DEST_PATH_IMAGE028
分别表示主语节点和宾语节点,与
Figure 4437DEST_PATH_IMAGE029
对应的语料L中的介词或者动词短语
Figure 467779DEST_PATH_IMAGE030
则是节点
Figure 77752DEST_PATH_IMAGE031
Figure 247834DEST_PATH_IMAGE032
间的语义联系。此外,本发明可以采用
Figure 285060DEST_PATH_IMAGE033
表示宾语是
Figure 235698DEST_PATH_IMAGE023
的节点集合,用
Figure 790308DEST_PATH_IMAGE034
表示主语是
Figure 673950DEST_PATH_IMAGE023
的节点集合,用
Figure 23023DEST_PATH_IMAGE035
表示节点
Figure 195378DEST_PATH_IMAGE023
的度数。
以下,结合图1和图4对关系信息图传播的具体方式进行说明。
S4,融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征。
具体地,在本发明中,通过解析语料构建基于语义关系的图,将名词短语间的关系信息编码嵌入图结构中。使用图卷积进行图中的信息传播,从而在语义结构信息的指导下学习结合视觉特征、空间坐标信息和语义联系的多模态特征,用于语义视觉位置推理。
作为本发明实施例的一个可选实施方式,融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征包括:为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
具实施过程中,首先,为图G中的每个节点V提取结合视觉特征、空间坐标信息和语义联系的多模态特征。具体地,对每个节点的短语采用词向量编码,每个节点的初始短语编码为节点包含单词的词向量的均值。对由名词短语
Figure 412733DEST_PATH_IMAGE024
构成的节点
Figure 790362DEST_PATH_IMAGE023
有初始词编码
Figure 372653DEST_PATH_IMAGE036
,通过一个非线性变化学习节点的词编码如下:
Figure 829042DEST_PATH_IMAGE037
其中
Figure 725454DEST_PATH_IMAGE038
为带有RELU激活函数的多层感知机,
Figure 583689DEST_PATH_IMAGE039
为L2正则化。然后融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征
Figure 602461DEST_PATH_IMAGE040
如下:
Figure 421512DEST_PATH_IMAGE041
其中,F为之前提取的空间感知特征,
Figure 980669DEST_PATH_IMAGE042
将词编码
Figure 568777DEST_PATH_IMAGE043
按分辨率
Figure 758449DEST_PATH_IMAGE044
对应的每个空间位置堆叠,
Figure DEST_PATH_IMAGE045
为一系列连接着BatchNorm层和ReLU层的卷积层。
S5,通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系。
具体地,提取多模态特征
Figure 354210DEST_PATH_IMAGE046
后,通过图卷积发掘短语间的语义联系。在图中的信息传播过程中,每个节点都直接收到邻居节点且间接受到更远节点的影响而改变自己的状态,从而将名词短语间的关联信息嵌入到模型提取的特征中,语义的视觉位置推理在语义的指导下获得更为精确的位置预测。具体地,对图中节点的多模态特征M经过若干层图卷积提取得到
Figure 451479DEST_PATH_IMAGE047
,其中每一层实现如下:
Figure 221989DEST_PATH_IMAGE048
其中,
Figure 520247DEST_PATH_IMAGE049
为第l层输出的图卷积特征,A为图G的邻接矩阵,D为图G节点的度矩阵。通过引入图自身度矩阵解决自传递问题,即节点的更新信息也参考自身上一个状态的信息;通过对邻接矩阵的归一化操作,缓解了邻居节点较多的节点影响较大的问题。
以下,结合图1和图5对语义视觉位置推理的具体方式进行说明。
S6,进行语义视觉位置推理,获得语义信息的视觉位置。
作为本发明实施例的一个可选实施方式,进行语义视觉位置推理,获得语义信息的视觉位置包括:为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
具体地,语义的视觉位置推理过程与检测任务类似,本发明可以为特征图的每个空间位置匹配三个锚框(anchor box),选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,在根据预测的回归偏移量调整候选框得到最终的语义视觉位置。对图G中的每个节点
Figure 438524DEST_PATH_IMAGE023
预测回归偏移量和置信分数用
Figure 277167DEST_PATH_IMAGE050
表示,对于
Figure 105446DEST_PATH_IMAGE044
空间分辨率大小的每一个位置计算三个锚框的
Figure 433659DEST_PATH_IMAGE051
如下:
Figure 776916DEST_PATH_IMAGE052
其中,
Figure DEST_PATH_IMAGE053
为一系列卷积层。训练过程中,计算候选框分类的交叉熵损失函数以及预测回归偏移量的L1回归损失函数。即整体损失函数可以写为:
Figure 153670DEST_PATH_IMAGE054
其中,
Figure 69411DEST_PATH_IMAGE055
为分类损失和回归损失的权重参数,
Figure 771788DEST_PATH_IMAGE056
是在不同尺度特征图中所有锚框中分类与真实值IoU最大的框的交叉熵损失函数,
Figure 664658DEST_PATH_IMAGE057
是预测的回归偏移量与真实值的L1损失函数。具体地,定义回归偏移
Figure 517207DEST_PATH_IMAGE058
如下:
Figure 382395DEST_PATH_IMAGE059
Figure 52411DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE061
Figure 839101DEST_PATH_IMAGE062
其中,
Figure 823238DEST_PATH_IMAGE063
Figure 480615DEST_PATH_IMAGE064
分别是真实值和候选框的值。
推理阶段,本发明基于分类获得的候选框r和回归预测的回归偏移量t’计算得到最终的语义视觉位置:
Figure 321532DEST_PATH_IMAGE065
Figure 126677DEST_PATH_IMAGE066
Figure 85144DEST_PATH_IMAGE067
Figure 721662DEST_PATH_IMAGE068
由此可见,通过本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法,基于语料解析构建语义结构图的方法,从而将语料中语义元素间的关系信息编码到图结构中;提出结合了视觉特征、空间坐标信息以及图节点语义特征的多模态特征融合方法,使得图中每个节点包含信息更丰富的特征;提出使用图卷积进行图中的信息传播,从而在语义结构信息的指导下学习并提取多模态特征,用于语义视觉位置推理。从而能够高效的将语料中语义关系信息构建为图,可以进一步发掘语料中语义元素间的关系信息;融合了视觉特征和空间坐标信息,使得特征具有空间感知能力。同时结合图节点的语义特征,将空间感知特征和语义特征进行融合,联合学习;用图卷积学习图节点间的语义关系信息,可以在语义信息指导下获得更精确的语义视觉定位。
图6示出了本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置的结构示意图,该基于多模态图卷积网络的语义视觉定位装置应用上述方法,以下仅对基于多模态图卷积网络的语义视觉定位装置的结构进行简单说明,其他未尽事宜,请参照上述基于多模态图卷积网络的语义视觉定位方法中的相关描述,参见图6,本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置,包括:
获取模块,用于获取输入图片以及语料描述;
图片表征模块,用于用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;
语料表征模块,用于解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;
多模态特征融合模块,用于融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;
关系信息图传播模块,用于通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;
视觉位置推理模块,用于进行语义视觉位置推理,获得语义信息的视觉位置。
作为本发明实施例的一个可选实施方式,图片表征模块通过如下方式用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征:图片表征模块,具体用于使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
作为本发明实施例的一个可选实施方式,语料表征模块通过如下方式解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征:语料表征模块,具体用于给定一个语料描述,以及语料描述中的名词短语集合;使用场景图解析器语料描述,提取初始场景图;按照语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
作为本发明实施例的一个可选实施方式,多模态特征融合模块通过如下方式融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征:多模态特征融合模块,具体用于为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
作为本发明实施例的一个可选实施方式,视觉位置推理模块通过如下方式进行语义视觉位置推理,获得语义信息的视觉位置:视觉位置推理模块,具体用于为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
由此可见,通过本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置,基于语料解析构建语义结构图的方法,从而将语料中语义元素间的关系信息编码到图结构中;提出结合了视觉特征、空间坐标信息以及图节点语义特征的多模态特征融合方法,使得图中每个节点包含信息更丰富的特征;提出使用图卷积进行图中的信息传播,从而在语义结构信息的指导下学习并提取多模态特征,用于语义视觉位置推理。从而能够高效的将语料中语义关系信息构建为图,可以进一步发掘语料中语义元素间的关系信息;融合了视觉特征和空间坐标信息,使得特征具有空间感知能力。同时结合图节点的语义特征,将空间感知特征和语义特征进行融合,联合学习;用图卷积学习图节点间的语义关系信息,可以在语义信息指导下获得更精确的语义视觉定位。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种基于多模态图卷积网络的语义视觉定位方法,其特征在于,包括:
获取输入图片以及语料描述;
用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;
解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;
融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征;
通过图卷积网络传播所述语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;
进行语义视觉位置推理,获得语义信息的视觉位置;
其中,所述解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征包括:
给定一个所述语料描述,以及所述语料描述中的名词短语集合;
使用场景图解析器所述语料描述,提取初始场景图;
按照所述语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;
基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;
对每一条边基于与之相连的替换后的名词短语增加或删除单词;
输出所述语义结构图,其中,所述语义结构图中的每个节点表征一个名词短语,所述语义结构图中的边表征所述语料描述中提到的名词短语之间的语义关系。
2.根据权利要求1所述的方法,其特征在于,所述融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征包括:
为所述语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;
融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征;
通过图卷积发掘短语间的语义联系,得到视觉语义联系。
3.根据权利要求1所述的方法,其特征在于,所述进行语义视觉位置推理,获得语义信息的视觉位置包括:
为所述语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到所述语义信息的视觉位置。
4.根据权利要求1所述的方法,其特征在于,所述用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征包括:
使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取所述特征金字塔网络的不同空间分辨率输出作为视觉特征,将所述空间坐标信息嵌入所述视觉特征获得所述空间感知视觉特征。
5.一种基于多模态图卷积网络的语义视觉定位装置,其特征在于,包括:
获取模块,用于获取输入图片以及语料描述;
图片表征模块,用于用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;
语料表征模块,用于解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;
多模态特征融合模块,用于融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征;
关系信息图传播模块,用于通过图卷积网络传播所述语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;
视觉位置推理模块,用于进行语义视觉位置推理,获得语义信息的视觉位置;
其中,所述语料表征模块通过如下方式解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征:
语料表征模块,具体用于给定一个所述语料描述,以及所述语料描述中的名词短语集合;使用场景图解析器所述语料描述,提取初始场景图;按照所述语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出所述语义结构图,其中,所述语义结构图中的每个节点表征一个名词短语,所述语义结构图中的边表征所述语料描述中提到的名词短语之间的语义关系。
6.根据权利要求5所述的装置,其特征在于,所述多模态特征融合模块通过如下方式融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征:
所述多模态特征融合模块,具体用于为所述语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
7.根据权利要求5所述的装置,其特征在于,所述视觉位置推理模块通过如下方式进行语义视觉位置推理,获得语义信息的视觉位置:
所述视觉位置推理模块,具体用于为所述语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到所述语义信息的视觉位置。
8.根据权利要求5所述的装置,其特征在于,所述图片表征模块通过如下方式用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征:
所述图片表征模块,具体用于使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取所述特征金字塔网络的不同空间分辨率输出作为视觉特征,将所述空间坐标信息嵌入所述视觉特征获得所述空间感知视觉特征。
CN202010736128.XA 2020-07-28 2020-07-28 一种基于多模态图卷积网络的语义视觉定位方法及装置 Active CN111783457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010736128.XA CN111783457B (zh) 2020-07-28 2020-07-28 一种基于多模态图卷积网络的语义视觉定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010736128.XA CN111783457B (zh) 2020-07-28 2020-07-28 一种基于多模态图卷积网络的语义视觉定位方法及装置

Publications (2)

Publication Number Publication Date
CN111783457A CN111783457A (zh) 2020-10-16
CN111783457B true CN111783457B (zh) 2021-05-11

Family

ID=72765044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010736128.XA Active CN111783457B (zh) 2020-07-28 2020-07-28 一种基于多模态图卷积网络的语义视觉定位方法及装置

Country Status (1)

Country Link
CN (1) CN111783457B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515886B (zh) * 2021-04-28 2023-11-24 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113343982B (zh) * 2021-06-16 2023-07-25 北京百度网讯科技有限公司 多模态特征融合的实体关系提取方法、装置和设备
CN113722490B (zh) * 2021-09-06 2023-05-26 华南理工大学 一种基于键值匹配关系的视觉富文档信息抽取方法
CN114708419A (zh) * 2022-03-28 2022-07-05 湖南大学 基于多模态信息交互的零样本视觉定位方法、装置及设备
CN114821500A (zh) * 2022-04-26 2022-07-29 清华大学 基于点云的多源特征融合的重定位方法及装置
CN115170449B (zh) * 2022-06-30 2023-09-22 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833236A (zh) * 2017-10-31 2018-03-23 中国科学院电子学研究所 一种动态环境下结合语义的视觉定位系统和方法
CN109903314A (zh) * 2019-03-13 2019-06-18 腾讯科技(深圳)有限公司 一种图像区域定位的方法、模型训练的方法及相关装置
CN111310604A (zh) * 2020-01-21 2020-06-19 华为技术有限公司 一种物体检测方法、装置以及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354832A1 (en) * 2018-05-17 2019-11-21 Università della Svizzera italiana Method and system for learning on geometric domains using local operators
CN109359568A (zh) * 2018-09-30 2019-02-19 南京理工大学 一种基于图卷积网络的人体关键点检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833236A (zh) * 2017-10-31 2018-03-23 中国科学院电子学研究所 一种动态环境下结合语义的视觉定位系统和方法
CN109903314A (zh) * 2019-03-13 2019-06-18 腾讯科技(深圳)有限公司 一种图像区域定位的方法、模型训练的方法及相关装置
CN111310604A (zh) * 2020-01-21 2020-06-19 华为技术有限公司 一种物体检测方法、装置以及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Spatial-aware Graph Relation Network for Large-scale Object Detection;Hang Xu,et al;《CVPR 2019》;20191231;第9298-9307页 *
Visual Semantic Reasoning for Image-Text Matching;Kunpeng Li,et al;《ICCV 2019》;20191231;第4654-4662页 *
深度学习目标检测方法综述;赵永强,等;《中国图象图形学报》;20200430;第25卷(第4期);第629-654页 *

Also Published As

Publication number Publication date
CN111783457A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111783457B (zh) 一种基于多模态图卷积网络的语义视觉定位方法及装置
CN112883149B (zh) 一种自然语言处理方法以及装置
EP3926531B1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113448477B (zh) 交互式图像编辑方法、装置、可读存储介质及电子设备
CN115080766B (zh) 基于预训练模型的多模态知识图谱表征系统及方法
CN115221846A (zh) 一种数据处理方法及相关设备
CN116721334B (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114282013A (zh) 一种数据处理方法、装置及存储介质
CN114611498A (zh) 标题生成方法、模型训练方法及装置
CN112668608A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN115862040A (zh) 文本纠错方法、装置、计算机设备及可读存储介质
CN117437317A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN115204301A (zh) 视频文本匹配模型训练、视频文本匹配方法和装置
CN110119754B (zh) 图像生成描述方法、装置及模型
CN117540221B (zh) 图像处理方法和装置、存储介质及电子设备
CN113095072A (zh) 文本处理方法及装置
CN114639109A (zh) 一种图像处理方法、装置、电子设备和存储介质
Kaddoura A Primer on Generative Adversarial Networks
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN117453949A (zh) 一种视频定位方法以及装置
CN115905591B (zh) 一种视觉问答方法、系统、设备及可读存储介质
CN116740078A (zh) 图像分割处理方法、装置、设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant