CN111783457A - 一种基于多模态图卷积网络的语义视觉定位方法及装置 - Google Patents

一种基于多模态图卷积网络的语义视觉定位方法及装置 Download PDF

Info

Publication number
CN111783457A
CN111783457A CN202010736128.XA CN202010736128A CN111783457A CN 111783457 A CN111783457 A CN 111783457A CN 202010736128 A CN202010736128 A CN 202010736128A CN 111783457 A CN111783457 A CN 111783457A
Authority
CN
China
Prior art keywords
semantic
visual
features
graph
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010736128.XA
Other languages
English (en)
Other versions
CN111783457B (zh
Inventor
俞益洲
史业民
杨思蓓
吴子丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Original Assignee
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenrui Bolian Technology Co Ltd, Shenzhen Deepwise Bolian Technology Co Ltd filed Critical Beijing Shenrui Bolian Technology Co Ltd
Priority to CN202010736128.XA priority Critical patent/CN111783457B/zh
Publication of CN111783457A publication Critical patent/CN111783457A/zh
Application granted granted Critical
Publication of CN111783457B publication Critical patent/CN111783457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于多模态图卷积网络的语义视觉定位方法及装置,其中方法包括:获取输入图片以及语料描述;用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;进行语义视觉位置推理,获得语义信息的视觉位置。本发明在处理歧义或者二义性语义元素时结合了上下文语义信息,能够利用语义关系信息指导视觉定位。

Description

一种基于多模态图卷积网络的语义视觉定位方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种基于多模态图卷积网络的语义视觉定位方法及装置。
背景技术
在现实世界中实现人类与机器之间的交流,让机器能够理解自然语言所描述的视觉场景,是人工智能领域的一个基本但十分有挑战性的问题。这一问题的基础是让机器能够在视觉场景中定位语义元素,即给定一个视觉场景的自然语言描述,机器要能够在视觉场景中定位对应的语义元素位置。近年来,语义视觉定位任务受到了广泛的关注,得到了快速发展,取得了优异的性能。然而,现有的解决方案在图片中逐个定位名词短语,没有建模名词短语之间的语义关系,或者仅仅粗略地利用了上下文信息。这些方法没有充分发掘语料中语义的上下文关系,例如,针对语料『A man in bread playing a violin while nextto another man playing a banjo.』,算法往往可以精确定位到没有歧义或者没有二义性的语义元素『violin』,而对『man』这个语义元素则需要结合『man-in-bread』、『next-to-another-man』和『another-man-playing- a-banjo』等语义关系信息进行定位。总体来说,缺乏名词短语之间语义关系建模的方法在处理具有歧义或者二义性的语义元素时往往难以获得理想的视觉定位,需要研究精细的名词短语语义关系建模方法,使得能够在语义结构信息指导下进行语义视觉定位。
现有的解决方案主要关注视觉特征和语料特征的融合、从语料对应的视觉区域重构语料或者粗略地结合语义上下文信息,缺少了对语料中名词短语间的语义关系信息的发掘,因此受限于需要结合上下文以及语义关系等信息进行视觉位置推理的语义元素。
发明内容
本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于多模态图卷积网络的语义视觉定位方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了基于多模态图卷积网络的语义视觉定位方法,包括:获取输入图片以及语料描述;用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;进行语义视觉位置推理,获得语义信息的视觉位置。
其中,解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征包括:给定一个自然语言描述语料,以及自然语言描述语料中的名词短语集合;使用场景图解析器自然语言描述语料,提取初始场景图;按照自然语言描述语料中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
其中,融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征包括:为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
其中,进行语义视觉位置推理,获得语义信息的视觉位置包括:为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
其中,用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征包括:使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
本发明另一方面提供了一种基于多模态图卷积网络的语义视觉定位装置,包括:获取模块,用于获取输入图片以及语料描述;图片表征模块,用于用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;语料表征模块,用于解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;多模态特征融合模块,用于融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;关系信息图传播模块,用于通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;视觉位置推理模块,用于进行语义视觉位置推理,获得语义信息的视觉位置。
其中,语料表征模块通过如下方式解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征:语料表征模块,具体用于给定一个自然语言描述语料,以及自然语言描述语料中的名词短语集合;使用场景图解析器自然语言描述语料,提取初始场景图;按照自然语言描述语料中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
其中,多模态特征融合模块通过如下方式融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征:多模态特征融合模块,具体用于为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
其中,视觉位置推理模块通过如下方式进行语义视觉位置推理,获得语义信息的视觉位置:视觉位置推理模块,具体用于为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
其中,图片表征模块通过如下方式用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征:图片表征模块,具体用于使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
由此可见,通过本发明提供的基于多模态图卷积网络的语义视觉定位方法及装置,将语料通过解析构建语义结构图,在语义信息指导下学习提取多模态特征,提升语义视觉定位任务性能;通过解析语料输入,构建基于语义信息的语义结构图,使用结合视觉特征、空间坐标信息以及语义特征的多模态特征,通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系,从而缓解歧义或者二义性语义元素带来的影响,更精准的获取语义视觉位置。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法的流程图;
图2为本发明实施例提供的图片和语料表征示意图;
图3为本发明实施例提供的图结构示意图;
图4为本发明实施例提供的关系信息图传播示意图;
图5为本发明实施例提供的语义视觉位置推理示意图;
图6为本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的核心在于:提出将语料通过解析构建语义结构图,在语义信息指导下学习提取多模态特征,提升语义视觉定位任务性能。本方法通过解析语料输入,构建基于语义信息的语义结构图,使用结合视觉特征、空间坐标信息以及语义特征的多模态特征,通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系,从而缓解歧义或者二义性语义元素带来的影响,更精准的获取语义视觉位置。
本发明可划分为三个主要步骤:图片和语料表征(图1步骤S1-S3)、关系信息图传播 (图1步骤S4-S5)和语义视觉位置推理(图1步骤S6)。以下,通过图1对本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法进行具体说明,参见图1,本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法,包括:
S1,获取输入图片以及语料描述。
具体地,输入图片以及语料描述可以在同时获取,也可以不同时获取,只要可以获取到,则均应属于本发明的保护范围。
本发明中,将输入的图片和自然语言描述分别表征为空间感知特征和语义图。图片的空间感知特征在通过卷积神经网络提取视觉特征的基础上融合了空间坐标信息,捕捉了图片全局上下文信息。语义图则编码了语料描述的语义结构,引导联系信息在名词短语间传播。具体表征图片和语料的方法如下述步骤S2和S3,值得说明的是,以下步骤S2和S3的执行顺序可以先执行S2后执行S3,也可以先执行S3后执行S2,还可以同时执行,这在本发明中并不做具体限制。以下,结合图1和图2对图片和语料表征的具体方式进行说明。
S2,用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征。
作为本发明实施例的一个可选实施方式,用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征包括:使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
具体地,图片编码获取空间感知特征过程如下:
使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络。例如给定输入图片I,首先使用零填充将图片调整为256×256大小,并保持其长宽比。提取特征金字塔网络的不同空间分辨率输出作为视觉特征,具体包含 8×8×1024、16×16×512和32×32×256等三种分辨率。为了方便表述,以下采用V 表示提取的大小为W×H×Dv的视觉特征。
考虑到一个名词短语有时不仅描述目标的外形信息,也会描述目标的位置信息,因此,本发明将空间坐标信息嵌入视觉特征获得图片的空间感知特征。
具体地,定义空间图P,P与相关联的视觉特征有相同的空间分辨率,即P的大小为W×H,其中每一个位置(x,y)∈{(0,0),(0,1),...,(W-1,H-1)}的定义如下:
Figure RE-GDA0002662323220000051
其中Rx,y∈R8编码了对应位置(x,y)处网格的左上、中心、右下、宽度和高度的标准化坐标。然后,融合视觉特征V和空间图P来获得空间感知特征
Figure RE-GDA0002662323220000061
F=[L2Norm(Conv0(V));P]
其中,Conv0(·)卷积核为1×1的卷积层,L2Norm(·)是在特征通道维度上的L2正则化,符号[;]表示拼接操作。
S3,解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征。
具体地,语料解析构建语义图过程如下:
本发明将自然语言描述编码为语义图,图中的每个节点表征一个名词短语,图中的边表征语料描述中提到的名词短语之间的语义关系,诸如介词或动词短语。
首先解析语料描述构建一个初始的场景图,然后再基于给定的名词短语提炼获得最终的语义图。
作为本发明实施例的一个可选实施方式,解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征包括:给定一个自然语言描述语料,以及自然语言描述语料中的名词短语集合;使用场景图解析器自然语言描述语料,提取初始场景图;按照自然语言描述语料中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
具体过程如下:
1、输入:给定一个自然语言描述语料L,以及L中的名词短语集合Pg
2、首先使用现有的场景图解析器解析语料L,提取一个初始的场景图。具体地,场景图解析器通过将语料描述解析为一棵依赖树,然后依据一些列手工规则将依赖树转化为图结构,以此获得初始场景图。图中的节点为具有修饰的名词,边为名词间的语义联系。例如,短语『a-man-in-beard』通过解析生成图中的两个节点(『a man』-『in』-『beard』),他们之间的边编码了名词节点间的关系。(详细例子如图3所示)。
3、然后按照语料库L中的原始顺序对每一个节点进行重排序,重排序后的名词短语记为 Pr集合。
4、然而有时候,给定的语料L中的名词短语集合Pg和提取的到的场景图中的名词短语集合Pr不能完全匹配。因此,本发明基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语。
5、最后,对每一条边基于与之相连的替换后的名词短语增加或删除单词。在调整完场景图中节点和边之后,获得语义图G。
6、输出:语义图G。
为了方便表述,本发明可以采用如下符号定义语义图G。语义图G表示为G=(v,ε),其中,
Figure RE-GDA0002662323220000071
表示节点集合,
Figure RE-GDA0002662323220000072
表示边集合。具体地,每个节点vn对应于由语料L中若干个单词组成的名词短语Ln;每条边ek是一个三元组
Figure RE-GDA0002662323220000073
在边对应的三元组中,
Figure RE-GDA0002662323220000074
Figure RE-GDA0002662323220000075
分别表示主语节点和宾语节点,与
Figure RE-GDA0002662323220000076
对应的语料L中的介词或者动词短语Ek则是节点
Figure RE-GDA0002662323220000077
Figure RE-GDA0002662323220000078
间的语义联系。此外,本发明可以采用
Figure RE-GDA0002662323220000079
表示宾语是vn的节点集合,用
Figure RE-GDA00026623232200000710
表示主语是vn的节点集合,用den表示节点vn的度数。
以下,结合图1和图4对关系信息图传播的具体方式进行说明。
S4,融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征。
具体地,在本发明中,通过解析语料构建基于语义关系的图,将名词短语间的关系信息编码嵌入图结构中。使用图卷积进行图中的信息传播,从而在语义结构信息的指导下学习结合视觉特征、空间坐标信息和语义联系的多模态特征,用于语义视觉位置推理。
作为本发明实施例的一个可选实施方式,融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征包括:为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
具实施过程中,首先,为图G中的每个节点V提取结合视觉特征、空间坐标信息和语义联系的多模态特征。具体地,对每个节点的短语采用词向量编码,每个节点的初始短语编码为节点包含单词的词向量的均值。对由名词短语Ln构成的节点vn有初始词编码
Figure RE-GDA0002662323220000081
通过一个非线性变化学习节点的词编码如下:
w'n=L2Norm(MLP0(wn))
其中MLP0(·)为带有RELU激活函数的多层感知机,L2Norm(·)为L2正则化。然后融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征Mn如下:
Mn=L2Norm(Conv1([F;Tile(w'n)]))
其中,F为之前提取的空间感知特征,Tile(·)将词编码w′n按分辨率W×H对应的每个空间位置堆叠,Conv1(·)为一系列连接着BatchNorm层和ReLU层的卷积层。
S5,通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系。
具体地,提取多模态特征
Figure RE-GDA0002662323220000082
后,通过图卷积发掘短语间的语义联系。在图中的信息传播过程中,每个节点都直接收到邻居节点且间接受到更远节点的影响而改变自己的状态,从而将名词短语间的关联信息嵌入到模型提取的特征中,语义的视觉位置推理在语义的指导下获得更为精确的位置预测。具体地,对图中节点的多模态特征M经过若干层图卷积提取得到M′,其中每一层实现如下:
Figure RE-GDA0002662323220000091
其中,
Figure RE-GDA0002662323220000092
为第l层输出的图卷积特征,A为图G的邻接矩阵,D为图G节点的度矩阵。通过引入图自身度矩阵解决自传递问题,即节点的更新信息也参考自身上一个状态的信息;通过对邻接矩阵的归一化操作,缓解了邻居节点较多的节点影响较大的问题。
以下,结合图1和图5对语义视觉位置推理的具体方式进行说明。
S6,进行语义视觉位置推理,获得语义信息的视觉位置。
作为本发明实施例的一个可选实施方式,进行语义视觉位置推理,获得语义信息的视觉位置包括:为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
具体地,语义的视觉位置推理过程与检测任务类似,本发明可以为特征图的每个空间位置匹配三个锚框(anchor box),选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,在根据预测的回归偏移量调整候选框得到最终的语义视觉位置。对图G中的每个节点vn预测回归偏移量和置信分数用
Figure RE-GDA0002662323220000093
表示,对于 W×H空间分辨率大小的每一个位置计算三个锚框的predn如下:
predn=Convpred(Mn)
其中,Convpred(·)为一系列卷积层。训练过程中,计算候选框分类的交叉熵损失函数以及预测回归偏移量的L1回归损失函数。即整体损失函数可以写为:
Loss=Lossconf+λLossreg
其中,λ为分类损失和回归损失的权重参数,Lossconf是在不同尺度特征图中所有锚框中分类与真实值IoU最大的框的交叉熵损失函数,Lossreg是预测的回归偏移量与真实值的 L1损失函数。具体地,定义回归偏移
Figure RE-GDA0002662323220000101
如下:
tx=(gx-rx)/rw,ty=(gy-ry)/rh
tw=log(gx/rw),th=log(gh/rh)
其中,
Figure RE-GDA0002662323220000102
Figure RE-GDA0002662323220000103
分别是真实值和候选框的值。
推理阶段,本发明基于分类获得的候选框r和回归预测的回归偏移量t’计算得到最终的语义视觉位置:
Figure RE-GDA0002662323220000104
Figure RE-GDA0002662323220000105
由此可见,通过本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法,基于语料解析构建语义结构图的方法,从而将语料中语义元素间的关系信息编码到图结构中;提出结合了视觉特征、空间坐标信息以及图节点语义特征的多模态特征融合方法,使得图中每个节点包含信息更丰富的特征;提出使用图卷积进行图中的信息传播,从而在语义结构信息的指导下学习并提取多模态特征,用于语义视觉位置推理。从而能够高效的将语料中语义关系信息构建为图,可以进一步发掘语料中语义元素间的关系信息;融合了视觉特征和空间坐标信息,使得特征具有空间感知能力。同时结合图节点的语义特征,将空间感知特征和语义特征进行融合,联合学习;用图卷积学习图节点间的语义关系信息,可以在语义信息指导下获得更精确的语义视觉定位。
图6示出了本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置的结构示意图,该基于多模态图卷积网络的语义视觉定位装置应用上述方法,以下仅对基于多模态图卷积网络的语义视觉定位装置的结构进行简单说明,其他未尽事宜,请参照上述基于多模态图卷积网络的语义视觉定位方法中的相关描述,参见图6,本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置,包括:
获取模块,用于获取输入图片以及语料描述;
图片表征模块,用于用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;
语料表征模块,用于解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;
多模态特征融合模块,用于融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;
关系信息图传播模块,用于通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;
视觉位置推理模块,用于进行语义视觉位置推理,获得语义信息的视觉位置。
作为本发明实施例的一个可选实施方式,图片表征模块通过如下方式用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征:图片表征模块,具体用于使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet- 53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
作为本发明实施例的一个可选实施方式,语料表征模块通过如下方式解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征:语料表征模块,具体用于给定一个自然语言描述语料,以及自然语言描述语料中的名词短语集合;使用场景图解析器自然语言描述语料,提取初始场景图;按照自然语言描述语料中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
作为本发明实施例的一个可选实施方式,多模态特征融合模块通过如下方式融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征:多模态特征融合模块,具体用于为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
作为本发明实施例的一个可选实施方式,视觉位置推理模块通过如下方式进行语义视觉位置推理,获得语义信息的视觉位置:视觉位置推理模块,具体用于为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
由此可见,通过本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置,基于语料解析构建语义结构图的方法,从而将语料中语义元素间的关系信息编码到图结构中;提出结合了视觉特征、空间坐标信息以及图节点语义特征的多模态特征融合方法,使得图中每个节点包含信息更丰富的特征;提出使用图卷积进行图中的信息传播,从而在语义结构信息的指导下学习并提取多模态特征,用于语义视觉位置推理。从而能够高效的将语料中语义关系信息构建为图,可以进一步发掘语料中语义元素间的关系信息;融合了视觉特征和空间坐标信息,使得特征具有空间感知能力。同时结合图节点的语义特征,将空间感知特征和语义特征进行融合,联合学习;用图卷积学习图节点间的语义关系信息,可以在语义信息指导下获得更精确的语义视觉定位。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和 /或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于多模态图卷积网络的语义视觉定位方法,其特征在于,包括:
获取输入图片以及语料描述;
用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;
解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;
融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征;
通过图卷积网络传播所述语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;
进行语义视觉位置推理,获得语义信息的视觉位置。
2.根据权利要求1所述的方法,其特征在于,所述解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征包括:
给定一个自然语言描述语料,以及所述自然语言描述语料中的名词短语集合;
使用场景图解析器所述自然语言描述语料,提取初始场景图;
按照所述自然语言描述语料中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;
基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;
对每一条边基于与之相连的替换后的名词短语增加或删除单词;
输出所述语义结构图,其中,所述语义结构图中的每个节点表征一个名词短语,所述语义结构图中的边表征所述语料描述中提到的名词短语之间的语义关系。
3.根据权利要求1所述的方法,其特征在于,所述融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征包括:
为所述语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;
融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
通过图卷积发掘短语间的语义联系,得到视觉语义联系。
4.根据权利要求1所述的方法,其特征在于,所述进行语义视觉位置推理,获得语义信息的视觉位置包括:
为所述语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到所述语义信息的视觉位置。
5.根据权利要求1所述的方法,其特征在于,所述用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征包括:
使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取所述特征金字塔网络的不同空间分辨率输出作为视觉特征,将所述空间坐标信息嵌入所述视觉特征获得所述空间感知视觉特征。
6.一种基于多模态图卷积网络的语义视觉定位装置,其特征在于,包括:
获取模块,用于获取输入图片以及语料描述;
图片表征模块,用于用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;
语料表征模块,用于解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;
多模态特征融合模块,用于融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征;
关系信息图传播模块,用于通过图卷积网络传播所述语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;
视觉位置推理模块,用于进行语义视觉位置推理,获得语义信息的视觉位置。
7.根据权利要求6所述的装置,其特征在于,所述语料表征模块通过如下方式解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征:
语料表征模块,具体用于给定一个自然语言描述语料,以及所述自然语言描述语料中的名词短语集合;使用场景图解析器所述自然语言描述语料,提取初始场景图;按照所述自然语言描述语料中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出所述语义结构图,其中,所述语义结构图中的每个节点表征一个名词短语,所述语义结构图中的边表征所述语料描述中提到的名词短语之间的语义关系。
8.根据权利要求6所述的装置,其特征在于,所述多模态特征融合模块通过如下方式融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征:
所述多模态特征融合模块,具体用于为所述语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
9.根据权利要求6所述的装置,其特征在于,所述视觉位置推理模块通过如下方式进行语义视觉位置推理,获得语义信息的视觉位置:
所述视觉位置推理模块,具体用于为所述语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到所述语义信息的视觉位置。
10.根据权利要求6所述的装置,其特征在于,所述图片表征模块通过如下方式用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征:
所述图片表征模块,具体用于使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取所述特征金字塔网络的不同空间分辨率输出作为视觉特征,将所述空间坐标信息嵌入所述视觉特征获得所述空间感知视觉特征。
CN202010736128.XA 2020-07-28 2020-07-28 一种基于多模态图卷积网络的语义视觉定位方法及装置 Active CN111783457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010736128.XA CN111783457B (zh) 2020-07-28 2020-07-28 一种基于多模态图卷积网络的语义视觉定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010736128.XA CN111783457B (zh) 2020-07-28 2020-07-28 一种基于多模态图卷积网络的语义视觉定位方法及装置

Publications (2)

Publication Number Publication Date
CN111783457A true CN111783457A (zh) 2020-10-16
CN111783457B CN111783457B (zh) 2021-05-11

Family

ID=72765044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010736128.XA Active CN111783457B (zh) 2020-07-28 2020-07-28 一种基于多模态图卷积网络的语义视觉定位方法及装置

Country Status (1)

Country Link
CN (1) CN111783457B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343982A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 多模态特征融合的实体关系提取方法、装置和设备
CN113515886A (zh) * 2021-04-28 2021-10-19 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113722490A (zh) * 2021-09-06 2021-11-30 华南理工大学 一种基于键值匹配关系的视觉富文档信息抽取方法
CN114708419A (zh) * 2022-03-28 2022-07-05 湖南大学 基于多模态信息交互的零样本视觉定位方法、装置及设备
CN114821500A (zh) * 2022-04-26 2022-07-29 清华大学 基于点云的多源特征融合的重定位方法及装置
CN115170449A (zh) * 2022-06-30 2022-10-11 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833236A (zh) * 2017-10-31 2018-03-23 中国科学院电子学研究所 一种动态环境下结合语义的视觉定位系统和方法
CN109359568A (zh) * 2018-09-30 2019-02-19 南京理工大学 一种基于图卷积网络的人体关键点检测方法
CN109903314A (zh) * 2019-03-13 2019-06-18 腾讯科技(深圳)有限公司 一种图像区域定位的方法、模型训练的方法及相关装置
US20190354832A1 (en) * 2018-05-17 2019-11-21 Università della Svizzera italiana Method and system for learning on geometric domains using local operators
CN111310604A (zh) * 2020-01-21 2020-06-19 华为技术有限公司 一种物体检测方法、装置以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833236A (zh) * 2017-10-31 2018-03-23 中国科学院电子学研究所 一种动态环境下结合语义的视觉定位系统和方法
US20190354832A1 (en) * 2018-05-17 2019-11-21 Università della Svizzera italiana Method and system for learning on geometric domains using local operators
CN109359568A (zh) * 2018-09-30 2019-02-19 南京理工大学 一种基于图卷积网络的人体关键点检测方法
CN109903314A (zh) * 2019-03-13 2019-06-18 腾讯科技(深圳)有限公司 一种图像区域定位的方法、模型训练的方法及相关装置
CN111310604A (zh) * 2020-01-21 2020-06-19 华为技术有限公司 一种物体检测方法、装置以及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HANG XU,ET AL: "Spatial-aware Graph Relation Network for Large-scale Object Detection", 《CVPR 2019》 *
KUNPENG LI,ET AL: "Visual Semantic Reasoning for Image-Text Matching", 《ICCV 2019》 *
赵永强,等: "深度学习目标检测方法综述", 《中国图象图形学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515886A (zh) * 2021-04-28 2021-10-19 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113515886B (zh) * 2021-04-28 2023-11-24 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113343982A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 多模态特征融合的实体关系提取方法、装置和设备
CN113343982B (zh) * 2021-06-16 2023-07-25 北京百度网讯科技有限公司 多模态特征融合的实体关系提取方法、装置和设备
CN113722490A (zh) * 2021-09-06 2021-11-30 华南理工大学 一种基于键值匹配关系的视觉富文档信息抽取方法
CN114708419A (zh) * 2022-03-28 2022-07-05 湖南大学 基于多模态信息交互的零样本视觉定位方法、装置及设备
CN114708419B (zh) * 2022-03-28 2024-08-02 湖南大学 基于多模态信息交互的零样本视觉定位方法、装置及设备
CN114821500A (zh) * 2022-04-26 2022-07-29 清华大学 基于点云的多源特征融合的重定位方法及装置
CN115170449A (zh) * 2022-06-30 2022-10-11 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
CN115170449B (zh) * 2022-06-30 2023-09-22 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质

Also Published As

Publication number Publication date
CN111783457B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN111783457B (zh) 一种基于多模态图卷积网络的语义视觉定位方法及装置
CN112883149B (zh) 一种自然语言处理方法以及装置
CN114942984B (zh) 视觉场景文本融合模型的预训练和图文检索方法及装置
JP2019008778A (ja) 画像の領域のキャプション付加
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
JP2023022845A (ja) ビデオ処理方法、ビデオサーチ方法及びモデルトレーニング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN118155231B (zh) 文档的识别方法、装置、设备、介质及产品
CN118113855B (zh) 一种舰船试验训练场景问答方法、系统、设备和介质
CN115862040A (zh) 文本纠错方法、装置、计算机设备及可读存储介质
CN112668608A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN117011737A (zh) 一种视频分类方法、装置、电子设备和存储介质
CN117453949A (zh) 一种视频定位方法以及装置
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN117934803A (zh) 一种基于多模态特征对齐的视觉定位方法
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
CN117671426B (zh) 基于概念蒸馏和clip的可提示分割模型预训练方法及系统
CN113095072A (zh) 文本处理方法及装置
CN114328943A (zh) 基于知识图谱的问题回答方法、装置、设备及存储介质
KR20210044003A (ko) 단어 임베딩 방법 및 장치와 단어 검색 방법
CN117034133A (zh) 一种数据处理方法、装置、设备和介质
CN113591493B (zh) 翻译模型的训练方法及翻译模型的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant