CN110084128A - 基于语义空间约束和注意力机制的场景图生成方法 - Google Patents

基于语义空间约束和注意力机制的场景图生成方法 Download PDF

Info

Publication number
CN110084128A
CN110084128A CN201910250400.0A CN201910250400A CN110084128A CN 110084128 A CN110084128 A CN 110084128A CN 201910250400 A CN201910250400 A CN 201910250400A CN 110084128 A CN110084128 A CN 110084128A
Authority
CN
China
Prior art keywords
network
attention
semantic
feature
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910250400.0A
Other languages
English (en)
Other versions
CN110084128B (zh
Inventor
曹洋
郑志刚
罗红晨
汪从玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI KEY INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
Anhui Eris Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Eris Intelligent Technology Co Ltd filed Critical Anhui Eris Intelligent Technology Co Ltd
Priority to CN201910250400.0A priority Critical patent/CN110084128B/zh
Publication of CN110084128A publication Critical patent/CN110084128A/zh
Application granted granted Critical
Publication of CN110084128B publication Critical patent/CN110084128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义空间约束和注意力机制的场景图生成方法,包括以下步骤:S1:采用VG数据集,随机选取若干张图像作为验证集,在剩余图像中按比例随机选取,分别作为训练集和测试集;S2:基于深度学习的方法和VG数据集,构建目标检测网络;S3:建立关系推理网络;S4:根据关系推理网络得到的语义约束信息和注意力网络,得到突出可能存在相关关系的区域和通道特征,进行关系推理分类。本发明无需使用图相关信息流传递机制,基于语义空间的约束和注意力机制推测两两物体之间的相关关系,没有引入更多的噪声,网络比较简单,提供了更高的关系推理精度,能够更有效提取出存在物体相关关系的特征。

Description

基于语义空间约束和注意力机制的场景图生成方法
技术领域
本发明涉及图像处理领域,特别是涉及一种基于语义空间约束和注意力机制的场景图生成方法。
背景技术
场景图生成技术是利用图像理解感知技术对图像中的物体进行分类,并且对于两两物体之间,生成<subject relationship object>的三元组关系。物体和它们之间的关系对于图像理解来说至关重要,其生成的场景图,包含图像中所有的物体和两两之间的关系,也可能二者之间并不存在关系,这也是一个种类;并且包含了丰富的信息,可以应用于解决图像标注(image caption)的问题和视觉问答(VQA)问题。同时对图像的理解技术还可应用于机器人的任务中。
目前场景图生成方法存在的不足:有的方法仅考虑语义相关的约束,而忽略了图像本身的特征;而有些方法通过message passing机制传递信息,容易引入噪声,其它区域的特征并不能给关系推理带来有用的信息。因而,现有技术中难以结合语义信息进行场景理解,并且现有技术网络较为复杂,对于物体之间关系的推测可解释性较差,并且过程容易引入噪声信息。
因此亟需提供一种新型的场景图生成方法来解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于语义空间约束和注意力机制的场景图生成方法,具有更高的关系推理精度,能够更有效提取出存在物体相关关系的特征。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于语义空间约束和注意力机制的场景图生成方法,包括以下步骤:
S1:采用VG数据集,随机选取若干张图像作为验证集,在剩余图像中按比例随机选取,分别作为训练集和测试集;
S2:基于深度学习的方法和VG数据集,构建目标检测网络;
S3:基于深度学习的方法和VG数据集,建立关系推理网络;
S4:根据关系推理网络得到的语义约束信息和注意力网络,得到突出可能存在相关关系的区域和通道特征,进行关系推理分类。
在本发明一个较佳实施例中,在步骤S2中,所述目标检测网络使用Faster-RCNN网络,包括前端基础网络VGG16、RPN网络,所述VGG16用于提取图像的特征。
进一步的,步骤S2的具体步骤包括:
所述前端基础网络VGG16提取图像的特征,得到特征图,即输出物体的特征表示;将特征图送入RPN网络,得到ROI区域,框定物体的位置,即输出物体的位置信息;并且对物体进行分类,得到物体的种类概率。
在本发明一个较佳实施例中,步骤S3的具体步骤包括:
S3.1:将目标检测输出的物体的特征表示、位置信息、种类概率拼接起来送入一个双向LSTM网络中,得到融入了语义上下文信息的物体特征表示;
S3.2:再将双向LSTM网络的输出输入到一个单向LSTM解码器中进行解码操作,得到物体的种类标签;
S3.3:根据步骤S3.1的双向LSTM网络所得到的物体种类预测概率、种类预测结果和物体的位置信息作为监督信号,用预测种类信息和位置信息调整权重,建立空间和通道的注意力网络,提取物体之间存在关系的区域的特征;空间注意力机制主要用于找出相关区域可能存在物体之间的相互关系,通道注意力机制主要用于找出每个滤波器提取的图像特征映射中可能存在物体之间的相互关系;
S3.4:基于双向LSTM网络以及单向LSTM解码器所得到的物体种类概率分布、双向LSTM网络中输出的物体的特征表示以及步骤S2中得到的物体的位置信息,将三者信息融合映射到一个语义编码空间中,通过训练权重,将物体的视觉特征映射到所述语义编码空间中。
进一步的,在步骤S3.3中,所述空间注意力网络的建立步骤包括:
S101:将两个物体所在区域拼接在同一个区域,经过ROI池化后得到含两个物体的特征图;
S102:将两个物体所在区域的特征图以及物体的种类标签送入注意力网络中,得到注意力权重,其中注意力机制满足如下公式:
Watt(O1,O2)=Wp+Vpf(QE(O1,O2))
O1和O2为两个物体的种类,Watt(O1,O2)为O1,O2两个物体的注意力权重,E(O1,O2)为嵌入层,Q为一个线性变换矩阵,f为Relu激活函数,Vp为另一个线性变换矩阵,Wp为固定参数,作为一个独立的权重,不随物体的种类变化而变化;
S103:空间中每一位置均与注意力权重相乘,得到一张注意力映射图;
S104:将注意力映射图与输入的区域特征图相乘的,得到注意力热力图。
进一步的,在步骤S3.3中,所述通道注意力网络的建立步骤包括:
S201:将两个物体所在区域拼接在同一个区域,经过ROI池化后得到含两个物体的特征图;
S202:将两个物体所在区域的特征图以及物体的种类标签送入注意力网络中,得到注意力权重,其中注意力机制满足如下公式:
Watt(O1,O2)=Wp+Vpf(QE(O1,O2))
O1和O2为两个物体的种类,Watt(O1,O2)为O1,O2两个物体的注意力权重,E(O1,O2)为嵌入层,Q为一个线性变换矩阵,f为Relu激活函数,Vp为另一个线性变换矩阵,Wp为固定参数,作为一个独立的权重,不随物体的种类变化而变化;
S203:每一个滤波器得到的特征映射图与注意力权重相乘,得到每一个通道的注意力值;
S204:将得到的通道注意力值与输入的区域特征图相乘,得到注意力热力图。
进一步的,在步骤S3.4中,所述语义编码空间训练权重受VTransE的启发,存在如下关系:
Wsxs+to≈Woxo
其中,WsXs是一个线性映射,将主语表示的物体(subject)的特征表示映射到一个语义编码空间中;WoXo也是一个线性映射,将宾语表示的物体(object)的特征表示映射到同样的语义编码空间中;在这样的特征空间中,存在上述关系,即to是在这样一个特征编码空间中关系的表示。
进一步的,步骤S4的具体步骤包括:
根据步骤S3.3得到的注意力网络的结果送入全连接层进关系分类,同时将步骤3.4中语义空间编码空间约束的结果送入另一个全连接层进行关系分类,将两个分类结果拼接起来,再送入一个全连接层中得到最终分类结果。
本发明的有益效果是:
(1)本发明将物体的分类和关系的分类分开,先通过目标检测网络检测物体定位和分类,接下来进行物体相关关系分类,结合空间和通道的注意力机制来确定物体之间可能存在关系的位置和相关特征,通过关系嵌入表示,约束可能存在的关系项;本发明无需使用图相关信息流传递机制,基于语义空间的约束和注意力机制推测两两物体之间的相关关系。
(2)本发明由于采用了语义空间约束和注意力机制相结合的方法,没有引入更多的噪声,网络比较简单,提供了更高的关系推理精度;
(3)根据物体对的种类信息引导空间注意力和通道注意力,更有效提取出存在物体相关关系的特征,应用前景广阔。
附图说明
图1是本发明基于语义空间约束和注意力机制的场景图生成方法的流程图;
图2是所述语义空间约束的流程图;
图3是所述空间注意力网络的建立流程图;
图4是所述通道注意力网络的建立流程图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明实施例包括:
一种基于语义空间约束和注意力机制的场景图生成方法,包括以下步骤:
S1:采用VG(Visual Genome,视觉基因组)数据集,随机选取5000张图像作为验证集,在剩余图像中按7:3的比例随机选取,分别作为训练集和测试集;
VG数据集是由斯坦福大学计算机视觉专家李菲菲和同事共同开发的,包含108077张图片,540万区域描述,170万的视觉问答对,380万的物体实例,280万的物体属性描述和230万的物体相关关系对描述。对于图片中的每一个关键部分,对于每一个对象,关系,属性都对应有详细的描述。在图中用边界框标定出来,得到对应的坐标,边界框和文字是一一对应的。本发明的任务是对图像中每一对物体,构造出三元组(主语,关系,宾语),将图中的每一对关系都找出来,并列出正确的关系,即得到场景图。VG数据集有丰富的数据和关系描述,能够满足本发明得到的训练模型所需大量数据的要求。
S2:基于深度学习的方法和VG数据集,构建目标检测网络;
目标检测的主要任务是对多个物体的定位和分类,即给出区域框定物体的位置和给出物体的分类结果。在场景图生成中,所述目标检测网络使用Faster-RCNN网络,包括前端基础网络VGG16、RPN网络,所述VGG16用于提取图像的特征。
所述前端基础网络VGG16提取图像的特征,得到特征图(feature map),即输出物体的特征表示;将特征图送入RPN网络,得到ROI区域,框定物体的位置,即输出物体的位置信息;并且对物体进行分类,得到物体的种类概率。
S3:基于深度学习的方法和VG数据集,建立关系推理网络;具体步骤如下:
S3.1:将目标检测输出的物体的特征表示、位置信息、种类概率拼接起来送入一个双向LSTM网络中,得到融入了语义上下文信息的物体特征表示;其中,所述双向LSTM的隐藏层为512。
LSTM网络能够控制历史信息和当前信息的记忆和遗忘程度,而双向LSTM网络除了控制历史信息和当前信息外,未来的输入也会对当前输入产生影响。VG数据集中的关系对多次出现,这也符合生活的客观规律,有些关系对普遍存在且发生,比如人骑自行车,人和自行车同时出现,则骑这一关系很有可能出现在人和自行车之间,双向LSTM用于捕获这些经常出现的可能存在的关系,并且历史输入和未来的输入均对当前输入产生影响,结合了语义上下文信息,提高了分类的精度。融合了语义上下文的特征向量送入后续的关系分类网络中能更有效地推理出物体对之间的关系。
S3.2:再将双向LSTM网络的输出输入到一个单向LSTM解码器中进行解码操作,得到物体的种类标签,即物体的种类概率分布取最大值作为种类标签,提高目标检测的精度;
S3.3:根据步骤S3.1的双向LSTM网络所得到的物体种类预测概率、种类预测结果和物体的位置信息作为监督信号,用预测种类信息和位置信息调整权重,建立空间和通道的注意力网络,提取物体之间存在关系的区域的特征;空间注意力机制主要用于找出相关区域可能存在物体之间的相互关系,通道注意力机制主要用于找出每个滤波器提取的图像特征映射中可能存在物体之间的相互关系;
结合图3,所述空间注意力网络的建立步骤包括:
S101:在步骤S2中,目标检测网络经过ROI池化后得到的每一区域的大小为7*7*512,7是每一个区域的特征图的长和宽,512为通道(channel)的值。将两个物体所在的区域拼接在同一区域,经过ROI Pooling(池化)后得到含两个物体的特征图,尺寸仍然为7*7*512;
S102:将两个物体所在区域的特征图以及物体的种类标签送入注意力网络中,得到注意力权重,其中注意力机制满足如下公式:
Watt(O1,O2)=Wp+Vpf(QE(O1,O2))
O1和O2为两个物体的种类,Watt(O1,O2)为O1,O2两个物体的注意力权重,E(O1,O2)为嵌入层(embedding),Q为一个线性变换矩阵,f为Relu激活函数,Vp为另一个线性变换矩阵,Wp为固定参数,作为一个独立的权重,不随物体的种类变化而变化;
S103:空间中每一位置均与注意力权重相乘,得到一张注意力映射图;
S104:将注意力映射图与输入的区域特征图相乘的,得到注意力热力图。
同理,结合图4,所述通道注意力网络的建立步骤包括:
S201:将两个物体所在区域拼接在同一个区域,经过ROI池化后得到含两个物体的特征图;
S202:将两个物体所在区域的特征图以及物体的种类标签送入注意力网络中,得到注意力权重,其中注意力机制满足如下公式:
Watt(O1,O2)=Wp+Vpf(QE(O1,O2))
O1和O2为两个物体的种类,Watt(O1,O2)为O1,O2两个物体的注意力权重,E(O1,O2)为嵌入层(embedding),Q为一个线性变换矩阵,f为Relu激活函数,Vp为另一个线性变换矩阵,Wp为固定参数,作为一个独立的权重,不随物体的种类变化而变化;
S203:每一个滤波器得到的特征映射图与注意力权重相乘,得到每一个通道的注意力值;
S204:将得到的通道注意力值与输入的区域特征图相乘,得到注意力热力图。
对于空间注意力机制,空间的每个位置的特征表示都与该权重矩阵相乘,而该权重矩阵根据物体的种类和位置相关信息进行调整,比如目标检测的结果是“人”和“马”,注意力网络就会聚焦在人和马之间,可以推理出是“人骑马”还是“人喂马”,可以推理出人和马之间的关系是“骑”或是“喂”或是其他的关系,有更强的鲁棒性。同样的,对于通道注意力机制,每一个通道的特征图都与这样一个权重矩阵相乘,集中关注几个通道提取的图像特征。对于空间注意力网络,每一个位置的注意力权重如下,hij为特征图中位置为(i,j)上的所有通道特征:
其中,a(hij)是坐标为(i,j)位置上的注意力值(attention)大小,f为一个特征映射函数(在本实施例中使用一个全连接层);Watt为计算出来的权重值,hij为特征图上(i,j)位置上的特征表示;b为一个常数。得到的注意力权重再和输入的特征图相乘,得到输出结果。
S3.4:基于双向LSTM网络以及单向LSTM解码器所得到的物体种类概率分布、双向LSTM网络中输出的物体的特征表示以及步骤S2中得到的物体的位置信息,将三者信息融合映射到一个语义编码空间中,受VtransE(Visual Translation Embedding network,视觉转换嵌入网络)的启发,在低维关系空间确定的物体关系可以被建模为简单的向量转换,在语义编码空间中,存在如下关系:
Wsxs+to≈Woxo
其中,WsXs是一个线性映射,将subject(主语表示的物体)的特征表示映射到一个语义编码空间中,WoXo也是一个线性映射,将object(宾语表示的物体)的特征表示映射到同样的语义编码空间中,在这样的特征空间中,存在上述关系,即to是在这样一个特征编码空间中关系的表示。
通过训练权重,将物体的视觉特征映射到所述语义编码空间中。
结合图2,将基于双向LSTM网络以及单向LSTM解码器所得到的物体种类概率分布、双向LSTM网络中输出的物体的特征表示以及步骤S2中得到的物体的位置信息三者信息分为主语(subject)分支和宾语(object)分支;每个分支均将信息拼接起来,并分别输入一个全连接层,输入为特征维度(VGG网络输出为4096),加上物体种类数和坐标数(xmin,xmax,ymin,ymax),输出维度为1024;再利用宾语(object)分支减去主语(subject)分支,输入一个全连接层,输出维度为关系种类数。
S4:根据关系推理网络得到的语义约束信息和注意力网络,得到突出可能存在相关关系的区域和通道特征,进行关系推理分类。
根据步骤S3.3得到的注意力网络的结果送入全连接层进关系分类,同时将步骤3.4中语义空间编码空间约束的结果送入另一个全连接层进行关系分类,将两个分类结果拼接起来,再送入一个全连接层中得到最终分类结果。
利用本发明进行场景图生成的具体方法步骤为:
1、用VG数据集的训练集以及网络模型进行训练,训练过程中观察损失(loss),每训练一个周期(epoch),保持一次权重模型,再用验证集进行验证,观察R@20,R@50和R@100的指标,当损失不再下降并且指标不再提升,就可以终止训练。
其中,R@20,R@50以及R@100是评价指标。R@k(k表示为一个常数,如定义三个指标20,50,100)表示置信度最高点的前k组<主语,谓语,宾语>关系三元组占实际正确的关系三元组的比例。
优选的,训练过程中附加动量的随机梯度下降为优化函数,训练方法采用随机梯度下降加动量的优化器,相比普通的随机梯度下降算法,这种优化器能极大地加快收敛速度,尤其是在噪声较大或者梯度值较小时更为有效。其参数更新规则为:
θ←θ+v
其中,v为相比于普通的随机梯度下降增加的速度向量,α为动量参数,ε为学习速率,为针对权重θ的微分,m为minibatch大小,即当前批次输入的样本图像数量,L(f(x(i);θ),y(i))为损失函数,x(i)为针对权样本中的某个样例,y(i)为对应的标签。优选的,动量α设为0.9,学习速率ε设为0.001,每训练10000步权重衰减一次,权重衰减θ为0.005。
2、用训练好的模型,进行图像场景图的生成:
(1)检测出图像中物体的位置和种类;
(2)对图像中物体两两之间的关系进行推理分类。
3、对得到的基于语义编码模块和注意力机制的模型进行对比分析。
经过对比和分析,相比于目前已有的其他方法,用语义编码模块和注意力机制相结合的方法有更高的关系推理精度,并且在关系过程中不引入无用信息,网络也比较简单,应用前景十分广阔。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于语义空间约束和注意力机制的场景图生成方法,包括以下步骤:
S1:采用VG数据集,随机选取若干张图像作为验证集,在剩余图像中按比例随机选取,分别作为训练集和测试集;
S2:基于深度学习的方法和VG数据集,构建目标检测网络;
S3:基于深度学习的方法和VG数据集,建立关系推理网络;
S4:根据关系推理网络得到的语义约束信息和注意力网络,得到突出可能存在相关关系的区域和通道特征,进行关系推理分类。
2.根据权利要求1所述的基于语义空间约束和注意力机制的场景图生成方法,其特征在于,在步骤S2中,所述目标检测网络使用Faster-RCNN网络,包括前端基础网络VGG16、RPN网络,所述VGG16用于提取图像的特征。
3.根据权利要求2所述的基于语义空间约束和注意力机制的场景图生成方法,其特征在于,步骤S2的具体步骤包括:
所述前端基础网络VGG16提取图像的特征,得到特征图,即输出物体的特征表示;将特征图送入RPN网络,得到ROI区域,框定物体的位置,即输出物体的位置信息;并且对物体进行分类,得到物体的种类概率。
4.根据权利要求1所述的基于语义空间约束和注意力机制的场景图生成方法,其特征在于,步骤S3的具体步骤包括:
S3.1:将目标检测输出的物体的特征表示、位置信息、种类概率拼接起来送入一个双向LSTM网络中,得到融入了语义上下文信息的物体特征表示;
S3.2:再将双向LSTM网络的输出输入到一个单向LSTM解码器中进行解码操作,得到物体的种类标签;
S3.3:根据步骤S3.1的双向LSTM网络所得到的物体种类预测概率、种类预测结果和物体的位置信息作为监督信号,用预测种类信息和位置信息调整权重,建立空间和通道的注意力网络,提取物体之间存在关系的区域的特征;空间注意力机制主要用于找出相关区域可能存在物体之间的相互关系,通道注意力机制主要用于找出每个滤波器提取的图像特征映射中可能存在物体之间的相互关系;
S3.4:基于双向LSTM网络以及单向LSTM解码器所得到的物体种类概率分布、双向LSTM网络中输出的物体的特征表示以及步骤S2中得到的物体的位置信息,将三者信息融合映射到一个语义编码空间中,通过训练权重,将物体的视觉特征映射到所述语义编码空间中。
5.根据权利要求4所述的基于语义空间约束和注意力机制的场景图生成方法,其特征在于,在步骤S3.3中,所述空间注意力网络的建立步骤包括:
S101:将两个物体所在区域拼接在同一个区域,经过ROI池化后得到含两个物体的特征图;
S102:将两个物体所在区域的特征图以及物体的种类标签送入注意力网络中,得到注意力权重,其中注意力机制满足如下公式:
Watt(O1,O2)=Wp+Vpf(QE(O1,O2))
O1和O2为两个物体的种类,Watt(O1,O2)为O1,O2两个物体的注意力权重,E(O1,O2)为嵌入层,Q为一个线性变换矩阵,f为Relu激活函数,Vp为另一个线性变换矩阵,Wp为固定参数,作为一个独立的权重,不随物体的种类变化而变化;
S103:空间中每一位置均与注意力权重相乘,得到一张注意力映射图;
S104:将注意力映射图与输入的区域特征图相乘的,得到注意力热力图。
6.根据权利要求4所述的基于语义空间约束和注意力机制的场景图生成方法,其特征在于,在步骤S3.3中,所述通道注意力网络的建立步骤包括:
S201:将两个物体所在区域拼接在同一个区域,经过ROI池化后得到含两个物体的特征图;
S202:将两个物体所在区域的特征图以及物体的种类标签送入注意力网络中,得到注意力权重,其中注意力机制满足如下公式:
Watt(O1,O2)=Wp+Vpf(QE(O1,O2))
O1和O2为两个物体的种类,Watt(O1,O2)为O1,O2两个物体的注意力权重,E(O1,O2)为嵌入层,Q为一个线性变换矩阵,f为Relu激活函数,Vp为另一个线性变换矩阵,Wp为固定参数,作为一个独立的权重,不随物体的种类变化而变化;
S203:每一个滤波器得到的特征映射图与注意力权重相乘,得到每一个通道的注意力值;
S204:将得到的通道注意力值与输入的区域特征图相乘,得到注意力热力图。
7.根据权利要求4所述的基于语义空间约束和注意力机制的场景图生成方法,其特征在于,在步骤S3.4中,所述语义编码空间训练权重受VTransE的启发,存在如下关系:
Wsxs+to≈Woxo
其中,WsXs是一个线性映射,将主语表示的物体(subject)的特征表示映射到一个语义编码空间中;WoXo也是一个线性映射,将宾语表示的物体(object)的特征表示映射到同样的语义编码空间中;在这样的特征空间中,存在上述关系,即to是在这样一个特征编码空间中关系的表示。
8.根据权利要求4所述的基于语义空间约束和注意力机制的场景图生成方法,其特征在于,步骤S4的具体步骤包括:
根据步骤S3.3得到的注意力网络的结果送入全连接层进关系分类,同时将步骤3.4中语义空间编码空间约束的结果送入另一个全连接层进行关系分类,将两个分类结果拼接起来,再送入一个全连接层中得到最终分类结果。
CN201910250400.0A 2019-03-29 2019-03-29 基于语义空间约束和注意力机制的场景图生成方法 Active CN110084128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910250400.0A CN110084128B (zh) 2019-03-29 2019-03-29 基于语义空间约束和注意力机制的场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910250400.0A CN110084128B (zh) 2019-03-29 2019-03-29 基于语义空间约束和注意力机制的场景图生成方法

Publications (2)

Publication Number Publication Date
CN110084128A true CN110084128A (zh) 2019-08-02
CN110084128B CN110084128B (zh) 2021-12-14

Family

ID=67413880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910250400.0A Active CN110084128B (zh) 2019-03-29 2019-03-29 基于语义空间约束和注意力机制的场景图生成方法

Country Status (1)

Country Link
CN (1) CN110084128B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704665A (zh) * 2019-08-30 2020-01-17 北京大学 一种基于视觉注意力机制的图像特征表达方法及系统
CN110843794A (zh) * 2020-01-15 2020-02-28 北京三快在线科技有限公司 驾驶场景理解方法、装置和轨迹规划方法、装置
CN110991532A (zh) * 2019-12-03 2020-04-10 西安电子科技大学 基于关系视觉注意机制的场景图产生方法
CN111340912A (zh) * 2020-02-20 2020-06-26 北京市商汤科技开发有限公司 场景图生成方法及装置、存储介质
CN111414962A (zh) * 2020-03-19 2020-07-14 创新奇智(重庆)科技有限公司 一种引入物体关系的图像分类方法
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法
CN111507421A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种基于视频的情感识别方法及装置
CN111612070A (zh) * 2020-05-13 2020-09-01 清华大学 基于场景图的图像描述生成方法及装置
CN112288806A (zh) * 2020-09-28 2021-01-29 北京沃东天骏信息技术有限公司 物体空间关系的识别方法、装置和训练方法、装置
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN112487927A (zh) * 2020-11-26 2021-03-12 深圳市人工智能与机器人研究院 一种基于物体关联注意力的室内场景识别实现方法及系统
CN112668596A (zh) * 2019-10-15 2021-04-16 北京地平线机器人技术研发有限公司 三维物体识别方法及装置、识别模型训练方法及装置
CN112699776A (zh) * 2020-12-28 2021-04-23 南京星环智能科技有限公司 训练样本优化方法、目标检测模型生成方法、设备及介质
CN112861848A (zh) * 2020-12-18 2021-05-28 上海交通大学 基于动作条件已知的视觉关系检测方法及系统
CN112989927A (zh) * 2021-02-03 2021-06-18 杭州电子科技大学 一种基于自监督预训练的场景图生成方法
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
CN113139423A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113836339A (zh) * 2021-09-01 2021-12-24 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108665506A (zh) * 2018-05-10 2018-10-16 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机存储介质及服务器
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109344815A (zh) * 2018-12-13 2019-02-15 深源恒际科技有限公司 一种文档图像分类方法
CN109359636A (zh) * 2018-12-14 2019-02-19 腾讯科技(深圳)有限公司 视频分类方法、装置及服务器
CN109359564A (zh) * 2018-09-29 2019-02-19 中山大学 一种图像场景图生成方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108665506A (zh) * 2018-05-10 2018-10-16 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机存储介质及服务器
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN109359564A (zh) * 2018-09-29 2019-02-19 中山大学 一种图像场景图生成方法及装置
CN109344815A (zh) * 2018-12-13 2019-02-15 深源恒际科技有限公司 一种文档图像分类方法
CN109359636A (zh) * 2018-12-14 2019-02-19 腾讯科技(深圳)有限公司 视频分类方法、装置及服务器

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704665A (zh) * 2019-08-30 2020-01-17 北京大学 一种基于视觉注意力机制的图像特征表达方法及系统
CN112668596A (zh) * 2019-10-15 2021-04-16 北京地平线机器人技术研发有限公司 三维物体识别方法及装置、识别模型训练方法及装置
CN112668596B (zh) * 2019-10-15 2024-04-16 北京地平线机器人技术研发有限公司 三维物体识别方法及装置、识别模型训练方法及装置
CN110991532A (zh) * 2019-12-03 2020-04-10 西安电子科技大学 基于关系视觉注意机制的场景图产生方法
CN110991532B (zh) * 2019-12-03 2022-03-04 西安电子科技大学 基于关系视觉注意机制的场景图产生方法
CN110843794A (zh) * 2020-01-15 2020-02-28 北京三快在线科技有限公司 驾驶场景理解方法、装置和轨迹规划方法、装置
CN110843794B (zh) * 2020-01-15 2020-05-05 北京三快在线科技有限公司 驾驶场景理解方法、装置和轨迹规划方法、装置
CN111340912A (zh) * 2020-02-20 2020-06-26 北京市商汤科技开发有限公司 场景图生成方法及装置、存储介质
CN111340912B (zh) * 2020-02-20 2022-12-23 北京市商汤科技开发有限公司 场景图生成方法及装置、存储介质
CN111414962A (zh) * 2020-03-19 2020-07-14 创新奇智(重庆)科技有限公司 一种引入物体关系的图像分类方法
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法
CN111462282B (zh) * 2020-04-02 2023-01-03 哈尔滨工程大学 一种场景图生成方法
CN111507421A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种基于视频的情感识别方法及装置
CN111612070A (zh) * 2020-05-13 2020-09-01 清华大学 基于场景图的图像描述生成方法及装置
CN111612070B (zh) * 2020-05-13 2024-04-26 清华大学 基于场景图的图像描述生成方法及装置
CN112288806A (zh) * 2020-09-28 2021-01-29 北京沃东天骏信息技术有限公司 物体空间关系的识别方法、装置和训练方法、装置
CN112487927A (zh) * 2020-11-26 2021-03-12 深圳市人工智能与机器人研究院 一种基于物体关联注意力的室内场景识别实现方法及系统
CN112487927B (zh) * 2020-11-26 2024-02-13 深圳市人工智能与机器人研究院 一种基于物体关联注意力的室内场景识别实现方法及系统
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN112861848A (zh) * 2020-12-18 2021-05-28 上海交通大学 基于动作条件已知的视觉关系检测方法及系统
CN112861848B (zh) * 2020-12-18 2022-04-08 上海交通大学 基于动作条件已知的视觉关系检测方法及系统
CN112699776B (zh) * 2020-12-28 2022-06-21 南京星环智能科技有限公司 训练样本优化方法、目标检测模型生成方法、设备及介质
CN112699776A (zh) * 2020-12-28 2021-04-23 南京星环智能科技有限公司 训练样本优化方法、目标检测模型生成方法、设备及介质
CN112989927B (zh) * 2021-02-03 2024-03-05 杭州电子科技大学 一种基于自监督预训练的场景图生成方法
CN112989927A (zh) * 2021-02-03 2021-06-18 杭州电子科技大学 一种基于自监督预训练的场景图生成方法
CN113139423A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113139423B (zh) * 2021-03-09 2024-03-01 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
CN113836339A (zh) * 2021-09-01 2021-12-24 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法
CN113836339B (zh) * 2021-09-01 2023-09-26 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法

Also Published As

Publication number Publication date
CN110084128B (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN110084128A (zh) 基于语义空间约束和注意力机制的场景图生成方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN109754015B (zh) 用于画作多标签识别的神经网络及相关方法、介质和设备
Kembhavi et al. A diagram is worth a dozen images
CN107391709A (zh) 一种基于新型注意模型进行图像字幕生成的方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN109753567A (zh) 一种结合标题与正文注意力机制的文本分类方法
CN113807276B (zh) 基于优化的YOLOv4模型的吸烟行为识别方法
CN109241834A (zh) 一种基于隐变量的嵌入的群体行为识别方法
CN110399518A (zh) 一种基于图卷积的视觉问答增强方法
CN108229682A (zh) 一种基于反向传播攻击的图像检测对抗方法
CN110851760A (zh) 在web3D环境融入视觉问答的人机交互系统
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
JP6968966B1 (ja) ディープラーニング及びplsiに基づく画像オブジェクトの意味関係を認識する方法
CN114037871A (zh) 一种基于神经支持决策树的图像分类可解释方法
CN114187493A (zh) 一种基于生成对抗网络的零样本学习算法
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN115860152A (zh) 一种面向人物军事知识发现的跨模态联合学习方法
Zou et al. A survey on VQA: Datasets and approaches
CN112949501B (zh) 一种从示教视频学习物体的可供性方法
Yang et al. GID-Net: Detecting human-object interaction with global and instance dependency
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN116861258B (zh) 模型处理方法、装置、设备及存储介质
CN117373111A (zh) 一种基于AutoHOINet的人-物交互检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB03 Change of inventor or designer information

Inventor after: Wang Congling

Inventor before: Cao Yang

Inventor before: Zheng Zhigang

Inventor before: Luo Hongchen

Inventor before: Wang Congling

CB03 Change of inventor or designer information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220126

Address after: 230000 business incubation center of National University Science and Technology Park, 602 Huangshan Road, high tech Zone, Hefei City, Anhui Province

Patentee after: ANHUI KEY INFORMATION TECHNOLOGY Co.,Ltd.

Address before: No. 618, Science Park, Hefei National University, No. 602, Huangshan Road, high tech Zone, Hefei City, Anhui Province, 232200

Patentee before: ANHUI AI-RETHINK INTELLIGENT TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right