CN109726718B - 一种基于关系正则化的视觉场景图生成系统及方法 - Google Patents
一种基于关系正则化的视觉场景图生成系统及方法 Download PDFInfo
- Publication number
- CN109726718B CN109726718B CN201910004817.9A CN201910004817A CN109726718B CN 109726718 B CN109726718 B CN 109726718B CN 201910004817 A CN201910004817 A CN 201910004817A CN 109726718 B CN109726718 B CN 109726718B
- Authority
- CN
- China
- Prior art keywords
- relation
- relationship
- label
- regularization
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000007670 refining Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 37
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 2
- 238000009991 scouring Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及视觉场景图生成技术,其公开了一种基于关系正则化的视觉场景图生成系统及方法,快速有效地判断物体间是否存在关系,有利于增强物体检测模型的探测效果。该系统,包括:物体检测器、物体标签精练器和物体关系生成器;通过物体检测器,探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;利用物体标签精练器对物体的标签进行精练,利用物体关系生成器获取物体之间的关系,生成最终的视觉场景图。本发明适用于视觉场景图的生成。
Description
技术领域
本发明涉及视觉场景图生成技术,具体涉及一种基于关系正则化的视觉场景图生成系统及方法。
背景技术
视觉场景图(Visual Scene Graph)是对图像内容的高度概括,它由一系列结点(图像中的实体)和边(实体与实体之间的关系)组成。视觉场景图生成任务是指输入一张图片,模型不仅要探测出图像所包含的物体(边框以及类别),还要探测出物体与物体之间的关系。
因为视觉场景图生成需要探测图像中包含的物体,所以大多数方法都使用了一个很有效的物体检测模型—Faster R-CNN去检测物体的边框以及类别。但是之前的工作都只是利用Faster R-CNN的检测结果再去判断物体间的关系,很少有人去考虑物体间的关系对物体检测的影响。而且之前的工作也揭示了一个现象:如果已知两物体间的确存在关系,那么判断具体是什么关系就会容易许多。所以如何判断物体间是否存在关系以及如何利用这种信息去增强模型的效果就成为了一个问题。
发明内容
本发明所要解决的技术问题是:提出一种基于关系正则化的视觉场景图生成系统及方法,快速有效地判断物体间是否存在关系,有利于增强物体检测模型的探测效果。
本发明解决上述技术问题所采用的技术方案是:
基于关系正则化的视觉场景图生成系统,包括:
物体检测器、物体标签精练器和物体关系生成器;
所述物体检测器,用于探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
所述物体标签精练器,包括关系正则化的标签编码器和标签解码器;
所述关系正则化的标签编码器,用于编码物体检测器探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;所述标签解码器,用于基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
所述物体关系生成器,包括关系正则化的关系编码器和关系解码器;
所述关系正则化的关系编码器,用于编码标签解码器的输出,获得关系正则化的关系特征:所述关系解码器,对关系特征进行解码,获得物体间的关系。
作为进一步优化,所述关系正则化的标签编码器和关系正则化的关系编码器中均包括Bi-LSTMs网络以及GCNs网络;通过Bi-LSTMs网络来获取包含全局上下文信息的特征,再利用这种特征获取物体间的仿射关系来判断任意物体间存在关系的可能性;最后利用GCNs网络融合仿射关系来获得关系正则化的特征。
作为进一步优化,所述关系正则化的标签编码器采用拼接关系正则化的特征和全局特征作为输出。
此外,本发明还提供了一种基于关系正则化的视觉场景图生成方法,其包括:
a.探测物体:
探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
b.对物体的标签进行精练:
编码探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
c.获取物体间的关系:
编码标签解码器的输出,获得关系正则化的关系特征;对关系特征进行解码,获得物体间的关系。
作为进一步优化,步骤a中,采用基于ResNet101的Faster R-CNN网络探测图像中的物体,所述Faster R-CNN网络为在视觉基因数据集上预训练获得。
作为进一步优化,步骤b具体包括:
b1.采用带有高速连接的Bi-LSTM网络编码Faster R-CNN探测出的物体边框特征,获得全局特征H={h1,...,hN};hi表示物体i融合全局信息后的特征;
b3.通过两个全连接层将hi映射到一个主体空间和一个客体空间:
b4.利用DistMult模型来构建仿射矩阵:
b6.使用GCNs网络编码全局特征H生成关系正则化的特征
O={o1,...,oN}:
O=ReLU(DsAsHWG)
b7.拼接H和O作为关系正则化编码器的输出:
o′i=[oi,hi]
b8.采用LSTM网络来解码每个物体的标签:
作为进一步优化,步骤c具体包括:
c1.采用关系正则化的关系编码器编码上层的输出:
{Ar,Z}=R2_Encoder([O′,WLLd]|Wz);
c2.获得关系正则化后的关系特征:
Z={z1,…,zN};
c3.采用两个全连接层将Z映射到主体空间和客体空间:
c4.使用DistMult模型生成关系分数:
c5.使用softmax函数将分数映射到0至1:
Dr是数据集中包含的表示关系单词的数量;
本发明的有益效果是:
在很好地利用全局上下文信息的同时,能够充分地发掘并利用物体间的仿射关系。模型将仿射关系通过GCNs融合,得到了关系正则化的特征,从而同时增强了物体标签识别以及场景图生成的效果。
附图说明
图1为本发明中的基于关系正则化的视觉场景图生成系统原理图。
具体实施方式
本发明旨在提出一种基于关系正则化的视觉场景图生成系统及方法,快速有效地判断物体间是否存在关系,有利于增强物体检测模型的探测效果。
为了实现上述目的,本发明设计了基于关系正则的网络来生成视觉场景图。由于之前有工作证明了物体的标签对最后的场景图有非常大的影响,所以我们提出了物体标签精炼模块用来改善Faster R-CNN生成的物体标签。之后又使用了关系生成模块用来生成最终的视觉场景图。每个模块都由双向长短时记忆模型(Bi-LSTMs)以及图卷积网络(GCNs)构成,通过Bi-LSTMs来获取包含全局上下文信息的特征,再利用这种特征获取一个关系矩阵来判断任意物体间存在关系的可能性,最后利用GCNs将这种信息融合来获得关系正则化的特征。通过这种方式来判断物体间是否存在关系并且利用这种信息去增强模型效果。
如图1所示,本发明中的基于关系正则化的视觉场景图生成系统整体框架包括三个部分:物体检测器、物体标签精炼器以及物体关系生成器。
下面将详细介绍各个部分的功能及实现方案。
由于视觉场景图生成任务中,首先需要尽可能多地探测出图像的物体。所以与其他工作类似,我们使用了一种在物体检测任务中非常有效的模型Faster R-CNN来探测图像中的物体。我们首先在视觉基因(Visual Genome)数据集上预训练了基于ResNet101的Faster R-CNN。之后使用这种Faster R-CNN来处理图像(如图1的物体检测器部分所示),从而获得物体的以下信息:
正如其他工作中的实验所展示的,物体的标签对最终场景图的生成有很大影响。所以,我们首先使用物体标签精炼器来改善从Faster R-CNN生成的标签。如图1所示物体标签精炼器包含两部分:关系正则化的标签编码器和标签解码器。
由于Faster R-CNN是孤立地探测每个区域出现的物体,并没有考虑图像中的全局上下文信息,所以我们使用带有高速连接(highway)的Bi-LSTM(双向长短期记忆模型)去编码Faster R-CNN探测出的物体边框特征F:
此处xk,t是指第k层的LSTM的第t步输入。ik,t、sk,t、ok,t、ck,t、hk,t分别表示第k层中第t步输入门、遗忘门、输出门、记忆单元和隐藏状态。σ表示sigmoid函数,tanh表示双曲函数。表示拼接和xk,t向量。和是指LSTM中需要学习的参数。ο是指两向量逐元素相乘即哈达马积。δk是指第k层LSTM的方向。具体来说我们按如下方式设置第k层的LSTM的xk,t和δk:
此处的ft是指第t步的输入。由于我们使用的是双向的LSTM,所以模型对输入的顺序不敏感,简单起见我们按照物体从左到右的顺序去排列物体特征F并将其作为Bi-LSTM的输入。
图卷积网络(GCNs)能够根据图(Graph)的邻接矩阵优化图中结点的特征。而且我们认为探索物体间的关系对物体的识别是有帮助的。所以我们首先利用物体特征F作为Bi-LSTM的输入,获得全局特征H={h1,...,hN},此处hi表示物体i融合全局信息后的特征。再基于全局特征H获得一个图的关系仿射矩阵此处表示物体i和物体j存在关系的可能性。由于一个物体在关系中可能出现为客体也可能出现为主体,所以我们通过两个全连接层将hi映射到一个主体空间和一个客体空间:
其中为一个对角参数矩阵。是一个由主体i和客体j特化的偏差。σ是一个激活函数能将输出映射到0至1。ui,j是指物体i和物体j的联合特征。另外给定两个物体我们很难确定信息是从主体流向客体还是从客体流向主体,所以我们调整仿射矩阵到一个对称矩阵
之后我们就可以使用GCNs编码全局特征H用来生成我们的关系正则化的特征O={o1,...,oN}:
O=ReLU(DsAsHWG) (7)
最后我们拼接H和O作为我们关系正则化编码器的输出:
o′i=[oi,hi] (9)
为了简便起见我们表示我们的关系正则化的标签编码器如下:
{Ae,O′}=R2_Encoder(F|Wo) (10)
R2_Encoder表示从公式(1)到公式(9)整个模型。F表示输入的特征,Ae表示我们获得的放射矩阵,O′表示关系正则化后的物体特征,Wo代表编码模块中的所有需要学习的参数。
最后我们使用了一层LSTM来解码每个物体的标签,从而改善Faster R-CNN生成的标签:
至此,我们已经得到了精炼后的物体标签Ld,之后我们就进入第二阶段--物体关系生成器来生成图像中物体与物体的关系。如图1所示物体关系生成器也包含两部分:关系正则化的关系编码器和关系解码器。我们使用了关系正则化的关系编码器编码上层的输出:
{Ar,Z}=R2_Encoder([O′,WLLd]|Wz) (12)
最后我们就进入了关系解码阶段,同样我们还是要用两个全连接层将Z映射到主体空间和客体空间:
之后再次使用DistMult模型去生成关系分数:
此处r′m,i,j是指以物体i作为主体,以物体j作为客体属于关系m的分数。是需要学习对角参数矩阵,是指偏差项,它由物体i、物体j以及关系m共同指定。ui,j是指物体i和物体j的联合特征。°是指两向量逐元素相乘即哈达马积。最后我们使用softmax函数将分数映射到0至1:
r′m,i,j是指初始化的分数如公式(14)描述,e是自然对数函数的底数,此处Dr是数据集中包含的表示关系单词的数量。最后我们得到了映射到0至1的关系分数R={r1,1,1,...,rDr,N,N}。
对于损失函数的构建,首先在标签精炼阶段,我们构建了标签损失函数和第一个仿射矩阵损失函数,两者形式都是交叉熵:
在关系生成阶段:
其中Ld、Ae、Ar以及R分别是公式(11)、(5)、(12)以及(15)的输出。Lg、Ag、以及Rg分别是数据集中真实的物体标签、邻接矩阵以及关系标签。我们构建真实邻接矩阵的方式是判断两物体间是否存在关系若存在就为1,若不存在关系就为0。最后我们将四个损失函数求和作为模型整体的损失函数。
Claims (5)
1.一种基于关系正则化的视觉场景图生成系统,其特征在于,包括:
物体检测器、物体标签精练器和物体关系生成器;
所述物体检测器,用于探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
所述物体标签精练器,包括关系正则化的标签编码器和标签解码器;
所述关系正则化的标签编码器,用于编码物体检测器探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;所述标签解码器,用于基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
所述物体关系生成器,包括关系正则化的关系编码器和关系解码器;
所述关系正则化的关系编码器,用于编码标签解码器的输出,获得关系正则化的关系特征;所述关系解码器,对关系特征进行解码,获得物体间的关系;
所述关系正则化的标签编码器编码物体检测器探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征,具体包括:
(1)采用带有高速连接的Bi-LSTM网络编码Faster R-CNN探测出的物体边框特征,获得全局特征H={h1,...,hN};hi表示物体i融合全局信息后的特征;
(3)通过两个全连接层将hi映射到一个主体空间和一个客体空间:
(4)利用DistMult模型来构建仿射矩阵:
(6)使用GCNs网络编码全局特征H生成关系正则化的特征:
O={o1,...,oN}:
O=ReLU(DsAsHWG)
(7)拼接H和O作为关系正则化编码器的输出:
o′i=[oi,hi];
所述标签解码器基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签,具体包括:
采用LSTM网络来解码每个物体的标签:
所述关系正则化的关系编码器编码标签解码器的输出,获得关系正则化的关系特征,具体包括:
采用关系正则化的关系编码器编码上层的输出:
{Ar,Z}=R2_Encoder([O′,WLLd]|Wz);
获得关系正则化后的关系特征:
Z={z1,…,zN};
所述关系解码器对关系特征进行解码,获得物体间的关系,具体包括:
(1)采用两个全连接层将Z映射到主体空间和客体空间:
(2)使用DistMult模型生成关系分数:
(3)使用softmax函数将分数映射到0至1:
Dr是数据集中包含的表示关系单词的数量;
2.如权利要求1所述的系统,其特征在于,
所述关系正则化的标签编码器和关系正则化的关系编码器中均包括Bi-LSTMs网络以及GCNs网络;通过Bi-LSTMs网络来获取包含全局上下文信息的特征,再利用这种特征获取物体间的仿射关系来判断任意物体间存在关系的可能性;最后利用GCNs网络融合仿射关系来获得关系正则化的特征。
3.如权利要求1或2所述的系统,其特征在于,
所述关系正则化的标签编码器采用拼接关系正则化的特征和全局特征作为输出。
4.一种基于关系正则化的视觉场景图生成方法,应用于如权利要求1-3任意一项所述的系统,其特征在于,包括以下步骤:
a.探测物体:
探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
b.对物体的标签进行精练:
编码探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
c.获取物体间的关系:
编码标签解码器的输出,获得关系正则化的关系特征;对关系特征进行解码,获得物体间的关系;
步骤b具体包括:
b1.采用带有高速连接的Bi-LSTM网络编码Faster R-CNN探测出的物体边框特征,获得全局特征H={h1,...,hN};hi表示物体i融合全局信息后的特征;
b3.通过两个全连接层将hi映射到一个主体空间和一个客体空间:
b4.利用DistMult模型来构建仿射矩阵:
b6.使用GCNs网络编码全局特征H生成关系正则化的特征
O={o1,...,oN}:
O=ReLU(DsAsHWG)
b7.拼接H和O作为关系正则化编码器的输出:
o′i=[oi,hi]
b8.采用LSTM网络来解码每个物体的标签:
步骤c具体包括:
c1.采用关系正则化的关系编码器编码上层的输出:
{Ar,Z}=R2_Encoder([O′,WLLd]|Wz);
c2.获得关系正则化后的关系特征:
Z={z1,…,zN};
c3.采用两个全连接层将Z映射到主体空间和客体空间:
c4.使用DistMult模型生成关系分数:
c5.使用softmax函数将分数映射到0至1:
Dr是数据集中包含的表示关系单词的数量;
5.如权利要求4所述的方法,其特征在于,
步骤a中,采用基于ResNet101的Faster R-CNN网络探测图像中的物体,所述Faster R-CNN网络为在视觉基因数据集上预训练获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910004817.9A CN109726718B (zh) | 2019-01-03 | 2019-01-03 | 一种基于关系正则化的视觉场景图生成系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910004817.9A CN109726718B (zh) | 2019-01-03 | 2019-01-03 | 一种基于关系正则化的视觉场景图生成系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109726718A CN109726718A (zh) | 2019-05-07 |
CN109726718B true CN109726718B (zh) | 2022-09-16 |
Family
ID=66299610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910004817.9A Active CN109726718B (zh) | 2019-01-03 | 2019-01-03 | 一种基于关系正则化的视觉场景图生成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726718B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363282B (zh) * | 2019-06-06 | 2021-10-26 | 中国科学院信息工程研究所 | 一种基于图卷积网络的网络节点标签主动学习方法和系统 |
CN111475661B (zh) * | 2020-03-23 | 2023-07-14 | 深兰科技(上海)有限公司 | 一种基于有限标签构造场景图的方法、装置及计算机设备 |
CN111898598B (zh) * | 2020-07-03 | 2022-08-30 | 贵州大学 | 一种动态场景下基于文本的目标检测方法 |
CN111931928B (zh) * | 2020-07-16 | 2022-12-27 | 成都井之丽科技有限公司 | 场景图的生成方法、装置和设备 |
CN113139423B (zh) * | 2021-03-09 | 2024-03-01 | 杭州电子科技大学 | 一种用于场景图检测的关系图学习方法 |
CN113836339B (zh) * | 2021-09-01 | 2023-09-26 | 淮阴工学院 | 一种基于全局信息和位置嵌入的场景图生成方法 |
CN114511779B (zh) * | 2022-01-20 | 2023-07-25 | 电子科技大学 | 场景图生成模型的训练方法、场景图生成方法及装置 |
CN115512003B (zh) * | 2022-11-16 | 2023-04-28 | 之江实验室 | 一种独立关系检测的场景图生成方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101567051A (zh) * | 2009-06-03 | 2009-10-28 | 复旦大学 | 一种基于特征点的图像配准方法 |
CN105550709A (zh) * | 2015-12-14 | 2016-05-04 | 武汉大学 | 一种遥感影像输电线路走廊森林区域提取方法 |
CN107341815A (zh) * | 2017-06-01 | 2017-11-10 | 哈尔滨工程大学 | 基于多目立体视觉场景流的剧烈运动检测方法 |
WO2017206936A1 (zh) * | 2016-06-02 | 2017-12-07 | 腾讯科技(深圳)有限公司 | 基于机器学习的网络模型构造方法及装置 |
CN108564126A (zh) * | 2018-04-19 | 2018-09-21 | 郑州大学 | 一种融合语义控制的特定场景生成方法 |
CN108664687A (zh) * | 2018-03-22 | 2018-10-16 | 浙江工业大学 | 一种基于深度学习的工控系统时空数据预测方法 |
CN108830334A (zh) * | 2018-06-25 | 2018-11-16 | 江西师范大学 | 一种基于对抗式迁移学习的细粒度目标判别方法 |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5167799B2 (ja) * | 2007-12-18 | 2013-03-21 | ソニー株式会社 | 固体撮像装置およびカメラ |
US10467795B2 (en) * | 2017-04-08 | 2019-11-05 | Intel Corporation | Sub-graph in frequency domain and dynamic selection of convolution implementation on a GPU |
-
2019
- 2019-01-03 CN CN201910004817.9A patent/CN109726718B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101567051A (zh) * | 2009-06-03 | 2009-10-28 | 复旦大学 | 一种基于特征点的图像配准方法 |
CN105550709A (zh) * | 2015-12-14 | 2016-05-04 | 武汉大学 | 一种遥感影像输电线路走廊森林区域提取方法 |
WO2017206936A1 (zh) * | 2016-06-02 | 2017-12-07 | 腾讯科技(深圳)有限公司 | 基于机器学习的网络模型构造方法及装置 |
CN107341815A (zh) * | 2017-06-01 | 2017-11-10 | 哈尔滨工程大学 | 基于多目立体视觉场景流的剧烈运动检测方法 |
CN108664687A (zh) * | 2018-03-22 | 2018-10-16 | 浙江工业大学 | 一种基于深度学习的工控系统时空数据预测方法 |
CN108564126A (zh) * | 2018-04-19 | 2018-09-21 | 郑州大学 | 一种融合语义控制的特定场景生成方法 |
CN108830334A (zh) * | 2018-06-25 | 2018-11-16 | 江西师范大学 | 一种基于对抗式迁移学习的细粒度目标判别方法 |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和系统 |
Non-Patent Citations (7)
Title |
---|
"Deep learning for fall detection: Three-dimensional CNN combined with LSTM on video kinematic data";Lu N等;《IEEE》;20180220;第23卷(第1期);314-323 * |
"Encoding sentences with graph convolutional networks for semantic role labeling";D. Marcheggiani 等;《EMNLP》;20170730;1506–1515 * |
"Gc-lstm: Graph convolution embedded lstm for dynamic link prediction";Chen J 等;《arXiv:1812.04206》;20181211;1-12 * |
"Learning human-object interactions by graph parsing neural networks";S. Qi 等;《 ECCV》;20181231;407–423 * |
"Neural motifs: Scene graph parsing with global context";Ztellers R 等;《Computer Vision and Pattern Recognition》;20180329;5831-5840 * |
"基于宏块内部特征的H.264快速预测模式决策算法";傅彦 等;《计算机应用研究》;20090515;第26卷(第05期);1955-1957 * |
"基于磁共振成像的多变量模式分析方法学与应用研究";刘风;《万方》;20150701;1-121 * |
Also Published As
Publication number | Publication date |
---|---|
CN109726718A (zh) | 2019-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726718B (zh) | 一种基于关系正则化的视觉场景图生成系统及方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN111915627B (zh) | 语义分割方法、网络、设备及计算机存储介质 | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
Wang et al. | RGB-D salient object detection via minimum barrier distance transform and saliency fusion | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN110543841A (zh) | 行人重识别方法、系统、电子设备及介质 | |
CN112488229B (zh) | 一种基于特征分离和对齐的域自适应无监督目标检测方法 | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN114445201A (zh) | 一种基于多模态预训练模型的组合商品检索方法及系统 | |
Hou et al. | BSNet: Dynamic hybrid gradient convolution based boundary-sensitive network for remote sensing image segmentation | |
CN115578735B (zh) | 文本检测方法和文本检测模型的训练方法、装置 | |
CN114821223A (zh) | 预训练图像文本模型处理方法和图文检索系统 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN111104941B (zh) | 图像方向纠正方法、装置及电子设备 | |
CN112070174A (zh) | 一种基于深度学习的自然场景下文本检测方法 | |
CN112070040A (zh) | 一种用于视频字幕的文本行检测方法 | |
EP4302234A1 (en) | Cross-modal processing for vision and language | |
WO2023185074A1 (zh) | 一种基于互补时空信息建模的群体行为识别方法 | |
Iqbal et al. | FogAdapt: Self-supervised domain adaptation for semantic segmentation of foggy images | |
Wang et al. | Thermal images-aware guided early fusion network for cross-illumination RGB-T salient object detection | |
CN110517270A (zh) | 一种基于超像素深度网络的室内场景语义分割方法 | |
CN115331024A (zh) | 一种基于深度监督和逐步学习的肠道息肉检测方法 | |
Huang et al. | Attention‐Enhanced One‐Stage Algorithm for Traffic Sign Detection and Recognition | |
CN117636326A (zh) | 车牌检测方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |