CN111709275B - 一种用于Affordance推理的深度网络构建方法 - Google Patents
一种用于Affordance推理的深度网络构建方法 Download PDFInfo
- Publication number
- CN111709275B CN111709275B CN202010350248.6A CN202010350248A CN111709275B CN 111709275 B CN111709275 B CN 111709275B CN 202010350248 A CN202010350248 A CN 202010350248A CN 111709275 B CN111709275 B CN 111709275B
- Authority
- CN
- China
- Prior art keywords
- node
- affordance
- graph
- reasoning
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 19
- 230000000007 visual effect Effects 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 239000003795 chemical substances by application Substances 0.000 description 10
- 230000003993 interaction Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 230000009467 reduction Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 240000006350 Callirhoe involucrata Species 0.000 description 3
- 235000002259 Callirhoe involucrata Nutrition 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 240000000037 Prosopis spicigera Species 0.000 description 1
- 235000006629 Prosopis spicigera Nutrition 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/95—Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
公开一种用于Affordance推理的深度网络构建方法,其能够描述物体间影响的不对称性,考虑不同邻居节点的差异性影响的问题,更好地刻画场景上下文中物体之间的关系。该方法包括两个部分:视觉特征提取部分和Affordance推理部分;Affordance推理部分采用门控图注意力网络(Gated Graph Attention Neural Network,GGANN),以图结构作为上下文的载体,基于对象级别的上下文信息构建双向图,对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示,图节点之间建立双向边,并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。
Description
技术领域
本发明涉及计算机视觉和模式识别的技术领域,尤其涉及一种用于Affordance推理的深度网络构建方法。
背景技术
Affordance描述在具体环境中允许代理(agent)与该环境中的物体进行的交互,或交互过程中体现出的物体在该环境中具有的功能。交互动作的发出者称为主体,动作的承接者称为客体,通常代理是主体,环境中的物体是客体。具体的Affordance推理包括两个角度:主体的角度,即代理的角度推理该环境允许代理进行哪些动作交互;客体的角度,即环境中物体的角度推理物体在该环境中能够完成哪些任务。
从代理的角度研究具体的Affordance需要考虑场景上下文。例如考虑椅子的Affordance“是否允许坐”,即代理是否可以坐在环境中的某个椅子上?如果该椅子已经有人坐在上面或者椅子上放有物体(例如背包)时,则不能坐在该椅子上,即代理是否被允许与场景中的物体—椅子交互需要考虑场景中其他物体(例如人、背包等)与椅子的关系。其他物体与当前待交互物体的关系对当前的交互影响不同:当背包A放在椅子上时,因为椅子被背包A占用,所以背包A与椅子的关系对当前交互有影响,导致该椅子不能被坐;当背包B放在椅子旁边时,因为椅子没有被背包B占用,背包B与椅子的关系对当前交互没有影响,该椅子是否能被坐需要进一步考虑其他因素。
从客体的角度研究Affordance时,同样需要考虑场景上下文。例如从场景中选择一个杯子盛酒,而这个场景中恰好只有茶杯而没有酒杯。由于当前场景中没有最恰当的可以完成任务的物体—酒杯,那么就需要考虑场景中功能与酒杯类似的其他物体,茶杯的功能是盛茶水,这与酒杯盛酒的功能最相似,所以可以选择用茶杯来盛酒。
此外,上下文中一对物体间的相互影响是不对称的,例如第一个例子中“背包A放在椅子上”的背包和椅子,背包A对椅子的影响和椅子对背包A的影响是不同的。椅子不能被坐的原因是背包A在椅子上,所以背包A对椅子的Affordance“是否允许坐”有影响;但同一场景下椅子对背包A的Affordance“是否允许提”没有影响。
目前基于计算机视觉研究Affordance推理的方法通常使用深度网络对环境中的物体提取视觉特征,然后通过门控图网络(Gated Graph Neural Network,GGNN)模型对环境内物体进行空间上下文建模。具体地,利用图节点表示环境中的物体,利用节点之间的边表示物体之间的关系。
已有的基于门控图网络进行Affordance推理的研究工作对于空间上下文中物体之间的相互影响考虑不足,表现为使用单向边连接图节点,没有考虑到物体间影响的不对称性;邻居节点信息聚合的过程中平等对待各邻居节点,没有考虑不同邻居节点的差异性影响。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种用于Affordance推理的深度网络构建方法,其能够描述物体间影响的不对称性,考虑不同邻居节点的差异性影响的问题,更好地刻画场景上下文中物体之间的关系。
本发明的技术方案是:这种用于Affordance推理的深度网络构建方法,包括两个部分:视觉特征提取部分和Affordance推理部分;Affordance推理部分采用门控图注意力网络结构,以图结构作为上下文的载体,基于对象级别的上下文信息构建双向图,对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示,图节点之间建立双向边,并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。
本发明的Affordance推理部分采用门控图注意力网络结构,环境上下文建模采用双向图,其中的双向边用于描述物体之间的不对称影响,引入图注意力机制更新图中边的权值以描述不同邻居节点间的差异性影响,因此能够描述物体间影响的不对称性,考虑不同邻居节点的差异性影响的问题,更好地刻画场景上下文中物体之间的关系。
附图说明
图1是根据本发明的用于Affordance推理的深度网络构建方法的一个具体实施例的流程图。
图2是根据本发明的用于Affordance推理的深度网络构建方法视觉特征提取部分用到的卷积核示意图。
图3是根据本发明的用于Affordance推理的深度网络构建方法的图注意力系数计算示意图。
具体实施方式
本发明提出的用于Affordance推理的深度网络构建方法建立在以下理论基础之上:代理在具体环境中执行某项动作或者使用该环境下的物体去完成某项任务时,需要考虑物体的状态以及环境中各物体之间的影响,这些信息被称作上下文信息。
这种用于Affordance推理的深度网络构建方法包括两个部分:视觉特征提取部分和Affordance推理部分;Affordance推理部分采用门控图注意力网络结构,以图结构作为上下文的载体,基于对象级别的上下文信息构建双向图,对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示,图节点之间建立双向边,并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。
本发明的Affordance推理部分采用门控图注意力网络结构,环境上下文建模采用双向图,其中的双向边用于描述物体之间的不对称影响,引入图注意力机制更新图中边的权值以描述不同邻居节点间的差异性影响,因此能够描述物体间影响的不对称性,考虑不同邻居节点的差异性影响的问题,更好地刻画场景上下文中物体之间的关系。
更进一步地,基于图注意力机制更新边的权值使得节点有偏重地获取邻居节点的信息。
已有的对环境中的物体提取视觉特征的深度网络通常采用标准卷积核,计算量和参数量过大,影响推理效率。优选地,视觉特征提取部分采用HetConv-ResNet结构,其中卷积计算使用异构卷积核,以解决网络计算量和参数量大的问题。针对传统模型计算量和参数量大的问题,本发明在提取视觉特征的深度网络模块采用异构卷积核以减少计算量和参数量,在保证Affordance推理准确率的前提下,减小模型对于计算能力和存储空间的需求。
优选地,Affordance推理部分为GGANN,在COCO-Tasks和ADE-Affordance数据集上对深度网络进行训练和测试。
COCO-Tasks数据集标注了物体允许的交互(物体的功能,例如舒服地乘坐),可用于测试从物体角度推理Affordance的任务。COCO-Tasks数据集基于COCO数据集定义了14个常见的任务,包含40000张标注的图像,其中30229张图像用于训练,9495张图像用于测试。
ADE-Affordance数据集标注了代理与环境交互的可行性(物体的功能是否被允许使用,例如“坐”这个动作在该环境下能否能够执行),可用于测试从代理角度推理Affordance的任务。ADE-Affordance数据集是在ADE20k数据集(包括候机室、银行大厅、卧室等场景)的基础上标注物体相关的交互“坐”、“跑”、“抓握”三个动作能否被执行,具体标注是“被允许的”、“被禁止的”、“异常的”。数据集中8000张图像用于训练,1000张图像用于测试。
本发明具体技术细节如下:
1.LAR-Net
依据本发明提出的深度网络构建方法实现了一种轻量化Affordance网络:LAR-Net(Lightweight Affordance Reasoning Network,LAR-Net),其整体框架如图1所示。对于给定的一张图像,LAR-Net推理Affordance需要经过三个步骤:物体特征提取,上下文特征聚合和Affordance分类。
具体步骤如下:给定一张包含Q个物体的图像,通过异构残差网络(HeterogeneousConvolution Residual Network,HetConv-ResNet)对图像中标注的Q个包围框分别提取各个物体的视觉特征;将针对第i个物体提取的视觉特征φ(oi)和该物体所属类别进行特征融合作为门控图注意力网络(Gated Graph Attention Neural Network,GGANN)节点i的初始向量表示/>其中i∈S,其中S表示图节点的集合;GGANN用双向图对全局上下文信息进行建模,通过图注意力机制学习边的权重αij,其中i∈S,j∈S;经过T轮迭代获得节点i的向量表示/>最后将/>和/>进行连接后输入两个连续的全连接层,预测第i个物体的Affordance。
下面对本发明中具体的技术创新点进行介绍。
1.1 HetConv-ResNet提取物体特征
为减少特征提取阶段的计算量和该阶段模型的参数量,利用异构卷积核代替残差网络(ResNet)中3×3大小的标准卷积核。图2(a)表示N个标准卷积核,每个卷积层接受M个特征图作为输入,共输出N个特征图,其中每个卷积模板的大小为K×K。假设输入和输出的每个特征图的大小分别为Din×Din和Dout×Dout,则每个卷积层计算的次数为:
Dout×Dout×M×N×K×K。图2(b)表示N个异构卷积核。设P表示异构卷积核的参数,则每个异构卷积核有个卷积模板的大小保持K×K,剩余的/>个卷积模板的大小为1×1,则使用异构卷积核时每个卷积层的计算量为:
所以异构卷积核的计算量相当于标准卷积核计算量的模型压缩的程度受参数P的控制。
1.2 GGANN聚合上下文特征
GGANN中,节点i和节点j之间有两条边连接,注意力系数αij是节点j到节点i的边的权值,表示节点j对节点i的影响;注意力系数αji是节点i到节点j的边的权值,表示节点i对节点j的影响。
GGANN中图节点的初始向量表示如式(1):
其中表示物体i的类别信息,通过独热编码的形式表示;φ(oi)表示HetConv-ResNet提取的物体i的特征;Wc和Wφ分别表示不同的系数矩阵,是模型端到端学习的参数;⊙表示逐元素相乘,g(·)表示ReLU激活函数。
当GGANN进行迭代时,每一轮迭代中节点的更新需要依赖该节点的邻居节点,对邻居节点信息进行聚合的计算如式(2):
其中表示通过邻居节点计算得到的聚合信息;αij表示节点i的邻居节点j对节点i的注意力系数;/>是节点j在第(t-1)次迭代后的向量表示;bp表示网络偏置;Ni表示节点i的邻居节点集合;图注意力系数αij的计算如式(3):
其中,“‖”表示将两个向量连接成一个向量的操作;Wa和WF是模型端到端学习的参数;与/>分别是节点i和节点j在第(t-1)次迭代后的向量表示;LeakyReLU是激活函数;分母的目的是对αij归一化。图注意力系数αij的计算过程如图3所示。
获得节点i的聚合信息后,每个图节点通过GRU门控机
制进行传播,传播过程的计算如式(4):
其中Wz,Wr,Wh,Uz,Ur,Uh,bz,br,bh为模型端到端学习的参数;⊙表示逐元素相乘;σ(·)为sigmoid激活函数;是节点i在第(t-1)次迭代后的向量表示。
经过T步迭代后获得节点i的向量表示
1.3全连接层分类
将与节点的初始状态向量表示/>进行串联,并通过两层全连接层Wout计算输出向量/>如式(5):
其中,“‖”表示将两个向量连接成一个向量的操作;g(·)表示ReLU激活函数;Wout是模型端到端学习的参数。
通过softmax计算节点i的Affordance如式(6):
如果是在测试阶段基于式(6)计算得到那么/>即是节点i描述的物体的Affordance。
如果是在训练阶段基于式(6)计算得到那么基于/>和训练数据标注的groundtruth计算网络的交叉熵loss,并反向传播交叉熵loss对模型参数进行更新。
本发明在COCO-Tasks和ADE-Affordance数据集上对提出的轻量化Affordance推理网络LAR-Net进行测试。
表1给出了LAR-Net在COCO-Tasks数据集上与其他方法关于14个不同Affordance推理任务准确性的比较。AR-Net是不进行轻量化时的模型设置,效果最好。进行了模型轻量化后的LAR-Net,效果次之,达到了轻量化的效果并且比其他方法效果好。表2给出了LAR-Net、GGNN和与GGNN(HetConv)在COCO-Tasks数据集上参数量和计算量的比较,LAR-Net的计算量和参数量明显低于采用标准卷积核提取视觉特征来建立上下文的GGNN,与
GGNN(HetConv)的计算量和参数量相当。
表3给出了LAR-Net在ADE-Affordance数据集上与其他方法关于推理三个动作Affordance合理性的比较,LAR-Net在取得更好效果的同时计算量和参数量更少。表4给出了LAR-Net、Spatial-GGNN和与Spatial-GGNN(HetConv)在ADE-Affordance数据集上参数量和计算量比较,LAR-Net的计算量和参数量明显低于Spatial-GGNN,与Spatial-GGNN(HetConv)的计算量和参数量相当。
表5给出了在COCO-Tasks数据集上设置不同异构卷积核参数P值时,LAR-Net的准确率以及计算量和参数量的变化情况。随着参数P的增大,可以获得更轻量化的模型,但准确率也会随之降低。
表1
表2
模型 | 计算量 | 参数量 | 计算量减少(%) | 参数量减少(%) |
GGNN | 7.582G | 45.002M | - | - |
GGNN(HetConv) | 5.427G | 31.365M | 30.9 | 30.3 |
LAR-Net | 5.427G | 31.365M | 30.9 | 30.3 |
表3
表4
方法 | 计算量 | 参数量 | 计算量减少(%) | 参数量减少(%) |
Spatial-GGNN | 4.133G | 26.634M | - | - |
Spatial-GGNN(HetConv) | 2.951G | 19.403M | 28.6 | 27.2 |
LAR-Net | 2.951G | 19.403M | 28.6 | 27.2 |
表5
方法 | 平均准确率(%) | 计算量 | 参数量 | 计算量减少(%) | 参数量减少(%) |
GGNN | 0.771 | 7.852G | 45.002M | - | - |
LAR-Net(P=4) | 0.772 | 5.427G | 31.365M | 30.9 | 30.3 |
LAR-Net(P=8) | 0.766 | 4.950G | 28.697M | 37.5 | 36.2 |
LAR-Net(P=16) | 0.764 | 4.712G | 27.363M | 40.5 | 39.2 |
LAR-Net(P=32) | 0.762 | 4.593G | 26.696M | 42.0 | 40.7 |
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (6)
1.一种用于Affordance推理的深度网络构建方法,其特征在于:该方法包括两个部分:视觉特征提取部分和Affordance推理部分;
Affordance推理部分采用门控图注意力网络结构,以图结构作为上下文的载体,基于对象级别的上下文信息构建双向图,对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示,图节点之间建立双向边,并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响;
节点i和节点j之间有两条边连接,注意力系数αij是节点j到节点i的边的权值,表示节点j对节点i的影响;注意力系数αji是节点i到节点j的边的权值,表示节点i对节点j的影响;
GGANN中图节点的初始向量表示为公式(1):
其中表示物体i的类别信息,通过独热编码的形式表示;φ(oi)表示HetConv-ResNet提取的物体i的特征;Wc和Wφ分别表示不同的系数矩阵,是模型端到端学习的参数;⊙表示逐元素相乘,g(·)表示ReLU激活函数;
当GGANN进行迭代时,每一轮迭代中节点的更新需要依赖该节点的邻居节点,对邻居节点信息进行聚合的计算为公式(2):
其中表示通过邻居节点计算得到的聚合信息;αij表示节点i的邻居节点j对节点i的注意力系数;/>是节点j在第(t-1)次迭代后的向量表示;bp表示网络偏置;Ni表示节点i的邻居节点集合;图注意力系数αij的计算为公式(3):
其中,“‖”表示将两个向量连接成一个向量的操作;Wa和WF是模型端到端学习的参数;与/>分别是节点i和节点j在第(t-1)次迭代后的向量表示;LeakyReLU是激活函数;分母的目的是对αij归一化;
获得节点i的聚合信息后,每个图节点通过GRU门控机制进行传播,传播过程的计算为公式(4):
其中Wz,Wr,Wh,Uz,Ur,Uh,bz,br,bh为模型端到端学习的参数;⊙表示逐元素相乘;σ(·)为sigmoid激活函数;是节点i在第(t-1)次迭代后的向量表示;
经过T步迭代后获得节点i的向量表示
将与节点的初始状态向量表示/>进行串联,并通过两层全连接层Wout计算输出向量为公式(5):
其中,“‖”表示将两个向量连接成一个向量的操作;g(·)表示ReLU激活函数;Wout是模型端到端学习的参数;
通过softmax计算节点i的为公式(6):
如果是在测试阶段基于公式(6)得到那么/>是节点i描述的物体的Affordance;
如果是在训练阶段基于公式(6)得到基于/>和训练数据标注的groundtruth计算网络的交叉熵loss,并反向传播交叉熵loss对模型参数进行更新。
2.根据权利要求1所述的用于Affordance推理的深度网络构建方法,其特征在于:节点间通过双向边连接,且基于图注意力机制更新边的权值使得节点能够有偏重地获取邻居节点的信息。
3.根据权利要求2所述的用于Affordance推理的深度网络构建方法,其特征在于:视觉特征提取部分采用异构残差网络结构HetConv-ResNet,其中使用异构卷积核,以解决网络计算量和参数量大的问题。
4.根据权利要求3所述的用于Affordance推理的深度网络构建方法,其特征在于:在COCO-Tasks和ADE-Affordance数据集上对深度网络进行训练和测试。
5.根据权利要求4所述的用于Affordance推理的深度网络构建方法,其特征在于:对于给定一张包含Q个物体的图像,该构建方法包括以下步骤:
(1)物体特征提取,通过HetConv-ResNet对图像中标注的Q个包围框分别提取各个物体的视觉特征;
(2)上下文特征聚合,将针对第i个物体提取的视觉特征φ(oi)和该物体所属类别进行特征融合作为门控图注意力网络GGANN节点i的初始向量表示/>i∈S,其中S表示图节点的集合;
GGANN用双向图对全局上下文信息进行建模,通过图注意力机制学习边的权重αij,其中i∈S,j∈S;经过T轮迭代获得节点i的向量表示
(3)Affordance分类,将和/>进行连接后输入两个连续的全连接层,预测第i个物体的Affordance。
6.根据权利要求5所述的用于Affordance推理的深度网络构建方法,其特征在于:所述步骤(1)中,利用异构卷积核代替残差网络中标准的3×3大小的卷积核,每个卷积层接受M个特征图作为输入,共输出N个特征图,其中每个卷积模板的大小为K×K;输入和输出的每个特征图的大小分别为Din×Din和Dout×Dout,则每个卷积层计算的次数为:Dout×Dout×M×N×K×K;设P表示异构卷积核的参数,则每个异构卷积核有个卷积模板的大小保持K×K,剩余的/>个卷积模板的大小为1×1,则使用异构卷积核时每个卷积层的计算量为:
异构卷积核的计算量相当于标准卷积核计算量的模型压缩的程度受参数P的控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350248.6A CN111709275B (zh) | 2020-04-28 | 2020-04-28 | 一种用于Affordance推理的深度网络构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350248.6A CN111709275B (zh) | 2020-04-28 | 2020-04-28 | 一种用于Affordance推理的深度网络构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709275A CN111709275A (zh) | 2020-09-25 |
CN111709275B true CN111709275B (zh) | 2024-02-06 |
Family
ID=72536600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010350248.6A Active CN111709275B (zh) | 2020-04-28 | 2020-04-28 | 一种用于Affordance推理的深度网络构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709275B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818889B (zh) * | 2021-02-09 | 2024-05-28 | 北京工业大学 | 基于动态注意力的超网络融合视觉问答答案准确性的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800864A (zh) * | 2019-01-18 | 2019-05-24 | 中山大学 | 一种基于图像输入的机器人主动学习方法 |
CN109816109A (zh) * | 2018-12-12 | 2019-05-28 | 中国科学院深圳先进技术研究院 | 任务推理模型学习及任务推理方法、机器人及存储装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635917B (zh) * | 2018-10-17 | 2020-08-25 | 北京大学 | 一种多智能体合作决策及训练方法 |
-
2020
- 2020-04-28 CN CN202010350248.6A patent/CN111709275B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816109A (zh) * | 2018-12-12 | 2019-05-28 | 中国科学院深圳先进技术研究院 | 任务推理模型学习及任务推理方法、机器人及存储装置 |
CN109800864A (zh) * | 2019-01-18 | 2019-05-24 | 中山大学 | 一种基于图像输入的机器人主动学习方法 |
Non-Patent Citations (3)
Title |
---|
Integrating Object Affordances with Artificial Visual Attentio;Jan T¨ unnermann 等;《Springer International Publishing Switzerland 2015》;全文 * |
Object Affordances Graph Network for Action Recognition;Haoliang Tan 等;《TAN ET AL,: OBJECT AFFORDANCES GRAPH NETWORK》;全文 * |
基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究;张兰霞;胡文心;;计算机应用与软件(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111709275A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108062756B (zh) | 基于深度全卷积网络和条件随机场的图像语义分割方法 | |
WO2021232687A1 (zh) | 一种基于深度学习的点云上采样方法 | |
Shukla | Neuro-genetic prediction of software development effort | |
US20190050734A1 (en) | Compression method of deep neural networks | |
CN110674850A (zh) | 一种基于注意力机制的图像描述生成方法 | |
CN110766063B (zh) | 基于压缩激励和紧密连接卷积神经网络的图像分类方法 | |
CN110428428A (zh) | 一种图像语义分割方法、电子设备和可读存储介质 | |
CN111126472A (zh) | 一种基于ssd改进的目标检测方法 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN115456160A (zh) | 一种数据处理方法和数据处理设备 | |
CN110968701A (zh) | 用于图神经网络的关系图谱建立方法以及装置、设备 | |
CN111460818B (zh) | 一种基于增强胶囊网络的网页文本分类方法及存储介质 | |
CN109992779A (zh) | 一种基于cnn的情感分析方法、装置、设备及存储介质 | |
CN109165743A (zh) | 一种基于深度压缩自编码器的半监督网络表示学习算法 | |
CN109711401A (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 | |
CN115661550B (zh) | 基于生成对抗网络的图数据类别不平衡分类方法及装置 | |
CN114693942A (zh) | 一种仪器仪表智能运维的多模态故障理解及辅助标注方法 | |
Wu et al. | Optimized deep learning framework for water distribution data-driven modeling | |
CN113516133A (zh) | 一种多模态图像分类方法及系统 | |
CN113240683A (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN114154557A (zh) | 癌症组织分类方法、装置、电子设备及存储介质 | |
CN111709275B (zh) | 一种用于Affordance推理的深度网络构建方法 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |