CN108269275A - 一种基于非局部神经网络的非局部建模方法 - Google Patents

一种基于非局部神经网络的非局部建模方法 Download PDF

Info

Publication number
CN108269275A
CN108269275A CN201810155187.0A CN201810155187A CN108269275A CN 108269275 A CN108269275 A CN 108269275A CN 201810155187 A CN201810155187 A CN 201810155187A CN 108269275 A CN108269275 A CN 108269275A
Authority
CN
China
Prior art keywords
non local
local
formula
neural network
version
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810155187.0A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201810155187.0A priority Critical patent/CN108269275A/zh
Publication of CN108269275A publication Critical patent/CN108269275A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/344Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20068Projection on vertical or horizontal image axis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明中提出的一种基于非局部神经网络的非局部建模方法,其主要内容包括:非局部神经网络,非局部块,其过程为,在非局部均值操作之后,在深度神经网络中定义一个通用的非局部操作,非局部操作基于不同位置之间的关系计算响应,它能支持可变大小的输入,并在输出中保持相应的大小,可以与卷积或递归层一起使用,也可以被添加到深层神经网络的早期部分,通过非局部操作能够结合非局部和局部信息,建立一个更加丰富的层次结构。本发明中非局部运算直接通过计算任意两个位置之间的交互来获取长时记忆,无需其间的距离,非局部运算效率很高,能够维持可变输入的大小,并且能很方便地与其他运算相组合。

Description

一种基于非局部神经网络的非局部建模方法
技术领域
本发明涉及计算机视觉领域,尤其是涉及了一种基于非局部神经网络的非局部建模方法。
背景技术
随着计算机技术和多媒体技术的迅猛发展,视频与图像的数量急剧增长,面对海量的视频和图像数据,人们希望能够从中搜索出有用的信息,找出自己感兴趣的视频或图像。这就必须要对视频或图像进行分类整理,使人们在搜索时可以根据一定的分类进行查询,提高搜索效率。远距离依赖(LRD)是空间或时间序列数据分析中可能出现的一种现象,它与两点之间统计相关性的衰减率随着时间间隔的增加或点之间的空间距离的增加有关。捕获远距离依赖在深度神经网络中是至关重要的。卷积和循环网络操作都是常用的处理局部领域的基础模块,通常用它们来解决捕获远距离依赖问题。一般说来,重复局部操作会存在一些局限性:如计算效率低下、优化困难;且会产生多跳依赖建模,例如,当消息需要在远距离位置之间来回传送时,这将是一个具有一定挑战性的问题。
本发明提出了一种基于非局部神经网络的非局部建模方法,在非局部均值操作之后,在深度神经网络中定义一个通用的非局部操作,非局部操作基于不同位置之间的关系计算响应,它能支持可变大小的输入,并在输出中保持相应的大小,可以与卷积或递归层一起使用,也可以被添加到深层神经网络的早期部分,通过非局部操作能够结合非局部和局部信息,建立一个更加丰富的层次结构。本发明中非局部运算直接通过计算任意两个位置之间的交互来获取长时记忆,无需其间的距离,非局部运算效率很高,能够维持可变输入的大小,并且能很方便地与其他运算相组合。
发明内容
针对计算效率低下等问题,本发明的目的在于提供一种基于非局部神经网络的非局部建模方法,在非局部均值操作之后,在深度神经网络中定义一个通用的非局部操作,非局部操作基于不同位置之间的关系计算响应,它能支持可变大小的输入,并在输出中保持相应的大小,可以与卷积或递归层一起使用,也可以被添加到深层神经网络的早期部分,通过非局部操作能够结合非局部和局部信息,建立一个更加丰富的层次结构。
为解决上述问题,本发明提供一种基于非局部神经网络的非局部建模方法,其主要内容包括:
(一)非局部神经网络;
(二)非局部块。
其中,所述的非局部神经网络,在非局部均值操作之后,在深度神经网络中定义一个通用的非局部操作:
其中,i是输出位置(空间、时间或时空)的索引,其响应将被计算,j是列举的所有可能位置的索引;x是输入信号(通常是图像、序列或视频的特征),y是与x大小相同的输出信号;配对函数f计算i和所有j之间的标量(用于表示关系,如亲和度);一元函数g计算位置j处的输入信号表示;响应通过因子正则化;
公式(1)中的非局部行为是由于在操作中考虑了所有位置作为比较,卷积操作将局部邻域中的加权输入相加(例如,在一维的核大小为3的情况下,i-1≤j≤i+1),并且时间i处的递归操作通常只基于当前和最新的时间步长(例如,j=i或i-1)。
进一步地,所述的非局部操作,非局部操作也不同于全连接(fc)层;公式(1)基于不同位置之间的关系计算响应,而fc使用学习权重;即xj和xi之间的关系不是fc中输入数据的函数,与非局部层不同;此外,公式(1)支持可变大小的输入,并在输出中保持相应的大小;相反,fc层需要固定大小的输入/输出,并且失去位置对应关系(例如,从位置i的xi到yi);
非局部操作是一个灵活的构建块,可以与卷积/递归层一起使用;它可以被添加到深层神经网络的早期部分,而不像通常fc层只能在最后使用;因此,通过非局部操作能够结合非局部和局部信息,建立一个更加丰富的层次结构。
进一步地,所述的配对函数,配对函数f的选择包括高斯版本、嵌入式高斯版本、点积和级联。
进一步地,所述的高斯版本,遵循非局部均值和双边滤波器,f选择是高斯函数;
其中,是点积相似性;归一化因子被设置为
进一步地,所述的嵌入式高斯版本,高斯函数的简单扩展是计算嵌入空间中的相似性,即:
其中,θ(xi)=Wθxi和φ(xj)=Wφxj是两个嵌入;
如上所述,设置
自注意力模块是嵌入式高斯版本中的非局部操作的特例;对于给定的i,成为沿维度j的Softmax计算,因此有自注意力形式
进一步地,所述的点积,f可以定义为点积相似度:
f(xi,xj)=θ(xi)Tφ(xj) (4)
将归一化因子设置为其中,由于N简化了梯度计算,因此N表示x中位置的数量;正则化之后使输入具有可变的大小;
点积与嵌入式高斯版本的主要区别在于Softmax的存在,它起着激活函数的作用。
进一步地,所述的级联,关系网络中的配对函数使用连接进行视觉推理;连接形式的f表示如下:
其中,[·,·]表示连接,而wf是将连接向量投影到标量的权向量;如上所述,设在这种情况下,在f中采用修正线性单元(ReLU)。
其中,所述的非局部块,将公式(1)中的非局部操作包装到一个非局部块中,该块可以并入许多现有的体系结构中;将一个非全局块定义为:
zi=Wzyi+xi (6)
其中,yi在公式(1)中给出,+xi表示一个剩余连接;剩余连接允许将一个新的非局部块插入到任何预先训练的模型中,而不会破坏它的初始行为(例如,如果Wz被初始化为零);公式(2)、(3)或(4)中的配对计算可以简单地通过矩阵乘法来完成。
进一步地,所述的计算,设置Wg,Wθ和Wφ是x中通道数量的一半;这遵循了瓶颈设计,将块的计算减少了大约一半;公式(6)中的权重矩阵Wz计算yi上的位置嵌入,将信道数量与x的信道数量相匹配;
子采样可以用来进一步减少计算;公式(1)改为:其中是x的二次采样版本(例如,通过合并);在空间域中执行此操作,这可以减少配对计算量的四分之一;子采样不会改变非局部行为,但只会使计算更稀疏;可以通过在最大池化层之后添加φ和g来执行此操作。
附图说明
图1是本发明一种基于非局部神经网络的非局部建模方法的系统框架图。
图2是本发明一种基于非局部神经网络的非局部建模方法的非局部操作。
图3是本发明一种基于非局部神经网络的非局部建模方法的非局部块。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于非局部神经网络的非局部建模方法的系统框架图。主要包括非局部神经网络和非局部块。
非局部神经网络,在非局部均值操作之后,在深度神经网络中定义一个通用的非局部操作:
其中,i是输出位置(空间、时间或时空)的索引,其响应将被计算,j是列举的所有可能位置的索引;x是输入信号(通常是图像、序列或视频的特征),y是与x大小相同的输出信号;配对函数f计算i和所有j之间的标量(用于表示关系,如亲和度);一元函数g计算位置j处的输入信号表示;响应通过因子正则化;
公式(1)中的非局部行为是由于在操作中考虑了所有位置作为比较,卷积操作将局部邻域中的加权输入相加(例如,在一维的核大小为3的情况下,i-1≤j≤i+1),并且时间i处的递归操作通常只基于当前和最新的时间步长(例如,j=i或i-1)。
配对函数f的选择包括高斯版本、嵌入式高斯版本、点积和级联。
高斯版本,遵循非局部均值和双边滤波器,f选择是高斯函数;
其中,是点积相似性;归一化因子被设置为
嵌入式高斯版本,高斯函数的简单扩展是计算嵌入空间中的相似性,即:
其中,θ(xi)=Wθxi和φ(xj)=Wφxj是两个嵌入;如上所述,设置
自注意力模块是嵌入式高斯版本中的非局部操作的特例;对于给定的i,成为沿维度j的Softmax计算,因此有自注意力形式
点积,f可以定义为点积相似度:
f(xi,xj)=θ(xi)Tφ(xj) (4)
将归一化因子设置为其中,由于N简化了梯度计算,因此N表示x中位置的数量;正则化之后使输入具有可变的大小;
点积与嵌入式高斯版本的主要区别在于Softmax的存在,它起着激活函数的作用。
级联,关系网络中的配对函数使用连接进行视觉推理;连接形式的f表示如下:
其中,[·,·]表示连接,而wf是将连接向量投影到标量的权向量;如上所述,设在这种情况下,在f中采用修正线性单元(ReLU)。
图2是本发明一种基于非局部神经网络的非局部建模方法的非局部操作。非局部操作也不同于全连接(fc)层;公式(1)基于不同位置之间的关系计算响应,而fc使用学习权重;即xj和xi之间的关系不是fc中输入数据的函数,与非局部层不同;此外,公式(1)支持可变大小的输入,并在输出中保持相应的大小;相反,fc层需要固定大小的输入/输出,并且失去位置对应关系(例如,从位置i的xi到yi);
非局部操作是一个灵活的构建块,可以与卷积/递归层一起使用;它可以被添加到深层神经网络的早期部分,而不像通常fc层只能在最后使用;因此,通过非局部操作能够结合非局部和局部信息,建立一个更加丰富的层次结构。
图3是本发明一种基于非局部神经网络的非局部建模方法的非局部块。将公式(1)中的非局部操作包装到一个非局部块中,该块可以并入许多现有的体系结构中;将一个非全局块定义为:
zi=Wzyi+xi (6)
其中,yi在公式(1)中给出,+xi表示一个剩余连接;剩余连接允许将一个新的非局部块插入到任何预先训练的模型中,而不会破坏它的初始行为(例如,如果Wz被初始化为零);公式(2)、(3)或(4)中的配对计算可以简单地通过矩阵乘法来完成。
设置Wg,Wθ和Wφ是x中通道数量的一半;这遵循了瓶颈设计,将块的计算减少了大约一半;公式(6)中的权重矩阵Wz计算yi上的位置嵌入,将信道数量与x的信道数量相匹配;
子采样可以用来进一步减少计算;公式(1)改为:其中是x的二次采样版本(例如,通过合并);在空间域中执行此操作,这可以减少配对计算量的四分之一;子采样不会改变非局部行为,但只会使计算更稀疏;可以通过在最大池化层之后添加φ和g来执行此操作。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于非局部神经网络的非局部建模方法,其特征在于,主要包括非局部神经网络(一);非局部块(二)。
2.基于权利要求书1所述的非局部神经网络(一),其特征在于,在非局部均值操作之后,在深度神经网络中定义一个通用的非局部操作:
其中,i是输出位置(空间、时间或时空)的索引,其响应将被计算,j是列举的所有可能位置的索引;x是输入信号(通常是图像、序列或视频的特征),y是与x大小相同的输出信号;配对函数f计算i和所有j之间的标量(用于表示关系,如亲和度);一元函数g计算位置j处的输入信号表示;响应通过因子正则化;
公式(1)中的非局部行为是由于在操作中考虑了所有位置作为比较,卷积操作将局部邻域中的加权输入相加(例如,在一维的核大小为3的情况下,i-1≤j≤i+1),并且时间i处的递归操作通常只基于当前和最新的时间步长(例如,j=i或i-1)。
3.基于权利要求书2所述的非局部操作,其特征在于,非局部操作也不同于全连接(fc)层;公式(1)基于不同位置之间的关系计算响应,而fc使用学习权重;即xj和xi之间的关系不是fc中输入数据的函数,与非局部层不同;此外,公式(1)支持可变大小的输入,并在输出中保持相应的大小;相反,fc层需要固定大小的输入/输出,并且失去位置对应关系(例如,从位置i的xi到yi);
非局部操作是一个灵活的构建块,可以与卷积/递归层一起使用;它可以被添加到深层神经网络的早期部分,而不像通常fc层只能在最后使用;因此,通过非局部操作能够结合非局部和局部信息,建立一个更加丰富的层次结构。
4.基于权利要求书2所述的配对函数,其特征在于,配对函数f的选择包括高斯版本、嵌入式高斯版本、点积和级联。
5.基于权利要求书4所述的高斯版本,其特征在于,遵循非局部均值和双边滤波器,f选择是高斯函数;
其中,是点积相似性;归一化因子被设置为
6.基于权利要求书4所述的嵌入式高斯版本,其特征在于,高斯函数的简单扩展是计算嵌入空间中的相似性,即:
其中,θ(xi)=Wθxi和φ(xj)=Wφxj是两个嵌入;如上所述,设置
自注意力模块是嵌入式高斯版本中的非局部操作的特例;对于给定的i,成为沿维度j的Softmax计算,因此有自注意力形式
7.基于权利要求书4所述的点积,其特征在于,f可以定义为点积相似度:
f(xi,xj)=θ(xi)Tφ(xj) (4)
将归一化因子设置为其中,由于N简化了梯度计算,因此N表示x中位置的数量;正则化之后使输入具有可变的大小;
点积与嵌入式高斯版本的主要区别在于Softmax的存在,它起着激活函数的作用。
8.基于权利要求书4所述的级联,其特征在于,关系网络中的配对函数使用连接进行视觉推理;连接形式的f表示如下:
其中,[·,·]表示连接,而wf是将连接向量投影到标量的权向量;如上所述,设在这种情况下,在f中采用修正线性单元(ReLU)。
9.基于权利要求书1所述的非局部块(二),其特征在于,将公式(1)中的非局部操作包装到一个非局部块中,该块可以并入许多现有的体系结构中;将一个非全局块定义为:
zi=Wzyi+xi (6)
其中,yi在公式(1)中给出,+xi表示一个剩余连接;剩余连接允许将一个新的非局部块插入到任何预先训练的模型中,而不会破坏它的初始行为(例如,如果Wz被初始化为零);公式(2)、(3)或(4)中的配对计算可以简单地通过矩阵乘法来完成。
10.基于权利要求书9所述的计算,其特征在于,设置Wg,Wθ和Wφ是x中通道数量的一半;这遵循了瓶颈设计,将块的计算减少了大约一半;公式(6)中的权重矩阵Wz计算yi上的位置嵌入,将信道数量与x的信道数量相匹配;
子采样可以用来进一步减少计算;公式(1)改为:其中是x的二次采样版本(例如,通过合并);在空间域中执行此操作,这可以减少配对计算量的四分之一;子采样不会改变非局部行为,但只会使计算更稀疏;可以通过在最大池化层之后添加φ和g来执行此操作。
CN201810155187.0A 2018-02-23 2018-02-23 一种基于非局部神经网络的非局部建模方法 Withdrawn CN108269275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810155187.0A CN108269275A (zh) 2018-02-23 2018-02-23 一种基于非局部神经网络的非局部建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810155187.0A CN108269275A (zh) 2018-02-23 2018-02-23 一种基于非局部神经网络的非局部建模方法

Publications (1)

Publication Number Publication Date
CN108269275A true CN108269275A (zh) 2018-07-10

Family

ID=62774245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810155187.0A Withdrawn CN108269275A (zh) 2018-02-23 2018-02-23 一种基于非局部神经网络的非局部建模方法

Country Status (1)

Country Link
CN (1) CN108269275A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255392A (zh) * 2018-09-30 2019-01-22 百度在线网络技术(北京)有限公司 基于非局部神经网络的视频分类方法、装置及设备
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN109872362A (zh) * 2019-01-18 2019-06-11 腾讯科技(深圳)有限公司 一种目标检测方法及装置
CN110222829A (zh) * 2019-06-12 2019-09-10 北京字节跳动网络技术有限公司 基于卷积神经网络的特征提取方法、装置、设备及介质
CN113826119A (zh) * 2019-05-23 2021-12-21 谷歌有限责任公司 纯注意力的计算机视觉
CN117133275A (zh) * 2023-08-25 2023-11-28 长春理工大学 基于单元点积相似度特征的并行化语音识别模型建立方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881685A (zh) * 2015-05-27 2015-09-02 清华大学 基于捷径深度神经网络的视频分类方法
CN106779073A (zh) * 2016-12-27 2017-05-31 西安石油大学 基于深度神经网络的媒体信息分类方法及装置
US20180032846A1 (en) * 2016-08-01 2018-02-01 Nvidia Corporation Fusing multilayer and multimodal deep neural networks for video classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881685A (zh) * 2015-05-27 2015-09-02 清华大学 基于捷径深度神经网络的视频分类方法
US20180032846A1 (en) * 2016-08-01 2018-02-01 Nvidia Corporation Fusing multilayer and multimodal deep neural networks for video classification
CN106779073A (zh) * 2016-12-27 2017-05-31 西安石油大学 基于深度神经网络的媒体信息分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOLONG WANG ET.AL: "Non-local Neural Networks", 《ARXIV:1711.07971V1 [CS.CV]》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255392A (zh) * 2018-09-30 2019-01-22 百度在线网络技术(北京)有限公司 基于非局部神经网络的视频分类方法、装置及设备
CN109255392B (zh) * 2018-09-30 2020-11-24 百度在线网络技术(北京)有限公司 基于非局部神经网络的视频分类方法、装置及设备
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN109543667B (zh) * 2018-11-14 2023-05-23 北京工业大学 一种基于注意力机制的文本识别方法
CN109872362A (zh) * 2019-01-18 2019-06-11 腾讯科技(深圳)有限公司 一种目标检测方法及装置
CN109872362B (zh) * 2019-01-18 2023-08-08 腾讯科技(深圳)有限公司 一种目标检测方法及装置
CN113826119A (zh) * 2019-05-23 2021-12-21 谷歌有限责任公司 纯注意力的计算机视觉
CN110222829A (zh) * 2019-06-12 2019-09-10 北京字节跳动网络技术有限公司 基于卷积神经网络的特征提取方法、装置、设备及介质
CN117133275A (zh) * 2023-08-25 2023-11-28 长春理工大学 基于单元点积相似度特征的并行化语音识别模型建立方法
CN117133275B (zh) * 2023-08-25 2024-03-22 长春理工大学 基于单元点积相似度特征的并行化语音识别模型建立方法

Similar Documents

Publication Publication Date Title
CN108269275A (zh) 一种基于非局部神经网络的非局部建模方法
Khan et al. Transformers in vision: A survey
Wang et al. OAENet: Oriented attention ensemble for accurate facial expression recognition
Geman et al. Visual turing test for computer vision systems
Zhou et al. View synthesis by appearance flow
Elasri et al. Image generation: A review
Patrick et al. Space-time crop & attend: Improving cross-modal video representation learning
CN110489582A (zh) 个性化展示图像的生成方法及装置、电子设备
Zhang et al. An improved YOLOv3 model based on skipping connections and spatial pyramid pooling
Wang et al. TRC‐YOLO: A real‐time detection method for lightweight targets based on mobile devices
Miao et al. Balanced single-shot object detection using cross-context attention-guided network
Oyama et al. Influence of image classification accuracy on saliency map estimation
CN110222726A (zh) 图像处理方法、装置及电子设备
Ji et al. ColorFormer: Image colorization via color memory assisted hybrid-attention transformer
Wu et al. FaceCaps for facial expression recognition
Dubey et al. Improving small objects detection using transformer
Chen et al. Intra-and inter-reasoning graph convolutional network for saliency prediction on 360° images
Rao et al. UMFA: a photorealistic style transfer method based on U-Net and multi-layer feature aggregation
Ding et al. Group feedback capsule network
Qing et al. Attentive and context-aware deep network for saliency prediction on omni-directional images
Luo et al. An optimization framework of video advertising: using deep learning algorithm based on global image information
Jiang et al. Confidence-Enhanced Mutual Knowledge for Uncertain Segmentation
Zhang et al. Cross-domain face sketch synthesis
Le et al. Sst-gcn: Structure aware spatial-temporal gcn for 3d hand pose estimation
Li et al. Mevit: Motion enhanced video transformer for video classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180710

WW01 Invention patent application withdrawn after publication