CN108027885A - 空间变换器模块 - Google Patents

空间变换器模块 Download PDF

Info

Publication number
CN108027885A
CN108027885A CN201680025197.1A CN201680025197A CN108027885A CN 108027885 A CN108027885 A CN 108027885A CN 201680025197 A CN201680025197 A CN 201680025197A CN 108027885 A CN108027885 A CN 108027885A
Authority
CN
China
Prior art keywords
feature vector
input
network system
input feature
space transformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680025197.1A
Other languages
English (en)
Other versions
CN108027885B (zh
Inventor
麦克斯维尔·埃利奥特·耶德贝里
凯伦·西蒙尼扬
安德鲁·西塞曼
科拉伊·卡武克曲奥卢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yin Hui Technology Co Ltd
Original Assignee
Yin Hui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yin Hui Technology Co Ltd filed Critical Yin Hui Technology Co Ltd
Publication of CN108027885A publication Critical patent/CN108027885A/zh
Application granted granted Critical
Publication of CN108027885B publication Critical patent/CN108027885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

提供了用于使用包括空间变换器模块的图像处理神经网络系统来处理输入的方法、系统、和设备,包括编码在计算机存储介质上的计算机程序。所述方法中的一种方法包括:接收从所述一个或多个输入图像取得的输入特征图,以及向所述输入特征图应用空间变换以生成所变换的特征图,包括:处理所述输入特征图以生成用于所述空间变换的空间变换参数,以及根据所述空间变换参数从所述输入特征图采样以生成所述所变换的特征图。

Description

空间变换器模块
技术领域
本说明书涉及通过神经网络的层来处理图像数据以生成输出。
背景技术
神经网络是采用非线性单元的一个或多个层来预测用于接收到的输入的输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。各个隐藏层的输出作为输入被用于网络中的下一层(即,下一个隐藏层或者输出层)的输入。网络的每个层根据相应一组参数的当前值生成来自接收到的输入的输出。
发明内容
大体上,本说明书描述由一个或多个计算机实现并且包括一个或多个空间变换器模块的图像处理神经网络。可以将图像处理神经网络系统配置为接收一个或多个输入图像并且处理该一个或多个输入图像以从该一个或多个输入图像生成神经网络输出。图像处理神经网络包括空间变换器模块,其中,空间变换器模块被配置为执行操作,该操作包括:接收从一个或多个输入图像取得的输入特征图;以及向输入特征图应用空间变换以生成所变换的特征图,包括:处理输入特征图以生成空间变换的空间变换参数,以及根据空间变换参数从输入特征图采样以生成所变换的特征图。
这些操作进一步包括:将所变换的特征图作为输入提供至图像处理神经网络系统的另一部件。输入特征图可以是由图像处理神经网络系统的另一部件生成的输出。图像处理神经网络系统的另一部件可以是另一空间变换器模块。与空间变换器模块相比,该另一空间变换器模块可以执行不同类型的空间变换。图像处理神经网络系统的另一部件可以是神经网络层。输入特征图可以是一个或多个输入图像中的一个输入图像。
空间变换器模块可以包括:本地化子网络,该本地化子网络包括一个或多个神经网络层,其中,该本地化子网络被配置为处理输入特征图以根据本地化子网络的一组参数的当前值来生成空间变换参数,以及其中,处理输入特征图以生成空间变换参数包括:使用本地化子网络来处理输入特征图。
根据空间变换参数从输入特征图采样以生成所变换的特征图可以包括:使用变换参数来生成采样网格,该采样网格针对所变换的特征图中的多个位置中的每个位置定义应当如何从输入特征图中的值取得位置的值;以及根据采样网格从输入特征图采样以生成所变换的特征图。采样机制可以是能够微分的。已经在图像处理神经网络系统的训练期间使用反向传播训练空间变换器模块。所变换的特征图可以具有与输入特征图相同的尺寸。所变换的特征图可以具有与输入特征图不同的尺寸。
对于要配置为执行特定操作或者动作的一个或多个计算机的系统意味着已经在系统上安装了在操作中使系统执行操作或者动作的软件、固件、硬件、或者它们的组合。对于要配置为执行特定操作或者动作的一个或多个计算机程序意味着一个或多个程序包括指令,当由数据处理设备执行该指令时,该指令使设备执行操作或者动作。
还描述了一种方法,该方法包括上面描述的空间变换器模块的相应操作和用指令编码的计算机存储介质,当由一个或多个计算机执行该指令时,该指令使一个或多个计算机执行空间变换器模块的相应操作。
还描述了一种方法,该方法包括:对训练图像训练图像处理神经网络,图像处理神经网络系统被配置为接收一个或多个输入图像并且被配置为处理该一个或多个输入图像以从该一个或多个输入图像生成神经网络输出,并且图像处理神经网络包括空间变换器模块,其中,空间变换器模块被配置为执行操作,该操作包括:接收从一个或多个输入图像取得的输入特征图;以及向输入特征图应用空间变换以生成所变换的特征图,包括:处理输入特征图以生成空间变换的空间变换参数并且根据空间变换参数来从输入特征图进行采样以生成所变换的特征图,其中,训练图像处理神经网络包括:反向传播从通过在由图像处理神经网络生成的神经网络输出与训练图像的已知输出之间的误差计算出的梯度,以训练空间变换器模块。
空间变换器模块可以包括本地化子网络,该本地化子网络包括一个或多个神经网络层,其中,本地化子网络被配置为处理输入特征图以根据本地化子网络的一组参数的当前值来生成空间变换参数。采样机制可以是能够微分的。反向传播梯度可以包括:通过采样机制来反向传播梯度以调整本地化子网络的参数的值。
可以提供一种系统,该系统包括一个或多个计算机和一个或多个存储装置,该一个或多个存储装置存储能够操作的指令,该指令在由一个或多个计算机执行时使一个或多个计算机执行方法的操作。计算机存储介质可以编码有指令,该指令在由一个或多个计算机执行时使一个或多个计算机执行方法的操作。
将会显而易见的是,可以将在一种实施方式的上下文中描述的特征与其它实施方式的特征组合。
能够实施在本说明书中描述的主题的特定实施例以便实现以下优点中的一个或多个:通过修改神经网络的架构以包括一个或多个空间变换器模块,能够将神经网络训练为在特征图上主动地进行空间变换,以特征图本身为条件,而不需要对优化进行任何额外的训练监督或者修改,即,训练、处理。神经网络可能对训练更有效。此外,使用空间变换器导致了学习对平移、缩放、旋转和更通用的翘曲不变性的神经网络,这导致关于若干基准的现有技术或比关于若干基准的现有技术性能更好,以及用于多种类型的变换。因此,主题的实施例可以提供可以被训练为处理图像数据以生成指示与更有效地生成的图像数据相关联的属性的输出数据的神经网络。
在附图和下面的描述中阐述了本说明书的主题的一个或多个实施例的细节。本主题的其它特征、方面、和优点将通过描述、附图、以及权利要求书而变得显而易见。
附图说明
图1示出了示例图像处理神经网络系统。
图2是用于使用空间变换器模块来处理输入的示例处理的流程图。
图3是生成所变换的特征图的示例处理的流程图。
各个附图中的类似附图标记和标号指示类似的元件。
具体实施方式
本说明书描述了在包括至少一个空间变换器模块的一个或多个位置中的一个或多个计算机上实施为计算机程序的图像处理神经网络系统。
该图像处理神经网络系统处理包括一个或多个图像的输入图像数据以生成针对一个或多个图像的神经网络输出。
能够将图像处理神经网络系统配置为生成针对一个或多个图像的任何种类的神经网络输出。
例如,能够将图像处理神经网络系统配置为将输入图像分类为包括来自一个或多个对象类别的对象的图像,即,以生成用于输入图像的神经网络输出,该神经网络输出包括针对一个或多个对象类别中的每个对象类别的相应评分,该评分表示输入图像包括属于该对象类别的对象的图像的可能性。在C.Szegedy、W.Liu、Y.Jia、P.Sermanet、S.Reed、D.Anguelov、D.Erhan、V.Vanhoucke、和A.Rabinovich的“利用卷积增加深度(Going deeperwith convolutions)”CVPR,2015中描述了用于对能够被修改为包括如在本说明书中描述的一个或多个空间变换器模块的输入图像进行分类的图像处理神经网络的示例。
作为另一示例,能够将图像处理神经网络系统配置为识别输入图像中的对象的位置。例如,系统能够作为输入接收一组图像,一组图像中的每个包括来自相同未知类别的对象的图像,并且能够生成识别在这些图像中的每个图像中的对象的位置的神经网络输出。在K.Simonyan和A.Zisserman的“针对大尺寸图像识别的超深度卷积(Very deepconvolutional networks for large-scale image recognition)”ICLR,2015中描述了用于将在能够被修改为包括一个或多个空间变换器模块的图像中的对象本地化的图像处理神经网络的示例。
作为另一示例,能够将图像处理神经网络系统配置为重建输入图像,即,生成与输入图像匹配的输出图像。在K.Gregor、I.Danihelka、A.Graves和D.Wierstra.Draw的“针对图像生成的循环神经网络(A recurrent neural network for image generation)”ICML,2015中描述了配置为重建输入图像并且能够被修改为包括一个或多个空间变换器模块的系统的示例。
图1示出了示例图像处理神经网络系统100。该图像处理神经网络系统100是在其中能够实施下面描述的系统、部件、和技术的一个或多个位置中的一个或多个计算机上实施为计算机程序的系统的示例。
图像处理神经网络系统100接收包括一个或多个图像的输入图像数据102并且处理该输入图像数据102以生成神经网络输出116。如上所述,能够将图像处理神经网络系统100配置为生成针对接收到的输入图像的各个种类的神经网络输出。
图像处理神经网络系统100包括在系统100内布置的多个神经网络部件,使得各个部件作为输入接收(i)由图像处理神经网络系统100中的其它部件中的一个或多个其它部件生成的输出、(ii)输入图像数据102中的一些或者全部输入图像数据、或者(iii)两者,并且处理接收到的输入以生成分量输出。
部件可以包括:神经网络层、子网络、神经网络模块或者根据用于这些部件的一组参数的当前值来生成来自输入的输出的其它常规神经网络部件。
部件还包括一个或多个空间变压器模块。
具体地,在图1的示例中,图像处理神经网络系统100包括在神经网络部件A 104与神经网络部件B 114之间插入的空间变换器模块108。
根据图像处理神经网络系统100的配置,神经网络部件A 104可以是常规神经网络部件,例如,神经网络层、或者另一空间变换器模块。类似地,神经网络部件B 114还可以是常规神经网络部件或者另一空间变换器模块。
在由图像处理神经网络系统100处理输入图像数据102期间,将空间变换器模块108配置为向从神经网络部件A104接收到的输入特征图106应用空间变换,以生成作为输入提供至神经网络部件B 114的所变换的特征图112。在与图1中示出的示例不同的示例中,替代由系统100的另一部件生成的输出,输入特征图106可以是图像数据102中的一些或者全部图像数据。
通常,特征图是宽度为W、高度为H、和信道的数量为C的H x W x C张量。根据空间变换模块108在图像处理神经网络系统100中的位置,信道数量可以大于1(例如,在其中特征图是卷积神经网络层的多信道图像或者多信道输出的情况下)或者为一个。本说明书中将会将给定特征图的元素称为像素。
将空间变换器模块108配置为执行以输入特征图106为条件的特定类型的空间变换,即,使得空间变换器模块108向不同的特征图应用相同类型的不同变换。对于多信道输入特征图,通常将相同的翘曲应用于特征图的每个信道。
通常,空间变换器模块108被配置为执行的变换的类型能够是具有参数化形式并且关于变换的参数是可微分的任何变换。
例如,能够将空间变换器模块108配置为执行能够被表示为参数θ的矩阵Aθ的二维仿射变换:
根据θ的值,这种变换能够允许裁剪、平移、旋转、缩放、和偏斜到输入特征图。作为另一示例,变换可以是更受约束的类型:
其中,s、tx、和ty是变换的参数。根据s、tx、和ty的值,这种更受约束的变换能够允许裁剪、平移、和各向同性式缩放。
作为再一示例,变换能够是具有八个参数的平面投影变换、分段仿射变换、或者薄板样条变换。
为了生成空间变换器模块108被配置为执行的变换的类型的参数,空间变换器模块使用本地化子网络110来处理输入特征图106。
本地化子网络110是配置为处理输入特征图106以生成变换的参数的神经网络。定位子网络110生成的参数的数量是根据变换的类型,例如,上面示出的针对二维仿射变换的六个参数值、和上面示出的针对更受约束的变换的三个参数值。本地化网络功能110能够采取任何适当的形式,例如,完全连接的网络或者卷积网络,但是通常包括产生变换参数的最终回归层。
然后,空间变换器模块108根据空间变换参数来从输入特征图106进行采样以生成所变换的特征图112。下面参照图2和图3来更详细地描述向输入特征图应用空间变换。
图2是用于处理接收到的特征图的示例处理200的流程图。为了方便起见,处理200将会被描述为正由位于一个或多个位置的一个或多个计算机的系统执行。例如,被适当地编程的图像处理神经网络系统中包括的空间变换器模块(例如,图1的图像处理神经网络系统100中包括的空间变换器模块108)能够执行处理200。
空间变换器模块接收从由图像处理神经网络系统正处理的输入图像数据取得的输入特征图(步骤202)。在一些实施方式中,输入图像数据是输入图像。在一些其它实施方式中,输入特征图是由在图像处理神经网络系统内的另一部件生成的输出。
空间变换器模块向输入特征图应用空间变换,以生成所变换的特征图(步骤204)。下面参照图3来更详细地描述应用空间变换。
空间变换器模块将所变换的特征图作为输入提供至图像处理神经网络系统中的另一部件(步骤206),例如,提供至神经网络层或者另一空间变换器模块。
图3是生成所变换的特征图的示例处理300的流程图。为了方便起见,处理300将会被描述为正由位于一个或多个位置的一个或多个计算机的系统执行。例如,被适当地编程的图像处理神经网络系统中包括的空间变换器模块(例如,图1的图像处理神经网络系统100中包括的空间变换器模块108)能够执行处理300。
空间变换器模块处理输入特征图,以生成空间变换参数(步骤302)。
具体地,空间变换器模块使用配置为处理输入特征图的本地化子网络来处理输入特征图,以根据一组参数的当前值来生成空间变换参数。如上所述,本地化子网络能够采取任何适当的形式,但是通常包括产生变换参数的最终回归层,并且由本地化子网络生成的参数的数量根据被参数化的变换类型而变化。例如,对于仿射变换,可以将本地化子网络配置为输出六个变换参数值。
空间变换器模块使用变换参数来生成采样网格(步骤304)。该采样网格针对所变换的特征图中的多个位置中的每个位置定义应当如何从输入特征图中的值取得位置的值。为了生成采样网格,系统使用变换参数来将涵盖整个所变换的特征图(即,所变换的特征图中的每个像素)的规则网格变换成涵盖输入特征图的一些或者全部的网格。
例如,在仿射变换的情况下,用于变换规则网格的点式变换可以满足:
其中,是在所变换的特征图中规则网格的目标坐标,并且是输入特征图中的源坐标。
空间变换器模块根据采样网格来从输入特征图进行采样,以生成所变换的特征图(步骤306)。
具体地,为了确定所变换的特征图中的特定像素的值,空间变换器模块应用以输入特征图中由采样网格指定的特定位置为中心的采样核。在一些实施方式中,在通过采样生成的所变换的特征图中信道c的位置处的像素的值满足:
其中,是输入特征图中的特定位置,Φx和Φy是定义特征图插值的采样核k()的参数,并且是在输入特征图的信道c中的位置(n,m)处的值。
采样核可以是针对其能够关于定义子梯度的任何采样核。例如,采样核可以是整数采样核或者双线性采样核。
因此,根据空间变换器模块被配置为应用的变换的类型,所变换的特征图可以具有与输入特征图相同的H和W尺寸或者与输入特征图的H和W尺寸不同的H和W尺寸。
因为采样机制是可微分的,即,因为采样核允许关于定义子梯度,并且因为变换是具有参数化形式并且关于那些参数是可微分的变换,所以已经能够在图像处理神经网络系统的训练期间使用反向传播来训练空间变换器模块。
具体地,在图像处理神经网络系统的训练期间,系统能够反向传播从通过在由图像处理神经网络生成的神经网络输出与针对训练图像的已知输出之间的误差计算出的梯度,以训练空间变换器模块,即,以调整本地化子网络的参数的值以及可选地调整采样核的值。
能够以数字电子电路系统、有形实施的计算机软件或者固件、计算机硬件(包括本说明书所公开的结构及其结构等效物)、或者它们中的一个或多个的组合实施本说明书中描述的主题的实施例和功能操作。能够将本说明书中描述的主题的实施例实施为一个或多个计算机程序,即,在有形非暂时性程序载体上编码的、以由数据处理设备执行或者控制数据处理设备的操作的计算机程序指令的一个或多个模块。可替选地或者附加地,程序指令能够被编码在人工生成的传播信号上,例如,机器生成的电、光、或电磁的信号,生成这些信号是为了对信息进行编码,用于传输至合适的接收器设备供数据处理设备执行。计算机存储介质能够是机器可读存储装置、机器可读存储基板、随机或者串行存取存储器装置、或者它们中的一个或多个的组合。
术语“数据处理设备”涵盖了用于处理数据的所有种类的设备、装置、和机器,包括:例如,可编程处理器、计算机、或者多个处理器或者计算机。该设备能够包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件之外,该设备还能够包括为讨论中的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。
能够用任何形式的程序语言(包括:编译语言或者解释语言、或者陈述性语言或者程序语言)来编写计算机程序(还可以被称为或者被描述为程序、软件、软件应用、模块、软件模块、脚本、或者代码),并且能够以任何形式(包括作为适合用于计算环境的独立式程序或者模块、部件、子例程、或者其它单元)来部署计算机程序。计算机程序可以但并非必须与文件系统中的文件相对应。能够将程序存储在保持其它程序或者数据(例如,在标记语言文档中存储的一个或多个脚本)的文件的部分中,或者存储在专用于所讨论中的程序的单个文件中,或者存储在多个协作文件(例如,存储一个或多个模块、子程序、或者代码的部分)中。能够将计算机程序部署为执行在一个计算机上,或者执行在位于一个站点处的或者跨多个站点分布的并且通过通信网络互相连接的多个计算机上。
能够通过一个或多个可编程计算机来执行本说明书中描述的过程和逻辑流,该一个或多个可编程计算机执行一个或多个计算机程序,以通过操作输入数据并且生成输出来执行功能。还能够通过专用逻辑电路系统(例如,FPGA(现场可编程门阵列))或者ASIC(专用集成电路)来执行这些过程和逻辑流,并且还能够是能够被实施为逻辑电路系统(例如,FPGA(现场可编程门阵列))或者ASIC(专用集成电路)的设备。
适合于执行计算机程序的计算机包括,例如,能够是基于通用或者专用微处理器或者两者、或者任何其它种类的中央处理单元。一般而言,中央处理单元将会接收来自只读存储器或者随机存取存储器或者两者的指令和数据。计算机的必要元件是:用于施行或者执行指令的中央处理单元、和用于存储指令和数据的一个或多个存储器装置。一般而言,计算机还将会包括用于存储数据的一个或多个大量存储装置(例如,磁盘、磁光盘、或者光盘),或者计算机将会操作地被耦合以接收来自该大量存储装置的数据或者将数据传输至该大量存储装置或者进行两者。然而,计算机不需要具有这种装置。此外,计算机可以被嵌入在另一装置中,例如,移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏机、全球定位系统(GPS)接收器、或者便携式存储装置(例如,通用串行总线(USB)闪速驱动),仅举数例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器装置,包括:例如,半导体存储器装置(例如,EPROM、EEPROM、和闪速存储器装置);磁盘(例如,内部硬盘或者可移动盘);磁光盘;CD-ROM盘和DVD-ROM盘。处理器和存储器能够由专用逻辑电路系统补充,或者能够被并入在该专用逻辑电路系统中。
为了提供与用户的交互,能够在计算机上实施本说明书中描述的主题的实施例,该计算机具有:用于向用户显示信息的显示装置,例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器;以及键盘和指向装置,例如,鼠标或者轨迹球,用户能够通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还能够用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感应反馈,例如,视觉反馈、听觉反馈、或者触觉反馈;并且能够以任何形式(包括声输入、语音输入、或者触觉输入)接收来自用户的输入。另外,计算机能够通过将文档发送至由用户使用的装置并且接收来自该装置的文档(例如,通过响应于从web浏览器接收的请求来将web页面发送至在用户的用户装置上的web浏览器)来与用户进行交互。
能够将本说明书中描述的主题的实施例实施在包括后端部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者web浏览器的客户端计算机,用户能够通过该图形用户界面或者该网络浏览器来与本发明中所描述的主题的实施方式交互)、或者包括一个或多个这种后台部件、中间件部件或者前端部件的任何组合的计算系统中。能够通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(“LAN”)和例如互联网的广域网(“WAN”)。
计算系统能够包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。借助于在相应的计算机上运行的并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
虽然本说明书包含了许多具体实施细节,但是这些细节不应当被视为对任何发明或者可能被要求的内容的范围的限制,而是作为可以针对特定发明的特定实施例的特征的描述。在本说明书中在单独实施例的情境下描述的某些特征还能够组合地实施在单个实施例中。相反地,在单个实施例的情境中描述的各种特征还能够单独地或者以任何合适的子组合实施在多个实施例中。此外,虽然上文可能将特征描述为在某种组合中起作用并且针织最初所要求保护为这样,但是在一些情况下能够从组合中删除来自所要求的组合的一个或多个特征。并且所要求的组合可以指向子组合或者子组合的变化。
类似地,虽然在附图中以特定顺序描述了操作,但是不应当将其理解为需要以所述的特定顺序或者以相继的顺序来执行这种操作,或者需要执行所有图示的操作,以实现期望的结果。在某些情况下,多任务处理和并行处理可以是有利的。此外,不应当将在上述实施例中的各种系统模块和部件的分离理解为在所有实施例中需要这种分离,并且应当理解的是,所描述的程序部件和系统通常能够一起集成在单个软件产品中或者封装到多个软件产品中。
已经描述了本主题的特定实施例。其它实施例在以下权利要求书的范围内。例如,能够以不同的顺序来执行权利要求书中阐述的动作,并且仍然实现期望的结果。作为一个示例,在附图中描绘的处理不一定需要所示的特定顺序或者相继顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。

Claims (20)

1.一种由一个或多个计算机实现的图像处理神经网络系统,其中,所述图像处理神经网络系统被配置为接收一个或多个输入图像并且处理所述一个或多个输入图像以从所述一个或多个输入图像生成神经网络输出,所述图像处理神经网络系统包括:
空间变换器模块,其中所述空间变换器模块被配置为执行操作,所述操作包括:
接收从所述一个或多个输入图像取得的输入特征图,以及
向所述输入特征图应用空间变换,以生成所变换的特征图,包括:
处理所述输入特征图,以生成针对所述空间变换的空间变换参数,以及
根据所述空间变换参数从所述输入特征图进行采样,以生成所变换的特征图。
2.根据权利要求1所述的图像处理神经网络系统,所述操作进一步包括:
将所变换的特征图作为输入提供至所述图像处理神经网络系统的另一部件。
3.根据权利要求1或2中的任一项所述的图像处理神经网络系统,其中,所述输入特征图是由所述图像处理神经网络系统的另一部件生成的输出。
4.根据权利要求3所述的图像处理神经网络系统,其中,所述图像处理神经网络系统的所述另一部件是另一空间变换器模块。
5.根据权利要求4所述的图像处理神经网络系统,其中,与所述空间变换器模块相比,所述另一空间变换器模块执行不同类型的空间变换。
6.根据权利要求3所述的图像处理神经网络系统,其中,所述图像处理神经网络系统的所述另一部件是神经网络层。
7.根据权利要求1或2中的任一项所述的图像处理神经网络系统,其中,所述输入特征图是所述一个或多个输入图像中的一个输入图像。
8.根据权利要求1至7中的任一项所述的图像处理神经网络系统,
其中,所述空间变换器模块包括:
本地化子网络,所述本地化子网络包括一个或多个神经网络层,其中,所述本地化子网络被配置为处理所述输入特征图,以根据所述本地化子网络的一组参数的当前值来生成所述空间变换参数;以及
其中,处理所述输入特征图以生成所述空间变换参数包括:使用所述本地化子网络来处理所述输入特征图。
9.根据权利要求1至8中的任一项所述的图像处理神经网络系统,其中,根据所述空间变换参数从所述输入特征图进行采样以生成所变换的特征图包括:
使用所述变换参数来生成采样网格,所述采样网格针对所变换的特征图中的多个位置中的每个位置定义应当如何从所述输入特征图中的值取得所述位置的值;以及
根据所述采样网格从所述输入特征图进行采样,以生成所变换的特征图。
10.根据权利要求1至9中的任一项所述的图像处理神经网络系统,其中,采样机制是能够微分的。
11.根据权利要求10所述的图像处理神经网络系统,其中,所述空间变换器模块已经在所述图像处理神经网络系统的训练期间被使用反向传播进行了训练。
12.根据权利要求1至11中的任一项所述的图像处理神经网络系统,其中,所变换的特征图具有与所述输入特征图相同的尺寸。
13.根据权利要求1至11中的任一项所述的图像处理神经网络系统,其中,所变换的特征图具有与所述输入特征图不同的尺寸。
14.一种包括根据权利要求1至13中的任一项所述的空间变换器模块的相应操作的方法。
15.一种编码有指令的计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至13中的任一项所述的空间变换器模块的相应操作。
16.一种方法,包括:
在训练图像上训练图像处理神经网络,所述图像处理神经网络被配置为接收一个或多个输入图像并且处理所述一个或多个输入图像以从所述一个或多个输入图像生成神经网络输出,并且所述图像处理神经网络包括空间变换器模块,其中,所述空间变换器模块被配置为执行操作,所述操作包括接收从所述一个或多个输入图像取得的输入特征图以及向所述输入特征图应用空间变换以生成所变换的特征图,包括:处理所述输入特征图以生成针对所述空间变换的空间变换参数,以及根据所述空间变换参数从所述输入特征图进行采样以生成所变换的特征图,其中训练所述图像处理神经网络包括:
反向传播从在由所述图像处理神经网络生成的所述神经网络输出与针对所述训练图像的已知输出之间的误差计算出的梯度,以训练所述空间变换器模块。
17.根据权利要求16所述的方法,其中,所述空间变换器模块包括本地化子网络,所述本地化子网络包括一个或多个神经网络层,其中,所述本地化子网络被配置为处理所述输入特征图,以根据所述本地化子网络的一组参数的当前值来生成所述空间变换参数。
18.根据权利要求17所述的方法,其中,所述采样机制是能够微分的,以及其中,反向传播所述梯度包括:通过所述采样机制来反向传播所述梯度,以调整所述本地化子网络的所述参数的所述值。
19.一种包括一个或多个计算机和一个或多个存储装置的系统,所述一个或多个存储装置存储能够操作的指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求16至18中的任一项所述的相应方法的操作。
20.一种编码有指令的计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求16至18中的任一项所述的相应方法的操作。
CN201680025197.1A 2015-06-05 2016-06-03 空间变换器模块 Active CN108027885B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562171997P 2015-06-05 2015-06-05
US62/171,997 2015-06-05
PCT/US2016/035892 WO2016197046A1 (en) 2015-06-05 2016-06-03 Spatial transformer modules

Publications (2)

Publication Number Publication Date
CN108027885A true CN108027885A (zh) 2018-05-11
CN108027885B CN108027885B (zh) 2022-07-01

Family

ID=56203947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680025197.1A Active CN108027885B (zh) 2015-06-05 2016-06-03 空间变换器模块

Country Status (6)

Country Link
US (3) US10032089B2 (zh)
EP (1) EP3262569A1 (zh)
JP (1) JP6662902B2 (zh)
KR (1) KR102107709B1 (zh)
CN (1) CN108027885B (zh)
WO (1) WO2016197046A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113039555A (zh) * 2018-11-20 2021-06-25 渊慧科技有限公司 通过使用基于注意力的神经网络在视频剪辑中进行动作分类
WO2021197298A1 (en) * 2020-04-01 2021-10-07 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for action recognition in video and electronic device

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102107709B1 (ko) * 2015-06-05 2020-05-07 구글 엘엘씨 공간 트랜스포머 모듈들
CN106683091B (zh) * 2017-01-06 2019-09-24 北京理工大学 一种基于深度卷积神经网络的目标分类及姿态检测方法
CN108460649A (zh) * 2017-02-22 2018-08-28 阿里巴巴集团控股有限公司 一种图像识别方法及装置
US10902312B2 (en) 2017-03-28 2021-01-26 Qualcomm Incorporated Tracking axes during model conversion
CN107274067B (zh) * 2017-05-22 2023-05-23 国网江西省电力公司电力科学研究院 一种配电变压器过载风险评估方法
US10089556B1 (en) 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
CN109145927A (zh) * 2017-06-16 2019-01-04 杭州海康威视数字技术股份有限公司 一种对形变图像的目标识别方法及装置
US10783393B2 (en) * 2017-06-20 2020-09-22 Nvidia Corporation Semi-supervised learning for landmark localization
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
US10853977B2 (en) * 2017-08-30 2020-12-01 Korea Advanced Institute Of Science And Technology Apparatus and method for reconstructing image using extended neural network
US10762425B2 (en) 2017-09-26 2020-09-01 Nvidia Corporation Learning affinity via a spatial propagation neural network
CN107977511A (zh) * 2017-11-30 2018-05-01 浙江传媒学院 一种基于深度学习的工业品外观材质高保真实时仿真算法
US11164003B2 (en) * 2018-02-06 2021-11-02 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting objects in video sequences
WO2019241145A1 (en) 2018-06-12 2019-12-19 Intergraph Corporation Artificial intelligence applications for computer-aided dispatch systems
EP3624022A1 (en) * 2018-09-11 2020-03-18 Koninklijke Philips N.V. Modifying a neural network
CN109635824A (zh) * 2018-12-14 2019-04-16 深源恒际科技有限公司 一种图像匹配深度学习方法及系统
US10964015B2 (en) * 2019-01-15 2021-03-30 International Business Machines Corporation Product defect detection
CN109886345B (zh) * 2019-02-27 2020-11-13 清华大学 基于关系推理的自监督学习模型训练方法和装置
CN110033848B (zh) * 2019-04-16 2021-06-29 厦门大学 一种基于无监督学习的三维医学影像z轴插值方法
CN110070030B (zh) * 2019-04-18 2021-10-15 北京迈格威科技有限公司 图像识别与神经网络模型的训练方法、装置和系统
KR102082970B1 (ko) * 2019-04-29 2020-02-28 주식회사 루닛 기계학습을 위한 정규화 방법 및 그 장치
CN114008678A (zh) * 2019-05-31 2022-02-01 Oppo广东移动通信有限公司 视频理解神经网络系统及其使用方法
CN110659573B (zh) * 2019-08-22 2021-03-09 北京捷通华声科技股份有限公司 一种人脸识别方法、装置、电子设备及存储介质
CN111275055B (zh) * 2020-01-21 2023-06-06 北京市商汤科技开发有限公司 网络训练方法及装置、图像处理方法及装置
US11631163B2 (en) * 2020-02-11 2023-04-18 Samsung Electronics Co., Ltd. Mobile data augmentation engine for personalized on-device deep learning system
JP7447708B2 (ja) * 2020-07-02 2024-03-12 オムロン株式会社 モデル生成装置、回帰装置、モデル生成方法、及びモデル生成プログラム
CN111984548B (zh) * 2020-07-22 2024-04-02 深圳云天励飞技术股份有限公司 神经网络计算装置
US20220147799A1 (en) * 2020-11-12 2022-05-12 Samsung Electronics Co., Ltd. Neural computer including image sensor capable of controlling photocurrent
CA3199731A1 (en) * 2020-11-20 2022-05-27 Aidan Gomez Training transformers using sliceout
CN114118379B (zh) * 2021-12-02 2023-03-24 北京百度网讯科技有限公司 神经网络的训练方法、图像处理方法、装置、设备和介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003032248A1 (en) * 2001-10-11 2003-04-17 Exscientia, Llc Method and apparatus for learning to classify patterns and assess the value of decisions
US6581046B1 (en) * 1997-10-10 2003-06-17 Yeda Research And Development Co. Ltd. Neuronal phase-locked loops
CN1549182A (zh) * 2003-05-15 2004-11-24 季永萍 基于移动计算的新技术专业增值服务的实现装置
US20040264741A1 (en) * 2003-05-26 2004-12-30 Shigeru Omatsu Region detecting method and region detecting apparatus
CN1846218A (zh) * 2003-09-09 2006-10-11 西麦恩公司 人工神经网络
CN101253493A (zh) * 2005-08-31 2008-08-27 微软公司 在图形处理单元上训练卷积神经网络
CN102080569A (zh) * 2010-12-10 2011-06-01 煤炭科学研究总院重庆研究院 基于分布式光纤测温的带式输送机火灾预警方法
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN102737288A (zh) * 2012-06-20 2012-10-17 浙江大学 一种基于rbf神经网络参数自优化的水质多步预测方法
US20120275690A1 (en) * 2011-04-26 2012-11-01 Nec Laboratories America, Inc. Distributed artificial intelligence services on a cell phone
US20140279717A1 (en) * 2013-03-15 2014-09-18 Qylur Security Systems, Inc. Network of intelligent machines
CN104346622A (zh) * 2013-07-31 2015-02-11 富士通株式会社 卷积神经网络分类器及其分类方法和训练方法
CN104361395A (zh) * 2014-11-17 2015-02-18 重庆邮电大学 基于视觉仿生的超分辨率图像信息获取方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5067095A (en) * 1990-01-09 1991-11-19 Motorola Inc. Spann: sequence processing artificial neural network
US5220640A (en) * 1990-09-20 1993-06-15 Motorola, Inc. Neural net architecture for rate-varying inputs
US5835901A (en) * 1994-01-25 1998-11-10 Martin Marietta Corporation Perceptive system including a neural network
US6128606A (en) * 1997-03-11 2000-10-03 At&T Corporation Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph
EP2141657A4 (en) * 2007-04-18 2015-04-08 Univ Tokyo METHOD FOR SELECTION OF CHARACTERISTICS, DEVICE FOR SELECTION OF CHARACTERISTICS, IMAGE CLASSIFICATION METHOD, IMAGE CLASSIFICATION DEVICE, COMPUTER PROGRAM AND RECORDING MEDIUM
JP2010021937A (ja) 2008-07-14 2010-01-28 Sharp Corp 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
JP6236296B2 (ja) 2013-11-14 2017-11-22 株式会社デンソーアイティーラボラトリ 学習装置、学習プログラム、及び学習方法
IL231862A (en) * 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
KR102107709B1 (ko) * 2015-06-05 2020-05-07 구글 엘엘씨 공간 트랜스포머 모듈들

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6581046B1 (en) * 1997-10-10 2003-06-17 Yeda Research And Development Co. Ltd. Neuronal phase-locked loops
WO2003032248A1 (en) * 2001-10-11 2003-04-17 Exscientia, Llc Method and apparatus for learning to classify patterns and assess the value of decisions
CN1549182A (zh) * 2003-05-15 2004-11-24 季永萍 基于移动计算的新技术专业增值服务的实现装置
US20040264741A1 (en) * 2003-05-26 2004-12-30 Shigeru Omatsu Region detecting method and region detecting apparatus
CN1846218A (zh) * 2003-09-09 2006-10-11 西麦恩公司 人工神经网络
CN101253493A (zh) * 2005-08-31 2008-08-27 微软公司 在图形处理单元上训练卷积神经网络
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN102080569A (zh) * 2010-12-10 2011-06-01 煤炭科学研究总院重庆研究院 基于分布式光纤测温的带式输送机火灾预警方法
US20120275690A1 (en) * 2011-04-26 2012-11-01 Nec Laboratories America, Inc. Distributed artificial intelligence services on a cell phone
CN102737288A (zh) * 2012-06-20 2012-10-17 浙江大学 一种基于rbf神经网络参数自优化的水质多步预测方法
US20140279717A1 (en) * 2013-03-15 2014-09-18 Qylur Security Systems, Inc. Network of intelligent machines
CN104346622A (zh) * 2013-07-31 2015-02-11 富士通株式会社 卷积神经网络分类器及其分类方法和训练方法
CN104361395A (zh) * 2014-11-17 2015-02-18 重庆邮电大学 基于视觉仿生的超分辨率图像信息获取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
UMUT OZERTEM等: "Continuously differentiable sample-spacing entropy estimation", 《IEEE TRANSACTIONS ON NEURAL NETWORKS》 *
YONGHUI WANG等: "Winner Trace Marking in Self-Organizing Neural Network for Classification", 《2008 INTERNATIONAL SYMPOSIUM ON COMPUTER SCIENCE AND COMPUTATIONAL TECHNOLOGY》 *
李卫: "深度学习在图像识别中的研究及应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
许可: "卷积神经网络在图像识别上的应用的研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113039555A (zh) * 2018-11-20 2021-06-25 渊慧科技有限公司 通过使用基于注意力的神经网络在视频剪辑中进行动作分类
CN113039555B (zh) * 2018-11-20 2024-04-19 渊慧科技有限公司 在视频剪辑中进行动作分类的方法、系统及存储介质
WO2021197298A1 (en) * 2020-04-01 2021-10-07 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for action recognition in video and electronic device

Also Published As

Publication number Publication date
EP3262569A1 (en) 2018-01-03
JP2018514856A (ja) 2018-06-07
US11734572B2 (en) 2023-08-22
KR102107709B1 (ko) 2020-05-07
US10748029B2 (en) 2020-08-18
US20210034909A1 (en) 2021-02-04
KR20170136588A (ko) 2017-12-11
JP6662902B2 (ja) 2020-03-11
US20180330185A1 (en) 2018-11-15
CN108027885B (zh) 2022-07-01
US20160358038A1 (en) 2016-12-08
US10032089B2 (en) 2018-07-24
WO2016197046A1 (en) 2016-12-08

Similar Documents

Publication Publication Date Title
CN108027885A (zh) 空间变换器模块
CN109726794B (zh) 基于关注的图像生成神经网络
KR102318772B1 (ko) 도메인 분리 뉴럴 네트워크들
US10255686B2 (en) Estimating depth from a single image
CN108830288A (zh) 图像处理方法、神经网络的训练方法、装置、设备及介质
CN109754417A (zh) 从图像中无监督学习几何结构的系统与方法
CN111386536A (zh) 语义一致的图像样式转换
CN110168560A (zh) 使用神经网络的场景理解和生成
CN115735227A (zh) 反转用于姿态估计的神经辐射场
CN109272543B (zh) 用于生成模型的方法和装置
JP7403638B2 (ja) 高速なスパースニューラルネットワーク
CN109410253B (zh) 用于生成信息的方法、装置、电子设备和计算机可读介质
US20240070972A1 (en) Rendering new images of scenes using geometry-aware neural networks conditioned on latent variables
US20210264659A1 (en) Learning hybrid (surface-based and volume-based) shape representation
CN108229680A (zh) 神经网络系统、遥感图像识别方法、装置、设备及介质
Gao et al. Efficient 6D object pose estimation based on attentive multi‐scale contextual information
CN108830139A (zh) 人体关键点的深度前后关系预测方法、装置、介质及设备
CN116740078A (zh) 图像分割处理方法、装置、设备以及介质
Liu et al. A spatial-frequency domain associated image-optimization method for illumination-robust image matching
Wang et al. Neural network training system for marker encoding
Ai et al. A Deep Learnable Framework for 3D Point Clouds Pose Transformation Regression
Ning et al. Enhancing Night-to-Day Image Translation with Semantic Prior and Reference Image Guidance
CN114494379A (zh) 基于fpfh的凸包辅助三维点云配准方法、设备及介质
CN115345857A (zh) 增广样本图像的获取方法、装置、设备、介质及程序产品
CN108280420A (zh) 用于处理图像的系统、方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant