CN114386567A

CN114386567A - 图像分类神经网络

Info

Publication number: CN114386567A
Application number: CN202111545570.5A
Authority: CN
Inventors: V.O.范霍克; C.塞格迪; S.伊奥弗
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-02-18
Filing date: 2016-12-29
Publication date: 2022-04-22
Also published as: WO2017142629A1; CN108885713B; CN108885713A; AU2016393639B2; AU2016393639A1; US20190377985A1; US20210334605A1; US10460211B2; BR112018016884A2; DE202016008658U1; US11062181B2; US20170243085A1

Abstract

本公开涉及图像分类神经网络。一种神经网络系统，包括子网络，该子网络包括第一子网络，该第一子网络包括多个第一模块，每个第一模块包括：直通卷积层，其处理子网络输入以生成直通输出；神经网络层的平均汇集堆栈，其处理所述第一子网络的所述子网络输入以生成平均汇集输出；卷积神经网络层的第一堆栈，其处理所述子网络输入以生成第一堆栈输出；卷积神经网络层的第二堆栈，其处理所述子网络输入以生成第二堆栈输出；以及级联层，其级联所生成的输出以生成第一模块输出。通过将模块子网络包括在深度神经网络中，所述深度神经网络可以更好地执行图像处理任务，并且可以更快且更有效地来训练，同时维持所述图像处理任务的改进性能。

Description

图像分类神经网络

分案说明

本申请属于申请日为2016年12月29日的中国发明专利申请201680084514.7的分案申请。

相关申请的交叉引用

本申请要求2016年2月18日提交的美国临时申请序列号62/297,101的优先权。在先申请的公开内容被认为是本申请的公开内容的一部分，并且通过引用并入本申请的公开内容中。

技术领域

本说明书涉及使用深度神经网络(例如卷积神经网络)处理图像。

背景技术

卷积神经网络通常包括至少两种神经网络层、卷积神经网络层和完全连接的神经网络层。卷积神经网络层具有稀疏连接性，其中卷积层中的每个节点仅从下一个最低神经网络层中的节点的子集接收输入。一些卷积神经网络层具有与层中的其他节点共用权重的节点。然而，完全连接层中的节点从下一个最低神经网络层中的每个节点接收输入。

发明内容

一般来讲，本说明书中描述的主题的一个创新方面可以体现在一种第一神经网络系统中，所述第一神经网络系统被配置来接收图像并且生成输入图像的分类输出。所述第一神经网络系统可以实现为一个或多个位置中的一个或多个计算机上的计算机程序。所述第一神经网络系统可以包括：多个子网络，所述多个子网络堆叠布置在彼此之上，其中每个子网络被配置来处理子网络输入以生成子网络输出并且将所述子网络输出作为输入提供给堆栈中的所述子网络上方的另一个子网络，并且其中所述多个子网络包括：第一子网络，所述第一子网络包括多个第一模块，每个第一模块包括：直通卷积层，所述直通卷积层被配置来处理所述第一子网络的子网络输入以生成直通输出；神经网络层的平均汇集堆栈，其中所述平均汇集堆栈中的各层被配置来共同处理所述第一子网络的所述子网络输入以生成平均汇集输出；卷积神经网络层的第一堆栈，其中所述第一堆栈中的各层被配置来共同处理所述第一子网络的所述子网络输入以生成第一堆栈输出；卷积神经网络层的第二堆栈，其中所述第二堆栈中的各层被配置来共同处理所述第一子网络的所述子网络输入以生成第二堆栈输出；以及级联层，所述级联层被配置来级联所述直通输出、所述平均汇集输出、所述第一堆栈输出和所述第二堆栈输出，以生成所述第一模块的第一模块输出。

前述和其他实施例可以各自可选地单独或组合地包括以下特征中的一个或多个。所述第一子网络包括四个第一模块。所述直通卷积层是1x1卷积层。所述平均汇集堆栈包括平均汇集层，之后是1x1卷积层。所述第一堆栈包括1x1卷积层，之后是3x3卷积层。所述第二堆栈包括1x1卷积层，之后是3x3卷积层，之后是3x3卷积层。所述第一子网络被配置来组合由所述多个第一子网络生成的所述第一模块输出，以生成所述第一子网络的第一子网络输出。所述第一子网络接收35x35x384的输入，并且每个第一模块生成35x35x384的输出。

本说明书中描述的主题的另一个创新方面可以体现在一种第二神经网络系统中，所述第二神经网络系统被配置来接收图像并且生成输入图像的分类输出。所述第二神经网络系统可以由一个或多个计算机实现，并且被配置来接收图像并生成输入图像的分类输出。所述第二神经网络系统可以包括：多个子网络，所述多个子网络堆叠布置在彼此之上，其中每个子网络被配置来处理子网络输入以生成子网络输出并且将所述子网络输出作为输入提供给堆栈中的所述子网络上方的另一个子网络，并且其中所述多个子网络包括：第二子网络，所述第二子网络包括多个第二模块，每个第二模块包括：直通卷积层，所述直通卷积层被配置来处理所述第二子网络的所述子网络输入以生成直通输出；神经网络层的平均汇集堆栈，其中所述平均汇集堆栈中的各层被配置来共同处理所述第二子网络的所述子网络输入以生成平均汇集输出；卷积神经网络层的第三堆栈，其中所述第三堆栈中的各层被配置来共同处理所述第二子网络的所述子网络输入以生成第三堆栈输出；卷积神经网络层的第四堆栈，其中所述第四堆栈中的各层被配置来共同处理所述第二子网络的所述子网络输入以生成第四堆栈输出；以及级联层，所述级联层被配置来级联所述直通输出、所述平均汇集输出、所述第三堆栈输出和所述第四堆栈输出，以生成所述第二模块的第二模块输出。

前述和其他实施例可以各自可选地单独或组合地包括以下特征中的一个或多个。所述第二子网络可以包括七个第二模块。所述直通卷积层可以是1x1卷积层。所述平均汇集堆栈可以包括平均汇集层，之后是1x1卷积层。所述第三堆栈可以包括1x1卷积层，之后是1x7卷积层，之后是1x7卷积层。所述第四堆栈可以包括1x1卷积层，之后是1x7卷积层，之后是7x1卷积层，之后是1x7卷积层，之后是7x1卷积层。所述第二子网络可以被配置来组合由所述多个第二模块生成的所述第二模块输出，以生成所述第二子网络的第二子网络输出。所述第二子网络可以接收17x17x1024的输入，并且每个第一模块生成17x17x1024的输出。

本说明书中描述的主题的另一个创新方面可以体现在一种第三神经网络系统中，所述第三神经网络系统由一个或多个计算机实现并且被配置来接收图像并生成所述输入图像的分类输出。所述第三神经网络系统可以包括：多个子网络，所述多个子网络堆叠布置在彼此之上，其中每个子网络被配置来处理子网络输入以生成子网络输出并且将所述子网络输出作为输入提供给堆栈中的所述子网络上方的另一个子网络，并且其中所述多个子网络包括：第三子网络，所述第三子网络包括多个第三模块，每个第三模块包括：直通卷积层，所述直通卷积层被配置来处理所述第三子网络的子网络输入以生成直通输出；神经网络层的平均汇集堆栈，其中所述平均汇集堆栈中的各层被配置来共同处理所述第三子网络的所述子网络输入以生成平均汇集输出；卷积神经网络层的第一组，其中所述第一组中的各层被配置来共同处理所述第三子网络的所述子网络输入以生成第一组输出；卷积神经网络层的第二组，其中所述第二组中的各层被配置来共同处理所述第三子网络的所述子网络输入以生成第二组输出；以及级联层，所述级联层被配置来级联所述直通输出、所述平均汇集输出、所述第一组输出和所述第二组输出，以生成所述第三模块的第三模块输出。

前述和其他实施例可以各自可选地单独或组合地包括以下特征中的一个或多个。所述第二子网络包括三个第二模块。所述直通卷积层可以是1x1卷积层。所述平均汇集堆栈可以包括平均汇集层，之后是1x1卷积层。所述第一组可以包括：1x1卷积层，其被配置来处理所述第三子网络的所述子网络输入以生成第一中间输出；1x3卷积层，其被配置来处理所述第一中间输出以生成第二中间输出；3x1卷积层，其被配置来处理所述第一中间输出以生成第三中间输出；以及第一组级联层，其被配置来级联所述第二中间输出和所述第三中间输出，以生成所述第一组输出。所述第二组可以包括：卷积层的第五堆栈，其被配置来处理所述第三子网络的所述子网络输入以生成第五堆栈输出；1x3卷积层，其被配置来处理所述第五堆栈输出以生成第四中间输出；3x1卷积层，其被配置来处理所述第五堆栈输出以生成第五中间输出；以及第二组级联层，其被配置来级联所述第四中间输出和所述第五中间输出，以生成所述第二组输出。所述第五组可以包括1x1卷积层，之后是1x3卷积层，之后是3x1卷积层。所述第三子网络可以被配置来组合由所述多个第三模块生成的所述第三模块输出，以生成所述第三子网络的第三子网络输出。所述第三子网络可以接收8x8x1536的输入，并且每个第三模块生成8x8x1536的输出。

本说明书中描述的主题的另一个创新方面可以体现在一种第四神经网络系统中，所述第四神经网络系统由一个或多个计算机实现并且被配置来接收图像并生成所述输入图像的分类输出。所述第四神经网络系统可以包括：多个子网络，所述多个子网络堆叠布置在彼此之上，其中每个子网络被配置来处理子网络输入以生成子网络输出并且将所述子网络输出作为输入提供给堆栈中的所述子网络上方的另一个子网络，并且其中所述多个子网络包括：所述第一子网络、所述第二个子网络和所述第三个子网络。

前述和其他实施例可以各自可选地单独或组合地包括以下特征中的一个或多个。所述第四神经网络系统还可以包括：所述第一子网络下方的干线子网络、所述堆栈中的所述第二子网络和所述第三子网络，其中所述干线子网络被配置来：接收所述图像；并且处理所述图像以生成干线子网络输出。所述第四神经网络系统还可以包括：所述堆栈中的所述第一子网络与所述第二子网络之间的第一简化子网络。所述第四神经网络系统还可以包括：所述堆栈中的所述第二子网络与所述第三子网络之间的第二简化子网络。

本说明书中描述的主题的另一个创新方面可以体现在编码有指令的一种或多种非暂时性存储介质中，所述指令当由一个或多个计算机实现时引起所述一个或多个计算机实现所述第一神经网络系统、所述第二神经网络系统、所述第三神经网络系统或所述第四神经网络系统中的一种。

本说明书中描述的主题的另一个创新方面可以体现在一种第五神经网络系统中，所述第五神经网络系统由一个或多个计算机实现并且被配置来接收图像并生成所述输入图像的分类输出。所述神经网络系统可以包括：多个子网络，所述多个子网络堆叠布置在彼此之上，其中每个子网络被配置来处理子网络输入以生成子网络输出并且将所述子网络输出作为输入提供给堆栈中的所述子网络上方的另一个子网络，并且其中所述多个子网络包括：第一剩余子网络，所述第一剩余子网络包括多个第一剩余模块，每个第一剩余模块包括：第一子模块，所述第一子模块包括：直通卷积层，所述直通卷积层被配置来处理所述第一剩余子网络的子网络输入以生成直通输出；一组或多组神经网络层，所述一组或多组神经网络层中的每一个被配置来处理所述第一剩余子网络的所述子网络输入以生成相应的组输出；以及滤波扩展层，其被配置来通过按比例放大所述直通输出以及所述组输出中的每一个的维度来生成扩展输出；求和层，其被配置来从所述第一剩余子网络的所述子网络输入和所述扩展输出生成求和输出；以及激活函数层，其被配置来将激活函数应用于所述求和输出，以生成所述第一剩余模块的第一剩余模块输出。

前述和其他实施例可以各自可选地单独或组合地包括以下特征中的一个或多个。所述直通卷积层可以是1x1卷积层。所述滤波扩展层可以被配置来接收所述直通输出和所述组输出，并且将1x1卷积应用于所述直通输出和所述组输出，以生成所述扩展输出。所述求和层可以被配置来：对所述第一子网络的子网络输入和所述扩展输出进行求和，以生成所述求和输出。所述求和层可以被配置来：对所述扩展输出进行缩放以生成缩放扩展输出；并且对所述第一子网络的子网络输入和所述缩放扩展输出进行求和，以生成所述求和输出。所述激活函数可以是修正线性单元(Relu)激活函数。所述一组或多组神经网络层可以包括第一组，所述第一组是多个卷积神经网络层的堆栈。所述一组或多组神经网络层还可以包括第二组，所述第二组是多个卷积神经网络层的不同的堆栈。所述第一剩余子网络可以被配置来：组合由所述多个第一剩余模块生成的所述第一剩余模块输出，以生成所述第一剩余子网络的第一剩余子网络输出。

本说明书中描述的主题的另一个创新方面可以体现在编码有指令的一种或多种非暂时性存储介质中，所述指令当由一个或多个计算机实现时引起所述一个或多个计算机实现所述第五神经网络系统。

可以实现本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。通过在深度神经网络中包括子网络，并且具体是模块子网络，所述深度神经网络可以更好地执行例如对象识别或图像分类的图像处理任务。此外，包括模块子网络的深度神经网络可以比不包括模块子网络的深度神经网络更快且更有效地来训练，同时维持图像处理任务的改进性能。

以下附图和说明阐述了本说明书的主题的一个或多个实施例的细节。本主题的其他特征、方面和优点从说明书、附图和权利要求将是明了的。

附图说明

图1展示了神经网络系统的实例。

图2示出了第一子网络的实例。

图3示出了第二子网络的实例。

图4示出了第三子网络的实例。

图5展示了剩余子网络的实例。

图6是用于从输入图像生成输出的示例性过程的流程图。

图7是用于使用深度神经网络处理输入的示例性过程的流程图。

各个附图中的相同参考数字和标号指示相同元件。

具体实施方式

图1示出了示例性神经网络系统100。神经网络系统100是实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的实例，其中可以实现以下描述的系统、部件和技术。

神经网络系统100接收表征输入图像的数据，例如输入图像的像素信息，或者表征输入图像的其他信息。例如，神经网络系统100可以接收输入图像数据102。神经网络系统100使用深度神经网络150和输出层112来处理接收的数据，以生成输入图像的输出，例如来自输入图像数据102的输出114。

神经网络系统100可以被配置来接收输入图像数据并且基于输入图像生成任何种类的分数或分类输出，即可以被配置来执行任何类型的图像处理任务。由系统生成的分数或分类输出取决于神经网络系统已配置来确认的任务。例如，对于图像分类或识别任务，由神经网络系统针对给定图像生成的输出可以是针对一组对象类别中的每一个的分数，其中每个分数表示图像包含属于所述类别的对象的图像的可能性。作为另一实例，对于对象检测任务，由神经网络系统生成的输出可以识别输入图像中的感兴趣对象的位置、尺寸或两者。

一般来讲，深度神经网络150包括堆叠布置在彼此的顶部上的多个子网络，其中每个子网络被配置来处理子网络输入以生成子网络输出。每个子网络随后提供子网络输出作为堆栈中的子网络上方的另一子网络的输入，或者如果堆栈中的子网络上方不存在子网络，那么就作为深度神经网络150的输出。输出层112随后处理深度神经网络150的输出以生成神经网络系统100的输出114。如上所述，由输出层112生成的输出类型取决于神经网络系统100已配置来确认的图像分类任务。类似地，用于生成输出114的输出层112的类型也取决于任务。具体地，输出层112是适用于任务的输出层，即产生图像处理任务所需的输出类型。例如，对于图像分类任务，输出层可以是softmax输出层，其针对该组对象类别中的每一个生成相应的分数。

深度神经网络150中的子网络包括多个模块子网络以及一个或多个其他子网络。其他子网络中的每一个由一个或多个常规神经网络层组成，例如最大汇集层、平均汇集层、卷积层、完全连接层、正则化层、输出层，例如softmax输出层或线性回归输出层等等。

例如，在一些实现方式中，深度神经网络150包括子网络A 202、子网络B 302或子网络C 402或其组合。以下参考图2-图4详细提供子网络A 202、子网络B 302和子网络C 402的实例。

在各种实现方式中，模块子网络还可以包括干线子网络，所述干线子网络是堆栈中的最低子网络，并且被配置来接收图像并处理图像以生成干线输出，所述干线输出是用于堆栈中的下一个更高子网络的输入。例如，如图1所示，干线子网络104被配置来接收输入图像数据102并处理输入图像数据102以生成干线输出，所述干线输出是子网络A 202的输入。

在各种实现方式中，模块子网络还可以包括一个或多个简化子网络，其接收子网络输出并处理子网络输出以降低子网络输出的维度。例如，图1示出了在子网络A 202与子网络B 302之间的简化子网络X 106以及在子网络B 302与子网络C 402之间的简化子网络Y108。简化子网络X 106被配置来接收子网络A 202的输出并处理输出以降低输出的维度。简化子网络Y 108被配置来接收子网络B 302的输出并处理输出以降低输出的维度。

在一些实现方式中，深度神经网络可以包括平均汇集子网络(例如，平均汇集子网络110)，其是堆栈中的最高子网络并且被配置来对前述子网络的输出进行平均汇集，以生成深度神经网络150的输出。

在一些实现方式中，模块子网络包括一个或多个剩余子网络。剩余子网络包括多个剩余模块。每个剩余模块包括一个或多个剩余子模块。以下参考图5详细描述剩余子模块的实例。

图2展示了子网络A 202的实例。子网络A 202被描绘成包括第一模块的模块子网络。虽然在图2的实例中仅示出了单个模块，但是模块子网络通常将包括多个第一模块。例如，模块子网络A 202可以包括四个第一模块。如图2所示，第一模块包括直通卷积层，例如直通卷积层210；神经网络层的平均汇集堆栈，例如神经网络层224的平均汇集堆栈；神经网络层的一个或多个堆栈，例如神经网络层226的堆栈和神经网络层118的另一堆栈；以及级联层，例如级联层222。模块子网络A 202接收来自先前子网络(例如先前子网络204)的输入并从接收的输入生成输出表示。

直通卷积层被配置来处理从先前子网络204获得的子网络A 202的子网络输入以生成直通输出。在一些实现方式中，直通卷积层是1x1卷积层。一般来讲，k x k卷积层是使用k x k滤波器的卷积层。也即，k x k表示卷积层所连接到的先前层中的补丁的尺寸。在这些实现方式中，1x1直通卷积层通常用作降维模块，以降低先前输出表示的维度并且消除可能以其他方式限制深度神经网络的尺寸的计算瓶颈。

神经网络层的平均汇集堆栈包括神经网络层的堆栈，所述神经网络层被配置来共同处理子网络A 202的子网络输入以生成平均汇集输出。例如，在图2的实例中，神经网络层224的平均汇集堆栈包括对子网络输入进行平均汇集的平均汇集层206，之后是1x1卷积层208。

模块子网络中的神经网络层的一个或多个堆栈中的每一个包括两个或更多个神经网络层，其中初始神经网络层之后是一个或多个其他神经网络层。例如，子网络A 202包括第一堆栈226，其包括1x1卷积层212，之后是3x3卷积层214；以及第二堆栈228，其包括1x1卷积层216，之后是3x3卷积层218，之后是3x3卷积层220。然而，卷积层尺寸的其他组合也是可能的。第一堆栈226中的各层被配置来共同处理子网络A 202的子网络输入以生成第一堆栈输出，并且第二堆栈228中的各层被配置来共同处理子网络A 202的子网络输入以生成第二堆栈输出。

级联层222被配置来级联直通输出、平均汇集输出、第一堆栈输出和第二堆栈输出，以生成第一模块的第一模块输出。例如，级联层222被配置来沿着深度维度级联由直通卷积层、神经网络层的平均汇集堆栈以及卷积神经网络层的堆栈生成的张量，以生成单个张量，即输出表示。第一模块的输出表示可以用作子网络A 202中的下一个模块的输入。子网络A 202中的下一个模块可以按以下参考图7更详细描述的方式来处理输入，例如先前的输出表示。

在一些实现方式中，子网络A 202可以接收35x35x384的输入，并且每个第一模块可以生成35x35x384的输出。然而，其他输入和输出尺寸也是可能的。

图3展示了子网络B 302的实例。子网络B 302被描绘成包括第二模块的模块子网络。虽然图3仅示出了单个模块，但是子网络B 302可以包括多个第二模块。例如，子网络B302可以包括七个第二模块。类似于第一模块，第二模块包括直通卷积层，例如1x1直通卷积层310；神经网络层的平均汇集堆栈，例如神经网络层330的平均汇集堆栈；神经网络层的一个或多个堆栈，例如神经网络层332的堆栈和神经网络层334的堆栈；以及级联层，例如级联层328。模块子网络B 302接收来自先前子网络(例如先前子网络304)的输入并从接收的输入生成输出表示。

直通卷积层310被配置来处理从先前子网络304获得的子网络B 302的子网络输入以生成直通输出。神经网络层的平均汇集堆栈包括神经网络层的堆栈，其被配置来共同处理子网络B 302的子网络输入以生成平均汇集输出。例如，在图3的实例中，神经网络层330的平均汇集堆栈包括平均汇集层306，之后是1x1卷积层308。

模块子网络B 302中的神经网络层的一个或多个堆栈中的每一个包括两个或更多个神经网络层，其中初始神经网络层之后是一个或多个其他神经网络层。例如，子网络B302包括第三堆栈332，其包括1x1卷积层312，之后是1x7卷积层314，之后是1x7卷积层316；以及第四堆栈334，所述第四堆栈包括1x1卷积层318，之后是1x7卷积层320，之后是7x1卷积层322，之后是1x7卷积层324，之后是7x1卷积层326。然而，卷积层尺寸的其他组合也是可能的。第三堆栈332中的各层被配置来共同处理子网络B 302的子网络输入以生成第三堆栈输出，并且第四堆栈334中的各层被配置来共同处理子网络B 302的子网络输入以生成第四堆栈输出。

级联层328被配置来级联直通输出、平均汇集输出、第三堆栈输出和第四堆栈输出，以生成第二模块的第二模块输出。例如，级联层328被配置来沿着深度维度级联由直通卷积层310、神经网络层330的平均汇集堆栈以及卷积神经网络层的堆栈332和334生成的张量，以生成单个张量，即第二模块的输出表示。第二模块的输出表示可以用作子网络B 302中的下一个模块的输入。子网络B 302中的下一个模块可以按以下参考图7更详细描述的方式来处理输入，例如先前的输出表示。

在一些实现方式中，子网络B 302可以接收17x17x1024的输入，并且每个第二模块可以生成17x17x1024的输出。然而，其他输入和输出尺寸也是可能的。

图4展示了子网络C 402的实例。子网络C 402被描绘成包括第三模块的模块子网络。虽然图4仅示出了单个模块，但是子网络C 402可以包括多个第三模块。例如，子网络C402可以包括三个第三模块。第三模块包括直通卷积层，例如1x1直通卷积层410；神经网络层的平均汇集堆栈，例如神经网络层432的平均汇集堆栈；一组或多组神经网络层，例如一组神经网络层434和另一组神经网络层436；以及级联层，例如级联层430。模块子网络C 402接收来自先前子网络(例如先前子网络404)的输入并从接收的输入生成输出表示。

直通卷积层被配置来处理从先前子网络404获得的子网络C 402的子网络输入以生成直通输出。神经网络层的平均汇集堆栈包括神经网络层的堆栈，其被配置来共同处理子网络C 402的子网络输入以生成平均汇集输出。例如，如图4所示，神经网络层432的平均汇集堆栈包括平均汇集层406，之后是1x1卷积层408。

模块子网络C 402中的一组或多组神经网络层中的每一个包括两个或更多个神经网络层，其中初始神经网络层之后是一个或多个其他神经网络层。作为实例，如图4所示，子网络C 402包括第一组神经网络层434，其包括1x1卷积层412、1x3卷积层414和3x1卷积层416。然而，卷积层尺寸的其他组合也是可能的。层412被配置来处理子网络C 402的子网络输入以生成第一中间输出。层414和层416各自被配置来处理第一中间输出以分别生成第二中间输出和第三中间输出。第一组可以包括第一组级联层(未示出)，其被配置来级联第二中间输出和第三中间输出以生成第一组输出。

在另一实例中，子网络C 402包括第二组神经网络层436，其包括神经网络层438的第五堆栈，其被配置来处理子网络C 402的子网络输入以生成第五堆栈输出。第二组还包括1x3卷积层428，其被配置来处理第五堆栈输出以生成第四中间输出；以及3x1卷积层426，其被配置来处理第五堆栈输出以生成第五中间输出。然而，卷积层尺寸的其他组合也是可能的。第二组436可以包括第二级联层(未示出)，其被配置来级联第四中间输出和第五中间输出以生成第二组输出。

级联层430被配置来级联直通输出、平均汇集输出、第一组输出和第二组输出，以生成第三模块的第三模块输出。例如，级联层430被配置来沿着深度维度级联由直通卷积层410、神经网络层432的平均汇集堆栈以及卷积神经网络层的组434和436生成的张量，以生成单个张量，即第二模块的输出表示。第三模块的输出表示可以用作子网络C 402中的下一个模块的输入。子网络C 402中的下一个模块可以按以下参考图7更详细描述的方式来处理输入，例如先前的输出表示。

在一些实现方式中，子网络C 402可以接收8x8x1536的输入，并且每个第三模块可以生成8x8x1536的输出。然而，其他输入和输出尺寸也是可能的。

图5展示了剩余子网络502的剩余模块的剩余子模块550的实例。尽管仅描绘了一个剩余子模块，但是剩余子网络502可以包括多个剩余模块，并且每个剩余模块可以包括多个剩余子模块。剩余子模块550包括直通卷积层，例如直通卷积层506；一组或多组神经网络层，例如一组神经网络层524和另一组神经网络层526；滤波扩展层，例如滤波扩展层512；求和层，例如求和层520；以及激活函数层，例如激活函数层522。剩余子模块550接收来自先前子网络(例如先前子网络504)的输入并从接收的输入生成输出表示。

直通卷积层被配置来处理剩余子网络502的子网络输入以生成直通输出。例如，直通卷积层506是1x1卷积层，其处理来自先前子网络504的输入以生成直通输出。

一组或多组神经网络层中的每一个被配置来处理剩余子网络的子网络输入以生成相应的组输出。在一些实现方式中，一组或多组神经网络层包括作为多个卷积神经网络层的堆栈的第一组以及作为多个卷积神经网络层的另一堆栈的第二组。例如，剩余子模块550包括神经网络层524的堆栈，所述堆栈包括1x1卷积层508，之后是1x1卷积层510；以及另一堆栈526，所述另一堆栈包括1x1卷积层514，之后是3x3卷积层516，之后是3x3卷积层518。这些堆栈中的每一个接收来自先前子网络504的子网络输入并处理子网络输入以生成相应的组输出。

求和层520被配置来从剩余子网络的子网络输入、直通输出和组输出生成求和输出。然而，在通过直通卷积层506、神经网络层524的堆栈和神经网络层526的堆栈来处理子网络输入(从先前子网络504接收)之后，直通输出和组输出的维度可能与原始子网络输入的维度不匹配(例如，可以通过这些神经网络层来缩减子网络输入的维度)。

滤波扩展层512被配置来通过按比例放大直通输出和每个组输出的维度来生成扩展输出，使得扩展输出的维度与原始子网络输入的维度匹配。例如，如图5所示，滤波扩展层512被配置来接收来自直通卷积层506的直通输出和各个组输出，并且将1x1卷积应用于这些输出以生成扩展输出。

随后，求和层520可以被配置来对剩余子网络502的子网络输入和扩展输出进行求和以生成求和输出。

激活函数层522被配置来将激活函数应用于求和输出以生成剩余模块的剩余模块输出。在一些实现方式中，激活函数可以是修正线性单元(Relu)激活函数。

在剩余模块输出由剩余模块生成之后，剩余子网络被配置来组合剩余模块输出以生成用于剩余子网络的剩余子网络输出。

在神经网络系统中包括多个剩余子网络的实现方式中，剩余子网络中不同的子网络中的各组神经网络可以具有不同的配置，例如不同数量的组、组内的神经网络层的不同配置或两者。

图6是用于从接收的输入生成输出的示例性过程600的流程图。为方便起见，过程600将被描述为由位于一个或多个位置中的一个或多个计算机的系统来执行。例如，根据本说明书适当编程的图像处理系统(例如，图1的图像处理系统100)可以执行过程600。

系统接收表征输入图像的数据(步骤602)。

系统使用包括子网络的深度神经网络(例如，图1的深度神经网络150)来处理数据，以生成替代表示(步骤604)。深度神经网络包括从序列中的最低子网络到序列中的最高子网络布置的一系列子网络。系统通过序列中的每个子网络处理数据以生成替代表示。序列中的子网络包括多个模块子网络，并且可选地包括一个或多个子网络，所述子网络包括一个或多个常规的神经网络层，例如直通卷积层、平均汇集层、卷积层、级联层等等。以下参考图7描述通过模块子网络来处理输入。

系统通过输出层处理替代表示以生成输入图像的输出(步骤606)。一般来讲，系统生成的输出取决于系统已配置来执行的图像处理任务。例如，如果系统被配置来执行图像分类或识别任务，那么由输出层生成的输出可以是针对预定的一组对象类别中的每一个的相应分数，其中针对给定对象类别的分数表示输入图像包含属于对象类别的对象的图像的可能性。

图7是用于使用模块子网络处理输入的示例性过程700的流程图。为方便起见，过程700将被描述为由位于一个或多个位置中的一个或多个计算机的系统来执行。例如，图1的根据本说明书适当编程的神经网络系统100可以执行过程700。

系统接收输入(步骤702)。具体地，输入是先前的输出表示，即由子网络序列中的先前子网络生成的输出表示，或者由模块子网络的多个模块的序列中的先前模块生成的输出表示。

系统通过直通卷积层来处理先前的输出表示以生成直通输出(步骤704)。在一些实现方式中，直通卷积层是1x1卷积层。

系统通过神经网络层的平均汇集堆栈来处理先前的输出表示以生成平均汇集输出(步骤706)。例如，神经网络层的平均汇集堆栈可以包括对子网络输入进行平均汇集的平均汇集层，之后是1x1卷积层。

系统通过一组或多组神经网络层来处理先前的输出表示(步骤708)。每组神经网络层包括初始神经网络层，之后是一个或多个附加神经网络层。系统通过给定组来处理先前的输出表示，通过所述组中的每个神经网络层来处理先前的输出表示，以生成所述组的组输出。

在一些实现方式中，一个或多个组包括一个卷积层，之后是另一个卷积层。例如，一个组可以包括1x1卷积层，之后是3x3卷积层。作为另一实例，另一组可以包括1x1卷积层，之后是3x3卷积层，之后是3x3卷积层。如上所述，1x1卷积层可以用作降维模块，以在由1x1卷积层之后的另一个卷积层处理之前降低先前的输出表示的维度。然而，卷积层尺寸的其他组合也是可能的。

系统通过级联层级联直通输出、平均汇集输出和组输出以生成输出表示(步骤710)。例如，系统可以级联由直通卷积层、神经网络层的平均汇集堆栈和各组生成的张量，以生成单个张量，即输出表示。系统可以随后将输出表示作为子网络的多个模块的序列中的下一个模块的输入、或者子网络序列中的下一个子网络的输入或者系统的输出层的输入。

可以执行过程600和700以生成图像的分类数据，对于所述图像，期望的分类(即，系统应当为图像生成的输出)是未知的。过程600和700也可以在一组训练图像(即对于这一组图像应当由系统预测的输出是已知的)中的文档上执行，以便训练深度神经网络，即确定深度神经网络中的各层的参数的训练值，即模块子网络和其他子网络中的各层的参数的训练值。具体地，可以对从一组训练图像中选择的图像重复执行过程600和700，作为确定深度神经网络的各层的参数的训练值的反向传播训练技术的一部分。

在一些实现方式中，在训练期间，利用一个或多个其他训练子网络增强深度神经网络，所述其他训练子网络在深度神经网络已被训练之后被移除。每个其他训练子网络(也称为“侧塔”)包括一个或多个常规的神经网络层，例如可以包括平均汇集层，完全连接的层、防止过拟合层(dropout layer)等中的一个或多个，以及被配置来生成与系统的输出层相同的分类的输出层。每个其他训练子网络被配置来接收由深度神经网络的子网络之一生成的输出，即与已接收到子网络输出的子网络并行进行，并且处理子网络输出以生成训练图像的训练子网络输出。作为反向传播训练技术的一部分，训练子网络输出还用于调整深度神经网络中的各层的参数值。如上所述，一旦已训练深度神经网络，就移除训练子网络。

对于被配置来执行特定操作或动作的一个或多个计算机的系统意味着系统已在其上安装在操作中引起系统执行操作或动作的软件、固件、硬件或它们的组合。对于被配置来执行特定操作或动作的一个或多个计算机程序意味着一个或多个程序包括当由数据处理设备执行时引起所述设备执行操作或动作的指令。

在本说明书中描述的主题和功能操作的实施例可以在数字电子电路中，在有形地体现的计算机软件或固件中，在计算机硬件(包括在本说明书中公开的结构及其结构等同物)中，或者在它们中的一个或多个的组合中来实现。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即，编码在有形非暂时性程序载体上的计算机程序指令的一个或多个模块，以用于由数据处理设备执行或者控制数据处理设备的操作。可替换地或此外，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电信号、光信号或电磁信号，其被生成以编码用于传输到合适的接收器设备的信息以便由数据处理设备来执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备，或者它们中的一个或多个的组合。然而，计算机存储介质不是传播信号。

术语“数据处理设备”包括用于处理数据的所有类型的设备、装置和机器，例如包括可编程处理器、计算机或者多个处理器或计算机。所述设备可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，所述设备还可以包括为讨论中的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一个或多个的组合的代码。

计算机程序(也可以称为或描述为程序、软件、软件应用、模块、软件模块、脚本或代码)可以任何形式的编程语言来编写，包括编译或解释语言、声明或过程语言，并且可以任何形式来部署，包括作为独立的程序或者作为模块、部件、子例程或者适用于在计算环境中使用的其他单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如，存储在标记语言文件中的一个或多个脚本)的文件的一部分中，存储在专用于讨论中的程序的单个文件中，或者存储在多个协调文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。可以部署计算机程序以在一台计算机或多台计算机上执行，这些计算机位于一个站点处，或者跨多个站点分布并且通过通信网络互连。

如在本说明书中使用的，“引擎”或“软件引擎”是指软件实现的输入/输出系统，其提供与输入不同的输出。引擎可以是编码的功能块，诸如库、平台、软件开发工具包(“SDK”)或对象。每个引擎可以在任何适当类型的计算装置上实现，例如服务器、移动电话机、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或者包括一个或多个处理器和计算机可读介质的其他固定或便携式装置。此外，两个或更多个引擎可以在同一计算装置上或者在不同的计算装置上实现。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。处理和逻辑流程也可以由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))来执行，并且所述设备也可以被实现为所述专用逻辑电路。

适用于执行计算机程序的计算机包括例如可以基于通用或专用微处理器或两者，或者任何其他种类的中央处理单元。一般来讲，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于进行或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器装置。一般来讲，计算机还将包括或可操作地联接以从用于存储数据的一个或多个海量存储装置(例如，磁盘、磁光盘或光盘)接收数据或将数据传送到其或者两者。然而，计算机不需要具有这类装置。此外，可以将计算机嵌入到另一装置中，仅举几例，例如移动电话机、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储装置，例如包括半导体存储设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有用于向用户显示信息的显示装置(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)的计算机上实现，并且该计算机具有键盘以及定点装置(例如鼠标或跟踪球)，用户可以通过它们将输入提供给计算机。其他类型的装置也可以用于提供与用户的交互；例如提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。此外，计算机可以通过向由用户使用的装置发送文档并且从其接收文档来与用户进行交互；例如，通过响应于从web浏览器接收的请求将网页发送到用户的客户端装置上的web浏览器。

本说明书中描述的主题的各实施例可以在计算系统中实现，所述计算系统包括后端部件，例如作为数据服务器，或者包括中间件部件，例如应用服务器，或者包括前端部件，例如具有用户可以通过其与本说明书中描述的主题的实现方式交互的图形用户界面或Web浏览器的客户端计算机，或者这类后端、中间件或前端部件中的一种或多种的任何组合。系统的部件可以通过数字数据通信的任何形式或介质(例如通信网络)互连。通信网络的实例包括局域网(“LAN”)和广域网(“WAN”)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系是借助于在相应的计算机上运行的计算机程序而产生，并且具有与彼此的客户端服务器关系。

尽管本说明书包含许多具体的实现细节，但是这些不应被解释为对任何发明或可以要求保护的范围的限制，而是作为可以特定于特定发明的特定实施例的特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反地，在单个实施例的上下文中描述的各种特征也可以在多种实施例中单独地或以任何合适的子组合来实现。此外，虽然特征可以在上文描述为以某些组合起作用并且甚至最初要求如此，但是来自所要求保护的组合的一个或多个特征可以在一些情况下从所述组合中删除，并且所要求保护的组合可以针对子组合或子组合的变型。

类似地，尽管在附图中以特定顺序描绘操作，但是这不应被理解为要求以所示出的特定顺序或顺序次序来执行这类操作，或者要执行所有示出的操作来实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和部件的分离不应当被理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序部件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。

已经描述了主题的特定实施例。其他实施例在以下权利要求的范围内。例如，权利要求中列举的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个实例，附图中描绘的过程不一定需要所示的特定顺序或顺序次序来实现期望的结果。在某些实现方式中，多任务和并行处理可能是有利的。

Claims

1.一种神经网络系统，所述神经网络系统包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时，使所述一个或多个计算机实现神经网络，所述神经网络包括：

剩余子网络，所述剩余子网络包括剩余模块，所述剩余模块包括：

一组或多组卷积神经网络层，所述一组或多组卷积神经网络层中的每一组被配置来处理所述剩余子网络的子网络输入，以生成相应的组输出；

滤波扩展层，所述滤波扩展层被配置来通过按比例放大所述组输出中的每一个的维度来生成扩展输出；以及

求和层，所述求和层被配置来从所述剩余子网络的所述子网络输入和所述扩展输出生成求和输出。

2.根据权利要求1所述的神经网络系统，其中，所述剩余模块还包括直通卷积层，所述直通卷积层被配置来处理所述子网络输入，以生成直通输出。

3.根据权利要求2所述的神经网络系统，其中，所述滤波扩展层被配置来通过按比例放大所述组输出中的每一个和所述直通输出的维度来生成所述扩展输出。

4.根据权利要求2所述的神经网络系统，其中，所述直通卷积层是1x1卷积层。

5.根据权利要求2所述的神经网络系统，其中，所述滤波扩展层被配置来接收所述直通输出和所述组输出，并且将1x1卷积应用于所述直通输出和所述组输出，以生成所述扩展输出。

6.根据权利要求1所述的神经网络系统，其中，所述求和层被配置来：

对所述剩余子网络的所述子网络输入和所述扩展输出进行求和，以生成所述求和输出。

7.根据权利要求1所述的神经网络系统，其中，所述求和层被配置来：

对所述扩展输出进行缩放以生成缩放的扩展输出；并且

对所述剩余子网络的所述子网络输入和所述缩放的扩展输出进行求和，以生成所述求和输出。

8.根据权利要求1所述的神经网络系统，其中，所述剩余模块还包括：激活函数层，所述激活函数层被配置为将激活函数应用于所述求和输出，以生成所述剩余模块的剩余模块输出。

9.根据权利要求8所述的神经网络系统，其中，所述激活函数是修正线性单元Relu激活函数。

10.根据权利要求1所述的神经网络系统，其中，所述一组或多组卷积神经网络层包括卷积神经网络层的第一堆栈。

11.根据请求项10所述的神经网络系统，其中，卷积神经网络层的所述第一堆栈包括1x1卷积层，之后是1x1卷积层。

12.根据权利要求10所述的神经网络系统，其中，所述一组或多组卷积神经网络层包括卷积神经网络层的第二堆栈。

13.根据权利要求12所述的神经网络系统，其中，卷积神经网络层的所述第二堆栈包括1x1卷积层，之后是3x3卷积层，之后是3x3卷积层。

14.根据权利要求8所述的神经网络系统，其中，所述剩余子网络包括多个其他剩余模块并且被配置来：

将所述剩余模块的所述剩余模块输出和其他剩余模块的其他剩余模块输出组合，以生成所述剩余子网络的剩余子网络输出。