CN110088773B

CN110088773B - 具有可分离卷积层的图像处理神经网络

Info

Publication number: CN110088773B
Application number: CN201780061438.2A
Authority: CN
Inventors: F.乔列特; A.G.霍华德
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-06
Filing date: 2017-10-06
Publication date: 2023-07-11
Anticipated expiration: 2037-10-06
Also published as: US20230237314A1; EP3523759A1; EP3523759B1; US11593614B2; KR20190055248A; JP2019535084A; CN110088773A; WO2018067962A1; US20240256833A1; IE87469B1; US20210027140A1; US11922288B2; KR102373904B1; US12314838B2; JP6910431B2; IE20170211A1

Abstract

神经网络系统被配置为接收输入图像以及生成输入图像的分类输出。该神经网络系统包括：可分离卷积子网络，其包括一个接一个地以堆叠排列的多个可分离卷积神经网络层，其中每个可分离卷积神经网络层被配置为：在处理可分离卷积神经网络层的输入期间分别应用深度卷积和点卷积以生成层输出。

Description

具有可分离卷积层的图像处理神经网络

相关申请的交叉引用

本申请要求2016年10月6日提交的美国临时申请序列号62/405,181的优先权。在先申请的公开内容被认为是本申请公开内容的一部分，并通过引用结合于此。

技术领域

本说明书涉及使用深度神经网络(例如，卷积神经网络)处理图像。

背景技术

神经网络是机器学习模型，其采用一层或多层非线性单元来预测对于接收到的输入的输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中另一层(例如，下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收到的输入生成输出。

卷积神经网络通常包括卷积神经网络层，并且在某些情况下，包括完全连接的神经网络层和其他种类的神经网络层。卷积神经网络层具有稀疏连接性，其中卷积层中的每个节点仅从下一个最低神经网络层中的节点子集接收输入。一些卷积神经网络层具有与该层中的其他节点共享权重的节点。然而，完全连接层中的节点从下一个最低神经网络层中的每个节点接收输入。

发明内容

本说明书描述了在一个或多个位置中的一个或多个计算机上被实施为计算机程序的神经网络系统。

通常，一个创新方面可以体现在由一个或多个计算机实施的神经网络系统中。该神经网络系统被配置为接收输入图像以及生成输入图像的分类输出。该神经网络系统包括：可分离卷积子网络，其包括一个接一个地以堆叠排列的多个可分离卷积神经网络层，其中每个可分离卷积神经网络层被配置为在处理可分离卷积神经网络层的输入期间分别应用深度卷积(depthwise convolution)和点卷积(pointwise convolution)两者以生成层输出。神经网络系统还可以包括输出子网络，该输出子网络被配置为接收由可分离卷积子网络生成的可分离卷积输出，以及处理该可分离卷积输出以生成输入图像的分类输出。该神经网络系统还可以包括输入子网络，该输入子网络被配置为接收输入图像以及处理该输入图像以生成初始输出。输入子网络可以包括一个或多个卷积神经网络层。

可分离卷积子网络可以包括一个或多个入口模块，其中入口模块被配置为接收初始输出，以及共同处理初始输出以生成入口输出。每个入口模块可以包括：相应的第一直通卷积层，被配置为处理入口模块的模块输入以生成第一直通输出；可分离卷积神经网络层的相应的第一堆叠，其中第一堆叠中的层被配置为共同处理模块输入以生成第一堆叠输出；相应的最大池化层，被配置为对第一堆叠输出执行最大池化以生成最大池化输出；以及相应的第一拼接(concatenation)层，被配置为拼接第一直通输出和最大池化输出以生成入口模块的入口模块输出。可分离卷积子网络可以包括三个入口模块。第一直通卷积层可以是1×1卷积层。第一堆叠中的可分离卷积神经网络层可以被修正线性单元激活层分离。第一堆叠中的一个或多个可分离卷积神经网络层之后可以是批量归一化层。

可分离卷积子网络可以包括一个或多个中间模块，其中中间模块被配置为接收入口输出，以及共同处理入口输出以生成中间输出。每个中间模块可以包括：相应的第二直通卷积层，被配置为处理中间模块的模块输入以生成第二直通输出；可分离卷积神经网络层的相应的第二堆叠，其中第二堆叠中的层被配置为共同处理模块输入以生成第二堆叠输出；以及相应的第二拼接层，被配置为拼接第二直通输出和第二堆叠输出以生成中间模块的中间模块输出。可分离卷积子网络可以包括八个中间模块。第二直通卷积层可以是1×1卷积层。第二堆叠中的每个可分离卷积神经网络层之前可以是修正线性单元激活层。第二堆叠中的一个或多个可分离卷积神经网络层之后可以是批量归一化层。

可分离卷积子网络可以包括出口模块，其中出口模块被配置为接收中间输出以及处理中间输出以生成可分离卷积子网络的可分离卷积输出。出口模块可以包括：第三直通卷积层，被配置为处理中间输出以生成第三直通输出；可分离卷积神经网络层的第三堆叠，其中第三堆叠中的层被配置为共同处理中间输出以生成第三堆叠输出；第三最大池化层，被配置为对第三堆叠输出执行最大池化以生成第三最大池化输出；以及第三拼接层，被配置为拼接第三直通输出和第三池化输出以生成拼接输出。第三直通卷积层可以是1×1卷积层。第三堆叠中的每个可分离卷积神经网络层之前可以是修正线性单元激活层。第三堆叠中的一个或多个可分离卷积神经网络层之后可以是批量归一化层。出口模块还可以包括可分离卷积神经网络层的第四堆叠，其中第四堆叠中的层被配置为共同处理拼接输出以生成第四堆叠输出；以及平均池化层，被配置为对第四堆叠输出执行平均池化以生成可分离卷积输出。第四堆叠中的每个可分离卷积神经网络层之后可以是修正线性单元激活层。第四堆叠中的一个或多个可分离卷积神经网络层之后可以是批量归一化层。

另一创新方面可以体现在用指令编码的一个或多个存储介质中，当该指令被一个或多个计算机实施时，使得一个或多个计算机实施如上所述的神经网络系统。

另一创新方面可以体现在一种方法中，该方法包括：接收输入图像；以及使用上述神经网络系统处理该输入图像以生成输入图像的分类输出。该方法还可以包括提供分类输出或从分类输出导出的输出以用于呈现给用户。

可以实施本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。如本说明书中描述的图像处理神经网络系统可以在执行各种图像处理任务(例如，图像分类或对象识别)时实现与现有技术匹配或优于现有技术的结果。另外，如本说明书中描述的图像处理神经网络系统可以实现与传统神经网络相当的或比之更好的结果，传统神经与本发明中描述的图像处理神经网络系统相比具有更多的参数，因此需要更多的计算资源(即存储器和处理时间)用于存储参数值和处理输入图像。也就是说，图像处理神经网络系统可以实现这些结果，同时具有比传统神经网络更小的计算足迹，即使用更少的存储器和需要更少的处理时间。通常，这些优点是由于在图像处理神经网络中一个接一个堆叠的多个可分离卷积层而实现的，即与堆叠传统卷积层或仅具有单个可分离卷积层作为神经网络的输入层(其后面是堆叠的传统卷积层)的情况相反。

本说明书主题的一个或多个实施例的细节在以下附图和描述中阐述。从说明书、附图和权利要求书，主题的其他特征、方面和优点将变得显而易见。

附图说明

图1是神经网络系统的示例的框图。

图2是入口模块的示例架构的框图。

图3是中间模块的示例架构的框图。

图4是出口模块的示例架构的框图。

图5是用于生成输入图像的分类输出的示例过程的流程图。

不同附图中相同的参考标号和名称表示相同的元件。

具体实施方式

图1示出了神经网络系统100的示例。神经网络系统100是被实施为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中可以实施下面描述的系统、组件和技术。

神经网络系统100接收输入图像102。然后，神经网络系统100使用可分离卷积子网络150处理输入图像102以生成输入图像的输出。

神经网络系统100可以被配置为基于输入图像102生成任何种类的分数、回归或分类输出，也就是说，神经网络系统100可以被配置为执行任何种类的图像处理任务。系统100生成的分数或分类输出取决于神经网络系统100已经被配置为确认的任务。系统100可以被配置为在子网络150的输出层或子网络150的一个或多个隐藏层的任何适当的隐藏层处生成一个或多个分数或分类输出。例如，对于图像分类或识别任务，神经网络系统100为给定图像生成的输出可以是对于对象类别集中的每一个对象类别的分数，其中每个分数表示图像包含属于该类别的对象的图像的可能性。作为另一示例，对于对象检测任务，神经网络系统100生成的输出可以识别输入图像中感兴趣对象的位置、大小或这两者。作为又一示例，神经网络系统100生成的输出可以是网络的隐藏层之一的输出，并且可以被提供用作输入图像的数字表示，即数字嵌入。

通常，可分离卷积子网络150包括一个接一个地以堆叠排列的多个可分离卷积神经网络层。

可分离卷积神经网络层包括深度卷积，即在输入的每个通道上独立执行的空间卷积，接着执行点卷积，即具有1×1窗口的规则卷积，将由深度卷积计算的通道投影到新的通道空间。每个可分离卷积神经网络层被配置为在处理可分离卷积神经网络层的输入期间分别应用深度卷积和点卷积两者。例如，可分离卷积层可以首先对接收到的输入执行通道方向(channel-wise)的空间卷积(即深度卷积)，以生成中间输出，然后对中间输出执行1×1卷积(即点卷积)，以生成层输出。作为另一示例，可分离卷积层可以首先对接收到的输入执行1×1卷积以生成中间输出，然后对中间输出执行通道方向的空间卷积以生成层输出。

具体地，可分离卷积子网络150包括一系列模块，其中这一系列模块包括一个或多个入口模块106，随后是一个或多个中间模块108，随后是出口模块110。在一些实施方式中，可分离卷积子网络150包括三个入口模块。在一些实施方式中，子网络150可以包括八个中间模块。每个模块包括一个接一个地以堆叠排列的多个可分离卷积神经网络层。每个模块被配置为处理模块输入以生成模块输入的模块输出。然后，每个模块提供模块输出作为下一模块的输入，或者，如果当前模块之后没有模块，即如果该模块是系列中的最后一个模块，则提供模块输出作为可分离卷积子网络150的可分离卷积输出，例如，可分离卷积输出122。下面参考图2-图4详细提供入口模块、中间模块和出口模块的示例架构。

在各种实施方式中，神经网络系统100包括输入子网络，例如，输入子网络104，其被配置为接收输入图像102以及处理输入图像102以生成初始输出116。输入子网络104包括一个或多个卷积神经网络层。

一个或多个入口模块106被配置为接收初始输出116，以及共同处理初始输出116以生成入口输出118。

一个或多个中间模块108被配置为接收入口输出118，以及共同处理入口输出118以生成中间输出120。

出口模块110被配置为接收中间输出120以及共同处理中间输出120以生成可分离卷积子网络150的可分离卷积输出122。

在各种实施方式中，神经网络系统100包括输出子网络，例如，输出子网络112，其被配置为接收可分离卷积输出122作为输入。输出子网络112被配置为处理可分离卷积输出122以生成输入图像102的分类输出114。

输出子网络112的架构特定于神经网络系统100被配置为执行的任务。例如，当系统100正在执行图像分类任务时，输出子网络112包括softmax层，以及可选地，softmax层之前的一个或多个完全连接层，共同处理可分离卷积输出122以生成输入图像102的分类输出114。

图2示出了入口模块200的示例架构。

入口模块200被配置为接收入口输入202。在一些情况下，入口输入202是输入图像。在一些其他情况下，入口输入202是由输入子网络根据输入图像而生成的初始输出(例如，图1的初始输出116)。在一些其他情况下，入口输入202是由先前入口模块生成的模块输出。

入口模块200包括第一直通卷积层216，其被配置为处理入口输入202以生成第一直通输出218。第一直通卷积层216是1×1卷积层。

入口模块200还包括可分离卷积神经网络层(例如，可分离卷积层204和可分离卷积层208)的第一堆叠220。第一堆叠220中的可分离卷积神经网络层被配置为共同处理入口输入202以生成第一堆叠输出222。具体地，第一堆叠220中的每个可分离卷积神经网络层被配置为在处理可分离卷积神经网络层的输入期间分别应用深度卷积和点卷积两者以生成层输出。然后，每个可分离卷积层提供层输出作为下一个可分离卷积层的输入，或者如果当前层之后没有层，则提供层输出作为第一堆叠输出222。

在一些实施方式中，第一堆叠220中的一个或多个可分离卷积神经网络层之前是修正线性单元(rectified linear unit，ReLU)激活层。例如，可分离卷积层208之前是ReLU激活层206。ReLU激活层被配置为将ReLU激活函数应用于前一个可分离卷积层的输出以生成ReLU输出，该ReLU输出被提供作为ReLu激活层之后的下一个可分离卷积层的输入。

在一些实施方式中，第一堆叠220中的一个或多个可分离卷积神经网络层之后是执行批量归一化的批量归一化层。批量归一化层通过将归一化作为模型架构的一部分并对每个训练的小批量训练数据执行归一化，来使能更高的学习率和稳健的初始化。批量归一化在S.Ioffe和C.Szegedy在2015年的第32届机器学习国际会议论文集(Proceedings ofThe 32nd International Conference on Machine Learning)的第448-456页中的“Batchnormalization:Accelerating deep network training by reducing internalcovariate shift”中有详细描述。

入口模块200包括最大池化层210，其被配置为对第一堆叠输出222执行最大池化以生成最大池化输出224。

入口模块200还包括拼接层212，其被配置为拼接第一直通输出218和最大池化输出224以生成入口模块200的入口输出214。例如，拼接层212被配置为沿着深度维度拼接由第一直通卷积层216和最大池化层210生成的张量(tensor)以生成单个张量，即入口模块200的入口输出214。

然后，入口模块输出214被提供作为下一模块的输入，下一模块可以是另一个入口模块或中间模块。

图3示出中间模块(例如，中间模块300)的示例架构。通常，中间模块比入口模块具有更多的可分离卷积神经网络层，并且不包括如入口模块所包括的最大池化层。

中间模块300被配置为接收中间输入302。在一些情况下，中间输入302是由一个或多个先前的入口模块生成的入口输出，例如，由图1的入口模块106生成的入口输出118。在一些其他情况下，中间输入302是由前一个的中间模块生成的模块输出。

中间模块300包括第二直通卷积层322，其被配置为处理中间输入302以生成第二直通输出324。第二直通卷积层322是1×1卷积层。

中间模块300还包括可分离卷积神经网络层(例如，可分离卷积层306、310和314)的第二堆叠320。第二堆叠320中的可分离卷积神经网络层被配置为共同处理中间输入302以生成第二堆叠输出326。具体地，第二堆叠320中的每个可分离卷积神经网络层被配置为在处理可分离卷积神经网络层的输入期间分别应用深度卷积和点卷积两者以生成层输出。然后，每个可分离卷积层提供层输出作为下一个可分离卷积层的输入，或者如果当前层之后没有层，则提供层输出作为第二堆叠输出326。

在一些实施方式中，第二堆叠320中的每个可分离卷积神经网络层之前是ReLU激活层。例如，可分离卷积层306之前是ReLU激活层304，可分离卷积层310之前是ReLU激活层308，以及可分离卷积层314之前是ReLU激活层312。

第一ReLU激活层(例如，层304)被配置为将ReLU激活函数应用于中间输入302以生成中间输出，该中间输出被提供作为后一个可分离卷积层(例如，可分离卷积层306)的输入。后续的ReLU激活层(例如，ReLU激活层308和312)中的每一个被配置为将ReLU激活函数应用于前一个可分离卷积层的输出以生成中间输出，该中间输出被提供作为下一个可分离卷积层的输入。

在一些实施方式中，第二堆叠320中的一个或多个可分离卷积神经网络层之后是批量归一化层。

中间模块300还包括拼接层316，该拼接层316被配置为将第二直通输出324和堆叠输出326拼接以生成中间模块300的中间模块输出318。

中间输出318被提供作为下一个模块的输入，下一个模块可以是另一中间模块或出口模块。

图4是出口模块400的示例的框图。

出口模块400被配置为接收出口输入402。出口输入402是由一个或多个先前的中间模块生成的模块输出，例如，由图1的中间模块108生成的中间输出120。

出口模块400包括第三直通卷积层432，其被配置为处理出口输入402以生成第三直通输出434。第三直通卷积层432是1×1卷积层。

出口模块400还包括可分离卷积神经网络层(例如，可分离卷积层406和410)的第三堆叠420。第三堆叠420中的可分离卷积神经网络层被配置为共同处理出口输入402以生成第三堆叠输出436。具体地，第三堆叠420中的每个可分离卷积神经网络层被配置为在处理可分离卷积神经网络层的输入期间，分别应用深度卷积和点卷积两者以生成层输出。然后，每个可分离卷积层提供层输出作为下一个可分离卷积层的输入，或者如果当前层之后没有层，则提供层输出作为第三堆叠输出436。

在一些实施方式中，第三堆叠420中的每个可分离卷积神经网络层之前是ReLU激活层。例如，可分离卷积层406之前是ReLU激活层404，可分离卷积层410之前是ReLU激活层408。

第一ReLU激活层(例如，层404)被配置为将ReLU激活函数应用于出口输入402以生成中间输出，该中间输出被提供作为后一个可分离卷积层(例如，可分离卷积层406)的输入。后续的ReLU激活层(例如，ReLU激活层408)中的每一个被配置为将ReLU激活函数应用于前一个可分离卷积层的输出以生成中间输出，该中间输出被提供作为下一个可分离卷积层的输入。

在一些实施方式中，第三堆叠420中的一个或多个可分离卷积神经网络层之后是批量归一化层。

出口模块400包括最大池化层412，其被配置为对第三堆叠输出436执行最大池化以生成最大池化输出438。

出口模块400还包括拼接层414，其被配置为拼接第三直通输出434和最大池化输出438以生成拼接输出440。例如，拼接层414被配置为沿着深度维度拼接由第三直通卷积层432和最大池化层412生成的张量以生成单个张量，即拼接输出440。

出口模块400还包括可分离卷积神经网络层(例如，可分离卷积神经网络层416和422)的第四堆叠430。第四堆叠中的层被配置为共同处理拼接输出440以生成第四堆叠输出442。具体地，第四堆叠420中的每个可分离卷积神经网络层被配置为在处理可分离卷积神经网络层的输入期间，分别应用深度卷积和点卷积两者以生成层输出。然后，每个可分离卷积层提供层输出作为下一层的输入。

在一些实施方式中，第四堆叠430中的每个可分离卷积神经网络层之后是ReLU激活层。例如，可分离卷积层416之后是ReLU激活层418，并且可分离卷积层422之后是ReLU激活层424。每个ReLU激活层被配置为将ReLU激活函数应用于之前的可分离卷积层的输出以生成中间输出，该中间输出被提供作为下一个可分离卷积层的输入，或者如果在当前ReLU激活层之后没有可分离卷积层，则中间输出被提供作为第四堆叠输出442。

出口模块400还包括平均池化层426，其被配置为对第四堆叠输出442执行平均池化以生成出口输出428。出口输出428是可分离卷积子网络的可分离卷积输出，例如，图1的可分离卷积子网络150的可分离卷积输出122。

图5是用于生成输入图像的分类输出的示例过程500的流程图。为了方便，过程500将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当地编程的神经网络系统(例如，图1的神经网络系统100)可以执行过程500。

系统接收输入图像(步骤502)。

该系统使用包括可分离卷积子网络(例如，图1的可分离卷积子网络150)的神经网络系统处理输入图像以生成输入图像的网络输出(步骤504)。在一些实施方式中，系统首先使用输入子网络处理输入图像以生成初始输出，该初始输出被馈送到可分离卷积子网络作为输入。

可分离卷积子网络包括一系列模块，这一系列模块包括一个或多个入口模块，随后是一个或多个中间模块，随后是出口模块。系列中的每个模块包括一个接一个地以堆叠排列的多个可分离卷积神经网络层。系统通过系列中的每个模块处理输入图像或从输入图像导出的数据(例如，由输入子网络生成的初始输出)，以生成可分离卷积子网络的可分离卷积输出。

在一些实施方式中，系统使用输出子网络处理可分离卷积输出以生成输入图像的网络输出。在一些实施方式中，输出子网络包括softmax层，以及可选地，softmax层之前的一个或多个完全连接层，共同处理可分离卷积输出以生成输入图像的网络输出。在一些其他实施方式中，输出子网络包括逻辑回归层，以及可选地，逻辑回归层之前的一个或多个完全连接神经网络层，共同处理可分离卷积输出以生成输入图像的网络输出。

通常，由系统生成的网络输出可以是基于系统被配置为执行的图像处理任务的任何种类的分数、回归或分类输出。例如，如果系统被配置为执行图像分类或识别任务，则输出层生成的网络输出可以包括对于预定对象类别集中的每一个对象类别的相应分数，其中给定对象类别的分数表示输入图像包含属于该对象类别的对象的图像的可能性。作为另一示例，对于对象检测任务，系统生成的输出可以识别输入图像中感兴趣的对象的位置、大小或这两者。作为又一示例，由系统生成的输出可以是网络的隐藏层之一的输出，并且可以被提供用作输入图像的数字表示，即数字嵌入。

然后，系统提供网络输出或从网络输出导出的数据以呈现给用户(步骤506)。在一些实施方式中，从网络输出导出的输出可以是例如识别一个或多个得分最高的对象类别的数据。该系统可以提供网络输出或导出的输出以显示在用户的用户设备的用户界面上。在一些实施方式中，代替或除了提供网络输出或从网络输出导出的数据以呈现给用户之外，系统将网络输出或从网络输出导出的数据与输入图像相关联地存储。

系统可以使用传统的监督学习技术(例如，具有反向传播的随机梯度下降)，在标记的训练数据上训练可分离卷积子网络，以及输入和输出子网络(如果被包括的话)。也就是说，系统可以使用监督学习技术在标记的训练数据上训练可分离卷积子网络以及输入和输出子网络(如果被包括的话)，以根据子网络的初始值确定子网络参数的训练值。

本说明书结合系统和计算机程序组件使用术语“配置”。对于要被配置为执行特定操作或动作的一个或多个计算机的系统，意味着系统已经在其上安装了软件、固件、硬件、或它们的组合，这些软件、固件、硬件、或它们的组合在运行时使得系统执行操作或动作。对于被配置为执行特定操作或动作的一个或多个计算机程序，意味着该一个或多个程序包括指令，当数据处理装置执行该指令时，使得该装置执行操作或动作。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路、有形体现的计算机软件或固件、计算机硬件(包括本说明书中公开的结构及其结构等同物)中实施，或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以被实施为一个或多个计算机程序，即编码在有形的非暂时性存储介质上的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行访问存储器设备，或者它们中的一个或多个的组合。可替换地或附加地，程序指令可以被编码在人工生成的传播信号上，例如，机器生成的电、光或电磁信号，该信号被生成以编码信息，用于传输到合适的接收器装置用以被数据处理装置执行。

术语“数据处理装置”指的是数据处理硬件，并且涵盖用于处理数据的所有种类的装置、设备和机器，例如，包括可编程处理器、计算机或多个处理器或计算机。该装置还可以是或进一步包括专用逻辑电路，例如，FPGA(field programmable gate array，现场可编程门阵列)或ASIC(application-specific integrated circuit，专用集成电路)。除了硬件之外，该装置可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(也可以被称为或被描述为程序、软件、软件应用、应用程序(application，app)、模块、软件模块、脚本或代码)可以用任何形式的编程语言编写，包括编译或解析语言，或者声明性或程序性语言；并且它可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序或其他适合在计算环境中使用的单元。程序可以但不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中，例如，存储在标记语言文档中的一个或多个脚本，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件中，例如，存储一个或多个模块、子程序或部分代码的文件中。计算机程序可以被部署为在位于一个站点或分布在多个站点并通过数据通信网络互连的一个或多个计算机上执行。

本说明书中描述的过程和逻辑流可以由一个或多个可编程计算机执行，该可编程计算机运行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流也可以由专用逻辑电路，例如，FPGA或ASIC，或者由专用逻辑电路和一个或多个编程计算机的组合来执行。

适于执行计算机程序的计算机可以是基于通用或专用微处理器或这两者，或者任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储设备。中央处理单元和存储器可以被补充或结合到专用逻辑电路中。通常，计算机还将包括一个或多个用于存储数据的大容量存储设备，例如，磁盘、磁光盘或光盘，或者被可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传送到其，或既从其接收数据又将数据传送到其。然而，计算机不需要这种设备。此外，计算机可以被嵌入到另一设备中，例如，移动电话、个人数字助理(personal digital assistant，PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System，GPS)接收器或便携式存储设备，例如，通用串行总线(universal serial bus，USB)闪存驱动器，仅举几例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如，包括半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM光盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实施，该计算机具有用于向用户显示信息的显示设备，例如，CRT(cathode ray tube，阴极射线管)或LCD(liquid crystal display，液晶显示器)监视器，以及键盘和定点设备，例如，鼠标或轨迹球，用户可以通过该定点设备向计算机提供输入。也可以使用其他种类的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式从用户接收输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收到的请求而向用户设备上的网络浏览器发送网页。并且，计算机可以通过向个人设备(例如，运行消息发送应用的智能电话)发送文本消息或其他形式的消息，并且作为回应从用户接收响应消息来与用户交互。

用于实施机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元，其用于处理机器学习训练或生产的公共和计算密集型部分，即推理、工作负载。

机器学习模型可以使用机器学习框架来实施和部署，例如，TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架。

本说明书中描述的主题的实施例可以在计算系统中实施，该计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有图形用户界面的客户端计算机、网络浏览器或应用，用户可以通过其与本说明书中描述的主题的实施方式交互)，或者一个或多个这种后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)相互连接。通信网络的示例包括局域网(local area network，LAN)和广域网(wide area network，WAN)，例如，因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系是通过在相应的计算机上运行并且彼此之间具有客户端-服务器的关系的计算机程序产生的。在一些实施例中，服务器将数据(例如，HTML页面)传输到用户设备，例如，以用于向与充当客户端的设备进行交互的用户显示数据和从该用户接收用户输入。在用户设备处生成的数据(例如，用户交互的结果)可以在服务器处从设备接收。

虽然本说明书包含许多具体的实施细节，但这些不应被解释为对任何发明的范围或所要求保护的范围的限制，而是对特定于特定发明的特定实施例的特征的描述。本说明书中在各个实施例的上下文中描述的某些特征也可以在单个实施例中组合地实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独或以任何合适的子组合来实施。而且，尽管上述特征可以被描述为以某些组合起作用，并且甚至最初被要求保护，但是在一些情况下，来自所要求保护的组合的一个或多个特征可以从该组合中删除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中描绘了操作，并且在权利要求中以特定顺序叙述了操作，但这不应该被理解为需要以所示的特定顺序或先后顺序来执行这种操作或者需要执行所有示出的操作来取得期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。而且，上述实施例中各种系统模块和组件的分离不应该被理解为在所有实施例中都需要这种分离，并且应该理解，所描述的程序组件和系统通常可以集成在单个软件产品中或者打包到多个软件产品中。

已经描述了主题的特定实施例。其他实施例在以下权利要求的范围内。例如，权利要求中叙述的动作可以以不同顺序来执行，并且仍然取得期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或先后顺序来取得期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种由一个或多个计算机实施的神经网络系统，其中，所述神经网络系统被配置为接收输入图像以及生成所述输入图像的网络输出，并且其中所述神经网络系统包括：

可分离卷积子网络，其包括一个接一个地以堆叠排列的多个可分离卷积神经网络层，其中每个可分离卷积神经网络层被配置为：

在处理所述可分离卷积神经网络层的输入期间分别应用深度卷积和点卷积两者以生成层输出；和

输出子网络，其被配置为接收由所述可分离卷积子网络生成的可分离卷积输出，以及处理所述可分离卷积输出以生成所述输入图像的网络输出。

2.根据权利要求1所述的神经网络系统，还包括：

输入子网络，其被配置为接收所述输入图像以及处理所述输入图像以生成初始输出。

3.根据权利要求2所述的神经网络系统，其中，所述输入子网络包括一个或多个卷积神经网络层。

4.根据权利要求2所述的神经网络系统，其中，所述可分离卷积子网络包括一个或多个入口模块，并且其中所述入口模块被配置为接收所述初始输出，以及共同处理所述初始输出以生成入口输出。

5.根据权利要求4所述的神经网络系统，其中，每个入口模块包括：

相应的第一直通卷积层，被配置为处理所述入口模块的模块输入以生成第一直通输出；

相应的可分离卷积神经网络层的第一堆叠，其中，所述第一堆叠中的层被配置为共同处理所述模块输入以生成第一堆叠输出；

相应的最大池化层，被配置为对第一堆叠输出执行最大池化以生成最大池化输出；和

相应的第一拼接层，被配置为拼接第一直通输出和最大池化输出以生成所述入口模块的入口模块输出。

6.根据权利要求4所述的神经网络系统，其中，所述可分离卷积子网络包括三个入口模块。

7.根据权利要求5所述的神经网络系统，其中，所述第一直通卷积层是1×1卷积层。

8.根据权利要求5所述的神经网络系统，其中，所述第一堆叠中的可分离卷积神经网络层由修正线性单元激活层分离。

9.根据权利要求5所述的神经网络系统，其中，所述第一堆叠中的一个或多个可分离卷积神经网络层之后是批量归一化层。

10.根据权利要求4所述的神经网络系统，其中，所述可分离卷积子网络包括一个或多个中间模块，并且其中所述中间模块被配置为接收所述入口输出以及共同处理所述入口输出以生成中间输出。

11.根据权利要求10所述的神经网络系统，其中，每个中间模块包括：

相应的第二直通卷积层，被配置为处理所述中间模块的模块输入以生成第二直通输出；

相应的可分离卷积神经网络层的第二堆叠，其中，所述第二堆叠中的层被配置为共同处理所述模块输入以生成第二堆叠输出；和

相应的第二拼接层，被配置为拼接第二直通输出和第二堆叠输出以生成所述中间模块的中间模块输出。

12.根据权利要求10所述的神经网络系统，其中，所述可分离卷积子网络包括八个中间模块。

13.根据权利要求11所述的神经网络系统，其中，所述第二直通卷积层是1×1卷积层。

14.根据权利要求11所述的神经网络系统，其中，所述第二堆叠中的每个可分离卷积神经网络层之前是修正线性单元激活层。

15.根据权利要求11所述的神经网络系统，其中，所述第二堆叠中的一个或多个可分离卷积神经网络层之后是批量归一化层。

16.根据权利要求10所述的神经网络系统，其中，所述可分离卷积子网络包括出口模块，并且其中所述出口模块被配置为接收所述中间输出以及处理所述中间输出以生成所述可分离卷积子网络的可分离卷积输出。

17.根据权利要求16所述的神经网络系统，其中，所述出口模块包括：

第三直通卷积层，被配置为处理所述中间输出以生成第三直通输出；

可分离卷积神经网络层的第三堆叠，其中，所述第三堆叠中的层被配置为共同处理所述中间输出以生成第三堆叠输出；

第三最大池化层，被配置为对所述第三堆叠输出执行最大池化以生成第三最大池化输出；和

第三拼接层，被配置为拼接第三直通输出和第三最大池化输出以生成拼接输出。

18.根据权利要求17所述的神经网络系统，其中，所述第三直通卷积层是1×1卷积层。

19.根据权利要求17所述的神经网络系统，其中，所述第三堆叠中的每个可分离卷积神经网络层之前是修正线性单元激活层。

20.根据权利要求17所述的神经网络系统，其中，所述第三堆叠中的一个或多个可分离卷积神经网络层之后是批量归一化层。

21.根据权利要求17所述的神经网络系统，其中，所述出口模块还包括：

可分离卷积神经网络层的第四堆叠，其中，所述第四堆叠中的层被配置为共同处理所述拼接输出以生成第四堆叠输出；和

平均池化层，被配置为对第四堆叠输出执行平均池化以生成可分离卷积输出。

22.根据权利要求21所述的神经网络系统，其中，所述第四堆叠中的每个可分离卷积神经网络层之后是修正线性单元激活层。

23.根据权利要求21所述的神经网络系统，其中，所述第四堆叠中的一个或多个可分离卷积神经网络层之后是批量归一化层。

24.一个或多个用指令编码的存储介质，当由一个或多个计算机实施指令时，使得所述一个或多个计算机实施权利要求1-23中任一项的相应的神经网络系统。

25.一种用于使用深度神经网络处理图像的方法，包括：

接收输入图像；和

使用权利要求1-23中任一项的相应的神经网络系统处理所述输入图像以生成所述输入图像的网络输出。

26.根据权利要求25所述的方法，还包括：

提供所述网络输出或从所述网络输出导出的输出以呈现给用户。