CN115880560A

CN115880560A - 经由等渗卷积神经网络的图像处理

Info

Publication number: CN115880560A
Application number: CN202211206078.XA
Authority: CN
Inventors: A·特罗克曼; J·科特; D·T·维尔莫特; F·孔德萨
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-09-28
Filing date: 2022-09-28
Publication date: 2023-03-31
Also published as: US11922291B2; JP2023049041A; DE102022210129A1; US20230096021A1

Abstract

一种卷积神经网络系统包括传感器和控制器，其中所述控制器被配置成：从所述传感器接收图像；将所述图像划分成补片，每个补片具有大小p；经由第一卷积层基于大小p的特征检测器来提取具有多个通道的特征图，其中所述特征检测器具有等于大小p的步幅；通过交替地应用逐深度卷积层和逐点卷积层来改善所述特征图以获得经改善的特征图，其中所述特征图中的通道的数目和所述特征图的大小遍及改善中的所有操作而保持恒定；以及输出经改善的特征图。

Description

经由等渗卷积神经网络的图像处理

技术领域

本公开总体上涉及使用等渗卷积神经网络的图像处理。更具体地，本申请涉及允许等渗卷积神经网络中的减少的参数的改进。

背景技术

对象辨别是涉及将图像分类成预定义数目的类的计算机视觉中的基本问题。归功于大的且加标签的数据集以及强大计算基础设施的可用性，卷积神经网络（CNN）已经实现关于该问题的最先进结果。CNN自动地从训练图像提取判别分类特征，并组合地使用它们以辨别复杂对象。这使CNN能够在大规模数据集（诸如，ImageNet）上显著地胜出传统计算机视觉途径，这是由于后者通常依赖于启发式特征。

发明内容

第一说明性实施例公开了一种用于利用卷积神经网络来处理图像的计算机实现方法。所述方法包括：接收图像；将所述图像划分成补片，每个补片具有大小p；经由第一卷积层基于大小p的特征检测器来提取具有多个通道的特征图，其中所述特征检测器具有等于大小p的步幅；通过交替地应用逐深度卷积层和逐点卷积层来改善所述特征图以获得经改善的特征图，其中所述特征图中的通道的数目和所述特征图的大小遍及改善中的所有操作而保持恒定；以及输出经改善的特征图。

第二说明性实施例公开了一种用于利用卷积神经网络来处理图像的计算机实现方法。所述计算机实现方法包括：接收大小L x W的图像；将所述图像划分成补片，其中每个补片的组合大小等于L x W；经由第一卷积层基于等于补片大小的大小的特征检测器来提取具有多个通道的特征图，其中所述特征检测器具有等于补片大小的步幅；通过交替地应用逐深度卷积层和逐点卷积层来改善所述特征图以获得经改善的特征图，其中所述特征图中的通道的数目和所述特征图的大小遍及改善中的所有操作而保持恒定；以及输出经改善的特征图。

第三说明性实施例公开了：一种卷积神经网络系统包括传感器和控制器，其中所述控制器被配置成：从所述传感器接收图像；将所述图像划分成补片，每个补片具有大小p；经由第一卷积层基于大小p的特征检测器来提取具有多个通道的特征图，其中所述特征检测器具有等于大小p的步幅；通过交替地应用逐深度卷积层和逐点卷积层来改善所述特征图以获得经改善的特征图，其中所述特征图中的通道的数目和所述特征图的大小遍及改善中的所有操作而保持恒定；以及输出经改善的特征图。

附图说明

图1是用于训练神经网络的系统的框图。

图2是各向同性卷积神经网络的流程图，其中特征图中的通道的数目和特征图的大小遍及所有操作而保持恒定。

图3是利用机器学习模型的数据注释系统的框图。

图4是针对具有补片大小14的ConvMixer-1024/20的补片嵌入权重的图形表示。

图5是电子计算系统的框图。

图6是图像、补片大小和通道深度的图形表示。

图7是针对图6的图像的补片嵌入的权重向量的图形表示。

图8是针对每个补片的通道深度的2维布局的图形表示。

图9是具有通道深度的每个特征图的3维布局的图形表示。

图10是来自ConvMixer-1536/20的逐渐更深层的64个逐深度卷积内核的具体子集的图形表示。

图11是被配置成控制交通工具的控制系统的示意图。

图12是被配置成控制制造机器的控制系统的示意图。

图13是被配置成控制电动工具的控制系统的示意图。

图14是被配置成控制自动化个人助理的控制系统的示意图。

图15是被配置成控制监视系统的控制系统的示意图。

图16是被配置成控制医学成像系统的控制系统的示意图。

具体实施方式

如所要求的那样，本文公开了本发明的详细实施例；然而，应当理解，所公开的实施例仅仅例证了可以以各种且可替换的形式体现的本发明。附图不必按比例绘制；一些附图可以被夸大或最小化以示出特定部件的细节。因此，本文公开的具体结构和功能细节不应被解释为限制，而是仅被解释为用于教导本领域技术人员以各种方式采用本发明的代表性基础。

本文可以使用术语“基本上”以描述所公开或要求保护的实施例。术语“基本上”可以修改在本公开中公开或要求保护的值或相对特性。在这种实例中，“基本上”可以表示其所修改的值或相对特性处于值或相对特性的±0%、0.1%、0.5%、1%、2%、3%、4%、5%或10%内。

术语传感器指代检测或测量物理性质且对它进行记录、指示或以其他方式响应的设备。术语传感器包括光学、光、成像或光子传感器（例如，电荷耦合器件（CCD）、CMOS有源像素传感器（APS）、红外传感器（IR）、CMOS传感器）、声学、声音或振动传感器（例如，麦克风、地震检波器、水听器）、汽车传感器（例如，轮速、停车、雷达、氧气、盲点、转矩）、化学传感器（例如，离子敏感场效应晶体管（ISFET）、氧气、二氧化碳、化学电阻器、全息传感器）、电流、电势、磁或射频传感器（例如，霍尔效应、磁力计、磁阻、法拉第杯、检流计）、环境、天气、水分或湿度传感器（例如，天气雷达、曝光表）、流量或流体速度传感器（例如，质量空气流量传感器、风速计）、电离辐射或亚原子粒子传感器（例如，电离室、盖革计数器、中子检测器）、导航传感器（例如，全球定位系统（GPS）传感器、磁流体动力学（MHD）传感器）、位置、角度、位移、距离、速度或加速度传感器（例如，LIDAR、加速度计、超宽带雷达、压电传感器）、力、密度或液位传感器（例如，应变计、核密度计）、热、热量或温度传感器（例如，红外温度计、高温计、热电偶、热敏电阻、微波辐射计）、或者其目的是检测或测量物理性质且对它进行记录、指示或以其他方式响应的其他设备、模块、机器或子系统。

图1示出了用于训练神经网络的系统100。系统100可以包括用于访问针对神经网络的训练数据192的输入接口。例如，如图1中所图示，输入接口可以由可访问来自数据储存器190的训练数据192的数据储存器接口180构成。例如，数据储存器接口180可以是存储器接口或持久储存器接口，例如硬盘或SSD接口，但也可以是个域网、局域网或广域网接口，诸如蓝牙、Zigbee或Wi-Fi接口或者以太网或光纤接口。数据储存器190可以是系统100的内部数据储存器，诸如硬盘或SSD，但也可以是外部数据储存器，例如网络可访问数据储存器。

在一些实施例中，数据储存器190可以进一步包括可由系统100从数据储存器190访问的神经网络的未经训练版本的数据表示194。然而，应当领会，未经训练的神经网络的训练数据192和数据表示194也均可以是从不同数据储存器（例如，经由数据储存器接口180的不同子系统）访问的。每个子系统可以是如上面针对数据储存器接口180而描述的类型的。在其他实施例中，未经训练的神经网络的数据表示194可以由系统100在针对神经网络的设计参数的基础上内部生成，且因而可以不显式地存储在数据储存器190上。系统100可以进一步包括处理器子系统160，其可以被配置成在系统100的操作期间提供迭代函数作为针对要训练的神经网络的层堆叠的代替物。在一个实施例中，被代替的层堆叠的相应层可能已经互相共享权重，且可以接收前一层的输出作为输入，或者针对层堆叠的第一层、初始激活、以及层堆叠的输入的部分。系统还可以包括多个层。处理器子系统160可以进一步被配置成使用训练数据192来迭代地训练神经网络。这里，由处理器子系统160对训练的迭代可以包括前向传播部分和后向传播部分。处理器子系统160可以被配置成：通过除其他操作外定义可执行的前向传播部分、确定在其处迭代函数收敛到固定点的迭代函数均衡点、以及通过提供均衡点作为针对神经网络中的层堆叠的输出的代替物，来执行前向传播部分，其中确定均衡点包括使用数值寻根算法以找到针对迭代函数减去其输入的根解。系统100可以进一步包括用于输出经训练的神经网络的数据表示196的输出接口，该数据还可以被称作经训练的模型数据196。例如，还如图1中所图示，输出接口可以由数据储存器接口180构成，其中所述接口在这些实施例中是输入/输出（“IO”）接口，经由该输入/输出（“IO”）接口，经训练的模型数据196可以被存储在数据储存器190中。例如，定义“未经训练的”神经网络的数据表示194可以在训练期间或之后至少部分地被经训练的神经网络的数据表示196替换，其中，神经网络的参数（诸如，权重、超参数以及神经网络的其他类型的参数）可以被适配成反映训练数据192上的训练。这也在图1中由指代数据储存器190上的相同数据记录的附图标记194、196图示。在其他实施例中，数据表示196可以与定义“未经训练的”神经网络的数据表示194分离地被存储。在一些实施例中，输出接口可以与数据储存器接口180分离，但一般可以是如上面针对数据储存器接口180而描述的类型的。

图2是各向同性卷积神经网络200的流程图，其中特征图中的通道的数目和特征图的大小遍及所有操作而保持恒定。在步骤202中，控制器执行卷积。卷积可以是逐像素卷积（例如，1 x 1）或逐补片卷积（例如，p x p）。如果卷积是像p x p之类的逐补片的，则步幅将是p，使得不存在重叠。在步骤204中，控制器执行激活函数，其包括被应用于特征图的每个元素的非线性函数。激活函数被示作高斯误差线性单元（GELU），然而，激活函数可以是修正线性单元（ReLU）、指数线性单元（ELU）、带泄漏修正线性单元（Leaky ReLU）、缩放指数线性单元（SELU）或其他激活函数。在步骤206中，控制器执行批量归一化函数，其是跨整个批量对值的求平均。步骤202、204和206组成卷积层。

在步骤208中的是逐深度卷积。在步骤210中，控制器执行如步骤204中描述的激活函数。在步骤212中，控制器执行批量归一化函数，其是跨整个批量对值的求平均。步骤208、210和212组成逐深度卷积层。控制器可以可选地将逐深度卷积层的输入特征图添加到输出。

在步骤214中的是逐点卷积，该卷积可以是逐像素卷积（例如，1 x 1）。在步骤216中，控制器执行如步骤204中描述的激活函数。在步骤218中，控制器执行批量归一化函数，其是跨整个批量对值的求平均。步骤214、216和218组成逐点卷积层。控制器可以可选地将逐像素卷积层的输入特征图添加到输出。

在步骤220中，控制器在特征图中的所有像素上求平均。在步骤222中，控制器执行线性变换以预测类。

逐深度和逐点地交替卷积的组合的优势之一包括相对于传统CNN在参数方面的减少。这里呈现的架构包括三个阶段：（1）补片嵌入，用于将输入投影到更高维度空间上以用于处理；（2）全卷积块的重复应用；以及（3）全局池化，后跟有线性分类器（例如，softmax）。第一步骤（1）可以包括具有步幅p的来自3→ h个通道的p x p-内核卷积，其中p是补片大小。然后在步骤（2）中包括来自h → h个通道的k x k-内核逐深度可分离卷积（其中如此填充，输入和输出维度是相同的），后跟有来自h → h个通道的1 x 1-内核卷积。每个卷积后跟有如上描述的激活函数（例如，GELU）和激活后的批量归一化函数（例如，BatchNorm）。

之后是混合。逐深度可分离卷积已经产生具有相对大内核大小k（诸如，9）的改进结果。该层混合了空间信息，包括来自由于大内核大小所致的远位置。接着，1x1卷积混合通道信息。这些与MLP-混合器的令牌混合和通道混合步骤相似。

各向同性。在补片嵌入步骤之后，网络的内部分辨率始终是h/p×w/p。在高分辨率内部表示上执行具有大内核大小的卷积可能是昂贵的。然而，在傅里叶域中，该操作的运行时间与内核大小无关，这可能是在其中框架自动切换到FFT处理的选择深度学习框架中利用的。

图3描绘了用于实现用于注释数据的系统的数据注释系统300。数据注释系统300可以包括至少一个计算系统302。计算系统302可以包括操作连接到存储器单元308的至少一个处理器304。处理器304可以包括实现中央处理单元（CPU）306的功能的一个或多个集成电路。CPU 306可以是实现指令集（诸如，x86、ARM、Power或MIPS指令集族之一）的商业上可得的处理单元。在操作期间，CPU 306可以执行从存储器单元308检索的所存储的程序指令。所存储的程序指令可以包括对CPU 306的操作进行控制以执行本文描述的操作的软件。在一些示例中，处理器304可以是片上系统（SoC），其将CPU 306、存储器单元308、网络接口和输入/输出接口的功能集成到单个集成设备中。计算系统302可以实现用于管理操作的各种方面的操作系统。

存储器单元308可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括固态存储器，诸如NAND闪速存储器、磁和光学储存介质、或者在计算系统302被去激活或损失电功率时保留数据的任何其他合适数据储存设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器（RAM）。例如，存储器单元308可以存储机器学习模型310或算法、针对机器学习模型310的训练数据集312、原始源数据集315。模型310可以包括如在本公开中描述且在图2中图示的卷积神经网络。而且，训练数据集312可以包括如在本公开中描述且在图2、4、6、7、8、9和10中图示的特征和特征提取器。并且，原始源315可以包括来自如在本公开中描述且在图6、11、12、13、14、15和16中图示的多个输入模态的数据。

计算系统302可以包括被配置成提供与外部系统和设备的通信的网络接口设备322。例如，网络接口设备322可以包括如电气和电子工程师学会（IEEE）802.11标准族所定义的有线和/或无线以太网接口。网络接口设备322可以包括用于与蜂窝网络（例如，3G、4G、5G）通信的蜂窝通信接口。网络接口设备322可以进一步被配置成提供面向外部网络324或云的通信接口。

外部网络324可以被称作万维网或因特网。外部网络324可以在计算设备之间建立标准通信协议。外部网络324可以允许在计算设备与网络之间容易地交换信息和数据。一个或多个服务器330可以与外部网络324通信。

计算系统302可以包括可被配置成提供数字和/或模拟输入和输出的输入/输出（I/O）接口320。I/O接口320可以包括用于与外部设备通信的附加串行接口（例如，通用串行总线（USB）接口）。

计算系统302可以包括人机接口（HMI）设备318，其可以包括使系统300能够接收控制输入的任何设备。输入设备的示例可以包括人机输入，诸如键盘、鼠标、触摸屏、语音输入设备和其他类似设备。计算系统302可以包括显示设备332。计算系统302可以包括用于将图形和文本信息输出到显示设备332的硬件和软件。显示设备332可以包括用于将信息显示给用户或操作者的电子显示屏、投影仪、打印机或其他合适设备。计算系统302可以进一步被配置成允许经由网络接口设备322而与远程HMI和远程显示设备的交互。

系统300可以是使用一个或多个计算系统来实现的。尽管示例描绘了实现所有所描述的特征的单个计算系统302，但意图是，各种特征和功能可以由彼此通信的多个计算单元分离和实现。所选择的特定系统架构可以取决于多种因素。

系统300可以实现被配置成分析原始源数据集315的机器学习算法310。原始源数据集315可以包括可表示针对机器学习系统的输入数据集的原始的或未经处理的传感器数据。原始源数据集315可以包括视频、视频片段、图像、基于文本的信息和原始的或部分处理的传感器数据（例如，对象的雷达图）。在一些示例中，机器学习算法310可以是被设计成执行预定功能的神经网络算法。例如，神经网络算法可以被配置在汽车应用中以识别视频图像中的行人。

计算机系统300可以存储针对机器学习算法310的训练数据集312。训练数据集312可以表示用于训练机器学习算法310的先前构造的数据的集合。训练数据集312可以被机器学习算法310使用以学习与神经网络算法相关联的加权因子。训练数据集312可以包括具有机器学习算法310尝试经由学习过程而复制的对应成果或结果的源数据的集合。在该示例中，训练数据集312可以包括具有和不具有行人的源视频以及对应的存在和位置信息。源视频可以包括其中行人被识别的各种场景。

可以在学习模式中使用训练数据集312作为输入来操作机器学习算法310。可以使用来自训练数据集312的数据来在多个迭代内执行机器学习算法310。随着每次迭代，机器学习算法310可以基于所实现的结果来更新内部加权因子。例如，机器学习算法310可以将输出结果（例如，注释）与在训练数据集312中包括的那些进行比较。由于训练数据集312包括期望结果，因此机器学习算法310可以确定性能何时可接受。在机器学习算法310实现预定性能水平（例如，对与训练数据集312相关联的成果100%同意）之后，可以使用不处于训练数据集312中的数据来执行机器学习算法310。可以将经训练的机器学习算法310应用于新数据集以生成经注释的数据。

机器学习算法310可以被配置成识别原始源数据315中的特定特征。原始源数据315可以包括多个实例或输入数据集，针对该多个实例或输入数据集，注释结果是期望的。例如，机器学习算法310可以被配置成识别行人在视频图像中的存在并对发生的事进行注释。机器学习算法310可以被编程成处理原始源数据315以识别特定特征的存在。机器学习算法310可以被配置成将原始源数据315中的特征识别为预定特征（例如，行人）。原始源数据315可以是从多种源导出的。例如，原始源数据315可以是由机器学习系统收集的实际输入数据。原始源数据315可以是机器生成的，以用于测试系统。作为示例，原始源数据315可以包括来自相机的原始视频图像。

在示例中，机器学习算法310可以处理原始源数据315并输出图像的表示的指示。输出还可以包括图像的增强表示。机器学习算法310可以生成针对所生成的每个输出的置信水平或因子。例如，超过预定高置信阈值的置信值可以指示机器学习算法310确信所识别的特征对应于特定特征。小于低置信阈值的置信值可以指示机器学习算法310有些不确定存在特定特征。

图4是针对具有如表1中描述的补片大小14的ConvMixer-1024/20的补片嵌入权重可视化400的图形表示。

示例机器架构和机器可读介质。图5是适于实现系统或执行本文公开的方法的电子计算系统的框图。图5的机器被示作独立设备，其适于实现本公开内的构思。对于上面描述的服务器方面，可以使用在数据中心、云架构的一部分等等中操作的多个这种机器。在服务器方面中，不是所有所图示的功能和设备都被利用。例如，尽管用户使用以与服务器和/或云架构交互的系统、设备等可以具有屏幕、触摸屏输入等，但服务器常常不具有屏幕、触摸屏、相机等等且典型地通过具有适当输入和输出方面的所连接的系统来与用户交互。因此，下面的架构应当被视为涵盖多种类型的设备和机器，并且取决于其形状因子和目的（例如，服务器极少具有相机，而可穿戴物极少包括磁盘），各种方面可能或可能不存在于任何特定设备或机器中。然而，图5的示例解释适于允许本领域技术人员确定如何利用硬件和软件的适当组合实现先前描述的实施例，该适当组合具有对所使用的特定设备、机器等的所图示的实施例的适当修改。

尽管仅图示了单个机器，但术语“机器”还应当被视为包括个体地或联合地执行指令集合（或多个集合）以执行本文讨论的方法中的任何一个或多个的机器的任何合集。

机器500的示例包括经由链路508彼此通信的至少一个处理器502（例如，控制器、微控制器、中央处理单元（CPU）、图形处理单元（GPU）、张量处理单元（TPU）、高级处理单元（APU）或其组合）、一个或多个存储器，诸如主存储器504、静态存储器506或其他类型的存储器。链路508可以是总线或其他类型的连接通道。机器500可以包括：进一步可选的方面，诸如图形显示单元510，包括任何类型的显示器。机器500还可以包括其他可选方面，诸如字母数字输入设备512（例如键盘、触摸屏等等）、用户接口（UI）导航设备514（例如鼠标、轨迹球、触摸设备等等）、储存单元516（例如，（一个或多个）盘驱动器或其他储存设备）、信号生成设备518（例如，扬声器）、（一个或多个）传感器521（例如全球定位传感器、（一个或多个）加速度计、（一个或多个）麦克风、（一个或多个）相机等等）、输出控制器528（例如，与一个或多个其他设备连接和/或通信的有线或无线连接，该一个或多个其他设备诸如是通用串行总线（USB）、近场通信（NFC）、红外（IR）、串行/并行总线等）、以及用于连接到一个或多个网络526和/或在一个或多个网络526上通信的网络接口设备520（例如，有线和/或无线）。

各种存储器（即，504、506和/或（一个或多个）处理器502的存储器）和/或储存单元516可以存储体现本文描述的方法或功能中的任何一个或多个或者由本文描述的方法或功能中的任何一个或多个利用的一个或多个指令集和数据结构（例如，软件）524。这些指令在由（一个或多个）处理器502执行时使各种操作实现所公开的实施例。

图6是具有长度602和宽度604的图像600（这里被示作n x n）、由补片长度606和补片宽度608定义的补片大小（这里被示作p x p）和通道深度610（这里被示作c）的图形表示。例如，如果图像是基于RGB（红绿蓝）的图像，那么c可以是输入通道的数目或针对RGB的3。然而，如果图像可以基于它被如何表示而具有更多或更少通道。考虑由诸如声音、IR、RADAR、LIDAR、磁成像等生成的图像可以具有大于3个通道。

图7是针对图6的图像的补片嵌入的权重向量的图形表示。这里，h是取决于架构的特征图中的通道的数目。由于补片和步幅是相等的，因此不存在重叠并且y ₁将对应于图像的左上补片，y ₂将对应于图像的中上补片，y ₃将对应于图像的右上补片等等。

图8是针对每个补片的通道深度的2维布局800的图形表示。查看2D布局的优势包括：逐点卷积分离地作用于每个像素上，并且因此，不考虑空间关系，从而允许可更高效的密集矩阵乘法。

图9是具有通道深度的每个特征图的3维布局900的图形表示。3D布局维持空间关系，使得深度现在由作为补片嵌入的维度的h表示，或者换句话说，h是特征图中的通道的数目。

图10是来自ConvMixer-1536/20的逐渐更深层的64个逐深度卷积内核的具体子集的图形表示。图像对应于（a）层1、（b）层4、（c）层6、（d）层9、（e）层11、（f）层13、（g）层15、（h）层17和（i）层19。

卷积已经越来越多地被自注意力和更一般的线性变换所替换，常常在放弃传统金字塔形状设计的网络中。这些网络具有更宽容的归纳偏置，且因而常常要求多得多的数据。这些网络往往增加权重共享，避免池化，并混合来自远空间位置的信息。本公开在提高数据效率和可训练性的同时呈现了简单而有竞争力的全卷积架构，其保留使用自注意力和更一般的线性变换而牺牲的性质。简单而有竞争力的全卷积架构“ConvMixer”在不具有预先训练且典型地具有一小部分参数的ImageNet-1K和CIFAR-10上实现高准确度。例如，我们在具有672K个参数的CIFAR-10上实现96.3%准确度，且在具有14.6M个参数的ImageNet-1K上实现77.5%顶级-1准确度（top-1 accuracy）。

卷积神经网络已经是计算机视觉任务的主导途径达许多年。但是最近，随着视觉变换器的来临，关注已经转移到主要聚焦于自注意力的可替换架构，其展示新操作符而不是卷积。这些架构常常比现代卷积网络更简单；例如，它们往往排除向下采样（像跨步和池化），代之以包括被重复地应用于均为相同大小（或各向同性）的特征图的相同块。

与相对复杂的卷积网络的该背离伴随着补片嵌入的引入。也就是说，第一层是被相同地应用于输入的非重叠正方形区的线性变换（图6）。然后，模型处理补片嵌入而不是原始图像（图7）。

在这些新架构中，聚光灯已经主要在像自注意力或仅多层感知器之类的非传统且常常更有表现力的操作符上。然而，在计算机视觉任务中，这些新操作已经与新网络设计同时被引入。本公开说明了使操作符的影响从架构的影响摆脱的优点。常常，自注意力被放在传统地设计的神经网络或融合卷积和自注意力内部。本公开在各向同性架构中呈现了仅传统操作（即，卷积）。

本公开使用补片嵌入来本着视觉变换器的精神而呈现极简单的架构，该补片嵌入使用仅标准逐深度和逐点卷积操作。

尽管它是简单的并且它使用理论上更便宜的卷积层，该架构可与像ResNet和DeiT之类的现在规范的模型竞争，即使当全部在相同现代流水线中被训练（即，timm中的接近默认的设置）时亦如此。

这突出显示了在许多最近工作中使用的新的简单各向同性架构设计的优势。此外，为了强调补片嵌入是实现该网络设计的内容：取代逐渐地向下采样，补片层立即将输入转换成遍及网络而维持的合理预定大小。

被称为ConvMixer的该模型由补片嵌入后跟有简单全卷积块的重复应用构成。重要的是，将“3D布局”用于具有图9中图示的维度h的补片嵌入，对于补片大小p，其可以被实现为卷积：

。

块由逐深度卷积后跟有逐点（例如，1x1）卷积构成，其中每一个卷积后跟有激活和激活后BatchNorm：

在该块的多次应用之后，系统然后执行全局池化以得到大小h的特征向量，其然后可以利用线性分类器而分类。

设计参数。ConvMixer的实例化取决于四个参数：（1）隐藏的维度h（即，补片嵌入的维度）；（2）深度d或者全卷积块的重复的数目；（3）补片大小p，其控制模型的内部分辨率；（4）逐深度卷积层的内核大小k。ConvMixer的命名基于它们的隐藏维度和深度，像ConvMixer-h/d。如在本公开中稍后图示的那样，ConvMixer最佳地适用于异常地大的内核大小和小补片大小。（所预期的）输入大小n除以补片大小p被称作内部分辨率。

动机。该架构基于混合的思想。例如，考虑用于混合空间位置的逐深度卷积和用于混合通道位置的逐点卷积。关键思想是：MLP和自注意力可以混合远空间位置，即，它们可以具有任意大的感受野。因此，可以假设，大内核将对混合远空间位置来说至关重要。

补片嵌入。简单地，具有内核大小p、p的步幅和h个内核的卷积。h是补片嵌入维度。在另一实施例中，这可以被重新成形为

矩阵。因此，空间数据保持完整且适用于

个张量。由于该模型维持由补片嵌入实现的相同内部分辨率吞吐量，因此它可以被称作各向同性的。

尽管自注意力和多层感知器（MLP）是更灵活的从而允许大感受野和内容感知行为，但卷积具有若干优点。包括平移不变性的其归纳偏置顺从视觉任务且导致高数据效率。进一步地，全卷积可以被应用于可变大小的输入，这在实践中有用且允许训练加速；卷积非常顺从低水平优化。

下面是该模型的实施例在PyTorch中的实现，其能够在具有最小调谐的ImageNet上有81.4%顶级-1准确度。模块Reduce和Residual处于einops封装中且在下面示出。

这是ConvMixer的示例性PyTorch实现，其中h = dim，d = depth，p = patch_size，k = kernel_size。

在一个实施例中，执行了CIFAR-10上的小规模实验，其中ConvMixer关于少达0.7M个参数实现了超过96%的准确度。这演示了卷积归纳偏置的数据效率。使用了针对残差连接的若干配置，并且发现了在逐点卷积（等式3）之后排除一个配置导致了更快收敛。利用LayerNorm替换BatchNorm将准确度降低了≈1%。参见表1。

表1：在CIFAR-10上训练ConvMixer-256/8的小型消融研究。

结果。具有50M左右个参数的ConvMixer-1536/20在ImageNet上实现了81.4%顶级-1准确度，并且具有20M个参数的ConvMixer-768/32实现了80.2%左右（参见表1）。更宽的ConvMixer似乎在更少时期中收敛，但为存储器密集型和计算密集型的。具有更小补片的ConvMixer表现得基本上更好。更大补片要求更深ConvMixer。尽管可以期望大内核是至关重要的，然而，ConvMixer-1536/20在k = 9的情况下接收了81.37%准确度且在k = 3的情况下接收了80.4%，这是比期望更小的影响。就参数而言，设置k = 9是值得的折衷，但吞吐量和训练时间是对于k = 3而言的两倍左右快。

表2图示了ConvMixer实现针对给定参数预算的有竞争力的准确度：DeiT-B针对86M个参数得到81.8%准确度，而ConvMixer-1536/20针对52M个参数得到81.37%准确度。相同ConvMixer还胜出以相同方式训练的ResNet-152，其具有79.64%准确度和60M个参数。然而，可比较的ConvMixer是ResNet的1/4倍快且DeiT的少达1/7倍快。未来的优化可以改变这一点。这主要是因为ConvMixer使用了p =7，而DeiT使用了p =16，这限制了我们的比较。对于更接近的比较，具有p = 16和5.8M个参数的ConvMixer-512/16得到72.6%准确度，而具有5M个参数的DeiT-Ti得到72.2%准确度；ConvMixer是≈1/2.5倍快。对于类似补片大小和参数，ConvMixer-768/32比ResMLP-S12/8稍微更准确，但具有0.3倍吞吐量。

表2：使用批量大小64在RTX8000 GPU上测量的所有吞吐量。

各向同性架构。视觉变换器已经激发针对第一层而使用补片嵌入的各向同性架构的新范式。这些模型看起来与具有替换自注意力和MLP操作的不同操作的重复变换器-编码器块类似。例如，MLP-混合器利用跨不同维度（即，空间和通道位置混合）而应用的MLP替换它们全部两者；ResMLP是关于该主题的数据高效变型。CycleMLP、gMLP和视觉置换器利用各种新操作替换一个或全部两个块。这些都是相当高性能的，这典型地归因于操作的新选择。早于视觉变换器的研究调研了各向同性（或“等距”）MobileNet，且甚至在另一名称下实现补片嵌入。它们的架构仅重复各向同性MobileNetv3块。它们识别补片大小与匹配于我们的经验的准确度之间的折衷，并训练类似地高性能的模型（参见附录2）。然而，它们的块基本上比我们的块更复杂；简单性和动机使我们的工作显得突出。我们强调，这些工作共同具有：实现简单架构的补片嵌入。

可以通过利用不同茎（stem）（例如，标准卷积茎）替换标准补片嵌入或者通过重复地组合附近补片嵌入来提高视觉变换器性能。然而，这可以是经由更复杂的茎简单地将类似于卷积的归纳偏置（即，局部性）添加到视觉变换器。换言之，工作卷入了移除补片嵌入以及提高令牌的局部性，这可以通过其他手段而完成，该其他手段诸如是使用具有像卷积之类的保持局部性的操作的3D布局补片嵌入。

上面呈现的架构可以是在其中使用图像数据或图像数据的模态的多个实施例中使用的。图11-16图示了示例性实施例，然而，本公开的构思可以被应用于附加实施例。一些示例性实施例包括：工业应用，其中模态可以包括视频、权重、IR、3D相机和声音；电动工具或电器应用，其中模态可以包括转矩、压力、温度、距离或声音；医学应用，其中模态可以包括超声、视频、CAT扫描、MRI或声音；机器人应用，其中模态可以包括视频、超声、LIDAR、IR或声音；以及安全性应用，其中模态可以包括视频、声音、IR或LIDAR。模态可以具有例如多样的数据集，视频数据集可以包括图像，LIDAR数据集可以包括点云，并且麦克风数据集可以包括时间序列。

图11是被配置成控制交通工具的控制系统1102的示意图，该交通工具可以是至少部分自主的交通工具或至少部分自主的机器人。交通工具包括传感器1104和促动器1106。传感器1104可以包括一个或多个基于波能的传感器（例如，电荷耦合器件CCD或视频）、雷达、LiDAR、麦克风阵列、超声、红外、热成像、声成像或其他技术（例如，定位传感器，诸如GPS）。该一个或多个具体传感器中的一个或多个可以集成到交通工具中。对上面标识的一个或多个具体传感器来说可替换地或者除上面标识的一个或多个具体传感器外，控制模块1102可以包括被配置成在执行时确定促动器1104的状态的软件模块。

在其中交通工具是至少部分自主的交通工具的实施例中，促动器1106可以体现在交通工具的制动系统、推进系统、发动机、传动系或转向系统中。可以确定促动器控制命令，使得促动器1106被控制成使得交通工具避免与所检测到的对象的碰撞。所检测到的对象还可以是根据分类器将它们视为最可能是什么（诸如，行人或树木）来分类的。促动器控制命令可以是取决于分类而确定的。例如，控制系统1102可以将来自传感器1104的图像（例如，光学、声学、热）或其他输入分段成一个或多个背景类和一个或多个对象类（例如行人、自行车、交通工具、树木、交通标志、交通灯、道路碎片或建筑桶/锥等），并将控制命令发送到促动器1106（在该情况下，体现在制动系统或推进系统中），以避免与对象的碰撞。在另一示例中，控制系统1102可以将图像分段成一个或多个背景类和一个或多个标记类（例如车道标线、护栏、道路边缘、交通工具轨道等），并将控制命令发送到促动器1106（这里体现在转向系统中），以使交通工具避免交叉标记并保持在车道中。在其中可能发生对抗性攻击的场景中，可以进一步训练上面描述的系统，以更好地检测对象或者识别针对交通工具上的传感器或相机的角度或照明条件中的改变。

在其中交通工具1100是至少部分自主的机器人的其他实施例中，交通工具1100可以是被配置成实施一个或多个功能（诸如，飞行、游泳、潜水和行走）的移动机器人。移动机器人可以是至少部分自主的割草机或至少部分自主的清洁机器人。在这种实施例中，可以确定促动器控制命令1106，使得移动机器人的推进单元、转向单元和/或制动单元可以被控制成使得移动机器人可以避免与所识别的对象的碰撞。

在另一实施例中，交通工具1100是以园艺机器人的形式存在的至少部分自主的机器人。在这种实施例中，交通工具1100可以使用光学传感器作为传感器1104以确定与交通工具1100邻近的环境中的植物的状态。促动器1106可以是被配置成喷洒化学品的喷嘴。取决于植物的所识别的物种和/或所识别的状态，可以确定促动器控制命令1102以使促动器1106给植物喷洒合适量的合适化学品。

交通工具1100可以是以家用电器的形式存在的至少部分自主的机器人。家用电器的非限制性示例包括洗衣机、电炉、烤箱、微波炉或洗碗机。在这种交通工具1100中，传感器1104可以是被配置成检测要经历家庭电器的处理的对象的状态的光学或声学传感器。例如，在家用电器是洗衣机的情况下，传感器1104可以检测洗衣机内部的洗衣物的状态。可以基于洗衣物的所检测到的状态来确定促动器控制命令。

在该实施例中，控制系统1102将从传感器1104接收图像（光学或声学）和注释信息。使用系统中存储的这些和指定数目的类k和类似性度量

，控制系统1102可以使用在图10中描述的方法以对从传感器1104接收的图像的每个像素进行分类。基于该分类，可以将信号发送到促动器1106，例如，以制动或转弯以便避免与行人或树木的碰撞，以转向以便保持在所检测到的车道标线之间，或者如上所描述的那样由促动器1106执行的动作中的任一个。还可以基于该分类将信号发送到传感器1104，例如，以聚焦或移动相机镜头。

图12描绘了被配置成对制造系统102的系统1200（例如，制造机器）（诸如，冲切刀、切刀或枪钻）进行控制（诸如，生产线的一部分）的控制系统1202的示意图。控制系统1202可以被配置成控制被配置成对系统100（例如，制造机器）进行控制的促动器14。

系统1200（例如，制造机器）的传感器1204可以是波能传感器，诸如被配置成捕获所制造的产品的一个或多个性质的光学或声学传感器或传感器阵列。控制系统1202可以被配置成根据所捕获的性质中的一个或多个确定所制造的产品的状态。促动器1206可以被配置成取决于所制造的产品104的所确定的状态、针对所制造的产品的后续制造步骤而对系统1202（例如，制造机器）进行控制。促动器1206可以被配置成取决于先前的所制造的产品的所确定的状态而在系统（例如，制造机器）的后续的所制造的产品上控制图11（例如，制造机器）的功能。

在该实施例中，控制系统1202将从传感器1204接收图像（例如，光学或声学）和注释信息。使用系统中存储的这些和指定数目的类k和类似性度量

，控制系统1202可以使用在图10中描述的方法以对从传感器1204接收的图像的每个像素进行分类，例如，以将所制造的对象的图像分段成两个或更多个类，以检测所制造的产品中的异常，以确保所制造的产品上对象（诸如，条形码）的存在。基于该分类，可以将信号发送到促动器1206。例如，如果控制系统1202检测到产品中的异常，则促动器1206可以标记或移除来自线路的异常的或有缺陷的产品。在另一示例中，如果控制系统1202检测到要在产品上放置的条形码或其他对象的存在，则促动器1106可以应用这些对象或移除它们。还可以基于该分类将信号发送到传感器1204，例如，以聚焦或移动相机镜头。

图13描绘了被配置成控制具有至少部分自主模式的电动工具1300（诸如，电钻或驱动器）的控制系统1302的示意图。控制系统1302可以被配置成控制被配置成对电动工具1300进行控制的促动器1306。

电动工具1300的传感器1304可以是波能传感器，诸如被配置成捕获工作表面和/或被驱动到工作表面中的紧固件的一个或多个性质的光学或声学传感器。控制系统1302可以被配置成根据所捕获的性质中的一个或多个确定工作表面和/或相对于工作表面的紧固件的状态。

在该实施例中，控制系统1302将从传感器1304接收图像（例如，光学或声学）和注释信息。使用系统中存储的这些和指定数目的类k和类似性度量

，控制系统1302可以使用在图10中描述的方法以对从传感器1304接收的图像的每个像素进行分类，以便将工作表面或紧固件的图像分段成两个或更多个类或者检测工作表面或紧固件中的异常。基于该分类，可以将信号发送到促动器1306，例如，到工具的压力或速度或者如上面章节中描述的那样由促动器1306执行的动作中的任一个。还可以基于该分类将信号发送到传感器1304，例如，以聚焦或移动相机镜头。在另一示例中，图像可以是来自电动工具1300的信号（诸如压力、转矩、每分钟转数、温度、电流等）的时间序列图像，其中电动工具是锤钻、钻头、锤子（旋转或拆除）、冲击驱动器、往复式锯、振荡式多刀工具，并且电动工具是无电线的或有电线的。

图14描绘了被配置成控制自动化个人助理1401的控制系统1402的示意图。控制系统1402可以被配置成控制被配置成对自动化个人助理1401进行控制的促动器1406。自动化个人助理1401可以被配置成控制家用电器，诸如洗衣机、电炉、烤箱、微波炉或洗碗机。

在该实施例中，控制系统1402将从传感器1404接收图像（例如，光学或声学）和注释信息。使用系统中存储的这些和指定数目的类k和类似性度量

，控制系统1402可以使用在图10中描述的方法以对从传感器1404接收的图像的每个像素进行分类，例如，以对要操控或操作的电器或其他对象的图像进行分段。基于该分类，可以将信号发送到促动器1406，例如，以控制自动化个人助理1401的移动部分与家用电器交互，或者如上面章节中描述的那样由促动器1406执行的动作中的任一个。还可以基于该分类将信号发送到传感器1404，例如，以聚焦或移动相机镜头。

图15描绘了被配置成控制监视系统1500的控制系统1502的示意图。监视系统1500可以被配置成通过门252来对访问进行物理控制。传感器1504可以被配置成检测在对访问是否被授权进行决策时相关的场景。传感器1504可以是被配置成生成和传输图像和/或视频数据的光学或声学传感器或传感器阵列。这种数据可以被控制系统1502使用以检测人的脸部。

监视系统1500还可以是监控系统。在这种实施例中，传感器1504可以是波能传感器，诸如被配置成检测处于监控下的场景的光学传感器、红外传感器、声学传感器，并且控制系统1502被配置成控制显示器1508。控制系统1502被配置成确定场景的分类，例如，由传感器1504检测到的场景是否可疑。可以将扰动对象用于检测某些类型的对象，以允许系统在非最优条件（例如夜间、雾、下雨、干扰背景噪声等）中识别这种对象。控制系统1502被配置成响应于分类而将促动器控制命令传输到显示器1508。显示器1508可以被配置成响应于促动器控制命令而调整所显示的内容。例如，显示器1508可以突出显示被控制器1502视为可疑的对象。

在该实施例中，控制系统1502将从传感器1504接收图像（光学或声学）和注释信息。使用系统中存储的这些和指定数目的类k和类似性度量

，控制系统1502可以使用在图10中描述的方法以对从传感器1504接收的图像的每个像素进行分类，以便例如检测可疑或不期望对象在场景中的存在，检测照明或观看条件的类型，或者检测移动。基于该分类，可以将信号发送到促动器1506，例如，以对门或其他入口通道上锁或解锁，以激活警报或其他信号，或者如上面章节中描述的那样由促动器1506执行的动作中的任一个。还可以基于该分类将信号发送到传感器1504，例如，以聚焦或移动相机镜头。

图16描绘了被配置成控制成像系统1600（例如，MRI装置、x-射线成像装置或超声装置）的控制系统1602的示意图。传感器1604可以例如是成像传感器或声学传感器阵列。控制系统1602可以被配置成确定所感测到的图像的全部或部分的分类。控制系统1602可以被配置成响应于由经训练的神经网络获得的分类而确定或选择促动器控制命令。例如，控制系统1602可以将所感测到的图像（光学或声学）的区解释为潜在地异常的。在该情况下，可以确定或选择促动器控制命令，以使显示器1606显示成像并突出显示潜在地异常的区。

在该实施例中，控制系统1602将从传感器1604接收图像和注释信息。使用系统中存储的这些和指定数目的类k和类似性度量

，控制系统1602可以使用在图10中描述的方法以对从传感器1604接收的图像的每个像素进行分类。基于该分类，可以将信号发送到促动器1606，例如，以检测图像的异常区或者如上面章节中描述的那样由促动器1606执行的动作中的任一个。

体现本文描述的算法和/或方法的程序代码能够被个体地或共同地分发，作为以多种不同形式存在的程序产品。程序代码可以是使用计算机可读储存介质来分发的，该计算机可读储存介质在其上具有用于使处理器实施一个或多个实施例的方面的计算机可读程序指令。固有地非瞬变的计算机可读储存介质可以包括以用于存储信息（诸如，计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实现的易失性和非易失性以及可移除和不可移除有形介质。计算机可读储存介质可以进一步包括RAM、ROM、可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM）、闪速存储器或其他固态存储器技术、便携致密盘只读存储器（CD-ROM）、或者其他光学储存器、磁带盒、磁带、磁盘储存器或其他磁储存设备、或者可以用于存储期望信息且可由计算机读取的任何其他介质。可以将计算机可读程序指令从计算机可读储存介质下载到计算机、另一类型的可编程数据处理装置或另一设备，或者可以经由网络将其下载到外部计算机或外部储存设备。

计算机可读介质中存储的计算机可读程序指令可以用于指引计算机、其他类型的可编程数据处理装置或者其他设备以特定方式起作用，使得计算机可读介质中存储的指令产生制造品，该制造品包括实现在流程图或图表中指定的动能、动作和/或操作的指令。在某些可替换实施例中，可以与一个或多个实施例一致地对在流程图和图表中指定的功能、动作和/或操作进行重排序、串行处理和/或同时处理。此外，流程图和/或图表中的任一个可以包括比与一个或多个实施例一致地图示的那些节点或块更多或更少的节点或块。

尽管本发明的全部已经由各种实施例的描述说明并且尽管已经相当详细地描述了这些实施例，但申请人的意图不在于将所附权利要求的范围约束或以任何方式限制到这种细节。附加优势和修改对本领域技术人员来说将是容易发现的。因此，以其更宽方面存在的本发明不限于具体细节、代表性装置和方法、以及所示出和描述的说明性示例。相应地，在不脱离总体发明构思的精神或范围的情况下，可以作出与这种细节的背离。

Claims

1.一种用于利用卷积神经网络来处理图像的计算机实现方法，所述计算机实现方法包括：

接收图像；

将所述图像划分成补片，每个补片具有大小p；

经由第一卷积层基于大小p的特征检测器来提取具有多个通道的特征图，其中所述特征检测器具有等于大小p的步幅；

通过交替地应用逐深度卷积层和逐点卷积层来改善所述特征图以获得经改善的特征图，其中所述特征图中的通道的数目和所述特征图的大小遍及改善中的所有操作而保持恒定；以及

输出经改善的特征图。

2.如权利要求1所述的方法，其中所述方法包括：从传感器接收所述图像。

3.如权利要求2所述的方法，其中所述传感器是视频、RADAR、LIDAR或超声之一，且与控制器通信，所述控制器被配置成基于经改善的特征图来控制自主交通工具。

4.如权利要求2所述的方法，其中所述传感器是视频、声音、IR或LIDAR之一，且与控制器通信，所述控制器被配置成基于经改善的特征图来控制访问门。

5.如权利要求2所述的方法，其中所述传感器是视频、声音、超声、IR或LIDAR之一，且与控制器通信，所述控制器被配置成基于经改善的特征图来控制机械系统。

6.如权利要求1所述的方法，其中所述第一卷积层包括作为高斯误差线性单元（GELU）的激活函数。

7.如权利要求1所述的方法，进一步包括：在针对每个通道的空间位置上对所述特征图求平均以获得针对所有通道的均值；

对针对所有通道的均值进行变换，以获得输入图像对应于具体类的概率；以及

输出所述图像属于所述具体类的概率。

8.一种用于利用卷积神经网络来处理图像的计算机实现方法，所述计算机实现方法包括：

接收大小L x W的图像；

将所述图像划分成补片，其中每个补片的组合大小等于L x W；

经由第一卷积层基于等于补片大小的大小的特征检测器来提取具有多个通道的特征图，其中所述特征检测器具有等于补片大小的步幅；

输出经改善的特征图。

9.如权利要求8所述的方法，其中每个补片大小是p x p。

10.如权利要求8所述的方法，其中所述方法包括：从传感器接收所述图像。

11.如权利要求10所述的方法，其中所述传感器是视频、RADAR、LIDAR或超声之一，且与控制器通信，所述控制器被配置成基于经改善的特征图来控制自主交通工具。

12.如权利要求10所述的方法，其中所述传感器是视频、声音、IR或LIDAR之一，且与控制器通信，所述控制器被配置成基于经改善的特征图来控制访问门。

13.如权利要求10所述的方法，其中第一传感器是视频、声音、超声、IR或LIDAR之一，且与控制器通信，所述控制器被配置成基于经改善的特征图来控制机械系统。

14.如权利要求8所述的方法，进一步包括：在针对每个通道的空间位置上对所述特征图求平均以获得针对所有通道的均值；

输出所述图像属于所述具体类的概率。

15.一种卷积神经网络系统，包括：

传感器；以及

控制器，其中所述控制器被配置成：

从所述传感器接收图像；

将所述图像划分成补片，每个补片具有大小p；

输出经改善的特征图。

16.如权利要求15所述的卷积神经网络系统，其中所述传感器是视频、RADAR、LIDAR或超声之一，并且所述控制器进一步被配置成基于经改善的特征图来控制自主交通工具。

17.如权利要求15所述的卷积神经网络系统，其中所述传感器是视频、声音、IR或LIDAR之一，并且所述控制器进一步被配置成基于经改善的特征图来控制访问门。

18.如权利要求15所述的卷积神经网络系统，其中所述传感器是视频、声音、超声、IR或LIDAR之一，并且所述控制器进一步被配置成基于经改善的特征图来控制机械系统。

19.如权利要求15所述的卷积神经网络系统，其中所述控制器进一步被配置成：在针对每个通道的空间位置上对所述特征图求平均以获得针对所有通道的均值；

输出所述图像属于所述具体类的概率。