CN117377983A - 具有卷积和注意力的机器学习模型的系统和方法 - Google Patents
具有卷积和注意力的机器学习模型的系统和方法 Download PDFInfo
- Publication number
- CN117377983A CN117377983A CN202280026409.3A CN202280026409A CN117377983A CN 117377983 A CN117377983 A CN 117377983A CN 202280026409 A CN202280026409 A CN 202280026409A CN 117377983 A CN117377983 A CN 117377983A
- Authority
- CN
- China
- Prior art keywords
- attention
- computer
- convolution
- implemented method
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 108
- 230000007246 mechanism Effects 0.000 claims abstract description 41
- 230000003068 static effect Effects 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 230000003044 adaptive effect Effects 0.000 claims abstract description 15
- 230000004044 response Effects 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims description 15
- 230000005284 excitation Effects 0.000 claims description 7
- 230000007423 decrease Effects 0.000 claims description 4
- 238000001125 extrusion Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 42
- 238000012545 processing Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 15
- 230000015654 memory Effects 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000000007 visual effect Effects 0.000 description 9
- 239000008186 active pharmaceutical agent Substances 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Neurology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
一种以降低的计算成本和提高的准确度来执行计算机视觉的计算机实现的方法能够包括:由包括一个或多个计算设备的计算系统获得包括具有一个或多个维度的输入张量的输入数据;由计算系统将输入数据提供给包括两个或更多个网络阶段的机器学习卷积注意力网络;并且响应于向机器学习卷积注意力网络提供输入数据,由计算系统从机器学习卷积注意力网络接收机器学习预测。卷积注意力网络能够包括至少一个注意力块,其中,注意力块包括相对注意力机制,该相对注意力机制包括静态卷积核与自适应注意力矩阵的和。这提供了相对于一些现有模型改进的卷积注意力网络的泛化,容量和效率。
Description
相关申请
本申请要求于2021年5月27日提交的美国临时专利申请No.63/194,077的优先权和权益。美国临时专利申请No.63/194,077由此通过引用整体并入。
技术领域
本公开总体上涉及机器学习。更具体地,本公开涉及具有卷积和注意力的机器学习模型的系统和方法。
背景技术
机器学习是指对输入数据提供预测的一类学习算法。卷积神经网络或CNN是一类在神经网络中采用卷积帧的机器学习模型。变换器是一类采用注意力机制来加权输入数据的不同部分的机器学习模型。组合卷积和注意力的现有方法面临诸如增加的计算成本的缺点。
发明内容
本公开的实施例的多个方面和多个优点将在以下描述中部分地阐述,或者能够从描述中获知,或者能够通过对实施例的实践获知。
本公开的一个示例方面涉及一种以降低的计算成本和提高的准确度来执行计算机视觉的计算机实现的方法。计算机实现的方法包括由包括一个或多个计算设备的计算系统获得包括具有一个或多个维度的输入张量的输入数据。计算机实现的方法包括由计算系统向机器学习卷积注意力网络提供输入数据,机器学习卷积注意力网络包括两个或更多个网络阶段,两个或更多个网络阶段中的每一个包括注意力阶段或卷积阶段中的一个。计算机实现的方法包括,响应于向机器学习卷积注意力网络提供输入数据,由计算系统从机器学习卷积注意力网络接收机器学习预测。注意力阶段包括相对注意力机制,相对注意力机制包括静态卷积核与自适应注意力矩阵的和。
本发明的另一个示例方面涉及一种以降低的计算成本和提高的准确度来执行计算机视觉的计算机实现的方法。计算机实现的方法包括由包括一个或多个计算设备的计算系统获得包括具有一个或多个维度的输入张量的输入数据。计算机实现的方法包括由计算系统向机器学习卷积注意力网络提供输入数据。机器学习卷积注意力网络包括下采样阶段,该下采样阶段被配置为降低相对于输入张量的空间分辨率;以及包括相对注意力机制的一个或多个注意力块,该相对注意力机制包括静态卷积核与自适应注意力矩阵的和。计算机实现的方法包括,响应于向机器学习卷积注意力网络提供输入数据,由计算系统从机器学习卷积注意力网络接收机器学习预测。
本发明的另一个示例方面涉及一种以降低的计算成本和提高的准确度来执行计算机视觉的计算机实现的方法。计算机实现的方法包括由包括一个或多个计算设备的计算系统获得包括具有一个或多个维度的输入张量的输入数据。计算机实现的方法包括由计算系统向机器学习卷积注意力网络提供输入数据,机器学习卷积注意力网络包括多个网络阶段。多个网络阶段包括S0阶段,其包括两层卷积干线网络;S1阶段,其包括具有挤压激励的卷积块;S2阶段,其包括卷积块;S3阶段,其包括卷积块;S4阶段,其包括注意力块;以及S5阶段,其包括注意力块。S4阶段和S5阶段中的每一个包括相对注意力机制,该相对注意力机制包括静态卷积核与自适应注意力矩阵的和。在多个网络阶段中的每一个处降低空间分辨率。在多个网络阶段中的每一个处增加通道的数目。计算机实现的方法包括,响应于向机器学习的卷积注意力网络提供输入数据,由计算系统从机器学习的卷积注意力网络接收机器学习预测。
本公开的其它方面涉及各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。
参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些以及其他特征、方面和优点。并入本说明书并构成其一部分的附图例示本公开的示例实施例,并与描述一起用于解释相关原理。
所附的附图更详细地描述了所提出的技术的示例实施方式。所附的附录被并入并且形成本公开的一部分。然而,本公开不限于所附附录中提供的示例实施方式。
附图说明
在参考附图的说明书中阐述了针对本领域普通技术人员的实施例的详细讨论,其中:
图1A描绘了根据本公开的示例实施例以降低的计算成本和提高的准确度来执行计算机视觉的示例计算系统的框图。
图1B描绘了根据本公开的示例实施例以降低的计算成本和提高的准确度来执行计算机视觉的示例计算设备的框图。
图1C描绘了根据本公开的示例实施例以降低的计算成本和提高的准确度来执行计算机视觉的示例计算设备的框图。
图2描绘了根据本公开的示例实施例的示例卷积注意力网络(CoAtNet)模型的框图。
图3描绘了根据本公开的示例实施例的示例卷积注意力网络模型的框图。
图4描绘了根据本公开的示例实施例的示例卷积注意力网络模型的框图。
图5描绘了根据本公开的示例实施例以降低的计算成本和提高的准确度来执行计算机视觉的示例方法的流程图。
在多个附图中重复的附图标记旨在标识各种实施方式中的相同特征。
具体实施方式
总体上,本公开涉及具有卷积和注意力的机器学习模型的系统和方法。特别地,根据本公开的示例方面的系统和方法能够包括卷积块和/或注意力块。根据本公开的示例方面,注意力块能够包括相对注意力机制。特别地,本公开的示例方面认识到,上述相对注意力能够被认为是深度卷积和基于内容的注意力的自然混合。此外,本公开的示例方面认识到,深度卷积和自注意力都能够被表示为感受野中的值的加权和。因此,相对注意力机制能够包括静态卷积核与自注意力矩阵的和。该和能够在由相对注意力机制进行的SoftMax归一化之前和/或之后被应用。作为一个示例,相对注意力机制(例如,在SoftMax归一化之前被应用)可以在数学上由以下表示:
作为另一个示例,相对注意力机制(例如,在SoftMax归一化之后被应用)可以在数学上由以下表示:
在上述等式中,深度卷积核wi-j是用于输入张量(i,j)中的给定索引的静态值的输入无关参数(例如,索引i-j之间的相对移位,其中对相对移位而不是特定值的依赖性被称为平移等价,其能够改善在有限大小的数据集下的泛化),xi和xj分别是在位置i处的输入和输出,并且g是全局感受野(例如,整组位置)。
全局感受野的使用(例如,与传统上在卷积网络中采用的有限局部感受野相反)能够提供捕获在不同空间位置之间的复杂关系交互的改进的能力,这能够在处理更高层概念时是期望的。分母项也能够被称为注意力权重Ai,j。注意力权重能够由深度卷积核和输入-自适应输入-输出对的平移等价共同决定,这能够提供不同程度的两个特性,改进模型的泛化、容量和/或准确度。
具有相对自注意力的这些注意力块能够在具有卷积和注意力的网络(本文称为“CoAtNet”模型)中被采用,从而提供来自卷积和注意力的益处的改进的融合。例如,除了与卷积网络相关联的高准确度和效率之外,模型能够具有过拟合、更低的计算成本、减少的存储器使用、和/或更小的参数大小的鲁棒性,同时附加地提供学习与变换器相关联的输入数据中的空间位置之间的复杂关系交互的能力。
根据本公开的示例方面的系统和方法(例如,采用具有相对注意力的注意力块)能够提供许多技术效果和益处,其包括对计算机技术的改进。作为一个示例,根据本公开的示例方面的系统和方法能够统一卷积和注意力以提供改进的泛化、模型容量和/或效率。例如,根据本公开的示例方面的系统和方法能够更有效地管理改进的泛化(例如,类似于卷积网络)和改进的模型容量(例如,类似于变换器)之间的权衡。例如,本公开的一些示例实施方式能够在不同的数据大小和计算预算下实现现有技术的性能。
由所提出的模型架构提供的改进(例如,泛化和/或模型容量)继而能够提供模型的改进的准确度,特别是在不可见的输入数据上,输入数据类型和/或维度的改进范围,减少的计算资源的消耗(例如,更快的计算速度、更少的计算周期,减少的处理器或存储器使用等)、和/或现有模型上的其它改进。特别地,如本文提出的模型能够实现与现有技术的卷积神经网络相当的性能,同时具有更少数量的参数。作为一个示例,CoAtNet模型的示例实施方式能够在ImageNet数据集上实现可比较的第一级(top 1)准确度,仅具有40%的参数数量和70%的FLOP。
作为另一示例技术效果,本文描述的混合卷积和注意力架构能够实现对专门用于执行卷积机制和注意力机制的专用硬件(诸如处理器(例如,图形处理单元))的更有效的使用。例如,所提出的混合模型的卷积阶段能够由专用于卷积操作的硬件来执行,而所提出的混合模型的注意力阶段能够由专用于注意力操作的硬件来执行。例如,所提出的混合模型的卷积阶段的卷积操作能够由多个处理器并行地执行。
根据本公开的示例方面的系统和方法能够应用于各种机器学习任务,尤其是传统上采用卷积神经网络的任务。作为示例,机器学习任务能够是计算机视觉任务,诸如对象检测、对象识别、图像分类、语义分割、视频识别、视频分类、视频分割等。作为另一个示例,机器学习任务能够是多模态应用,诸如涉及附加信号(例如,可视信号)的应用,例如图像字幕、视频字幕等。
现在参考附图,将更详细地讨论本公开的示例实施例。
图1A描绘了根据本公开的示例实施例以降低的计算成本和提高的准确度来执行计算机视觉的示例计算系统100的框图。系统100包括通过网络180通信耦合的用户计算设备102、服务器计算系统130和训练计算系统150。
用户计算设备102能够是任何类型的计算设备,诸如例如个人计算设备(例如,膝上型计算机或台式计算机)、移动计算设备(例如,智能电话或平板)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。
用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112能够是任何合适的处理设备(例如,处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等),并且能够是可操作地连接的一个处理器或多个处理器。存储器114能够包括诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等的一个或多个非暂时性计算机可读存储介质以及其组合。存储器114能够存储数据116和由处理器112施行以使用户计算设备102执行操作的指令118。
在一些实施方式中,用户计算设备102能够存储或包括一个或多个机器学习模型120。例如,机器学习模型120能够是或者能够以其他方式包括各种机器学习模型,诸如神经网络(例如,深度神经网络)或者其他类型的机器学习模型,包括非线性模型和/或线性模型。神经网络能够包括前馈神经网络、循环神经网络(例如,长短期记忆循环神经网络)、卷积神经网络或其他形式的神经网络。一些示例机器学习模型能够利用诸如自注意力的注意力机制。例如,一些示例机器学习模型能够包括多头自注意力模型(例如,变换器模型)。参考图2-3讨论示例机器学习模型120(例如,CoAtNet模型)。
在一些实施方式中,一个或多个机器学习模型120能够通过网络180从服务器计算系统130接收,存储在用户计算设备存储器114中,然后由一个或多个处理器112使用或以其他方式实现。在一些实施方式中,用户计算设备102能够实现单个机器学习模型120的多个并行实例(以跨CoAtNet模型的多个实例执行并行计算机视觉)。
附加地或可替选地,一个或多个机器学习模型140能够被包括在根据客户端服务器关系与用户计算设备102通信的服务器计算系统130中,或者以其他方式由服务器计算系统130存储和实现。例如,机器学习模型140能够由服务器计算系统140实现,作为网络服务(例如,计算机视觉服务,诸如图像分类、服务)的一部分。这样,一个或多个模型120能够在用户计算设备102处存储和实现,和/或一个或多个模型140能够在服务器计算系统130处存储和实现。
用户计算设备102还能够包括接收用户输入的一个或多个用户输入组件122。例如,用户输入组件122能够是对用户输入对象的触摸(例如,手指或触笔)敏感的触敏组件(例如,触敏显示屏或触摸板)。触敏组件能够用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户能够提供用户输入的其他装置。
服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132能够是任何合适的处理设备(例如,处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等),并且能够是可操作地连接的一个处理器或多个处理器。存储器134能够包括诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等的一个或多个非暂时性计算机可读存储介质以及其组合。存储器134能够存储数据136和由处理器132施行以使服务器计算系统130执行操作的指令138。
在一些实施方式中,服务器计算系统130包括一个或多个服务器计算设备或者以其他方式由一个或多个服务器计算设备实现。在服务器计算系统130包括多个服务器计算设备的情况下,这样的服务器计算设备能够根据顺序计算架构、并行计算架构或其某种组合来操作。
如上所述,服务器计算系统130能够存储或以其他方式包括一个或多个机器学习模型140。例如,模型140能够是或者能够以其他方式包括各种机器学习模型。示例机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、循环神经网络和卷积神经网络。一些示例机器学习模型能够利用诸如自注意力的注意力机制。例如,一些示例机器学习模型能够包括多头自注意力模型(例如,变换器模型)。参考图2至3讨论示例模型140。
用户计算设备102和/或服务器计算系统130能够经由与通过网络180通信耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150能够与服务器计算系统130分离或者能够是服务器计算系统130的一部分。
训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152能够是任何合适的处理设备(例如,处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等),并且能够是可操作地连接的一个处理器或多个处理器。存储器154能够包括诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等的一个或多个非暂时性计算机可读存储介质以及其组合。存储器154能够存储数据156和由处理器152施行以使训练计算系统150执行操作的指令158。在一些实施方式中,训练计算系统150包括一个或多个服务器计算设备或者以其他方式由一个或多个服务器计算设备实现。
训练计算系统150能够包括模型训练器160,该模型训练器160使用诸如例如误差反向传播这样的各种训练或学习技术,训练存储在用户计算设备102和/或服务器计算系统130处的机器学习模型120和/或140。例如,损失函数能够通过模型反向传播以更新模型的一个或多个参数(例如,基于损失函数的梯度)。能够使用各种损失函数,诸如均方误差、似然损失、交叉熵损失、铰链损失和/或各种其他损失函数。梯度下降技术能够用于通过多次训练迭代来迭代地更新参数。
在一些实施方式中,执行误差反向传播能够包括随时间执行截断的反向传播。模型训练器160能够执行多种泛化技术(例如,权重衰减、暂退等)以提高被训练的模型的泛化能力。
具体地,模型训练器160能够基于一组训练数据162来训练机器学习模型120和/或140。训练数据162能够包括例如特定于任务的训练数据的语料库或其他数据集,诸如图像分类数据库(例如,ImageNet、JFT 300M等)。
在一些实施方式中,如果用户已经提供了准许,则训练示例能够由用户计算设备102提供。这样,在这样的实施方式中,提供给用户计算设备102的模型120能够由训练计算系统150根据从用户计算设备102接收的用户特定数据来训练。在一些情况下,该过程能够被称为对模型进行个性化。
模型训练器160包括用于提供所需功能性的计算机逻辑。模型训练器160能够用控制通用处理器的硬件、固件和/或软件来实现。例如,在一些实施方式中,模型训练器160包括存储在存储设备上、加载到存储器中并且由一个或多个处理器施行的程序文件。在其他实施方式中,模型训练器160包括存储在诸如RAM、硬盘、或光学或磁性介质这样的有形的计算机可读存储介质中的一组或多组计算机可执行指令。
网络180能够是任何类型的通信网络,诸如局域网(例如,内联网)、广域网(例如,互联网)或其某种组合,并且能够包括任何数量的有线或无线链路。一般而言,网络180上的通信能够使用各种通信协议(例如,TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如,HTML、XML)、和/或保护方案(例如,VPN、安全HTTP、SSL),经由任何类型的有线和/或无线连接来承载。
本说明书中描述的机器学习模型可以用于各种任务、应用和/或用例。
在一些实施方式中,本公开的机器学习模型的输入能够是图像数据。机器学习模型能够处理图像数据以生成输出。作为示例,机器学习模型能够处理图像数据以生成图像识别输出(例如,图像数据的识别、图像数据的潜在嵌入、图像数据的编码表示、图像数据的散列等)。作为另一个示例,机器学习模型能够处理图像数据以生成图像分割输出。作为另一个示例,机器学习模型能够处理图像数据以生成图像分类输出。作为另一示例,机器学习模型能够处理图像数据以生成图像数据修改输出(例如,图像数据的改变等)。作为另一个示例,机器学习模型能够处理图像数据以生成编码图像数据输出(例如,图像数据的编码和/或压缩表示等)。作为另一个示例,机器学习模型能够处理图像数据以生成放大的图像数据输出。作为另一个示例,机器学习模型能够处理图像数据以生成预测输出。
在一些实施方式中,本公开的机器学习模型的输入能够是文本或自然语言数据。机器学习模型能够处理文本或自然语言数据以生成输出。作为示例,机器学习模型能够处理自然语言数据以生成语言编码输出。作为另一个示例,机器学习模型能够处理文本或自然语言数据以生成潜在的文本嵌入输出。作为另一个示例,机器学习模型能够处理文本或自然语言数据以生成翻译输出。作为另一个示例,机器学习模型能够处理文本或自然语言数据以生成分类输出。作为另一个示例,机器学习模型能够处理文本或自然语言数据以生成文本分割输出。作为另一个示例,机器学习模型能够处理文本或自然语言数据以生成语义意图输出。作为另一个示例,机器学习模型能够处理文本或自然语言数据以生成放大的文本或自然语言输出(例如,比输入文本或自然语言更高质量的文本或自然语言数据等)。作为另一个示例,机器学习模型能够处理文本或自然语言数据以生成预测输出。
在一些实施方式中,本公开的机器学习模型的输入能够是语音数据。机器学习模型能够处理语音数据以生成输出。作为示例,机器学习模型能够处理语音数据以生成语音识别输出。作为另一个示例,机器学习模型能够处理语音数据以生成语音翻译输出。作为另一个示例,机器学习模型能够处理语音数据以生成潜在嵌入输出。作为另一个示例,机器学习模型能够处理语音数据以生成编码语音输出(例如,语音数据的编码和/或压缩表示等)。作为另一个示例,机器学习模型能够处理语音数据以生成放大的语音输出(例如,比输入语音数据更高质量的语音数据等)。作为另一个示例,机器学习模型能够处理语音数据以生成文本表示输出(例如,输入语音数据的文本表示等)。作为另一个示例,机器学习模型能够处理语音数据以生成预测输出。
在一些实施方式中,本公开的机器学习模型的输入能够是潜在编码数据(例如,输入的潜在空间表示等)。机器学习模型能够处理潜在编码数据以生成输出。作为示例,机器学习模型能够处理潜在编码数据以生成识别输出。作为另一个示例,机器学习模型能够处理潜在编码数据以生成重构输出。作为另一个示例,机器学习模型能够处理潜在编码数据以生成搜索输出。作为另一个示例,机器学习模型能够处理潜在编码数据以生成重新聚集输出。作为另一个示例,机器学习模型能够处理潜在编码数据以生成预测输出。
在一些实施方式中,本公开的机器学习模型的输入能够是统计数据。统计数据能够是,表示,或以其它方式包括从一些其它数据源运算和/或计算的数据。机器学习模型能够处理统计数据以生成输出。作为示例,机器学习模型能够处理统计数据以生成识别输出。作为另一个示例,机器学习模型能够处理统计数据以生成预测输出。作为另一个示例,机器学习模型能够处理统计数据以生成分类输出。作为另一个示例,机器学习模型能够处理统计数据以生成分割输出。作为另一个示例,机器学习模型能够处理统计数据以生成视觉输出。作为另一个示例,机器学习模型能够处理统计数据以生成诊断输出。
在一些实施方式中,本公开的机器学习模型的输入能够是传感器数据。机器学习模型能够处理传感器数据以生成输出。作为一个示例,机器学习模型能够处理传感器数据以生成识别输出。作为另一个示例,机器学习模型能够处理传感器数据以生成预测输出。作为另一个示例,机器学习模型能够处理传感器数据以生成分类输出。作为另一个示例,机器学习模型能够处理传感器数据以生成分割输出。作为另一个示例,机器学习模型能够处理传感器数据以生成视觉输出。作为另一个示例,机器学习模型能够处理传感器数据以生成诊断输出。作为另一个示例,机器学习模型能够处理传感器数据以生成检测输出。
在一些情况下,机器学习模型能够被配置为执行包括对输入数据进行编码以用于可靠和/或有效的传输或存储(和/或对应的解码)的任务。例如,任务可以是音频压缩任务。输入可以包括音频数据,并且输出可以包括压缩的音频数据。在另一个示例中,输入包括视觉数据(例如,一个或多个图像或视频),输出包括压缩的视觉数据,并且任务是视觉数据压缩任务。在另一个示例中,任务可以包括生成用于输入数据(例如,输入音频或视觉数据)的嵌入。
在一些情况下,输入包括视觉数据并且任务是计算机视觉任务。在一些情况下,输入包括用于一个或多个图像的像素数据并且任务是图像处理任务。例如,图像处理任务能够是图像分类,其中输出是一组分数,每个分数对应于不同的对象类并且表示一个或多个图像描述属于对象类的对象的可能性。图像处理任务可以是对象检测,其中图像处理输出识别一个或多个图像中的一个或多个区域,并且针对每个区域,区域描述感兴趣对象的可能性。作为另一个示例,图像处理任务能够是图像分割,其中图像处理输出针对一个或多个图像中的每个像素来定义预定类别集合中的每个类别的相应可能性。例如,类别集合能够是前景和背景。作为另一个示例,类别集合能够是对象类。作为另一个示例,图像处理任务能够是深度估计,其中图像处理输出针对一个或多个图像中的每个像素来定义相应的深度值。作为另一个示例,图像处理任务可以是运动估计,其中网络输入包括多个图像,并且图像处理输出针对输入图像之一的每个像素来定义在网络输入中的图像之间的像素处描绘的场景的运动。
在一些情况下,输入包括表示口头话语的音频数据并且任务是语音识别任务。输出可以包括被映射到口头话语的文本输出。在一些情况下,任务包括加密或解密输入数据。在一些情况下,任务包括微处理器性能任务,诸如分支预测或存储器地址平移。
图1A图示了能够用于实现本公开的一个示例计算系统。也能够使用其他计算系统。例如,在一些实施方式中,用户计算设备102能够包括模型训练器160和训练数据集162。在这样的实施方式中,模型120能够在用户计算设备102本地训练和使用。在一些这样的实施方式中,用户计算设备102能够实现模型训练器160以基于用户特定的数据对模型120进行个性化。
图1B图示了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10能够是用户计算设备或服务器计算设备。
计算设备10包括多个应用(例如,应用1至N)。每个应用都包含其自己的机器学习库和机器学习模型。例如,每个应用能够包括机器学习模型。示例应用包括文本消息传递应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。
如图1B所示,每个应用能够与计算设备的多个其他组件通信,诸如例如一个或多个传感器、场境管理器、设备状态组件和/或附加组件。在一些实施方式中,每个应用能够使用API(例如,公共API)与每个设备组件通信。在一些实施方式中,由每个应用使用的API特定于该应用。
图1C图示了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50能够是用户计算设备或服务器计算设备。
计算设备50包括多个应用(例如,应用1至N)。每个应用都与中央智能层通信。示例应用包括文本消息传递应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中,每个应用能够使用API(例如,跨所有应用的公共API)与中央智能层(以及在其中存储的模型)通信。
中央智能层包括多个机器学习模型。例如,如图1C所示,能够对每个应用提供相应的机器学习模型并且由中央智能层管理。在其他实施方式中,两个或更多应用能够共享单个机器学习模型。例如,在一些实施方式中,中央智能层能够针对所有应用提供单个模型。在一些实施方式中,中央智能层包括在计算设备50的操作系统中,或者由计算设备50的操作系统以其他方式实现。
中央智能层能够与中央设备数据层通信。中央设备数据层能够是计算设备50的集中式数据仓库。如图1C所示,中央设备数据层能够与计算设备的多个其他组件通信,诸如例如一个或多个传感器、场境管理器、设备状态组件、和/或附加组件。在一些实施方式中,中央设备数据层能够使用API(例如,私有API)与每个设备组件通信。
图2描述了根据本公开的示例实施例的示例卷积注意力网络(CoAtNet)模型200的框图。在一些实施方式中,模型200被训练为接收一组输入数据202,其描述例如图像数据或其它任务特定的输入数据,并且作为接收输入数据202的结果,提供响应于特定机器学习任务(诸如计算机视觉任务(例如,图像分类))的输出数据204。
根据本公开的示例方面,模型200能够包括下采样阶段210。下采样阶段210能够降低输入数据202的空间分辨率。例如,如果输入数据202包括张量,则下采样阶段210可以降低空间分辨率,使得下采样阶段210的输出具有比输入数据202的张量的至少一个维度或分辨率低的至少一个维度或分辨率。附加地和/或可替选地,下采样阶段210可以相对于输入数据增加通道的数目。在一些实施方式中,下采样阶段210能够是或能够包括卷积干线。卷积干线能够具有积极的步幅,例如大于10的步幅。
附加地和/或可替选地,模型200能够包括一个或多个注意力块212。注意力块212能够从下采样阶段202接收下采样的输入数据并且产生输出数据204。注意力块212能够实现相对注意力机制。在一些实施方式中,注意力块212能够是类似于Transformer网络操作的变换器块。
根据本公开的示例方面,注意力块212能够包括相对注意力机制。相对注意力机制能够包括静态卷积核与自适应注意力矩阵的和。该和能够在由相对注意力机制进行的SoftMax归一化之前和/或之后被应用。作为一个示例,相对注意力机制(例如,在SoftMax归一化之前被应用)可以在数学上由以下表示:
作为另一个示例,相对注意力机制(例如,在SoftMax归一化之后被应用)可以在数学上由以下表示:
在上述等式中,深度卷积核wi-j是用于输入张量(i,j)中的给定索引的静态值的输入无关参数(例如,在索引i-j之间的相对移位,其中对相对移位而不是特定值的依赖性被称为平移等价,其能够改进在有限大小的数据集下的泛化),xi和xj分别是在位置i处的输入和输出,并且g是全局感受野(例如,整组位置)。
全局感受野的使用(例如,与传统上在卷积网络中采用的有限局部感受野相反)能够提供捕获不同空间位置之间的复杂关系交互的改进的能力,这能够在处理更高层概念时是期望的。分母项也能够被称为注意力权重Ai,j。注意力权重能够通过深度卷积核和输入-自适应输入-输出对的平移等价共同决定,这能够提供不同程度的两个特性,改进模型的泛化、容量和/或准确度。
图3描述了根据本公开的示例实施例的示例卷积注意力网络(CoAtNet)模型300的框图。在一些实施方式中,模型300被训练为接收一组输入数据202,其描述例如图像数据或其它任务特定的输入数据,并且作为接收输入数据202的结果,提供响应于特定机器学习任务(例如计算机视觉任务(例如,图像分类))的输出数据204。
机器学习卷积注意力网络300能够包括两个或更多个网络阶段(例如,302、304、306、308和310)。两个或更多个网络阶段中的每一个能够是或者能够包括注意力阶段或卷积阶段中的一个,使得卷积阶段顺序地在注意力阶段之前。作为一个示例,在一些实施方式中,两个或更多个网络阶段能够包括S0阶段302、S1阶段304、S2阶段306、S3阶段308和S4阶段310。这些阶段中的每一个能够是包括一个或多个卷积块(例如,MBConv块)的卷积阶段或包括具有相对注意力机制的一个或多个注意力块的注意力阶段。作为另一个示例,在一些实施方式中,卷积块能够执行深度可分离的卷积(例如,在多个通道上)。附加地和/或可替选地,在一些实施方式中,卷积块能够执行反向瓶颈卷积。在一些实施方式中,空间分辨率在两个或更多个网络阶段上逐渐降低。在一些实施方式中,能够在任一阶段(诸如,S1阶段304、S2阶段306、S3阶段308或S4阶段310中的至少一个)处增加(例如,加倍)通道的数目。
在一些实施方式中,S0阶段302包括两层卷积干线网络。附加地和/或可替选地,S1阶段304能够包括一个或多个具有挤压激励的卷积块。S1阶段和/或其它卷积阶段的一个或多个卷积块能够包括MBConv块。MBConv块能够被配置为从一个或多个卷积块的输入的原始通道大小扩展通道大小,并且随后将扩展的通道大小投影回原始通道大小。作为另一个示例,在一些实施方式中,卷积块能够执行深度可分离的卷积(例如,在多个通道上)。附加地和/或可替选地,在一些实施方式中,卷积块能够执行反向瓶颈卷积。在一些实施方式中,S0阶段302的宽度小于或等于S1阶段304的宽度。在一些实施方式中,S0阶段302、S1阶段304和S4阶段310中的每一个(例如,恰好)包括两个块,并且S2阶段306和S3阶段308中的每一个包括多于两个块。例如,在一个特定实施方式中,两个或更多个网络阶段包括S0阶段302、S1阶段304、S2阶段306、S3阶段308和S4阶段310,S0阶段302包括两层卷积干线网络,S1阶段304包括具有挤压激励的卷积块,S2阶段306包括卷积块,S3阶段308包括注意力块,S4阶段310包括注意力块,其中S3阶段308和S4阶段310中的每一个包括相对注意力机制,该相对注意力机制被配置为确定静态卷积核与自适应注意力矩阵的和。
注意力块和/或阶段(例如,S3和/或S4阶段308、310)能够包括根据本公开的示例方面的相对注意力机制。相对注意力机制能够包括静态卷积核与自适应注意力矩阵的和。该和能够在由相对注意力机制进行的SoftMax归一化之前和/或之后被应用。作为一个示例,相对注意力机制(例如,在SoftMax归一化之前被应用)可以在数学上由以下表示:
作为另一个示例,相对注意力机制(例如,在SoftMax归一化之后被应用)可以在数学上由以下表示:
在上述等式中,深度卷积核wi-j是用于输入张量(i,j)中的给定索引的静态值的输入无关参数(例如,在索引i-j之间的相对移位,其中,对相对移位而不是特定值的依赖性被称为平移等价,其能够改进在有限大小的数据集下的泛化),xi和xj分别是在位置i处的输入和输出,并且g是全局感受野(例如,整组位置)。
图4描述了根据本公开的示例实施例的示例卷积注意力网络(CoAtNet)模型400的框图。如图4所示,模型400能够包括S0、S1、S2、S3和S4阶段。例如,S0阶段或干线阶段能够包括两个(例如,3×3)卷积层(例如,具有2的步幅)。附加地,卷积S1阶段和S2阶段能够各自包括1×1卷积层、3×3去卷积层和1×1卷积层。附加地,注意力(例如S3和S4)阶段能够各自包括相对注意力机制和前馈网络。模型能够附加地包括全局池化层和完全连接层以产生模型输出。能够重复每个阶段达到设计的次数。
图5描述了根据本公开的示例实施例执行的示例方法的流程图。尽管为了说明和讨论的目的,图5描述了以特定次序执行的步骤,但是本公开的方法不限于具体例示的次序或布置。在不脱离本公开的范围的情况下,方法500的各个步骤可以以各种方式省略、重新布置、组合和/或修改。
方法500能够包括,在502处,(例如,通过包括一个或多个计算设备的计算系统)获得包括具有一个或多个维度的输入张量的输入数据。例如,输入张量能够是具有长度和/或宽度的二维张量。附加地和/或可替选地,输入张量能够具有一个或多个通道。在一些实施方式中,例如,输入张量可以是或可以包括图像数据,诸如具有长度、宽度和/或多个颜色通道的图像。
方法500能够包括,在504处,(例如,由计算系统)向机器学习卷积注意力网络提供输入数据。机器学习卷积注意力网络能够是根据本公开的示例方面的任何合适的网络,诸如图2和/或3的网络200和/或300。
例如,在一些实施方式中,机器学习卷积注意力网络能够包括两个或更多个网络阶段,两个或更多个网络阶段中的每一个包括注意力阶段或卷积阶段中的一个,使得卷积阶段顺序地在注意力阶段之前。作为一个示例,在一些实施方式中,两个或更多个网络阶段能够包括S0阶段、S1阶段、S2阶段、S3阶段和S4阶段。这些阶段中的每一个能够是包括一个或多个卷积块(例如,MBConv块)的卷积阶段或包括具有相对注意力机制的一个或多个注意力块的注意阶段。在一些实施方式中,空间分辨率在两个或更多个网络阶段上逐渐降低。在一些实施方式中,能够在任何阶段(例如,S1阶段、S2阶段、S3阶段或S4阶段中的至少一个)处增加(例如,加倍)通道的数目。
在一些实施方式中,S0阶段包括两层卷积干线网络。附加地和/或可替选地,S1阶段能够包括一个或多个具有挤压激励的卷积块。S1阶段和/或其它卷积阶段的一个或多个卷积块能够包括MBConv块。MBConv块能够被配置为从一个或多个卷积块的输入的原始通道大小扩展通道大小,并且随后将扩展的通道大小投影回原始通道大小。作为另一个示例,在一些实施方式中,卷积块能够执行深度可分离的卷积(例如,在多个通道上)。附加地和/或可替选地,在一些实施方式中,卷积块能够执行反向瓶颈卷积。在一些实施方式中,S0阶段的宽度小于或等于S1阶段的宽度。在一些实施方式中,S0阶段、S1阶段和S5阶段中的每一个(例如,恰好)包括两个块,并且S2阶段和S3阶段中的每一个包含多于两个块。例如,在一个特定实施方式中,两个或更多个网络阶段包括S0阶段、S1阶段、S2阶段、S3阶段和S4阶段,S0阶段包括两层卷积干线网络,S1阶段包括具有挤压激励的卷积块,S2阶段包括卷积块,S3阶段包括注意力块,S4阶段包括注意力块,其中,S3阶段和S4阶段中的每一个包括相对注意力机制,该相对注意力机制被配置为确定静态卷积核与自适应注意力矩阵的和。
作为另一个示例,在一些实施方式中,机器学习卷积注意力网络能够包括被配置为相对于输入张量降低空间分辨率的下采样阶段以及包括相对注意力机制的一个或多个注意力块。下采样阶段能够降低空间分辨率以提高执行计算的可行性。例如,如果输入数据包括张量,则下采样阶段可以降低空间分辨率,使得下采样阶段的输出具有比输入数据的张量的至少一个维度或分辨率低的至少一个维度或分辨率。附加地和/或可替选地,下采样阶段可以相对于输入数据增加通道的数目。在一些实施方式中,下采样阶段能够是或能够包括卷积干线。卷积干线能够具有积极的步幅,例如大于10的步幅。
注意力块和/或阶段(例如,S3和/或S4阶段)能够包括根据本公开的示例方面的相对注意力机制。相对注意力机制能够包括静态卷积核与自适应注意力矩阵的和。该和能够在由相对注意力机制进行的SoftMax归一化之前和/或之后被应用。作为一个示例,相对注意力机制(例如,在SoftMax归一化之前被应用)可以在数学上由以下表示:
作为另一个示例,相对注意力机制(例如,在SoftMax归一化之后被应用)可以在数学上由以下表示:
在上述等式中,深度卷积核wi-j是用于输入张量(i,j)中的给定索引的静态值的输入无关参数(例如,在索引j-j之间的相对移位,其中,对相对移位而不是特定值的依赖性被称为平移等价,其能够改进在有限大小的数据集下的泛化),xi和xj分别是在位置i处的输入和输出,并且g是全局感受野(例如,整组位置)。
方法500能够包括,在506处,响应于向机器学习卷积注意力网络提供输入数据,由计算系统从机器学习卷积注意力网络接收机器学习预测。机器学习预测能够是任务特定的机器学习预测。作为示例,输出能够是计算机视觉输出,诸如分类输出(例如,分类向量)、对象识别输出等。可替选地,机器学习预测能够是中间预测或表示,诸如潜在或学习空间中的嵌入。
在本文讨论的技术指的是服务器、数据库、软件应用程序和其他基于计算机的系统,以及所采取的行动和发送到这些系统和从这些系统接收的信息。基于计算机的系统的固有灵活性允许在组件之间对任务和功能进行多种可能的配置、组合和划分。例如,在本文讨论的处理能够使用单个设备或组件或者组合工作的多个设备或组件来实现。数据库和应用能够在单个系统上实现,或者能够分布在多个系统上。分布式组件能够顺序地或并行地操作。
虽然本主题已经参考其各种具体示例实施例进行了详细描述,但是每个示例都是以解释的方式提供的,而不是对本公开的限制。本领域的技术人员在理解了前述内容之后,能够容易地产生这些实施例的变更、变型和等效物。因此,本主题公开不排除对本主题的这种修改、变型和/或添加,这对于本领域普通技术人员来说是显而易见的。例如,作为一个实施例的一部分示出或描述的特征可以与另一个实施例一起使用,以产生又一个实施例。因此,本公开旨在覆盖这些改变、变型和等效物。
Claims (29)
1.一种以降低的计算成本和提高的准确度来执行计算机视觉的计算机实现的方法,所述方法包括:
由包括一个或多个计算设备的计算系统获得包括具有一个或多个维度的输入张量的输入数据;
由所述计算系统向机器学习卷积注意力网络提供所述输入数据,所述机器学习卷积注意力网络包括两个或更多个网络阶段,所述两个或更多个网络阶段包括一个或多个注意力阶段和一个或多个卷积阶段,其中,所述一个或多个注意力阶段中的至少一个包括相对注意力机制,所述相对注意力机制被配置为确定静态卷积核与自适应注意力矩阵的和;以及
响应于向所述机器学习卷积注意力网络提供所述输入数据,由所述计算系统从所述机器学习卷积注意力网络接收机器学习预测。
2.根据任一项前述权利要求所述的计算机实现的方法,其中,所述两个或更多个网络阶段包括S0阶段、S1阶段、S2阶段、S3阶段、和S4阶段。
3.根据权利要求2所述的计算机实现的方法,其中,所述S0阶段包括两层卷积干线网络。
4.根据权利要求2或3所述的计算机实现的方法,其中,所述S1阶段包括具有挤压激励的一个或多个卷积块。
5.根据权利要求4所述的计算机实现的方法,其中,所述S1阶段的所述一个或多个卷积块包括MBConv块,所述MBConv块被配置为从所述一个或多个卷积块的输入的原始通道大小扩展通道大小,并且随后将扩展的通道大小投影回所述原始通道大小。
6.根据权利要求2-5中任一项所述的计算机实现的方法,其中,包括卷积阶段的所述S2阶段、所述S3阶段或所述S4阶段中的每一个包括MBConv块。
7.根据权利要求2-6中任一项所述的计算机实现的方法,其中,针对所述S1阶段、所述S2阶段、所述S3阶段或所述S4阶段中的至少一个,通道的数量被加倍。
8.根据权利要求2-7中任一项所述的计算机实现的方法,其中,所述S0阶段的宽度小于或等于所述S1阶段的宽度。
9.根据权利要求2-8中任一项所述的计算机实现的方法,其中,所述S0阶段、所述S1阶段和所述S5阶段中的每一个都包括两个块,并且其中,所述S2阶段和所述S3阶段中的每一个都包括多于两个块。
10.根据任一项前述权利要求所述的计算机实现的方法,其中,空间分辨率在所述两个或更多个网络阶段上逐渐降低。
11.根据任一项前述权利要求所述的计算机实现的方法,其中,所述静态卷积核与所述自适应注意力矩阵的所述和是在由所述相对注意力机制进行的SoftMax归一化之前被应用的。
12.根据任一项前述权利要求所述的计算机实现的方法,其中,所述输入数据包括图像数据。
13.根据任一项前述权利要求所述的计算机实现的方法,其中,所述机器学习预测包括计算机视觉输出。
14.根据任一项前述权利要求所述的计算机实现的方法,其中,所述机器学习预测包括分类输出。
15.根据任一项前述权利要求所述的计算机实现的方法,其中,所述一个或多个卷积阶段顺序地在所述两个或更多个网络阶段中的所述一个或多个注意力阶段之前。
16.一种以降低的计算成本和提高的准确度来执行计算机视觉的计算机实现的方法,所述方法包括:
由包括一个或多个计算设备的计算系统获得包括具有一个或多个维度的输入张量的输入数据;
由所述计算系统向机器学习卷积注意力网络提供所述输入数据,所述机器学习卷积注意力网络包括:
下采样阶段,所述下采样阶段被配置为降低相对于所述输入张量的空间分辨率;以及
包括相对注意力机制的一个或多个注意力块,所述相对注意力机制被配置为确定静态卷积核与自适应注意力矩阵的和;
响应于向所述机器学习卷积注意力网络提供所述输入数据,由所述计算系统从所述机器学习卷积注意力网络接收机器学习预测。
17.根据权利要求16所述的计算机实现的方法,其中,所述下采样阶段包括卷积干线。
18.根据权利要求16或17所述的计算机实现的方法,其中,所述卷积干线具有大于10的步幅。
19.根据权利要求16-18中任一项所述的计算机实现的方法,其中,所述输入数据包括图像数据。
20.根据权利要求16-19中任一项所述的计算机实现的方法,其中,所述机器学习预测包括计算机视觉输出。
21.根据权利要求16-20中任一项所述的计算机实现的方法,其中,所述机器学习预测包括分类输出。
22.根据权利要求16-21中任一项所述的计算机实现的方法,其中,所述静态卷积核与所述自适应注意力矩阵的所述和是在由所述相对注意力机制进行的SoftMax归一化之前被应用的。
23.一种以降低的计算成本和提高的准确度来执行计算机视觉的计算机实现的方法,所述方法包括:
由包括一个或多个计算设备的计算系统获得包括具有一个或多个维度的输入张量的输入数据;
由所述计算系统向机器学习卷积注意力网络提供所述输入数据,所述机器学习卷积注意力网络包括多个网络阶段,所述多个网络阶段包括:
S0阶段,所述S0阶段包括两层卷积干线网络;
S1阶段,所述S1阶段包括具有挤压激励的卷积块;
S2阶段,所述S2阶段包括卷积块;
S3阶段,所述S3阶段包括注意力块;
S4阶段,所述S4阶段包括注意力块;以及
其中,所述S3阶段和所述S4阶段中的每一个包括相对注意力机制,所述相对注意力机制被配置为确定静态卷积核与自适应注意力矩阵的和;
其中,空间分辨率在所述多个网络阶段中的每一个处降低;
其中,通道的数目在所述多个网络阶段中的每一个处增加;以及
响应于向所述机器学习卷积注意力网络提供所述输入数据,由所述计算系统从所述机器学习卷积注意力网络接收机器学习预测。
24.根据权利要求23所述的计算机实现的方法,其中,所述输入数据包括图像数据。
25.根据权利要求23或24所述的计算机实现的方法,其中,所述机器学习预测包括计算机视觉输出。
26.根据权利要求23或24或25所述的计算机实现的方法,其中,所述机器学习预测包括分类输出。
27.根据权利要求23或24或25或26所述的计算机实现的方法,其中,所述静态卷积核与所述自适应注意力矩阵的所述和是在由所述相对注意力机制进行的SoftMax归一化之前被应用的。
28.一种包括一个或多个处理器的系统,所述一个或多个处理器被配置为执行根据前述权利要求中任一项所述的方法。
29.一种或多种存储指令的非暂时性计算机可读介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器实施权利要求1-27中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163194077P | 2021-05-27 | 2021-05-27 | |
US63/194,077 | 2021-05-27 | ||
PCT/US2022/031304 WO2022251602A1 (en) | 2021-05-27 | 2022-05-27 | Systems and methods for machine-learned models having convolution and attention |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117377983A true CN117377983A (zh) | 2024-01-09 |
Family
ID=82115984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280026409.3A Pending CN117377983A (zh) | 2021-05-27 | 2022-05-27 | 具有卷积和注意力的机器学习模型的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11755883B2 (zh) |
EP (1) | EP4288939A1 (zh) |
JP (1) | JP2024517056A (zh) |
CN (1) | CN117377983A (zh) |
WO (1) | WO2022251602A1 (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189334A (zh) * | 2019-05-28 | 2019-08-30 | 南京邮电大学 | 基于注意力机制的残差型全卷积神经网络的医学图像分割方法 |
US20210064955A1 (en) * | 2019-09-03 | 2021-03-04 | Here Global B.V. | Methods, apparatuses, and computer program products using a repeated convolution-based attention module for improved neural network implementations |
CN112464792A (zh) * | 2020-11-25 | 2021-03-09 | 北京航空航天大学 | 一种基于动态卷积的遥感图像舰船目标细粒度分类方法 |
US20210142106A1 (en) * | 2019-11-13 | 2021-05-13 | Niamul QUADER | Methods and systems for training convolutional neural network using built-in attention |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6936592B2 (ja) * | 2017-03-03 | 2021-09-15 | キヤノン株式会社 | 演算処理装置およびその制御方法 |
-
2022
- 2022-05-27 WO PCT/US2022/031304 patent/WO2022251602A1/en active Application Filing
- 2022-05-27 CN CN202280026409.3A patent/CN117377983A/zh active Pending
- 2022-05-27 US US17/827,130 patent/US11755883B2/en active Active
- 2022-05-27 JP JP2023557195A patent/JP2024517056A/ja active Pending
- 2022-05-27 EP EP22731945.6A patent/EP4288939A1/en active Pending
-
2023
- 2023-07-19 US US18/355,243 patent/US20230359862A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189334A (zh) * | 2019-05-28 | 2019-08-30 | 南京邮电大学 | 基于注意力机制的残差型全卷积神经网络的医学图像分割方法 |
US20210064955A1 (en) * | 2019-09-03 | 2021-03-04 | Here Global B.V. | Methods, apparatuses, and computer program products using a repeated convolution-based attention module for improved neural network implementations |
US20210142106A1 (en) * | 2019-11-13 | 2021-05-13 | Niamul QUADER | Methods and systems for training convolutional neural network using built-in attention |
CN112464792A (zh) * | 2020-11-25 | 2021-03-09 | 北京航空航天大学 | 一种基于动态卷积的遥感图像舰船目标细粒度分类方法 |
Non-Patent Citations (1)
Title |
---|
JONGCHAN PARK 等: "A Simple and Light-Weight Attention Module for Convolutional Neural Networks", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》, 28 January 2020 (2020-01-28) * |
Also Published As
Publication number | Publication date |
---|---|
US11755883B2 (en) | 2023-09-12 |
WO2022251602A9 (en) | 2023-09-07 |
WO2022251602A1 (en) | 2022-12-01 |
US20220383069A1 (en) | 2022-12-01 |
EP4288939A1 (en) | 2023-12-13 |
US20230359862A1 (en) | 2023-11-09 |
JP2024517056A (ja) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361546B2 (en) | Action recognition in videos using 3D spatio-temporal convolutional neural networks | |
US11875269B2 (en) | Large scale generative neural network model with inference for representation learning using adversarial training | |
JP7494316B2 (ja) | ブートストラッピングされた潜在表現を使用する自己教師付き表現学習 | |
EP4033412A2 (en) | Method and apparatus with neural network training | |
CN118284905A (zh) | 用于3d场景的可泛化语义分割的神经语义场 | |
US20230394306A1 (en) | Multi-Modal Machine Learning Models with Improved Computational Efficiency Via Adaptive Tokenization and Fusion | |
Yi et al. | Elanet: effective lightweight attention-guided network for real-time semantic segmentation | |
EP4165544A1 (en) | Systems and methods for training multi-class object classification models with partially labeled training data | |
US20230351203A1 (en) | Method for knowledge distillation and model genertation | |
Huttunen | Deep neural networks: A signal processing perspective | |
CN116264847A (zh) | 用于生成机器学习多任务模型的系统和方法 | |
US11948090B2 (en) | Method and apparatus for video coding | |
US20240232637A9 (en) | Method for Training Large Language Models to Perform Query Intent Classification | |
US20230053618A1 (en) | Recurrent unit for generating or processing a sequence of images | |
US20230419082A1 (en) | Improved Processing of Sequential Data via Machine Learning Models Featuring Temporal Residual Connections | |
CN115186825A (zh) | 具有稀疏计算成本的全注意力 | |
CN117377983A (zh) | 具有卷积和注意力的机器学习模型的系统和方法 | |
CN115803753A (zh) | 用于高效推理的多阶段机器学习模型合成 | |
CN115362446A (zh) | 用于少样本相似性确定和分类的交叉变换器神经网络系统 | |
US20220245428A1 (en) | Machine-Learned Attention Models Featuring Omnidirectional Processing | |
US20220245917A1 (en) | Systems and methods for nearest-neighbor prediction based machine learned models | |
US20240370487A1 (en) | Machine-Learned Models for Multimodal Searching and Retrieval of Images | |
CN113365072B (zh) | 特征图压缩方法、装置、计算设备以及存储介质 | |
US20220245432A1 (en) | Machine-Learned Attention Models Featuring Echo-Attention Layers | |
WO2024020107A1 (en) | Task-specific prompt recycling for machine-learned models that perform multiple tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |