CN117441169A - 用于密集预测任务的多分辨率神经网络架构搜索空间 - Google Patents

用于密集预测任务的多分辨率神经网络架构搜索空间 Download PDF

Info

Publication number
CN117441169A
CN117441169A CN202280033721.5A CN202280033721A CN117441169A CN 117441169 A CN117441169 A CN 117441169A CN 202280033721 A CN202280033721 A CN 202280033721A CN 117441169 A CN117441169 A CN 117441169A
Authority
CN
China
Prior art keywords
resolution
search
image features
stacked
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280033721.5A
Other languages
English (en)
Inventor
连晓晨
杨林杰
王鹏
靳潇杰
丁明宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lemon Inc Cayman Island
Original Assignee
Lemon Inc Cayman Island
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lemon Inc Cayman Island filed Critical Lemon Inc Cayman Island
Publication of CN117441169A publication Critical patent/CN117441169A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

公开了用于搜索搜索空间的系统和方法。一些示例可以包括使用包括第一多个堆叠搜索块和第二多个堆叠搜索块的第一并行模块来输出第一分辨率的第一特征图并输出第二分辨率的第二特征图。在一些示例中,融合模块可以包括多个搜索块,其中融合模块被配置为通过将从第一并行模块接收的第一分辨率的一个或多个特征图与以下的一个或多个特征图进行融合来生成多尺度特征图:从第一并行模块接收第二分辨率,并且其中融合模块被配置为输出多尺度特征图并输出第三分辨率的第三特征图。

Description

用于密集预测任务的多分辨率神经网络架构搜索空间
背景技术
神经架构搜索(NAS)是一种用于自动设计在机器学习领域中频繁使用的人工神经网络(ANN)的技术。NAS已被用来设计能超过手工设计的架构的网络。用于NAS的方法可以根据所使用的搜索空间、搜索策略和性能估计策略进行分类,其中搜索空间限定可以被设计和优化的(多个)ANN类型,搜索策略限定用于探索目标空间的过程,并且性能估计策略基于ANN的设计来评估其性能。
在图像和计算机视觉任务中,高分辨率表示(HR)对于诸如分割、检测和姿态估计之类的密集预测任务至关重要。在专注于图像分类的以前的NAS方法中,学习HR表示通常被忽略。虽然NAS方法在自动设计有效的图像分类模型以及提高诸如语义分割和姿态估计之类的密集预测任务的模型效率方面取得了成功,但现有用于密集预测的NAS方法要么直接被扩展为图像分类而设计的搜索空间,要么仅扩展对特征聚合头的搜索。与最好的手工模型相比,缺乏对密集预测特殊性的考虑阻碍了NAS方法的性能进步。
原则上,密集预测任务需要全局上下文的完整性和高分辨率表示。前者对于使每个像素处的模糊局部特征清晰来说至关重要,而后者对准确预测精细细节(诸如语义边界和关键点地点)有用。然而,全局上下文的完整性和高分辨率表示并不是著名的NAS分类算法的重点。通常,多尺度特征已在网络末端被组合,而最近的方法通过将多尺度特征处理置于网络主干内来提高性能。此外,多尺度卷积表示没有提供图像的全局观,因为密集预测任务通常伴有高输入分辨率,而网络通常覆盖固定的感受野。因此,提出了诸如挤压和激励网络(SENet)或非局部网络之类的全局注意力策略来丰富图像卷积特征。在与卷积神经网络结合以用于图像分类和目标检测时,变换器(被广泛应用于自然语言处理)表现出良好的效果。然而,与变换器相关联的计算复杂度随着像素数目呈二次方增加;因此,众所周知,变换器的实现在计算上是昂贵的。
正是针对这些和其他的一般考虑,描述了实施例。尽管已经讨论了相对具体的问题,但是应当理解,本文描述的示例不应限于解决上面的背景技术中确认的具体问题。
发明内容
根据本公开的示例,描述了针对高分辨率神经架构搜索(HR-NAS)的系统和方法。本文描述的HR-NAS实现可以通过有效地编码多尺度上下文信息同时保持高分辨率(high-resolution)表示来找到针对不同任务的高效且准确的网络。为了更好地编码HR-NAS的搜索空间(searching space)中的多尺度图像上下文,利用了一种轻量级变换器(transformer),其计算复杂度可以关于不同的目标函数和计算预算而动态改变。为了保持学习网络的高分辨率表示,HR-NAS使用了提供多种特征分辨率的卷积编码的多分支(multi-branch)架构。因此,可以使用有效的细粒度搜索策略来训练HR-NAS,这可以有效地探索搜索空间并确定给定的各种任务和计算资源的最佳架构。
根据本公开的至少一个示例,描述了一种搜索空间。该搜索空间可以包括:第一并行模块,第一并行模块包括第一多个堆叠搜索块(searching block)和第二多个堆叠搜索块,其中第一多个堆叠搜索块被配置为输出第一分辨率的第一特征图(feature map),并且第二多个堆叠搜索块被配置为输出第二分辨率的第二特征图;融合模块,融合模块包括多个搜索块,其中融合模块被配置为通过将从第一并行模块被接收的第一分辨率的一个或多个特征图与从第一并行模块被接收的第二分辨率的一个或多个特征图进行融合来生成多尺度(multi-scale)特征图,以及其中融合模块被配置为输出多尺度特征图,以及输出第三分辨率的第三特征图;以及第二并行模块,第二并行模块被配置为从融合模块接收多尺度特征图和第三分辨率的第三特征图,并且输出第一分辨率的第四特征图、第二分辨率的第五特征图、以及第三分辨率的第六特征图。
根据本公开的示例,描述了一种搜索空间。该搜索空间可以包括:第一分支,第一分支包括针对第一分辨率的图像特征的第一多个堆叠搜索块,第一多个堆叠搜索块中的一个或多个搜索块包括多个卷积层(convolution layer)和至少一个变换器(transformer),至少一个变换器被配置为基于来自第一分支的另一搜索块的图像特征来提供注意力图(attention map);第二分支,第二分支包括针对第二分辨率的图像特征的第二多个堆叠搜索块,第二多个堆叠搜索块中的一个或多个搜索块包括多个卷积层和至少一个变换器,至少一个变换器被配置为基于来自第二分支的另一搜索块的图像特征来提供注意力图;以及融合模块,融合模块被配置为将由第一多个堆叠搜索块中的一个或多个搜索块输出的图像特征和由第二多个堆叠搜索块中的一个或多个搜索块输出的图像特征进行融合,其中融合模块被配置为输出第一分辨率的图像特征和第二分辨率的图像特征。
根据本公开的示例,描述了一种搜索搜索空间的方法。该方法可以包括:使用包括第一多个堆叠搜索块的第一并行模块来生成第一分辨率的图像特征,其中第一多个堆叠搜索块中的一个或多个搜索块包括多个卷积层和至少一个变换器,至少一个变换器被配置为基于另一搜索块的图像特征来提供注意力图;使用第一并行模块来生成第二分辨率的图像特征,其中第一并行模块包括第二多个堆叠搜索块,并且第二多个堆叠搜索块中的一个或多个搜索块包括多个卷积层和至少一个变换器,至少一个变换器被配置为基于来自不同搜索块的图像特征来提供注意力图;以及将从第一多个堆叠搜索块被接收的一个或多个图像特征与从第二多个堆叠搜索块被接收的一个或多个图像特征进行融合,以输出第一分辨率的多尺度图像特征和第二分辨率的多尺度图像特征。
提供本发明内容是为了以简化的形式介绍概念的选择,这些概念将在下面的具体实施方式中被进一步描述。本发明内容不旨在识别所要求保护的主题的关键特征或基本特征,也不旨在被用来限制所要求保护的主题的范围。
附图说明
参考以下附图来描述非限制性和非穷举性示例。
图1描绘了根据本公开的示例的示例变换器的细节。
图2描绘了根据本公开的示例的包括多尺度特征和全局上下文的用于密集预测的多分支搜索空间的细节。
图3是根据本公开的示例的用于密集预测的多分支搜索空间的附加细节。
图4描绘了根据本公开的示例的搜索块的附加细节。
图5描绘了根据本公开的示例的用于密集预测的多分支搜索空间的另一示例。
图6描绘了根据本公开的示例的用于使用变换器来生成注意力图的方法的细节。
图7描绘了根据本公开的示例的用于执行网络架构搜索的方法的细节。
图8是图示了可以用来实践本公开的各方面的计算系统的物理组件(例如,硬件)的框图。
图9A-图9B图示了可以用来实践本公开的各方面的移动计算设备。
图10图示了根据本公开的示例的用于处理数据的系统架构的方面。
具体实施方式
在下面的详细描述中,参考了形成其一部分的附图,并且在附图中以图示的方式示出了具体的实施例或示例。在不脱离本公开的情况下,可以组合这些方面,可以使用其他方面,并且可以做出结构改变。实施例可以被实践为方法、系统或设备。因此,实施例可以采用硬件实现、完全软件实现、或者组合软件和硬件方面的实现的形式。因此,下面的详细描述不应被视为限制意义,并且本公开的范围由所附的权利要求及其等同物限定。
NAS方法在自动设计用于图像分类的有效模型方面取得了显著的成功。NAS还被应用以提高诸如语义分割(semantic segmentation)和姿态估计(pose estimation)之类的密集预测任务的模型效率。然而,现有用于密集预测的NAS方法要么直接扩展为图像分类设计的搜索空间,要么仅扩展对特征聚合头(feature aggregation head)的搜索。与最好的手工模型相比,缺乏对密集预测的特殊性的考虑阻碍了NAS方法的性能进步。
原则上,密集预测任务需要全局上下文的完整性和高分辨率表示。前者对于使每个像素处的模糊局部特征清晰来说至关重要,而后者对准确预测精细细节(诸如语义边界和关键点地点)有用。然而,这些原则(特别是HR表示)并不是著名的NAS分类算法的重点。通常,多尺度特征已在网络末端被组合,而最近的方法通过将多尺度特征处理置于网络主干内来提高性能。另外,多尺度卷积表示无法提供图像的全局观,因为密集预测任务通常伴有高输入分辨率,而网络通常覆盖固定的感受野(receptive field)。因此,提出了诸如SENet或非局部网络之类的全局注意力策略来丰富图像卷积特征。在与卷积神经网络结合以用于图像分类和目标检测时,变换器(被广泛应用于自然语言处理)表现出良好的效果。然而,与变换器相关联的计算复杂度随着像素数目呈二次方增加;因此,变换器的实现在计算上是昂贵的。根据本公开的示例,将网络内多尺度特征和变换器与NAS方法结合,以获得具有动态任务目标和资源约束的NAS。
在示例中,使用动态下投影策略来克服与使用图像像素实现变换器相关联的昂贵计算成本相关联的问题。因此,描述了一种可以与卷积神经架构相结合的轻量级且即插即用的变换器架构。另外,为了搜索多尺度卷积和变换器的融合空间,需要适当的特征归一化、融合策略的选择、以及进行平衡。因此,可以使用基于变换器的查询数目来概括和优选多个任务的各种模型选择。
根据本公开的示例,首先限定了也称为“超网(SuperNet)”的超级网络,其中超网的每一层包括多分支并行模块,后面是融合模块。并行模块包括具有多个分辨率的搜索块,而融合模块包括确定来自不同分辨率的特征如何融合的特征融合搜索块。基于计算预算和任务目标,可以使用细粒度的渐进收缩搜索策略有效地修剪网络中的冗余块以及卷积中的通道(channel)和变换器查询,从而形成高效的模型。根据本公开的示例,描述了一种变换器,其是高效的并且可以容易地与用于图像和计算机视觉任务的卷积网络组合。根据本公开的示例,描述了一种多分辨率搜索空间,其包括卷积和变换器这两者以对用于密集预测任务的网络内多尺度信息和全局上下文进行建模。因此,描述了一种变换器,其被集成到资源受约束的NAS搜索空间中以进行图像和计算机视觉任务。根据本公开的示例,描述了为不同任务确定高效架构的资源感知搜索方法。
图1描绘了根据本公开的示例的神经网络系统,也被称为变换器102。变换器102是在一个或多个地点的一个或多个计算机上被实现为计算机程序的系统的示例,其中可以实现下面描述的系统、组件和技术。该变换器包括投影器(projector)110、编码器(encoder)104和解码器(decoder)106。通常,编码器104和解码器106都是基于注意力的,即,两者都在其相应接收的输入上应用注意力机制(例如,多头自注意力(multi-head self-attention)配置),同时对输入序列进行变换。在某些情况下,编码器和解码器都不包括任何卷积层或任何循环层(recurrent layer)。投影器110使用按点卷积(具有批归一化)将特征图的通道维度从c+dp(其中c表示输入特征X的通道号,而dp表示位置图的通道号P)减少到更小的维度n,其中n表示查询数目。投影器110可使用双线性插值将特征图的空间维度的大小调整为s×s。也就是说,为了减少计算成本,通过投影函数将输入特征/>投影为n×s×s的减小的大小,其中n表示查询数目并且s×s是减小的空间大小。因此,投影过程可以用/>来表示,其中Concat表示连接运算符,输入序列被投影和展平的嵌入,/>是补偿自注意力过程中的空间信息损失的位置编码。当dp=2时,/>可以是补偿自注意力过程中的空间信息损失的二维位置图。与正弦位置编码和学习的嵌入(embedding)相比,包含两个通道(即,dp=2)的二维位置图P在轻量级视觉模型的计算要求方面更加高效。该二维位置图可以根据以下等式获得:
P[0,i,j]=i/h,i∈[0,h-1];
P[1,i,j]=j/w,i∈[0,w-1]
可以执行1×1卷积和双线性插值以实现变换器102中的投影P(·)和逆投影原始图像特征X 112可以被划分成n个标记108以实现低维度空间。每个标记108可以在116处与2D位置图/>114连接以到达投影特征/>118。也就是说,输入图像特征X 112被变换为n个标记的集合X’,并且该n个标记的集合X’中的每一个包括具有位置信息的s2维度语义嵌入。然后,可以将投影的特征X’作为查询、键和值Q、K、/>提供给编码器104。
编码器104包括多头自注意力配置122,其允许编码器104联合注意在不同位置处的信息。更特别地,多头自注意力配置/>(·)122可以被限定为:其中其中h为头的数目,d为注意子空间的隐藏维度,而是学习嵌入(权重)。
使用残差(residual)连接,多头自注意力配置122的输出在加法和归一化操作124处与多头自注意力/>122的输入进行组合。加法和归一化操作124的输出是编码器自注意力残差输出,其被提供给按位置前馈网络(position-wise feed-forward network)126。按位置前馈网络/>126可以包括两个线性变换,它们之间具有ReLU激活;按位置前馈网络/>126被应用于注意特征,如/>其中当扩展比/>例如被设置为4时,/>b1和b2分别表示线性层的权重和偏置。
因此,编码器104可以由表示,其中首先计算按标记注意力然后跨按空间位置应用线性变换以获得全局注意特征F。采用了从前馈网络126周围的加法和归一化操作124到加法和归一化128的残差连接。编码器104的输出被提供给解码器106。
解码器106遵循与编码器104类似的流程;来自编码器104的输出被提供给多头自注意力配置130,其中多头自注意力配置/>130还接收语义查询S132。也就是说,Q、K和V被提供给多头自注意力配置/>130。多头自注意力配置/>130使用编码器104的输出作为键和值,并且使用可学习语义嵌入/>(例如,n个可学习的s2维度语义嵌入集合)作为查询。使用残差连接,多头自注意力/>配置130的输出在加法和归一化操作138处与多头自注意力/>130的输入进行组合以生成解码器自注意力残差输出。解码器自注意力残差输出被提供给按位置前馈网络/>配置136。采用了从前馈网络136周围的加法和归一化操作134到加法和归一化操作138的残差连接。然后,解码器106的输出通过逆投影函数/>被投影回到原始特征大小c×h×w,然后被添加到图像特征X 112。因为图像建模不是预测任务,并且语义嵌入查询之间不存在时间关系,所以可以从解码器106中省略标准变换器解码器中的第一多头注意力配置(即,向多头注意力配置130提供输入的第一多头注意力配置)。
多头自注意力和前馈网络的时间复杂度是O(4nds2+2n2d)和O(8ns4),其中s2、d和n在投影的低维空间中。由于s2是投影的小空间大小,所以变换器102的总时间复杂度(FLOP)Oτ(n)与n2d近似线性。因此,在一些示例中,变换器102可以被用在细粒度搜索策略中以减少和选择合适的n以进一步使变换器102更高效。
变换器102与标准变换器之间的非限制性差异包括:使用投影函数来学习低维空间中的自注意力;使用二维位置图P而不是正弦位置编码;省略了第一多头自注意力和标准变换器解码器中的空间编码;以及编码器104的输出直接被用作具有残差连接(例如,多头自注意力/>配置130周围的残差连接)的解码器106的键和值。
根据本公开的示例,图2描绘了用于密集预测的多分支搜索空间202,其包括多尺度特征和全局上下文,同时在整个神经网络中维持高分辨率表示。超网204是包括多个搜索块210的多分支网络,其中每个搜索块包括至少一个卷积层214;在示例中,搜索块210还可以包括变换器212。变换器212可以与之前在本公开中描述的变换器102相同或相似。与之前针对特定任务的搜索方法不同,网络搜索网络可以针对各种密集预测任务进行定制。多分支搜索空间可以包括并行模块208和融合模块206。在示例中,并行模块208和融合模块206被替换地配置。例如,可以在并行模块之后使用融合模块,以跨多分支交换信息。在示例中,并行模块208和融合模块206利用搜索块210。
图3描绘了根据本公开的示例的用于密集预测的多分支搜索空间的附加细节。如图3中所描绘的,在一个或多个卷积层304将特征解减小到例如图像大小的四分之一之后,通过融合模块306、314等使用特征融合将低分辨率卷积分支逐渐添加到高分辨率卷积分支。多分辨率分支使用并行模块(例如,并行模块308、312、316等)来并行连接。多分支特征被连接在一起并连接到最后的分类/回归层318。
并行模块320(其可以与并行模块308、312、316等相同或相似)通常通过在每个分支中堆叠搜索块来获得更大的感受野和多尺度特征。例如,搜索块334A可以驻留在特征图322和324之间;搜索块334B可以驻留在特征图324和326之间。搜索块334A和334B可以相同或不同。特征图322、324和326是更高分辨率的特征图的说明性示例。类似地,搜索块334C可以驻留在特征图328和330之间;搜索块334D可以驻留在特征图330和332之间。搜索块334C和334D可以相同或不同。搜索块334A、334B、334C和334D可以相同或不同。特征图328、330和332是具有比特征图322、324和326更低的分辨率的特征图的说明性示例。在示例中,并行模块320包括含有nc1,...ncm个卷积层的m∈[1,4]个分支,在每个分支中具有nw1,...nwm个通道。也就是说,并行模块可以被表示为[m,[nc1,...,ncm],[nw1,...,nwm]]。
融合模块336(其可以与融合模块306、314等相同或相似)被用在具有min和mout分支的两个并行模块之间,以使用按元素相加来执行多分支之间的特征交互。对于每个输出分支,使用搜索块融合相邻的输入分支以统一特征图大小。例如,8×输出分支包含4×、8×和16×输入分支的信息。高到低分辨率特征变换是利用搜索块和上采样来实现的。例如,在融合模块336中表示为箭头的搜索块可以驻留在特征图338和334、338和340、342和340、342和344、342和348、346和344、346和348以及346和350之间。与并行模块中一样,搜索块可以彼此相同,也可以彼此不同。
图4描绘了根据本公开的示例的搜索块406的附加细节。搜索块406可以与并行模块中的搜索块404和/或融合模块中的搜索块410相同。在示例中,搜索块包括卷积层412和至少一个变换器430,其中至少一个变换器中的卷积通道的数目和查询/标记(token)的数目是可搜索参数。在示例中,搜索块406中的卷积层412按照反转残差块(invertedresidual block)的有效结构来组织,并且包括至少一个变换器430以增强全局上下文。在一些示例中,卷积层412可以与图4中描绘的配置不同,或以其他方式包括与图4中描绘的配置不同的配置。类似地,在一些示例中,搜索块406可以包括与图4中描绘的一个变换器430不同的经修改的变换器,或者至少一个变换器430可以整体被省略。
如果c表示输入特征X的通道数目并且出于简单的原因省略了空间维度h×w,则第一层414可以被限定为1×1按点卷积C0。第一层被限定为1×1按点以使用卷积416、418和420将输入特征扩展到具有3r的扩展比的高维度。三个按深度卷积层(C1424、C2 422、/>具有不同的内核大小3×3、5×5、7×7)分别被施加在扩展特征的三个部分上。然后,将层424、422和426的输出连接起来并且跟随按点卷积层以将通道数目减少到c’(在并行模块中c’=c)。同时,将具有n个查询的变换器/>应用于输入特征X以获得全局自注意力,然后将其添加到最终输出。以这种方式,变换器/>被认为是增强每个搜索块内的全局上下文的残差路径。搜索块中的信息流可以写成:/>其中C0(X)i表示第一卷积层C0(X)的输出的第i部分,如图4中所描绘的。在示例中,卷积C1、C2、C3中两个的步幅(stride)和变换器中的半大小逆投影/>被用于减少搜索块。以这种方式,整个超网(例如,图3的302)通过本文描述的减少搜索块而被构建,通过减少C1、C2、C3的深度卷积通道和变换器/>的查询/标记,使这种模型易于适合有限的计算预算,同时维持了多尺度和全局信息。
超网(例如,图3的302)是包括搜索块的多分支网络,其中每个搜索块可以包括卷积层和变换器的混合。与之前针对特定任务的搜索方法不同,可以定制用于各种密集预测任务的网络以获得针对不同任务的最佳特征组合。例如,资源感知通道/按查询细粒度搜索策略可以被用于探索针对不同任务的最佳特征组合。
在示例中,渐进收缩神经架构搜索范例被用于通过在训练期间丢弃卷积通道和变换器查询的一部分来生成轻量级模型。在搜索块(例如,406)中,使用1×1卷积层C0、C4来确保每个单元具有固定的输入和输出维度。相反,按深度卷积C1、C2、C3中的通道之间的交互可以被最小化,使得可以在搜索过程中轻松地移除不重要的通道。例如,如果C1中的通道不重要并且被移除,则可以将卷积C0、C4分别调整为c×(3rc-1)和(3rc-1)×c′(其中c和c’分别表示卷积C0、C4的通道数目)。类似地,通过投影和逆投影/>变换器/>可以被设计为包括可变数目的查询和标记。如果丢弃查询,则投影/>和/>可以处理低维空间中(n-1)×s×s大小的特征。因此,编码器的变换器和解码器的变换器这两者的标记和特征被自动缩放。作为示例,搜索块(例如,406)可以包含(3rc+n)个可学习子层,其中c是搜索块406的通道数目,r是扩展比,而n是标记数目。
在示例中,可以与网络权重联合学习因子α>0,以缩放搜索块(例如,406)的每个可学习子层中的输出。可以逐渐丢弃具有低重要性的通道和查询,同时保持搜索块的整体性能。在一些示例中,对α的资源感知惩罚可能会将其他重要因素推至接近零的值。例如,搜索块的每个子层(例如406)的计算成本γ>0被用于对惩罚进行加权,以适应有限的计算预算:
其中如上文所提供;i是子层的索引,n′是剩余查询(标记)的数目,而γi是第i个子层的计算成本。因此,γ在三个按深度卷积C1、C2、C3中可以是固定值,而在变换器/>中,它是根据剩余查询的数目而设置的动态值。添加资源感知惩罚项后,整体训练损失为:
其中Ltask表示针对特定任务的具有权重衰减项的标准分类/回归损失,并且λ表示L1惩罚项的系数。权重衰减会有助于约束网络权重的值,以防止其太大而使重要因子α难以学习。在作为时间间隔的几个时期内,可以移除具有小于阈值ε的重要因子的子层,并且可以重新校准批归一化(BN)层的统计数据。如果移除变换器的所有标记/查询,则变换器将退化为残差路径。当搜索结束后,剩余的结构可以直接被使用而无需进行微调。
基于资源感知的L1正则化,可以找到针对不同资源预算量的准确性-效率的折中。考虑到FLOP是最广泛和最容易使用的度量,并且近似为延时的下限,因此FLOP可以被用作惩罚权重。其他度量也可以类似地被应用。此外,多分支超网可以在搜索过程中针对不同的任务进行定制。针对不同的任务,保留了不同的卷积通道和不同分支的变换器标记;因此,可以标识针对特定任务的最佳的低级/高级和局部/全局特征组合。
图5描绘了根据本公开的示例的用于密集预测的多分支搜索空间的附加细节。在示例中,多分支搜索空间包括在第一级接收的高分辨率卷积流,并且逐渐将高到低分辨率流逐一添加,形成新的级,并且并行连接多分辨率流。结果,较后级并行流的分辨率包括来自先前级的分辨率和附加的较低分辨率。根据本公开的示例,第一融合模块503可以接收高分辨率卷积流502作为输入,其中高分辨率卷积流可以是第一分辨率510。第一融合模块503可以与融合模块306相同或相似。第一融合模块503可以添加与第二步或分辨率512相对应的高到低分辨率流。例如,搜索块524(由箭头表示并且可以与搜索块406(图4)相同或相似)可以发起第二分辨率512的卷积流。
并行模块504(可以与图3的并行模块308和/或320相同或相似)可以在每个分支中堆叠搜索块(由箭头表示),其中第一分支可以对应于第一分辨率510并且第二分支可以对应于第二分辨率512。并行模块504中的搜索块可以与图4的搜索块406相同或相似。另一融合模块505(可以与图3的搜索块336相同或相似)可以跨多分辨率表示(例如,以第一分辨率510的特征和第二分辨率512的特征)来交换信息。因此,融合模块505可以对来自第二分辨率512的特征信息进行上采样,以及将这种信息与来自第一分辨率510的特征信息进行融合。类似地,融合模块505可以对来自第一分辨率510的特征信息进行下采样,并且将这种信息与来自第二分辨率512的特征信息进行融合。类似于融合模块503,融合模块505可以添加与第三步或分辨率514相对应的高到低分辨率流。
并行模块506可以在融合模块505和融合模块507之间。融合模块507可以对来自第二分辨率512的特征信息进行上采样,以及将这种信息与来自第一分辨率510的特征信息进行融合。类似地,融合模块507可以对来自第一分辨率510的特征信息进行下采样,以及将这种信息与来自第二分辨率512的特征信息以及从第三分辨率514上采样的特征信息进行融合。融合模块507可以对来自第二分辨率512的特征信息进行下采样,以及将这种信息与来自第三分辨率514的特征信息进行融合。类似于融合模块503和505,融合模块507可以添加与第四步或分辨率516相对应的高到低分辨率流。在示例中,融合模块507与图3的融合模块314相同或相似。
并行模块508可以驻留在融合模块507和融合模块509之间。融合模块509可以以与融合模块507类似的方式操作,融合来自各种分辨率的特征信息,以及添加与第五步或分辨率518相对应的高到低分辨率流。在示例中,并行模块和融合模块的数目可以与图3、图4和/或图5中描绘的不同。在示例中,可以有比所描绘的更多或更少的融合模块和特征模块。
在示例中,由箭头表示的搜索块可以是搜索块532A和/或532B,其中搜索块532A可以与可以包括卷积层412和变换器430的搜索块406(图4)相同或相似。在一些示例中,搜索块532A可以执行低到高分辨率特征变换;在一些示例中,特征变换的分辨率可以保持相同。在一些示例中,实现高到低分辨率特征变换的搜索块可以实现搜索块532B,其中搜索块532A可以与搜索块406(图4)相同或相似,搜索块406可以包括卷积层412和变换器430。搜索块532B可以被称为减少搜索块。
图6描绘了根据本公开的示例的方法600的细节,方法600使用变换器来生成注意力图。在图6中示出了方法600的步骤的一般顺序。通常,方法600在602处开始并在618处结束。方法600可以包括更多或更少的步骤,或者可以与图中所示那些那些步骤不同地布置步骤的顺序。方法600可以作为由计算机系统执行并编码或存储在计算机可读介质上的计算机可执行指令集来执行。在示例中,方法600的各方面由一个或多个处理设备(诸如计算机或服务器)执行。此外,方法600可以由与处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、H上系统(SOC)、神经处理单元或其他硬件设备相关联的门或电路来执行。在下文中,将参考结合图1至图5描述的系统、组件、模块、软件、数据结构、用户界面等来解释方法600。
该方法开始于602,其中流程可以进行至604。在604处,可以接收一个或多个输入特征图。为了减少计算成本,在606处通过投影函数将输入特征X投影为减少的大小。与正弦位置编码和学习嵌入相比,包含两个通道的二维位置图P就轻量级视觉模型的计算要求而言更为高效。
变换器的编码器可以包括多头自注意力配置,其允许编码器共同关注不同位置处的信息。此外,使用残差连接层,将多头自注意力配置的输出与多头自注意力/>的输入进行组合,以生成编码器自注意力残差输出。编码器自注意力残差输出被提供给前馈网络。在608处,来自编码器的输出被提供给解码器的多头自注意力配置/>其中解码器的多头自注意力配置/>还在610处接收语义查询。也就是说,键K和值V,从变换器的编码器部分被提供给解码器的多头自注意力配置/>查询Q是可学习的语义嵌入(例如,n个可学习的s2维度语义嵌入集合)。然后,解码器可以在612处基于Q、K和V获得输出。也就是说,多头自注意力配置/>使用编码器F的输出作为键和值,并且使用可学习的语义嵌入作为查询。使用残差连接层,解码器的多头自注意力/>配置的输出与多头自注意力/>的输入相组合,以生成解码器自注意力残差输出。该输出被提供给按位置前馈网络/>配置。残差连接将前馈网络周围的按位置前馈网络的输入馈送到加法和归一化操作。然后,在614处通过逆投影函数/>将解码器的输出投影回到原始特征大小c×h×w以获取注意力特征。然后,可以将特征添加到图像特征X。在示例中,可以将变换器的输出添加到搜索块(例如,406)内的卷积层,如先前所描述的。方法600可以在618处结束。
图7描绘了根据本公开的示例的用于执行网络架构搜索的方法700的细节。图7中示出了方法700的步骤的一般顺序。通常,方法700在702处开始并在716处结束。方法600可以包括更多或更少的步骤,或者可以与图7中所示那些步骤不同地布置步骤的顺序。方法700可以被执行为由计算机系统执行并且被编码或存储在计算机可读介质上的计算机可执行指令集。在示例中,方法700的各方面由一个或多个处理设备(例如,计算机或服务器)执行。此外,方法700可以由与处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC)、神经处理单元或其他硬件设备相关联的门或电路来执行。在下文中,将参考结合图1至图6描述的系统、组件、模块、软件、数据结构、用户界面等来解释方法700。
该方法开始于702,其中流程可以进行到704。在704处,设置或以其他方式配置超网。超网可以与超网302(图3)相同或相似,并且通常包括一个或多个并行模块和一个或多个融合模块,其中每个并行模块和每个融合模块可以包括如先前所描述的搜索块(例如,图4的406)。每个搜索块可以包括如先前根据本公开的示例所描述的卷积层和变换器。在示例中,超网的卷积层可以减少图像特征的空间维度。例如,图像特征的空间维度可以减少四倍。从超网的高分辨率分支开始,在706处,例如可以使用第一并行模块中的多个堆叠的第一搜索块来生成第一分辨率的图像特征。在708处,第一并行模块可以生成第二分辨率的图像特征。例如,第一并行模块可以包括第一分辨率级别的多个堆叠搜索块和第二分辨率级别的多个堆叠搜索块。因此,第一分辨率的图像特征可以由多个堆叠搜索块生成,而第二分辨率的图像特征可以由多个堆叠的第二搜索块生成。在710处,通过将第一分辨率的图像特征和第二分辨率的图像特征进行融合,融合模块可以生成第一分辨率的多尺度图像特征和第二分辨率的多尺度图像特征。在示例中,取决于融合模块驻留在哪个分支上,融合模块中的搜索块可以经由上采样或下采样来调整图像特征的空间维度或分辨率。例如,高到低分辨率的图像特征变换可以通过减少搜索块来实现,而低到高分辨率的特征变换可以利用不同的搜索块来实现。因此,融合模块的输出分支可以包括来自超网的多分支的信息。在一些示例中,超网可以在712处被修剪。也就是说,如先前所描述的,一些搜索块的卷积通道和变换器查询的一部分可以被丢弃。方法700可以在714处结束。
图8是图示计算系统800的物理组件(例如,硬件)的框图,可以用计算系统800来实践本公开的各方面。下面描述的计算系统组件可以适用于上面描述的计算和/或处理设备。在基本配置中,计算系统800可以包括至少一个处理单元802和系统存储器804。取决于计算设备的配置和类型,系统存储器804可以包括但不限于易失性存储装置(例如,随机存取存储器(RAM))、非易失性存储装置(例如,只读存储器(ROM))、闪存或这种存储器的任意组合。
系统存储器804可以包括操作系统805和适合运行软件应用820的一个或多个程序模块806,诸如被本文描述的系统支持的一个或多个组件。作为示例,系统存储器804可以包括以下一项或多项:变换器821、投影器822、编码器823、解码器824、超网825、并行模块826、融合模块827、搜索块828和/或卷积配置829。变换器821可以与先前描述的变换器102相同或相似。投影器822可以与先前描述的投影器110相同或相似。编码器823可以与先前描述的变换器102相同或相似。解码器824可以与先前描述的解码器106相同或相似。超网825可以与先前描述的超网302相同或相似。并行模块826可以与先前描述的并行模块320相同或相似。融合模块827可以与先前描述的融合模块336相同或相似。搜索块828可以与先前描述的搜索块406相同或相似。卷积配置829可以与先前描述的卷积层412相同或相似。在系统存储器804中描绘的一个或多个组件可以包括在系统存储器804中描绘的一个或多个其他组件。例如,变换器821可以包括编码器823和解码器824。例如,操作系统805可以适用于控制计算系统800的操作。
此外,本公开的示例可以结合图形库、其他操作系统或任何其他应用来实践,并且不限于任何特定的应用或系统。该基本配置在图8中由虚线808内的那些组件来图示。计算系统800可以具有附加的特征或功能性。例如,计算系统800还可以包括附加的数据存储设备(可移动和/或不可移动的),诸如例如磁盘、光盘或磁带。这种附加的存储装置在图8中由可移动存储设备809和不可移动存储设备810图示。
如上所述,若干程序模块和数据文件可以被存储在系统存储器804中。当在处理单元802上执行时,程序模块806(例如,软件应用820)可以执行包括但不限于本文描述的各方面。可以根据本公开的各方面使用的其他程序模块可以包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助程序等。
此外,本公开的实施例可以在电路、分立电子元件、包含逻辑门的封装或集成电子芯片、使用微处理器的电路中、或者在包含电子元件或微处理器的单个芯片上实践。例如,本公开的实施例可以经由片上系统(SOC)来实践,其中图8中所示的每个或许多组件可以被集成到单个集成电路上。这种SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能性,所有这些都作为单个集成电路被集成(或“烧录”)到芯H基板上。当经由SOC操作时,本文描述的关于客户端切换协议的能力的功能性可以经由与单个集成电路(芯片)上的计算系统800的其他组件集成的专用逻辑进行操作。本公开的实施例还可以使用能够执行逻辑运算(诸如例如AND、OR和NOT)的其他技术来实践,包括但不限于机械、光学、流体和量子技术。另外,本公开的实施例可以在通用计算机内或在任何其他电路或系统中被实践。
计算系统800还可以具有一个或多个输入设备812,诸如键盘、鼠标、笔、声音或语音输入设备、触摸或滑动输入设备等。一个或多个输入设备812可以包括图像传感器。还可以包括(多个)输出设备814,诸如显示器、扬声器、打印机等。前述设备是示例,并且可以使用其他设备。计算系统800可以包括允许与其他计算设备/系统850通信的一个或多个通信连接816。合适的通信连接816的示例包括但不限于射频(RF)发射器、接收器和/或收发器电路;通用串行总线(USB)、并行端口和/或串行端口。
如本文中所使用的术语“计算机可读介质”可以包括计算机存储介质。计算机存储介质可以包括以用于存储信息(诸如计算机可读指令、数据结构或程序模块)的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器804、可移动存储设备809和不可移动存储设备810都是计算机存储介质示例(例如,存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备,或可以被用来存储信息并且可由计算系统800访问的任何其他制品。任何这种计算机存储介质可以是计算系统800的一部分。计算机存储介质不包括载波或其他所传播或调制的数据信号。
通信介质可以由计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据(诸如载波或其他传输机制)来实现,并且包括任何信息递送介质。术语“调制数据信号”可以描述具有以对信号中的信息进行编码的方式来设置或改变的一个或多个特点的信号。通过示例而非限制的方式,通信介质可以包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、射频(RF)、红外和其他无线介质之类的无线介质。
图9A至图9B图示了移动计算设备900,例如,移动电话、智能电话、可穿戴计算机(诸如智能手表)、平板计算机、膝上型计算机等,本公开的示例可以用这些移动计算设备900来实践。在一些示例中,移动计算设备900可以使用经训练的搜索空间和/或经训练的模型来执行一个或多个任务,诸如图像分类任务。在其他示例中,移动计算设备900可以向诸如计算系统800之类的系统提供信息,并且从计算系统800接收信息。在一些示例中,移动计算设备900可以与计算系统800相同或相似。在一些方面,客户端可以是移动计算设备。参考图9A,图示了用于实现这些方面的移动计算设备900的一方面。在基本配置中,移动计算设备900是具有输入元件和输出元件的手持计算机。移动计算设备900通常包括显示器905和一个或多个输入按钮910,输入按钮910允许用户将信息输入到移动计算设备900中。移动计算设备900的显示器905还可以被用作输入设备(例如,触摸屏显示器)。
如果包括的话,可选的侧面输入元件915允许进一步的用户输入。侧面输入元件915可以是旋转开关、按钮或任何其他类型的手动输入元件。在备选的各方面中,移动计算设备900可以并入更多或更少的输入元件。例如,在一些实施例中,显示器905可以不是触摸屏。
在又一备选实施例中,移动计算设备900是便携式电话系统,诸如蜂窝电话。移动计算设备900还可以包括可选的小键盘935。可选的小键盘935可以是物理键盘或在触摸屏显示器上生成的“软”键盘。
在各种实施例中,输出元件包括用于示出图形用户界面(GUI)的显示器905、视觉指示器920(例如,发光二极管)和/或音频换能器925(例如,扬声器)。在一些方面,移动计算设备900并入用于向用户提供触觉反馈的振动换能器。在又一方面,移动计算设备900并入输入和/或输出端口,诸如音频输入(例如,麦克风插孔)、音频输出(例如,耳机插孔)和视频输出(例如,HDMI端口),以用于向外部设备发送信号或从外部设备接收信号。
图9B是图示了移动计算设备一方面的架构的框图。也就是说,移动计算设备900可以并入系统(例如,架构)902以实现一些方面。在一个实施例中,系统902被实现为能够运行一个或多个应用(例如,浏览器、电子邮件、日历、联系人管理器、消息传送客户端、游戏、媒体客户端/播放器和其他应用)的“智能电话”。在一些方面,系统902被集成为计算设备,诸如集成个人数字助理(PDA)和无线电话。
一个或多个应用966可以被加载到存储器962中,并且在操作系统964上或与操作系统964相关联地运行。应用程序的示例包括电话拨号器程序、电子邮件程序、成像程序、多媒体程序、视频程序、文字处理程序、电子表格程序、互联网浏览器程序、消息传递程序、地图程序等等。系统902还包括存储器962内的非易失性存储区域968。非易失性存储区域968可以被用于存储持久信息,如果系统902断电则该持久信息不应丢失。应用966可以使用信息(诸如电子邮件或由电子邮件应用使用的其他消息等)并将其存储在非易失性存储区域968中。同步应用(未示出)也驻留在系统902上,并且被编程为与驻留在主计算机上的对应的同步应用进行交互,以将非易失性存储区域968中存储的信息与主计算机处存储的对应信息保持同步。应当理解,其他应用可以被加载到存储器962中并且在本文描述的移动计算设备900上运行。
系统902具有电源970,电源970可以被实现为一个或多个电池。电源970还可能包括外部电源,诸如AC适配器或对电池进行补充或再充电的供电对接支架。
系统902还可以包括执行方式和接收射频通信的功能的无线电接口层972。无线电接口层972促进系统902与“外部世界”之间经由通信运营商或服务提供商的无线连接。去往和来自无线电接口层972的传输是在操作系统964的控制下进行的。换言之,无线电接口层972所接收的通信可以经由操作系统964传播到应用966,反之亦然。
视觉指示器920可以被用于提供视觉通知,和/或音频接口974可以被用于经由音频换能器925产生听觉通知。在所图示的实施例中,视觉指示器920是发光二极管(LED)并且音频换能器925是扬声器。这些设备可以被直接耦合到电源970,使得被激活时,即使处理器960和其他组件可能关闭以节省电池电力,它们也在通知机制规定的持续时间内保持开启。LED可以被编程为无限期地保持开启状态,直到用户采取行动来指示设备的开机状态。音频接口974被用于向用户提供可听信号并从用户接收可听信号。例如,除了被耦合到音频换能器925之外,音频接口974还可以被耦合到麦克风以接收可听输入,诸如以便于电话交谈。根据本公开的实施例,如下文将描述的,麦克风还可以被用作音频传感器以促进通知的控制。系统902还可以包括视频接口976,其使机载摄像头930能够操作以记录静止图像、视频流等。
实现系统902的移动计算设备900可以具有附加的特征或功能性。例如,移动计算设备900还可以包括附加的数据存储设备(可移动和/或不可移动的),诸如磁盘、光盘或磁带。这种附加的存储装置在图9B中由非易失性存储区域968来图示。
由移动计算设备900生成或捕获并经由系统902存储的数据/信息可以被本地存储在移动计算设备900上,如上所述,或者该数据可以被存储在任何数目的存储介质上,该存储介质可以由该设备经由无线电接口层972或经由移动计算设备900和与移动计算设备900相关联的单独计算设备(例如,分布式计算网络中的服务器计算机)之间的有线连接来访问。应当理解,这种数据/信息可以经由移动计算设备900经由无线电接口层972或者经由分布式计算网络来访问。类似地,根据众所周知的数据/信息转送和存储部件(包括电子邮件和协作数据/信息共享系统),这种数据/信息可以容易地在计算设备之间转送以供存储和使用。
图10图示了用于处理在计算系统处从远程源(诸如个人计算机1004、平板计算设备1006或移动计算设备1008)接收的数据的系统的架构的一方面,如上所述。个人计算机1004、平板计算设备1006或移动计算设备1008可以包括一个或多个应用。在服务器设备1002处的内容可以被存储在不同的通信信道或其他存储类型中。
服务器设备1002和/或个人计算机1004、平板计算设备1006或移动计算设备1008可以采用先前描述的程序模块或软件应用804(图8)中的一个或多个,如上所述。例如,服务器设备1002可以包括变换器1021和/或超网1025;超网1025可以被包括在未经训练的状态中,和/或在训练之后被包括为针对特定任务(诸如例如图像分类)训练的网络模型。
服务器设备1002可以通过网络10 15向诸如个人计算机1004、平板计算设备1006和/或移动计算设备1008(例如,智能电话)之类的客户端计算设备提供数据。作为示例,上述的计算机系统可以体现在个人计算机1004、平板计算设备1006和/或移动计算设备1008(例如,智能电话)中。除了接收可用于在图形始发系统处被预处理或在接收计算系统处被后处理的图形数据之外,计算设备这些实施例中的任何一个还可以从存储库10 16获得内容。
另外,本文描述的方面和功能性可以在分布式系统(例如,基于云的计算系统)上操作,其中应用功能性、存储器、数据存储和检索以及各种处理功能可以通过分布式系统(诸如互联网或内联网)彼此远程操作。用户界面和各种类型的信息可以经由机载计算装置显示器或经由与一个或多个计算设备相关联的远程显示单元来显示。例如,可以在其上投影有用户界面和各种类型的信息的墙面上显示用户界面和各种类型的信息并与之交互。可以以之来实践本发明实施例的与多个计算系统的交互包括击键输入、触摸屏输入、语音或其他音频输入、手势输入(其中相关联的计算设备配备有检测(例如,摄像头)功能性以用于捕捉和解释用户手势以控制计算设备的功能性),等等。
例如,上面参考根据本公开的各方面的方法、系统和计算机程序产品的框图和/或操作图示描述了本公开的各方面。框中标注的功能/动作可以不按任何流程图中所示的顺序发生。例如,连续示出的两个框实际上可以基本上同时被执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能性/动作。
本公开涉及至少根据在以下部分中提供的示例的搜索空间、以及用于获得和搜索搜索空间的系统和方法:
(A 1)在一个方面,一些示例包括搜索空间,该搜索空间包括:第一并行模块,包括第一多个堆叠搜索块和第二多个堆叠搜索块,其中第一多个堆叠搜索块被配置为输出第一分辨率的第一特征图,以及第二多个堆叠搜索块被配置为输出第二分辨率的第二特征图;融合模块,包括多个搜索块,其中融合模块被配置为通过将从第一并行模块被接收的第一分辨率的一个或多个特征图与从第一并行模块被接收的第二分辨率的一个或多个特征图进行融合来生成多尺度特征图,以及其中融合模块被配置为输出多尺度特征图,以及输出第三分辨率的第三特征图;以及第二并行模块,被配置为从融合模块接收多尺度特征图和第三分辨率的第三特征图,以及输出第一分辨率的第四特征图、第二分辨率的第五特征图、和第六分辨率的第六特征图。
(A2)在A1的一些示例中,融合模块的多个搜索块中的至少一个搜索块被配置为对特征图进行下采样,并且融合模块的第一多个搜索块中的至少一个搜索块被配置为对特征图进行上采样。
(A3)在A1-A2的一些示例中,第一多个堆叠搜索块中的一个或多个搜索块包括变换器,该变换器被配置为基于从第一多个堆叠搜索块中的另一搜索块被接收的特征图来提供注意力图。
(A4)在A1-A3的一些示例中,第一多个堆叠搜索块中的一个或多个搜索块包括以按深度方式布置的多个卷积层,多个卷积层中的每个卷积层具有不同的内核大小。
(A5)在A1-A4的一些示例中,第一分辨率大于第二分辨率。
(A6)在A1-A5的一些示例中,搜索空间包括第二融合模块,第二融合模块包括第二多个搜索块,其中第二融合模块被配置为通过将从第二并行模块接收的下采样特征图与从第二并行模块接收的上采样特征图进行组合来生成第二分辨率的多尺度特征图。
(A7)在A1-A6的一些示例中,融合模块被配置为融合来自三个不同分辨率的搜索块的特征图。
(A8)在A1-A7的一些示例中,搜索空间包括另一融合模块,该另一融合模块被配置为接收卷积流,以及将第一分辨率的特征图输出到第一并行模块,以及将第二分辨率的特征图输出到第一并行模块。
在又一方面,一些示例包括一种计算系统,该计算系统包括:一个或多个处理器以及耦合到该一个或多个处理器的存储器,该存储器存储被配置为由该一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于生成根据上述A1-A8中任一项的搜索空间的指令。
在又一方面,一些示例包括一种非暂时性计算机可读存储介质,其存储由存储设备的一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于生成根据至上述A1-A8中任一项的搜索空间。
本公开涉及至少根据以下部分中提供的示例的搜索空间、用于获得和搜索搜索空间的系统和方法:
(B1)在一个方面,一些示例包括搜索空间,该搜索空间包括:第一分支,包括针对第一分辨率的图像特征的第一多个堆叠搜索块、第一多个堆叠搜索块中的一个或多个搜索块包括多个卷积层和至少一个变换器,该至少一个变换器被配置为基于来自第一分支的另一搜索块的图像特征来提供注意力图;第二分支,包括针对第二分辨率的图像特征的第二多个堆叠搜索块,第二多个堆叠搜索块中的一个或多个搜索块包括多个卷积层和至少一个变换器,该至少一个变换器被配置为基于来自第二分支的另一搜索块的图像特征来提供注意力图;以及融合模块,被配置为将由第一多个堆叠搜索块中的一个或多个搜索块输出的图像特征和由第二多个堆叠搜索块中的一个或多个搜索块输出的图像特征进行融合,其中融合模块被配置为输出第一分辨率的图像特征和第二分辨率的图像特征。
(B2)在B1的一些示例中,融合模块被配置为发起第三分支并输出第三分辨率的图像特征。
(B3)在B1-B2的一些示例中,第一分辨率大于第二分辨率。
(B4)在B1-B3的一些示例中,融合模块包括被配置为对第一分支的图像特征进行下采样并对第三分支的图像特征进行上采样的搜索块,融合模块被配置为通过融合下采样的图像特征和上采样的图像特征以输出第二分辨率的多尺度图像特征来生成多尺度图像特征。
(B5)在B1-B4的一些示例中,第一多个堆叠搜索块中的一个或多个搜索块包括以按深度方式布置的多个卷积层,多个卷积层中的每个卷积层具有不同的内核大小。
(B6)在B1-B5的一些示例中,搜索空间包括第三分支,第三分支包括针对第三分辨率的图像特征的第三多个堆叠搜索块,其中第三多个堆叠搜索块的一个或多个搜索块包括变换器。
在又一方面,一些示例包括一种计算系统,该计算系统包括一个或多个处理器以及耦合到该一个或多个处理器的存储器,该存储器存储被配置为由该一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于生成根据上述B1-B6中任一项的搜索空间的指令。
在又一方面,一些示例包括一种非暂时性计算机可读存储介质,其存储由存储设备的一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于生成根据至上述B1-B6中任一项的搜索空间的指令。
本公开涉及至少根据以下部分中提供的示例来搜索搜索空间的系统和方法:
(C1)在一个方面,一些示例包括一种搜索搜索空间的方法。该方法可以包括:使用包括第一多个堆叠搜索块的第一并行模块来生成第一分辨率的图像特征,其中第一多个堆叠搜索块中的一个或多个搜索块包括多个卷积层和至少一个变换器,该至少一个变换器配置为基于来自另一搜索块的图像特征来提供注意力图;使用第一并行模块生成第二分辨率的图像特征,其中第一并行模块包括第二多个堆叠搜索块,并且第二多个堆叠搜索块中的一个或多个搜索块包括多个卷积层和至少一个变换器,该至少一个变换器被配置为基于来自不同搜索块的图像特征来提供注意力图;以及将从第一多个堆叠搜索块被接收的一个或多个图像特征与从第二多个堆叠搜索块被接收的一个或多个图像特征进行融合,以输出第一分辨率的多尺度图像特征和第二分辨率的多尺度图像特征。
(C2)在C1的一些示例中,该方法包括使用搜索块来生成第二分辨率的下采样图像特征,该搜索块从第一多个堆叠搜索块中的搜索块接收图像特征。
(C3)在C1-C2的一些示例中,该方法包括使用搜索块来生成第二分辨率的上采样图像特征,该搜索块从第三多个堆叠搜索块中的搜索块接收图像特征。
(C4)在C1-C3的一些示例中,该方法包括由融合模块生成第三分辨率的多尺度图像特征。
(C5)在C1-C4的一些示例中,第一并行模块的至少一个搜索块包括多个深度卷积层,多个深度卷积层中的每个卷积层使用不同的内核大小。
(C6)在C1-C5的一些示例中,第一分辨率大于第二分辨率。
在又一方面,一些示例包括一种计算系统,该计算系统包括一个或多个处理器以及耦合到该一个或多个处理器的存储器,该存储器存储被配置为由该一个或多个处理器来执行的一个或多个程序,该一个或多个程序包括用于执行本文描述的任何方法(例如,上述C1-C6)的指令。
在又一方面,一些示例包括一种非暂时性计算机可读存储介质,其存储由存储设备的一个或多个处理器来执行的一个或多个程序,该一个或多个程序包括用于执行本文描述的任何方法(例如,上述C1-C6)的指令。
在本申请中提供的一个或多个方面的描述和说明并不旨在以任何方式限制或约束所要求保护的本公开的范围。本申请中提供的方面、示例和细节被认为足以传达所有权并使其他人能够做出和使用要求保护的公开内容的最佳模式。要求保护的公开内容不应被解释为限于本申请中提供的任何方面、示例或细节。无论是组合还是单独地被示出和描述,各种特征(结构上的和方法上的)旨在选择性地被包括或省略以产生具有特定特征组的实施例。已经提供了本申请的描述和说明,本领域技术人员可以设想出落入在本申请中体现的总体发明构思的更广泛方面的精神内的变化、修改和替代方面,这些变化、修改和替代方面不背离要求保护的公开内容的更广的范围。

Claims (20)

1.一种搜索空间,包括:
第一并行模块,所述第一并行模块包括第一多个堆叠搜索块和第二多个堆叠搜索块,其中所述第一多个堆叠搜索块被配置为输出第一分辨率的第一特征图,并且所述第二多个堆叠搜索块被配置为输出第二分辨率的第二特征图;
融合模块,所述融合模块包括多个搜索块,其中所述融合模块被配置为通过将从所述第一并行模块被接收的所述第一分辨率的一个或多个特征图与从所述第一并行模块被接收的所述第二分辨率的一个或多个特征图进行融合来生成多尺度特征图,并且其中所述融合模块被配置为输出所述多尺度特征图,并且输出第三分辨率的第三特征图;以及
第二并行模块,所述第二并行模块被配置为从所述融合模块接收所述多尺度特征图和所述第三分辨率的所述第三特征图,并且输出所述第一分辨率的第四特征图、所述第二分辨率的第五特征图、以及所述第三分辨率的第六特征图。
2.根据权利要求1所述的搜索空间,其中所述融合模块的所述多个搜索块中的至少一个搜索块被配置为对特征图进行下采样,并且其中所述融合模块的所述第一多个搜索块中的至少一个搜索块被配置为对特征图进行上采样。
3.根据权利要求1所述的搜索空间,其中所述第一多个堆叠搜索块中的一个或多个搜索块包括变换器,所述变换器被配置为基于从所述第一多个堆叠搜索块中的另一搜索块被接收的特征图来提供注意力图。
4.根据权利要求3所述的搜索空间,其中所述第一多个堆叠搜索块中的一个或多个搜索块包括以按深度的方式被布置的多个卷积层,所述多个卷积层中的每个卷积层具有不同的内核大小。
5.根据权利要求1所述的搜索空间,其中所述第一分辨率大于所述第二分辨率。
6.根据权利要求1所述的搜索空间,还包括第二融合模块,所述第二融合模块包括第二多个搜索块,其中所述第二融合模块被配置为通过将从所述第二并行模块被接收的下采样特征图与从所述第二并行模块被接收的上采样特征图进行组合来生成所述第二分辨率的多尺度特征图。
7.根据权利要求1所述的搜索空间,其中所述融合模块被配置为将来自三个不同分辨率的搜索块的特征图进行融合。
8.根据权利要求1所述的搜索空间,还包括另一融合模块,所述另一融合模块被配置为接收卷积流,并且将所述第一分辨率的特征图输出到所述第一并行模块并且将所述第二分辨率的特征图输出到所述第一并行模块。
9.一种搜索空间,所述搜索空间包括:
第一分支,所述第一分支包括针对第一分辨率的图像特征的第一多个堆叠搜索块,所述第一多个堆叠搜索块中的一个或多个搜索块包括多个卷积层和被配置为基于来自所述第一分支的另一搜索块的图像特征来提供注意力图的至少一个变换器;
第二分支,所述第二分支包括针对第二分辨率的图像特征的第二多个堆叠搜索块,所述第二多个堆叠搜索块中的一个或多个搜索块包括多个卷积层和被配置为基于来自所述第二分支的另一搜索块的图像特征来提供注意力图的至少一个变换器;以及
融合模块,所述融合模块被配置为将由所述第一多个堆叠搜索块中的所述一个或多个搜索块输出的图像特征和由所述第二多个堆叠搜索块中的所述一个或多个搜索块输出的图像特征进行融合,其中所述融合模块被配置为输出所述第一分辨率的图像特征和所述第二分辨率的图像特征。
10.根据权利要求9所述的搜索空间,其中所述融合模块被配置为发起第三分支,并且输出第三分辨率的图像特征。
11.根据权利要求10所述的搜索空间,其中所述第一分辨率大于所述第二分辨率。
12.根据权利要求10所述的搜索空间,其中所述融合模块包括被配置为对所述第一分支的图像特征进行下采样并且对所述第三分支的图像特征进行上采样的搜索块,所述融合模块被配置为通过将所述下采样图像特征和所述上采样图像特征进行融合以输出所述第二分辨率的多尺度图像特征来生成多尺度图像特征。
13.根据权利要求9所述的搜索空间,其中所述第一多个堆叠搜索块中的一个或多个搜索块包括以按深度的方式被布置的多个卷积层,所述多个卷积层中的每个卷积层具有不同的内核大小。
14.根据权利要求9所述的搜索空间,还包括:
第三分支,所述第三分支包括针对第三分辨率的图像特征的第三多个堆叠搜索块,其中所述第三多个堆叠搜索块中的一个或多个搜索块包括变换器。
15.一种搜索搜索空间的方法,所述方法包括:
使用包括第一多个堆叠搜索块的第一并行模块来生成第一分辨率的图像特征,其中所述第一多个堆叠搜索块中的一个或多个搜索块包括多个卷积层和被配置为基于来自另一搜索块的图像特征来提供注意力图的至少一个变换器;
使用所述第一并行模块来生成第二分辨率的图像特征,其中所述第一并行模块包括第二多个堆叠搜索块,并且所述第二多个堆叠搜索块中的一个或多个搜索块包括多个卷积层和被配置为基于来自不同搜索块的图像特征来提供注意力图的至少一个变换器;以及
将从所述第一多个堆叠搜索块被接收的一个或多个图像特征与从所述第二多个堆叠搜索块被接收的一个或多个图像特征进行融合,以输出所述第一分辨率的多尺度图像特征和所述第二分辨率的多尺度图像特征。
16.根据权利要求15所述的方法,还包括使用从所述第一多个堆叠搜索块中的搜索块接收图像特征的搜索块来生成所述第二分辨率的下采样图像特征。
17.根据权利要求16所述的方法,还包括使用从第三多个堆叠搜索块中的搜索块接收图像特征的搜索块来生成所述第二分辨率的上采样图像特征。
18.根据权利要求15所述的方法,还包括由融合模块生成第三分辨率的多尺度图像特征。
19.根据权利要求15所述的方法,其中所述第一并行模块的至少一个搜索块包括多个按深度的卷积层,所述多个按深度的卷积层中的每个卷积层使用不同的内核大小来生成输出。
20.根据权利要求15所述的方法,其中所述第一分辨率大于所述第二分辨率。
CN202280033721.5A 2021-06-08 2022-05-10 用于密集预测任务的多分辨率神经网络架构搜索空间 Pending CN117441169A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/342,486 US20220391636A1 (en) 2021-06-08 2021-06-08 Multi-resolution neural network architecture search space for dense prediction tasks
US17/342,486 2021-06-08
PCT/SG2022/050296 WO2022260591A1 (en) 2021-06-08 2022-05-10 A multi-resolution neural network architecture search space for dense prediction tasks

Publications (1)

Publication Number Publication Date
CN117441169A true CN117441169A (zh) 2024-01-23

Family

ID=84284665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280033721.5A Pending CN117441169A (zh) 2021-06-08 2022-05-10 用于密集预测任务的多分辨率神经网络架构搜索空间

Country Status (3)

Country Link
US (1) US20220391636A1 (zh)
CN (1) CN117441169A (zh)
WO (1) WO2022260591A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102295202B1 (ko) * 2020-01-31 2021-08-27 중앙대학교 산학협력단 다중 객체 검출 방법 및 그 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019232099A1 (en) * 2018-05-29 2019-12-05 Google Llc Neural architecture search for dense image prediction tasks
CN111274865B (zh) * 2019-12-14 2023-09-19 深圳先进技术研究院 一种基于全卷积神经网络的遥感图像云检测方法及装置

Also Published As

Publication number Publication date
US20220391636A1 (en) 2022-12-08
WO2022260591A1 (en) 2022-12-15

Similar Documents

Publication Publication Date Title
CN110574049B (zh) 多任务多模态机器学习系统
CN106204522B (zh) 对单个图像的联合深度估计和语义标注
EP3627397B1 (en) Processing method and apparatus
CN106776673B (zh) 多媒体文档概括
KR20210076110A (ko) 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치
GB2571825A (en) Semantic class localization digital environment
EP3796189A1 (en) Video retrieval method, and method and apparatus for generating video retrieval mapping relationship
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
US20230042221A1 (en) Modifying digital images utilizing a language guided image editing model
WO2022253061A1 (zh) 一种语音处理方法及相关设备
CN113869138A (zh) 多尺度目标检测方法、装置及计算机可读存储介质
WO2024041479A1 (zh) 一种数据处理方法及其装置
CN114065771A (zh) 一种预训练语言处理方法及设备
WO2023207541A1 (zh) 一种语音处理方法及相关设备
CN114926636A (zh) 一种点云语义分割方法、装置、设备及存储介质
US20220292877A1 (en) Systems, methods, and storage media for creating image data embeddings to be used for image recognition
CN117441169A (zh) 用于密集预测任务的多分辨率神经网络架构搜索空间
CN117099136A (zh) 用于对象检测的动态头
US12003885B2 (en) Video frame interpolation via feature pyramid flows
CN110717405A (zh) 人脸特征点定位方法、装置、介质及电子设备
US11983239B2 (en) Lightweight transformer for high resolution images
KR102504007B1 (ko) 분할 이미지를 통해 컨텍스트 벡터를 생성하는 컨텍스트 벡터 추출 모듈 및 이의 동작 방법
WO2023097423A1 (en) Apparatus and method for dynamic quadruple convolution in 3d cnn
US20240171727A1 (en) Cross-view attention for visual perception tasks using multiple camera inputs
US11755883B2 (en) Systems and methods for machine-learned models having convolution and attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination