CN114830131A - 等面多面体球面量规卷积神经网络 - Google Patents
等面多面体球面量规卷积神经网络 Download PDFInfo
- Publication number
- CN114830131A CN114830131A CN202080065492.6A CN202080065492A CN114830131A CN 114830131 A CN114830131 A CN 114830131A CN 202080065492 A CN202080065492 A CN 202080065492A CN 114830131 A CN114830131 A CN 114830131A
- Authority
- CN
- China
- Prior art keywords
- convolution
- manifold
- locations
- location
- gauge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title description 25
- 238000000034 method Methods 0.000 claims abstract description 46
- 239000013598 vector Substances 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000001131 transforming effect Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 abstract description 30
- 238000012545 processing Methods 0.000 description 28
- 210000002569 neuron Anatomy 0.000 description 27
- 238000003860 storage Methods 0.000 description 17
- 238000013507 mapping Methods 0.000 description 16
- 230000009466 transformation Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 9
- 230000007850 degeneration Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000003412 degenerative effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 239000005022 packaging material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000023886 lateral inhibition Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000000302 molecular modelling Methods 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
- G06F17/153—Multidimensional correlation or convolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/10—Selection of transformation methods according to the characteristics of the input images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
一种生成用于在球面流形上操作的卷积神经网络的方法在该球面流形上的多个位置处生成局部定义的量规。在球面流形上的每个位置处参照任意选择的局部定义量规来定义卷积。在每个位置处基于量规等变性来定义的卷积的结果被转化以获得流形卷积。
Description
相关申请的交叉引用
本申请要求于2020年9月23日提交的题为“ICOSPHERICAL GAUGE CONVOLUTIONALNEURAL NETWORK(等面多面体球面量规卷积神经网络)”的美国临时专利申请No.17/030,361的权益,后者要求于2019年9月24日提交的题为“ICOSPHERICAL GAUGE CONVOLUTIONALNEURAL NETWORK(等面多面体球面量规卷积神经网络)”的美国临时专利申请No.62/905,233的权益,这些申请的公开内容通过援引全部明确纳入于此。
公开领域
本公开的各方面一般涉及人工神经网络。更具体地,本公开涉及等面多面体球面量规卷积神经网络。
背景
常规网格(例如,图像平面)上卷积算子在计算意义上的简单性和效率并不扩展到其他网格/流形。例如,常规网格上的卷积算子并不扩展到球面流形,球面流形是经由恰适的成像设置获得的全向全景信号的自然嵌入空间。此外,由于局部参考系的多义性和非唯一性,球面流形上的常规卷积计算并不简单直接。相应地,不能仅通过简单的移位来将系数内核在球面流形上移位。
概述
在本公开的一方面,提供了一种方法。该方法包括在球面流形上的多个位置处生成局部定义的量规。该方法还包括在球面流形上的多个位置中的每个位置处参照局部定义的量规来计算卷积。进一步地,该方法包括基于量规等变性来转化在每个位置处的卷积的结果以获得对应的流形变换。
在本公开的另一方面,提供了一种装置。该装置包括存储器以及耦合至该存储器的一个或多个处理器。该(诸)处理器被配置成在球面流形上的多个位置处生成局部定义的量规。该(诸)处理器还被配置成在球面流形上的多个位置中的每个位置处参照局部定义的量规来计算卷积。附加地,该(诸)处理器被配置成基于量规等变性来转化在每个位置处的卷积的结果以获得对应的流形变换。
在本公开的另一方面,提供了一种装备。该装备包括用于在球面流形上的多个位置处生成局部定义的量规的装置。该装备还包括用于在球面流形上的多个位置中的每个位置处参照局部定义的量规来计算卷积的装置。进一步地,该装备包括用于基于量规等变性来转化在每个位置处的卷积的结果以获得对应的流形变换的装置。
在本公开的进一步方面中,提供了一种非瞬态计算机可读介质。该计算机可读介质具有编码在其上的程序代码。该程序代码由处理器执行并且包括用于在球面流形上的多个位置处生成局部定义的量规的代码。该程序代码还包括用于在球面流形上的多个位置中的每个位置处参照局部定义的量规来计算卷积的代码。附加地,该程序代码还包括用于基于量规等变性来转化在每个位置处的卷积的结果以获得对应的流形变换的代码。
本公开的附加特征和优点将在下文描述。本领域技术人员应当领会,本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到,这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而,要清楚理解的是,提供每一幅附图均仅用于解说和描述目的,且无意作为对本公开的限定的定义。
附图简述
在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。
图1解说了根据本公开的某些方面的使用片上系统(SOC)(包括通用处理器)来设计神经网络的示例实现。
图2A、2B和2C是解说根据本公开的各方面的神经网络的示图。
图2D是解说根据本公开的各方面的示例性深度卷积网络(DCN)的示图。
图3是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。
图4A解说了根据本公开的各方面的以平坦表面来逼近球面的常规十二面体。
图4B解说了根据本公开的各方面的等面多面体球面。
图5A是解说了根据本公开的各方面的用于量规不变变换的从球体或球面流形到切平面的指数映射的示图。
图5B解说了根据本公开的各方面的示出关注点的切平面连同该切平面上的内插点。
图6解说了根据本公开的各方面的用于生成在球面流形上操作的卷积神经网络的方法。
详细描述
以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践所描述的概念的仅有配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。在一些实例中,以框图形式示出众所周知的结构和组件以避免湮没此类概念。
基于本教导,本领域技术人员应领会,本公开的范围旨在覆盖本公开的任何方面,不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如,可以使用所阐述的任何数目的方面来实现装置或实践方法。另外,本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解,所披露的本公开的任何方面可由权利要求的一个或多个要素来实施。
措辞“示例性”在本文中用于意指“用作示例、实例、或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。
尽管描述了特定方面,但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点,但本公开的范围并非旨在被限定于特定益处、用途或目标。相反,本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议,其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开,本公开的范围由所附权利要求及其等效技术方案来定义。
人工神经网络可以包括一群互连的人工神经元(例如,神经元模型)。人工神经网络可以是计算设备或表示为由计算设备执行的方法。卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每一个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)(诸如深度卷积神经网络(DCN))具有众多应用。具体而言,这些神经网络架构被用于各种技术,诸如图像识别、模式识别、语音识别、自动驾驶和其他分类任务。
球面CNN是可处理球面上的信号(诸如,全球气候和天气模式或全向图像)的卷积神经网络。常规网格(例如,图像平面)上卷积算子在计意义上的简单性和效率并不扩展到其他网格/流形。例如,常规网格上的卷积算子并不扩展到球面流形,球面流形是经由恰适的成像设置获得的全向全景信号的自然嵌入空间。此外,由于局部参考系的多义性和非唯一性,球面流形上的常规卷积计算并不简单直接。相应地,将系数内核在球面流形上移位是复杂且麻烦的。
在许多科学和工程学科中,球面信号自然地涌现。在地球和气候科学中,全球分布的传感器阵列收集测量,诸如温度、压力、风向和许多其他变量。宇宙学家们感兴趣的是从球面天象图上采样的真实和模拟宇宙微波背景测量中标识物理模型参数。在机器人技术中,尤其是在应用(诸如,同时定位和映射(SLAM)和视觉里程计)中广泛地使用全向和鱼眼相机。直接在球面信号上操作的高效CNN可以是有益的。
本公开的各方面旨在利用量规等变性卷积来设计可在球面信号上操作的高效卷积网络实现。对称变换的等变性原理对神经网络架构设计提供了有理论依据的办法。等变性网络在展现对称性的视觉和医学成像问题上示出优异的性能和数据效率。该原理可从全局对称扩展到局部量规变换,其使得能在流形上开发一类非常通用的卷积神经网络,其仅依赖于内蕴几何并且包括来自等变性和几何深度学习的许多常用方法。
等变性原理被用于实现定义在等面多面体的表面上的信号的量规等变性卷积神经网络(CNN),等面多面体提供了对球面的合理逼近。量规等变性卷积可使用单个二维卷积(conv2d)调用来实现,这使得该实现具有高度可伸缩性并且是对球面CNN的实用替换。量规等变性网络理论被应用于流形(例如,等面多面体)。该流形包括全局对称性(例如,离散旋转),这些全局对称性示出了局部对称性与全局对称性的相互作用之间的差异。该流形的形状使得以既便于数值计算(不指定内插),又计算高效率(繁重的工作由单个二维卷积(conv2d)调用完成)的方式实现量规等变性卷积成为可能,。然而,在等面多面体上的常规实现限于固定的内核,并且仅与常规二十面体的至多达六十个旋转对称等变。
本公开的各方面涉及一种用于生成在球面流形上操作的卷积神经网络的方法。所提议方法包括在球面流形上的多个位置处生成局部定义的量规。该方法还包括在球面流形上的多个位置中的每个位置处参照任意选择的局部定义的量规来定义卷积。进一步地,该方法包括基于量规等变性来转化在每个位置处所定义的卷积的结果以获得流形卷积。
在一个方面,球面流形或球面被参数化为等面多面体网格。流形卷积可基于局部定义的量规来被分布到球面流形的局部邻域。与该多个位置中的每个位置相关联的每个内核都是从相同函数推导出的局部变化内核。每个位置处每个所定义的卷积由局部连通层计算。因此,从球面的每个位置选择参考系或任意量规,并在每个位置处计算卷积,并且随后组合以形成最终结果。
在一方面,将量规变换及其对应的表示应用于二维卷积以获得卷积运算的广义化定义。在任意流形上的特定位置处,将特征转化为该特定位置处的参考系或局部定义的量规。
本公开的各方面涉及处理球面类型的信号。球面信号的示例可以来自成像设备,诸如鱼眼、全景或全向型相机。因此,所提议的实现具有许多实际应用,包括但不限于图像识别、图像分割以及上述应用的记录设备上的检测。
本公开的各方面分析球面域或流形中的输入(例如,信号,诸如全球温度或气候数据)。所提议的实现影响气候科学,例如,使用机器学习进行天气预报。例如,所提议的实现可以用来分析全球温度随时间的趋势,以应对全球变暖。类似地,它可以被用来经由从卫星获得的影像来跟踪地球上的改变。
另一示例应用包括自动驾驶交通工具。例如,自动驾驶软件可以通过处理从周围环境收集的360度图像来使用所提议的实现,用于诸如避免碰撞、行人检测、定位等目的。在一个方面,相机被用于分类和标识物体,并且相机的输入可被投射到球面流形上
所提议的系统也可用于宇宙学处理。宇宙学数据可包括根据球面域处理的宇宙的观测的数据。例如,所提议的实现适合于处理和分析宇宙数据,其中由于从可观测的宇宙中收集了大量数据,因此处理实现的效率尤其重要。任务可能包括探测黑洞,或其他来自遥远星系或恒星的微弱信号。针对所提议的实现的其他应用包括形状分析、分子建模和三维(3D)形状识别。例如,根据本发明的各个方面,形状模型可以被间接投影到球面上并进行分析。
尽管本公开的各方面是参照球面流形所描述的,但相同的实现可通过极少修改或无需修改即扩展到任意流形,从而使其成为几何深度学习的通用过程。
图1解说了片上系统(SOC)100的示例实现,其可包括被配置成用于卷积神经网络的高效处理的中央处理单元(CPU)102或多核CPU。变量(例如,神经信号和突触权重)、与计算设备相关联的系统参数(例如,带有权重的神经网络)、延迟、频率槽信息、以及任务信息可被存储在与神经处理单元(NPU)108相关联的存储器块中、与CPU 102相关联的存储器块中、与图形处理单元(GPU)104相关联的存储器块中、与数字信号处理器(DSP)106相关联的存储器块中、存储器块118中,或可跨多个块分布。在CPU 102处执行的指令可从与CPU 102相关联的程序存储器加载或可从存储器块118加载。
SOC 100还可包括为具体功能定制的附加处理块,诸如GPU 104、DSP 106、连通性块110(其可包括第五代(5G)连通性、第四代长期演进(4G LTE)连通性、Wi-Fi连通性、USB连通性、蓝牙连通性等)以及例如可检测和识别姿势的多媒体处理器112。在一种实现中,NPU108实现在CPU 102、DSP 106、和/或GPU104中。SOC 100还可包括传感器处理器114、图像信号处理器(ISP)116、和/或导航模块120(其可包括全球定位系统)。
SOC 100可基于ARM指令集。在本公开的一方面,被加载到通用处理器102中的指令可包括:用于在球面流形上的多个位置处生成局部定义的量规的代码,用于在球面流形上的多个位置中的每个位置处参照局部定义的量规来计算卷积的代码,以及用于基于量规等变性来转化在每个位置处的卷积的结果以获得对应的流形变换的代码。
深度学习架构可通过学习在每一层中以逐次更高的抽象程度来表示输入、藉此构建输入数据的有用特征表示来执行对象识别任务。以此方式,深度学习解决了传统机器学习的主要瓶颈。在深度学习出现之前,用于对象识别问题的机器学习办法可能严重依赖人类工程设计的特征,或许与浅分类器相结合。浅分类器可以是两类线性分类器,例如,其中可将特征向量分量的加权和与阈值作比较以预测输入属于哪一类。人类工程设计的特征可以是由拥有领域专业知识的工程师针对具体问题领域定制的模版或内核。相反,深度学习架构可学习以表示与人类工程师可能会设计的相似的特征,但它是通过训练来学习的。此外,深度网络可以学习以表示和识别人类可能还没有考虑过的新类型的特征。
深度学习架构可以学习特征阶层。例如,如果向第一层呈递视觉数据,则第一层可学习以识别输入流中的相对简单的特征(诸如边)。在另一示例中,如果向第一层呈递听觉数据,则第一层可学习以识别特定频率中的频谱功率。取第一层的输出作为输入的第二层可以学习以识别特征组合,诸如对于视觉数据识别简单形状或对于听觉数据识别声音组合。例如,更高层可学习以表示视觉数据中的复杂形状或听觉数据中的词语。再高层可学习以识别常见视觉对象或口语短语。
深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。例如,机动交通工具的分类可受益于首先学习以识别轮子、挡风玻璃、以及其他特征。这些特征可在更高层以不同方式被组合以识别轿车、卡车和飞机。
神经网络可被设计成具有各种连通性模式。在前馈网络中,信息从较低层被传递到较高层,其中给定层中的每个神经元向更高层中的神经元进行传达。如上所述,可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中,来自给定层中的神经元的输出可被传达给相同层中的另一神经元。回流架构可有助于识别跨越不止一个按顺序递送给该神经网络的输入数据组块的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时,具有许多反馈连接的网络可能是有助益的。
神经网络的各层之间的连接可以是全连通的或局部连通的。图2A解说了全连通神经网络202的示例。在全连通神经网络202中,第一层中的神经元可将它的输出传达给第二层中的每个神经元,从而第二层中的每个神经元将从第一层中的每个神经元接收输入。图2B解说了局部连通神经网络204的示例。在局部连通神经网络204中,第一层中的神经元可连接到第二层中有限数目的神经元。更一般化地,局部连通神经网络204的局部连通层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式,但其连接强度可具有不同的值(例如,210、212、214和216)。局部连通的连通性模式可能在更高层中产生空间上相异的感受野,这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。
局部连通神经网络的一个示例是卷积神经网络。图2C解说了卷积神经网络206的示例。卷积神经网络206可被配置成使得与针对第二层中每个神经元的输入相关联的连接强度被共享(例如,208)。卷积神经网络可能非常适合于其中输入的空间位置有意义的问题。
一种类型的卷积神经网络是深度卷积网络(DCN)。图2D解说了被设计成从来自图像捕捉设备230(诸如车载相机)的图像226输入识别视觉特征的DCN 200的详细示例。可对当前示例的DCN 200进行训练以标识交通标志以及在交通标志上提供的数字。当然,DCN200可被训练用于其他任务,诸如标识车道标记或标识交通信号灯。
可以用受监督式学习来训练DCN 200。在训练期间,可向DCN 200呈递图像(诸如限速标志的图像226),并且随后可计算“前向传递(forward pass)”以产生输出222。DCN 200可包括特征提取区段和分类区段。在接收到图像226之际,卷积层232可向图像226应用卷积核(未示出),以生成第一组特征图218。作为示例,卷积层232的卷积核可以是生成28x28特征图的5x5核。在本示例中,由于在第一组特征图218中生成四个不同的特征图,因此在卷积层232处四个不同的卷积核被应用于图像226。卷积核还可被称为过滤器或卷积过滤器。
第一组特征图218可由最大池化层(未示出)进行子采样以生成第二组特征图220。最大池化层减小了第一组特征图218的大小。即,第二组特征图220的大小(诸如14x14)小于第一组特征图218的大小(诸如28x28)。减小的大小向后续层提供类似的信息,同时降低存储器消耗。第二组特征图220可经由一个或多个后续卷积层(未示出)被进一步卷积,以生成后续的一组或多组特征图(未示出)。
在图2D的示例中,第二组特征图220被卷积以生成第一特征向量224。此外,第一特征向量224被进一步卷积以生成第二特征向量228。第二特征向量228的每个特征可包括与图像226的可能特征(诸如,“标志”、“60”和“100”)相对应的数。softmax(软最大化)函数(未示出)可将第二特征向量228中的数转换为概率。如此,DCN 200的输出222是图像226包括一个或多个特征的概率。
在本示例中,输出222中关于“标志”和“60”的概率高于输出222的其他特征(诸如“30”、“40”、“50”、“70”、“80”、“90”和“100”)的概率。在训练之前,由DCN 200产生的输出222很可能是不正确的。由此,可计算输出222与目标输出之间的误差。目标输出是图像226的真值(例如,“标志”和“60”)。DCN 200的权重可随后被调整以使得DCN 200的输出222与目标输出更紧密地对齐。
为了调整权重,学习算法可为权重计算梯度向量。该梯度可指示在权重被调整情况下误差将增加或减少的量。在顶层,该梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层中,该梯度可取决于权重的值以及所计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“反向传播”,因为其涉及在神经网络中的“反向传递(backward pass)”。
在实践中,权重的误差梯度可能是在少量示例上计算的,从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。随机梯度下降法可被重复,直到整个系统可达成的误差率已停止下降或直到误差率已达到目标水平。在学习之后,可以向DCN呈递新图像并且在网络中的前向传递可产生输出222,其可被认为是该DCN的推断或预测。
深度置信网络(DBN)是包括多层隐藏节点的概率性模型。DBN可被用于提取训练数据集的阶层式表示。DBN可通过堆叠多层受限波尔兹曼机(RBM)来获得。RBM是一类可在输入集上学习概率分布的人工神经网络。由于RBM可在没有关于每个输入应该被分类到哪个类的信息的情况下学习概率分布,因此RBM经常被用于无监督式学习。使用混合无监督式和受监督式范式,DBN的底部RBM可按无监督方式被训练并且可以用作特征提取器,而顶部RBM可按受监督方式(在来自先前层的输入和目标类别的联合分布上)被训练并且可用作分类器。
深度卷积网络(DCN)是卷积网络的网络,其配置有附加的池化和归一化层。DCN已在许多任务上达成现有最先进的性能。DCN可使用受监督式学习来训练,其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。
DCN可以是前馈网络。另外,如上所述,从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的神经元被共享。DCN的前馈和共享连接可被利用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络的计算负担小得多。
卷积网络的每一层的处理可被认为是空间不变模版或基础投影。如果输入首先被分解成多个通道,诸如彩色图像的红色、绿色和蓝色通道,那么在该输入上训练的卷积网络可被认为是三维的,其具有沿着该图像的轴的两个空间维度以及捕获色彩信息的第三维度。卷积连接的输出可被认为在后续层中形成特征图,该特征图(例如,220)中的每个元素从先前层(例如,特征图218)中一定范围的神经元以及从该多个通道中的每个通道接收输入。特征图中的值可以用非线性(诸如矫正,max(0,x))进一步处理。来自毗邻神经元的值可被进一步池化(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化,其对应于白化。
深度学习架构的性能可随着有更多被标记的数据点变为可用或随着计算能力提高而提高。现代深度神经网络用比仅仅十五年前可供典型研究者使用的计算资源多数千倍的计算资源来例行地训练。新的架构和训练范式可进一步推升深度学习的性能。经矫正的线性单元可减少被称为梯度消失的训练问题。新的训练技术可减少过度拟合(over-fitting)并因此使更大的模型能够达成更好的普遍化。封装技术可抽象出给定的感受野中的数据并进一步提升总体性能。
图3是解说深度卷积网络350的框图。深度卷积网络350可包括多个基于连通性和权重共享的不同类型的层。如图3中示出的,深度卷积网络350包括卷积块354A、354B。卷积块354A、354B中的每一者可配置有卷积层(CONV)356、归一化层(LNorm)358、和最大池化层(MAX POOL)360。
卷积层356可包括一个或多个卷积过滤器,其可被应用于输入数据以生成特征图。尽管仅示出了两个卷积块354A、354B,但本公开不限于此,而是代之以根据设计偏好可将任何数目的卷积块354A、354B包括在深度卷积网络350中。归一化层358可对卷积过滤器的输出进行归一化。例如,归一化层358可提供白化或侧向抑制。最大池化层360可提供在空间上的降采样聚集以实现局部不变性以及维度缩减。
例如,深度卷积网络的并行过滤器组可被加载到SOC 100的CPU 102或GPU 104上以达成高性能和低功耗。在替换实施例中,并行过滤器组可被加载到SOC 100的DSP 106或ISP 116上。另外,深度卷积网络350可访问其他可存在于SOC 100上的处理块,诸如分别专用于传感器和导航的传感器处理器114和导航模块120。
深度卷积网络350还可包括一个或多个全连通层362(FC1和FC2)。深度卷积网络350可进一步包括逻辑回归(LR)层364。深度卷积网络350的每一层356、358、360、362、364之间是要被更新的权重(未示出)。每一层(例如,356、358、360、362、364)的输出可以用作深度卷积网络350中一后续层(例如,356、358、360、362、364)的输入以从第一卷积块354A处供应的输入数据352(例如,图像、音频、视频、传感器数据和/或其他输入数据)学习阶层式特征表示。深度卷积网络350的输出是针对输入数据352的分类得分366。分类得分366可以是概率集,其中每个概率是输入数据包括来自特征集的特征的概率。
本公开的各方面旨在利用量规等变性卷积来设计可在非平面(例如,球面)信号上操作的高效卷积网络过程。球面流形S2上的局部定义的量规为流形上的每个点p指派从标准平面到球面在p点处的切平面TpS2的线性映射局部定义的量规允许将流形卷积的计算分布到局部邻域。例如,在球面流形S2中的每个位置或点p处,可参照任意选取的量规来定义卷积。最后,量规等变性确保了局部计算的结果可以被有意义地相互转化。即,对应的流形变换可以基于量规等变性来确定。
量规卷积神经网络(CNN)中的特征空间可被建模为流形M上的场f。例如,输入数据可以是地球上风向的向量场,或平面(例如,灰度图像)上强度值的标量场,或上的扩散张量场。此类量(例如,标量、向量、张量等)可被称为几何特征,这些几何特征可被应用于几何特征场。
在计算机科学中,向量或张量可被视为数的列表或阵列,但从物理或数学角度来看,这些是独立于坐标或基选择存在的几何量。然而,为了以数值方式表示几何特征,可在每个位置p∈M处选择用于切平面空间TpM的帧。帧的平滑选择是一量规。从数学上讲,d维流形M上的量规可被定义为一组线性映射,其由流形上的点p平滑参数化:(参见式1)。在具有可取向的度量张量的流形(诸如球面)上,量规的选取可以限于一组取向的正交量规。在该情形中,任何两个量规w,w′在点p处由d维旋转SO(d)群中的元素rp相关,使得
量规变换的应用可影响几何特征的系数。这是因为量规的选取是任意的。首先考虑点或位置p处用于的标准基向量(c1,e2)的系数(位置p∈M处切平面空间TpM中切向量V的f(p)=v,被表达相对于正交帧(wp(e1),wp(e2))的数对v=(v1,v2))。如果帧在位置p由平面旋转群SO(2)中的元素r使用式来旋转,则系数向量变换为在其矩阵表示中将平面旋转r∈SO(2)视作作用于v的这两个系数的两行两列矩阵。向量是抽象的几何量,对量规变换不变化,使得:V=(wpr)r-1v=wpv。在一些方面,量规变换可被定义为平滑变化的旋转选择rp∈SO(2)。然而,本公开并不局限于此,量规变换也可被另行定义。
超出标量(其对量规变换不变)和向量(像那样变换)之外,可以考虑更一般种类的几何特征。例如,(2,0)张量是向量V,W∈TpM的张量积(的线性组合)。给定一帧,此类张量可被表示为d×d矩阵。在帧的改变下,矩阵f(p)可以像那样变换。矩阵f(p)可以被压平为d2维坐标向量f(p),并且该变换可被表达为其中是克罗内克积。
张量积是群表示的示例。该群表示可以是映射其取G(其中G是SO(2))的每个元素r映射至作用于C维特征向量的可逆矩阵ρ(r)。如果可逆矩阵ρ(r)满足ρ(rr′)=ρ(r)ρ(r′)(可针对其检查张量/克罗内克积),则该矩阵被视为一种表示。
因此,量规变换下的像那样变换的几何特征场可被广义化以用于SO(2)的任何群表示ρ。此类场被称为ρ场或ρ类型场。在量规等变性CNN中,可以为网络的每个特征空间选择确定由该层学习的特征类型的表示ρ。可构建网络,以使得应用于输入的量规变换可在每个特征空间中导致对应的量规变换。在一个示例中,ρ可被选为块对角,包含例如数个标量场(1×1块pi(r)=1)、数个向量场等。每种类型特征的副本数目可被称为其多重性。
根据本公开的各方面,可在对特征向量求和之前对其应用并行转运。给定从q到p的曲线,向量W∈TqM可以通过将旋转rp←q∈SO(2)应用于其系数向量w来被转运到TpM。因为rp←qw可被解读为TpM中的向量,因此对向量v∈TpM,v+rp←qw的加法可被良好地定义。对于其他类型的几何特征,平行转运可经由ρ起作用,例如,加法v+ρ(rp←q)w。
围绕p∈M的局部邻域可经由指数映射由切平面来参数化。即,通过针对定义qv=exppwpv(其可被称为“简正坐标”),可使用指数映射由正切向量对近旁的点q进行索引。随后,卷积可由以下操作来定义:对于每个近旁的点qv,通过计算将特征向量f(qv)转运到p,使用习得的内核来变换在p处的结果所得特征,并在中K的支持上对结果进行积分。内核K在特征f上的卷积运算由表示:
当且在一些方面仅当K(v)满足以下条件时,该运算才可被视为量规等变性:
K(r-1v)=ρout(r-1)K(v)ρin(r) (2)
除了量规等变性之外,还可达成球面CNN至通过三维(3D)旋转群SO(3)的元素对球面的任何旋转的等变性。即,如果对网络的输入应用3D旋转,则输出也旋转。
在一个示例中,考虑球面上的局部贴片(例如,内核的支持)和在那里定义的信号。如果球面旋转,则贴片被移动到另一地方,并且它可改变其取向。移动贴片可能不是问题:在新位置处应用相同内核K,因此可预期新位置处的卷积结果等于旧位置处原始信号的卷积结果。然而,因为内核的取向由量规决定(该量规是任意的但是固定的),并且因为贴片的取向可以通过围绕其中心旋转而被任意改变,所以在应用旋转之后,该内核和贴片可在不同的相对取向上匹配。幸运的是,由于内核满足式2,所以该结果等价于由ρout作用的量规变换,并且因此也达成了SO(3)等变性。相应地,在连续理论中,量规等变卷积也是SO(3)等变得。
信号可被表示为与有限数目个点相关联的值fi=f(pi)的列表。可以假定内核K(v)具有局部支持,以使得对于某个半径R,如果||v||>R,则K(v)=0。等价地,仅当p与q之间的测地距离小于R时,q∈S2才可能对p∈S2处的卷积结果有贡献。相应地,可将p的邻居集合N(p)定义为从p开始半径R内的点q的集合。
量规卷积对形式为K(vpq)ρin(rp←q)f(p)的诸消息求和。因此,诸邻居q的特征向量f(q)以可例如取决于:i)该流形经由rp←q和vpq的内蕴几何、以及ii)通过非各向同性(但量规等变的)可学习内核K(vpq)的方式被变换。
离散量规卷积可在几个过程步骤中计算,其中一些步骤可在预计算期间作出,而另一些步骤可在前向传递期间作出:i)计算对数映射vpq=logpq:,ii)计算并行转运器rp←q,iii)内核的构造/参数化,以及iv)内核和信号的线性收缩。
在通用流形或网状上计算对数映射和并行转运器可以是复杂的。此外,因为M=S2的实际几何是已知的(而不仅仅是离散近似),所以所计算的对数映射和转运器的准确度不会如仅仅是网眼近似于球面的情况下那样受网眼类型或分辨率的影响。
注意,因为rp←q是平面旋转,所以其可由其发送单个(非零)向量的位置确定。第一基向量可以用3D欧几里德坐标来表达。第一基向量被绕与pq平面正交的轴p×q旋转p与q之间的角∠(p,q)=arccos<p,q>。所得向量位于p处的切平面。随后确定rp←q为该向量与TpS2中的第一基向量之间的角。
对于每一个和计算vpq=logpq,它是TpS2中指向q方向且长度等于p与q之间的测地距离的向量。计算对数映射的一种方式是将3D欧几里德差分向量q-p投影到p处的切平面上。这产生了具有正确方向的向量然后,可缩放的长度,以使其匹配测地距离d(p,q)(其可被称为弧长):
结果vpq=logpq可以用极坐标来表达。这提供了两个阵列log_map_r(v的长度/径向坐标)和log_map_angle(v的角度部分,相对于p处的量规而言)。这两个阵列((log_map_r和log_map_angle)如前被塑形为num_v×num_neigh。因为几何和网格是固定的,所以这些阵列在训练之前仅被计算一次。
内核K(v)可被定义为中的满足内核约束的连续矩阵值函数(参见式2)。在经典CNN中,用中的均匀像素网格操作,相邻像素的小(例如,3×3)集合可被定义为以使得该内核可在少量(例如,9个)点v(i)处被。这导致将K参数化为具有Cout×Cin×3×3可学习系数的阵列。
假定ρ_in和ρ_out是块对角的,以不可约表示(irreps)为块,则任何SO(2)表示都可通过基的改变成为该形式。在该情形中,内核也可采用块结构,每个块对应于特定的输入/输出不可约表示,具有由整数频率n≥0标记的不可约表示。全内核可以逐块构造,其中输入和输出表示两者都是单个不可约表示。
式2的分析解可被拆分成独立的径向部分和角向部分。对于从ρn映射到ρm的内核,角部分K(θ)的解如表1所示,而径向部分是无约束的。在表1,c±=cos(m±n)θ,s±=sin(n±n)θ。相应地,如果选取一组径向函数{Ra(r)},并且{Kb(θ)}是角解的完整集合,则对于权重w,参数化内核为:该解可被表示为Ki,以使得参数化内核为∑iwiKi。基内核的数目被称为num_basis。
表1
因为几何和网格是固定的,所以可预计算在所有点处求值的基内核。即,对于每一个和随输入表示Ki(vpq)ρin(rp←q)收缩的每个基内核可被求值。该预计算的结果是num_basis×num_v×num_neigh×c_out×c_in形状的阵列,其中c_in和c_out是pin和ρout的维数并且也是输入和输出信号的通道数目。
在每个vpq处计算了基内核后,离散化量规卷积(参见式3)可被计算为线性收缩。在这样做时,可扩展具有num_v×c_in形状的信号f(p)到num_v×num_neigh×c_in形状的如此,是p的第q个邻居处的信号值。
在一些方面,网络的每一层可以是量规等变的,包括非线性。不可约表示特征不与逐点非线性交换。然而,可将基变换为其中逐点非线性近似为量规等变的基。此后,该基可被变换回不可约表示。
出于简单起见,假定该表示是的U个副本。一个此副本可被视为带限为M的圆形信号的离散傅里叶模式。离散傅里叶逆变换(DFT)矩阵可将这些模式映射到N个空间样本。在2π/N倍数的量规变换下,采样可以被循环移位。结果所得的表示由此可被称为正则表示,并且因此该规程可被称为正则非线性。在这些采样上逐点作用的非线性(诸如,校正线性单元(ReLU))与此类量规变换交换。
计算的一种办法是对N(p)处的采样值进行内插,以获得上的连续函数,并且随后使用正交积分以获得更精确的积分值。正交积分是用有限和来逼近积分的一种通用数值技术。对于区域A和函数g,积分∫Ag(x)dx可由∑x∈lωxg(x)逼近,其中是一组有限的正交点,每个正交点都有一个权重ωx。目标是选择I和ωx,以使得对于满足某些正则性假定(例如,带限)的函数g而言该逼近是准确的(或甚至是确切的)。例如,区域A可以是具有如内核的支持半径R那样的半径的碟形。
式6的卷积可在经均匀化的邻域上求和,并且因此可以更加等同于球面的旋转。例如,如果使用大量正交点,则等变性可得以改进,这可能增加计算成本。然而,由于线性运算的组合是线性的,因此可以将其简化:
图4A是解说了示例二十面体400的示图。参照图4A,二十面体400是球面的粗略逼近。二十面体400是凸多面体。二十面体400是类似球面的柏拉图式实体。二十面体400有二十个平坦面402a-t、三十条边404a-dd和十二个顶点406a-l。二十面体400或其网格上的点在三维欧几里德空间中与原点(0,0,0)的距离不同。由于局部平坦性,量规等变性卷积可被约简为具有经由简单索引执行得特征转运的常规二维卷积(conv2d)。相应地,与二十面体400相关联的许多数学定义(例如,指数映射)被平凡化。
图4B是解说了根据本公开的各方面的示例等面多面体网格S2450的示图。参照图4B,等面多面体网格450是对二十面体400的此柏拉图式实体的特定采样。可选择并连接三角形面(例如,454a-n)上的点或位置,以使得其像网一样覆盖对象。网格可以对球面上的连续信号进行采样或离散化。
图5A是解说了根据本公开的各方面的用于量规不变变换的从球面或球面流形502到切平面504的指数映射的示图500。参照图5A,球面流形502上的点p被投影到切平面504。线性映射或量规wp被定义为使用量规wp,指数映射取切向量V∈TpM,并且以一个单位时间||V||的速度从点p开始,沿着测地线506到达在球面流形502上的点qv=exppV∈M处。
图5B解说了示出切平面550上的关注点(p)552和内插点554(例如,554a-f)的切平面550。对于每个关注点552,该组点位于相对于其对应关注点的相同位置。来自(在等面多面体球面上的)诸邻居p的信号被内插到内插点554a-554f,藉此恰适地对量规进行转向。可对这些内插点554a-554f执行卷积(例如,式1中所提议的卷积运算)。在一个方面,内插作为预计算步骤执行,从而使得内插的次数不影响训练时间。因此,在运行时期间,求和只针对诸邻居,而不是所有内插点。
然而,由于不同的内插权重和不同的量规转向,卷积运算不将一个顶点(例如,第一关注点p)的诸邻居与另一顶点(例如,关注点p1(未示出))的诸邻居同等对待。不同邻居的对待差异与平面CNN和等面多面体CNN(例如,式1中所提议的卷积运算)两者形成对比,平面CNN和等面多面体CNN可使用单个内核并应用常规单个二维卷积(conv2d)。
邻域扩展实现改进了卷积实现。邻域扩展实现从每个顶点p处的信号向量f(p)开始。对于每个关注点p,分配至多达M个邻居q。对信号向量f(p)进行索引以对于q=0...M形成张量f(p,q)。例如,张量f(p,3)是顶点p的第三邻居处的信号。随后,式1中所提议的卷积运算可应用于张量f(p,q)。可调整邻域扩展实现的一些操作的执行次序,以减少相对于常规网格上的卷积而言的附加存储器需求。例如,可通过关注张量的结果矩阵的非零块来改进邻域扩展实现的效率。即,非零块可以被应用于相关的输入和输出向量。
本公开的各方面对于SO(3)的任意群动作(例如,3D旋转群)更稳健(近似等变),比其他实现(例如,根据傅里叶域操作的实现,其计算限制性强)更快且更具可伸缩性。
图6是解说根据本公开的各方面的用于生成在球面流形上操作的卷积神经网络的方法600的示图。如图6中所示,在框602处,在球面流形的多个位置处生成局部定义的量规。局部定义的量规对应于切平面及其对应的关注位置。例如,参照图5A,线性映射或量规wp被定义为使用量规wp,指数映射取切向量V∈TpM,并且以一个单位时间||V||的速度从点p开始,沿着测地线506到达在球面流形502上的点qv=exppV∈M处。
在框604处,参照局部定义的量规在球面流形上的多个位置中的每个位置处计算卷积。例如,如参照式1所描述的,卷积可通过计算来将每个近旁点qv、特征向量f(qv)转运到p来定义。在一些方面,可任意选择局部定义的量规。附加地,在流形的不同位置处可不同地定义局部定义的量规。
以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或(诸)软件组件和/或(诸)模块,包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言,在附图中有解说的操作的场合,那些操作可具有带相似编号的相应配对装置加功能组件。
如所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可包括演算、计算、处理、推导、研究、查找(例如,在表、数据库或另一数据结构中查找)、查明及诸如此类。另外,“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。此外,“确定”可包括解析、选择、选取、确立及类似动作。
如所使用的,引述一列项目“中的至少一者”的短语指这些项目的任何组合,包括单个成员。作为示例,“a、b或c中的至少一个”旨在涵盖:a、b、c、a-b、a-c、b-c、以及a-b-c。
结合本公开所描述的各种解说性逻辑框、模块、以及电路可用设计成执行所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如,DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其他此类配置。
结合本公开描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM等等。软件模块可包括单条指令、或许多条指令,且可分布在若干不同的代码段上,分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中,存储介质可被整合到处理器。
所公开的方法包括用于达成所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之,除非指定了步骤或动作的特定次序,否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。
所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现,则示例硬件配置可包括设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和整体设计约束,总线可包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理系统。网络适配器可用于实现信号处理功能。对于某些方面,用户接口(例如,按键板、显示器、鼠标、操纵杆,等等)也可以被连接到总线。总线还可以链接各种其他电路,诸如定时源、外围设备、稳压器、功率管理电路以及类似电路,它们在本领域中是众所周知的,因此将不再进一步描述。
处理器可负责管理总线和一般处理,包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路系统。软件应当被宽泛地解释成意指指令、数据、或其任何组合,无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例,机器可读介质可包括随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦式可编程只读存储器(EPROM)、电可擦式可编程只读存储器(EEPROM)、寄存器、磁盘、光盘、硬驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。
在硬件实现中,机器可读介质可以是处理系统中与处理器分开的一部分。然而,如本领域技术人员将容易领会的,机器可读介质或其任何部分可在处理系统外部。作为示例,机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品,所有这些都可由处理器通过总线接口来访问。替换地或附加地,机器可读介质或其任何部分可被集成到处理器中,诸如高速缓存和/或通用寄存器文件可能就是这种情形。虽然所讨论的各种组件可被描述为具有特定位置,诸如局部组件,但它们也可按各种方式来配置,诸如某些组件被配置成分布式计算系统的一部分。
处理系统可以被配置为通用处理系统,该通用处理系统具有一个或多个提供处理器功能性的微处理器、以及提供机器可读介质中的至少一部分的外部存储器,它们都通过外部总线架构与其他支持电路系统链接在一起。替换地,该处理系统可以包括一个或多个神经形态处理器以用于实现所描述的神经元模型和神经系统模型。作为另一替换方案,处理系统可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路系统、和至少一部分机器可读介质的专用集成电路(ASIC)来实现,或者用一个或多个现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路系统、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。取决于具体应用和加诸于整体系统上的总设计约束,本领域技术人员将认识到如何最佳地实现关于处理系统所描述的功能性。
机器可读介质可包括数个软件模块。这些软件模块包括当由处理器执行时使处理系统执行各种功能的指令。这些软件模块可包括传送模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例,当触发事件发生时,可以从硬驱动器中将软件模块加载到RAM中。在软件模块执行期间,处理器可以将一些指令加载到高速缓存中以提高访问速度。可随后将一个或多个高速缓存行加载到通用寄存器文件中以供处理器执行。在以下述及软件模块的功能性时,将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。此外,应领会,本公开的各方面产生对处理器、计算机、机器或实现此类方面的其它系统的机能的改进。
如果以软件实现,则各功能可作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能用于携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。另外,任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和蓝光碟,其中盘(disk)常常磁性地再现数据,而碟(disc)用激光来光学地再现数据。因此,在一些方面,计算机可读介质可包括非瞬态计算机可读介质(例如,有形介质)。另外,对于其他方面,计算机可读介质可包括瞬态计算机可读介质(例如,信号)。以上的组合应当也被包括在计算机可读介质的范围内。
由此,某些方面可包括用于执行给出的操作的计算机程序产品。例如,此类计算机程序产品可包括其上存储(和/或编码)有指令的计算机可读介质,这些指令能由一个或多个处理器执行以执行所描述的操作。对于某些方面,计算机程序产品可包括包装材料。
此外,应当领会,用于执行所描述的方法和技术的模块和/或其他恰适装置可由用户终端和/或基站在适用的场合下载和/或以其他方式获得。例如,此类设备能被耦合到服务器以促成用于执行所描述的方法的装置的转移。替换地,所描述的各种方法能经由存储装置(例如,RAM、ROM、诸如压缩碟(CD)或软盘之类的物理存储介质等)来提供,以使得一旦将该存储装置耦合到或提供给用户终端和/或基站,该设备就能获得各种方法。此外,可利用适于向设备提供所描述的方法和技术的任何其他合适的技术。
将理解,权利要求并不被限于以上所解说的精确配置和组件。可在以上所描述的方法和装置的布局、操作和细节上作出各种改动、更换和变形而不会脱离权利要求的范围。
Claims (28)
1.一种方法,包括:
在球面流形上的多个位置处生成局部定义的量规;
在所述球面流形上的所述多个位置中的每个位置处参照局部定义的量规来计算卷积;以及
基于量规等变性来转化在每个位置处的所述卷积的结果以获得对应的流形变换。
2.如权利要求1所述的方法,其中对于每个关注位置,一组内插位置被包括在每个切平面中,所述切平面对应于所述局部定义的量规及其对应的关注位置。
3.如权利要求1所述的方法,进一步包括将来自所述球面流形上关注位置的相邻位置的信号内插到切平面上的相邻内插点,所述切平面对应于所述局部定义的量规及其对应的关注位置。
4.如权利要求3所述的方法,进一步包括在所述相邻内插点上定义所述卷积。
5.如权利要求3所述的方法,进一步包括:
对所述关注位置的信号向量进行索引,以生成与相邻位置相关联的张量;以及
通过应用所述张量的所得矩阵的非零块对所述张量执行卷积运算。
6.如权利要求1所述的方法,进一步包括将所述球面流形参数化为预定义形状阵列之一。
7.如权利要求1所述的方法,进一步包括基于所述局部定义的量规来将对应的流形变换分布到所述球面流形的局部邻域。
8.如权利要求1所述的方法,其中与所述多个位置中的每个位置相关联的每个内核是从相同函数推导出的局部变化内核。
9.如权利要求1所述的方法,其中在每个位置处计算的每个卷积是用局部连通层计算的。
10.一种装置,包括:
存储器;以及
耦合至所述存储器的至少一个处理器,所述至少一个处理器被配置成:
在球面流形上的多个位置处生成局部定义的量规;
在所述球面流形上的所述多个位置中的每个位置处参照局部定义的量规来计算卷积;以及
基于量规等变性来转化在每个位置处的所述卷积的结果以获得对应的流形变换。
11.如权利要求10所述的装置,其中对于每个关注位置,一组内插位置被包括在每个切平面中,所述切平面对应于所述局部定义的量规及其对应的关注位置。
12.如权利要求10所述的装置,其中所述至少一个处理器被进一步配置成将来自所述球面流形上的关注位置的相邻位置的信号内插到切平面上的相邻内插点,所述切平面对应于所述局部定义的量规及其对应的关注位置。
13.如权利要求12所述的装置,其中所述至少一个处理器被进一步被配置成在所述相邻内插点上定义所述卷积。
14.如权利要求12所述的装置,其中所述至少一个处理器被进一步配置成:
对所述关注位置的信号向量进行索引,以生成与相邻位置相关联的张量;以及
通过应用所述张量的所得矩阵的非零块对所述张量执行卷积运算。
15.如权利要求10所述的装置,其中所述至少一个处理器被进一步配置成将所述球面流形参数化为预定义形状阵列之一。
16.如权利要求10所述的装置,其中所述至少一个处理器被进一步配置成基于所述局部定义的量规来将对应的流形变换分布到所述球面流形的局部邻域。
17.如权利要求10所述的装置,其中与所述多个位置中的每个位置相关联的每个内核是从相同函数推导出的局部变化内核。
18.如权利要求10所述的装置,其中在每个位置处定义的每个卷积是用局部连通层计算的。
19.一种装备,包括:
用于在球面流形上的多个位置处生成局部定义的量规的装置;
用于在所述球面流形上的所述多个位置中的每个位置处参照局部定义的量规来计算卷积的装置;以及
用于基于量规等变性来转化在每个位置处的所述卷积的结果以获得对应的流形变换的装置。
20.如权利要求19所述的装备,其中对于每个关注位置,一组内插位置被包括在每个切平面中,所述切平面对应于所述局部定义的量规及其对应的关注位置。
21.如权利要求19所述的装备,进一步包括用于将来自所述球面流形上的关注位置的相邻位置的信号内插到切平面上的相邻内插点的装置,所述切平面对应于所述局部定义的量规及其对应的关注位置。
22.如权利要求21所述的装备,进一步包括用于在所述相邻内插点上计算所述卷积的装置。
23.如权利要求21所述的装备,进一步包括:
用于对所述关注位置的信号向量进行索引,以生成与相邻位置相关联的张量的装置;以及
用于通过应用所述张量的所得矩阵的非零块对所述张量执行卷积运算的装置。
24.如权利要求19所述的装备,进一步包括用于将所述球面流形参数化为预定义形状阵列之一的装置。
25.如权利要求19所述的装备,进一步包括用于基于所述局部定义的量规来将对应的流形变换分布到所述球面流形的局部邻域的装置。
26.一种其上记录有程序代码的非瞬态计算机可读介质,所述程序代码由处理器执行并且包括:
用于在球面流形上的多个位置处生成局部定义的量规的程序代码;
用于在所述球面流形上的所述多个位置中的每个位置处参照局部定义的量规来计算卷积的程序代码;以及
用于基于量规等变性来转化在每个位置处的所述卷积的结果以获得对应的流形变换的程序代码。
27.如权利要求26所述的非瞬态计算机可读介质,其中对于每个关注位置,一组内插位置被包括在每个切平面中,所述切平面对应于所述局部定义的量规及其对应的关注位置。
28.如权利要求26所述的非瞬态计算机可读介质,其中所述程序代码进一步包括用于将来自所述球面流形上的关注位置的相邻位置的信号内插到切平面上的相邻内插点的程序代码,所述切平面对应于所述局部定义的量规及其对应的关注位置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962905233P | 2019-09-24 | 2019-09-24 | |
US62/905,233 | 2019-09-24 | ||
US17/030,361 | 2020-09-23 | ||
US17/030,361 US20210089923A1 (en) | 2019-09-24 | 2020-09-23 | Icospherical gauge convolutional neural network |
PCT/US2020/052573 WO2021062050A1 (en) | 2019-09-24 | 2020-09-24 | Icospherical gauge convolutional neural network |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114830131A true CN114830131A (zh) | 2022-07-29 |
Family
ID=74880983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080065492.6A Pending CN114830131A (zh) | 2019-09-24 | 2020-09-24 | 等面多面体球面量规卷积神经网络 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210089923A1 (zh) |
EP (1) | EP4035086A1 (zh) |
CN (1) | CN114830131A (zh) |
WO (1) | WO2021062050A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11934478B2 (en) * | 2018-06-21 | 2024-03-19 | The University Of Chicago | Fully fourier space spherical convolutional neural network based on Clebsch-Gordan transforms |
US11270425B2 (en) * | 2018-11-15 | 2022-03-08 | Qualcomm Technologies, Inc. | Coordinate estimation on n-spheres with spherical regression |
GB2585645B (en) * | 2019-07-08 | 2024-04-17 | Toshiba Kk | Computer vision method and system |
WO2022212299A1 (en) * | 2021-03-29 | 2022-10-06 | Carnegie Mellon University | System and method for prediction of molecular dynamics and chemical properties using equivariant neural operators |
WO2022246473A1 (en) * | 2021-05-20 | 2022-11-24 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods to determine rna structure and uses thereof |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514642B2 (en) * | 2016-10-08 | 2022-11-29 | Purdue Research Foundation | Method and apparatus for generating two-dimensional image data describing a three-dimensional image |
US11934478B2 (en) * | 2018-06-21 | 2024-03-19 | The University Of Chicago | Fully fourier space spherical convolutional neural network based on Clebsch-Gordan transforms |
-
2020
- 2020-09-23 US US17/030,361 patent/US20210089923A1/en active Pending
- 2020-09-24 WO PCT/US2020/052573 patent/WO2021062050A1/en unknown
- 2020-09-24 CN CN202080065492.6A patent/CN114830131A/zh active Pending
- 2020-09-24 EP EP20789365.2A patent/EP4035086A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021062050A1 (en) | 2021-04-01 |
US20210089923A1 (en) | 2021-03-25 |
EP4035086A1 (en) | 2022-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zou et al. | Robust lane detection from continuous driving scenes using deep neural networks | |
CN114830131A (zh) | 等面多面体球面量规卷积神经网络 | |
US20190147602A1 (en) | Hybrid and self-aware long-term object tracking | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
Song et al. | CNN-based 3D object classification using Hough space of LiDAR point clouds | |
KR20180048930A (ko) | 분류를 위한 강제된 희소성 | |
US11270425B2 (en) | Coordinate estimation on n-spheres with spherical regression | |
CN114207628A (zh) | 通过调整存储器内计算阵列的列阈值来执行xnor等效运算 | |
Chen et al. | RGAM: A novel network architecture for 3D point cloud semantic segmentation in indoor scenes | |
CN117157678A (zh) | 用于基于图的全景分割的方法和系统 | |
US20220156528A1 (en) | Distance-based boundary aware semantic segmentation | |
US20210278854A1 (en) | Neural network architecture for small lidar processing networks for slope estimation and ground plane segmentation | |
US20230154157A1 (en) | Saliency-based input resampling for efficient object detection | |
Li et al. | Point cloud registration based on direct deep features with applications in intelligent vehicles | |
US20230368513A1 (en) | Method and system for training a neural network | |
Van Biesbroeck et al. | CAD model segmentation via deep learning | |
Suo et al. | LPD-AE: latent space representation of large-scale 3D point cloud | |
Ansari et al. | Angle-based feature learning in GNN for 3D object detection using point cloud | |
CN115272696A (zh) | 一种基于自适应卷积和局部几何信息的点云语义分割方法 | |
Ng et al. | RadialNet: a point cloud classification approach using local structure representation with radial basis function | |
Wang et al. | LiDAR-SLAM loop closure detection based on multi-scale point cloud feature transformer | |
Ye et al. | A novel 3D shape classification algorithm: point-to-vector capsule network | |
US20220318590A1 (en) | Equivariant steerable convolutional neural networks | |
Chaurasia | Efficient deep networks for real-world interaction | |
Huang et al. | Learning an End-to-End Spatial Grasp Generation Algorithm from Incomplete Point Clouds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |