CN113837375A - 用于多尺度深度平衡模型的系统和方法 - Google Patents
用于多尺度深度平衡模型的系统和方法 Download PDFInfo
- Publication number
- CN113837375A CN113837375A CN202110629767.0A CN202110629767A CN113837375A CN 113837375 A CN113837375 A CN 113837375A CN 202110629767 A CN202110629767 A CN 202110629767A CN 113837375 A CN113837375 A CN 113837375A
- Authority
- CN
- China
- Prior art keywords
- resolution
- computer
- implemented method
- input
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
- G06T3/4069—Super resolution, i.e. output image resolution higher than sensor resolution by subpixel displacement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
- G06F17/153—Multidimensional correlation or convolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4007—Interpolation-based scaling, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
Abstract
用于多尺度深度平衡模型的系统和方法。一种用于分类和训练神经网络的计算机实现的方法包括在神经网络处接收输入,其中该输入包括变化分辨率的多个分辨率输入,针对所述多个分辨率输入的每个对应分辨率输出多个特征张量,利用针对变化分辨率的上采样或下采样来融合所述多个特征张量,利用平衡求解器从所述多个特征张量标识一个或多个预测向量,以及响应于所述一个或多个预测向量输出损失。
Description
技术领域
本公开涉及具有包括神经网络的人工智能能力的计算机系统。
背景技术
DEQ(深度平衡)模型可以定义一些前向函数f,使得网络的前向传递通过首先求解平衡点来给出。后向传递可以在很大程度上对应于用雅可比相乘,这以其精确形式需要线性系统的解。开发DEQ模型中存在三个主要挑战。人们可以这样定义f,使得不动点存在,并且理想情况下是唯一的。第二个挑战可能是定义寻根过程,该寻根过程可以在前向传递中找到不动点。第三个挑战可能是定义后向传递来求解用雅可比的乘法。
过去用于计算机视觉任务的深度学习方法通过具有以特定分辨率组合特征并逐渐对图像下采样的层而满足第一个特性,但这些层是明确定义的,使得内存需求随着层的数量而增加。另一方面,DEQ模型可以用小的内存占用模拟较大的网络,但不以分层的方式学习。DEQ模型贯穿前向和后向传递可以维持相同的分辨率,并且没有明确定义多个层,因此DEQ模型可能具有在网络中的中间点进行下采样的困难。
发明内容
根据一个实施例,一种用于分类和训练神经网络的计算机实现的方法包括在神经网络处接收输入,其中该输入包括变化分辨率的多个分辨率输入,针对所述多个分辨率输入的每个对应分辨率输出多个特征张量,利用针对变化分辨率的上采样或下采样来融合所述多个特征张量,利用平衡求解器从所述多个特征张量标识一个或多个预测向量,以及响应于所述一个或多个预测向量输出损失。
根据第二实施例,一种用于至神经网络的输入的分类的计算机实现的方法包括在神经网络处接收输入,其中该输入包括多个分辨率输入,针对所述多个分辨率输入的每个对应分辨率标识特征张量,将每个对应分辨率的特征张量输入到对应的残差块,以及利用平衡求解器从所述多个特征张量标识一个或多个预测向量以将输入的分类输出。
根据第三实施例,一种用于训练神经网络的系统包括用于访问神经网络的输入数据的输入接口和与输入接口通信的处理器。处理器被编程为在神经网络处接收输入数据,其中该输入包括变化分辨率的多个分辨率输入,针对所述多个分辨率输入的每个对应分辨率输出多个特征张量,利用对于变化分辨率的上采样或下采样来融合所述多个特征张量,利用平衡求解器来响应于所述多个特征张量标识预测向量,其中该预测向量包括与所述多个特征张量中的每一个相关联的特征,以及输出预测向量作为输入数据的分类。
附图说明
图1示出了用于训练神经网络的系统100。
图2示出了用于训练神经网络的计算机实现的方法200。
图3图示了MDEQ模型的一般结构。
图4描绘了包括残差块的系统400的内部结构。
图5描绘了在计算机控制的机器10和控制系统12之间的交互的示意图。
图6描绘了图1的控制系统的示意图,该控制系统被配置为控制载具(vehicle),该载具可以是部分自主载具或部分自主机器人。
图7描绘了图1的控制系统的示意图,该控制系统被配置为控制制造系统(诸如生产线的一部分)的制造机器,诸如冲压刀具、刀具或枪钻。
图8描绘了图1的控制系统的示意图,该控制系统被配置为控制具有至少部分自主模式的电动工具,诸如电钻或驱动器。
图9描绘了被配置为控制自动化个人助理的图1的控制系统的示意图。
图10描绘了图1的控制系统的示意图,该控制系统被配置为控制监视系统,诸如控制访问系统或监督系统。
图11描绘了图1的控制系统的示意图,该控制系统被配置为控制成像系统,例如MRI装置、x射线成像装置或超声波装置。
具体实施方式
本文描述了本公开的实施例。然而,将理解,公开的实施例仅仅是示例,并且其他实施例可以采取各种形式和替代形式。各图不一定是按比例的;一些特征可以被放大或最小化以示出特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为用于教导本领域技术人员以各种方式采用实施例的代表性基础。如本领域普通技术人员将理解的,参考任一图所图示和描述的各种特征可以与一个或多个其他图中图示的特征相组合,以产生未被明确图示或描述的实施例。图示的特征的组合提供了典型应用的代表性实施例。然而,对于特定的应用或实现,可能期望与本公开的教导一致的特征的各种组合和修改。
在先前的DEQ模型中,定义具有不动点的函数可以通过使用网络结构来启发性地完成,所述网络结构从经验上看似乎产生稳定的不动点。这可以包括使用现有的变换器式架构或现有的卷积架构,利用适当的层标准化来尝试提供稳定的系统。然而,此类层没有对于不动点存在的正式保证。对于寻根过程,DEQ可以使用非线性Broyden方法,该非线性Broyden方法也不保证找到根(即使存在根或不动点)。此外,后向传递可以使用类似的Broyden方法进行线性求解,如果存在适当的逆,则该线性求解可以保证乘以该适当的逆,但是如果不存在不动点或者如果前向传递未能收敛,则雅可比将不对应于有意义的导数。
具有隐藏层z和激活层f的深度神经网络,使得对于, ,其中权重和前一层输入都跨层绑定,例如。这些激活f中的一些可以展现吸引子特性,例如,存在不动点使得并且 ,即,f的重复应用,直到初始激活收敛到不动点。如果是这种情况,则迭代函数应用可以等效地用数值方法替换,以直接寻找不动点。这将问题从计算多层的前向和后向传递转移到经由数值方法直接计算和优化不动点。这可以减少内存占用(因为不需要存储层中的中间值),并对寻找最佳层数L的问题进行求解。
多尺度深度平衡模型(MDEQ)构建在其前身深度平衡模型(DEQ)的基础上。当至DEQ的输入具有单个分辨率时,至MDEQ的输入在多个分辨率下供应,这允许它从范围从细粒度特征(高分辨率)到全局特征(低分辨率)的分辨率谱学习。MDEQ还指定在不同尺度下混合和组合信息的过程。此外,来自DEQ的输出与其输入具有相同的分辨率,而MDEQ给出了对于每个输入尺度的输出。这使得MDEQ模型在联合学习或转移方面更灵活,因为在不同分辨率下的输出可以用于学习针对单个训练任务的辅助损失,以同时学习若干个任务(即,使用高分辨率输出进行语义分割,并且使用低分辨率输出进行图像分类),或者更容易地将学习的模型从一个任务转移到另一个任务。
MDEQ模型以分层的方式学习,例如,在多尺度或分辨率下考虑数据的人,其对于在多任务(例如,计算机视觉任务)中学习是必要的。MDEQ模型是隐式的,它可以模拟大得多的网络,同时维持存储和训练模型的相对小的内存占用。
图1示出了用于训练神经网络的系统100。系统100可以包括用于访问神经网络的训练数据192的输入接口。例如,如图1中图示的,输入接口可以由数据存储接口180构成,该数据存储接口180可以从数据存储装置190访问训练数据192。例如,数据存储接口180可以是存储器接口或永久存储接口,例如硬盘或SSD接口,但也可以是个域网、局域网或广域网接口,诸如蓝牙、Zigbee或Wi-Fi接口或者以太网或光纤接口。数据存储装置190可以是系统100的内部数据存储装置,诸如硬盘驱动器或SSD,但也可以是外部数据存储装置,例如网络可访问的数据存储装置。
在一些实施例中,数据存储装置190可以进一步包括神经网络的未训练版本的数据表示194,其可以由系统100从数据存储装置190访问。然而,将领会,未训练神经网络的训练数据192和数据表示194也可以各自例如经由数据存储接口180的不同子系统从不同的数据存储装置访问。每个子系统可以具有如以上对于数据存储接口180所述的类型。在其他实施例中,未训练神经网络的数据表示194可以由系统100基于神经网络的设计参数在内部生成,并且因此可以不明确地存储在数据存储装置190上。系统100可以进一步包括处理器子系统160,该处理器子系统160可以被配置为在系统100的操作期间,提供迭代函数作为待训练的神经网络的层堆叠的替代物。这里,被替代的层堆叠的相应层可以具有相互共享的权重,并且可以接收前一层的输出作为输入,或者对于层堆叠的第一层,接收初始激活和层堆叠的输入的一部分。处理器子系统160可以进一步被配置为使用训练数据192迭代地训练神经网络。这里,处理器子系统160的训练迭代可以包括前向传播部分和后向传播部分。处理器子系统160可以被配置为除了其他操作之外尤其通过以下各项来执行前向传播部分:定义可以执行的前向传播部分,确定迭代函数的平衡点,在该平衡点处迭代函数收敛到不动点,其中确定平衡点包括使用数值寻根算法来找到迭代函数减去其输入的根解,以及通过提供平衡点作为神经网络中的层堆叠的输出的替代物。系统100可以进一步包括输出接口,用于输出训练神经网络的数据表示196,该数据也可以被称为训练模型数据196。例如,也如在图1中图示的,输出接口可以由数据存储接口180构成,其中,在这些实施例中,所述接口是输入/输出(“IO”)接口,经由该输入/输出(“IO”)接口,训练模型数据196可以存储在数据存储装置190中。例如,定义“未训练的”神经网络的数据表示194可以在训练期间或训练之后至少部分地被训练神经网络的数据表示196替换,因为诸如神经网络的权重、超参数和其他类型的参数之类的神经网络的参数可以适于反映训练数据192上的训练。这也在图1中通过引用数据存储装置190上的相同数据记录的参考标号194、196图示。在其他实施例中,数据表示196可以与定义“未训练的”神经网络的数据表示194分离存储。在一些实施例中,输出接口可以与数据存储接口180分离,但是一般而言可以具有如以上对于数据存储接口180所述的类型。
图2示出了用于训练神经网络的计算机实现的方法200。方法200可以但是不需要对应于图1的系统100的操作,因为它也可以对应于另一种类型的系统、装置或设备的操作,或者因为它可以对应于计算机程序。
方法200被示出为在题为“提供神经网络的数据表示”的步骤中包括提供210神经网络,其中神经网络的提供包括提供迭代函数作为神经网络的层堆叠的替代物,其中被替代的层堆叠的相应层具有相互共享的权重,并且接收前一层的输出作为输入,或者对于层堆叠的第一层,接收初始激活和层堆叠的输入的一部分。方法200进一步被示出为在题为“访问训练数据”的步骤中包括访问220神经网络的训练数据。方法200进一步被示出为在题为“使用训练数据迭代训练神经网络”的步骤中包括使用训练数据迭代训练230神经网络,该训练230可以包括前向传播部分和后向传播部分。通过方法200执行前向传播部分可以在题为“使用寻根算法确定平衡点”的步骤中包括确定240迭代函数的平衡点,在该平衡点处迭代函数收敛到不动点,其中确定平衡点包括使用数值寻根算法来找到迭代函数减去其输入的根解,以及在题为“提供平衡点作为层堆叠的输出的替代物”的步骤中包括提供250平衡点作为神经网络中层堆叠的输出的替代物。方法200可以在训练之后并且在题为“输出训练的神经网络”的步骤中进一步包括输出260训练的神经网络。深度平衡(DEQ)神经网络可以在题为“DEEP NEURAL NETWORK WITH EQUILIBRIUM SOLVER”具有申请号X,XXX,XXX的专利申请中被进一步描述,该专利申请通过引用以其整体并入本文。
或者
下面进一步描述的MDEQ模型通过指定以上算法中使用的函数,构建在下面的前向传递序列和后向传递序列的基础上。MDEQ模型中的超参数可以包括n,分辨率的数量。输入(例如,输入)可以包括(在每个尺度下的输入,其中分辨率按降序排列)和(隐藏状态具有与相同的大小)。对于每个分辨率,算法可以:
Norm可以定义为一组标准化操作(类似于批量标准化)。
MDEQ的主要概念之一是被驱动到平衡的的变换。系统可以使用这样的设计,其中在不同分辨率303下的特征首先通过残差块307取得。所述特征可以从具有变化的分辨率303或分辨率图像303的输入图像301导出,如在图3中所示。每个分辨率303可以具有其自己对应的残差块307。残差块307可以是浅的并且在结构上相同。不同分辨率的流可以并排或同时处理。在分辨率i下,残差块可以接收内部状态连同输入表示,并且输出在相同分辨率下的变换的特征张量305 。
输入301可以经历一系列变换以形成x 303,x 303将被提供给。与作用于序列并被提供有输入的单个表示的原始DEQ模型相反,MDEQ可以被提供有在n个分辨率下的输入表示(例如,n = 4)。在每个分辨率下的变换都接收其自己的输入表示,
虽然原始的DEQ具有带有单个张量z的内部状态,但是MDEQ状态包括在n个分辨率下的张量305的集合:
不同的张量305中的每一个具有不同的维度和不同的分辨率。照此,平衡求解器311可以基于其他DEQ模型的先前方法。系统可以通过为所有尺度i设置来初始化内部状态。因为系统正在执行寻根,所以系统不需要使多分辨率张量向量化。张量的集合可以维持为n个张量的集合,其相应的平衡状态可以被求解并同时后向传播,其中每个分辨率诱导其自身的梯度。
与先前的DEQ模型相比,求解器311也可以被修改。图像的高维数可以使得存储这样的更新非常昂贵,尽管它们的低秩。为了解决此,系统改进了前向和后向传递的内存效率。新的求解器可以在任何步骤保持最新的m个低秩更新,并丢弃较早的更新。求解器311可以为所有分辨率输出单个预测向量313。预测向量313可以包括对应分辨率的每个向量的特征。
现有的隐式模型假设损失317是在具有统一输入和输出形状的隐式隐藏状态的单个流上定义的,因此,不清楚这样的模型可以如何跨结构上不同的任务(例如,针对图像分类的预训练和针对语义分割的微调)而转移。此外,不存在定义辅助损失的自然方法,因为不存在“层”,并且前向和后向计算轨迹是解耦的。MDEQ模型中的损失317可以与每个预测向量相关联,因为MDEQ模型可以将损失分配给多于一个的向量。照此,向量可以总是具有与它们中的至少一个相关联的损失。
MDEQ模型可以在多个分辨率下向其状态暴露方便的“接口”。一个分辨率(最高)可以与输入的分辨率相同,并且可以用于定义诸如语义分割之类的密集预测任务的损失。例如,这可以包括导出图像中标识的对象的相关联部分的特定分类,诸如面部识别、眼睛识别、头发颜色等。另一个分辨率(例如,最低)可以是其中空间维度被折叠的向量,并且可以用于定义诸如图像分类之类的图像级标记任务的损失。这可以建议要么联合地(例如,多任务学习,其中结构上不同的监督流过多个头部)要么按顺序(例如,通过一个头部对图像分类进行预训练,并通过另一个头部对语义分割进行微调)为不同任务训练相同模型的清洁的协议。
因为批量标准化可能不直接适合用于隐式模型,因为它基于层来估计总体静态,所述层在MDEQ设置中是隐式的,并且变换的雅可比矩阵可以缩放得很差,以使得不动点显著更难求解。因此,MDEQ可以利用组标准化,该组标准化将输入通道分组并在每个组(例如,每个分辨率)内执行标准化。组标准化可以独立于批量大小,并为转移学习提供更自然的支持(例如,针对结构上不同的任务进行预训练和微调)。为了稳定性,MDEQ可能不利用组标准化的可学习仿射参数。
MDEQ可以采用在RNN(递归神经网络)中发现的变分丢弃技术,而不是利用由应用于至网络中给定层的随机掩码的解释视觉模型所使用的常规空间丢弃,在RNN(递归神经网络)中,完全相同的掩码可以在的所有调用处被应用,并在每次训练迭代的开始处被重置。
对于所有分辨率i,多尺度特征可以被初始化为。然而,这可以在训练MDEQ时、尤其是在它的开始阶段期间引起一定的不稳定性,其可能是由于在原始的ReLU非线性斜率的剧烈改变,其中导数是未定义的。为了解决此,在训练的初始阶段中,MDEQ模型可以用softplus替换残差块和多尺度融合二者中的最后一个ReLU。这些以后可能切换回到ReLU。softplus提供对ReLU的平滑近似,但在周围具有斜率(其中控制曲率)。
MDEQ模型可以应用在潜在非常大的图像(例如,2048 X 1024图像)上具有小接收域(receptive field)的卷积(例如,的残差块中的两个3×3卷积滤波器)。例如,MDEQ最终可以评估百万像素级图像上的语义分割模型。实际上,这可能意味着通常系统可能需要更高次数的寻根迭代来收敛到精确的平衡。虽然这确实提出了挑战,但是MDEQ模型可以多尺度同时上采样和下采样,并且利用拟牛顿寻根来在合理次数的寻根迭代内将模型驱动接近平衡。
因此,具有组标准化的二维(2D)卷积层405可以输出与层缠绕的卷积核,以帮助产生输出张量。可以针对来自块405的卷积核输出利用整流器(rectifier)407。激活函数可以包括整流线性单元(ReLU)407、411。具有组标准化的第二2D卷积层409可以接收内部状态连同输入表示,并在相同的分辨率下输出变换的特征张量,如在以上公式中指定的。残差块可以对较高分辨率应用2跨步3×3卷积,并对较低分辨率应用继之以双线性插值的1×1卷积。
在这些块之后,的第二部分是多分辨率融合步骤,其混合了跨不同尺度的特征图。变换的特征经历从当前尺度i到不等于i的每个其他尺度j的上采样或下采样。在MDEQ构造中,下采样可以通过(一个或多个)2跨步3×3卷积2d来执行,而上采样通过继之以双线性插值的1×1卷积来执行。可以通过在从所有传入尺度i(连同)提供的变换的特征图之上求和而形成最终输出尺度j。因此,在每个尺度下的输出特征张量是来自所有尺度的变换特征的混合。这可能迫使所有尺度下的特征一致,并驱动整个系统达到协调的平衡,从而使跨尺度的表示调和。
图5描绘了在计算机控制的机器10和控制系统12之间的交互的示意图。计算机控制的机器10可以包括如在图1-4中所述的神经网络。计算机控制的机器10包括致动器14和传感器16。致动器14可以包括一个或多个致动器,并且传感器16可以包括一个或多个传感器。传感器16被配置为感测计算机控制的机器10的状况。传感器16可以被配置为将感测到的状况编码成传感器信号18,并将传感器信号18传输到控制系统12。传感器16的非限制性示例包括视频、雷达、LiDAR、超声波和运动传感器。在一个实施例中,传感器16是被配置为感测计算机控制的机器10附近的环境的光学图像的光学传感器。
控制系统12被配置为从计算机控制的机器10接收传感器信号18。如以下阐述,控制系统12可以进一步被配置为取决于传感器信号计算致动器控制命令20,并将致动器控制命令20传输到计算机控制的机器10的致动器14。
如在图5中所示,控制系统12包括接收单元22。接收单元22可以被配置为从传感器16接收传感器信号18,并将传感器信号18变换成输入信号x。在替代实施例中,在没有接收单元22的情况下,传感器信号18作为输入信号x被直接接收。每个输入信号x可以是每个传感器信号18的一部分。接收单元22可以被配置为处理每个传感器信号18以产生每个输入信号x。输入信号x可以包括对应于由传感器16记录的图像的数据。
控制系统12包括分类器24。分类器24可以被配置为使用诸如上述神经网络之类的机器学习(ML)算法将输入信号x分类成一个或多个标签。分类器24被配置为由诸如上述参数(例如,参数)之类的参数来参数化。参数可以存储在非易失性存储装置26中并由非易失性存储装置26提供。分类器24被配置为从输入信号x确定输出信号y。每个输出信号y包括向每个输入信号x分配一个或多个标签的信息。分类器24可以将输出信号y传输到转换单元28。转换单元28被配置为将输出信号y转换成致动器控制命令20。控制系统12被配置为将致动器控制命令20传输到致动器14,致动器14被配置为响应于致动器控制命令20来致动计算机控制的机器10。在另一个实施例中,致动器14被配置为直接基于输出信号y来致动计算机控制的机器10。
当致动器14接收到致动器控制命令20时,致动器14被配置为执行对应于相关致动器控制命令20的动作。致动器14可以包括控制逻辑,该控制逻辑被配置为将致动器控制命令20变换成用于控制致动器14的第二致动器控制命令。在一个或多个实施例中,替代致动器或除致动器之外,致动器控制命令20可以用于控制显示器。
在另一个实施例中,替代包括传感器16的计算机控制的机器10或除此之外,控制系统12包括传感器16。替代包括致动器14的计算机控制的机器10或除此之外,控制系统12还可以包括致动器14。
如在图5中所示,控制系统12还包括处理器30和存储器32。处理器30可以包括一个或多个处理器。存储器32可以包括一个或多个存储器设备。一个或多个实施例的分类器24(例如,ML算法)可以由控制系统12实现,该控制系统12包括非易失性存储装置26、处理器30和存储器32。
非易失性存储装置26可以包括一个或多个持久数据存储设备,诸如硬盘驱动器、光驱、磁带驱动器、非易失性固态设备、云存储或能够持久存储信息的任何其他设备。处理器30可以包括从高性能计算(HPC)系统选择的一个或多个设备,该高性能计算(HPC)系统包括高性能核心、微处理器、微控制器、数字信号处理器、微型计算机、中央处理单元、现场可编程门阵列、可编程逻辑设备、状态机、逻辑电路、模拟电路、数字电路或基于驻留在存储器32中的计算机可执行指令操纵信号(模拟或数字)的任何其他设备。存储器32可以包括单个存储器设备或多个存储器设备,其包括但不限于随机存取存储器(RAM)、易失性存储器、非易失性存储器、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、闪存、高速缓冲存储器或能够存储信息的任何其他设备。
处理器30可以被配置为读入存储器32,并且执行驻留在非易失性存储装置26中并体现一个或多个实施例的一个或多个ML算法和/或方法的计算机可执行指令。非易失性存储装置26可以包括一个或多个操作系统和应用程序。非易失性存储装置26可以存储从使用多种编程语言和/或技术创建的计算机程序编译和/或解译的数据,所述多种编程语言和/或技术在没有限制的情况下并且单独或组合地包括Java、C、C++、C#、Objective C、Fortran、Pascal、Java Script、Python、Perl和PL/SQL。
在由处理器30执行时,非易失性存储装置26的计算机可执行指令可以使得控制系统12实现如本文公开的一个或多个ML算法和/或方法。非易失性存储装置26还可以包括支持本文描述的一个或多个实施例的功能、特征和过程的ML数据(包括数据参数)。
体现本文描述的算法和/或方法的程序代码能够以多种不同的形式作为程序产品单独或共同分发。程序代码可以使用其上具有计算机可读程序指令的计算机可读存储介质来分发,用于使得处理器实行一个或多个实施例的方面。本质上非暂时性的计算机可读存储介质可以包括易失性和非易失性的以及可移除和不可移除的有形介质,其以用于信息存储的任何方法或技术实现,所述信息诸如是计算机可读指令、数据结构、程序模块或其他数据。计算机可读存储介质可以进一步包括RAM、ROM、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他固态存储技术、便携式光盘只读存储器(CD-ROM)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备或者可以用于存储所期望信息并可以由计算机读取的任何其他介质。计算机可读程序指令可以从计算机可读存储介质下载到计算机、另一种类型的可编程数据处理装置或另一种设备,或者经由网络下载到外部计算机或外部存储设备。
存储在计算机可读介质中的计算机可读程序指令可以用于指导计算机、其他类型的可编程数据处理装置或其他设备以特定方式运转,使得存储在计算机可读介质中的指令产生包括实现流程图或图解中指定的功能、动作和/或操作的指令的制品。在某些替代实施例中,流程图和图解中指定的功能、动作和/或操作可以被重新排序、串行处理和/或与一个或多个实施例一致地同时处理。此外,任何流程图和/或图解可以包括比与一个或多个实施例一致图示的节点或块更多或更少的节点或块。
可以使用诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器之类的合适的硬件部件,或者其他硬件部件或设备,或者硬件、软件和固件部件的组合,来整体或部分地体现过程、方法或算法。
图6描绘了被配置为控制载具50的控制系统12的示意图,载具50可以是至少部分自主的载具或至少部分自主的机器人。如在图5中所示,载具50包括致动器14和传感器16。传感器16可以包括一个或多个视频传感器、雷达传感器、超声波传感器、LiDAR传感器和/或位置传感器(例如,GPS)。一个或多个特定传感器中的一个或多个可以集成到载具50中。替代地或除了以上标识的一个或多个特定传感器之外,传感器16可以包括软件模块,该软件模块被配置为在执行时确定致动器14的状态。软件模块的一个非限制性示例包括天气信息软件模块,该天气信息软件模块被配置为确定载具50附近或其他位置的天气的当前或未来状态。
载具50的控制系统12的分类器24可以被配置为取决于输入信号x检测在载具50附近的对象。在这样的实施例中,输出信号y可以包括表征载具50附近对象的信息。可以根据该信息确定致动器控制命令20。致动器控制命令20可以用于避免与检测到的对象碰撞。
在载具50是至少部分自主载具的实施例中,致动器14可以体现在载具50的制动器、推进系统、发动机、传动系统或转向系统中。可以确定致动器控制命令20,使得控制致动器14,使得载具50避免与检测到的对象碰撞。检测到的对象也可以根据分类器24认为它们最有可能是什么——诸如行人或树木——来分类。致动器控制命令20可以取决于分类来确定。
在载具50是至少部分自主的机器人的其他实施例中,载具50可以是移动机器人,其被配置为实行一个或多个功能,诸如飞行、游泳、潜水和踩踏。移动机器人可以是至少部分自主的割草机或至少部分自主的清洁机器人。在这样的实施例中,可以确定致动器控制命令20,使得可以控制移动机器人的推进单元、转向单元和/或制动单元,使得移动机器人可以避免与标识的对象碰撞。
在另一个实施例中,载具50是以园艺机器人形式的至少部分自主的机器人。在这样的实施例中,载具50可以使用光学传感器作为传感器16来确定载具50附近环境中植物的状态。致动器14可以是被配置为喷洒化学物质的喷嘴。取决于标识的植物种类和/或标识的植物状态,可以确定致动器控制命令20,以使得致动器14向植物喷洒合适量的合适化学物质。
载具50可以是以家用电器形式的至少部分自主的机器人。家用电器的非限制性示例包括洗衣机、炉子、烤箱、微波炉或洗碗机。在这样的载具50中,传感器16可以是光学传感器,其被配置为检测将经历由家庭电器处理的对象的状态。例如,在家用电器是洗衣机的情况下,传感器16可以检测洗衣机内部的衣物的状态。可以基于衣物的检测状态来确定致动器控制命令20。
图7描绘了被配置为控制系统100(例如,制造机器)的控制系统12的示意图,该控制系统100(例如,制造机器)诸如是制造系统102(诸如生产线的一部分)的冲压刀具、刀具或枪钻。控制系统12可以被配置为控制致动器14,该致动器14被配置为控制系统100(例如,制造机器)。
系统100的传感器16(例如,制造机器)可以是被配置为捕获制造产品104的一个或多个特性的光学传感器。分类器24可以被配置为根据一个或多个捕获的特性来确定制造产品104的状态。致动器14可以被配置为取决于为制造产品104的后续制造步骤所确定的制造产品104的状态来控制系统100(例如,制造机器)。致动器14可以被配置为取决于制造产品104的所确定状态来控制在系统100(例如,制造机器)的后续制造产品106上的系统100(例如,制造机器)的功能。
图8描绘了控制系统12的示意图,该控制系统12被配置为控制具有至少部分自主模式的电动工具150,诸如电钻或驱动器。控制系统12可以被配置为控制致动器14,该致动器14被配置为控制电动工具150。
电动工具150的传感器16可以是光学传感器,该光学传感器被配置为捕获工作表面152的和/或被驱动到工作表面152中的紧固件154的一个或多个特性。分类器24可以被配置为根据一个或多个捕获的特性来确定工作表面152的和/或紧固件154相对于工作表面152的状态。该状态可以是紧固件154与工作表面152齐平。替代地,该状态可以是工作表面152的硬度。致动器14可以被配置为控制电动工具150,使得电动工具150的驱动功能取决于紧固件154相对于工作表面152的确定状态或工作表面152的一个或多个捕获特性来调整。例如,如果紧固件154的状态相对于工作表面152齐平,则致动器14可以中断驱动功能。作为另一个非限制性示例,致动器14可以取决于工作表面152的硬度施加附加的或更小的扭矩。
图9描绘了被配置为控制自动化个人助理900的控制系统12的示意图。控制系统12可以被配置为控制致动器14,该致动器14被配置为控制自动化个人助理900。自动化个人助理900可以被配置为控制家用电器,诸如洗衣机、炉子、烤箱、微波炉或洗碗机。
传感器16可以是光学传感器和/或音频传感器。光学传感器可以被配置为接收用户902的手势904的视频图像。音频传感器可以被配置为接收用户902的语音命令。
自动化个人助理900的控制系统12可以被配置为确定致动器控制命令20,该致动器控制命令20被配置为控制系统12。控制系统12可以被配置为根据传感器16的传感器信号18来确定致动器控制命令20。自动化个人助理900被配置为将传感器信号18传输到控制系统12。控制系统12的分类器24可被配置为执行手势识别算法以标识用户902做出的手势904,确定致动器控制命令20,并将致动器控制命令20传输到致动器14。分类器24可以被配置为响应于手势904从非易失性存储装置检索信息,并且以适合用户902接收的形式输出检索到的信息。
图10描绘了被配置为控制监视系统250的控制系统12的示意图。监视系统250可以被配置为物理地控制通过门252的访问。传感器16可以被配置为检测与决定是否准许访问相关的场景。传感器16可以是被配置为生成和传输图像和/或视频数据的光学传感器。控制系统12可以使用这样的数据来检测人员的面部。
监视系统250的控制系统12的分类器24可以被配置为通过匹配存储在非易失性存储装置26中的已知人的身份来解释图像和/或视频数据,从而确定人员的身份。分类器24可以被配置为响应于图像和/或视频数据的解释而生成致动器控制命令20。控制系统12被配置为将致动器控制命令20传输到致动器14。在该实施例中,致动器14可以被配置为响应于致动器控制命令20来锁定或解锁门252。在其他实施例中,非物理的逻辑访问控制也是可能的。
监视系统250也可以是监督系统。在这样的实施例中,传感器16可以是被配置为检测在监督之下的场景的光学传感器,并且控制系统12被配置为控制显示器254。分类器24被配置为确定场景的分类,例如传感器16检测到的场景是否可疑。控制系统12被配置为响应于分类向显示器254传输致动器控制命令20。显示器254可以被配置为响应于致动器控制命令20来调整显示的内容。例如,显示器254可以突出显示被分类器24认为可疑的对象。
图11描绘了控制系统12的示意图,该控制系统12被配置为控制成像系统1100,例如MRI装置、x射线成像装置或超声波装置。传感器16例如可以是成像传感器。分类器24可以被配置为确定感测图像的全部或部分的分类。分类器24可以被配置为响应于由训练的神经网络获得的分类来确定或选择致动器控制命令20。例如,分类器24可以将感测图像的区域解释为潜在异常。在该情况下,可以确定或选择致动器控制命令20,以使得显示器302显示成像和突出显示潜在异常区域。
本文公开的过程、方法或算法可以可递送到处理设备、控制器或计算机/由处理设备、控制器或计算机实现,所述处理设备、控制器或计算机可以包括任何现有的可编程电子控制单元或专用电子控制单元。类似地,过程、方法或算法可以以多种形式存储为可由控制器或计算机执行的数据和指令,包括但不限于永久存储在诸如ROM设备的不可写存储介质上的信息和可变更地存储在诸如软盘、磁带、CD、RAM设备以及其他磁性和光学介质的可写存储介质上的信息。所述过程、方法或算法也可以在软件可执行对象中实现。替代地,可以使用诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器之类的合适的硬件组件,或其他硬件组件或设备,或者硬件、软件和固件组件的组合,来整体或部分地体现过程、方法或算法。
虽然上面描述了示例性实施例,但是不旨在这些实施例描述权利要求所包含的所有可能的形式。说明书中使用的词语是描述的词语,而不是限制的词语,并且理解,可以在不脱离本公开的精神和范围的情况下做出各种改变。如先前描述的,各种实施例的特征可以被组合以形成可能未被明确描述或图示的本发明的另外的实施例。虽然各种实施例可能已经被描述为在一个或多个期望的特性方面提供了优于其他实施例或现有技术实现的优点或者比其他实施例或现有技术实现优选,但是本领域的普通技术人员认识到,一个或多个特征或特性可以取决于具体的应用和实现被折衷以实现期望的总体系统属性。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、适销性、外观、包装、大小、适用性、重量、可制造性、组装容易性等。照此,在任何实施例都被描述为在一个或多个特征方面与其他实施例或现有技术实现相比不太合期望的程度上,这些实施例不在本公开的范围之外,并且对于特定应用可以是合期望的。
Claims (20)
1.一种用于分类和训练神经网络的计算机实现的方法,包括:
在神经网络处接收输入,其中所述输入包括变化分辨率的多个分辨率输入;
针对所述多个分辨率输入的每个对应分辨率输出多个特征张量;
利用对应分辨率的上采样或下采样来融合所述多个特征张量;
利用平衡求解器从所述多个特征张量标识一个或多个预测向量;和
响应于所述一个或多个预测向量输出损失。
2.根据权利要求1所述的计算机实现的方法,其中输出所述损失是响应于仅利用单个层的后向传播序列。
3.根据权利要求1所述的计算机实现的方法,其中,所述多个分辨率输入各自输入到对于所述特定分辨率的对应残差块。
4.根据权利要求1所述的计算机实现的方法,其中输入包括多个分辨率输入,所述多个分辨率输入包含不同大小的像素图像。
5.根据权利要求1所述的计算机实现的方法,其中,所述方法包括利用多个残差块来针对所述多个分辨率输入的每个对应分辨率输出特征张量。
6.根据权利要求1所述的计算机实现的方法,其中对应于所述多个分辨率输入的最高分辨率的特征张量之一仅被下采样。
7.根据权利要求1所述的计算机实现的方法,其中对应于所述多个分辨率输入的最低分辨率的特征张量之一仅被上采样。
8.根据权利要求1所述的计算机实现的方法,其中所述多个特征张量的融合在单个层中进行。
9.根据权利要求1所述的计算机实现的方法,其中所述下采样通过2跨步3乘3二维卷积层来执行。
10.根据权利要求1所述的计算机实现的方法,其中,所述上采样通过继之以双线性插值的1乘1卷积来执行。
11.一种用于至神经网络的输入的分类的计算机实现的方法,包括:
在神经网络处接收输入,其中所述输入包括多个分辨率输入;
针对所述多个分辨率输入的每个对应分辨率标识特征张量;
将每个对应分辨率的特征张量输入到对应的残差块;和
利用平衡求解器从特征张量标识一个或多个预测向量以将输入的分类输出。
12.根据权利要求11所述的计算机实现的方法,其中所述方法包括通过下采样或上采样来融合针对每个对应的残差块的特征张量。
13.根据权利要求11所述的计算机实现的方法,其中所述输入是图像,并且所述多个分辨率输入是所述图像的变化分辨率。
14.根据权利要求11所述的计算机实现的方法,其中所述神经网络仅包括单个层。
15.根据权利要求11所述的计算机实现的方法,其中所述方法包括应用组标准化来对所述多个分辨率输入进行分组,并在每个对应的分辨率内执行标准化。
16.根据权利要求11所述的计算机实现的方法,其中所述方法包括响应于利用后向传播训练神经网络的所述一个或多个预测向量而输出损失,其中所述后向传播包括标识与神经网络的超参数相关联的损失的导数。
17.根据权利要求11所述的计算机实现的方法,其中所述方法包括利用针对每个对应分辨率的上采样或下采样来融合特征张量。
18.一种包括神经网络的系统,包括:
输入接口,用于访问神经网络的输入数据;和
与输入接口通信的处理器,处理器被编程为:
在神经网络处接收所述输入数据,其中所述输入包括变化分辨率的多个分辨率输入;
针对所述多个分辨率输入的每个对应分辨率输出多个特征张量;
利用上采样或下采样来融合所述多个特征张量;
利用平衡求解器来响应于所述多个特征张量标识预测向量,其中所述预测向量包括与所述多个特征张量中的每一个相关联的特征;和
输出预测向量作为输入数据的分类。
19.根据权利要求18所述的系统,其中所述输入数据包括图像,并且所述多个分辨率输入包括图像的变化分辨率。
20.根据权利要求18所述的系统,其中,针对每个对应分辨率的所述多个特征张量中的每一个被发送到对应的残差块。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/895,683 US11610129B2 (en) | 2020-06-08 | 2020-06-08 | System and method for multiscale deep equilibrium models |
US16/895683 | 2020-06-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113837375A true CN113837375A (zh) | 2021-12-24 |
Family
ID=78605381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110629767.0A Pending CN113837375A (zh) | 2020-06-08 | 2021-06-07 | 用于多尺度深度平衡模型的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11610129B2 (zh) |
KR (1) | KR102597787B1 (zh) |
CN (1) | CN113837375A (zh) |
DE (1) | DE102021205722A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11724707B2 (en) * | 2020-07-08 | 2023-08-15 | Magna Electronics Inc. | Vehicular control system with automatic stack clearing of stack frame |
JP2022135701A (ja) * | 2021-03-05 | 2022-09-15 | 株式会社東芝 | 学習装置、方法およびプログラム |
WO2023116155A1 (zh) * | 2021-12-23 | 2023-06-29 | 大唐移动通信设备有限公司 | 神经网络操作方法、装置及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10818386B2 (en) * | 2018-11-21 | 2020-10-27 | Enlitic, Inc. | Multi-label heat map generating system |
US10891537B2 (en) * | 2019-03-20 | 2021-01-12 | Huawei Technologies Co., Ltd. | Convolutional neural network-based image processing method and image processing apparatus |
US11468276B2 (en) * | 2020-04-16 | 2022-10-11 | Robert Bosch Gmbh | System and method of a monotone operator neural network |
-
2020
- 2020-06-08 US US16/895,683 patent/US11610129B2/en active Active
-
2021
- 2021-06-07 KR KR1020210073546A patent/KR102597787B1/ko active IP Right Grant
- 2021-06-07 CN CN202110629767.0A patent/CN113837375A/zh active Pending
- 2021-06-07 DE DE102021205722.5A patent/DE102021205722A1/de active Pending
Also Published As
Publication number | Publication date |
---|---|
KR102597787B1 (ko) | 2023-11-06 |
KR20210152404A (ko) | 2021-12-15 |
US11610129B2 (en) | 2023-03-21 |
US20210383234A1 (en) | 2021-12-09 |
DE102021205722A1 (de) | 2021-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102597787B1 (ko) | 멀티스케일 딥 평형 모델들을 위한 시스템 및 방법 | |
US20170213070A1 (en) | Object-focused active three-dimensional reconstruction | |
Morales et al. | A survey on deep learning and deep reinforcement learning in robotics with a tutorial on deep reinforcement learning | |
US10776691B1 (en) | System and method for optimizing indirect encodings in the learning of mappings | |
EP3793784A1 (en) | Data-efficient hierarchical reinforcement learning | |
CN113962399A (zh) | 用于机器学习中学习扰动集的方法和系统 | |
CN113537486A (zh) | 单调算子神经网络的系统和方法 | |
CN116523823A (zh) | 用于半监督对象检测的鲁棒伪标签生成的系统和方法 | |
Vasquez-Gomez et al. | Next-best-view regression using a 3D convolutional neural network | |
US11467598B2 (en) | Method of estimating position in local area of large space and robot and cloud server implementing thereof | |
Dai et al. | Camera view planning based on generative adversarial imitation learning in indoor active exploration | |
KR20220004933A (ko) | 비단사적 변환을 포함하는 이미지 분류기 | |
KR102178469B1 (ko) | 교사-학생 프레임워크 기반의 소프트 타겟 학습방법을 이용한 보행자 포즈 방향 추정 방법 및 시스템 | |
CN117592542A (zh) | 用于机器学习模型的具有对比损失的专家引导半监督的系统和方法 | |
US20230244835A1 (en) | 6d object pose estimation with 2d and 3d pointwise features | |
Maestre et al. | Bootstrapping interactions with objects from raw sensorimotor data: a Novelty Search based approach | |
US20210287093A1 (en) | Device and method for training a neuronal network | |
Paudel | Learning for robot decision making under distribution shift: A survey | |
US20210374549A1 (en) | Meta-learned, evolution strategy black box optimization classifiers | |
Hornauer et al. | Imitation learning of path-planned driving using disparity-depth images | |
Zhi et al. | Probabilistic trajectory prediction with structural constraints | |
Pak et al. | Carnet: A dynamic autoencoder for learning latent dynamics in autonomous driving tasks | |
Watt et al. | Neuro-augmented vision for evolutionary robotics | |
US20230101812A1 (en) | Monotone mean-field inference in deep markov random fields | |
US20240109557A1 (en) | Systems and methods for distribution-aware goal prediction for modular autonomous vehicle control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |