CN115398455A

CN115398455A - 利用多个处理单元来对可编程逻辑控制器进行分布式提升的神经网络系统

Info

Publication number: CN115398455A
Application number: CN202080099845.4A
Authority: CN
Inventors: 夏魏喜; 于小文; 沙尚克·塔马斯卡; 胡安·L·阿帕里西奥·奥赫亚; 海科·克劳森; 伊内斯·乌加尔德·迪亚斯; 马丁·泽尔; 欧根·索洛乔; 温成涛
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2022-11-25
Also published as: WO2021211134A1; US20230214665A1; EP4121913A1

Abstract

分布式神经网络提升是由神经网络系统通过操作至少一个处理器来执行的。一种方法，该方法包括提供提升算法，该提升算法将模型分布在多个处理单元中，每个处理单元是能够彼此独立地执行计算同时处理数据的多个弱学习器中的弱学习器。该方法还包括启用分布式集成学习，该分布式集成学习使可编程逻辑控制器(PLC)能使用多个处理单元中的一个以上的处理单元来对应用进行缩放，以及使用提升算法来训练多个弱学习器。多个弱学习器是不捕捉整个数据分布并且被有目的地设计用于以较低准确度进行预测的机器学习模型。该方法还包括：使用多个弱学习器以基于神经网络的前馈计算来为最终假设投票。

Description

利用多个处理单元来对可编程逻辑控制器进行分布式提升的神经网络系统

技术领域

本发明的各方面总体上涉及一种用于利用多个处理单元来对可编程逻辑控制器(PLC)进行分布式神经网络提升的神经网络系统。

背景技术

人工智能(AI)被设定用于在减少创建自动化解决方案所需的编程和工程努力方面发挥关键作用。用于将AI整合到自动化环境中的第一个重要步骤是神经处理单元(NPU)模块。当与诸如技术模块(TM)NPU的边缘设备一起工作时，存在的普遍挑战是它们的资源限制。处理速度、存储器大小和存储能够约束设备的适用性。NPU专门从事前馈神经网络(NN)的计算。它接受张量输入并且执行一系列张量运算来计算输出。使用图像检测作为示例性应用，输入是图像，而输出是检测到的对象的边界框和分类。这种大的输入空间(像素数)和输出空间(可能的边界框和类别数)常常要求NN模型具有高Vapnik-Chervonenkis(VC)维度，以有效地捕捉训练数据中的底层分布。

为了支持高VC维度，NN必须在其计算图形中具有大量的节点和层。然而，存在与具有大的图形相关联的三个潜在的问题。首先，模型能够容易地对训练数据进行过拟合(overfit)，使得它不太准确和不太具通用性。其次，由于处理速度的限制，计算的速度可能不足以用于实时应用。最后，边缘设备甚至可能不具有足够的计算资源来处理图形。瓶颈往往是在运行时存储图形所需的易失性存储器容量。作为结果，深度神经网络的最大VC维度往往受限于边缘设备的可用存储器。

目前，NPU被限制为只能运行单个神经网络来执行具体应用。该神经网络模型往往被有目的地设计用于对于应用具有刚好数量的VC维度。因而，在计算资源约束下，无法实现可扩展性。再次使用图像检测作为实例，此限制实际上意味着NN模型只能以有限的准确度识别有限数量的类别。Mobilenet是目前最先进的经预训练的模型，其在边缘设备(即，移动电话)中执行对象检测。它是在有多达1000个不同类别的ImageNet上训练的。它为用户呈现了全局超参数，以调整由于资源限制造成的准确度与时延之间的权衡。

因而，需要一种学习方法，该学习方法使PLC能使用一个以上的NPU来对应用进行缩放。

发明内容

简而言之，本发明的各方面涉及一种分布式集成学习方法，该集成学习方法使PLC能使用一个以上的神经处理单元(NPU)来对应用进行缩放。它被称为自适应提升(AdaBoost)。这种算法的高级思想是训练多个弱学习器，这些弱学习器随后被用来为最终假设“投票”。弱学习器是不捕捉整个数据分布并且被有目的地设计用于以较低准确度进行预测的机器学习模型。在这种情况下，神经网络被用作弱学习器。本发明的优点是通过使用一个以上的NPU以利用分布式计算方法和机器学习提升算法来对应用进行缩放。用作实例的图像检测具有高维度的输入和输出。本领域解决方案Mobilenet给用户提供了修改模型大小的灵活性，使其适合边缘设备的资源限制，但它以模型准确度为代价换取了更小的模型大小。当模型的复杂性降低时，它的准确度就下降。提出的发明没有作出此权衡。AdaBoost组合多个分布式神经网络模型以在不达到资源限制的情况下创建更复杂的模型。

根据本发明的一个说明性实施例，提供了一种由神经网络系统执行的计算机实现的分布式神经网络提升方法。该方法包括：通过操作至少一个处理器，提供提升算法的步骤，该提升算法将模型分布在多个处理单元中，每个处理单元是能够彼此独立地执行计算同时处理数据的多个弱学习器中的弱学习器。该方法还包括：启用分布式集成学习，该分布式集成学习使可编程逻辑控制器(PLC)能使用多个处理单元中的一个以上的处理单元来对应用进行缩放。该方法还包括：使用提升算法来训练多个弱学习器。多个弱学习器是不捕捉整个数据分布并且被有目的地设计用于以较低准确度进行预测的机器学习模型。该方法还包括：使用多个弱学习器以基于神经网络的前馈计算来为最终假设投票。

根据本发明的另一说明性实施例，提供了一种用于分布式神经网络提升的神经网络系统。该系统包括：处理器，以及可存取的存储器，该存储器存储包括软件指令的神经程序，该软件指令在由处理器执行时被配置用于：提供提升算法，该提升算法将模型分布在多个处理单元中，每个处理单元是能够彼此独立地执行计算同时处理数据的多个弱学习器中的弱学习器。该软件指令启用分布式集成学习，该分布式集成学习使可编程逻辑控制器(PLC)能使用多个处理单元中的一个以上的处理单元来对应用进行缩放。该软件指令使用提升算法来训练多个弱学习器。多个弱学习器是不捕捉整个数据分布并且被有目的地设计用于以较低准确度进行预测的机器学习模型。该软件指令使用多个弱学习器以基于神经网络的前馈计算来为最终假设投票。

根据本发明的另一说明性实施例，提供了一种编码有可执行指令的非暂时性计算机可读存储介质。该指令在由至少一个处理器执行时操作一个或多个神经网络系统。该指令包括提供提升算法，该提升算法将模型分布在多个处理单元中，每个处理单元是能够彼此独立地执行计算同时处理数据的多个弱学习器中的弱学习器。该指令包括启用分布式集成学习，该分布式集成学习使可编程逻辑控制器(PLC)能使用多个处理单元中的一个以上的处理单元来对应用进行缩放。该指令包括使用提升算法来训练多个弱学习器。多个弱学习器是不捕捉整个数据分布并且被有目的地设计用于以较低准确度进行预测的机器学习模型。该指令包括使用多个弱学习器以基于神经网络的前馈计算来为最终假设投票。

附图说明

图1示出了根据本发明的示例性实施例的用于利用诸如神经处理单元(NPU)的多个处理单元来对可编程逻辑控制器(PLC)进行分布式神经网络提升的神经网络系统的框图。

图2示出了根据本发明的示例性实施例的离线训练弱神经网络的框图。

图3示出了根据本发明的示例性实施例的将神经网络(NN)加载到NPU中的框图。

图4示出了根据本发明的示例性实施例的用于预测的前馈操作。

图5示出了根据本发明的示例性实施例的整体流水线。

图6示出了根据本发明的示例性实施例的用于图像检测任务的计算机实现的分布式神经网络提升方法的流程图的示意图。

图7示出了根据本发明的示例性实施例的由神经网络系统执行的计算机实现的分布式神经网络提升方法的流程图的示意图。

图8示出了能够在其中实现本公开的实施例的计算环境的实例。

具体实施方式

为了便于理解本发明的实施例、原理和特征，下文参考说明性实施例中的实现方式对它们予以解释。特别地，它们是在用于利用诸如神经处理单元(NPU)的多个处理单元来对可编程逻辑控制器(PLC)进行分布式神经网络提升的神经网络系统的上下文中描述的。分布式神经网络提升是在NPU中提供的。AdaBoost算法被用来提升作为弱学习器的多个神经网络，其中的每一个神经网络都能够驻留在单独的NPU中，因此它们能够独立地利用资源并同时执行计算。利用AdaBoost训练，每个弱学习器专注于数据集的重采样子集。组合所有的输出允许整体模型扩展Vapnik-Chervonenkis(VC)维度，从而有效地覆盖数据的更大底层分布。目前，在NPU中实现的模型的VC维度受到其计算资源的限制。而且此限制直接等同于设备的较窄适用性，因为模型学习复杂分布的能力有限。本发明消除了该限制，使NPU能对应用进行缩放。然而，本发明的实施例不限于在所描述的设备或方法中使用。

下文中被描述为构成各种实施例的组件和材料旨在作为说明性的并且不是约束性的。将执行与本文描述的材料相同或类似的功能的许多合适的组件和材料旨在被包含在本发明的实施例的范围内。

下面参考本文中的图1至图8描述了根据本公开的神经网络系统的这些和其他实施例。附图中使用的相同附图标记贯穿几个视图识别类似或相同的元件。附图不一定按比例绘制。

与本发明的一个实施例相一致，图1表示根据本发明的示例性实施例的用于分布式神经网络提升的神经网络系统105的框图。根据本发明的示例性实施例，分布式神经网络提升用于具有PLC 107和多个诸如神经处理单元(NPU)110(1-X)的处理单元的可编程逻辑控制器(PLC)系统。用户能够将兼容的诸如相机或麦克风的传感器连接到NPU模块的集成接口。连接的传感器系统的数据、以及来自CPU程序本身的信息能够使用神经网络来处理。随后在CPU程序中对处理结果进行评估。控制器和I/O系统的NPU模块具有带人工智能(AI)能力的芯片。例如，NPU(神经处理单元)能够被配备有视觉处理单元，因此启用神经网络的有效处理。NPU模块的功能得来于在SD卡上的经训练的神经系统的供应，并且被配备有USB3.1接口和千兆以太网端口。在神经网络的基础上，能够处理来自连接的传感器系统或来自CPU程序的数据。例如，通过使用机器学习算法，能够有效地实现生产车间中的视觉质量检查或图像引导的机器人系统。这使得更有效并且更“像人类”的行为成为可能。

分布式神经网络提升是将机器学习模型的计算划分到多个计算机或硬件设备中的新颖的方法。这种方法利用提升技术来训练一个以上的模型(又称弱学习器)，这将完全产生最终预测。模型是能够被训练为将输入数据映射到输出预测的机器学习模型。弱学习器是被有目的地设计用于轻量级和简单的机器学习模型。它预计只从训练数据的子集中学习，所以它本身不会成为强大的预测器。

神经网络系统105包括处理器112和可存取存储器115，该可存取存储器115存储包括软件指令120的神经程序117，该软件指令120在由处理器112执行时被配置用于提供提升算法122，该提升算法122将模型125分布在多个处理单元110(1-X)中，每个处理单元是能够彼此独立地执行计算同时处理数据的多个弱学习器(WL)127(1-X)中的弱学习器。

提升算法122是监督式学习中的用于减少偏差162和方差160的集成算法之一。它涉及在样本数据集中以不同的权重分布顺序地训练弱学习器(WL)127(1-X)。随后，所有经训练的弱学习器能够一起产生最终预测。概率论和统计学中的方差160是随机变量与其均值的平方偏差的期望值。非正式地，它测量一组数字与它们的平均值相差多远。偏差162是统计技术或其结果的特征，由此，结果的预期值不同于被估计的真正的底层定量参数。

软件指令120启用分布式集成学习，该分布式集成学习使可编程逻辑控制器(PLC)107能使用多个处理单元110(1-X)中的一个以上的处理单元来对应用130进行缩放。分布式集成学习是监督式学习中的一系列算法，其中，多个弱学习器(WL)127(1-X)被个体地训练，并且随后这些弱学习器中的全部弱学习器都将被组合以产生预测。

软件指令120使用提升算法122来训练多个弱学习器(WL)127(1-X)。多个弱学习器(WL)127(1-X)是不捕捉整个数据分布137并且被有目的地设计用于以较低准确度140进行预测的机器学习模型(MOD)135(1-X)。整个数据分布137是示出数据的所有可能值(或区间)的函数或列表。它还(并且十分重要地)展示了每个值出现的频率。准确度是正确预测的数量除以预测的总数。弱学习器不需要具有很高的准确度。较低准确度140使它们是轻量级且快速的。

软件指令120使用多个弱学习器(WL)127(1-X)以基于神经网络(NN)150(1-X)的前馈计算144来为最终假设142投票。最终假设142是机器学习模型输出的最终预测。在一个实施例中，神经网络(NN)150(1-X)被用作多个弱学习器(WL)127(1-X)。前馈计算144是神经网络在预测阶段期间的矩阵计算(反向传播的反义词)。

NPU 110是被设计用于在PLC系统中使用的边缘设备。边缘设备是能够在本地执行优化的矩阵运算而不是依赖于诸如云计算的连接的硬件设备。图1包含NPU 110运作所需的最小组件。PLC 107包括控制器146，该控制器146处理来自传感器或相机的数据，并发送到NPU 110，以及随后汇总预测以用于最终假设142。电源148为所有组件提供电力。输入/输出(I/O)设备接口149(1-X)允许NPU 110经由Profinet协议与控制器146通信。而且诸如I/O模块的附加组件还能够被添加到系统105以收集传感器数据并发出控制信号。输入/输出(I/O)设备接口149(1-X)通过网络交换机151连接到PLC 107。RGB相机153能够连接到PLC 107用于图像检测。

例如，提升算法122能够应用于图像检测。单次检测器(SSD)能够用作弱学习器127，而使用至少两个超参数152(1-2)来有意地使模型125变弱。两个超参数152是可调整的，以实现机器学习模型125的不同性能或结果。两个超参数152包括宽度乘数152(1)和分辨率乘数152(2)，前者在每个层处细化神经网络系统105，后者降低输入图像分辨率。模型125的准确度和速度是用两个超参数152来调整的。准确度是正确预测的数量除以预测的总数。在图像检测中，它也能够是由检测到的对象的边界框的重叠度(IOU)测量的度量。速度是机器学习模型125的计算速度(即模型125产生最终预测的速度)。

作为多个弱学习器(WL)127(1-X)中的WL 127的模型(MOD)135(1-X)中的每个模型返回输出边界框155与它们相应的类别157的列表。边界框155捕捉图像上感兴趣的对象。提升算法122能够用于典型回归任务或分类任务。在分类任务中，机器学习模型125被用来识别对象的类别157。例如，被训练为识别图像上的狗和猫的图像检测模型将产生标记有相应的类别(狗和猫)的边界框。在回归任务中，机器学习模型125被用来预测连续样本变量。例如，被训练为发现人的图像检测模型将计算边界框的中心、宽度和高度，这些边界框都是连续变量(与离散类别相反)。

提升算法122保证在不增加偏差162的情况下减少方差160，从而使模型125更具通用性。提升算法122组合多个分布式神经网络模型(MOD)135(1-X)以在不达到资源限制的情况下创建更复杂的模型。例如，计算机或硬件设备的计算资源(诸如处理能力和存储器)是有限的。此资源限制能够对速度以及模型预测的准确度施加上限。

提升算法122组合所有输出以使模型125扩展Vapnik-Chervonenkis(VC)维度165，从而有效地覆盖训练数据的更大底层分布。Vapnik-Chervonenkis(VC)维度165是能够被机器学习模型125学习的功能空间的容量(复杂性、表达能力、丰富性或灵活性)的度量。利用提升算法122训练，多个弱学习器(WL)127(1-X)中的每个弱学习器专注于数据集的重采样子集。

为了将提升算法122应用于图像检测，要求有两个主要修改。它能够使用Mobilenet单次检测器(SSD)作为弱学习器。有能够用来有意地使模型变“弱”的两个超参数152(1-2)：宽度乘数152(1)和分辨率乘数152(2)，前者在每个层处细化神经网络，后者降低输入图像分辨率。基于下面的表1和表2，能够用这两个超参数152(1-2)容易地调整模型准确度和速度。

表1：MobileNet宽度乘数

宽度乘数	ImageNet准确度	百万倍增	百万参数
				1.0MobileNet-224	70.6％	569	4.2
0.75MobileNet-224	68.4％	325	2.6
				0.5MobileNet-224	63.7％	149	1.3
0.25MobileNet-224	50.6％	41	0.5

表2：MobileNet分辨率

分辨率	ImageNet准确度	百万倍增	百万参数
				1.0MobileNet-224	70.6％	569	4.2
1.0MobileNet-192	69.1％	418	4.2
				1.0MobileNet-160	67.2％	290	4.2
1.0MobileNet-128	64.4％	186	4.2

提升算法122能够训练弱学习器(WL)127(1-X)，如下面在提升神经网络的表3中描述的。然而，取决于应用，最终假设的投票(“输出”区段)将需要特别注意。

表3：提升算法(AdaBoost)

对于典型回归或分类任务，能够直接使用上文详述的提升算法122。对于图像检测任务，最终输出假设不能够是简单的加权和，因为弱学习器(WL)127(1-X)的每个模型135(1-X)(即SSD)返回边界框155与它们相应的类别157的列表。为了适当地组合弱学习器的结果，所有的输出边界框155和类别157应被一起分组成集合。该集合能够包含许多低置信度预测和副本。因而，很重要的是通过阈值170来丢弃低置信度预测，并且随后应用非极大值抑制来减少副本。

提升算法122能够保证在不增加偏差162的情况下减少方差160，使得模型125更具通用性。该优势解决了第一过拟合问题。另一优点是将模型125分布在多个处理单元110(1-X)中的便利性。由于每个弱学习器127能够彼此独立地执行计算，它们能够驻留在单独的NPU中。利用多个NPU 110(1-X)同时处理数据，其将解决与计算速度和存储器限制有关的两个问题。这种方法将提高NPU 110的可扩展性和灵活性，使其适用于更广泛的任务群。

参考图2，图2示出了根据本发明的示例性实施例的离线训练弱神经网络(NN)205(1-X)。第一步是使用提升算法122来依次训练多个弱神经网络(NN)205(1-X)。这些NN 205(1-X)将基于采样分布在样本数据的不同子集上进行训练。此分布将在每次训练NN 205时被更新。这个想法在于，某些数据点可能难以学习，并且因此经常作出错误预测。因而，提升算法122有目的地增加这些困难数据的权重，从而迫使后续NN仅专注于某些数据子集。

现转到图3，图3示出了根据本发明的示例性实施例的将神经网络(NN)205(1-X)加载到NPU 305(1-X)中。在图2中的训练之后，NN的图形和权重能够被保存到硬盘上的文件中。这些文件能够被各自传送到存储器卡中并被加载到神经处理单元(NPU)305(1-X)中。

图4示出了根据本发明的示例性实施例的用于预测的前馈。NPU能够独立地从输入数据405执行前馈计算以产生预测。当所有预测到达PLC CPU存储器时，投票启发(votingheuristic)将汇总这些个体的预测以生成最终预测410。在提升算法122中呈现了投票启发，但取决于它们的应用、性能和预测质量，用户能够设计他们自己的启发。

如图5所见，图5示出了根据本发明的示例性实施例的整体流水线505。流水线505通常包括三个阶段510(1-3)。在第一阶段510(1)中，用户将必须根据提升算法122用样本数据集来离线训练弱神经网络(NN)515(1-X)。迭代数和弱NN 515(1-X)取决于待分布在其上的神经处理单元(NPU)520(1-X)的数量。超参数152在该步骤中将被微调，以产生期望的预测结果。在弱NN 515(1-X)被充分训练之后，它们相应的图形结构和权重将在第二阶段510(2)中被载入到单独的NPU中。这些NPU 520(1-X)与弱NN 515(1-X)将能够在第三阶段510(3)中执行前馈运算，它们的输出能够被汇总以形成最终假设525。

如图6所示，图6示出了根据本发明的示例性实施例的用于图像检测任务的计算机实现的分布式神经网络提升方法600的流程图的示意图。参考了图1至图5中描述的元件和特征。应当理解，一些步骤不要求以任何特定的顺序执行，并且一些步骤是可选的。

由神经网络系统执行的方法600包括将提升算法122用于图像检测任务的步骤605。多个弱学习器(WL)127(1-X)的每个模型返回输出边界框155与它们相应的类别157的列表。方法600还包括将所有的输出边界框155和所有的类别157一起分组成集合，使得该集合包含许多低置信度预测和副本的步骤610。方法600还包括通过使用阈值170来丢弃许多低置信度预测的步骤615。方法600还包括应用非极大值抑制来减少副本的步骤620。

在图7中，图7示出了根据本发明的示例性实施例的由神经网络系统执行的计算机实现的分布式神经网络提升方法700的流程图的示意图。参考了图1至图5中描述的元件和特征。应当理解，一些步骤不要求以任何特定的顺序执行，并且一些步骤是可选的。

方法700包括：通过操作至少一个处理器，提供提升算法122的步骤705，该提升算法122将模型125分布在多个处理单元110(1-X)中，每个处理单元是能够彼此独立地执行计算同时处理数据的多个弱学习器(WL)127(1-X)中的弱学习器。方法700还包括：启用分布式集成学习的步骤710，该分布式集成学习使可编程逻辑控制器(PLC)能使用多个处理单元中的一个以上的处理单元来对应用进行缩放。方法700还包括：使用提升算法来训练多个弱学习器的步骤715。多个弱学习器是不捕捉整个数据分布并且被有目的地设计用于以较低准确度进行预测的机器学习模型。方法700还包括：使用多个弱学习器以基于神经网络的前馈计算来为最终假设投票的步骤720。

虽然这里描述了可编程逻辑控制器(PLC)，但本发明还考虑了一系列的一个或多个其他工业控制器或其他形式的工业控制器。例如，在不脱离本发明的主题的情况下，其他类型的工业控制器能够基于上面呈现的一个或多个特征来实现。

本文描述的技术对于用于预测的前馈计算能够是特别有用的。虽然特定实施例是相对前馈计算来描述的，但本文描述的技术不限于前馈计算，也能够与其他神经网络一起使用。

关于图8，图8示出了能够在其中实现本公开的实施例的计算环境800的实例。例如，该计算环境800能够被配置成为执行上面参考图1讨论的神经网络系统或者执行上面参考图7描述的方法700的部分。计算机和计算环境(诸如计算机系统810和计算环境800)对于本领域的技术人员来说是已知的，并且因此在此简要地进行描述。

如图8所示，计算机系统810能够包括诸如总线821的通信机制或用于在计算机系统810内通信信息的其他通信机制。计算机系统810还包括与总线821耦合以用于处理信息的一个或多个处理器820。处理器820能够包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)或本领域已知的任何其他处理器。

计算机系统810还包括耦合到总线821以用于存储信息和将由处理器820执行的指令的系统存储器830。系统存储器830能够包括易失性和/或非易失性存储器形式的计算机可读存储介质，诸如只读存储器(ROM)831和/或随机存取存储器(RAM)832。系统存储器RAM832能够包括其他(一个或多个)动态存储设备(例如，动态RAM、静态RAM和同步DRAM)。系统存储器ROM 831能够包括其他(一个或多个)静态存储设备(例如，可编程ROM、可擦除PROM和电可擦除PROM)。此外，系统存储器830能够用于在由处理器820执行指令期间存储临时变量或其他中间信息。基本输入/输出系统(BIOS)833包含诸如在启动时帮助在计算机系统810内的元件之间传送信息的基本例程，该基本例程能够被存储在ROM 831中。RAM 832能够包含数据和/或程序模块，这些数据和/或程序模块可供处理器820立即存取和/或目前正在操作。系统存储器830能够附加地包括，例如，操作系统1034、应用程序835、其他程序模块836和程序数据837。

计算机系统810还包括耦合到总线821以控制一个或多个存储设备的磁盘控制器840，该一个或多个存储设备用于存储信息和指令，诸如硬盘841和可移动介质驱动器842(例如，软盘驱动器、压缩盘驱动器、磁带驱动器和/或固态驱动器)。存储设备能够使用适当的设备接口(例如，小型计算机系统接口(SCSI)、集成设备电子器件(IDE)、通用串行总线(USB)或火线)来被添加到计算机系统810。

计算机系统810还能够包括耦合到总线821以控制显示器866的显示器控制器865，该显示器866用于向计算机用户显示信息，诸如阴极射线管(CRT)或液晶显示器(LCD)。计算机系统包括用于与计算机用户交互并向处理器820提供信息的输入接口860和一个或多个输入设备，诸如键盘862和指向性设备861。指向设备861例如能够是用于向处理器820通信方向信息和命令选择并且用于控制显示器866上的光标移动的鼠标、轨迹球或指点杆。显示器866能够提供触摸屏界面，该触摸屏界面允许输入来补充或取代由指点设备1061通信的方向信息和命令选择。

计算机系统810能够响应于处理器820执行被包含在诸如系统存储器830的存储器中的一个或多个指令的一个或多个序列来执行本发明的实施例的处理步骤的部分或全部。此类指令能够从另一计算机可读介质(诸如硬盘841或可移动介质驱动器842)被读入系统存储器830。硬盘841能够包含由本发明的实施例使用的一个或多个数据存储和数据文件。数据存储内容和数据文件能够被加密以提高安全性。处理器820还能够在多处理布置中采用以执行被包含在系统存储器830中的一个或多个指令序列。在替代实施例中，能够使用硬接线电路来代替软件指令或与之相组合。因此，实施例不限于硬件电路和软件的任何具体组合。

如上面说明的，计算机系统810能够包括用于保存根据本发明的实施例编程的指令并且用于包含数据结构、表、记录或本文描述的其他数据的至少一个计算机可读介质或存储器。如本文使用的术语“计算机可读介质”指参与提供指令给处理器820用于执行的任何介质。计算机可读介质能够采取许多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质的非限制性实例包括光盘、固态驱动器、磁盘和磁光盘，诸如硬盘841或可移动介质驱动器842。易失性介质的非限制性实例包括动态存储器，诸如系统存储器830。传输介质的非限制性实例包括同轴电缆、铜线和光纤，包括构成总线821的导线。传输介质还能够采取声波或光波的形式，诸如在无线电波和红外线数据通信期间生成的声波或光波。

计算环境800还能够包括在联网环境中使用到一个或多个远程计算机(诸如远程计算机880)的逻辑连接来操作的计算机系统810。远程计算机880能够是个人计算机(笔记本或台式)、移动设备、服务器、路由器、网络PC、对等设备或其他常见网络节点，并且典型地包括上面相对于计算机系统810描述的元件中的许多或全部。当在网络环境中使用时，计算机系统810能够包括用于在网络871(诸如因特网)上建立通信的调制解调器872。调制解调器872能够经由用户网络接口870或者经由另一适当的机制连接到总线821。

网络871能够是本领域中通常已知的任何网络或系统，包括因特网、内联网、局域网(LAN)、广域网(WAN)、城域网(MAN)、直接连接或一系列连接、蜂窝电话网络、或能够促进计算机系统810与其他计算机(例如远程计算机880)之间的通信的任何其他网络或介质。网络871能够是有线的、无限的或其组合。有线连接能够使用以太网、通用串行总线(USB)、RJ-11或本领域内通常已知的任何其他有线连接来实现。无线连接能够使用Wi-Fi、WiMAX和蓝牙、红外、蜂窝网络、卫星或本领域内通常已知的任何其他无线连接技术来实现。此外，几个网络能够独自工作或彼此通信以促进网络871中的通信。

在一些实施例中，计算机系统810能够结合包括多个处理单元的并行处理平台来利用。该平台能够允许并行执行与最佳设计生成相关联的任务中的一个或多个，如上所述。对于该实例，在一些实施例中，多个产品生命周期模拟的执行能够并行执行，从而允许减少用于最佳设计选择的整体处理时间。

本公开的实施例能够用硬件和软件的任何组合来实现。此外，本公开的实施例能够被包括在具有例如计算机可读的非暂时性介质的制造品(例如，一个或多个计算机程序产品)中。介质已经在其中体现了例如用于提供和促进本公开的实施例的机制的计算机可读程序代码。制造品能够作为计算机系统的一部分包括在内，也能够单独出售。

虽然本文已经公开了各个方面和实施例，但对于本领域的技术人员来说，其他方面和实施例将是显而易见的。本文公开的各个方面和实施例是出于说明的目的，而不旨在作为限制性的，真正的范围和主题是由以下权利要求来指示的。

如本文使用的可执行应用包括用于响应于用户命令或输入来调节处理器(诸如，操作系统、上下文数据采集系统或其他信息处理系统的处理器)以实现预定功能的代码或机器可读指令。可执行程式是一段代码或机器可读指令、子例程或其他不同的代码区段或用于执行一个或多个特定过程的可执行应用的部分。这些过程能够包括接收输入数据和/或参数，对接收到的输入数据执行操作和/或响应于接收到的输入参来数执行功能，以及提供得到的输出数据和/或参数。

如本文使用的图形用户界面(GUI)包括一个或多个显示图像，该一个或多个显示图像由显示处理器生成并启用与处理器或其他设备的用户交互和关联数据采集以及处理功能。GUI还包括可执行程式或可执行应用。该可执行程式或可执行应用调节显示处理器以生成表示GUI显示图像的信号。这些信号被供应到显示设备，该显示设备显示图像以供用户观看。处理器在可执行程式或可执行应用的控制下，响应于从输入设备接收的信号来操纵GUI显示图像。以这种方式，用户能够使用输入设备来与显示图像交互，从而启用与处理器或其他设备的用户交互。

本文中的功能和处理步骤能够自动地或者完全或部分地响应于用户命令来执行。自动执行的活动(包括步骤)是响应于一个或多个可执行指令或设备操作来执行的，而无需用户直接发起该活动。

图中的系统和过程不是排他的。能够根据本发明的原理导出其他的系统、过程和菜单，以实现相同的目标。尽管已经参考特定实施例描述了本发明，但将理解，本文示出和描述的实施例和变型仅出于说明的目的。在不脱离本发明的范围的情况下，对当前设计的修改能够由本领域技术人员来实现。如本文所述，各种系统、子系统、代理、管理器和过程能够使用硬件组件、软件组件和/或其组合来实现。

用于实施本公开的操作的计算机可读介质指令能够是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一个或多个编程语言的任何组合编写的源代码或目标代码，包括面向对象的编程语言，诸如Smalltalk、C++等，以及常规程式性编程语言，诸如“C”编程语言或类似编程语言。计算机可读程序指令能够完全地在用户的计算机上、部分地在用户的计算机上执行，作为单机软件包部分地在用户的计算机上、以及部分地在远程计算机上或完全地在远程计算机或服务器上执行。在后者场景中，远程计算机能够通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可能进行到外部计算机的连接(例如，通过使用因特网服务提供商的因特网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路能够通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令，以使电子电路个性化，从而执行本公开的各方面。

本文参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图图示和/或框图描述了本公开的各方面。将理解，流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合能够由计算机可读介质指令来实现。

应当理解，图8中被描绘为被存储在系统存储器中的程序模块、应用、计算机可执行指令、代码等仅仅是说明性的并且不是穷举的，并且被描述为由任何特定模块支持的处理能够替代地被分布在多个模块上或由不同的模块来执行。此外，能够提供各种程序模块、脚本、插件、应用编程接口(API)或任何其他合适的计算机可执行代码，它们本地托管在计算机系统810、远程设备上和/或托管在可经由(一个或多个)网络中的一个或多个访问的其他(一个或多个)计算设备上，以支持由图8中描绘的程序模块、应用或计算机可执行代码提供的功能性和/或附加或替代功能性。此外，功能性能够被不同地模块化，使得被描述为由图8中描绘的程序模块的集合集体支持的处理能够由更少或更多数量的模块来执行，或者被描述为由任何特定模块支持的功能性能够至少部分地由另一模块来支持。此外，支持本文描述的功能性的程序模块能够形成一个或多个应用的一部分，该一个或多个应用可在任何数量的系统或设备上根据任何合适的计算模型(诸如，例如客户端-服务器模型、对等模型等等)执行。此外，被描述为由图8中描绘的任何程序模块支持的任何功能性能够在任何数量的设备上至少部分地以硬件和/或固件实现。

应当进一步理解，在不脱离本公开的范围的情况下，计算机系统810能够包括超出所描述或描绘的那些的替代和/或附加的硬件、软件或固件组件。更特别地，应当理解，被描绘为形成计算机系统810的一部分的软件、固件或硬件组件仅仅是说明性的，并且一些组件可能不存在，或者能够在各种实施例中提供附加的组件。虽然各种说明性程序模块已经被描绘和描述为被存储在系统存储器中的软件模块，但应当理解，被描述为由程序模块支持的功能性能够由硬件、软件和/或固件的任何组合来启用。应当进一步理解，上面提到的模块中的每一个在各种实施例中能够表示所支持的功能性的逻辑分区。为了便于解释功能性，描绘了该逻辑分区，并且其不表示用于实现功能性的软件、硬件和/或固件的结构。因此，应当理解，被描述为由特定模块提供的功能性在各种实施例中能够至少部分地由一个或多个其他模块提供。此外，一个或多个所描绘的模块可能在某些实施例中不存在，而在其他实施例中，未描绘的附加模块可能存在并且能够支持所描述的功能性的至少一部分和/或附加功能性。此外，虽然某些模块能够被描绘和描述为另一模块的子模块，但在某些实施例中，此类模块能够作为独立的模块或作为其他模块的子模块提供。

尽管已经描述了本公开的具体实施例，但本领域普通技术人员将认识到，诸多其他修改和替代实施例都在本公开的范围内。例如，相对于特定设备或组件描述的任何功能性和/或处理能力能够由任何其他设备或组件来执行。此外，虽然已经根据本公开的实施例描述了各种说明性实现方式和架构，但本领域普通技术人员将理解，对本文描述的实现方式和架构的诸多其他修改也在本公开的范围内。此外，应当理解，本文中被描述为基于另一操作、元件、组件、数据等的任何操作、元件、组件、数据等能够附加地基于一个或多个其他操作、元件、组件、数据等。因此，短语“基于”或其变型应被解释为“至少部分地基于”。

尽管已经用特定于结构特征或方法动作的语言描述了实施例，但是将理解，本公开不一定限于所描述的具体特征或动作。而是，具体特征和动作被公开为实现实施例的说明性形式。条件语言，诸如“能够”、“可”、“也许”或“可能”以及其他，除非另有具体说明，或者在所使用的上下文中另有理解，否则通常旨在传达某些实施例能够包括某些特征、元件和/或步骤，而其他实施例不包括。因此，此条件语言通常不旨在意指一个或多个实施例以任何方式要求的特征、元件和/或步骤，或者一个或多个实施例必须包括用于在有或没有用户输入或提示的情况下决定这些特征、元件和/或步骤是否被包括在任何特定实施例中或将被执行的逻辑。

图中的流程图和框图示出了根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能性和操作。在这点上，流程图或框图中的每个框能够表示指令的模块、片段或部分，其包括用于实现(一个或多个)指定逻辑功能的一个或多个可执行指令。在一些替代实现方式中，框中指出的功能能够不按图中指出的顺序出现。例如，连续示出的两个框实际上能够基本上同时执行，或者框有时能够以相反的顺序执行，这取决于所涉及的功能性。还将注意到，框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合能够由基于专用硬件的系统来实现，该系统执行指定的功能或动作，或实施专用硬件和计算机指令的组合。

虽然本公开的实施例已经以示例性形式公开，但对于本领域的技术人员将显而易见的是，能够在不脱离本发明及其等同物的主题和范围的情况下对其进行许多修改、添加和删除，如以下权利要求中所阐述的。

参考在附图中图示并在以下描述中详述的非限制性实施例更充分地解释了实施例及其各种特征和有利细节。省略了对众所周知的起始材料、处理技术、组件和装备的描述，以免不必要地在细节上模糊实施例。然而，应当理解，详细描述和具体实例虽然指示优选实施例，但只是通过说明的方式并且不是通过限制的方式给出的。在基本发明概念的主题和/或范围内的各种替换、修改、添加和/或重新布置对于本领域的技术人员来说将从本公开中变得显而易见。

如本文使用的，术语“包括(comprises)”、“包括(comprising)”、“包含(includes)”、“包含(including)”、“具有(has)”、“具有(having)”或其任何其他变型旨在覆盖非排他性的包括。例如，包含元素的列表的过程、物品或装置不一定仅限于这些元素，但能够包括未明确列出或未固有于此过程、物品或装置的其他元素。

此外，本文给出的任何实例或图示都不以任何方式被视为对与它们一起被利用的任何一个术语或多个术语的约束、限制或明确定义。反而，这些实例或图示应被视为是相对于一个特定实施例描述的，并且仅作为说明性的。本领域普通技术人员将理解，与这些实例或图示一起被利用的任何一个术语或多个术语将涵盖可能或可能没有在说明书中或其他地方给出的其他实施例，并且所有此类实施例都旨在被包括在该一个术语或多个术语的范围内。

在前述说明书中，已经参考具体实施例描述了本发明。然而，本领域普通技术人员理解，在不脱离本发明的范围的情况下，能够进行各种修改和改变。因此，说明书和图将被视为说明性的，而不是约束意义的，并且所有此类修改都旨在被包括在本发明的范围内。

尽管已经相对于本发明的具体实施例描述了本发明，但这些实施例仅仅是说明性的，并且不是对本发明的约束。本文中对本发明的所图示的实施例的描述不旨在是穷举的，也不旨在将本发明限制于本文公开的精确形式(并且特别地，包括任何特定实施例、特征或功能并不旨在将本发明的范围限制于此类实施例、特征或功能)。而是，该描述旨在描述说明性实施例、特征和功能，以给本领域普通技术人员提供上下文来理解本发明，而不将本发明限制于任何特定地描述的实施例、特征或功能。虽然仅出于说明的目的在本文中描述了本发明的具体实施例和实例，但在本发明的主题和范围内，各种等价修改是可能的，如相关领域技术人员将认识和理解的。如所指示的，这些修改能够鉴于本发明的所图示的实施例的前述描述来对本发明进行修改，并且这些修改将被包括在本发明的主题和范围内。因此，虽然在本文中已经参考本发明的特定实施例描述了本发明，但在前述公开中，修改、各种改变和替换的自由是预期的，并且将理解，在一些情况下，在不脱离如所阐述的本发明的范围和主题的情况下，将采用本发明的实施例的一些特征，而不对应地使用其他特征。因而能够进行许多修改以使特定的情况或材料适应本发明的基本范围和主题。

短语“在一个实施例中”、“在实施例中”或“在具体实施例中”或在贯穿本说明书的不同地方的类似术语的相应出现并不一定指同一实施例。此外，任何特定实施例的特定特征、结构或特性能够以任何合适的方式与一个或多个其他实施例相组合。将理解，鉴于本文的教导，本文描述和说明的实施例的其他变型和修改是可能的，并且应被视为本发明的主题和范围的一部分。

在本文的描述中，提供了诸多具体细节，诸如组件和/或方法的实例，以提供对本发明的实施例的透彻理解。然而，相关领域技术人员将认识到，实施例可能能够在没有一个或多个具体细节的情况下实践，或者用其他装置、系统、装配件、方法、组件、材料、部件等实现。在其他情况下，众所周知的结构、组件、系统、材料或操作没有具体示出或详细描述，以避免模糊本发明的实施例的各方面。虽然本发明能够通过使用特定实施例来说明，但这不是限制并且不将本发明限制于任何特定实施例，并且本领域普通技术人员将认识到，附加实施例是容易理解的并且是本发明的一部分。

还将理解，附图/图中描绘的元件中的一个或多个元件也能够以更加单独或集成的方式实现，或者甚至在某些情况下被移除或变得不可操作，这根据特定应用是有用的。

上面已经关于具体实施例描述了优势、其他优点和问题的解决方案。然而，优势、优点、问题的解决方案以及可能引起任何优势、优点或解决方案发生或变得更明显的任何(一个或多个)组件都不应被解释为关键的、要求的或至关重要的特征或组件。

Claims

1.一种分布式神经网络提升的计算机实现的方法，所述方法由神经网络系统执行并且包括：

通过操作至少一个处理器：

提供提升算法，所述提升算法将模型分布在多个处理单元中，每个处理单元是能够彼此独立地执行计算同时处理数据的多个弱学习器中的弱学习器；

启用分布式集成学习，所述分布式集成学习使可编程逻辑控制器(PLC)能使用所述多个处理单元中的一个以上的处理单元来对应用进行缩放；

使用所述提升算法来训练所述多个弱学习器，其中，所述多个弱学习器是不捕捉整个数据分布并且被有目的地设计用于以较低准确度进行预测的机器学习模型；以及

使用所述多个弱学习器以基于神经网络的前馈计算来为最终假设投票。

2.根据权利要求1所述的方法，还包括：

将神经网络用作所述多个弱学习器。

3.根据权利要求1所述的方法，还包括：

将所述提升算法应用于图像检测；以及

将单次检测器(SSD)用作弱学习器，同时使用至少两个超参数来有意地使所述模型变弱。

4.根据权利要求3所述的方法，其中，所述至少两个超参数包括在每个层处细化所述神经网络系统的宽度乘数和降低输入图像分辨率的分辨率乘数。

5.根据权利要求4所述的方法，其中，利用所述至少两个超参数来调整所述模型的准确度和速度。

6.根据权利要求5所述的方法，其中，所述多个弱学习器的每个模型返回输出边界框和模型的相应的类别的列表。

7.根据权利要求1所述的方法，还包括：

将所述提升算法直接用于典型回归任务或分类任务。

8.根据权利要求1所述的方法，还包括：

将所述提升算法用于图像检测任务，其中，所述多个弱学习器的每个模型返回输出边界框和模型的相应的类别的列表；

将所有的所述输出边界框和所有的所述类别一起分组到集合中，使得所述集合包含许多低置信度预测和副本；

通过使用阈值来丢弃所述许多低置信度预测；以及

应用非极大值抑制来减少所述副本。

9.根据权利要求1所述的方法，其中，所述提升算法保证在不增加偏差的情况下减少方差，从而使所述模型更具通用性。

10.根据权利要求1所述的方法，其中，所述提升算法组合多个分布式神经网络模型以在不达到资源限制的情况下创建更复杂的模型。

11.根据权利要求1所述的方法，还包括：

组合所有输出以允许所述模型扩展Vapnik-Chervonenkis(VC)维度，从而有效地覆盖训练数据的更大底层分布。

12.根据权利要求1所述的方法，还包括：

利用所述提升算法训练，所述多个弱学习器中的每个弱学习器专注于数据集的重采样子集。

13.一种用于分布式神经网络提升的神经网络系统，所述系统包括：

处理器；以及

可存取的存储器，所述存储器存储包括软件指令的神经程序，在由所述处理器执行所述软件指令时，所述软件指令被配置用于：

14.根据权利要求13所述的神经网络系统，还包括：

将神经网络用作所述多个弱学习器。

15.根据权利要求13所述的神经网络系统，还包括：

将所述提升算法应用于图像检测；以及

16.根据权利要求15所述的神经网络系统，其中，所述至少两个超参数包括在每个层处细化所述神经网络系统的宽度乘数和降低输入图像分辨率的分辨率乘数。

17.根据权利要求16所述的神经网络系统，其中，利用所述至少两个超参数来调整所述模型的准确度和速度。

18.根据权利要求15所述的神经网络系统，其中，所述多个弱学习器的每个模型返回输出边界框和模型的相应的类别的列表。

19.一种编码有能够由至少一个处理器执行以操作一个或多个神经网络系统的指令的非暂时性计算机可读存储介质，所述指令包括：

20.根据权利要求19所述的计算机可读介质，其中，所述多个弱学习器是神经网络。