CN118297127A

CN118297127A - 用于特定领域神经网络修剪的系统和方法

Info

Publication number: CN118297127A
Application number: CN202410407637.6A
Authority: CN
Inventors: 刘嘉超; 严恩勖
Original assignee: Moxin International Co ltd
Current assignee: Moxin International Co ltd
Priority date: 2020-12-17
Filing date: 2021-12-17
Publication date: 2024-07-05
Also published as: TW202303459A; WO2022127907A1; TWI778893B; CN116438544B; US20220198272A1; TW202226072A; TWI805476B; CN116438544A; US11068786B1; US11379724B1

Abstract

描述了包括用于特定领域修剪神经网络的、在计算机存储介质上编码的计算机程序的方法、系统和装置。示例性方法包括获得基于第一训练数据集训练的第一神经网络；分别从一个或多个领域获得一个或多个第二训练数据集；基于该第一神经网络及该一个或多个第二训练数据集训练第二神经网络，该第二神经网络包括该第一神经网络及从该第一神经网络扩展的一个或多个分支。该一个或多个分支分别对应于该一个或多个领域，且每个分支包括基于一个或多个第二训练集的一个训练的一个或多个层。该方法可进一步包括：通过减少活动神经元的数量来修剪该第二神经网络；以及将经修剪的第二神经网络应用于一个或多个领域中进行推断。

Description

用于特定领域神经网络修剪的系统和方法

技术领域

本发明大体上涉及用于神经网络修剪的系统和方法，并且尤其涉及用于特定领域神经网络修剪的系统和方法。

背景技术

机器学习(ML)在数据密集型应用中已经非常流行，但当数据集很小时，机器学习常常受到阻碍。当积累足够训练数据来训练用于新应用领域的ML模型不切实际或难以达成时，现有的解决方案可基于从一个或多个先前应用领域收集的训练数据来训练一ML模型，且将此ML模型应用于新领域，希望其表现良好。然而，在各应用领域之间的小的差异，可导致所训练的ML模型的灾难性输出。例如，使用室内图像训练的ML模型不能很好地检测室外图像中的对象(例如，由于光照差异)，并且使用来自一个位置/时间的数据训练的ML模型对其它位置/时间不能良好地执行。此外，当将类似于从先前领域的神经网络的ML模型应用于新领域时，新领域中的计算能力及存储资源可能非常有限，并且可能无法承载大规模且需要昂贵计算操作的全规模神经网络。为解决上述的这些问题，本申请描述了一种新方法，用有限的训练数据集训练特定领域的ML模型，并修剪这些模型以减少所需的计算量及规模。

发明内容

本说明书的各种实施例包括但不仅限于用于特定领域神经网络修剪的系统、方法及非暂时性计算机可读介质。

根据一些实施例，用于特定领域修剪的计算机实现的方法可包括：获得基于第一训练数据集训练的第一神经网络；分别从一个或多个领域获得一个或多个第二训练数据集；基于该第一神经网络及该一个或多个第二训练数据集训练第二神经网络，该第二神经网络包括该第一神经网络及从该第一神经网络扩展的一个或多个分支。该一个或多个分支分别对应于该一个或多个领域，且每个分支包括基于一个或多个第二训练集的一个训练的一个或多个层。该方法可进一步包括：通过减少活动神经元的数量来修剪该第二神经网络；以及将经修剪的第二神经网络应用于一个或多个领域中进行推断。

在一些实施例中，训练该第二神经网络包括：基于该第一神经网络及该一个或多个第二训练数据集训练第二神经网络，直到目标函数收敛；以及修剪该第二神经网络包括：修剪该第二神经网络直到达到稀疏比。

在一些实施例中，该方法进一步包括：提高该稀疏比；以及基于该一个或多个第二训练数据集进一步训练经修剪的第二神经网络，直到该目标函数收敛；以及进一步修剪经进一步训练的第二神经网络，以达到提高的稀疏比，直到满足退出条件。

在一些实施例中，该退出条件包括以下至少一项：多个迭代运算，以及该稀疏比已达到目标稀疏比。

在一些实施例中，该一个或多个第二训练数据集中的每个包括从对应领域收集的多个受监督的数据记录。

在一些实施例中，该方法进一步包括：将该第一神经网络应用于与该一个或多个领域不同的领域中的对象检测。

在一些实施例中，将该第二神经网络应用于该一个或多个领域的对象检测包括：接收包括领域标识符的对象检测请求；基于该领域标识符确定该第二神经网络中的一个；以及基于该一个第二神经网络执行对象检测。

在一些实施例中，该一个或多个第二训练数据集包括由代表一个或多个领域的一个或多个摄像机收集的图像，且这些图像的每个包括摄像机标识符和至少一个标签。

在一些实施例中，包括该第一神经网络及一个或多个分支的该第二神经网络的训练包括：对于该一个或多个第二训练数据集的每个，通过创建具有基于该第二训练数据集训练的一个或多个层的分支来扩展该第一神经网络。

在一些实施例中，该方法进一步包括：在训练该第二神经网络之前修剪该第一神经网络；其中，训练该第二神经网络包括：基于经修剪的第一神经网络和该一个或多个第二训练数据集训练该第二神经网络。

根据其它实施例，一种用于特定领域修剪的系统包括一个或多个处理器及一个或多个计算机可读存储器，该一个或多个计算机可读存储器耦合至该一个或多个处理器，且在该一个或多个计算机可读存储器上存储有指令，该指令可由该一个或多个处理器执行以执行操作，该操作包括：获得基于第一训练数据集训练的第一神经网络：分别从一个或多个领域获得一个或多个第二训练数据集：基于该第一神经网络及该一个或多个第二训练数据集训练第二神经网络，该第二神经网络包括该第一神经网络及从该第一神经网络扩展的一个或多个分支。该一个或多个分支分别对应于该一个或多个领域，且每个分支包括基于该一个或多个第二训练数据集的一个训练的一个或多个层。该方法可进一步包括：通过减少活动神经元的数量来修剪该第二神经网络；以及将该修剪的第二神经网络应用于该一个或多个领域中进行推断。

根据又一实施例，用于特定领域修剪的非暂时性计算机可读存储介质配置为具有能够由一个或多个处理器执行的指令，用以使该一个或多个处理器执行操作，该操作包括：获得基于第一训练数据集训练的第一神经网络；分别从一个或多个领域获得一个或多个第二训练数据集；基于该第一神经网络及该一个或多个第二训练数据集训练第二神经网络，该第二神经网络包括该第一神经网络及从该第一神经网络扩展的一个或多个分支。该一个或多个分支分别对应于该一个或多个领域，并且每个分支包括基于该一个或多个第二训练数据集的一个训练的一个或多个层。该方法可进一步包括：通过减少活动神经元的数量来修剪该第二神经网络；以及将经修剪的第二神经网络应用于该一个或多个领域中进行推断。

本文揭示的实施例具有一个或多个技术效果。在一些实施例中，可获得“主干”神经网络(NN)作为用于训练特定领域神经网络的基础。“主干”神经网络可基于诸如可用标准数据集等先前或现有知识训练。“主干”神经网络可在标准场景中表现良好，但在与标准场景不同的领域中表现不佳，标准数据集是从标准场景收集的。本文描述的一些实施例通过添加一个或多个基于从特定领域收集的小数据集训练的特定领域“分支”来扩展“主干”神经网络。该经扩展的神经网络可包括“主干”神经网络及分别对应于这些特定领域的多个“分支”。由于该“主干”神经网络可离线准备或训练，且训练这些特定领域层只需要来自各特定领域的少量训练数据(收集及标记的工作量较小)，因此该经扩展的神经网络的训练成本较低。由于该经扩展的神经网络具有专门为各领域训练的“分支”，因此输出(例如预测、分类、检测)的准确性很高。此结构比为各特定领域构建一个特定模型更有效，因为维护(例如，更新、故障排除、部署)一个适应模型比维护数百或数千个特定领域模型要简单得多。在一些实施例中，进一步修剪该经扩展的神经网络以减小该规模，且由此减少了用于推断的计算成本。该修剪不是在领域适应过程(例如，训练特定领域分支)之后在该“主干”神经网络上执行的简单添加步骤，而是可与该领域适应过程结合作为用于特定领域修剪的迭代过程的操作。该迭代过程可允许该生成的神经网络满足目标稀疏比要求以及所期望的精度要求。由于该修剪及领域适应，经训练的神经网络不仅可在具有有限训练数据集的各领域中准确地执行，而且由于其规模小和计算成本低，可容易地部署在现场。

本文揭示的系统、方法及非暂时性计算机可读介质的这些及其它特征，以及相关结构元件的操作方法和功能及零件的该组合及制造经济性，在参考附图并考虑以下描述和权利要求后，将变得更加清楚，所有附图形成本说明书的一部分，其中相同附图标记指示各图中对应的部分。然而，应明确了解，附图仅用于说明及描述的目的，而并非意在限制。

附图说明

图1示出了根据一些实施例的与具有修剪的特定领域神经网络(NN)相关联的示例性环境。

图2示出了根据一些实施例的特定领域神经网络的示例图。

图3示出了根据一些实施例的特定领域神经网络的训练过程及推断过程的示例图。

图4示出了根据一些实施例的训练及修剪特定领域神经网络的示例性流程图。

图5示出了根据一些实施例的用于训练及修剪特定领域神经网络的示例性方法。

图6示出了可在其中实施本文的任何实施例的计算机系统的框图。

具体实施方式

现将参考附图描述本发明的特定、非限制性实施例。应了解，本文揭示的任何实施例的具体特征及方面可与本文揭示的任何其它实施例的具体特征及方面一起使用和/或组合。也应理解的是，这些实施例是作为示例的，且仅是本发明范畴内的少量实施例的说明。对于本发明所属领域的普通技术人员而言明显的各种改变及修改被认为在所附权利要求中进一步限定的本发明的精神、范畴及思考的范围内。

由于各种原因，现有的深度学习模型大体上在特定领域表现不佳。原因之一是，模型是基于未从特定领域收集的训练数据集进行训练的，或训练数据集没有从特定领域收集足够的数据样本。因此，使用室内图像训练的神经网络不能很好地检测室外图像中的对象，且使用一个空间/时间领域中的数据所训练的神经网络不能在另一空间/时间领域中表现良好。由于至少三个原因，该问题在实践中很难解决。首先，需要从特定领域收集大量训练数据，这通常是不切实际的。例如，由新安装的摄像机监控的新创建领域可能没有足够历史数据以专门针对该新创建领域训练模型。第二，对于受监督的学习，需要正确标记所收集的训练数据。标记大量数据既昂贵又低效。第三，基于在线数据更新模型可能需要付出巨大努力。在诸多用例中，在线数据的产生率不足以支持模型的在线训练和更新。

现有深度学习模型的另一问题是，这些模型通常规模庞大，且需要昂贵的计算资源用于训练及推断。在一些实施例中，这些模型的“重量级”性质使得它们在部署到特定领域时效率低下或不切实际。例如，这些模型需要驻留在功能强大的服务器(例如，云端服务器或数据中心)上，而非部署在要放置在特定领域中的边缘设备上。此意味着在这些领域中收集的数据需要传输至服务器，以执行昂贵的推断计算。在某些情况下，需要将推断结果传输回边缘设备以向使用者展示。数据传输成本可对各种应用至关重要。因此，更期望具有“轻量级”模型，该模型不仅规模小(意味着更少存储痕迹及更便宜的计算成本)，而且可在特定领域产生准确结果(预测、分类等)。

为解决以上问题，在本申请中通过各种实施例描述了一种有效的特定领域神经网络训练、修剪及推断管线。在一些实施例中，该管线涉及多个步骤，包括基于一般领域数据集训练主干神经网络的第一步骤，及基于特定领域数据集微调及修剪该主干神经网络的第二步骤。在一些实施例中，以上描述的第二步骤被设计为迭代过程，以实现最佳稀疏性及精度。

图1示出了根据一些实施例的与经历修剪的特定领域神经网络(NN)相关联的示例性环境。该环境可包括计算系统120、被馈送到计算系统120的各种输入132及134，以及由计算系统120基于各种输入130产生的对应输出140。计算系统120可在一个或多个网络(例如，企业网络)、一个或多个端点、一个或多个服务器(例如，服务器)或一个或多个云端中实施。服务器可包括对网络中的集中式资源或服务的存取进行管理的硬件或软件。云端可包括分布在网络上的服务器群及其它设备群。计算系统120也可在诸如移动电话、平板计算机、服务器、桌面计算机、膝上型计算机等各种设备上实施或作为诸如移动电话、平板计算机、服务器、桌面计算机、膝上型计算机等各种设备实施。在一些实施例中，计算系统120可实施为具有图1所示的示例性组件的单一设备。在其它实施例中，图1所示的计算系统120的示例性组件可在单独设备上实施或作为单独设备实施。在示例性组件及输入/输出之间的通信通道(诸如111)可通过有线连接、互联网、通过局域网络(例如LAN)或通过直接通信(例如蓝牙、射频、红外线)。

在一些实施例中，计算系统120可包括第一神经网络(NN)获取组件110、后端处理组件122，后端处理组件122可进一步包括第二神经网络训练组件124及神经网络修剪组件126。要馈入计算系统120或由计算系统120捕获的训练数据集132及134可包括各种类型的数据，包括图像、点云、深度图像、三维扫描、语音信号、视频等。在一些实施例中，标准训练数据集132可指代从标准领域收集的先前知识或现有数据，且可被馈入第一神经网络获取组件110以训练神经网络。在一些实施例中，特定领域训练数据集134可指代从特定领域收集的训练样本，其可与或不与标准训练数据集132重叠。在一些实施例中，分别收集标准训练数据集132及特定领域训练数据集134。例如，标准训练数据集132可从已产生大量训练样本(例如，历史数据)的多个现有领域收集，而特定领域训练数据集134可从仅具有少量训练样本的特定领域收集。特定领域可为小的地理区域，或特定空间/时间单元，或监视特定领域的摄像机。在一些实施例中，标准训练数据集132可或不可被标记或部分标记，但特定领域训练数据集134可被正确标记。由于特定领域训练数据集134中的数据量通常较小，因此相关联的标记成本较低。

在一些实施例中，第一神经网络获取组件110可配置成获得基于标准训练数据集132训练的第一神经网络，该第一神经网络称为“主干”神经网络。第一神经网络可由第一神经网络获取组件110训练，或可由执行训练的不同计算设备获得。在一些实施例中，训练第一神经网络可离线进行。由于第一神经网络是基于标准训练数据集132训练的，因此第一神经网络可在标准领域中表现良好，标准训练数据集132是从标准领域中收集的。然而，如以上所解释，由于缺乏适当训练数据，第一神经网络可能在特定领域中表现不佳。

在一些实施例中，后端处理组件122可配置成基于特定领域训练数据集134微调及修剪第一神经网络。可分别从一个或多个特定领域收集特定领域训练数据集134。在一些实施例中，后端处理组件122中的第二神经网络训练组件124可配置成基于第一神经网络和特定领域训练数据集134训练第二神经网络，第二神经网络可适用于一个或多个领域。在一些实施例中，第二神经网络可包括作为基础的第一神经网络以及对应于一个或多个领域的一个或多个特定领域“分支”。第一神经网络及各“分支”可形成可应用于对应领域的特定领域模型。在此，各“分支”可包括从第一神经网络扩展的一个或多个神经网络层，并且基于从对应领域收集的第二训练数据集训练与分支中的一个或多个神经网络层相关联的参数。在一些实施例中，训练第二神经网络可包括：对于一个或多个第二训练数据集中的每个，通过创建具有基于第二训练数据集训练的一个或多个层的分支来扩展第一神经网络。

在一些实施例中，后端处理组件122中的神经网络修剪组件126可配置成至少减少第一神经网络中的活动神经元的数量。在一些实施例中，第二神经网络内的第一神经网络基于大量数据被训练且包括大量神经元，而从第一神经网络扩展的各分支基于少量数据被训练，且因此包括少量神经元。为此原因，减小第二神经网络的规模的有效方法可为修剪其中的第一神经网络。在一些实施例中，修剪过程也可使分支中的神经元稀疏。在一些实施例中，第二神经网络的修剪及训练可作为一迭代过程执行。例如，迭代过程包括：基于第一神经网络以及一个或多个第二训练数据集训练第二神经网络，直到一目标函数收敛；修剪第一神经网络直到达到一稀疏比；提高该稀疏比，直到满足退出条件；并且若不满足该退出条件，则基于经修剪的第一神经网络及一个或多个第二训练数据集重新训练第二神经网络，且接着修剪第一神经网络以实现提高的稀疏比。又例如，迭代过程包括：修剪第一神经网络直到达到一稀疏比；基于经修剪的第一神经网络及一个或多个第二训练数据集训练第二神经网络，直到目标函数收敛；提高稀疏比，直到满足退出条件；并且若不满足该退出条件，则进一步修剪第一神经网络以达到提高的稀疏比，并且接着基于进一步经修剪的第一神经网络重新训练第二神经网络。在一些实施例中，退出条件包括以下至少一项：多个迭代运算以及稀疏比已经达到目标稀疏。

在一些实施例中，由计算系统120产生的输出140可包括经修剪的特定领域神经网络，该神经网络是轻量级的，且可在特定领域中表现良好。神经网络的具体应用不限于此应用，其可包括对象检测或识别、对象计数、分类、预测、推荐(例如，在推荐系统中)、分段、语音识别、各种信号处理或任何其它适合的应用。

图2示出了根据一些实施例的特定领域神经网络的示例图。图2中的视图展示主干神经网络210和多个检测器220，主干神经网络210是基于标准数据集训练的(参考图1中的第一神经网络)，检测器220是基于主干神经网络210和从特定领域收集的数据集训练的。主干神经网络210及检测器220的结构是说明性的，且取决于实施方案，可具有不同结构。

在一些实施例中，主干神经网络210可基于从一般领域收集的标准训练数据进行训练。经训练的主干神经网络210可在这些一般领域中表现良好。然而，其适应新领域的能力可能是值得怀疑的。在图2中，训练说明性主干神经网络210以检测图像中的对象。训练数据可包括ImageNet数据集和/或CoCo数据集。在一些实施例中，这些标准训练数据集的规模通常较大，且因此可不需要标记这些标准训练数据集。主干神经网络210可通过有监督学习、无监督学习、半监督学习或其它适合的学习方法(例如，通过生成式对抗网络(GAN)产生新标记的训练数据集或转换训练数据集)来训练。

在一些实施例中，主干神经网络210可用作训练针对特定领域的检测器220的基础。在此，领域可指代地理位置、空间和/或时间单位或其它合适的形式。作为简单实例，领域可由监视空间单元(例如，商店中的走道、公园)的监督摄像机表示。与一般领域相比，要在特定领域内检测的对象的分类或类型通常是有限的。因此，具有适当标记的少量训练样本可提供大量信息，以将主干神经网络210微调到用于特定领域的检测器220中。图2中所示出的特定领域包括街道场景、室内场景及运动场景。基于从这些特定领域收集的小数据集，主干神经网络210可通过创建分别对应于特定领域的“分支”来扩展。如图2所示，为三个不同领域创建三个“分支”。在此，分支包括从主干神经网络210扩展的一个或多个层。这些一个或多个层基于从对应于该分支的领域收集的小数据集进行训练。

在一些实施例中，从主干神经网络210扩展的“分支”可不从主干神经网络210的最后一层(例如，输出层)扩展。通常，神经网络的最后一层是指代负责计算并将信息(预测/分类)从网络传输至使用者的输出层。因此，对于各“分支”，分支中的一个或多个层可包括对应于特定领域的新输出层。在一些实施例中，一个或多个层也可包括一个或多个新隐藏层，以处理特征并将经处理的特征输入到新输出层。如图2所示，主干神经网络210含有四层，且检测器220共享主干神经网络210的前三层，并且各检测器220含有作为从主干神经网络210扩展的新第四层的分支。

图3示出了根据一些实施例的特定领域神经网络的训练过程320及推断过程340的示例图。训练过程320指代训练分别对应于特定领域的以上描述的“分支”。假设主干神经网络已基于标准训练数据集进行训练。

如图3示出的训练过程320所示，在一些实施例中，来自各特定领域的输入数据包括图像、图像的标签及领域标识符。领域标识符是特定领域的唯一标识。例如，若监视领域的监督摄像机用于表示领域，则摄像机的标识符可用作领域标识符。摄像机的标识符可包括其IP地址、MAC地址、序列号或其它合适的标识符。

在一些实施例中，对于特定领域，从主干神经网络扩展的经新训练的“分支”(例如，新经训练的输出层)可称为检测器324及326，而主干神经网络的原始输出层保留为一般检测器322。特定领域检测器324及326可部署在对应领域中用于对象检测。一般检测器322可部署在标准领域或不是用于对象检测的特定领域的领域中。即，对于给定领域，若没有对应于给定领域的一个分支，则一般检测器322可用作默认检测器以检测给定领域中的对象。

在一些实施例中，推断过程340可开始于接收从特定领域收集的输入数据。如图3所示，经接收的输入数据可包括图像及从其收集图像的领域的领域标识符。在推断过程340期间，领域标识符可用于确定需要启动哪个检测器(即，哪个分支)。然后，将图像馈送到检测器(包括来自主干神经网络的一些层以及在分支中的一个或多个层)以用于对象检测。

图4示出了根据一些实施例的训练及修剪特定领域神经网络的示例性流程图。流程图用于说明目的，且取决于实施方案，流程图可包括更少步骤、更多步骤、替代步骤或不同顺序的步骤。流程图中的步骤中执行的操作可替换为其它合适操作，以实现类似效果。

在一些实施例中，步骤410包括获得训练数据及目标函数。训练数据可指代从一般领域收集的标准训练数据集。目标函数可指代性能测量，该测量指示待训练神经网络需要满足的性能目标。

在一些实施例中，步骤420包括基于来自步骤410的训练数据及目标函数训练深度神经网络(DNN)。该DNN可指代以上描述中的“主干”神经网络。在一些实施例中，步骤410及420可由“获得DNN”的步骤代替，因为训练DNN可离线执行，且可由其它计算设备/系统或其它实体执行。

在一些实施例中，步骤430包括获得特定领域训练数据集。每个特定领域训练数据集可包括从对应领域收集的多个受监督的数据记录。在此，“受监督的数据记录”可指代具有诸如领域标识符等适当标签及额外信息的数据样本，其可用于训练及识别特定领域检测器。

如图4所示，在骤430之后的流程图具有两个不同路径440及460，这两个路径表示用于训练及修剪特定领域DNN的两个不同实施例。

路径440中所示出的实施例可包括以下步骤：修剪第一神经网络直到达到一稀疏比；基于经修剪的第一神经网络及一个或多个第二训练数据集训练第二神经网络，直到目标函数收敛；提高稀疏比；以及基于一个或多个第二训练数据集进一步训练经修剪的第二神经网络，直到目标函数收敛；以及进一步修剪该进一步经训练的第二神经网络以达到提高的稀疏比，直到满足退出条件。

例如，可在步骤442处修剪DNN。修剪DNN是为了阻碍启动在DNN中的神经元，使得在推断期间，当在不同输入数据上运行时，相当一部分(不同)神经元不会被启动。即，在修剪之后，各输入数据启动DNN中的小部分神经元，藉此减少推断期间所需的运算数量和由DNN为各输入数据生成的向量表示(嵌入)所需的存储空间。

在一些实施例中，修剪DNN可具有目标稀疏比作为要达到的最终目标。然而，步骤442中的修剪不必一次达到目标稀疏比。这是因为以牺牲推断准确性为代价的修剪过程降低DNN的计算成本及规模。为在这两个冲突利益之间达到优化的平衡，在步骤442中修剪DNN及步骤444及446中涉及的训练过程可构造为一迭代过程。即，在步骤442中修剪DNN可逐渐提高DNN的稀疏性，且相应地逐渐降低DNN的推断精度，而444及446中的训练步骤可通过例如调整DNN中的参数，和/或基于特定领域训练数据添加新层且调整新层中的参数，来逐渐恢复失去的推断精度。当满足退出条件时，可终止该迭代过程。在一些实施例中，退出条件包括以下至少一项：多个迭代运算以及稀疏比已达到目标稀疏。

在一些实施例中，步骤444及446涉及基于在步骤420中获得的DNN训练第二DNN。为简单起见，在步骤420中获得的DNN被称为第一DNN。第二DNN的训练过程可包括馈送特定领域训练数据、在步骤444中向前传播以计算目标函数，以及在步骤446中反向传播以更新第二DNN中的参数。在训练过程之后，可在步骤447中测量第二DNN的性能(例如，预测/分类精度)，以确定目标函数是否收敛。若目标函数不收敛，则可重复训练步骤444及446。若目标函数收敛，则在步骤449中通过确定是否达到目标稀疏来测量第二DNN的稀疏。若未达到目标稀疏，则可通过在步骤448中逐渐增加权重(参数)的稀疏来进一步修剪第二DNN，且可从步骤442重复修剪和训练。若达到目标稀疏，则意味着第二DNN的训练及修剪的迭代过程已完成。

在一些实施例中，修剪步骤442和训练步骤444及446的顺序可改变。例如，迭代过程可包括以下步骤：基于第一神经网络及一个或多个第二训练数据集训练第二神经网络，直到目标函数收敛；修剪第一神经网络直到达到稀疏比；提高稀疏比，直到满足退出条件；且若不满足退出条件，则基于经修剪的第一神经网络及一个或多个第二训练数据集重新训练第二神经网络，以及接着修剪第一神经网络以达到提高的稀疏比。

路径460中所示出的实施例可包括以下步骤：在步骤462中修剪第一DNN以达到目标稀疏比，以及在步骤464中基于经修剪的第一DNN及特定领域训练数据集训练第二DNN。步骤462中修剪第一DNN可采用迭代过程以在推断期间逐渐减少第一DNN中的活动神经元，直到达到目标稀疏比。与路径440中所示的实施例相比，一旦路径460中的步骤462完成，第一DNN便已被修剪，并且在接下来的步骤中不再对第一DNN进行进一步修剪。如以上所解释，由于活动神经元的数量减少，修剪第一DNN可能失去一些性能。在步骤464中，可通过基于经修剪的第一DNN及特定领域训练数据训练第二DNN以达到优化精度来恢复失去的性能。

图5示出了根据一些实施例的用于具有边界框校正的快速对象检测的示例性方法500。方法500可在图1所示的环境中实施。方法500可由图1至图4所示出的设备、装置或系统(诸如系统120)执行。方法500用于说明性目的，且可包括取决于实施方案及实际考虑的更多、更少或替代步骤。

方框510包括获得基于第一训练数据集训练的第一神经网络。

方框520包括分别从一个或多个领域获得一个或多个第二训练数据集。在一些实施例中，一个或多个第二训练数据集中的每个包括从对应领域收集的多个受监督的数据记录。在一些实施例中，一个或多个第二训练数据集包括由代表一个或多个领域的一个或多个摄像机收集的图像，且这些图像中的每个包括摄像机标识符及至少一个标签。

方框530包括基于第一神经网络及一个或多个第二训练数据集训练第二神经网络，该第二神经网络包括第一神经网络及从第一神经网络扩展的一个或多个分支，其中，一个或多个分支分别对应于一个或多个领域，且各分支包括基于一个或多个第二训练数据集中的一个训练的一个或多个层。在一些实施例中，训练第二神经网络包括：基于第一神经网络及一个或多个第二训练数据集训练第二神经网络，直到目标函数收敛；而修剪第二神经网络包括：修剪第二神经网络直到达到稀疏比。在一些实施例中，训练第二神经网络进一步包括：提高稀疏比；以及基于一个或多个第二训练数据集进一步训练经修剪的第二神经网络，直到目标函数收敛；以及进一步修剪经进一步训练的第二神经网络以达到提高的稀疏比，直到满足退出条件。在一些实施例中，退出条件包括以下至少一项：多个迭代运算，以及稀疏比已达到一目标稀疏比。在一些实施例中，训练包括第一神经网络及一个或多个分支的第二神经网络包括：对于一个或多个第二训练数据集中的每个，通过创建分支来扩展第一神经网络，该分支具有基于第二训练数据集训练的一个或多个层。

方框540包括通过减少活动神经元的数量来修剪第二神经网络。

方框550包括将经修剪的第二神经网络应用于一个或多个领域中进行推断。在一些实施例中，将第二神经网络应用于一个或多个领域中的对象检测包括：接收包括领域标识符的对象检测请求；基于领域标识符确定第二神经网络中的一个；以及基于一个第二神经网络执行对象检测。

在一些实施例中，方法500进一步包括将第一神经网络应用于与该一个或多个领域不同的领域中的对象检测。

在一些实施例中，在训练第二神经网络之前修剪第一神经网络；其中训练第二神经网络包括：基于经修剪的第一神经网络及一个或多个第二训练数据集训练第二神经网络。

图6示出了一计算机系统600的框图，其中可实施本文描述的任何实施例。计算机系统600可在图1至图5所示出的环境或系统的任何组件中实施。图1至图5所示出的一个或多个实例方法可由计算机系统600的一个或多个实施方案来执行。

计算机系统600可包括总线602或用于通信信息的其它通信机制、与总线602耦合用于处理信息的一个或多个硬件处理器604。硬件处理器604可以是例如一个或多个通用微处理器。

计算机系统600也可包括主存储器606，诸如随机存取内存(RAM)、高速缓存和/或其它动态存储设备，其耦合至总线602，用于存储可由处理器604执行的信息及指令。主存储器606也可用于在可由处理器604执行的指令执行期间存储临时变量或其它中间信息。当这些指令存储在处理器604可访问的存储介质中时，这些指令使计算机系统600转化为专用机器，该专用机器被个性化以执行指令中指定的操作。计算机系统600可进一步包括只读存储器(ROM)608或耦合至总线602的其它静态存储设备，用以存储用于处理器604的静态信息及指令。可提供诸如磁盘、光盘或USB随身碟(闪存驱动器)等存储设备610并且将存储设备610耦合至总线602以用于存储信息及指令。

计算机系统600可使用个性化硬布线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实施本文描述的技术，该技术与计算机系统相结合，使得计算机系统600为专用机器，或给计算机系统600编程使其成为专用机器。根据一个实施例，响应于处理器604执行主存储器606中包含的一个或多个指令的一个或多个序列，计算机系统600执行本文描述的操作、方法及过程。可从其它存储介质将这些指令读入主存储器606，存储介质例如是存储设备610。执行主存储器606中含有的指令序列可导致处理器604执行本文描述的处理步骤。在替代实施例中，硬布线电路可用于代替软件指令，或者与软件指令结合使用。

主存储器606、ROM 607和/或存储设备610可包括非暂时性存储介质。本文使用的术语“非暂时性介质”及类似术语是指代存储数据和/或指令的介质，这些数据和/或指令使机器依特定方式操作，该介质排除暂时性信号。此非暂时性介质可包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘，诸如存储设备610。易失性介质包括易失存储器，诸如主存储器606。非暂时性介质的普通形态包括，例如软盘、软性磁盘、硬盘、固态硬盘、磁带或任何其它磁性数据存储介质、光盘只读存储器(CD-ROM)、任何其它光学数据存储介质、任何具有孔型式的物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)及可擦可编程只读存储器(EPROM)、快擦可编程只读存储器(FLASH-EPROM)、非易失随机存取存储器(NVRAM)、任何其它内存芯片或匣，以及它们的网络化版本。

计算机系统600可包括耦合至总线602的网络接口618。网络接口618可将双向数据通信耦合提供至一个或多个网络链路，该一个或多个网络链路连接至一个或多个局域网络。例如，网络接口618可以是集成服务数字网络(ISDN)卡、电缆调制解调器、卫星调制解调器或将数据通信连接提供至对应类型电话线的调制解调器。作为另一实例，网络接口618可为一局域网络(LAN)卡，以将数据通信连接提供至兼容LAN(或与WAN通信的WAN组件)。也可实施无线链路。在任何此实施方案中，网络接口618可发送并接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。

计算机系统600可通过网络、网络链路及网络接口618发送消息及接收数据，包括程序代码。在互联网的实例中，服务器可通过互联网、ISP、局域网络及网络接口618传输用于应用程序的请求代码。

所接收的代码可在被接收时由处理器604执行，和/或存储在存储设备610或其它非易失性存储器中以用于以后执行。

在前述部分中描述的程序、方法及算法中的每一个可体现在代码模块中并且可由代码模块完全或部分自动化，该代码模块是由包括计算机硬件的计算机处理器或一个或多个计算机系统执行的。程序及算法可部分或全部在特定应用的电路中实施。

以上描述的各种特征及程序可相互独立地使用，或以各种方式组合使用。所有可能组合及子组合旨在落入本说明书的范畴内。此外，在一些实施方案中可省略某些方法或过程方框。本文描述的方法及过程也不限于任何特定序列，且与之相关的方框或状态可在其它合适的序列中执行。例如，所描述的方框或状态可以与具体揭示的顺序不同的顺序执行，或可在单一方框或状态中组合多个方框或状态。方框或状态的实例可串行、并行或依某种其它方式执行。方框或状态可添加至揭示的实施例或从揭示的实施例中移除。本文描述的系统及组件的实例可与本文描述的实例不同地配置。例如，与所揭示的实施例相比，可将组件添加至所揭示的实施例，从所揭示的实施例移除或相对于所揭示的实施例重新配置。

本文描述的方法的各种操作可至少部分地由一个或多个处理器执行，该一个或多个处理器是临时配置(例如，通过软件)的或是永久配置成执行相关操作的。无论是临时配置或永久配置，这些处理器可构成处理器实施的引擎，这些引擎操作以执行本文描述的一个或多个操作或功能。

类似地，本文描述的方法可至少部分由处理器实施，其中，特定处理器或若干处理器是硬件的实例。例如，方法的至少一些操作可由一个或多个处理器或处理器实施的引擎执行。此外，一个或多个处理器也可运行以在“云端计算”环境中支持相关操作的性能或运行作为“软件即服务”(SaaS)。例如，至少一些操作可由一组计算机(作为包括处理器的机器的实例)执行，其中这些操作可经由网络(例如，互联网)并经由一个或多个合适的接口(例如，应用程序接口(API))访问。

某些操作的性能可分布在处理器之间，不仅驻留在单一机器内，而且部署在多个机器上。在一些实施例中，处理器或处理器实施的引擎可位于单一地理位置(例如，在家庭环境、办公室环境或服务器场内)。在其它实施例中，处理器或处理器实施的引擎可分布在多个地理位置。

在本说明书中，多个例子可实施被描述为单一例子的组件、操作或结构。尽管示出了并作为单独操作描述了一个或多个方法的单独操作，但可以同时执行一个或多个单独操作，并且不要求按照所示的顺序执行操作。在各配置中作为单独组件呈现的结构及功能可作为组合结构或组件来实施。类似地，作为单一组件呈现的结构及功能可作为单独组件来实施。这些及其它变动、修改、添加及改进落入本文主题的范畴内。

尽管已参考特定实施例描述了本主题的概况，但可对这些实施例进行各种修改及改变，而不背离本说明书的实施例的更广泛范畴。不应将“具体实施方式”做限制理解，且各实施例的范畴仅由所附权利要求及这些权利要求所授予的全部等同范围所限定。此外，本文使用的相关术语(例如“第一”、“第二”、“第三”等)并不指示任何顺序、高度或重要性，而是用于区分一个组件与其它组件。此外，术语“一”及“多个”并不指示本文的数量的限制，而是指示存在至少一个所提及物品。

Claims

1.一种计算机实现的方法，包括：

获得基于第一训练数据集训练的第一神经网络；

分别从一个或多个领域获得一个或多个第二训练数据集；

基于所述第一神经网络及所述一个或多个第二训练数据集训练第二神经网络，所述第二神经网络包括所述第一神经网络及从所述第一神经网络扩展的一个或多个分支，其中，所述第二神经网络应用于所述一个或多个领域中进行推断，并且所述训练包括迭代过程，所述迭代过程包括一次或多次迭代，一次迭代包括：

修剪所述第二神经网络以达到稀疏比；

分别基于所述一个或多个第二训练数据集和所述第一神经网络训练经修剪的所述第二神经网络的所述一个或多个分支，直到目标函数收敛；和

针对下一次迭代提高所述稀疏比；和

其中，所述一个或多个第二训练数据集包括由代表所述一个或多个领域的一个或多个摄像机收集的图像，且所述图像的每个包括摄像机标识符和至少一个标签。

2.根据权利要求1所述的方法，其中，所述一个或多个分支分别对应于所述一个或多个领域，且每个分支包括基于源自对应领域的第二训练数据集训练的一个或多个层。

3.根据权利要求1所述的方法，进一步包括在将所述第二神经网络部署到所述一个或多个领域用于推断之前，修剪所述第二神经网络。

4.根据权利要求1所述的方法，其中，当满足退出条件时，所述迭代过程终止，所述退出条件包括以下至少一项：目标迭代次数，以及提高的稀疏比已达到目标稀疏比。

5.根据权利要求1所述的方法，其中，所述一个或多个第二训练数据集中的每个包括从对应领域收集的多个受监督的数据记录。

6.根据权利要求1所述的方法，进一步包括：

将所述第二神经网络应用于所述一个或多个领域中的对象检测，其中，所述应用包括：

接收包括领域标识符的对象检测请求；

基于所述领域标识符确定所述第二神经网络的所述一个或多个分支中的一个分支；以及

通过经确定的一个分支并且基于所述第二神经网络执行对象检测。

7.根据权利要求1所述的方法，其中，所述第一神经网络包括主干网络和第一输出分支，其中，所述第二神经网络的所述一个或多个分支从所述第一输出分支分隔开，并且

当输入数据包括所述一个或多个领域中的一个领域的领域标识符时，所述第二神经网络的所述一个或多个分支中的一个分支在推断期间被触发；并且

当所述输入数据不包括对应于所述一个或多个领域中任何一个领域的领域标识符时，所述第一输出分支在推断期间被触发。

8.根据权利要求1所述的方法，其中，所述训练所述一个或多个分支包括：

对于所述一个或多个第二训练数据集的每个，通过创建具有一个或多个层的分支来扩展所述第一神经网络并且基于所述第二训练数据集训练所述分支。

9.根据权利要求1所述的方法，进一步包括：

在训练所述第二神经网络之前修剪所述第一神经网络；

其中，训练所述第二神经网络包括：

基于经修剪的所述第一神经网络和所述一个或多个第二训练数据集训练所述第二神经网络。

10.一种系统，包括一个或多个处理器及一个或多个非暂时性计算机可读存储器，所述一个或多个计算机可读存储器耦合至所述一个或多个处理器，且配置成具有指令，所述指令能够由所述一个或多个处理器执行以使所述系统执行操作，所述操作包括：

获得基于第一训练数据集训练的第一神经网络；

分别从一个或多个领域获得一个或多个第二训练数据集，其中，所述一个或多个第二训练数据集包括由代表所述一个或多个领域的一个或多个摄像机收集的图像，且所述图像的每个包括摄像机标识符和至少一个标签；和

基于所述第一神经网络及所述一个或多个第二训练数据集训练第二神经网络，所述第二神经网络包括所述第一神经网络及从所述第一神经网络扩展的一个或多个分支，其中，所述第二神经网络应用于所述一个或多个领域中进行推断，并且所述训练包括：

分别基于所述一个或多个第二训练数据集合所述第一神经网络的输出训练所述一个或多个分支。

11.根据权利要求10所述的系统，其中，所述一个或多个分支分别对应于所述一个或多个领域，且每个分支包括基于源自对应领域的第二训练数据集训练的一个或多个层。

12.根据权利要求10所述的系统，其中，所述操作还包括在将所述第二神经网络部署到所述一个或多个领域用于推断之前，修剪所述第二神经网络。

13.根据权利要求10所述的系统，其中，所述训练所述第二神经网络包括迭代过程，所述迭代过程包括一次或多次迭代，一次迭代包括：

修剪所述第二神经网络以达到稀疏比；

基于所述一个或多个第二训练数据集训练经修剪的所述第二神经网络，直到目标函数收敛；和

针对下一次迭代提高所述稀疏比。

14.根据权利要求13所述的系统，其中，当满足退出条件时，所述迭代过程终止，所述退出条件包括以下至少一项：目标迭代次数，以及提高的稀疏比已达到目标稀疏比。

15.根据权利要求10所述的系统，其中，所述一个或多个第二训练数据集中的每个包括从对应领域收集的多个受监督的数据记录。

16.一种非暂时性计算机可读存储介质，配置为具有能够由一个或多个处理器执行的指令，用以使所述一个或多个处理器执行操作，所述操作包括：

获得基于第一训练数据集训练的第一神经网络：

分别从一个或多个领域获得一个或多个第二训练数据集：

基于所述第一神经网络及所述一个或多个第二训练数据集训练第二神经网络，所述第二神经网络包括所述第一神经网络及从所述第一神经网络扩展的一个或多个分支，其中，所述第二神经网络应用于所述一个或多个领域中进行推断，并且所述训练包括：分别基于所述一个或多个第二训练数据集和所述第一神经网络的输出训练所述一个或多个分支；

接收包括领域标识符的对象检测请求；

17.根据权利要求16所述的非暂时性计算机可读存储介质，其中，所述一个或多个分支分别对应于所述一个或多个领域，且且每个分支包括基于源自对应领域的第二训练数据集训练的一个或多个层。

18.根据权利要求17所述的非暂时性计算机可读存储介质，其中，所述操作还包括在将所述第二神经网络部署到所述一个或多个领域用于推断之前，修剪所述第二神经网络。

19.根据权利要求16所述的非暂时性计算机可读存储介质，其中，所述训练所述第二神经网络包括迭代过程，所述迭代过程包括一次或多次迭代，每次迭代包括：

修剪所述第二神经网络以达到稀疏比；

提高所述稀疏比；以及

进一步修剪进一步经训练的所述第二神经网络以达到经提高的稀疏比。

20.根据权利要求19所述的非暂时性计算机可读存储介质，其中，当满足退出条件时，所述迭代过程终止，所述退出条件包括以下至少一项：目标迭代次数，以及提高的稀疏比已达到目标稀疏比。