CN108369664A - 调整神经网络的大小 - Google Patents
调整神经网络的大小 Download PDFInfo
- Publication number
- CN108369664A CN108369664A CN201680070099.XA CN201680070099A CN108369664A CN 108369664 A CN108369664 A CN 108369664A CN 201680070099 A CN201680070099 A CN 201680070099A CN 108369664 A CN108369664 A CN 108369664A
- Authority
- CN
- China
- Prior art keywords
- neural net
- net layer
- size
- neural
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
用于调整神经网络层的大小的方法、系统和装置,包括在计算机存储介质上编码的计算机程序,该方法包括获得指定经训练的神经网络的数据,其中该神经网络包括一个或多个神经网络层;减小神经网络层中的一个或多个神经网络层的大小以生成经调整大小的神经网络,包括:选择用于调整大小的一个或多个神经网络层;针对每个所选择的神经网络层:确定该神经网络层的有效降维;基于所确定的有效降维,调整该神经网络层的大小;以及重新训练该经调整大小的神经网络。
Description
背景技术
本说明书涉及训练神经网络。
神经网络是采用一个或多个层针对所接收到的输入预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层的输入,所述下一层即网络中的下一个隐藏层或输出层。所述网络的每一层依据相应参数集合的当前值从所接收的输入生成输出。
发明内容
总体上,本说明书中所描述主题的一个创新方面能够以用于获得指定经训练的神经网络的数据的方法来体现,其中所述神经网络包括一个或多个神经网络层;减小所述神经网络层中的一个或多个神经网络层的大小以生成经调整大小的神经网络,包括:选择用于调整大小的一个或多个神经网络层;针对每个所选择的神经网络层:确定该神经网络层的有效降维;基于所确定的有效降维,调整该神经网络层的大小;以及重新训练所述经调整大小的神经网络。
此方面的其它实施例包括对应的计算机系统、装置,以及记录在一个或多个计算机存储设备上的计算机程序,其均被配置为执行该方法的动作。一种一个或多个计算机的系统能够被配置为通过利用安装在所述系统上的在操作中可以使得所述系统执行所述动作的软件、固件、硬件或它们的组合来执行特定操作或动作。一个或多个计算机程序能够被配置为通过包括指令来执行特定操作或动作,所述指令在被数据处理装置执行时使得所述装置执行所述动作。
可选地,以上和其它实施例均可以单独或组合地包括以下特征中的一个或多个。在一些实施方式中,减小所述神经网络层中的一个或多个神经网络层的大小包括减少所述神经网络层中的每一个中的单元的相应数目。
在一些实施方式中,确定该神经网络层的有效降维包括:向该神经网络提供多个数据输入;经所述神经网络层处理所述输入以针对每个数据输入在每个神经网络层处生成相应层激励;以及使用所选择的神经网络层处的网络激励针对所选择的神经网络层来确定有效降维。
在其它实施方式中,使用所选择的神经网络层处的层激励针对所选择的神经网络层来确定有效降维包括:对所述层激励执行主分量分析(PCA)以针对所述网络激励生成特征值谱;针对所述PCA特征值谱来选择截止(cut-off);以及将所述有效降维设置为截止PCA特征值维度的数目。
在一些情况下,针对所述PCA特征值谱选择截止包括:基于所述PCA特征值谱的累积方差的阈值来选择截止。
在其它情况下,针对所述PCA特征值谱选择截止包括:基于所述PCA特征值谱的扁率(flattening)来选择截止水平。
在一些情况下,针对所述PCA特征值谱选择截止包括:基于预定的最小PCA方差以及先前神经网络层读出权重的大小来选择截止水平。
在一些实施方式中,使用所选择的神经网络层处的层激励针对所选择的神经网络层来确定有效降维包括:执行产生方差谱(spectrum of variances)的降维技术。
在一些实施方式中,减小所述神经网络层中的所述一个或多个神经网络层中的至少一个的大小包括:在所述神经网络层中的所述一个或多个神经网络层中的所述至少一个中去除等于所述有效降维的数目的单元。
在其它实施方式中,所述方法进一步包括在重新训练所述经调整大小的神经网络之前重新初始化所述经调整大小的神经网络。
本说明书中所描述的主题能够以特定实施例来实现从而达成以下优点中的一个或多个。
一种实现神经网络大小调整的神经网络系统对一个或多个神经网络层中的单元的必需(integral)数目进行优化,因此减少了所要求的计算资源并且减少了与该神经网络系统相关联的计算成本。例如,一种实现神经网络大小调整的神经网络系统可以避免选择大小过大的神经网络层的需要,因此在神经网络的训练阶段和推理阶段都减少了所要求的计算资源以及计算成本。
此外,一种实现神经网络大小调整的神经网络系统可以避免随机选择神经网络层的大小的需要,因此提高了该神经网络系统的准确性。此外,一种实现神经网络大小调整的神经网络系统可以不需要为了确定最优的神经网络层大小而进行网络层大小的空间的试验和误差搜索,例如以人工或编程方式进行的搜索,因此避免了对大量计算资源的需求。
与并未实现神经网络大小调整的更大神经网络系统相比,一种实现神经网络大小调整的神经网络系统可以达成相似或有所减小的模型误差率。此外,与可能要求大量训练试验来确定神经网络层大小的对应最优集合的未实现神经网络大小调整的神经网络系统相比,一种实现神经网络大小调整的神经网络系统可以要求更少的训练试验——例如两次训练试验——来确定神经网络层大小的最优集合。
本说明书的一个或多个实施例的细节在附图和以下描述中被给出。本主题的其它特征、方面和优点将由于该描述、附图和权利要求书而变得显而易见。
附图说明
图1是神经网络大小调整系统的示例。
图2是用于生成经调整大小的神经网络的示例过程的流程图。
图3是用于调整神经网络层的大小的示例过程的流程图。
各附图中相似的附图标记和名称表示相似的元素。
具体实施方式
图1示出了示例神经网络大小调整系统100。神经网络大小调整系统100是被实现为下文所描述的系统、组件和技术能够在其中实现的一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例。
神经网络大小调整系统100是接收指定经训练的神经网络102的数据并且生成指定经调整大小的神经网络104的数据作为输出的系统。
经训练的神经网络102包括多个神经网络层,例如,神经网络层A、神经网络层B和神经网络层C。该神经网络层中的一个或多个可以是隐藏神经网络层。该经训练的神经网络中的每个层被配置为接收相应层输入,例如另一个层所生成的输出,向神经网络的输入或者此二者,并且对该层输入进行处理以从该输入生成相应的层输出,即层激励。每个神经网络层包括相应数目的单元,该相应数目指定了该神经网络层的大小或宽度。神经网络层中的每个单元被配置为接收单元输入,例如相应层输入中的一些或全部,并且根据该输入来生成单元输出。相应的层激励是所生成的单元输出的组合。
经训练的神经网络的层中的一些或全部与相应参数矩阵或权重矩阵相关联,所述相应参数矩阵或权重矩阵存储神经网络层的参数或权重的经训练的值。例如,神经网络层中的每个单元的参数对应于该神经网络层的权重矩阵中的相应行。神经网络层依据该神经网络层的参数的训练值而从输入生成输出。例如,作为根据所接收的输入生成输出的一部分,相应单元可以将与该单元相对应的权重矩阵的行与其输入相乘以生成单元输出。在一些实施方式中,可以向单元输出应用激励函数以生成层激励的相应分量。
神经网络大小调整系统100接收指定经训练的神经网络102的数据并且调整神经网络层中的一个或多个——例如,神经网络层A、神经网络层B和神经网络层C——的大小,以生成对应的经调整大小的神经网络层,例如,神经网络层A’、神经网络层B’和神经网络层C’。对应的经调整大小的神经网络层构成经调整大小的神经网络。
神经网络大小调整系统100能够通过将经调整大小的神经网络的参数的值设置为初始值来重新初始化经调整大小的神经网络,所述初始值例如随机选择的值。该神经网络大小调整系统能够使用训练示例来训练经调整大小的神经网络,以便确定经调整大小的神经网络层的参数的经训练的值,即将参数的值从初始值调整为经训练的值。例如,在训练期间,神经网络大小调整系统100能够对一批次的训练示例进行处理,并且针对该批次中的每个训练示例生成相应的经调整大小的神经网络输出。然后,经调整大小的神经网络输出能够被用来调节经调整大小的神经网络的参数的值,例如通过梯度下降和反向传播神经网络训练技术。
经调整大小的神经网络104包括多个经调整大小的神经网络层,例如神经网络层A’、神经网络层B’和神经网络层C’。每个经调整大小的神经网络层包括相应的经调整数目的隐藏单元,该经调整的数目指定该神经网络层的大小或宽度。隐藏单元的经调整数目小于或等于经训练的神经网络102中的隐藏单元的对应数目。例如,经训练的神经网络102中的神经网络层A可以具有第一数目的隐藏单元,并且经调整大小的神经网络104中对应的神经网络层A’可以具有第二数目的隐藏单元,其中该第二数目小于或等于第一数目。在一些实施方式中,经调整大小的神经网络104中的每个层中的隐藏单元的数目可以是相同的。在其它实施方式中,经调整大小的神经网络104中的每个层中的隐藏单元的数目可以有所变化。
神经网络大小调整系统100生成指定经重新训练、经调整大小的神经网络104的数据以作为输出。经调整大小的神经网络104可以被提供以:例如用于依据经调整大小的神经网络104的参数的经训练的值,通过经调整大小的神经网络层处理新的神经网络输入以针对该输入生成新的经调整大小的神经网络输出。
经训练的神经网络102和经重新训练、经调整大小的神经网络104能够被配置为接收任何种类的数字数据输入并且基于该输入来生成任何种类的分值或分类输出。
例如,如果向经训练的神经网络102和经重新训练、经调整大小的神经网络104的输入是图像或者已经从图像所提取的特征,则经训练的神经网络102和经重新训练、经调整大小的神经网络104针对给定图像所生成的输出可以是每个对象类别集合的分值,其中每个分值表示该图像包含属于该类别的对象的图像的估计可能性。
作为另一个示例,如果针对经训练的神经网络102和经重新训练、经调整大小的神经网络104的输入是针对用户的个性化推荐的特征,例如表征推荐的情境的特征,例如表征用户所采取的先前动作的特征,则经训练的神经网络102和经重新训练、经调整大小的神经网络104所生成的输出可以是针对每个内容项集合的分值,其中每个分值表示用户将对于被推荐以该内容项而积极地作出响应的估计可能性。
作为另一个示例,如果针对经训练的神经网络102和经重新训练、经调整大小的神经网络104的输入是一种语言的文本,则经训练的神经网络102和经重新训练、经调整大小的神经网络104所生成的输出可以是另一种语言的每个文本片段集合的分值,其中每个分值表示该其它语言的文本片段是所输入文本到该其它语言的适当翻译的估计可能性。
作为另一个示例,如果向经训练的神经网络102和经重新训练、经调整大小的神经网络104的输入是口头讲话、口头讲话的序列或者从此二者之一所导出的特征,则经训练的神经网络102和经重新训练、经调整大小的神经网络104所生成的输出可以是每个文本片段集合的分值,其中每个分值表示该文本片段是该讲话或讲话序列的正确转录的估计可能性。
图2是用于生成经调整大小的神经网络的示例过程的流程图。为了方便,过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统所执行。例如,依据本说明书而适当编程的神经网络大小调整系统——例如,图1的神经网络大小调整系统100——能够执行过程200。
该系统获得指定经训练神经网——例如,图1的经训练的神经网络102——的数据(步骤202)。该经训练的神经网络包括一个或多个神经网络层,例如,图1的神经网络层A-C。每个神经网络层具有相应的层大小。例如,经训练的神经网络中的每个神经网络层可以包括数千个单元。在一些实施方式中,经训练的神经网络是循环(recurrent)神经网络。在其它实施方式中,经训练的神经网络是正反馈神经网络。
该系统减小一个或多个神经网络层的大小以生成经调整大小的神经网络(204)。该系统通过减少相应神经网络层中的中的一个或多个的单元数目来减小相应神经网络层的大小。在一些实施方式中,该系统可以选择用于大小调整的一个或多个神经网络层。例如,该系统可以接收指定要调整大小的一个或多个层的输入。在其它示例中,该系统可以接收指定所有神经网络层都要被调整大小的输入。针对每个被选择的神经网络层,该系统可以针对该神经网络层来确定有效降维,并且基于所确定的有效降维来调整该神经网络层的大小。在一些实施方式中,该系统可以使用主分量分析(PCA)来确定有效降维。在其它实施方式中,该系统可以使用其它技术,诸如来自线性重构的随机投影或重构误差以确定有效降维。经调整大小的随机网络层的大小将会比该神经网络层在大小调整之前的大小更小。例如,继续以上的示例,经调整大小的神经网络层可以具有相应大小N1,N2,...,NL,其中Ni≤N,i=1,...,L,其中L是神经网络层的总数。以下参考图3更详细地描述使用PCA来调整神经网络层的大小。
该系统重新训练经调整大小的神经网络(步骤206)。在一些实施方式中,该系统在重新训练经调整大小的神经网络之前对该经调整大小的神经网络的参数的值进行重新初始化,例如通过为神经网络参数指定随机选择的值。
图3是用于调整经训练的神经网络中的神经网络层的大小的示例过程的流程图。为了方便,过程300将被描述为由位于一个或多个位置中的一个或多个计算机的系统所执行。例如,依据本说明书而适当编程的神经网络大小调整系统——例如,图1的神经网络大小调整系统100——能够执行过程300。
该系统将多个数据输入提供至经训练的神经网络,例如图1的经训练的神经网络102(步骤302)。例如,该多个数据输入可以是大批次的数据输入。
该系统通过该经训练的神经网络的神经网络层处理该多个数据输入以针对该批次的数据输入中的每个数据输入来生成每个神经网络层的相应层激励(步骤304)。例如,针对被定义为具有维度U×B的数据输入矩阵XUB的数据输入,该输入数据上的第i神经网络层的层激励可以被定义为具有维度N×B的
对所选择神经网络层的层激励执行主分量分析(PCA)并且针对该神经网络层生成特征值谱(步骤306)。然后,的PCA可以由通过所定义的相关矩阵C的特征值和特征向量来定义,其中特征向量VNN被排列为列而特征值谱{λ1,...,λN}则从最大向最小排列。
该系统为该PCA特征值谱选择截止(步骤308)。超过或等于PCA特征值谱的所选择截止的PCA维度表示有用性最低的PCA维度。例如,使第i神经网络层的权重由W所给出并且令PCA维度的有用性的估计可以由所给出,其中是W向V的第j投影的范数。例如,该系统可以通过对数目设置基本最小阈值来为PCA特征值谱选择截止,因此产生与在所有层都被设置为N的情况下所训练的网络相比对网络影响最小的一系列层大小。
在一些实施方式中,该系统基于PCA特征值谱的扁率来为PCA特征值谱选择任意截止水平。例如,特征值谱可以被建模为具有一个或多个时间常数的指数衰减,并且特征值谱可以在尾端以指数速度来发生扁平。由于尾端可能表示状态空间中有用性可能最低的部分,所以该系统可以基于PCA特征值谱的扁率来选择适当截止水平。
在其它实施方式中,该系统基于PCA特征值谱的累积方差的阈值来为PCA特征值谱选择任意截止水平,所述阈值例如累积方差的99%。
在其它实施方式中,该系统基于任意的最小PCA方差以及先前神经网络层读出权重的大小来为PCA特征值谱选择截止水平。例如,如果PCA维度的方差小,并且先前网络层的读出权重为给定大小,则包含小于该阈值的方差的维度可能就不是有用的。
该系统使用神经网络层处的层激励来确定该神经网络层的有效降维(310)。例如,如上文参考步骤308所描述的,该系统可以将神经网络层的有效降维设置为截止PCA特征值维度的数目。
该系统基于有效降维来减小神经网络层的大小(步骤312)。例如,该系统可以通过使层维度的数目减少步骤310中所确定的有效降维——即通过去除神经网络层中等于有效降维的数目的单元,来减小神经网络层的大小。经调整大小的神经网络的大小——例如经调整大小的神经网络层中的单元数目——小于该神经网络层在大小调整之前的大小——例如该神经网络层中的单元数目。
在一些实施方式中,例如通过针对经训练的神经网络中的每个神经网络层反复执行步骤306-312,可以针对经训练的神经网络中的每个神经网络层执行大小调整过程300。在其它实施方式中,可以针对单个神经网络层执行该大小调整过程,并且针对一个或多个附加神经网络层重复步骤312,即在步骤310中所确定的相同的有效降维可以被应用于经训练的神经网络中的一个或多个附加神经网络层。
在其它实施方式中,可以使用用于测量步骤304中所生成的层激励的有效维度的替选技术来执行该大小调整过程。例如,作为PCA的替代,可以使用同样产生方差谱的其它降维技术来确定有效降维。
本说明书中所描述的主题和功能操作的实施例能够以数字电子电路来实现,以有形体现的计算机软件或固件来实现,以包括本说明书中所公开的结构及其结构等同物的计算机硬件来实现,或者以它们中一个或多个的组合来实现。本说明书中所公开主题的实施例能够被实现为一个或多个计算机程序,即在有形非暂时性存储载体上进行编码以供由数据处理装置执行或者控制其操作的一个或多个计算机程序指令模块。替选地或附加地,该程序指令能够被在人工生成的传播信号上进行编码,例如机器生成的电、光学或电磁信号,其被生成以对信息进行编码以供传输至适当接收器装置而由数据处理装置来执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储基底、随机或串行存取存储器设备,或者它们中一个或多个的组合。然而,计算机存储介质并不是传播信号。
术语“数据处理装置”包含用于处理数据的所有种类的装置、设备和机器,例如包括可编程处理器、计算机、或者多个处理器或计算机。该装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统,或者它们中的一个或多个的组合的代码。
计算机程序(也被称作或描述为程序、软件、软件应用、模块、软件模块、脚本或代码)能够以任何形式的编程语言进行编写,包括编译或解释语言,或者声明或过程语言,并且其能够以任何形式进行部署,包括作为独立程序或者作为适于在计算环境中使用的模块、组件、子程序或其它单元。计算机程序可以对应于文件系统中的文件,但是并非必须如此。程序能够被存储在保存有例如标记语言文档中所存储的一个或多个脚本的其它程序或数据的文件的一部分中,存储在专用于所讨论程序的单个文件中,或者存储在多个协同文件中,例如存储一个或多个模块、子程序或代码部分的文件。计算机程序可以被部署为在一台计算机或多台计算机上执行,所述多台计算机位于一个地点或者跨多个地点分布并且通过通信网络进行互连。
如本说明书中所使用的,“引擎”或“软件引擎”指代软件实现的提供不同于输入的输出的输入/输出系统。引擎可以是编码的功能块,诸如库、平台、软件开发套件(SDK)或对象。每个引擎可以在任何适当类型的计算设备上实现,例如服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上或台式计算机、PDA、智能电话,或者包括一个或多个处理器和计算机可读介质的其它固定式或便携式设备。此外,两个或更多的引擎可以在相同计算设备或不同计算设备上实现。
本说明书中所描述的过程和逻辑流程能够由一个或多个可编程计算机来实现,所述可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来实行功能。所述处理和逻辑流程还能够由例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)的专用逻辑电路所实行,并且装置也能够被实施为所述专用逻辑电路。
适于执行计算机程序的处理器包括——例如能够基于——通用和专用的微处理器或者它们二者,以及任何其它种类的中央处理器。通常,中央处理器将从只读存储器或随机存取存储器或者其二者接收指令和数据。计算机的必要元件是用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大型存储设备或者操作耦合到所述大型存储设备以从其接收和向其传送数据或者其二者,所述大型存储设备例如磁盘、磁光盘或光盘。然而,计算机无需具有这样的设备。此外,计算机可以嵌入另一个设备之中,仅举出几个示例,所述设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器,或者便携式存储设备,例如通用串行总线(USB)闪存驱动器。
适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,例如包括半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可以被补充以专用逻辑电路或者结合于其中。
为了提供与用户的交互,本说明书中所描述主题的实施例可以在具有显示设备以及键盘和指示设备的计算机上实现,所述显示设备例如CRT(阴极射线管)或LCD(液晶显示器)监视器,用于向用户显示信息,并且所述指示设备例如用户能够通过其向计算机提供输入的鼠标或轨迹球。也可以使用其它种类的设备来提供与用户的交互;例如提供给用户的反馈可以是任何形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入可以以任何形式被接收,包括声音、语音或触觉输入。此外,计算机能够通过向用户所使用的设备发送文档以及从所述设备接收文档来与用户进行交互;例如,通过响应于从用户的客户端设备上的web浏览器接收到请求而向所述web浏览器发送网页。
该说明书所描述主题的实施例可以在计算系统中实现,所述计算系统包括后端组件——例如作为数据服务器,或者包括中间件组件——例如应用服务器,或者包括前端组件——例如具有用户能够通过其与该说明书中所描述主题的实施方式进行交互的图形用户界面或Web浏览器的客户端计算机,或者所述计算系统包括一个或多个这样的后端、中间件或前端组件的任何组合。所述系统的组件能够通过例如通信网络的任何形式或介质的数字数据通信进行互连。通信网络的示例包括局域网(LAN)和广域网(WAN),例如互联网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系通过在各自计算机上运行并且彼此具有客户端-服务器关系的计算机程序所建立。在一些实施例中,例如出于向与充当客户端的用户设备交互的用户显示数据并且从所述用户接收用户输入的目的,服务器向用户设备传送例如HTML网页的数据。能够在服务器从用户设备接收在该用户设备处例如作为用户交互的结果而生成的数据。
虽然本说明书包含许多具体实施方式细节,但是这些并不应当被理解为对任何发明以及所要求保护的内容的范围进行限制,而是作为可能特定于特定发明的特定实施例的特征的描述。本说明书中以单独实施例为场境(context)进行描述的某些特征也能够在单个实施例中以组合形式来实现。相反,以单个实施例为场境进行描述的各个特征也能够单独或以任何适当子组合在多个实施例中实现。此外,虽然特征在上文中可以被描述为以某种组合进行工作并且甚至最初要求如此,但是来自所要求保护的组合的一个或多个特征在一些情况下可以脱离该组合,并且所要求保护的组合可以针对子组合或子组合的变化形式。
类似地,虽然操作在图中以特定顺序进行描绘,但是这并不应当被理解为要求这样的操作以所示出的特定顺序或以连续顺序来执行,或者所有所图示的操作都要被执行以实现所期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,以上所描述实施例中的各个系统模块和组件的分离并不应当被理解为在所有实施例中都要求这样的分离,并且应当理解的是,所描述的程序组件和系统通常在单个软件产品中集成在一起或者被封装到多个软件产品中。
已经对该主题的特定实施例进行了描述。其它实施例处于所附权利要求书的范围之内。例如,权利要求书中所记载的动作可以以不同顺序来执行并且仍然实现所期望的结果。作为一个示例,附图中所描绘的过程并非必然要求所示出的特定顺序或连续顺序以实现所期望的结果。在某些实施方式中,多任务和并行处理可能是有利的。
Claims (12)
1.一种方法,包括:
获得指定经训练的神经网络的数据,其中所述神经网络包括一个或多个神经网络层;
减小所述神经网络层中的一个或多个神经网络层的大小以生成经调整大小的神经网络,包括:
选择用于调整大小的一个或多个神经网络层;
针对每个所选择的神经网络层:
确定该神经网络层的有效降维,以及
基于所确定的有效降维,调整该神经网络层的大小;以及
重新训练所述经调整大小的神经网络。
2.根据权利要求1所述的方法,其中,减小所述神经网络层中的一个或多个神经网络层的大小包括:减少所述一个或多个神经网络层中的每一个神经网络层中的单元的相应数目。
3.根据权利要求1或2所述的方法,其中,确定该神经网络层的有效降维包括:
向所述神经网络提供多个数据输入;
经所述神经网络层处理所述输入以针对每个数据输入在每个神经网络层处生成相应层激励;以及
使用所选择的神经网络层处的网络激励针对所选择的神经网络层来确定有效降维。
4.根据权利要求3所述的方法,其中,使用所选择的神经网络层处的层激励针对所选择的神经网络层来确定有效降维包括:
对所述层激励执行主分量分析(PCA)以针对所述网络激励生成特征值谱;
针对所述PCA特征值谱来选择截止;以及
将所述有效降维设置为截止PCA特征值维度的数目。
5.根据权利要求4所述的方法,其中,针对所述PCA特征值谱选择截止包括:基于所述PCA特征值谱的累积方差的阈值来选择截止。
6.根据权利要求4所述的方法,其中,针对所述PCA特征值谱选择截止包括:基于所述PCA特征值谱的扁率来选择截止水平。
7.根据权利要求4所述的方法,其中,针对所述PCA特征值谱选择截止包括:基于预定的最小PCA方差以及先前神经网络层读出权重的大小来选择截止水平。
8.根据权利要求3所述的方法,其中,使用所选择的神经网络层处的层激励针对所选择的神经网络层来确定有效降维包括:执行产生方差谱的降维技术。
9.根据权利要求3至8中的任一项所述的方法,其中,减小所述神经网络层中的所述一个或多个神经网络层中的至少一个神经网络层的大小包括:在所述神经网络层中的所述一个或多个神经网络层中的所述至少一个神经网络层中去除等于所述有效降维的数目的单元。
10.根据前述任一项权利要求所述的方法,进一步包括:在重新训练所述经调整大小的神经网络之前重新初始化所述经调整大小的神经网络。
11.一种系统,包括一个或多个计算机以及一个或多个存储指令的存储设备,所述指令在被所述一个或多个计算机执行时能够操作为使得所述一个或多个计算机执行。
12.一种编码在一个或多个非瞬态存储介质上的计算机程序产品,所述计算机程序产品包括指令,所述指令在被一个或多个计算机执行时使得所述一个或多个计算机执行根据权利要求1至10中的任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/954,683 | 2015-11-30 | ||
US14/954,683 US20170154262A1 (en) | 2015-11-30 | 2015-11-30 | Resizing neural networks |
PCT/US2016/062942 WO2017095667A1 (en) | 2015-11-30 | 2016-11-18 | Resizing neural networks |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108369664A true CN108369664A (zh) | 2018-08-03 |
Family
ID=57544526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680070099.XA Pending CN108369664A (zh) | 2015-11-30 | 2016-11-18 | 调整神经网络的大小 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20170154262A1 (zh) |
EP (1) | EP3369046A1 (zh) |
CN (1) | CN108369664A (zh) |
WO (1) | WO2017095667A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967570A (zh) * | 2019-07-01 | 2020-11-20 | 嘉兴砥脊科技有限公司 | 可神化神经网络系统的实现方法、装置和机器设备 |
CN112334914A (zh) * | 2018-09-27 | 2021-02-05 | 渊慧科技有限公司 | 使用生成式前导神经网络的模仿学习 |
CN112639833A (zh) * | 2018-08-30 | 2021-04-09 | 皇家飞利浦有限公司 | 可自适应神经网络 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10656962B2 (en) * | 2016-10-21 | 2020-05-19 | International Business Machines Corporation | Accelerate deep neural network in an FPGA |
US10121103B2 (en) * | 2016-12-09 | 2018-11-06 | Cisco Technologies, Inc. | Scalable deep learning video analytics |
US10019668B1 (en) | 2017-05-19 | 2018-07-10 | Google Llc | Scheduling neural network processing |
CN107748809B (zh) * | 2017-09-20 | 2021-01-26 | 苏州芯智瑞微电子有限公司 | 一种基于神经网络技术的半导体器件建模方法 |
KR102610820B1 (ko) * | 2017-09-27 | 2023-12-06 | 삼성전자주식회사 | 뉴럴 네트워크 시스템 및 뉴럴 네트워크 시스템의 동작방법 |
US10713563B2 (en) * | 2017-11-27 | 2020-07-14 | Technische Universiteit Eindhoven | Object recognition using a convolutional neural network trained by principal component analysis and repeated spectral clustering |
US11734567B2 (en) * | 2018-02-13 | 2023-08-22 | Samsung Electronics Co., Ltd. | Method and system for reducing deep neural network architectures |
US11341034B2 (en) | 2018-08-06 | 2022-05-24 | International Business Machines Corporation | Analysis of verification parameters for training reduction |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1991002315A1 (en) * | 1989-08-01 | 1991-02-21 | E.I. Du Pont De Nemours And Company | Methods relating to the configuration of a parallel distributed processing network |
-
2015
- 2015-11-30 US US14/954,683 patent/US20170154262A1/en not_active Abandoned
-
2016
- 2016-11-18 CN CN201680070099.XA patent/CN108369664A/zh active Pending
- 2016-11-18 EP EP16810532.8A patent/EP3369046A1/en not_active Withdrawn
- 2016-11-18 WO PCT/US2016/062942 patent/WO2017095667A1/en active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1991002315A1 (en) * | 1989-08-01 | 1991-02-21 | E.I. Du Pont De Nemours And Company | Methods relating to the configuration of a parallel distributed processing network |
Non-Patent Citations (3)
Title |
---|
ASRIEL U LEVIN ET AL: "Fast Pruning Using Principal Components", 《NIPS》 * |
HE TIANXING ET AL: "reshaping deep neural network for fast decoding by node-pruning", 《2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING》 * |
XIE ET AL.: "Linear Pruning Techniques for Neural Networks一Based on Projection Latent Structuren", 《IEEE SMC CONFERENCE》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112639833A (zh) * | 2018-08-30 | 2021-04-09 | 皇家飞利浦有限公司 | 可自适应神经网络 |
CN112334914A (zh) * | 2018-09-27 | 2021-02-05 | 渊慧科技有限公司 | 使用生成式前导神经网络的模仿学习 |
CN111967570A (zh) * | 2019-07-01 | 2020-11-20 | 嘉兴砥脊科技有限公司 | 可神化神经网络系统的实现方法、装置和机器设备 |
CN111967570B (zh) * | 2019-07-01 | 2024-04-05 | 北京砥脊科技有限公司 | 可视化神经网络系统的实现方法、装置和机器设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3369046A1 (en) | 2018-09-05 |
WO2017095667A1 (en) | 2017-06-08 |
US20170154262A1 (en) | 2017-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108369664A (zh) | 调整神经网络的大小 | |
JP6758406B2 (ja) | ワイドアンドディープマシンラーニングモデル | |
JP6790286B2 (ja) | 強化学習を用いたデバイス配置最適化 | |
US11954597B2 (en) | Using embedding functions with a deep network | |
US11900232B2 (en) | Training distilled machine learning models | |
JP7440420B2 (ja) | 包括的機械学習サービスを提供するアプリケーション開発プラットフォームおよびソフトウェア開発キット | |
CN110520871A (zh) | 训练机器学习模型 | |
EP3596663B1 (en) | Neural network system | |
US9449283B1 (en) | Selecting a training strategy for training a machine learning model | |
US11790233B2 (en) | Generating larger neural networks | |
CN109564575A (zh) | 使用机器学习模型来对图像进行分类 | |
US9454733B1 (en) | Training a machine learning model | |
CN108140143A (zh) | 正则化机器学习模型 | |
US20240127058A1 (en) | Training neural networks using priority queues | |
JP2019517075A (ja) | 比較セットを使用する入力例の分類 | |
US11922281B2 (en) | Training machine learning models using teacher annealing | |
WO2018201151A1 (en) | Neural network optimizer search | |
US20190251419A1 (en) | Low-pass recurrent neural network systems with memory | |
US20220383119A1 (en) | Granular neural network architecture search over low-level primitives | |
US20240152809A1 (en) | Efficient machine learning model architecture selection | |
US20240013769A1 (en) | Vocabulary selection for text processing tasks using power indices | |
CN110347800B (zh) | 文本处理方法和装置、以及电子设备和可读存储介质 | |
US20230124177A1 (en) | System and method for training a sparse neural network whilst maintaining sparsity | |
JP2022110134A (ja) | 特徴決定モデルのトレーニング方法、語意解析方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
WO2024138177A1 (en) | Recurrent interface networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180803 |