CN115004195A

CN115004195A - 学习处理装置以及方法

Info

Publication number: CN115004195A
Application number: CN202080093955.XA
Authority: CN
Inventors: 石川昌义; 大内将记; 新藤博之; 丰田康隆; 筱田伸一
Original assignee: Hitachi High Technologies Corp
Current assignee: Hitachi High Tech Corp
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2022-09-02
Also published as: TWI776353B; KR20220116270A; WO2021157067A1; JPWO2021157067A1; US20230004811A1; TW202131232A; JP7404404B2

Abstract

本发明提供一种能够在短时间内完成轻量模型的学习的学习处理装置以及方法。一种从已有的第一学习模型得到新的第二学习模型的学习处理装置，具备：输入部，其得到学习第一学习数据集来事先生成的第一学习模型和未被剪枝的神经网络，以下称神经网络为NN；重要参数确定部(304)，其使用第一学习模型和NN对作为学习对象的NN进行初始化，使用第二学习数据集和初始化后的NN，确定初始化后的NN的识别处理中的参数的重要度；新模型生成部(306)，其使用参数的重要度，进行从初始化后的NN删除不重要的参数的剪枝处理，生成第二NN；学习部，其使用第二学习数据集而学习第二NN；以及输出部，其将学习后的所述第二NN作为第二学习模型而输出。

Description

学习处理装置以及方法

技术领域

本发明涉及利用神经网络的学习处理装置以及方法。

背景技术

在以图像处理、自然语言处理、语音识别为代表的信号处理的领域中，有时使用利用多层神经网络的学习处理装置来进行识别处理。近年来的神经网络为了提高识别性能而具有大量参数，需要庞大的运算量。但是，在学习后进行的识别处理时，为了处理大量的图像等数据，优选以较少的参数和较少的运算量来进行处理。在本发明中，将能够以较少的参数和运算量进行处理的神经网络称为轻量模型。

作为在学习后削减多层神经网络的参数和运算量的技术，有剪枝。剪枝是在学习后的神经网络中确定并删除不需要的参数、不需要的运算来削减神经网络的识别处理所需要的参数和运算量的技术。

例如，在专利文献1中，研究了随机删除学习后的神经网络的单元，在再学习后进行成本函数的评价，将成本函数最好的结构作为神经网络的最佳结构而输出的机制。

现有技术文献

专利文献

专利文献1：日本特开2015-11510号公报

发明内容

发明所要解决的课题

通常，基于剪枝的神经网络的轻量化需要较长的学习期间。这是由于在神经网络的轻量化时，为使对识别精度的不良影响最小化，一点一点地进行参数的删除。若一次删除大量的参数，则识别精度大幅下降，因此通常通过多次反复进行少量的参数的删除和再学习来学习识别精度的劣化少的轻量模型。

因此，轻量的神经网络的学习需要通常的神经网络的学习的数倍的学习次数，因此学习期间长期化。特别是在要执行的识别处理的种类较多的情况下、切换在执行环境中利用的神经网络的模型的情况下，需要准备多个轻量模型，因此学习期间的长期化成为识别处理功能的展开、更新的延迟要因。

因此，需要用于在短时间内完成轻量模型的学习的结构，但在专利文献1中没有进行针对轻量模型的学习的短期化的研究。

用于解决课题的手段

根据以上内容，在本发明中，设为一种学习处理装置，其从已有的第一学习模型得到新的第二学习模型，所述学习处理装置具备：输入部，其得到学习第一学习数据集而事先生成的第一学习模型和未被剪枝的神经网络；重要参数确定部，其使用第一学习模型和神经网络对作为学习对象的神经网络进行初始化，使用第二学习数据集和初始化后的神经网络，确定初始化后的神经网络的识别处理中的参数的重要度；新模型生成部，其使用参数的重要度，进行从初始化后的神经网络删除不重要的参数的剪枝处理，生成第二神经网络；学习部，其使用第二学习数据集来学习第二神经网络；以及输出部，其将学习后的第二神经网络作为第二学习模型而输出。

另外，在本发明中，设为一种学习处理方法，从已有的第一学习模型得到新的第二学习模型，所述学习处理方法具备如下步骤：得到学习第一学习数据集而事先生成的第一学习模型和未被剪枝的神经网络；使用第一学习模型和神经网络对作为学习对象的神经网络进行初始化，使用第二学习数据集和初始化后的神经网络，确定初始化后的神经网络的识别处理中的参数的重要度；使用参数的重要度，进行从初始化后的神经网络删除不重要的参数的剪枝处理，生成第二神经网络；使用第二学习数据集来学习第二神经网络；以及将学习后的第二神经网络作为第二学习模型而输出。

另外，在本发明中，设为一种学习处理方法，从已有的第一学习模型得到新的第二学习模型，所述学习处理方法具备如下步骤：使用未剪枝的神经网络和第一学习模型对作为学习对象的未剪枝的神经网络进行初始化；使用第二学习数据集和初始化后的神经网络，求出初始化后的神经网络的识别处理中的参数的重要度，进行与重要度对应的剪枝处理；以及通过使用了第二学习数据集的剪枝后的神经网络的学习得到第二学习模型。

发明效果

根据本发明，即使在要执行的识别处理为多种、或根据执行环境来切换要利用的神经网络的模型的情况下，也能够使轻量模型的学习所花费的时间短期化，能够提供迅速的识别处理功能。

附图说明

图1是表示本发明的学习处理装置假定的神经网络的利用方式的一例的图。

图2是表示本发明的学习处理装置假定的神经网络的利用方式的一例的图。

图3是表示现有方法的剪枝的概要的图。

图4是表示本发明的学习处理装置的处理概要的图。

图5是比较表示本发明和现有方法的效果的图。

图6是表示本发明的学习处理装置的功能结构例的图。

图7是表示本发明的学习处理方法的处理流程例的图。

图8是以表格形式表示操作者对多个事先学习模型302的候补进行重要度评价时的判断材料信息的图。

图9是表示本发明的实施例2的学习处理装置的功能结构例的图。

图10是表示本发明的实施例2的学习处理方法的处理流程例的图。

图11是表示部分再初始化处理的概要的图。

图12是表示本发明的实施例3的学习处理装置的功能结构例的图。

图13是表示本发明的实施例2的学习处理方法的处理流程例的图。

图14是表示掩码层的剪枝的概要的图。

图15是表示掩码层对具有复杂的网络结构的神经网络的应用方法的图。

图16是以表形式表示卷积层1402-a～d共享4个通道的状况的图。

图17是表示适合于本发明的学习处理装置的监视器画面的结构例的图。

图18是表示用于对多个事先学习模型的候补实施重要度评价的画面的结构例的图。

具体实施方式

以下，使用附图对本发明的实施例进行说明。

实施例1

图1、图2是表示本发明的学习处理装置假定的神经网络的利用方式的一例的图。在这些事例中，例示了学习处理装置100进行图像处理的事例，但处理的对象也能够应用于自然语言处理、声音识别、其他信号处理。

在图1的情况下，学习处理装置100将输入图像101进行输入并提供给多个图像处理部102(102-1、102-2、102-3)，图像处理部102执行针对输入图像101的识别处理。

图像处理部102中的处理例如是图像分类、物体检测、语义分割和加说明文字这样的图像处理，图像处理部102-1、102-2、102-3分别执行不同的识别处理。例如，在产品的图像检查的例子中，图像处理部102-1对所提供的图像执行将合格品、不合格品等产品的品质进行分类的图像处理1，图像处理部102-2执行检测混入到产品中的异物的图像处理2，图像处理部102-3执行用于进行识别产品的形状的分割的图像处理3。作为其结果，在处理结果部103(103-1、103-2、103-3)中得到各部位的处理结果。

图像处理部102-1、102-2、102-3是包含专用于各个识别处理的结构的神经网络的学习模型。这样对一个输入图像101应用多个图像处理的情况下，且对每个图像处理使用不同的神经网络等情况下，需要对多个神经网络学习轻量模型。

在本发明的图1结构的学习处理装置100中，假定新追加在产生新的检查项目时追加的得到图像处理结果4的图像处理部102-4(轻量模型)和处理结果部103-4。

另外，即使是相同的识别处理，有时也需要学习多个轻量模型。图2例示了图1的图像处理部102-1、102-2、102-3中的各学习模型例如根据图像测量上的环境的变化而成为最佳化的学习模型的情况。图像处理部102′(102-1、102′-2、102′-3)是使用了根据环境变化而最佳化的学习模型(环境模型)的结构。在本发明中，假定从图1的结构新追加构成图2的环境模型。

例如，用于进行经由不同倍率的透镜得到图像的情况下的处理的学习模型与通常倍率下的学习模型不同，因此需要构成对经由不同倍率的透镜得到的图像专用的新的神经网络，需要新得到图2的结构。

这样，图2的按环境分类的模型102′(102-1、102′-2、102′-3)进行与图1的学习模型102(102-1、102-2、102-3)相同的图像处理，但是根据与输入图像101相关的环境而执行的模型变化的例子。在此，环境是与取得输入图像101的场所、状况相关的环境，或者是执行识别处理的场所、状况。例如是室外的图像数据的情况下，变更在白天、夜间这样的状况下执行的模型，如果是图像检查系统，则按照检查对象的种类变更模型。

此外，处理结果部103′(103′-1，103′-2，103′-3)是基于按环境分类的模型102′(102-1，102′-2，102′-3)的输出。处理结果1′、2′、3′由于所执行的神经网络不同，因此输出与图1不同的结果。

这样，即使在利用按环境分类的模型102′(102-1、102′-2、102′-3)的情况下，也需要学习多个轻量模型。特别是在图像检查系统的情况下，检查对象的物体类别、检查工序的类别的组合有无数个，因此按环境分类的模型与图像处理的组合变得庞大。因此，必须实现轻量模型的取得的高效化。

另外，在本实施例中，示出了图像处理、按环境分类的模型都各3个的例子，但也可以是1个以上的情况。

作为学习并制作轻量模型的情况下的方法，已知有剪枝的方法。图3是表示现有方法的剪枝的概要的图。通过进行剪枝，能够使学习模型轻量化。

通常，在剪枝中最初通过学习处理201-0使用学习数据集301对未剪枝的神经网络204-0进行学习。然后，通过剪枝处理202-1确定学习后的所述未剪枝的神经网络204-0中的不需要的参数，进行参数的删除，输出剪枝后的神经网络204-1。在此，作为通过剪枝而确定的不需要的参数，选择参数的绝对值较小的参数等。

通过剪枝删除了参数的神经网络204-1与未剪枝的神经网络204-0相比有时识别精度降低，因此通过再学习处理203-1更新剪枝后的神经网络204-1的未剪枝的参数，使降低的识别精度成为与未剪枝的神经网络204-0接近的值。之后，在剪枝量不充分的情况下或设定了多次剪枝处理的情况下，通过剪枝处理202-2和再学习处理203-2得到进一步剪枝后的神经网络204-2。该剪枝处理和再学习处理也可以反复应用2次以上。另外，在再学习处理203-1、203-2中，使用与学习时在最初的学习处理201-0中使用的内容相同的学习数据集301进行学习。

这样，在现有方法的剪枝中，反复进行在学习后确定不需要的参数，在删除不需要的参数后进行再学习的处理。这是因为，在由剪枝引起的轻量化时，为了不对识别性能造成不良影响，需要逐渐删除参数。在基于该步骤的处理中，由于存在多次反复学习处理，因此轻量模型的学习所需的时间变长。因此，特别是在需要配备图1、图2所记载的多个轻量模型的情况下，准备期间长期化，成为提供识别功能的延迟要因。

图4是表示本发明的学习处理装置的处理概要的图。在该处理中，根据事先准备的第一模型(网络)，生成适合于其他处理的第二模型(网络)。该关系例如是在图1中将图像处理部102(102-1、102-2、102-3)中的任意一个模型(网络)作为第一模型，重新生成图像处理部102-4作为第二模型，或者是将图像处理部102(102-1、102-2、102-3)中的任意一个模型(网络)作为第一模型，重新生成图2中的环境模型102′作为第二模型。

因此，成为新模型制作的基础的第一模型是事先准备的事先学习模型302，事先学习模型302是使用作为专用于事先学习模型302的学习对象的第一学习数据集301A而生成的。另外，在该图中，303是由操作者提示的未剪枝的神经网络。

在重要参数确定部304中，对作为第一模型的事先学习模型302应用作为专用于想要新制作的第二模型的学习对象的第二学习数据集301B。由此，在第二学习数据集301B中从事先学习模型302确定重要的参数，仅提取重要的参数。这里的重要参数意味着确定对第二学习数据集301B的识别来说重要的第二模型的参数。

之后，在新模型生成部306中，生成从未剪枝的神经网络303仅提取了对第二学习数据集301B的识别来说重要的第二模型的参数的神经网络305。通过学习处理307学习该神经网络305，由此能够在短期内取得轻量模型。在该学习处理307中，使用第二学习数据集301B。

将不应用剪枝的情况、即将以不同的数据集(学习数据集301A)学习到的模型作为初始值进行学习的方法称为转移学习。在本发明中，通过在转移时应用剪枝，能够不需要以往需要的学习处理201-0，因此能够减少学习次数，使轻量模型的学习短期化。

本发明基本上进行上述那样的步骤的处理，但在该实现时，存在几个应该设计的事项。

应设计、改善的事项的第一点在于，在现有方法中，在转移学习时难以应用剪枝。通常，在图3的学习处理201-0中，应用与剪枝处理202匹配的正则化，以便减少执行剪枝处理202时的精度降低。例如，在剪枝处理202中删除参数的绝对值较小的参数的情况下，在学习处理201-0中应用被称为权重衰减(Weight decay)的神经网络的参数的绝对值变小的正则化。将包含权重衰减的神经网络的损失函数表示为式(1)。

[数式1]

L＝Lr+λ||θ||² (1)

在式(1)中，构成神经网络的损失函数L的右边第一项是针对识别处理的每次学习而定义的损失函数Lr，第二项是权重衰减的项。λ是权重衰减的系数，θ是神经网络的参数。为了删除更多的参数，需要将权重衰减的系数λ设定得比较大。

但是，若使权重衰减的系数λ增大，则参数的大部分成为微小的值。因此，能够仅通过学习到的数据集来发挥识别性能，不适合转移学习。因此，事先已学习模型302优选不是对特定的学习数据集302应用了强的权重衰减的模型，而是许多参数具有非零值的神经网络。

在这样的情况下，重要参数确定部304无法根据参数的绝对值来确定重要的参数。

关于这一点的改善，在本发明的实施例中可以进一步如下那样应对。

在图4中，一般在通过与学习数据集301B不同的学习数据集301A学习到的事先学习模型302中，存在对学习数据集301B的识别来说有效的参数和不需要的参数。重要参数确定部304通过分析海赛矩阵来提取对学习数据集301B的识别来说有效的参数。海赛矩阵是针对损失函数L的参数的二次微分。因此，例如通过各参数的值的平方与海赛矩阵的对角成分之积，能够计算在删除各参数时对损失函数造成的影响。

式(2)中示出了计算式。下标q表示是与第q个参数相关的值。H表示海赛矩阵，下标qq表示是第q行q列的值。从该值小的开始到成为所希望的剪枝量为止删除参数，从而能够从事先学习模型302中仅提取对学习数据集301B的识别来说有效的参数。

[数式2]

这样，在本发明中，对删除某个参数时对神经网络的行为造成的影响进行评价，作为各参数的重要度。该重要度越大的参数，在删除时越使神经网络的识别性能降低。因此，通过从重要度低的参数开始进行剪枝，能够抑制神经网络的识别性能的降低并删除较多的参数。

另外，关于这一点，应设计、改善的事项的第二点是，通常多层神经网络的参数数量庞大，因此有时难以直接计算海赛矩阵。

在这样的情况下，也可以通过损失函数L的一阶微分的二阶矩即费歇尔信息矩阵、费歇尔信息矩阵的近似即克罗内克系数近似曲率(Kronecker-Factored ApproximatedCurvature)计算删除各参数时的影响。另外，也可以使用损失函数L的一阶微分的统计量、一阶微分与参数之积的统计量来计算影响。在该情况下，例如作为删除各参数时对损失函数造成的影响，可以计算梯度的期待值与参数的值的积的绝对值。

另外，在卷积神经网络的情况下，也可以将以参数为单位求出的重要度按照被称为通道或滤波器的每个维度进行汇集，作为每个通道或滤波器的重要度。

另外，也可以利用实施例4所示的松弛伯努利分布来评价各参数的重要度。

图5是比较表示本发明和现有方法的效果的图。本发明的学习曲线401、现有方法的学习曲线402均是横轴取学习时的参数更新次数、纵轴取识别性能的图。

根据图5左侧的本发明，根据事先学习模型302在学习数据集301B中仅确定重要的参数并直接学习轻量模型306，因此如学习曲线401那样仅描绘一次学习曲线。

与此相对，在现有方法中需要学习处理201-0和1次以上的再学习处理203，因此如学习曲线402那样示出2次以上的学习曲线。在此，位于学习曲线402的中央附近的虚线表示由剪枝引起的精度降低的影响。这样，根据本发明，能够通过一次学习来取得轻量模型，因此能够大幅缩短获得一个轻量模型所需的时间。

图6表示本发明的学习处理装置的功能结构例，图7表示本发明的学习处理方法的处理流程例。在这些图中示出了使用学习数据集301和事先已学习模型302来学习轻量模型为止的结构和流程。

首先，图6所示的本发明的学习处理装置的功能结构例图是将通过计算机实现本发明的处理时的运算部中的处理内容标记为主要的处理功能的图。在此，将通过学习数据集301A学习到的事先学习模型302和未剪枝的神经网络303作为对象。

在重要参数确定部304中，使用事先学习模型302和未剪枝的神经网络303，首先对学习对象的神经网络303进行初始化。通过该初始化，事先学习模型302的参数被反映到未剪枝的形式的神经网络303中，因此初始化后的神经网络303能够与事先学习模型302等价。在重要参数确定部304中，接下来使用初始化后的神经网络303和作为专用于想要新制作的第二模型305的学习对象的第二学习数据集301B，在初始化后的神经网络303的识别处理中确定重要的参数。

剪枝部306是与图4的新模型生成部306对应的处理，生成从未剪枝的神经网络303仅提取了对第二学习数据集301B的识别来说重要的第二模型的参数的剪枝后形式的神经网络305。

在学习处理部307中，使用第二学习数据集301B来学习神经网络305。

在模型评价部503中，针对神经网络305(第二模型)，使用评价数据集504来评价其运算精度。发挥满足评价数据集504的基准的性能的神经网络305最终被设为第二模型(计量模型)。

在图7所示的本发明的学习处理方法的处理流程例中，首先在步骤S601中开始学习流程。这在由操作者等设定了轻量模型的学习所需的事项之后，在由操作者执行了学习时开始。

步骤S602与图6的重要参数确定部304的一部分对应，在此使用由操作者输入的未剪枝的网络结构303和事先学习模型302对学习对象的神经网络进行初始化。在此，未剪枝的网络结构303是为了执行学习轻量模型的对象的图像处理而由操作者提供的网络结构。另外，在此，学习对象的神经网络的初始化是指决定所提供的网络结构303的参数的初始值，所述学习对象的神经网络的一部分或全部，通过复制事先学习模型302的参数而被初始化。在所述学习对象的神经网络中，未复制事先学习模型302的参数的参数根据由操作者设定的随机数或常数来决定值。

一般将这样利用事先学习模型302的参数进行神经网络的初始化称为转移学习。另外，初始化后的网络结构303是未剪枝的神经网络结构，该网络结构303反映了事先学习模型302的参数。因此，初始化后的网络结构303能够将轻量化后的形式的事先学习模型302反映到未剪枝的网络原形式的网络结构中。

在此，由操作者决定从所述学习对象的神经网络中将哪个参数从事先学习模型302复制。仅将所述学习对象的神经网络的一部分从事先学习模型302复制参数的操作，在学习对象的图像处理功能与事先学习模型的图像处理功能不同时等进行。例如学习对象是物体检测功能，在事先学习模型302是图像分类功能时，仅将从输入图像提取图像特征的被称为特征提取器的神经网络的部分的参数复制到物体检测用的神经网络。另外，即使两者是相同的图像分类功能，有时也仅复制被称为特征提取器的神经网络的一部分参数，预测分类结果的后级的层通过其他方法进行初始化。

步骤S603与图6的重要参数确定部304的一部分对应，在此，使用在步骤S602中初始化的神经网络和学习数据集301B来评价在步骤S602中初始化的神经网络的各参数的重要度。在此，重要度的评价如图4的说明中记载的那样。

步骤S604与图6的剪枝部(图4的新模型生成部)306对应，在此，根据在步骤S603中评价的各参数的重要度，从在步骤S602中初始化后的神经网络中删除重要度低的参数。在此，删除的参数的决定方法由操作者选择，有删除重要度为上位几成的参数以外的方法、删除重要度在某阈值以下的参数等方法。

步骤S605与图6的学习部307对应，在此使用学习数据集301B来学习在步骤S604中得到的已轻量化的神经网络的参数。这通过在神经网络的学习中通常使用的概率梯度下降法等进行。

步骤S606与图6的模型评价部503对应，在此使用评价数据集504来评价在步骤S605中学习到的神经网络的性能。该神经网络的性能评价是评价所得到的轻量模型505在识别对象的图像处理中能够达成何种程度的性能。

在步骤S607中，将在步骤S605中学习到的神经网络作为轻量模型505而输出。此时，可以与在步骤S606中评价的识别性能、识别处理的执行时间一起输出。

在步骤S608中结束学习流程。

这样，在本发明中，根据事先学习模型302确定对学习数据集301B、评价数据集504的识别来说重要的参数，仅转移重要的参数，由此能够在初始化时构成轻量的模型，因此能够通过一次学习来获得识别精度良好的轻量模型505。

实施例2

在实施例2中，涉及在存在多个事先学习模型的情况下，在生成所期望的轻量模型方面，利用哪个事先学习模型是适当的，事先制作其判断材料，用于实际运用上的参考。

根据本发明的实施例1，即使不进行长时间的学习，也能够评价事先学习模型302对学习数据集301B、评价数据集504保持了何种程度的重要参数。在准备多个学习模型的情况下，还存在多个用作事先学习模型302的模型的候补。通常，根据用作事先学习模型302的模型，进行学习的神经网络的性能发生变化。因此，为了在短时间内学习轻量的模型，选择适当的事先学习模型302是重要的。

但是，在现有方法中，如果不实际通过学习数据集301B和学习部306学习神经网络并通过评价数据集504和模型评价部503评价识别性能，则无法判别各事先学习模型的好坏。

因此，在存在多个事先学习模型302的候补的情况下，为了选择最好的模型作为事先学习模型302，需要对全部候补进行学习、评价。在这样的情况下，轻量模型305的学习所需的时间变得庞大。因此，不进行学习而从多个事先学习模型302的候补中选择一个适当的模型对于在短时间内学习高精度的轻量模型是重要的。

在此，由于未剪枝的非轻量模型成为对象的神经网络能够达到的识别性能的指标，因此在模型的管理方面需要学习、保持所述非轻量模型。

在本发明的实施例2中，利用图6所示的学习处理装置100的一部分功能即重要参数确定部304，事先制作图8的重要度评价表700，并参照事先制作的重要度评价表700，用于实际运用上的适当的事先学习模型的选择的参考。用于事先制作重要度评价表700的装置结构以及处理流程参照图9、图10在后面叙述。

图8是表示针对多个事先学习模型302的候补的重要度评价表的一例的图。在由操作者选择了与学习数据集301B和网络结构303、剪枝相关的设定时，将该表作为用于提取能够进行转移学习的事先学习候补的判断材料信息而提示给操作者。具体的判断材料信息是针对多个事先学习模型的网络结构以及在事先学习模型的学习中使用的每个数据集准备的各事先学习模型的重要度总和以及剪枝后的重要度总和的信息。

在图8的重要度评价表700中，事先学习模型类别701是各事先学习模型的网络类别。例如，在学习对象的识别处理为物体检测的情况下，在使用图像分类器作为事先学习模型302的情况下，仅转移被称为特征提取器的神经网络的部分，在使用相同的物体检测器作为事先学习模型302的情况下，除了特征提取器之外，还转移物体检测用的神经网络的部分。因此，即使提供了网络结构303，也存在多个事先学习模型的类别。另外，即使仅转移特征提取器，也可以根据层数、各层的参数数量等而存在多个事先学习模型的类别。因此，在此预先明确事先学习模型的类别701。

事先学习数据集702表示在事先学习模型的学习中使用的数据集(与图4的学习数据集301A对应)。在进行转移学习时，转移源学习到的特征与学习对象的数据集301A所具有的特征一致对于神经网络的高精度化是重要的。

重要度总和703是各事先学习模型302的重要度的总和。这是由学习数据集301A和重要参数确定部304评价的各参数的重要度的总和。另外，由于参数数量根据事先学习模型302而不同，因此在单纯的总和中，参数数量多的模型的重要度总和容易变大。因此，也可以使用将事先学习模型的重要度总和除以各事先学习模型的参数数量而得到的重要度平均。

剪枝后重要度总和704是使用由操作者提供的与剪枝相关的设定进行剪枝时剩余的参数的重要度的总和。这也可以与重要度总和703同样地为重要度平均。

由于重要度是对删除某个参数时对识别性能造成的不良影响进行评价而得的值，所以能够认为重要度总和703越大，则包含越多对学习对象的识别处理来说重要的参数。

因此，如果选择重要度总和703大的模型作为事先学习模型302，则容易学习高精度的模型。另外，在轻量模型的学习时，通过剪枝来删除多个参数。因此，通过评价剪枝后重要度总和704，能够评价剪枝后剩余的参数在学习数据集301B的识别中重要到何种程度。因此，在剪枝后重要度总和704大的模型学习轻量模型505时，能够学习轻量且高精度的模型。操作者通过确认这样的表，选择重要度总和703和剪枝后重要度总和704双方都大的模型，能够学习轻量且高精度的模型。

在图9和图10中示出了制作针对图8所示的多个事先学习模型302的候补的重要度评价表700的装置结构和处理流程例。

首先，图9所示的本发明的实施例2的学习处理装置的功能结构图是在图6的学习处理装置100中追加了已学习模型存储部801、事先学习模型候补提取部802、事先学习模型选择部803、重要度评价结果存储部804的各功能的图。其中，已学习模型存储部801和重要度评价结果存储部804是计算机的数据库等存储部，在已学习模型存储部801中存储有例如图1的模型(网络)102-1、102-2、102-3的信息作为事先学习模型，另外，在重要度评价结果存储部804中存储有关于由图6的重要参数确定部(剪枝部)304提取出的重要参数的评价结果。另外，图8的重要度评价数据也最终蓄积存储在重要度评价结果存储部804中。另外，事先学习模型候补提取部802、事先学习模型选择部803表示操作者进行的处理、判断内容。

图10的流程图使用图9所示的硬件资源、软件资源等依次执行以下所示的处理。首先，在图10的最初的步骤S901中，开始针对多个事先学习模型302的候补的重要度评价流程。这在由操作者指示执行的定时开始。

在步骤S902(与事先学习模型候补提取部802的处理对应)中，使用由操作者提供的网络结构303从学习模型存储部801提取事先学习模型302的候补。学习模型存储部801将按每个模型设定的模型ID、模型的名称、模型的网络结构、用于学习的数据集301A、以及达到的识别性能关联起来进行存储。另外，在步骤S902(与事先学习模型候补提取部802的处理对应)中，从已学习模型存储部801提取包含能够转移到所提供的网络结构303的网络结构的模型，作为事先学习模型候补而输出到事先学习模型选择部803。

在步骤S903(与事先学习模型选择部803的处理对应)中，从事先学习模型候补提取部802提取出的事先学习模型候补中选择一个未进行重要度评价的模型作为事先学习模型302。

在步骤S904(与重要参数确定部304的处理对应)中，使用由操作者提供的网络结构303、事先学习模型302进行学习对象的神经网络的初始化。这通过与图7记载的步骤S602同样的方法进行。

在步骤S905(与重要参数确定部304的处理对应)中，使用学习数据集301B来评价在步骤S904中初始化后的神经网络的各参数的重要度。这通过与图7记载的步骤S603同样的方法进行。

在步骤S906(与重要参数确定部304的处理对应)中，确认步骤S904、步骤S905的评价是否达到了由操作者设定的次数。如果达到了所设定的次数，则进入步骤S907，如果没有达到，则返回到步骤S904，反复进行直到达到所设定的次数为止。在此设定的次数只要是1次以上，则可以是任意次数。这是因为在步骤S904中进行的神经网络的初始化时利用随机数，因此也可以为了通过多次评价来抑制随机数的影响而进行。

例如在学习物体检测用的神经网络时转移在图像分类中事先学习的模型的情况下，一般仅对特征提取器的部分复制参数，对于其他部分用随机数进行初始化。重要度评价时使用的特征提取器的1阶或2阶梯度信息因处于特征提取器的后段的其他神经网络的初始化而受到影响。因此，在这样的情况下，为了正确地评价特征提取器中包含的各参数的重要度，可以进行多次基于随机数的初始化，进行多次重要度评价。实际上，可以将根据多次评价的重要度在步骤S907中使用统计信息计算出的重要度用作各事先模型的重要度。

在步骤S907(与重要参数确定部304的处理对应)中，根据在步骤S904、S905、S906中评价的重要度，计算各参数的重要度。这可以使用重要度总和最大的一次的结果或使用各评价的平均值。利用重要度总和最大的一次相当于利用得到了最好的初始值的一次的评价值。在该情况下，也可以预先存储各参数的初始值，在实际学习时利用。另外，在将各次的平均用作重要度的情况下，相当于重视难以受到随机数的影响的参数来进行利用。

在步骤S908(与重要参数确定部304的处理对应)中，将所利用的评价条件与在步骤S907中评价出的重要度关联起来存储到重要度评价结果存储部804中。这里使用的评价条件涉及与事先学习模型302相关的信息、进行重要度的评价的次数、在步骤S907中用于重要度的评价的方法等。在重要度评价结果存储部804中存储有在各评价中利用的学习数据集301B的信息、与评价出的重要度相关的信息、作为事先学习模型而利用的模型的模型ID、名称、网络结构、在事先学习中使用的数据集、事先学习时的识别性能。在此，关于重要度的信息既可以将关于各参数的重要度全部进行保存，也可以将统计化后的信息进行保存。通过步骤S908的处理，在图8的重要度评价表700中追加针对所关注的事先学习模型候补的重要度总和703、剪枝后重要度总和704的数据。

在步骤S909(与重要参数确定部304的处理对应)中，确认是否完成了对在步骤S902中提取出的全部的事先学习模型候补的评价，如果完成则进入步骤S910，如果没有完成则从步骤S903开始重复直到完成为止。

在步骤S910中结束重要度评价流程。在对所需的全部事先准备模型的处理完成后，在重要度评价结果存储部804中完备了图8的数据。

如上所述，根据本发明，在转移学习时从事先学习模型302仅确定重要的参数并进行学习，由此能够通过一次学习来获得轻量模型306，能够在短期间内进行轻量模型306的学习。

另外，如图8、图9、图10所示，对事先学习模型302仅进行重要度的评价，从而能够不进行实际的学习而评价各事先学习模型的好坏，能够使轻量模型305的学习短期间化。

实施例3

在实施例3中，对应于在转移学习时事先学习模型302未能学习对学习对象的识别处理来说重要的特征的情况。

在本发明的实施例1中，在转移学习时仅转移在学习对象的识别处理中重要的参数，由此缩短了轻量模型505的学习所需的时间。然而，在转移学习时，可能存在事先学习模型302无法学习在学习对象的识别处理中重要的特征的情况。在这样的情况下，仅通过从事先学习模型302转移重要的参数，难以学习高精度的轻量模型505。

图11是表示为了解决这样的课题而导入的部分再初始化处理的图。图11表示与图4对应的处理的流程，在图4的步骤中新追加了部分再初始化处理1001和剪枝处理1003的处理。

在这一系列的处理中，如已经说明的那样，重要参数确定部304确定重要参数，假定了此时的网络305，但在转移学习时事先学习模型302未能学习学习对象的识别处理中重要的特征，因此前提是网络305不充分。在此，不充分是指网络过于简化、或者没有形成必要的路径等。

因此，在部分再初始化处理1001中，在重要参数确定部304确定了重要参数之后，仅对被剪枝的参数再次进行初始化。由此，在对仅保留重要度高的参数的神经网络305应用部分再初始化处理1001时，如神经网络1002所示，如虚线所示的神经元那样被再初始化。该再初始化以容易进行剪枝的形式实施，在模型生成处理部306中学习后，在剪枝处理1003中能够对精度的影响少地进行剪枝。该容易剪枝的再初始化是指例如将各参数初始化为零等。另外，也可以使用可取的值的绝对值小的随机数。

图12和图13是表示包含图11的部分再初始化的本发明的学习处理装置的功能结构例和学习处理方法的处理流程例的图。这些是对图6和图7所示的本发明的功能结构例和处理流程例加入了部分再初始化处理的结构和流程，因此仅记载差异。

在图13的流程中，在步骤S1201中，根据在步骤S604中剪枝部502在步骤S603中评价的重要度，部分再初始化部1101对从在步骤S602中初始化后的神经网络中删除重要度低的参数后的参数进行再初始化。这如上所述，用零或绝对值小的随机数等进行，从而实施容易剪枝的再初始化。

在步骤S1202中，剪枝部502从在步骤S605中学习到的神经网络中删除不需要的参数。在步骤S1201中进行的再初始化处理以容易剪枝的方式实施，所以能够将对精度的影响抑制得较小。

通过这样组合部分再初始化处理，在事先学习模型302具有对学习数据集301B的识别来说重要的参数的情况下学习转移的参数，在不具有的情况下学习部分再初始化的神经元。另外，在学习数据集301B的识别中重要的特征全部由事先学习模型302学习的情况下，部分再初始化后的神经元能够容易地进行剪枝。另外，也可以在步骤S1202的剪枝后再次在步骤S605中学习神经网络。

实施例4

在实施例3中，记载了在部分再初始化处理1001中以小的值对参数进行再初始化，但也可以用与通常的学习同样的方法进行初始化，用不同的方法求出剪枝的区域。在本发明的实施例4中，对基于掩码层的剪枝进行记载。

图14表示基于掩码层的剪枝的概念。图14表示对在图像处理中经常使用的卷积神经网络应用掩码层1304时的结构。通常在卷积神经网络中应用多个卷积层1302，但图14是关注一个卷积层1302时的结构。在通常的卷积神经网络中，对输入1301应用卷积层1302、标准化层1303、激活层1305而得到输出1306。

若将卷积层1302的处理以及参数设为f、w，将标准化层1303的处理以及参数设为g、θ，将激活层1305的处理设为a，将输入设为x，将输出设为y，则卷积层1302的一系列的处理由式(3)表示。

[数式3]

y＝a(g(f(x；w)；θ)) (3)

在此，输入、输出x、y分别是3阶张量，具有图像特征的宽度、高度、特征通道的维度。通常，在使卷积层1302高速化的情况下，以特征通道为单位删除运算是有效的。例如在原来的卷积层1302具有128个通道的情况下，删除不影响识别性能的10个通道，输出118个通道。

在本发明的实施例4中，通过掩码层1304进行该通道的删除。如果将掩码层1304的处理和参数设为m、v，则式(3)所示的卷积层1302的一系列处理如式(4)所示。

[数式4]

y＝a(m(g(f(x；w)；θ)；v)) (4)

为了进行卷积层1302的特征通道单位的删除，掩码层1304学习参数ν。参数ν是具有与取0或者1的值的特征通道相同的维度的向量，掩码层1304的处理m在参数ν为1的部分直接输出所输入的特征地图，在参数v为0的部分将全部的宽度、高度的值设为0而输出。如果能够学习这样的参数v，则能够在对识别性能无影响地学习后删除参数v为0的部分的计算。即，在将卷积层1302以及标准化层1303应用于输入的隐藏变量设为h，将对隐藏变量h应用了掩码层的隐藏变量设为h′的情况下，h′的各要素由式(5)给出。

[数式5]

h′＝m(g(f(x；w)；θ)；v)＝m(h；v) (5)

另外，在式(5)中，应用了掩码层1304的隐藏变量h′能够用将卷积层处理1302以及标准化层1303应用于输入的隐藏变量h来表述，因此能够用式(6)来表示，该式(6)使作为3阶张量的隐藏变量的宽度i、高度j、特征通道的位置k可变。

[数式6]

h′_ijk＝v_kh_ijk (6)

在此，参数v取0或1的值，能够用式(7)表示。

[数式7]

v＝{O、1} (7)

然而，式(7)所示的取0或1的值的离散性参数v无法通过在神经网络的学习中通常使用的概率梯度法来学习。这是因为离散性参数v不传播梯度。因此，难以学习使参数v的哪个特征通道有效为好。

为了解决该课题，在本发明的实施例4中，还根据松弛伯努利分布在学习中对参数ν进行采样。松弛伯努利分布是将作为离散分布的伯努利分布松弛为连续分布的分布，能够通过概率梯度下降法进行学习。另外，也已知Gumbel-softmax这样的名称。在利用了松弛伯努利分布时，参数ν被采样为0.1或0.5等取0至1的值的连续值。掩码层1304对采样的参数ν所输入的特征地图的对应的全体通道计算乘积并输出。因此，在学习中，识别所不需要的通道的参数ν通过概率梯度下降法逐渐成为较小的值，对识别来说重要的通道的参数ν逐渐成为较大的值。掩码层1304为了对参数ν进行采样而学习松弛伯努利分布的分对数(Logit)。该分对数是与伯努利分布的分对数相同的参数。在分对数为大的值的情况下，在伯努利分布中生成1的概率变高，但在松弛伯努利分布中生成接近1的值的概率变高。在学习结束后的推论时，通过仅使用松弛伯努利分布的分对数比预定的值大的特征通道，能够以较少的运算量不降低识别精度地进行识别处理。即，掩码层1304的输出如式(8)所示。

[数式8]

h′_ijk＝v′_kh_iik (8)

在此，ν′是如式(9)那样从参数具有分对数l和温度t的松弛伯努利分布RB采样而得的值，成为0至1之间的连续的变量。这样，能够通过概率梯度下降法学习分对数l，能够学习进行剪枝的特征通道单位的掩码。

[数式9]

v′～RB(l、t) (9)

以在松弛伯努利分布内有效的通道数量成为预定的值以下的方式进行学习，从而能够学习为仅重要的特征通道分对数变大，对识别没有贡献的参数的分对数变小。由此，在学习最后阶段成为以较少的特征通道进行学习的状态，因此成为与图2所示的剪枝后的再学习同样的状况。因此，不需要再学习而通过仅利用分对数大的特征通道，就能够不降低识别精度地实施剪枝。在此，有效的通道数量成为预定的值以下那样的学习，是以使神经网络整体所具有的松弛伯努利分布的上位几成的分对数的分对数变大、使剩余的通道分对数变小的方式进行学习的方法，例如在与分对数的上位几成对应的特征通道中，通过使与设定为1的生成概率高的值的伯努利分布之间的KL(kullback-Leibler)信息量最小化等来进行。即，如式(10)那样，对学习时的损失函数加入与分对数相关的项。

[数式10]

L＝Lr+λ||θ||²+λ₁KL(B(l)||B(y₁)) (10)

在此，式(10)的第3项是具有与松弛伯努利分布RB(l、t)相同的分对数的伯努利分布B(l)和以与分对数的上位几成对应的要素成为较大值的yl为分对数的B(yl)的KL信息量。

另外，基于掩码层1304的剪枝处理也可以不与重要参数确定部组合而单独应用。

另外，也可以将通过掩码层的追加而得到的松弛伯努利分布的分对数的值用作由重要参数确定部304评价的重要度，进行基于图6所示的结构的学习处理。在该情况下，也能够视为越是分对数的值大的特征通道，在以通道为单位删除时对神经网络的识别性能造成的影响越大。

另外，在实施例3所示的结构中应用掩码层的情况下，在进行部分再初始化部1101的再初始化时，使用与通常同样的初始化方法对与神经网络有关的权重进行初始化，以比通常小的值对掩码层的分对数进行初始化。由此，关于再初始化后的参数，能够以比其他网络更容易剪枝的形式进行初始化。

实施例5

在实施例5中，说明针对具有复杂的网络结构的神经网络应用掩码层的方法。

图15是表示针对具有复杂的网络结构的神经网络的掩码层的应用方法的图。

在具有被称为残差捷径(Residual Shortcut)或残差连接(Residualconnection)的结构的神经网络中，如图15所示，多个卷积层共享相同的特征地图。例如，输入1401应用卷积层1402-a和1402-b，成为相同维度的3阶张量并取和。这两个卷积层的输出之和应用卷积层1402-c，计算与自身的和。此外，应用卷积层1402-d，计算与自身的和，成为输出1403。在此，为了简单起见，省略了卷积层以外的标准化层、掩码层、激活层，但也可以附带应用于各卷积层。这样，在多个卷积层1402-a～d共享相同的特征地图的情况下，有时不能高效地进行剪枝。

与此相对，图16是表示在具有图15所示的复杂的网络结构的神经网络中共享的卷积层1402-a～d这4个层中共享的4个通道的识别中有效程度与实际能够剪枝的通道的关系的图。

表的第一级通道编号1404表示各卷积层1402-a～d的4个特征通道的编号。有效特征通道1405-a～d表示各卷积层1402-a～d中有效的特征通道。在此，有效的特征通道是指掩码层1304所具有的分对数为阈值以上的特征通道。关于有效特征通道1405-a～d，在相应的通道编号的分对数为阈值以上的情况下，作为有效的特征通道，在对应的格子中记载1，在不是有效的特征通道的情况下记载0。例如，在有效特征通道1405-a中，与通道编号1和4相对应的掩码层1304的分对数的第一要素和第四要素为阈值以上，是对识别处理来说重要的特征通道。

逻辑和1406是共享特征地图的卷积层的有效特征通道1405-a～d的逻辑和。仅通道编号3在所有卷积层1402-a～d中无效，因此为0，在其他通道编号中，在卷积层1402-a～d中的任意一个中成为有效的特征通道，因此记载为1。在这样的情况下，存在任一特征通道在任一卷积层中都无效的情况，但只能删除如通道编号3那样在共享的卷积层1402-a～d的全部中无效的通道的运算处理。因此，难以删除大量的运算。

以往的剪枝方法是利用卷积层的参数的值、各参数的重要度来评价剪枝的参数，因此难以在共享特征地图的多个卷积层中使剪枝的特征通道一致。

掩码层1403能够确定对具有复杂的网络的层也能够高效地进行剪枝的特征通道。这是通过使共享特征地图的卷积层所附带的掩码层1304的松弛伯努利分布的分对数取相同值来进行的。例如，使用相同的参数或以使各分对数之间的KL信息量的变小的方式学习卷积层1402-a～d所附带的掩码层的分对数，由此执行该处理。除此以外，也可以使与多个分对数的平均、最大值等统计量的KL信息量变小，也可以如逻辑和1406那样使与将多个分对数所表示的有效特征通道的逻辑和视为参数ν取1的概率的伯努利分布的KL信息量变小。

实施例6

在实施例6中，对适合于本发明的学习处理装置的监视器画面的结构例进行说明。图17是表示用于实施轻量模型的学习的画面的结构的图。在图17的画面结构例中，由各种设定部、执行部和结果显示部构成。各种设定部由1501至1507的设定因素构成。

设定部中的学习数据集设定部1501是进行与学习数据集301B相关的设定的区域。在此，通过指定以预定的格式存储的存储区域来读入数据。评价数据集设定部1502是进行与评价数据集504相关的设定的区域。在此，进行与学习数据集设定部1501同样的设定。学习条件设定部1503是设定学习部(新模型生成部)306学习神经网络时的条件的区域。这例如与学习时的参数更新次数有关，或者是学习率时间表、权重衰减的系数、各种损失函数的系数。

网络结构设定部1504是进行与要学习的网络结构303相关的设定的区域。在此，操作者根据学习对象的识别处理来选择适当的网络结构303。事先学习模型设定部1505是设定事先学习模型302A的区域。在此，操作者选择或指定一个事先学习模型。

剪枝参数设定部1506是设定与剪枝相关的参数的区域。在使用掩码层1304的剪枝的情况下，设定松弛伯努利分布的分对数的初始值、决定分对数的掩码概率的初始值、与掩码层1304相关的损失函数的系数等。另外，一般在神经网络的学习中，在初期学习边缘、曲线等原始的图像特征，逐渐学习为了提高识别性能而重要的复杂的特征。因此，在从学习初期起将与掩码层相关的损失函数设定得较强、或较多的特征通道不变为有效那样的设定中，有时难以进行学习。因此，可以在学习初期将掩码的损失函数的系数设为极小的值，也可以随着学习的进行而逐渐松弛决定允许掩码层1304的分对数中的上位几成有效的掩码目标值。例如，可以在学习的初期30％使掩码损失函数的系数为零，或者在学习的初期50％仅使网络整体的特征通道中的10％有效，直到学习的进展75％为止使达到20％的特征通道有效，直到学习结束为止使30％的特征通道有效来进行学习。

重要参数确定条件设定部1507是进行与重要参数确定部304的处理条件相关的设定的区域。在此，例如作为重要度的评价函数，设定海赛矩阵与参数的矩阵积、海赛矩阵的对角成分与参数向量的要素积、梯度信息与参数向量的要素积的绝对值、作为海赛矩阵的代替而使用具有K-FAC的掩码层等条件。另外，设定进行转移的参数的比例、有无部分再初始化的执行、执行方法。

接着，执行部由重要度评价执行部1508和学习结果显示部1510构成。在此，当操作者选择了重要度评价执行部1508时，重要参数确定部304进行动作，进行所设定的事先学习模型302的各参数的重要度评价。当操作者选择轻量模型制作执行部1509时，学习部306动作，按照所设定的条件从步骤S604起开始学习流程。

学习结果显示部1510是显示与学习结果相关的信息的区域。在此，例如显示达成的识别性能、得到的轻量模型的推论所需的时间、相对于学习时间的识别性能以及有效特征通道数量的变化。另外，也可以在选择重要度评价执行部1508并完成评价的时间点显示重要度的直方图。

操作者使用这些信息来调整各参数，直到达到所期望的识别性能、推论速度为止。

图18是表示用于实施针对多个事先学习模型的候补的重要度评价的画面结构的图。在该情况下，画面也由设定部、执行部和结果显示部构成。

操作者使用该画面来决定在图17所示的轻量模型505的学习中使用的事先学习模型。学习数据集设定部1501、网络结构设定部1504、重要参数确定条件设定部1507与图17相同。

评价事先学习模型设定部1601设定评价重要度的事先学习模型。在图8以及图9中记载了对事先学习模型候补提取部802提取出的事先学习模型的候补全部进行评价的例子，但为了缩短评价时间，操作者也可以选择在评价事先学习模型设定部1601中进行重要度评价的模型。另外，在此，也可以将事先学习模型候补提取部802提取出的事先学习模型提示给用户。

当操作者选择重要度评价统一执行部1602时，从图10记载的重要度评价流程的步骤S903开始处理。

事先学习模型评价结果显示部1603显示各事先学习模型的评价结果。在此，记载了显示图8所示的表和所选择的事先学习模型的重要度的直方图的例子。

根据采用了以上的画面结构的本发明，能够高效地学习轻量模型505。

本发明并不限定于上述实施方式，包含各种变形例。例如，上述的实施方式是为了容易理解地说明本发明而详细地进行了说明的实施方式，并不限定于必须具备所说明的全部结构。另外，能够将某实施方式的结构的一部分置换为其他实施方式的结构，另外，也能够在某实施方式的结构中添加其他实施方式的结构。另外，能够对各实施方式的结构的一部分进行其他结构的追加、删除、置换。

符号说明

101：输入图像，102(102-1、102-2、102-3、102-4)：图像处理部(学习模型)，103(103-1、103-2、103-3、103-4)：处理结果部，102′(102-1、102′-2、102′-3)：图像处理部(按环境分类的模型)，103′(103′-1、103′-2、103′-3)：处理结果部，201：以往的剪枝中的学习处理，202：以往的剪枝中的剪枝处理，203：以往的剪枝中的再学习处理，204：基于以往的剪枝的神经网络的构成例，301(301A、301B)：学习数据集，302：事先已学习模型，303：未剪枝的神经网络，304：重要参数确定部，305：由提取出的重要参数构成的神经网络，306：新模型生成部，307：学习处理，401、402：学习曲线，503：模型评价部，504：评价数据集，700：重要度评价表，701：事先学习模型类别，702：事先学习数据集，703：重要度总和，704：剪枝后重要度总和，801：已学习模型存储部，802：事先学习模型候补提取部，803：事先学习模型选择部，804：重要度评价结果存储部，1001：部分再初始化处理部，1002：部分再初始化后的神经网络，1003：剪枝处理部，1004：剪枝后的神经网络，1301：向卷积层的输入，1302：卷积层，1303：标准化层，1304：掩码层，1305：激活层，1306：一系列的卷积层的输出，1401：向具有复杂的网络结构的神经网络的输入，1402-a～d：具有复杂的网络结构的神经网络中的多个卷积层，1403：具有复杂的网络结构的神经网络的输出。

Claims

1.一种学习处理装置，其从已有的第一学习模型得到新的第二学习模型，其特征在于，所述学习处理装置具备：

输入部，其得到学习第一学习数据集而事先生成的第一学习模型和未被剪枝的神经网络；

重要参数确定部，其使用所述第一学习模型和所述神经网络对作为学习对象的所述神经网络进行初始化，使用第二学习数据集和初始化后的所述神经网络，确定初始化后的所述神经网络的识别处理中的参数的重要度；

新模型生成部，其使用所述参数的重要度，进行从初始化后的所述神经网络删除不重要的参数的剪枝处理，生成第二神经网络；

学习部，其使用所述第二学习数据集来学习所述第二神经网络；以及

输出部，其将学习后的所述第二神经网络作为第二学习模型而输出。

2.根据权利要求1所述的学习处理装置，其特征在于，

所述学习处理装置具备：显示部，其针对多个所述第一学习模型分别求出由所述重要参数确定部求出的参数的重要度，与所述第一学习模型的类别一起进行存储，并作为重要度信息进行提示。

3.根据权利要求2所述的学习处理装置，其特征在于，

所述重要度包括重要度总和与剪枝后重要度总和。

4.根据权利要求1所述的学习处理装置，其特征在于，

所述学习处理装置具备：部分再初始化部，其针对所述重要参数确定部提供的重要度，在所述第一学习模型未能对学习对象的识别处理中重要的特征进行学习的情况下，部分地将被剪枝的参数再次初始化，

所述学习处理装置在部分地再初始化后进行所述新模型生成部的处理。

5.根据权利要求1所述的学习处理装置，其特征在于，

神经网络是卷积神经网络，

通过松弛伯努利分布对卷积神经网络所包含的卷积层的一部分或全部学习是否将卷积层的输出的特征通道用于识别。

6.根据权利要求5所述的学习处理装置，其特征在于，

在所述松弛伯努利分布的学习时，在学习中逐渐增大将特征通道用于识别的量。

7.根据权利要求6所述的学习处理装置，其特征在于，

通过根据与损失函数的所述神经网络的参数相关的1阶或2阶微分信息和所述神经网络的参数求出的量或所述松弛伯努利分布的参数来求出所述重要度的评价。

8.根据权利要求7所述的学习处理装置，其特征在于，

将未通过所述第一学习模型的参数进行初始化的网络结构的部分进行初始化时，以成为容易剪枝的值的方式进行初始化。

9.一种学习处理方法，从已有的第一学习模型得到新的第二学习模型，其特征在于，所述学习处理方法具备如下步骤：

得到学习第一学习数据集而事先生成的第一学习模型和未被剪枝的神经网络；

使用所述第一学习模型和所述神经网络对作为学习对象的所述神经网络进行初始化，使用第二学习数据集和初始化后的所述神经网络，确定初始化后的所述神经网络的识别处理中的参数的重要度；

使用所述参数的重要度，进行从初始化后的所述神经网络删除不重要的参数的剪枝处理，生成第二神经网络；

使用所述第二学习数据集来学习所述第二神经网络；以及

将学习后的所述第二神经网络作为第二学习模型。

10.一种学习处理方法，从已有的第一学习模型得到新的第二学习模型，其特征在于，所述学习处理方法具备如下步骤：

使用未剪枝的神经网络和第一学习模型对作为学习对象的所述未剪枝的神经网络进行初始化；

使用第二学习数据集和初始化后的所述神经网络，求出初始化后的所述神经网络的识别处理中的参数的重要度，进行与重要度对应的剪枝处理；以及

通过使用了所述第二学习数据集的剪枝后的所述神经网络的学习得到第二学习模型。