CN112598108A

CN112598108A - 信息处理设备、处理信息的方法和计算机可读记录介质

Info

Publication number: CN112598108A
Application number: CN202010896137.5A
Authority: CN
Inventors: 坂井靖文
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-09-17
Filing date: 2020-08-31
Publication date: 2021-04-02
Also published as: JP2021047481A; US20210081801A1; JP7322622B2; EP3796232A1

Abstract

提供了信息处理设备、处理信息的方法和计算机可读记录介质。信息处理设备包括：量化单元，其被配置成量化在神经网络中使用的变量中的至少一个变量；噪声添加单元，其被配置成向变量中的至少一个变量中的每个变量添加噪声；以及学习单元，其被配置成通过使用已经添加了预定噪声的经量化的变量中的至少一个经量化的变量来执行神经网络。

Description

信息处理设备、处理信息的方法和计算机可读记录介质

技术领域

本文讨论的实施方式涉及信息处理设备、用于处理信息的方法和计算机可读记录介质。

背景技术

在相关技术中，已知一种将在神经网络(NN)中使用的各种变量(权重参数、梯度信息、差值等)量化为固定的十进制值的方法，作为用于减少NN的执行时间的方法。

相关技术在例如日本公开特许公报第2018-120441号中公开。

发明内容

[技术问题]

然而，当通过量化各种变量来执行NN时，存在与不量化各种变量的情况下执行NN的情况相比准确度劣化的问题。

实施方式的一方面的目的是抑制在通过量化神经网络中使用的变量来执行该神经网络的情况下的准确度的劣化。

[问题的解决方案]

根据实施方式的一方面，一种信息处理装置包括：量化单元，其被配置成量化在神经网络中使用的变量中的至少一个变量；噪声添加单元，其被配置成向变量中的至少一个变量中的每个变量添加预定噪声；以及学习单元，其被配置成通过使用已经添加了预定噪声的经量化的变量中的至少一个经量化的变量来执行神经网络。

附图说明

图1是示出信息处理设备的硬件配置的示例的图；

图2是示出信息处理设备的功能配置的示例的图；

图3是示出信息处理设备的学习单元的功能配置的示例的图；

图4是示出由量化单元执行的处理的具体示例的图；

图5是示出由噪声添加单元添加的噪声的特性的图；

图6是示出由噪声添加单元执行的处理的具体示例的图；

图7是示出由更新单元执行的处理的具体示例的图；

图8A和图8B是示出设置处理和学习处理的过程的流程图；

图9是示出向经量化的梯度信息添加噪声的效果的图；以及

图10是示出学习处理的过程的流程图。

[本发明的有益效果]

在一个方面，可以抑制在通过量化在神经网络中使用的变量来执行神经网络的情况下的准确度的劣化。

具体实施方式

在下文中，将参照附图来描述相应的实施方式。在本说明书和附图中，具有基本相同的功能配置的部件将通过相同的附图标记表示并且将省略冗余的描述。

[第一实施方式]

<信息处理设备的硬件配置>

首先，描述了包括通过使用用于深度学习的框架来执行神经网络(NN)的处理器的信息处理设备100的硬件配置。图1是示出信息处理设备的硬件配置的示例的图。如图1所示，信息处理设备100包括通用处理器101、存储器102和专用处理器103。通用处理器101、存储器102和专用处理器103构成所谓的计算机。

信息处理设备100还包括辅助存储装置104、显示设备105、操作装置106和驱动装置107。信息处理设备100的硬件部件经由总线108彼此耦接。

通用处理器101是诸如中央处理单元(CPU)的计算装置，并且执行安装在辅助存储装置104中的各种程序(例如，实现用于深度学习的框架的信息处理程序)。

存储器102是主存储装置，包括非易失性存储器诸如只读存储器(ROM)和易失性存储器诸如随机存取存储器(RAM)。存储器102存储用于通用处理器101执行安装在辅助存储装置104中的各种程序的各种程序，并且提供当由通用处理器101执行时加载各种程序的工作区域。

专用处理器103是用于深度学习的处理器，并且包括例如图形处理单元(GPU)。当通用处理器101执行各种程序时，专用处理器103通过对图像数据的并行处理来执行例如高速操作。

辅助存储装置104是存储当执行各种程序时要使用的各种程序和数据的辅助存储装置。例如，在辅助存储装置104中实现稍后将描述的学习数据存储单元。

显示设备105是显示信息处理设备100的内部状态等的显示装置。操作装置106是当信息处理设备100的用户向信息处理设备100输入各种指令时使用的输入装置。

驱动装置107是其中设置有记录介质110的装置。本文提到的记录介质110的示例包括以光学方式、电气方式或磁性方式记录信息的介质，诸如CD-ROM、软盘和磁光盘。记录介质110的示例还可以包括以电气方式记录信息的半导体存储器等，诸如ROM和闪速存储器。

例如，通过将分布式记录介质110设置到驱动装置107中并且驱动装置107读取记录在记录介质110中的各种程序来安装在辅助存储装置104中安装的各种程序。可替选地，可以通过从未示出的网络下载来安装在辅助存储装置104中安装的各种程序。

<信息处理设备的功能配置>

接下来，描述信息处理设备100的功能配置。图2是示出信息处理设备的功能配置的示例的图。如上所述，信息处理程序被安装在信息处理设备100中，并且信息处理设备100的处理器通过执行该程序来实现用于深度学习的框架200。如图2所示，在第一实施方式中，用于深度学习的框架200包括：添加噪声接收单元210、添加噪声设置单元220和学习单元230。

添加噪声接收单元210接收要被添加至在学习单元230的NN中使用的各种变量中的经量化的变量的噪声的输入。在第一实施方式中，在NN中使用的各种变量中，在学习时通过后向传播差值计算的梯度信息被量化。例如，在第一实施方式中，添加噪声接收单元210接收要被添加至经量化的梯度信息的噪声的输入。

添加噪声设置单元220将由添加噪声接收单元210接收的噪声设置在学习单元230的NN中。

学习单元230通过使用学习数据(输入数据和正确数据)执行NN来执行学习处理。例如，学习单元230从学习数据存储单元240读取输入数据，并且将读取的输入数据输入到NN中，以执行用于计算输入数据的前向传播处理。

学习单元230从学习数据存储单元240读取正确数据并且计算通过前向传播处理获得的计算结果与读取的正确数据之间的差值。学习单元230还执行后向传播处理，其中，在后向传播所计算的差值的同时计算梯度信息。

学习单元230量化所计算的梯度信息，并且向经量化的梯度信息添加由添加噪声设置单元220设置的噪声。此外，学习单元230通过将已经添加了噪声的梯度信息与学习率相乘并且从先前学习的权重参数减去相乘的结果来执行更新先前学习的权重参数的更新处理。因此，在下一前向传播处理中，可以通过使用更新的权重参数对输入数据进行计算。

<学习单元的功能配置>

接下来，描述学习单元230的功能配置。图3是示出信息处理设备的学习单元的功能配置的示例的图。如图3所示，学习单元230包括输入层311、第一神经元层312、第二神经元层313、第三神经元层314以及差分器315。尽管在图3的示例中神经元层的数目是三，但是包括在学习单元230中的神经元层的数目不限于三。

输入层311从学习数据存储单元240中以小批为单位读取输入数据和正确数据的集合并且将输入数据输入至第一神经元层312中。输入层311还将正确数据输入到差分器315中。

第一神经元层312包括梯度信息计算单元321_1、量化单元322_1、噪声添加单元323_1以及更新单元324_1。

梯度信息计算单元321_1在学习时根据由差分器315计算出的差值来计算梯度信息(▽w₁)。量化单元322_1量化所计算的梯度信息(▽w₁)。噪声添加单元323_1向经量化的梯度信息(▽w₁)添加噪声(N₁)。由噪声添加单元323_1添加的噪声(N₁)是由添加噪声接收单元210接收并由添加噪声设置单元220设置的噪声。

更新单元324_1通过将已经添加了噪声(N₁)的梯度信息与学习率(η₁)相乘来更新在先前学习时由更新单元324_1计算的权重参数(W_1(t))。在第一神经元层312中，通过使用更新的权重参数(W_1(t+1))对输入数据进行计算。第一神经元层312将已经经过计算的输入数据输入至第二神经元层313中。

类似地，第二神经元层313包括梯度信息计算单元321_2、量化单元322_2、噪声添加单元323_2和更新单元324_2。

梯度信息计算单元321_2在学习时根据由差分器315计算出的差值来计算梯度信息(▽w₂)。量化单元322_2量化所计算的梯度信息(▽w₂)。噪声添加单元323_2向经量化的梯度信息(▽w₂)添加噪声(N₂)。由噪声添加单元323_2添加的噪声(N₂)是由添加噪声接收单元210接收并由添加噪声设置单元220设置的噪声。

更新单元324_2通过将已经添加了噪声(N₂)的梯度信息与学习率(η₂)相乘来更新在先前学习时由更新单元324_2计算的权重参数(W_2(t))。在第二神经元层313中，通过使用更新的权重参数(W_2(t+1))对输入数据进行计算。第二神经元层313将已经经过计算的输入数据输入至第三神经元层314中。

类似地，第三神经元层314包括梯度信息计算单元321_3、量化单元322_3、噪声添加单元323_3和更新单元324_3。

梯度信息计算单元321_3在学习时根据由差分器315计算出的差值来计算梯度信息(▽w₃)。量化单元322_3量化所计算的梯度信息(▽w₃)。噪声添加单元323_3向经量化的梯度信息(▽w₃)添加噪声(N₃)。由噪声添加单元323_3添加的噪声(N₃)是由添加噪声接收单元210接收并由添加噪声设置单元220设置的噪声。

更新单元324_3通过将已经添加了噪声(N₃)的梯度信息与学习率(η₃)相乘来更新在先前学习时由更新单元324_3计算的权重参数(W_3(t))。在第三神经元层314中，通过使用更新的权重参数(W_3(t+1))对输入数据进行计算。第三神经元层314将通过对输入数据执行计算而获得的计算结果输入至差分器315中。

差分器315计算从输入层311输入的正确数据与从第三神经元层314输入的计算结果之间的差值，并且后向传播所计算的差值。作为其结果，第一神经元层312至第三神经元层314计算要用于下一学习的梯度信息。

<由学习单元的相应单元执行的处理的具体示例>

接下来，将描述由学习单元230的相应神经元层中包括的相应单元(此处为量化单元322_1至322_3、噪声添加单元323_1至323_3以及更新单元324_1至324_3)执行的处理的具体示例。

(1)由量化单元执行的处理的具体示例

首先，描述由量化单元322_1至322_3执行的处理的具体示例。图4是示出由量化单元执行的处理的具体示例的图。如上所述，量化单元322_1至322_3在学习期间每当后向传播差值时就从梯度信息计算单元321_1至321_3接收梯度信息。

此处，由量化单元322_1至322_3接收的梯度信息▽w(▽w₁至▽w₃)的每个值是例如(0，1.1，-0.8，0.5，-5.2，...)。如图4所示，表示梯度信息▽w的每个值的出现频率的直方图遵循正态分布(参见附图标记410)。

在由附图标记410表示的直方图中，横轴表示由量化单元322_1至322_3接收的梯度信息▽w的每个值，而纵轴表示每个值的出现频率。

例如，由附图标记410指示的直方图是平均值为0并且方差值是梯度信息▽w的可能最大值的1/3倍的正态分布的直方图。

此处，当量化单元322_1至322_3对梯度信息▽w进行量化时，表示经量化的梯度信息▽w的每个值的出现频率的直方图具有如附图标记420所示的分布。例如，作为量化的结果，量化后的负的最小值与量化后的正的最小值之间的值(即，0附近的值)的出现频率变为0，并且仅出现超过量化后的正的最小值的值或小于量化后的负的最小值的值。

(2)由噪声添加单元执行的处理的具体示例

接下来，描述由噪声添加单元323_1至323_3执行的处理的具体示例。图5是示出由噪声添加单元添加的噪声的特性的图。由噪声添加单元323_1至323_3添加的噪声N(N₁至N₃)是由添加噪声接收单元210接收并且由添加噪声设置单元220设置的噪声，并且例如是(0，0.5，-0.8，1.1，...)。

图5中由附图标记500表示的直方图表示噪声N(N₁至N₃)的每个值的出现频率。例如，添加噪声接收单元210接收其中每个值的出现频率具有由附图标记500表示的直方图的噪声N(N₁至N₃)，并且添加噪声设置单元220将噪声N(N₁至N₃)设置在噪声添加单元323_1至323_3中。

如图5所示，噪声N仅包括通过由量化单元322_1至322_3执行的对梯度信息▽w的量化获得的量化后的负的最小值与量化后的正的最小值之间的值。换句话说，噪声N不包括小于通过由量化单元322_1至322_3执行的对梯度信息▽w的量化而获得的量化后的负的最小值的值。另外，噪声N不包括超过通过由量化单元322_1至322_3执行的对梯度信息▽w的量化而获得的量化后的正的最小值的值。

由附图标记500表示的直方图是平均值为0并且方差值是梯度信息▽w的可能最大值的1/3倍的正态分布的直方图。如上所述，噪声N(N₁至N₃)的每个值的出现频率由量化前的梯度信息▽w(▽w₁至▽w₃)的每个值的出现频率确定。

图6是示出由噪声添加单元执行的处理的具体示例的图。如上所述，噪声添加单元323_1至323_3将噪声N添加至经量化的梯度信息▽w。图6示出了表示经量化的梯度信息▽w的每个值的出现频率的直方图(附图标记420)、表示噪声N的每个值的出现频率的直方图(附图标记500)、以及表示通过向经量化的梯度信息▽w添加噪声N而获得的添加噪声的梯度信息的每个值的出现频率的直方图(附图标记600)之间的关系。

如图6所示，由附图标记600表示的直方图是平均值为0并且方差值是梯度信息▽w的可能最大值的1/3倍的正态分布的直方图。

如上所述，噪声添加单元323_1至323_3添加噪声N(N₁至N₃)以对作为由量化单元322_1至322_3执行的量化的结果的其出现频率变为0的值进行补充。因此，再现了与量化前的梯度信息▽w的每个值的出现频率类似的出现频率。因此，抑制了量化单元322_1至322_3的量化的影响，并且因此可以抑制在通过量化梯度信息▽w执行学习处理的情况下的准确度的劣化。

(3)由更新单元执行的处理的具体示例

接下来，描述由更新单元324_1至324_3执行的处理的具体示例。图7是示出由更新单元执行的处理的具体示例的图。如图7所示，更新单元324_1至324_3将已经添加了噪声N(N₁至N₃)的经量化的梯度信息▽w(▽w₁至▽w₃)与学习率η(η₁至η₃)相乘，并从先前的权重参数W_t(W_1(t)至W_3(t))减去该结果。因此，更新单元324_1至324_3更新先前的权重参数W_t(W_1(t)至W_3(t))，并且计算更新的权重参数W_t+1(W_1(t+1)至W_3(t+1))。

<设置处理和学习处理的过程>

接下来，将描述由信息处理设备100执行的设置处理和学习处理的过程。图8A和图8B是示出设置处理和学习处理的过程的流程图。

在这些图中，图8A是示出由信息处理设备100执行的设置处理的过程的流程图。在步骤S801中，添加噪声接收单元210接收要被添加至在学习单元230的NN中使用的各种变量中的经量化的变量(第一实施方式中为梯度信息▽w(▽w₁至▽w₃))的噪声N(N₁至N₃)的输入。

在步骤S802中，添加噪声设置单元220将由添加噪声接收单元210接收的噪声N(N₁至N₃)设置在噪声添加单元323_1至323_3中。

图8B是示出由信息处理设备100执行的学习处理的过程的流程图。如图8B所示，在步骤S811中，学习单元230从学习数据存储单元240以小批为单位读取学习数据。

在步骤S812中，学习单元230对包括在以小批为单位读取的学习数据中的输入数据执行前向传播处理。

在步骤S813中，学习单元230计算包括在以小批为单位读取的学习数据中的正确数据与通过前向传播处理获得的计算结果之间的差值，并且执行向后传播所计算的差值的后向传播处理。

在步骤S814中，学习单元230基于差值计算梯度信息▽w(▽w₁至▽w₃)。在步骤S815中，学习单元230量化所计算的梯度信息▽w(▽w₁至▽w₃)。在步骤S816中，学习单元230将噪声N(N₁至N₃)添加至经量化的梯度信息。在步骤S817中，学习单元230将已经添加了噪声N(N₁至N₃)的梯度信息▽w(▽w₁至▽w₃)与学习率η(η₁至η₃)相乘，并且从在先前学习中计算的权重参数W_t(W_1(t)至W_3(t))减去该结果。因此，学习单元230更新在先前学习中计算的权重参数W_t(W_1(t)至W_3(t))。

在步骤S818中，学习单元230确定是否完成学习处理。在学习单元230已经确定继续学习处理的情况下(在步骤S818的结果为否的情况下)，处理返回至步骤S811。在步骤S818中学习单元230已经确定完成学习处理的情况下(在步骤S818的结果为是的情况下)，学习单元230完成学习处理。

<添加噪声的效果>

接下来，描述向经量化的梯度信息添加噪声的效果。图9是示出向经量化的梯度信息添加噪声的效果的图。在图9中，横轴表示由学习单元230执行的学习的次数，纵轴表示准确度。在图9中，曲线900表示在不量化梯度信息的情况下执行学习处理的情况的准确度的转变。

相比之下，曲线910和920表示通过量化梯度信息来执行学习处理的情况的准确度的转变。在这些图中，曲线910表示向经量化的梯度信息添加噪声的情况，曲线图920表示不向经量化的梯度信息添加噪声的情况。

根据曲线910与曲线920之间的比较清楚的是，在向经量化的梯度信息添加噪声的情况下，与未向经量化的梯度信息添加噪声的情况相比，可以抑制准确度的劣化。

根据以上描述清楚的是，根据第一实施方式的信息处理设备100中包括的处理器通过用于深度学习的框架执行NN，并且执行学习处理。另外，根据第一实施方式的信息处理设备100中包括的处理器在学习处理中量化NN中所使用的梯度信息，并且向经量化的梯度信息添加预定噪声。此外，在学习处理中，根据第一实施方式的信息处理设备100中包括的处理器通过使用已经添加了预定噪声的经量化的梯度信息来执行NN。

如上所述，在根据第一实施方式的信息处理设备100中，在学习处理期间，通过预定噪声来补充作为量化的结果的其出现频率变为0的值。因此，根据第一实施方式的信息处理设备100可以再现与量化前的梯度信息的每个值的出现频率类似的出现频率。因此，可以抑制梯度信息的量化的影响，并且可以抑制通过量化梯度信息来执行学习处理的情况的准确度的劣化。

[第二实施方式]

在第一实施方式中，已经描述了仅量化在学习单元的NN中使用的各种变量中的梯度信息的情况。然而，在学习单元的NN中使用的各种变量中，要量化的变量不限于梯度信息，并且可以量化其他变量(权重参数、差值等)。

在第二实施方式中，将描述其中除了量化梯度信息之外还量化权重参数和差值并且与第一实施方式类似地向每个经量化的变量添加噪声的情况。在下文中，将主要描述第二实施方式与第一实施方式的不同之处。

<学习处理的过程>

图10是示出学习处理的过程的流程图。步骤S1001至S1004不同于图8B的学习处理。假定在图10的学习处理开始之前预先设置添加至经量化的梯度信息的噪声、添加至经量化的权重参数的噪声和添加至经量化的差值的噪声。

在步骤S1001中，学习单元230量化用于前向传播处理中的输入数据的计算的权重参数。

在步骤S1002中，学习单元230向经量化的权重参数添加噪声。然后，学习单元230通过使用已经添加了噪声的权重参数对包括在以小批为单位读取的学习数据中的输入数据执行计算。

在步骤S1003的后向传播处理中，学习单元230计算包括在以小批为单位读取的学习数据中的正确数据与通过前向传播处理获得的计算结果之间的差值，并且量化所计算的差值。

在步骤S1004中，学习单元230向经量化的差值添加噪声，并后向传播添加噪声的差值。

从以上描述中清楚的是，在学习处理中，根据第二实施方式的信息处理设备100中包括的处理器量化在NN中使用的各种变量(权重参数、差值和梯度信息)，并且向经量化的变量中的每一个添加预定噪声。此外，在学习处理中，根据第二实施方式的信息处理设备100中包括的处理器通过使用已经添加了预定噪声的经量化的权重参数、差值和梯度信息来执行NN。

如上所述，在根据第二实施方式的信息处理设备100中，在学习处理期间，通过预定噪声来补充作为量化的结果的其出现频率变为0的值。因此，根据第二实施方式的信息处理设备100可以再现与量化前各种变量的每个值的出现频率类似的出现频率。因此，可以抑制各种变量的量化的影响，并且可以抑制通过量化各种变量来执行学习处理的情况的准确度的劣化。

[其他实施方式]

在以上实施方式的每一个中，已经描述了向在学习单元的NN中使用的各种变量添加噪声的情况。然而，添加了噪声的各种变量不限于在学习单元的NN中使用的各种变量，并且当已经由学习单元进行了学习处理的学习的NN用作推断单元时，可以向各种变量(例如，权重参数)添加噪声。因此，可以抑制当通过量化各种变量来执行推断处理时的准确度的劣化。

此外，在上述实施方式的每一个中，已经描述了假定噪声的每个值被设置成使得其出现频率具有正态分布(平均值为0并且方差值为量化前的可能最大值的1/3倍的正态分布)的直方图。然而，要设置的噪声不限于每个值的出现频率具有正态分布的直方图的这样的噪声。

例如，噪声的每个值被设置成使得其出现频率具有正态分布(其中平均值为0并且方差值为量化前的可能最大值的1/M倍(M是整数，例如5或7)的正态分布)的直方图。可替选地，噪声的每个值可以被设置成使得其出现频率具有除正态分布之外的概率分布(例如，均匀分布、拉普拉斯分布或伽马分布)的直方图。

可替选地，可以基于变量的统计信息来拟合概率分布模型，并且噪声的每个值可以被设置成使得其出现频率具有经拟合的概率分布模型的直方图。

尽管在假定添加噪声接收单元210、添加噪声设置单元220和学习单元230(以及推断单元)在单个信息处理设备100中实现的情况下描述了以上实施方式，但是这些单元可以在多个信息处理设备中实现。

本公开内容不限于本文所示的配置，而根据前述实施方式例示的配置例如也可以与其他元素组合。这些方面可以在不脱离本公开内容的主旨的情况下进行改变并且可以根据其应用模式而适当设置。

Claims

1.一种信息处理设备，包括：

量化单元，其被配置成量化在神经网络中使用的变量中的至少一个变量；

噪声添加单元，其被配置成向所述变量中的至少一个变量中的每个变量添加预定噪声；以及

学习单元，其被配置成通过使用已经添加了所述预定噪声的经量化的变量中的至少一个经量化的变量来执行所述神经网络。

2.根据权利要求1所述的信息处理设备，

其中，在所述量化中被量化的变量中的至少一个变量包括在学习期间后向传播的差值、在学习期间通过后向传播所述差值计算的梯度信息以及在学习或推断期间用于输入数据的计算的权重参数中的至少一个。

3.根据权利要求2所述的信息处理设备，

其中，所述噪声添加单元包括在所述添加中向所述经量化的变量添加其表示噪声的每个值的出现频率的直方图具有预定概率分布的噪声。

4.根据权利要求3所述的信息处理设备，

其中，所述学习单元包括：在所述量化中对在学习期间通过后向传播所述差值计算的所述梯度信息进行量化并且在所述添加中向经量化的梯度信息添加噪声的情况下，通过将已经添加了所述噪声的经量化的梯度信息与学习率相乘并且从先前学习的权重参数减去所述相乘的结果来更新所述先前学习的权重参数。

5.根据权利要求4所述的信息处理设备，

其中，所述概率分布是其平均值为0、其方差值是所述梯度信息的最大值的1/M倍(M是整数)的正态分布，并且其中，所述噪声的等于或大于经量化的梯度信息的最小值的值的出现频率为0。

6.一种用于通过执行神经网络的处理器来处理信息的方法，所述信息处理方法包括：

量化在神经网络中使用的变量中的至少一个变量；

向所述变量中的至少一个变量中的每个变量添加预定噪声；以及

通过使用已经添加了所述预定噪声的经量化的变量中的至少一个经量化的变量来执行所述神经网络。

7.一种计算机可读记录介质，其中存储有用于使执行神经网络的处理器执行包括以下的处理的程序：

量化在所述神经网络中使用的变量中的至少一个变量；