CN107506829A

CN107506829A - 一种神经网络初始化方法、装置、可读介质及存储控制器

Info

Publication number: CN107506829A
Application number: CN201710756629.2A
Authority: CN
Inventors: 张旭; 段成德; 于治楼
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2017-12-22

Abstract

本发明提供了一种神经网络初始化方法、装置、可读介质及存储控制器，该方法包括：根据待训练神经网络的结构以及权重值数量，构建离散神经网络，并确定所述离散神经网络对应的权重值的取值范围；在确定出的所述取值范围内，确定当前离散训练值；利用所述离散神经网络，确定与所述当前离散训练值对应的梯度值；确定所述梯度值是否不大于预设第一阈值；如果是，根据所述当前离散训练值，确定全局最优离散权重参数；将确定出的所述最优离散权重参数赋值给所述待训练神经网络，利用所述全局最优离散权重参数，对所述待训练神经网络进行训练。本方案能缩短神经网络的训练时间。

Description

一种神经网络初始化方法、装置、可读介质及存储控制器

技术领域

本发明涉及计算机技术领域，特别涉及一种神经网络初始化方法、装置、可读介质及存储控制器。

背景技术

随着计算机技术的发展，神经网络已经语音识别、文本处理和视觉目标识别等多个领域表现出强大的能力。神经网络的特征的层数越多，训练好的神经网络的识别性能越强。

在传统神经网络的训练时，通常有多个训练过程同时进行，每个训练过程采用随机初始化的方式对神经网络的权重值进行初始化。传统神经网络的权重值一般为一定取值范围内的浮点数，随机初始化的方式即从该取值范围内的任一浮点数开始进行训练。

在该训练过程中，大量浮点数以及多个训练过程使得神经网络的训练需要较长的时间。

发明内容

本发明实施例提供了一种神经网络初始化方法、装置、可读介质及存储控制器，能缩短神经网络的训练时间。

第一方面，本发明实施例提供了一种神经网络初始化方法，包括：

根据待训练神经网络的结构以及权重值数量，构建离散神经网络，并确定所述离散神经网络对应的权重值的取值范围；

在确定出的所述取值范围内，确定当前离散训练值；

利用所述离散神经网络，确定与所述当前离散训练值对应的梯度值；

确定所述梯度值是否不大于预设第一阈值；

如果是，根据所述当前离散训练值，确定全局最优离散权重参数；

将确定出的所述最优离散权重参数赋值给所述待训练神经网络，利用所述全局最优离散权重参数，对所述待训练神经网络进行训练。

优选地，

当确定出所述当前离散训练值对应的梯度值大于预设第一阈值时，进一步包括：

根据所述离散神经网络的梯度方向，在所述取值范围中，确定临近离散训练值；

将所述临近离散训练值作为当前离散训练值，执行所述利用所述离散神经网络，确定与所述当前离散训练值对应的梯度值。

优选地，

所述根据所述当前离散训练值，确定全局最优离散权重参数，包括：

利用所述离散神经网络，确定与所述当前离散训练值对应的损失值；

确定所述损失值是否小于预设第二阈值，如果是，将所述当前离散训练值作为所述全局最优离散权重参数。

优选地，

所述在确定出的所述取值范围内，确定当前离散训练值，包括：

确定离散训练值的个数；

根据所述离散训练值的个数，将所述取值范围划分为至少两个取值域；其中，每一个所述取值域对应一个所述离散训练值；

从各个所述离散训练值中，选择所述当前离散训练值。

第二方面，本发明实施例提供了一种神经网络初始化装置，包括：构建单元、确定单元和训练单元；其中，

所述构建单元，用于根据待训练神经网络的结构以及权重值数量，构建离散神经网络，并确定所述离散神经网络对应的权重值的取值范围；

所述确定单元，用于在确定出的所述取值范围内，确定当前离散训练值；利用所述离散神经网络，确定与所述当前离散训练值对应的梯度值；确定所述梯度值是否不大于预设第一阈值；如果是，根据所述当前离散训练值，确定全局最优离散权重参数；

所述训练单元，用于将确定出的所述最优离散权重参数赋值给所述待训练神经网络，利用所述全局最优离散权重参数，对所述待训练神经网络进行训练。

优选地，

所述确定单元，进一步用于当确定出所述当前离散训练值对应的梯度值大于预设第一阈值时，根据所述离散神经网络的梯度方向，在所述取值范围中，确定临近离散训练值；将所述临近离散训练值作为当前离散训练值，执行所述利用所述离散神经网络，确定与所述当前离散训练值对应的梯度值。

优选地，

所述确定单元，用于利用所述离散神经网络，确定与所述当前离散训练值对应的损失值；确定所述损失值是否小于预设第二阈值，如果是，将所述当前离散训练值作为所述全局最优离散权重参数。

优选地，

所述确定单元，用于确定离散训练值的个数；根据所述离散训练值的个数，将所述取值范围划分为至少两个取值域；其中，每一个所述取值域对应一个所述离散训练值；从各个所述离散训练值中，选择所述当前离散训练值。

第三方面，本发明实施例提供了一种可读介质，包括执行指令，当存储控制器的处理器执行所述执行指令时，所述存储控制器执行本发明上述任一实施例提供的方法。

第四方面，本发明实施例提供了一种存储控制器，包括：处理器、存储器和总线；所述存储器用于存储执行指令，所述处理器与所述存储器通过所述总线连接，当所述存储控制器运行时，所述处理器执行所述存储器存储的所述执行指令，以使所述存储控制器执行本发明上述任一实施例提供的方法。

本发明实施例提供了一种神经网络初始化方法、装置、可读介质及存储控制器，通过构建与待训练神经网络的结构以及权重值的数量相同的离散神经网络，并确定构建的离散神经网络对应权重值的取值范围，然后在确定出的取值范围内，确定当前离散训练值，并确定出与当前离散训练值对应的梯度值，当确定出的梯度值不大于预设第一阈值时，利用当前离散训练值对离散神经网络进行训练，确定出全局最优离散权重参数。然后将确定出的全局最优离散权重参数赋予待训练神经网络，利用其对待训练神经网络进行训练。由此，在对待训练神经网络进行训练之前，采用离散神经网络进行预训练，由于离散神经网络中的权重训练值为离散值，使得神经网络的训更快收敛，从而大大缩短了神经网络的训练时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种神经网络初始化方法的流程图；

图2是本发明另一个实施例提供的一种神经网络初始化方法的流程图；

图3是本发明一个实施例提供的一种神经网络初始化装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种神经网络初始化方法，该方法可以包括以下步骤：

步骤101：根据待训练神经网络的结构以及权重值数量，构建离散神经网络，并确定所述离散神经网络对应的权重值的取值范围；

步骤102：在确定出的所述取值范围内，确定当前离散训练值；

步骤103：利用所述离散神经网络，确定与所述当前离散训练值对应的梯度值；

步骤104：确定所述梯度值是否不大于预设第一阈值，如果是，根据所述当前离散训练值，确定全局最优离散权重参数；

步骤105：将确定出的所述最优离散权重参数赋值给所述待训练神经网络，利用所述全局最优离散权重参数，对所述待训练神经网络进行训练。

上述实施例中，通过构建与待训练神经网络的结构以及权重值的数量相同的离散神经网络，并确定构建的离散神经网络对应权重值的取值范围，然后在确定出的取值范围内，确定当前离散训练值，并确定出与当前离散训练值对应的梯度值，当确定出的梯度值不大于预设第一阈值时，利用当前离散训练值对离散神经网络进行训练，确定出全局最优离散权重参数。然后将确定出的全局最优离散权重参数赋予待训练神经网络，利用其对待训练神经网络进行训练。由此，在对待训练神经网络进行训练之前，采用离散神经网络进行预训练，由于离散神经网络中的权重训练值为离散值，使得神经网络的训更快收敛，从而大大缩短了神经网络的训练时间。

本发明一个实施例中，步骤102的具体实施方式，可以包括：

确定离散训练值的个数；

从各个所述离散训练值中，选择所述当前离散训练值。

举例来说，确定出的取值范围为[1，5]，离散训练值的个数为5，则将取值范围平均划分为五个取值域，分别对应5个离散训练值1、2、3、4和5。然后从离散训练值中，任意选择一个作为当前离散训练值。在实际应用过程中，传统的神经网络一般采用32位宽的浮点数作为连续权重值，而离散神经网络采用3至4位二进制数代表整个取值范围，将取值范围离散化。由此，有利于对离散神经网络的训练，缩短训练时间。

本发明一个实施例中，当确定出所述当前离散训练值对应的梯度值大于预设第一阈值时，可以进一步包括：

在这里，采用与传统神经网络相同的随机梯度下降法进行离散神经网络的训练，例如，确定出当前离散训练值2对应的梯度值为0.5，而第一阈值为0.1，则从离散训练值1、2、3、4和5中确定出临近离散训练值，若离散神经网络的梯度方向为正向，则将3作为临近离散训练值，若离散神经网络的梯度方向为反向，则将1作为临近离散训练值。然后将确定出的临近离散训练值更新为当前离散训练值，继续对离散神经网络进行训练，直至当前离散训练值对应的梯度值小于预设的第一阈值。由此确定出对应的梯度值较小的当前离散训练值，从而有利于全局最优离散权重参数的确定，进而有利于神经网络的训练。

本发明一个实施例中，步骤104的具体实施方式，可以包括：

举例来说，当前离散训练值2对应的梯度值为0.5，若预设的第一阈值为1时，则当前离散训练值的梯度值小于预设的第一阈值，此时可计算出当前离散训练值2对应的损失值，即当前离散训练值对应的输出值与预期的目标值之间的差值，当损失值小于预设的第二阈值时，将其作为全局最优离散权重参数。若当前离散训练值对应的损失值大于预设的第二阈值时，可确定出当前离散训练值对应的临近离散训练值，然后确定临近离散训练值对应的损失值，若该损失值小于当前离散训练值对应的损失值，则将该临近训练值作为全局最优离散权重参数，否则，仍将当前离散训练值作为全局最优离散权重参数。由此，根据损失值大小确定全局最优离散权重参数，可使得确定出的全局最优离散权重参数最利于待训练神经网络的训练，进一步缩短神经网络的训练时间。

如图2所示，本发明实施例提供了一种神经网络初始化方法，该方法可以包括以下步骤：

步骤201：根据待训练神经网络的结构以及权重值数量，构建离散神经网络，并确定所述离散神经网络对应的权重值的取值范围。

在这里，根据待训练神经网络，构建离散神经网络，构建出的离散神经网络拥有与待训练神经网络相同的结构以及相同的权重值数量，且其取值范围与待训练神经网络也相同，唯一的区别是离散神经网络的权重值是离散的，而待训练神经网络的权重值是连续值。

步骤202：确定离散训练值的个数，并根据所述离散训练值的个数，将确定出的所述取值范围划分为至少两个取值域；其中，每一个所述取值域对应一个所述离散训练值。

步骤203：从各个所述离散训练值中，选择所述当前离散训练值。

例如，确定出的取值范围为[1，5]，离散训练值的个数为5，则将取值范围平均划分为五个取值域，分别对应5个离散训练值1、2、3、4和5。然后从离散训练值中，任意选择一个作为当前离散训练值。

步骤204：利用所述离散神经网络，确定与所述当前离散训练值对应的梯度值。

步骤205：判断所述梯度值是否不大于预设第一阈值，如果是，则执行步骤206，否则执行步骤207。

步骤206：利用所述离散神经网络，确定与所述当前离散训练值对应的损失值，并确定所述损失值是否小于预设第二阈值，如果是，将所述当前离散训练值作为所述全局最优离散权重参数，并执行步骤208。

步骤207：根据所述离散神经网络的梯度方向，在所述取值范围中，确定临近离散训练值，并将所述临近离散训练值作为当前离散训练值，并执行步骤204。

例如，确定出当前离散训练值2对应的梯度值为0.5，而第一阈值为0.1，则从离散训练值1、2、3、4和5中确定出临近离散训练值，若离散神经网络的梯度方向为正向，则将3作为临近离散训练值，若离散神经网络的梯度方向为反向，则将1作为临近离散训练值。然后将确定出的临近离散训练值更新为当前离散训练值，继续对离散神经网络进行训练，直至当前离散训练值对应的梯度值小于预设的第一阈值。

步骤208：将确定出的所述最优离散权重参数赋值给所述待训练神经网络，利用所述全局最优离散权重参数，对所述待训练神经网络进行训练。

如图3所示，本发明实施例提供了一种神经网络初始化装置，包括：构建单元301、确定单元302和训练单元303；其中，

所述构建单元301，用于根据待训练神经网络的结构以及权重值数量，构建离散神经网络，并确定所述离散神经网络对应的权重值的取值范围；

所述确定单元302，用于在确定出的所述取值范围内，确定当前离散训练值；利用所述离散神经网络，确定与所述当前离散训练值对应的梯度值；确定所述梯度值是否不大于预设第一阈值；如果是，根据所述当前离散训练值，确定全局最优离散权重参数；

所述训练单元303，用于将确定出的所述最优离散权重参数赋值给所述待训练神经网络，利用所述全局最优离散权重参数，对所述待训练神经网络进行训练。

本发明一个实施例中，所述确定单元302，进一步用于当确定出所述当前离散训练值对应的梯度值大于预设第一阈值时，根据所述离散神经网络的梯度方向，在所述取值范围中，确定临近离散训练值；将所述临近离散训练值作为当前离散训练值，执行所述利用所述离散神经网络，确定与所述当前离散训练值对应的梯度值。

本发明一个实施例中，所述确定单元302，用于利用所述离散神经网络，确定与所述当前离散训练值对应的损失值；确定所述损失值是否小于预设第二阈值，如果是，将所述当前离散训练值作为所述全局最优离散权重参数。

本发明一个实施例中，所述确定单元302，用于确定离散训练值的个数；根据所述离散训练值的个数，将所述取值范围划分为至少两个取值域；其中，每一个所述取值域对应一个所述离散训练值；从各个所述离散训练值中，选择所述当前离散训练值。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例还提供了一种可读介质，包括执行指令，当存储控制器的处理器执行所述执行指令时，所述存储控制器执行本发明上述任一实施例提供的方法。

本发明实施例还提供了一种存储控制器，包括：处理器、存储器和总线；所述存储器用于存储执行指令，所述处理器与所述存储器通过所述总线连接，当所述存储控制器运行时，所述处理器执行所述存储器存储的所述执行指令，以使所述存储控制器执行本发明上述任一实施例提供的方法。

综上所述，本发明以上各个实施例至少具有如下有益效果：

1、在本发明实施例中，通过构建与待训练神经网络的结构以及权重值的数量相同的离散神经网络，并确定构建的离散神经网络对应权重值的取值范围，然后在确定出的取值范围内，确定当前离散训练值，并确定出与当前离散训练值对应的梯度值，当确定出的梯度值不大于预设第一阈值时，利用当前离散训练值对离散神经网络进行训练，确定出全局最优离散权重参数。然后将确定出的全局最优离散权重参数赋予待训练神经网络，利用其对待训练神经网络进行训练。由此，在对待训练神经网络进行训练之前，采用离散神经网络进行预训练，由于离散神经网络中的权重训练值为离散值，使得神经网络的训更快收敛，从而大大缩短了神经网络的训练时间。

2、在本发明实施例中，当确定出的当前离散训练值对应的梯度值大于预设第一阈值时，将当前离散训练值更新为临近离散训练值，并继续确定更新后的当前离散训练值对应的梯度值，直到该梯度值小于与其对应的预设第一阈值为止。由此确定出对应的梯度值较小的当前离散训练值，从而有利于全局最优离散权重参数的确定，进而有利于神经网络的训练。

3、在本发明实施例中，当确定出的当前离散训练值对应的梯度值不大于预设第一阈值时，则利用离散神经网络确定出当前离散训练值对应的损失值，当确定出的损失值小于预设第二阈值时，将该当前离散训练值确定为全局最优离散权重参数。由此，根据损失值大小确定全局最优离散权重参数，可使得确定出的全局最优离散权重参数最利于待训练神经网络的训练，进一步缩短神经网络的训练时间。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种神经网络初始化方法，其特征在于，包括：

在确定出的所述取值范围内，确定当前离散训练值；

确定所述梯度值是否不大于预设第一阈值；

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，

确定离散训练值的个数；

从各个所述离散训练值中，选择所述当前离散训练值。

5.一种神经网络初始化装置，其特征在于，包括：构建单元、确定单元和训练单元；其中，

6.根据权利要求5所述的装置，其特征在于，

7.根据权利要求5所述的装置，其特征在于，

8.根据权利要求5所述的装置，其特征在于，

9.一种可读介质，包括执行指令，当存储控制器的处理器执行所述执行指令时，所述存储控制器执行权利要求1至4任一所述的方法。

10.一种存储控制器，包括：处理器、存储器和总线；所述存储器用于存储执行指令，所述处理器与所述存储器通过所述总线连接，当所述存储控制器运行时，所述处理器执行所述存储器存储的所述执行指令，以使所述存储控制器执行权利要求1至4任一所述的方法。