CN116976416A

CN116976416A - 低比特随机配置网络轻量计算方法、系统、设备及终端

Info

Publication number: CN116976416A
Application number: CN202310942736.XA
Authority: CN
Inventors: 王殿辉
Original assignee: Jiangsu Ruice Intelligent Technology Co ltd; China University of Mining and Technology CUMT
Current assignee: Jiangsu Ruice Intelligent Technology Co ltd; China University of Mining and Technology CUMT
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-10-31

Abstract

本发明属于神经网络模型训练技术领域，公开了一种低比特随机配置网络轻量计算方法、系统、设备及终端，包括：使用量化的随机配置算法训练神经网络模型，随机配置多个三值化输入权重系数产生候选的隐层节点；通过随机配置算法的不等式约束条件筛选最优的候选隐层节点，通过所述最优的候选隐层节点更新随机配置网络的结构；通过最小二乘法得到输出权重，并通过隐层最大容许节点数和最大容许输出误差判断模型是否已经训练好。本发明在工业人工智能、智慧医疗、智慧交通、无人驾驶等计算资源限制的应用环境背景下具有良好的前景。

Description

低比特随机配置网络轻量计算方法、系统、设备及终端

技术领域

本发明属于神经网络模型训练技术领域，尤其涉及一种低比特随机配置网络轻量计算方法、系统、设备及终端。

背景技术

目前，神经网络模型被广泛应用于工业数据建模、医疗诊断、无人驾驶、智能移动设备等领域。这些领域的应用场景都需要嵌入式设备来搭载神经网络模型，并且嵌入式设备对内存、功耗、延时、精度要求较高。在训练大规模数据集时，神经网络模型表现出复杂的模型结构和超量的训练参数，如果在嵌入式设备上直接训练或者直接将训练好的神经网络模型应用于嵌入式设备，很难满足嵌入式设备对内存、功耗、延时、精度的要求。

现有技术的不足之处：

(1)使用浮点数运算的神经网络模型，数据具有更高的比特位，如果将训练好的模型搭载到边缘计算、移动产品、工业应用、智能驾驶等领域，会带来很高的内存和功耗，而硬件设备有对内存和功耗有着很严格的要求，带有高浮点比特数据的神经网络模型不利于部署到嵌入式开发平台上。

(2)工业过程诊断、无人驾驶、智慧交通等领域都要求模型具有一定的实时性，而受硬件内存、功耗和工作频率的限制，嵌入的神经网络模型在保证精度的条件下，很难保证硬件设备能达到快速响应的要求。

随机配置网络与其他神经网络相比，在增量式构建过程中引入监督机制随机配置隐含层节点输入权重和偏置，训练速度快且精度高，无需通过反向传播迭代更新。

通过上述分析，现有技术存在的问题及缺陷为：现有技术训练的神经网络模型内存占用大，功耗大，不利于部署到嵌入式开发平台上；现有技术训练的神经网络模型无法同时满足嵌入式设备对精度以及实时响应的要求。

发明内容

针对现有技术存在的问题，本发明提供了一种低比特随机配置网络轻量计算方法、系统、设备及终端。

本发明是这样实现的，一种低比特随机配置网络轻量计算方法，所述低比特随机配置网络轻量计算方法包括：

首先，使用轻量化的随机配置算法训练神经网络模型，从限定值中随机配置隐含层节点输入权重和偏置，产生候选的隐层节点；

其次，通过随机配置算法的不等式约束条件筛选最优的候选隐层节点，通过所述最优的候选隐层节点更新随机配置网络的结构；

最后，通过最小二乘法得到输出权重，并通过隐层最大容许节点数和最大容许输出误差判断模型是否已经训练好。

进一步，所述低比特随机配置网络轻量计算方法包括以下步骤：

步骤一，获取训练样本集；通过设置隐层节点最大容许数量、最大期望输出误差容许值、最大候选隐层节点数以及输入系数的缩放因子进行随机配置网络的初始化；

步骤二，初始化输出误差向量，通过从限定值中随机选取输入权重与偏置再乘于输入系数缩放因子进行候选隐层节点的选取；

步骤三，将候选隐层节点代入到随机配置算法的不等式约束条件中，筛选得到满足不等式约束的候选隐层节点，并从所述满足不等式约束的候选隐层节点中选择最优的候选隐层节点；

步骤四，将选择的最优的候选隐层节点添加到神经网络模型中，计算神经网络模型输出的均方根误差；使用最小二乘算法得到神经网络模型的输出权重，进而更新模型误差；

步骤五，判断神经网络模型输出的均方根误差是否大于最大期望输出误差容许值，若是，且隐层节点小于隐层节点最大容许数量，则重复步骤二至步骤四；

步骤六，若神经网络模型输出的均方根误差小于最大期望输出误差容许值或隐层节点等于最大容许数量，则训练结束，输出训练好的神经网络模型。

进一步，所述通过从限定值中随机选取输入权重与偏置再乘于输入系数缩放因子进行候选隐层节点的选取包括：

从{-1 0 1}三个值中，随机选取输入权重；从{-1 1}两个值中，随机选取偏置，将得到的输入权重和偏置分别乘于输入系数缩放因子，得到更新后的输入权重和偏置；

将所述更新后的输入权重和偏置代入激活函数得到新的候选隐层节点，共选取T_max个候选隐层节点。

进一步，所述将得到的输入权重和偏置分别乘于输入系数缩放因子，得到更新后的输入权重和偏置如下：

w_L＝λ×w_L，b_L＝λ×b_L；

其中，w_L表示输入权重，w_L＝{w_L1，w_L2，...，w_Ld}^T；b_L表示偏置；λ表示输入系数缩放因子；T_max表示最大候选隐层节点数；激活函数为g_L(Xw_L+b_L)。

进一步，所述随机配置算法的不等式约束条件如下：

其中，r表示模型输出误差缩放因子，0<r<1；m表示输出样本维数。

进一步，所述将候选隐层节点代入到随机配置算法的不等式约束条件中，筛选得到满足不等式约束的候选隐层节点还包括：

若候选隐层节点无法满足随机配置算法的不等式约束条件，则修改输入权重和偏置的输入系数缩放因子：λ＝λ+Δλ；或者在满足0<r<1的条件下增大输出误差缩放因子r。

本发明的另一目的在于提供一种实施所述低比特随机配置网络轻量计算方法的低比特随机配置网络轻量计算系统，所述低比特随机配置网络轻量计算系统包括：

初始化模块，用于获取训练样本集；通过设置隐层节点最大容许数量、最大期望输出误差容许值、最大候选隐层节点数以及输入系数的缩放因子进行随机配置网络的初始化；

候选隐层节点选取模块，用于初始化输出误差向量，通过从限定值中随机选取输入权重与偏置再乘于输入系数缩放因子进行候选隐层节点的选取；

最优候选隐层节点选择模块，用于将候选隐层节点代入到随机配置算法的不等式约束条件中，筛选得到满足不等式约束的候选隐层节点，并从所述满足不等式约束的候选隐层节点中选择最优的候选隐层节点；

参数更新模块，用于将选择的最优的候选隐层节点添加到神经网络模型中，使用最小二乘算法得到神经网络模型的输出权重，进而更新模型误差；

判断模块，用于通过隐层最大容许节点数和最大容许输出误差判断模型是否已经训练好；

输出模块，用于输出训练好的模型。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述低比特随机配置网络轻量计算方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述低比特随机配置网络轻量计算方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述低比特随机配置网络轻量计算系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

本发明使用随机配置网络的训练，无需反向传播求解超参数导数，具有训练速度快的特点。同时无需考虑激活函数是否可导的情况，可以使用RELU等非连续的激活函数，可以更好的应用在嵌入式产品设计中。

发明使用2比特存储神经网络模型的参数，通过这种低比特数据的处理，在大规模神经网络模型训练和预测下，能够有效减少内存开销，加快软硬件的运行速度，减少嵌入式硬件的功耗。

本发明通过2比特网络模型参数量化和随机配置网络的有效结合，应用在工业大数据建模训练或预测时，能够在所需的精度条件下，快速给出模型的结果，具有一定的工业应用价值。

本发明中提出了一种低比特的随机配置算法来优化随机配置网络模型框架，得到的低比特模型在数据存储上减少了硬件内存的消耗。结合本发明设计的模型框架，能够在低比特神经网络模型上取得良好的效果。在工业人工智能、智慧医疗、智慧交通、无人驾驶等计算资源限制的应用环境背景下具有良好的前景。

附图说明

图1是本发明实施例提供的低比特随机配置网络轻量计算方法原理图；

图2是本发明实施例提供的低比特随机配置网络轻量计算方法流程图；

图3是本发明实施例提供的系统开发框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1-图2所示，本发明实施例提供的低比特随机配置网络轻量计算方法包括以下步骤：

S101，获取训练样本集；通过设置隐层节点最大容许数量、最大期望输出误差容许值、最大候选隐层节点数以及输入系数的缩放因子进行随机配置网络的初始化；

S102，初始化输出误差向量，通过从限定值中随机选取输入权重与偏置再乘于输入系数缩放因子进行候选隐层节点的选取；

S103，将候选隐层节点代入到随机配置算法的不等式约束条件中，筛选得到满足不等式约束的候选隐层节点，并从所述满足不等式约束的候选隐层节点中选择最优的候选隐层节点；

S104，将选择的最优的候选隐层节点添加到神经网络模型中，使用最小二乘算法得到神经网络模型的输出权重，进而更新模型误差；

S105，判断神经网络模型输出的均方根误差是否大于最大期望输出误差容许值，若是，且隐层节点小于隐层节点最大容许数量，则重复步骤S102至步骤S104；

S106，若神经网络模型输出的均方根误差小于最大期望输出误差容许值或隐层节点等于最大容许数量，则训练结束，输出训练好的神经网络模型。

本发明实施例提供的低比特随机配置网络轻量计算系统包括：

输出模块，用于输出训练好的模型。

本发明实施例提供的低比特随机配置网络轻量计算方法具体包括以下步骤：

步骤1，给定一组样本集，输入样本：X＝{x₁，x₂，...，x_N}^T，x_i＝{x_i1，x_i2，...，x_id}，输出样本：Y＝{y₁，y₂，...，y_N}^T，y_i＝{y_i1，y_i2，...，y_im}，其中N为样本个数，d为输入样本维数，m为输出样本维数。设置隐层节点最大容许数量L_max，最大期望输出误差容许值∈，最大候选隐层节点数T_max，输入系数的缩放因子γ＝{λ_min：Δλ：λ_max}。

步骤2，初始化输出误差向量e₀：＝[y₁，y₂，...，y_N]^T，模型输出误差缩放因子0＜r＜1。

步骤3，从{-1 0 1}三个值中，随机选取输入权重w_L＝{w_L1，w_L2，...，w_Ld}^T，从{-11}两个值中，随机选取偏置b_L，将得到的输入权重w_L和偏置b_L分别乘于输入系数缩放因子λ，此时再记为输入权重w_L和偏置b_L，即w_L＝λ×w_L，b_L＝λ×b_L，代入激活函数g_L(w_LX+b_L)得到新的候选隐层节点，共选取T_max个候选隐层节点。

步骤3是本发明的重点，即输入权重w_L和偏置b_L的选取；在{-1 0 1}三个值中随机选取w_L，在{-11}两个值随机选取b_L。随着数据量的不断增长，模型的复杂度越来越高，这时模型的输入权重和偏置的数量可能多达几亿个，加重了硬件内存的负担，可能会造成内存的溢出，同时降低了硬件的运行速度。而采用{-1 0 1}方式存储输入权重和偏置，只需2比特即可存储，如果原模型是32比特存储的神经网络，那么内存压缩了16倍，如果原模型是64比特存储的神经网络，那么内存压缩了32倍，非常大程度地减少内存消耗，同时还能提高硬件运行的速度。

本发明实施例中随机配置三值输入系数需要再乘于缩放因子，即w_L＝λ×w_L，b_L＝λ×b_L。也就是说内存需要存储缩放因子，还需要进行乘法运算。但是对于超大规模数据存储而言，2比特存储的输入系数减少内存消耗，还提高了数据调用的效率，只是多了存储几十个缩放因子参数的内存，影响是微不足道的，可以忽略不计。并且额外进行的乘法运算可以通过硬件并行计算或流水线操作来进一步提高运算速度。

步骤4，将候选隐层节点代入到随机配置算法的不等式约束条件：筛选出满足不等式约束的候选隐层节点，并在这些选到的候选隐层节点中选择最优的候选隐层节点。

本发明实施例提供的随机配置算法的不等式约束条件所包含的原理如下：

假设在L₂空间上的向量空间Γ是稠密的，同时使得0＜||g||＜b_g。给定0＜r＜1与非负实数序列{μ_L}，其中lim_L→+∞μ_L＝0，μ_L≤(1-r)。对于隐层节点L＝1，2，...，给定如下公式：

如果随机基函数g_L所构造的输出权重β_L，q满足

并且满足如下的不等式约束：

那么有lim_L→+∞||f-f_L||＝0，其中f是实际数据的输出值，f_L是具有L个隐层节点的模型预测输出值。即所构造的神经网络模型具有通用逼近性质。

本发明实施例提供的不等式约束条件，需要随机选取到w_L，b_L满足这个条件。当无法满足该条件时，需要适当修改w_L，b_L的输入系数缩放因子：λ＝λ+Δλ或者适当修改输出误差缩放因子r(0＜r＜1)。

步骤5，将最优的候选隐层节点添加到神经网络模型中，使用最小二乘算法得到神经网络模型的输出权重β。更新模型的输出误差e₀＝e_L和隐层节点数L＝L+1。

本发明实施例提供的最小二乘估计输出权重β_L，q的具体原理如下：

如果随机基函数g_L所构造的输出权重满足

并且满足如下的不等式约束：

那么有即所构造的神经网络模型具有通用逼近性质。

因此，次最优解可以由最小二乘计算得到：

其中G_L为随机基函数g的矩阵，T为实际数据输出，是穆尔-彭罗斯广义逆。

步骤6，如果神经网络模型输出的均方根误差||e₀||₂大于最大期望输出误差容许值∈，并且隐层节点L小于隐层节点最大容许数量L_max，那么重复步骤2～5；如果神经网络模型输出的均方根误差||e₀||₂小于最大期望输出误差容许值∈，或者隐层节点L等于最大容许数量L_max，那么训练结束，得到训练好的神经网络模型。

如图3所示，以MNIST手写识别数据集的识别为实施例对本发明做进一步说明，如下：

步骤1、MNIST手写识别数据集进行预处理。

步骤2、手写数据集输入到三值化随机配置网络进行训练，得到神经网络模型。

步骤3、将获得的神经网络模型搭载到嵌入式开发平台。

步骤4、人工随机手写数字输入到嵌入式开发平台，将三值化随机配置网络的预测值在数码管上显示。

本发明实施例提供的低比特随机配置网络轻量计算方法在MNIST手写识别数据集具体包括如下具体步骤：

步骤1、MNIST数据集的初始化。

MNIST数据集是28×28像素手写数字灰度图像，该数据集包含70000个样本实例。对该数据集划分成85％的训练集(X，T)和15％的测试集(X_t，T_t)。

步骤2、随机配置网络的初始化。

超参数初始化：设置隐层节点最大容许数量L_max，节点L＝0，最大期望输出误差容许值∈，最大候选隐层节点数T_max，输入系数的缩放因子λ＝λ_min，λ∈γ，γ＝{λ_min：Δλ：λ_max}。模型输出误差初始化：e₀＝T。

步骤3、从{-1 0 1}三个值中，随机选取输入权重w_L＝{w_L1，w_L2，...，w_Ld}^T，从{-1 1}两个值中，随机选取偏置b_L，将得到的输入权重w_L和偏置b_L分别乘于输入系数缩放因子λ，此时再记为输入权重w_L和偏置b_L，即w_L＝λ×w_L，b_L＝λ×b_L，代入激活函数g_L(w_LX+b_L)得到新的候选隐层节点，其中激活函数使用(RELU)g_L(x)＝max(0，x)。总共选取T_max个候选隐层节点。

步骤4、设置将模型输出误差初始化：e₀＝T和激活函数g_L(Xw_L+b_L)，代入/>

步骤5、当min{ξ_L，1，ξ_L，2，...，ξ_L，m}≥0，保留选到的w_L，b_L，进行下一步；否则，需要适当修改w_L，b_L的输入系数缩放因子：λ＝λ+Δλ或者适当修改输出误差缩放因子r(0＜r＜1)，再返回步骤3继续执行。

步骤6、从保留的候选输入权重和偏置w_L，b_L中找到使得ξ_L最大的一组并保存/>作为新的隐层节点。接着更新神经网络模型的激活函数G_L，通过模型输出MNIST手写数据集的均方根误差，进一步通过最小二乘法计算模型输出权重β^*。最后更新模型输出误差e₀＝e_L和隐层节点数L＝L+1。

步骤7、当模型输出的均方根误差||e₀||₂＞∈，且L≤L_max，那么返回步骤3执行；否则神经网络模型训练结束。

步骤8、将训练好的神经网络模型应用到MNIST手写数据集的测试集上，预测MNIST的输出标签，分析模型的泛化性能。将训练好的模型搭载到嵌入式开发平台中，用于手写数字输入的辨识。

本发明以MNIST手写数据集的识别为实施例进行说明，但本发明并不限于此。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种低比特随机配置网络轻量计算方法，其特征在于，包括：

2.如权利要求1所述低比特随机配置网络轻量计算方法，其特征在于，所述低比特随机配置网络轻量计算方法包括以下步骤：

3.如权利要求2所述低比特随机配置网络轻量计算方法，其特征在于，所述通过从限定值中随机选取输入权重与偏置再乘于输入系数缩放因子进行候选隐层节点的选取包括：

从{-1 0 1}三个值中，随机选取输入权重；从{-11}两个值中，随机选取偏置，将得到的输入权重和偏置分别乘于输入系数缩放因子，得到更新后的输入权重和偏置；

4.如权利要求3所述低比特随机配置网络轻量计算方法，其特征在于，所述将得到的输入权重和偏置分别乘于输入系数缩放因子，得到更新后的输入权重和偏置如下：

W_L＝λ×w_L，b_L＝λ×b_L；

其中，w_L表示输入权重，w_L＝{w_L1，w_L2，...，w_Ld}^T；b_L表示偏置；λ表示输入系数缩放因子；T_max表示最大候选隐层节点数；激活函数为g_L(w_LX+b_L)。

5.如权利要求2所述低比特随机配置网络轻量计算方法，其特征在于，所述随机配置算法的不等式约束条件如下：

6.如权利要求2所述低比特随机配置网络轻量计算方法，其特征在于，所述将候选隐层节点代入到随机配置算法的不等式约束条件中，筛选得到满足不等式约束的候选隐层节点还包括：

7.一种实施如权利要求1-6任意一项所述低比特随机配置网络轻量计算方法的低比特随机配置网络轻量计算系统，其特征在于，所述低比特随机配置网络轻量计算系统包括：

输出模块，用于输出训练好的模型。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-6任意一项所述低比特随机配置网络轻量计算方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-6任意一项所述低比特随机配置网络轻量计算方法的步骤。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述低比特随机配置网络轻量计算系统。