CN111461327A

CN111461327A - 神经网络优化方法及终端设备

Info

Publication number: CN111461327A
Application number: CN202010250379.7A
Authority: CN
Inventors: 黄伟建; 张剑
Original assignee: Hebei University of Engineering
Current assignee: Hebei University of Engineering
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-07-28

Abstract

本发明适用于人工智能技术领域，提供了一种神经网络优化方法及终端设备，上述方法包括：构建神经网络模型；采用粒子群算法确定神经网络模型的最佳权值和最佳阈值；将最佳权值和最佳阈值作为初始值对神经网络模型进行初始化，得到优化后的神经网络模型。本发明通过粒子群算法对神经网络模型的权值和阈值进行优化，得到最优的权值和阈值。对采用最优权值和阈值的神经网络模型训练可以达到全局最优，不易陷入局部极小点的问题，收敛速度快，预测精度高，神经网络模型的性能得到了极大的提升。

Description

神经网络优化方法及终端设备

技术领域

本发明属于人工智能技术领域，尤其涉及一种神经网络优化方法及终端设备。

背景技术

Elman神经网络是一种典型的动态递归神经网络，它是在BP(back propagation，反向传播)网络基本结构的基础上，在隐含层增加一个承接层，作为一步延时算子，达到记忆的目的，从而使系统具有适应时变特性的能力，增强了网络的全局稳定性，它比前馈型神经网络具有更强的计算能力，还可以用来解决快速寻优问题。

但Elman神经网络基于梯度下降法，容易出现训练速度慢、陷入局部极小点的问题，进而使得神经网络的训练无法达到全局最优，限制了神经网络的预测精度及收敛速度，影响神经网络的整体性能。

发明内容

有鉴于此，本发明实施例提供了一种神经网络优化方法及终端设备，以解决现有技术中神经网络的训练无法达到全局最优，限制了神经网络的预测精度及收敛速度，影响神经网络的整体性能的问题。

本发明实施例的第一方面提供了一种神经网络优化方法，包括：

构建神经网络模型；

采用粒子群算法确定神经网络模型的最佳权值和最佳阈值；

将最佳权值和最佳阈值作为初始值对神经网络模型进行初始化，得到优化后的神经网络模型。

本发明实施例的第二方面提供了一种神经网络优化装置，包括：

模型构建模块，用于构建神经网络模型；

最优值确定模块，用于采用粒子群算法确定神经网络模型的最佳权值和最佳阈值；

模型优化模块，用于将最佳权值和最佳阈值作为初始值对神经网络模型进行初始化，得到优化后的神经网络模型。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如本发明实施例第一方面提供的神经网络优化方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如本发明实施例第一方面提供的神经网络优化方法的步骤。

本发明实施例提供了一种神经网络优化方法，包括：构建神经网络模型；采用粒子群算法确定神经网络模型的最佳权值和最佳阈值；将最佳权值和最佳阈值作为初始值对神经网络模型进行初始化，得到优化后的神经网络模型。本发明实施例通过粒子群算法对神经网络模型的权值和阈值进行优化，得到最优的权值和阈值。对采用最优权值和阈值的神经网络模型训练可以达到全局最优，不易陷入局部极小点的问题，收敛速度快，预测精度高，性能得到了极大的提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种神经网络优化方法的实现流程示意图；

图2是本发明实施例提供的一种神经网络优化装置的示意图；

图3是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明的技术方案，下面通过具体实施例来进行说明。

参考图1，本发明实施例提供了一种神经网络优化方法，包括：

步骤S101：构建神经网络模型；

步骤S102：采用粒子群算法确定神经网络模型的最佳权值和最佳阈值；

步骤S103：将最佳权值和最佳阈值作为初始值对神经网络模型进行初始化，得到优化后的神经网络模型。

本发明实施例提供的神经网络优化方法通过粒子群算法计算得到最佳权值和阈值。对采用最优权值和阈值的神经网络模型训练可以达到全局最优，不易陷入局部极小点的问题，收敛速度快，预测精度高，性能得到了极大的提升。

一些实施例中，步骤S102可以包括：

步骤S1021：随机生成若干个体，产生父代粒子群；每个个体对应神经网络模型的一组权值和阈值；

步骤S1022：计算父代粒子群中各个粒子的适应度；

步骤S1023：选取父代粒子群中目标粒子的适应度和目标粒子的个体最优位置的适应度中的较大值作为目标粒子的个体极值；目标粒子为父代粒子群中的任意一个粒子；

步骤S1024：选取父代粒子群中各个粒子的适应度和父代粒子群的群体最优位置的适应度中的最大值作为父代粒子群的局部极值；

步骤S1025：根据个体极值及局部极值更新粒子的位置和速度，生成子代粒子群，将子代粒子群作为下一次迭代的父代粒子群，并更新学习因子及惯性因子；

步骤S1026：若当前迭代次数达到预设的最大迭代次数，则输出最佳权值和最佳阈值；

步骤S1027：若当前迭代次数未达到预设的最大迭代次数，则跳转至计算父代粒子群中各个粒子的适应度的步骤循环执行。

粒子群算法(Particle Swarm Optimization,PSO)最早是由Eberhart和Kennedy于1995年提出，它的基本概念源于对鸟群觅食行为的研究。设想这样一个场景：一群鸟在随机搜寻食物，在这个区域里只有一块食物，所有的鸟都不知道食物在哪里，但是它们知道当前的位置离食物还有多远。最简单有效的策略寻找鸟群中离食物最近的个体来进行搜素。PSO算法就从这种生物种群行为特性中得到启发并用于求解优化问题。

用一种粒子来模拟上述的鸟类个体，每个粒子可视为N维搜索空间中的一个搜索个体，粒子的当前位置即为对应优化问题的一个候选解，粒子的飞行过程即为该个体的搜索过程.粒子的飞行速度可根据粒子历史最优位置和种群历史最优位置进行动态调整.粒子仅具有两个属性：速度和位置，速度代表移动的快慢，位置代表移动的方向。每个粒子单独搜寻的最优解叫做个体极值，粒子群中最优的个体极值作为当前全局最优解。不断迭代，更新速度和位置。最终得到满足终止条件的最优解。

采用粒子群算法确定神经网络模型的最佳权值和阈值，实现简单，且没有过多参数的调节，计算速度快，可以快速、准确的得到神经网络模型的最佳权值和阈值。同时本发明实施例中在每次迭代完成后均对学习因子及惯性因子进行更新调整，使得计算得到的最佳权值和最佳阈值更加准确，有效的提高了神经网络模型的预测准确度及收敛速度，改善了神经网络模型的性能。

一些实施例中，学习因子更新的公式为：

c_{1_start}＝c_{2_end}＝2.5

c_{2_start}＝c_{1_end}＝0.5

其中，c_1k为第k次迭代时的第一学习因子，c_{1_start}为第一预设参数，c_{1_end}为第二预设参数；c_2k为第k次迭代时的第二学习因子，c_{2_start}为第三预设参数，c_{2_end}为第四预设参数；k为当前迭代次数，T为预设的最大迭代次数。

一些实施例中，惯性因子更新的公式为：

w_start＝0.9,w_end＝0.4

其中，w_k为第k次迭代时的惯性因子，w_start为第五预设参数，w_end为第六预设参数；k为当前迭代次数，T为预设的最大迭代次数。

一些实施例中，粒子的速度更新的公式为：

粒子的位置更新的公式为：

其中，

为第k次迭代时第i个粒子的飞行速度矢量的第d维分量，

为第k次迭代时第i个粒子的位置矢量的第d维分量；

为第k-1次迭代时第i个粒子的飞行速度矢量的第d维分量，

为第k-1次迭代时第i个粒子的位置矢量的第d维分量pbest_id为第i个粒子的个体最优位置的第d维分量，gbest_d为群体最优位置的第d维分量；r₁和r₂为随机参数；c_1k为第k次迭代时的第一学习因子，c_2k为第k次迭代时的第二学习因子，w_k为第k次迭代时的惯性因子。

一些实施例中，随机生成若干个体，产生父代粒子群，可以包括：

采用实数编码对神经网络模型的权值和阈值进行编码；

在编码的解空间内随机生成若干个体，产生父代粒子群。

随着我国工业化进程的迅猛发展，导致大量的能源不断地消耗，空气中排放出的PM2.5的浓度越来越大，已经成为城市大气的首要污染物。PM2.5浓度过大时，会降低大气的能见度，造成雾霾天气，给人们的日常生活带来了严重的影响。同时PM2.5颗粒小，容易附带有毒物质，活性强，可以直接进入人体肺部，严重损害了人们的身体健康。因此，如何有效预测PM2.5的浓度显得尤为重要，并且具有一定的科学意义和实际价值。

可通过采用本发明实施例提供的神经网络优化方法优化后的神经网络模型进行空气质量预测。例如收集2014年1月至4月河北省邯郸市空气质量指数的六种指标，六种指标分别为PM2.5，PM10，SO2，CO，NO2，O3。其中，将PM10，SO2，CO，NO2，O3为神经网络的输入层，PM2.5为输出层，选取1月至3月的空气质量数据作为训练样本对神经网络模型进行训练，可以很快的训练完成。同时，采用上述训练完成的神经网络模型对4月份的空气质量数据进行预测，预测结果与4月份实际的数据相差较少，相对于未经过优化的神经网络模型，预测准确度得到了明显的提升，收敛速度也较快。由此可知，采用上述实施例中的神经网络优化方法对神经网络模型进行优化，可以有效提高神经网络模型的收敛速度及预测精度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

参考图2，本发明实施例还提供了一种神经网络优化装置，包括：

模型构建模块21，用于构建神经网络模型；

最优值确定模块22，用于采用粒子群算法确定神经网络模型的最佳权值和最佳阈值；

模型优化模块23，用于将最佳权值和最佳阈值作为初始值对神经网络模型进行初始化，得到优化后的神经网络模型。

一些实施例中，最优值确定模块22，可以包括：

初始化单元221，用于随机生成若干个体，产生父代粒子群；每个个体对应一组权值和阈值；

适应度计算单元222，用于计算父代粒子群中各个粒子的适应度；

个体极值确定单元223，用于选取父代粒子群中目标粒子的适应度和目标粒子的个体最优位置的适应度中的较大值作为目标粒子的个体极值；目标粒子为父代粒子群中的任意一个粒子；

局部极值确定单元224，用于选取父代粒子群中各个粒子的适应度和父代粒子群的群体最优位置的适应度中的最大值作为父代粒子群的局部极值；

粒子更新单元225，用于根据个体极值及局部极值更新粒子的位置和速度，生成子代粒子群，将子代粒子群作为下一次迭代的父代粒子群，并更新学习因子及惯性因子；

第一判断单元226，用于若当前迭代次数达到预设的最大迭代次数，则输出最佳权值和最佳阈值；

第二判断单元227，用于若当前迭代次数未达到预设的最大迭代次数，则跳转至计算父代粒子群中各个粒子的适应度的步骤循环执行。

一些实施例中，学习因子更新的公式为：

c_{1_start}＝c_{2_end}＝2.5

c_{2_start}＝c_{1_end}＝0.5

一些实施例中，惯性因子更新的公式为：

w_start＝0.9,w_end＝0.4

一些实施例中，粒子的速度更新的公式为：

粒子的位置更新的公式为：

其中，

为第k次迭代时第i个粒子的飞行速度矢量的第d维分量，

为第k次迭代时第i个粒子的位置矢量的第d维分量；

为第k-1次迭代时第i个粒子的飞行速度矢量的第d维分量，

为第k-1次迭代时第i个粒子的位置矢量的第d维分量；pbest_id为第i个粒子的个体最优位置的第d维分量，gbest_d为群体最优位置的第d维分量；r₁和r₂为随机参数；c_1k为第k次迭代时的第一学习因子，c_2k为第k次迭代时的第二学习因子，w_k为第k次迭代时的惯性因子。

一些实施例中，初始化单元221可以包括：

编码子单元，用于采用实数编码对神经网络模型的权值和阈值进行编码；

原始种群生成子单元，用于在编码的解空间内随机生成若干个体，产生父代粒子群。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将终端设备的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图3是本发明一实施例提供的终端设备的示意框图。如图3所示，该实施例的终端设备4包括：一个或多个处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。处理器40执行计算机程序42时实现上述各个神经网络优化方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，处理器40执行计算机程序42时实现上述神经网络优化装置实施例中各模块/单元的功能，例如图2所示模块21至23的功能。

示例性地，计算机程序42可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器41中，并由处理器40执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序42在终端设备4中的执行过程。例如，计算机程序42可以被分割成模型构建模块21、最优值确定模块22及模型优化模块23。

模型构建模块21，用于构建神经网络模型；

其它模块或者单元在此不再赘述。

终端设备4包括但不仅限于处理器40、存储器41。本领域技术人员可以理解，图3仅仅是终端设备的一个示例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备4还可以包括输入设备、输出设备、网络接入设备、总线等。

处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器41可以是终端设备的内部存储单元，例如终端设备的硬盘或内存。存储器41也可以是终端设备的外部存储设备，例如终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器41还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器41用于存储计算机程序42以及终端设备所需的其他程序和数据。存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的终端设备和方法，可以通过其它的方式实现。例如，以上所描述的终端设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。