CN115310664A

CN115310664A - 基于基因调控遗传算法的rbf神经网络训练方法及预测系统

Info

Publication number: CN115310664A
Application number: CN202210773467.4A
Authority: CN
Inventors: 刘宝; 王君红; 周培; 朱滋润
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-11-08

Abstract

本发明提供一种基于基因调控遗传算法的RBF神经网络训练方法及预测系统，采用四进制DNA编码方式，针对遗传算法中选择、转录和变异这3个操作环节进行深入优化，提升了遗传算法的整体性能，并用该遗传优化算法对传统RBF神经网络梯度下降的寻优方式进行改进，将优化后RBF神经网络算法应用到油田注采的建模和产油量预测中，得到一套行之有效的RBF神经网络预测系统。所述训练方法通过自适应转录因子有效地避免种群早熟和局部最优解的情况，结合所述自适应变异因子增强遗传算法的局部寻优能力。同时仿真实验结果也表明基于基因调控遗传算法优化的RBF神经网络的预测系统，在逼近能力和预测精度都有明显改善，为提高油田注采过程中产油量的预测精度提供了新的研究途径。

Description

基于基因调控遗传算法的RBF神经网络训练方法及预测系统

技术领域

本发明涉及生物智能优化算法，尤其是涉及一种基于基因调控遗传算法的RBF神经网络的训练方法及预测系统。

背景技术

为了解决传统数学模型非线性不足、预测油田产量精度低的问题，许多的专家学者将支持向量机、机器学习、神经网络等技术应用到有油田注采建模和产油量预测中。其中神经网络模型的应用最为广泛，如韩荣、樊灵等人针对油田产量的预测问题提出了一种BP神经网络预测方法，通过对油田产量的影响因素进行分析，建立了油田注采的BP神经网络预测模型，对油田产量进行了预测，但是预测精度有待提高。为了更好地克服注采过程中各影响因素之间的非线性，有学者对采集到的数据先通过小波变换进行分析处理，然后再通过BP神经网络模型进行油田产量的预测，提高了产量预测的精度，但是模型在优化过程中训练效率较低且易陷入局部最优值。

为了进一步提升传统神经网络预测精度，很多学者将智能优化算法应用到神经网络的训练过程中，如徐辰华等人将遗传优化算法引入BP神经网络模型，有效克服了传统BP神经网络的缺陷，但是传统遗传算法容易出现早熟和局部最优值的问题。祁浩等人在此基础上将量子算法引入免疫遗传系统，有效避免了算法的冗余问题，但是算法的精度有待进一步提升。随着生物智能算法的发展，以DNA调控为核心的基因调控网络模型为传统优化算法的改进提供了新的研究思路。如受启发于生物DNA的遗传机理，丁永生等人将遗传算法和DNA机理相结合，提出了基于DNA编码的遗传算法，但是仅仅改变了遗传算法的编码方式。李志刚等人通过运用DNA遗传算法对某生产模型进行求解和寻优，验证了该算法的可行性。但是上述研究仅改变编码方式并不能很好地解决遗传算法的早熟现象，算法的收敛精度难以得到保证。

为了更好地解决生物智能优化算法存在的问题，提高算法性能，受生物基因DNA分子的复制、转录和基因突变机制启发，本发明提出一种基于基因调控遗传算法(DNA-GA)的RBF神经网络的训练方法，用该算法对传统RBF神经网络梯度下降的寻优方式进行了改进，并对遗传算法(GA)中的选择操作、转录操作和变异操作均进行了优化，并将优化后RBF神经网络算法应用到油田注采的建模和产油量预测中。仿真实验结果表明了基于基因调控遗传算法的RBF神经网络的预测系统，在逼近能力和预测精度都有明显改善，为提高油田注采过程中产油量的预测精度提供了新的研究途径。

发明内容

本发明公开一种基于基因调控遗传算法的RBF神经网络训练方法，包括以下步骤：

步骤1：初始化RBF神经网络，采用动量梯度优化训练对所述RBF神经网络的参数优化，获得优化参数；

步骤2：基于基因调控遗传算法采用四进制DNA编码方式将所述优化参数编码后产生初代种群；所述DNA编码的长度L＝5·(2+I)*J，所述初代种群X＝(X₁,X₂,X₃,...,X_N)；

步骤3：确定种群的适应度值，基于基因调控遗传算法，根据所述适应度值确定自适应转录因子和自适应变异因子，对所述种群进行选择操作、转录操作和变异操作，产生新一代种群；

步骤4：确定所述新一代种群的适应度值，如果满足终止条件，则进入步骤5；否则返回步骤3；

步骤5：输出最优适应度值的所述DNA编码，对所述DNA编码进行解码得到所述RBF神经网络的最优参数，构建RBF神经网络最优模型；

步骤6：采集样本数据，并采用小波降噪法对所述样本数据进行滤波及归一化处理，再按预设比例将处理后的样本数据分为训练集和测试集；使用所述训练集对所述RBF神经网络最优模型进行优化训练；再通过所述测试集测试后得到RBF神经网络最终模型；

步骤7：输入待预测数据到RBF神经网络最终模型，得到预测结果。

其中，I代表所述RBF神经网络输入节点的个数，J表示所述RBF神经网络隐含层节点的个数，N代表所述种群中包含的个体数。

进一步的，所述动量梯度优化训练具体为：

b_j(k)＝b_j(k-1)+Δb_j(k)+α[b_j(k-1)-b_j(k-2)]；

c_ij(k)＝c_ij(k-1)+Δc_ij(k)+α[c_ij(k-1)-c_ij(k-2)]；

w_j(k)＝w_j(k-1)+Δw_j(k)+α[w_j(k-1)-w_j(k-2)]；

其中，X＝(x₁,x₂,x₃,...,x_i)表示输入数据，c_ij表示隐含层高斯函数的中心点坐标向量，与所述输入数据的维数相同，||X-c_ij||²为所述输入数据和所述中心点坐标向量之间的欧氏距离，b_j表示所述隐含层高斯函数的宽度；i＝1,2,3....I,表示所述RBF神经网络输入节点的序号；j＝1,2,3...J，表示所述RBF神经网络隐含层节点的序号；h_j表示所述隐含层高斯函数的输出值：

η∈(0,1)为学习效率，同时所述η满足条件：

α∈(0,1)为动量因子；k为动量梯度序号；E_k表示误差性指标函数，w_j表示所述隐含层到输出层的权值。

优选的，所述选择操作具体为：

前R次算法迭代时，采用轮盘赌选择法选择所述父代个体；以及

从R+1次算法迭代开始，将所有所述个体按照所述适应度值从大到小进行降序排列，被选择为所述父代个体的概率p(x_s)为：

其中，R为一预设正整数值，s表示按照适应度排序后个体的序号，q表示平均适应度选择概率；

其中，o表示适应度排序前个体序号，fit(x_o)为所述目标函数在x_o上所取得的适应度值，fit_avg为所述适应度值fit(x_o)的平均值。

优选的，所述转录操作具体为：

令待转录DNA基因片段的起始位置为第d个编码，所述待转录DNA基因片段表示为：

X＝X_d+1,X_d+2,...,X_d+n；

转录后DNA基因片段表示为：

其中，d＝1,2,3....L,为所述个体的四进制编码的编码序号，

表示X_d的四进制反码，转录长度为n＝L·p_c，并向下取整；p_c表示自适应转录因子，L表示个体编码的长度。

进一步的，所述自适应转录因子具体为：

其中，p₀表示初始转录因子且0＜p₀＜0.4，fit表示所述个体变异前的适应度值，fit_max表示所述种群中的最大个体适应度值，fit_min表示所述种群中的最小个体适应度值，fit_avg表示所述种群中个体适应度的平均值。

优选的，所述变异操作具体为：

待变异片段DNA基因的编码表示为X_L-b,X_L-b+1,...,X_L，所述变异操作通过所述自适应变异因子确定变异长度；变异长度为b＝L·q_c，并向下取整；其中q_c表示自适应变异因子；

所述变异操作包括移位变异和重组变异，采用随机数来确定所述变异操作的类型；

取所述随机数m∈(0,1]，选择取值区间内的中间值0.5作为划分点；

若0＜m≤0.5，则采用所述移位变异；若0.5＜m≤1，则采用所述重组变异；

所述移位变异是根据基因插入突变的原理，在所述个体编码的基础上，在变异起始位置随机插入单个编码X，之后的编码依次向后移位；其中X为四进制编码0，1，2，3中的任一个数字；

所述重组变异则是根据基因随机移码突变的原理，将所述变异片段的编码顺序打乱，然后再随机进行组合形成新的变异片段。

进一步的，所述自适应变异因子具体为：

其中，q₀表示初始变异因子，Δfit_max表示所述种群中最大个体适应度值的变化量，ΔS表示所述种群与最近一次最大适应度发生变化的种群之间相隔的代数，且

本发明还公开一种基于基因调控遗传算法的RBF神经网络预测系统，应用于油田产量预测领域，包括：

数据获取模块，用于采用样本数据，并采用小波降噪法对所述样本数据进行滤波及归一化处理，再按预设比例将处理后的所述样本数据分为训练集和测试集；

优化模块，采用基于基因调控遗传算法对RBF神经网络进行优化，输出所述RBF神经网络的最优参数，用于构建RBF神经网络最优模型；

训练模块，使用所述训练集对所述RBF神经网络最优模型优化训练，再通过所述测试集测试后得到RBF神经网络最终模型；

预测模块，输入待预测数据，经过所述RBF神经网络最终模型，得到预测结果。

进一步的，所述采用基于基因调控遗传算法对RBF神经网络进行优化，具体为：

步骤1：初始化RBF神经网络，采用动量梯度优化训练对所述RBF神经网络的参数优化，得到优化参数；

步骤2：基于基因调控遗传算法采用四进制DNA编码方式将所述优化参数编码后产生初代种群；

步骤3：计算种群的适应度值，基于基因调控遗传算法，根据所述适应度值确定自适应转录因子和自适应变异因子，对所述种群进行选择操作、转录操作和变异操作，产生新一代种群；

步骤4：计算所述新一代种群的适应度值，如果满足终止条件，则进入步骤5；否则返回步骤3；

步骤5：输出最优适应度值的所述DNA编码，对所述DNA编码进行解码得到所述RBF神经网络的最优参数，完成RBF神经网络最优模型的构建。

进一步的，所述预测系统还包括计算机可读存储介质，其上存储有计算机程序。

所述预测系统还包括：

非易失性的半导体存储元件，用于读取数据获取模块采集的数据信息；所述数据信息至少包括训练集和测试集中的样本数据，以及待预测数据；

数据处理单元，通过处理电路调用所述计算机程序执行并实现如前面所述基于基因调控遗传算法的RBF神经网络训练方法的步骤；

数据分配电路，对从所述非易失性的半导体存储元件读取的待预测数据按每一处理单位经数据处理单元处理后，将得到的预测结果发送至一条或多条CAN总线，以通过网关发送至外部设备。

本发明提供一种基于基因调控遗传算法的RBF神经网络训练方法及预测系统，采用四进制DNA编码方式，针对遗传算法中选择、转录和变异这3个操作环节进行深入优化，提升了遗传算法的整体性能，并用该遗传优化算法对传统RBF神经网络梯度下降的寻优方式进行改进，将优化后RBF神经网络算法应用到油田注采的建模和产油量预测中，得到一套行之有效的预测系统。

本发明的有益效果在于，通过所述自适应转录因子有效地避免种群早熟和局部最优解的情况，结合所述自适应变异因子增强算法的局部寻优能力。同时仿真实验结果也表明基于基因调控遗传算法优化的RBF神经网络模型，在逼近能力和预测精度都有明显改善，为提高油田注采过程中产油量的预测精度提供了新的研究途径。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明所述基于基因调控遗传算法的RBF神经网络训练方法的流程图；

图2是本发明所述基于基因调控遗传算法的RBF神经网络训练方法的四进制DNA编码示意图；

图3是本发明所述基于基因调控遗传算法的RBF神经网络训练方法的转录操作示意图；

图4是本发明所述基于基因调控遗传算法的RBF神经网络训练方法的移位变异操作示意图；

图5是本发明所述基于基因调控遗传算法的RBF神经网络训练方法的重组变异操作示意图；

图6是本发明所述基于基因调控遗传算法的RBF神经网络训练方法应用于RBF神经网络训练的结构图；

图7是本发明所述基于基因调控遗传算法的RBF神经网络预测系统的迭代误差图。

图8是本发明所述基于基因调控遗传算法的RBF神经网络预测系统的误差对比图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

针对传统RBF神经网络在处理非线性、迟滞性等复杂问题时出现的收敛速度慢、容易陷入局部最小值等问题，本发明公开一种基于基因调控遗传算法的RBF神经网络训练方法，整体思路如图1所示，包括以下步骤：

进一步的，所述动量梯度优化训练具体为：

b_j(k)＝b_j(k-1)+Δb_j(k)+α[b_j(k-1)-b_j(k-2)]；

c_ij(k)＝c_ij(k-1)+Δc_ij(k)+α[c_ij(k-1)-c_ij(k-2)]；

w_j(k)＝w_j(k-1)+Δw_j(k)+α[w_j(k-1)-w_j(k-2)]；

η∈(0,1)为学习效率，同时所述η满足条件：

步骤2：基于基因调控遗传算法采用四进制DNA编码方式将所述优化参数编码后产生初代种群；所述DNA编码的长度为L＝5·(2+I)*J，所述初代种群X＝(X₁,X₂,X₃,...,X_N)；

所述编码方式具体为：生物学中，基因表达调控一般在转录水平上进行，通过DNA分子的复制转录和翻译过程，将遗传信息不断传递下去，控制生物体的生长发育。DNA分子是一种双螺旋结构的高分子化合物，由四种核苷酸组成：腺嘌呤脱氧核苷酸(A)、胞嘧啶脱氧核苷酸(C)、鸟嘌呤脱氧核苷酸(G)、胸腺嘧啶有脱氧核苷酸(T)。因此DNA的单链可以看作是4个不同字母A、G、C和T组成的串。

采用基于DNA链条中碱基的编码方式，单个DNA分子可以表达为4个字母的集合：{A、T、C、G}。因此，采用四进制DNA编码方式对个体进行编码，数字0代表碱基A，数字1代表碱基C，数字2代表碱基G，数字3代表碱基T。初始个体可以用随机四进制数字序列表示，如X＝203103210322031就可表示一个长度为15的个体。若种群中包含的个体数为N，则第k个(1≤k≤N)个体的结构如图2所示，图中L表示个体编码的长度，X₁,X₂,X₃,...,X_L-1,X_L表示参数值，其中，0≤X_i≤3(1≤i≤L)且为整数值。

本发明采用的四进制DNA编码方式是根据基因调控机制中DNA分子的编码方式进行的，个体编码随机且不考虑碱基的顺序和个数。在此基础上，将基因表达中DNA的复制、转录以及突变的过程引入遗传算法选择、转录和变异操作中，按照碱基对互补的原则对信息进行操作。

所述选择操作具体为：前R次算法迭代时，采用轮盘赌选择法选择所述父代个体；以及从R+1次算法迭代开始，将所有所述个体按照所述适应度值从大到小进行降序排列，被选择为所述父代个体的概率p(x_s)为：

这是因为选择操作模仿的是自然界中优胜劣汰的过程，保留适应度值较大的个体，体现算法的全局寻优能力。传统遗传算法采用的是轮盘赌选择法随机选择复制个体，该方法能够保证下一代种群的多样性；但是在进化后期，适应度值差别较小时会出现收敛速度慢的问题。所以所述算法保留轮盘赌的优点，在进行后期对选择算子进行改进，克服收敛速度慢的问题。

所述转录操作具体为：如图3所示，令待转录DNA基因片段的起始位置为第d个编码，所述待转录DNA基因片段表示为：X＝X_d+1,X_d+2,...,X_d+n；转录后DNA基因片段表示为：

其中，d＝1,2,3....L,为所述个体的四进制编码的编码序号，

进一步的，所述自适应转录因子具体为：

其中，p0表示初始转录因子且0＜p₀＜0.4，fit表示所述个体变异前的适应度值，fit_max表示所述种群中的最大个体适应度值，fit_min表示所述种群中的最小个体适应度值，fit_avg表示所述种群中个体适应度的平均值。

可见，自适应转录因子p_c是跟随种群和自身的适应度值发生变化的，这会导致每个个体的所述转录长度是不一致的，且每次迭代时，若所述种群的fit_max和fit_min发生变化时，所述转录长度也会发生变化，所述自适应转录因子一直处于一种动态调整的过程中，更有效地避免种群早熟和局部最优解的情况。

优选的，所述变异操作具体为：

如图4所示，所述移位变异是根据基因插入突变的原理，在所述个体编码的基础上，在变异起始位置随机插入单个编码X，之后的编码依次向后移位；其中X为四进制编码0，1，2，3中的任一个数字；

如图5所示，所述重组变异则是根据基因随机移码突变的原理，将所述变异片段的编码顺序打乱，然后再随机进行组合形成新的变异片段。

进一步的，所述自适应变异因子具体为：

同理，自适应变异因子q_c也是跟随种群和自身的适应度值发生变化的，这会导致每个个体的所述变异长度是不一致的，且每次迭代时，所述种群的fit_max和ΔS发生变化时，所述变异长度也会发生变化，所述自适应变异因子一直处于一种动态调整的过程中，可防止优良种群被破坏，保持种群的多样性，增强算法的局部寻优能力。

所述终止条件是指所述适应度值达到预设的误差值要求；还包括，在一定的迭代次数中，最好个体的适应度值都无明显改善，或种群的平均适应度值没有明显改善，或者采用以上这些条件的组合停止算法的条件。

所述算法是在原始遗传算法的基础上，改进个体的编码方式、选择、转录和变异过程，提高算法的整体性能，尤其是在收敛速度和精度方面提升较大。本发明的具体改进主要是基于个体的适应度值，优化算法的选择、转录和变异操作，而且改进后的操作是在迭代过程中动态调整的，并非原始遗传算法的固定算法操作。

步骤5：输出最优适应度值的所述DNA编码，对所述DNA编码进行解码得到所述RBF神经网络的最优参数，用于构建RBF神经网络最优模型；

所述RBF神经网络最优模型如图6所示。RBF神经网络的训练过程是权值的寻优过程，本发明用遗传优化算法对RBF神经网络的训练过程进行优化改进，能够进一步提高RBF神经网络的收敛速度和精度。

优选的，本发明还公开一种基于基因调控遗传算法的RBF神经网络预测系统，应用于油田产量预测领域，包括：

步骤5：输出最优适应度值的所述DNA编码，对所述DNA编码进行解码得到所述RBF神经网络的最优参数，完成RBF神经网络最优模型的构建；

进一步的，将训练好的RBF神经网络应用于油井产油量的预测方面。

本发明具体实施为：对国内某油田区块的2000余口油水井中的部分注采井组的注水采油数据进行研究，取其中某注采井组从2015年1月到2016年12月期间24个月的注水采油数据，共整理得到700组输入输出数据；选取其中600组数据作为训练数据，采用基于基因调控遗传算法对RBF神经网络进行训练，剩余的100组数据作为测试样本，进行验证。为了消除量纲的影响，提高模型训练的效率，本实施例采用小波降噪法对数据进行了滤波及归一化处理，预测完成后再进行反归一化。

油井产油量的影响因素有很多，本实施例选择原始井网注水量Q_in1(k)、一次加密井网注水量Q_in2(k)、二次加密井网注水量Q_in3(k)、套管压力P_g(k)4个重要因素作为特征量，油井产油量Q_out(k)作为神经网络的输出量，上述4个特征量加上神经网络的状态输出反馈Q_out(k-1)、Q_out(k-2)，作为神经网络的6个输入，使用基于基因调控遗传算法训练后的三层RBF神经网络。

RBF神经网络模型的架构是：输入层6个神经元，隐含层7个神经元，输出层1个神经元，学习率η＝0.5，动量因子α＝0.05网络训练的目标误差E＝0.0001，最大迭代次数为500；标准遗传算法的参数设置为：交叉概率p＝0.6，变异概率q＝0.05；基于基因调控遗传算法的RBF神经网络训练方法的参数设置为：转录因子控制参数p₀＝0.3，初始的变异因子q₀＝0.05，种群规模N均为40，最大迭代次数G均为100，分别对RBF神经网络参数进行寻优，实验效果如图7所示，从图7中可以看出，本发明所述RBF神经网络最终模型既提高了种群寻优的速度，又能避免早熟的现象。

为了体现基因调控遗传算法的优势，本实施例分别采用经典BP神经网络、传统RBF神经网络、遗传算法优化RBF神经网络和基因调控遗传算法优化RBF神经网络的预测系统构建油井注采模型，对产油量进行预测，实验效果中训练误差如图8所示，对比可知，基因调控遗传算法优化的RBF神经网络预测系统，其逼近能力有了明显改善，预测精度也更高。

进一步的，所述预测系统还包括一种计算机可读存储介质，其上存储有计算机程序，其上存储有计算机程序，还包括：

以及数据处理单元，通过处理电路调用所述计算机程序执行并实现如前面所述基于基因调控遗传算法的RBF神经网络训练方法的步骤；

还有数据分配电路，对从所述非易失性的半导体存储元件读取的待预测数据按每一处理单位经数据处理单元处理后，将得到的预测结果发送至一条或多条CAN总线，以通过网关发送至外部设备。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。