CN110096790B

CN110096790B - 一种基于强化学习的不规则缺陷漏磁信号反演方法

Info

Publication number: CN110096790B
Application number: CN201910349592.0A
Authority: CN
Inventors: 张化光; 付雪薇
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2022-05-20
Anticipated expiration: 2039-04-28
Also published as: CN110096790A

Abstract

本发明提供一种基于强化学习的不规则缺陷漏磁信号反演方法，涉及输油管道缺陷漏磁检测技术领域。本发明为产生一个估计的缺陷形状并将其输入正向物理模型中，该正向模型模拟了缺陷产生漏磁信号的过程，通过该模型产生仿真漏磁信号，并计算其与实际测量信号之间的差值，误差反馈给逆向迭代算法，逆向迭代算法产生下一步迭代的缺陷形状参数再次输入正向模型，通过迭代的这个过程使缺陷参数不断的趋近于真实缺陷。本方法通过环境对迭代效果的反馈，进而使价值网络得到不断的训练和提升，最终收敛至全局最优解，提高缺陷反演的精度。

Description

一种基于强化学习的不规则缺陷漏磁信号反演方法

技术领域

本发明涉及输油管道缺陷漏磁检测技术领域，尤其涉及一种基于强化学习的不规则缺陷漏磁信号反演方法。

背景技术

石油和天然气是重要的能源和化工原料，对人民生活、工农业生产和国防建设都具有至关重要的作用。油气管道输送的基本要求是安全、高效。然而长输管道的工作条件通常非常恶劣，受各种因素的影响，很容易发生腐蚀和裂纹等损伤，或使管道内部潜在缺陷发展成破损而引起泄露。油气的泄漏不仅造成了巨大的经济损失，同时也会造成严重的环境污染，并且威胁着人身安全。所以必须对油气管道进行定期的无损检测，以保证油气运输过程的安全与高效。

目前，在所有管道无损检测技术中，漏磁检测技术应用范围最为广泛。而在漏磁检测的过程中，漏磁信号的处理以及缺陷的量化识别是管道漏磁检测的核心环节。漏磁检测信号的量化识别过程就是根据漏磁检测信号确定被测材料中是否存在缺陷、并标定缺陷的形状和位置，进而实现缺陷检测的可视化，称为漏磁检测的反演问题。

漏磁信号的反演对缺陷的位置和形状进行估计，可以为管道维修提供了较为准确的预见和报告，对管道缺陷的精确识别不但可以及时对缺陷严重的管道进行更换，尽可能的减少泄漏事故造成的重大经济损失和严重环境污染，同时，对于并不严重的、不会造成管道泄露的缺陷，可以避免盲目地进行管道更换，为管道运行维护提供准确的预报。而漏磁信号的反演方法主要分为两大类，一类是不需要物理模型的直接法，一类是基于模型的间接法，不基于模型的直接法的原理是直接建立测量信号与缺陷参数之间的映射关系，虽然有快速简单的优点，但是由于这种方法的映射参数是基于训练样本得出的，所以这个模型的泛化能力较差，当实际缺陷和训练样本相差较远时，模型的准确率较低，尤其对于形状不规则的缺陷不能精准的预测，而实际应用中缺陷绝大多数是不规则的。

现有的基于模型的反演方法虽然相对于不基于模型的直接法有更高的精度，但是仍然存在求解精度不够高的问题，因此如何在现有的基于模型的间接法的研究成果的基础上进一步提高反演精度是我们目前急需解决的问题。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于强化学习的不规则缺陷漏磁信号反演方法，本方法通过环境对迭代效果的反馈，进而使价值网络得到不断的训练和提升，最终收敛至全局最优解，提高缺陷反演的精度。

为解决上述技术问题，本发明所采取的技术方案是：

本发明提供一种基于强化学习的不规则缺陷漏磁信号反演方法，包括如下步骤：

步骤1:已知待估计不规则缺陷的参数target_state产生的轴向漏磁信号Bx_real，随机初始化不规则缺陷形状参数

initial_state有n个自由度，每个自由度对应一个分量，该分量代表在该自由度对应的轴向位置上缺陷的形状参数，即缺陷深度占管道厚度的百分比，其中管道缺陷参数具有如下规律:

进行缺陷参数的初始化方法为:首先，通过直接法得到最深的中心点

或

的初始值；其次，除中心点

或

以外的点可在上述不等式所确定的缺陷参数范围中随机初始化；计算初始误差initial_err，并将其值赋给pre_err；

初始误差initial_err的计算公式如下:

initial_err＝(Bx_real[i]-Bx_sim[i])²

其中，Bx_real是实际测量的轴向信号，Bx_sim是初始化的缺陷产生的仿真轴向信号，i是采样点序列号，共有m个采样点；

步骤2：建立两个结构相同的价值神经网络，包括价值神经网络1和价值神经网络2；并对两个价值神经网络的参数进行初始化；价值神经网络1用于在迭代选择动作时产生动作价值，每次迭代都会根据随机梯度下降法进行训练并更新参数；价值神经网络2的输出用于在训练神经网络时作为训练目标，每到间隔人为设定的迭代次数时会对价值神经网络2参数进行更新，即将价值网络1的参数赋给价值网络2；

两个价值神经网络中的每个价值网络都包括输入层、输出层和隐藏层，以initial_state作为输入，则输入节点个数为n，隐藏层的激活函数用relu函数，输出层节点数为2n个，则代表输出2n个动作，每个动作代表在一个自由度上进行加或减操作；

步骤3：将步骤1中的初始缺陷形状参数initial_state赋给state，将state输入价值神经网络1中，价值神经网络1输出2n个动作价值，根据该状态下每个动作的价值用ε-greedy方法选择动作action；

所述ε-greedy方法是以ε的小概率随机选择一个动作，而以1-ε的概率选择价值最大的动作；表达式为：

其中，Q(state,action,w)为价值网络1在状态state下的输出价值，其中state为估计缺陷的形状参数，w为神经网络的权重，p代表当前概率，random代表随机选择一个动作，ε为采用随机的方式选择一个动作的概率；

步骤4：根据选择的动作action迭代出下一个估计的缺陷参数next_state＝state+action；

步骤5：将迭代得到的next_state输入正向有限元模型中，产生对应的仿真漏磁信号Bx_sim_n，计算Bx_sim_n和实际漏磁信号Bx_real之间的误差err；

步骤6：根据err、pre_err、initial_err的值，计算此次迭代的奖励reward；将当前迭代的误差err与上一次迭代的误差pre_err、从之前迭代产生误差里面随机抽取的误差random_err和initial_err进行比较，仅当err同时小于这三者时，reward＝+1，否则reward＝-1；

步骤7：将此次迭代相关的变量组存储至记忆库，变量组包括state,action,reward,next_state,err；存储方式为顺序存储，当记忆库存储满时新的变量组会覆盖记忆库中存储最早的变量组；

步骤8：判断记忆库是否已经存满，若存满则从记忆库中批量随机抽取变量组并根据批量抽取样本的随机梯度下降法进行参数学习，学习后执行步骤9；若未存满则执行步骤9；

所述批量抽取样本的随机梯度下降法中的损失函数为：

L(ω)＝E[(R+γ·max_aQ(next_state,a,ω^-)-Q(state,action,ω))²]

其中R为随机批量抽取的变量组中reward构成的向量，γ为折扣因子，Q(next_state,a,ω^-)为输入为next_state时神经网络2输出的所有动作价值，其中ω^-为神经网络2的参数，在公式中取输出价值的最大值，而Q(state,action,ω)为神经网络1在输入为state且输出对应action的价值，其中ω为神经网络1的参数，E是代表(R+γ·max_aQ(next_state,a,ω^-)-Q(state,action,ω))的均值，a代表所有动作解空间；

步骤9：判断是否满足终止条件，若否则执行步骤10；若是则按照终止条件执行；所述终止条件为两种，一种是局部终止条件，局部终止条件是指当迭代产生的next_state在任意一个自由度下面的分量偏离目标缺陷参数target_state相应分量且偏移大于阈值1时，此次迭代终止，重新初始化缺陷参数，将该参数输入到价值神经网络1中，执行步骤3；另一种是全局终止条件，全局终止条件是指当信号误差err小于阈值2时，执行步骤11；所述阈值1和阈值2是根据人为的需求设置；

重新初始化缺陷参数方法如下：判断记忆库中是否已经存储满，若没有存满则将步骤1中的

作为缺陷参数；若存储满了，要从记忆库中选择和Bx_real的误差最小的缺陷，并比较其误差err和之前的初始化缺陷的误差initial_err，若err<initial_err，则将对应的state作为再次初始化时候的initial_state；若err≥initial_err，则initial_state保持不变,重新初始化后将initial_state的值赋给state，执行步骤3

步骤10：将next_state的值赋给state，将err的值赋给pre_err，执行步骤3；

步骤11：反演结束，得到估计的缺陷形状参数；

步骤12：根据已知的管道壁厚度和步骤11中得到的缺陷形状参数获得缺陷深度序列，通过该序列最终得到不规则缺陷的形状。

所述步骤3中的估计缺陷的形状参数state是以一维数组的形式表现，数组的每个分量代表估计的缺陷在该自由度下的形状参数，通过此方式表达不规则缺陷形状。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于强化学习的不规则缺陷漏磁信号反演方法，本方法是产生一个估计的缺陷形状并将其输入正向物理模型中，该正向模型模拟了缺陷产生漏磁信号的过程，通过该模型产生仿真漏磁信号，并计算其与实际测量信号之间的差值，误差反馈给逆向迭代算法，逆向迭代算法产生下一步迭代的缺陷形状参数再次输入正向模型，本方法的学习能力导致算法反演的缺陷信号越多，反演的速度和收敛精度越高，也就是说算法可以利用之前的反演经验得出通用性迭代策略，而不像现有的经典算法(梯度下降法、模拟退火法等)那样每次反演都抛弃之前的经验独立计算最优解；随着算法不断训练，达到了相对于现有方法更高的收敛精度。

附图说明

图1为本发明实施例提供的不规则缺陷反演方法的流程图；

图2为本发明实施例提供的确定强化学习奖励reward值的流程图；

图3为本发明实施例提供的缺陷参数初始化的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明中应用的是基于模型的漏磁方法，原理大致如下：产生一个估计的缺陷形状并将其输入正向物理模型中，该正向模型模拟了缺陷产生漏磁信号的过程，通过该模型产生仿真漏磁信号，并计算其与实际测量信号之间的差值，误差反馈给逆向迭代算法，逆向迭代算法产生下一步迭代的缺陷形状参数再次输入正向模型，通过迭代的这个过程使缺陷参数不断的趋近于真实缺陷。基于模型的反演方法没有了直接法上述的缺点，反演结果更加准确，精度更高。

缺陷形状参数在这里并不是一次性收敛至目标缺陷参数附近，而是在已经积累的迭代经验的基础上重新初始化缺陷参数多次，才收敛至也全局最优解。也就是说在每次迭代过程中，即使估计缺陷信号和实际信号的误差没有收敛至阈值以下，但是当估计缺陷参数偏离目标缺陷参数target_state的相应分量大于某一阈值时，也会终止此次迭代后重新初始化开始新的迭代。这样做的原因是当估计的缺陷参数偏离较大后，短时间内很难再回到目标缺陷附近，而这种情况下积累的训练数据也是没有价值的，如果任其迭代下去，就会因为状态空间过分扩张而浪费非常多的训练时间。

如图1所示，本实施例的方法如下所述。

或

的初始值；其次，除中心点

或

初始误差initial_err的计算公式如下:

initial_err＝(Bx_real[i]-Bx_sim[i])²

步骤2：建立两个结构相同的价值神经网络，包括价值神经网络1和价值神经网络2；并对两个价值神经网络的参数进行初始化；价值神经网络1用于在迭代选择动作时产生动作价值，每次迭代都会根据随机梯度下降法(SGD)进行训练并更新参数；价值神经网络2的输出用于在训练神经网络时作为训练目标，每到间隔人为设定的迭代次数时会对价值神经网络2参数进行更新，即将价值网络1的参数赋给价值网络2；

本步骤中的初始化的缺陷参数并不是固定的，在下述的记忆库存储满了且需要重新初始化开始新的迭代时，要从记忆库中选择和Bx_real的误差最小的缺陷，并比较其误差和之前的初始化缺陷的误差，如果误差更小将对应的state，作为再次初始化时候的initial_state，这样做的原因一是为了缩短迭代路径，二是为了将神经网络的训练样本更多的集中在实际缺陷附近，减少学习时间，在更短的时间内提高价值网络的准确性。

本实施例中设有4个自由度，initial_state＝[15,30,70,4]代表在这4个自由度上面缺陷的深度分别为管壁厚度的15％，30％，70％和4％，而动作的可能解为[-1,0,0,0],[1,0,0,0][0,-1,0,0],[0,1,0,0],[0,0,-1,0],[0,0,1,0],[0,0,0,-1],[0,0,0,1]，那么价值网络输出的值为这8个动作对应的价值，价值的大小反映了采用相对应的动作后向实际缺陷逼近了多少。隐藏层的激活函数用relu函数，为了避免强化学习中可能出现的参数不收敛情况，设立两个结构完全相同的价值神经网络并且同时初始化，一个价值网络1用于在迭代选择动作时产生动作价值，每次迭代都会根据随机梯度下降法(SGD)进行训练并更新参数；一个价值网络2用于在训练神经网络时作为训练目标，每隔一设定的迭代次数才会更新，这种双价值网络的方式模仿了有监督学习，保证了训练样本的相对稳定性；使得神经网络通过训练能越来越准确地产生动作价值，因而增大算法向正确方向迭代的可能性；

其中，Q(state,action,w)为价值网络在状态state下的输出价值，其中state为估计缺陷的形状参数，w为神经网络的权重，p代表当前概率，random代表随机选择一个动作，ε为采用随机的方式选择一个动作的概率；

在该问题中动作变量action为在某特定状态变量state下对相应参数采取的动作，每个动作仅在一个自由度上面进行加减，也就是说当自由度为n时，有2n个可能的动作。

本实施例中ε＝0.01；

步骤5：将迭代得到的next_state输入正向有限元模型中，漏磁检测的有限元模型用ANSYS有限元分析软件来实现。因为强化学习算法是用pytorch框架搭建并用python实现的，所以在这时需要用python将next_state的参数写入以文本形式存储的APDL语言中，再用python实现ANSYS的调用，将ANSYS的运行后台打开输入APDL命令执行仿真，产生对应的仿真漏磁信号Bx_sim_n，计算Bx_sim_n和实际漏磁信号Bx_real之间的误差err；

步骤6：根据err、pre_err、initial_err的值，计算此次迭代的奖励reward，如图2所示，；将当前迭代的误差err与上一次迭代的误差pre_err、从之前迭代产生误差里面随机抽取的误差random_err和initial_err进行比较，仅当err同时小于这三者时，reward＝+1，否则reward＝-1；

步骤7：将此次迭代相关的变量组存储至记忆库，变量组包括state,action,reward,next_state,err；存储方式为顺序存储，当记忆库存储满时新的变量组会覆盖记忆库中存储最早的变量组；之所以使用记忆库是因为要通过经验回放(experience replay)来消除数据之间的关联性；

步骤8：判断记忆库是否已经存满，若存满则从记忆库中批量随机抽取变量组并根据批量抽取样本的随机梯度下降法进行参数学习，因此当记忆库存满以后，每迭代一次神经网络1的参数更新一次，而神经网络2的参数每m次迭代和价值神经网络同步。在学习时，参数的更新算法用mini-batch SGD，即批量抽取样本的随机梯度下降法，该方法既在一定程度上避免了传统的梯度下降法存在的容易陷入局部极小值的问题，又通过批量抽取样本避免了损失函数的大幅波动。学习后执行步骤9；若未存满则执行步骤9；因此当记忆库存满以后，每迭代一次神经网络1的参数更新一次，而神经网络2的参数每m次迭代和价值神经网络1同步更新一次；

所述批量抽取样本的随机梯度下降法中的损失函数为：

L(ω)＝E[(R+γ·max_aQ(next_state,a,ω^-)-Q(state,action,ω))²]

其中R为随机批量抽取的变量组中reward构成的向量，γ为折扣因子，Q(next_state,a,ω^-)为输入为next_state时神经网络2输出的所有动作价值，其中ω^-为神经网络2的参数，在公式中取输出价值的最大值，而Q(state,action,ω)为神经网络1在输入为state且输出对应action的价值，其中ω为神经网络1的参数，E是代表(R+γ·max_aQ(next_state,a,ω^-)-Q(state,action,ω))的均值，a代表所有可能的动作解空间。

步骤9：判断是否满足终止条件，若否则执行步骤10；若是则按照终止条件执行；所述终止条件为两种，一种是局部终止条件，局部终止条件是指当迭代产生的next_state在任意一个自由度下面的分量偏离目标缺陷参数target_state相应分量且偏移大于阈值1时，此次迭代终止，重新初始化缺陷参数，将该参数输入到价值神经网络1中，执行步骤3；这种设计是为了避免状态空间过于发散而产生多余的训练时间；另一种是全局终止条件，全局终止条件是指当信号误差err小于阈值2时，执行步骤11；所述阈值1和阈值2是根据人为的需求设置；

本实施例中阈值1在这里设定为目前迭代的缺陷参数其中一个自由度下的分量与初始缺陷参数对应分量之间的偏离大于30；阈值2在这里设定为0.000005。

如图3所示，重新初始化缺陷参数方法如下：判断记忆库中是否已经存储满，若没有存满则将步骤1中的

作为缺陷参数；若存储满了，要从记忆库中选择和Bx_real的误差最小的缺陷，并比较其误差err和之前的初始化缺陷的误差initial_err，若err<initial_err，则将对应的state作为再次初始化时候的initial_state；若err≥initial_err，则initial_state保持不变,重新初始化后将initial_state的值赋给state，执行步骤3；

步骤11：反演结束，得到估计的缺陷形状参数；

本实施例中的经过反演得到的缺陷形状参数为[4,55,35,8]，管道厚度为8mm，将代表占管道厚度百分比的缺陷形状参数乘以管道厚度，得到缺陷深度序列为[0.32,4.4,2.8,0.64](单位：mm)，将深度序列中的点连接起来得到不规则缺陷的形状；

步骤3中所述的估计缺陷的形状参数state是以一维数组的形式表现，数组的每个分量代表估计的缺陷在该自由度下的形状参数，通过此方式表达不规则缺陷形状。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。