CN110096790B - 一种基于强化学习的不规则缺陷漏磁信号反演方法 - Google Patents

一种基于强化学习的不规则缺陷漏磁信号反演方法 Download PDF

Info

Publication number
CN110096790B
CN110096790B CN201910349592.0A CN201910349592A CN110096790B CN 110096790 B CN110096790 B CN 110096790B CN 201910349592 A CN201910349592 A CN 201910349592A CN 110096790 B CN110096790 B CN 110096790B
Authority
CN
China
Prior art keywords
defect
state
value
err
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910349592.0A
Other languages
English (en)
Other versions
CN110096790A (zh
Inventor
张化光
付雪薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910349592.0A priority Critical patent/CN110096790B/zh
Publication of CN110096790A publication Critical patent/CN110096790A/zh
Application granted granted Critical
Publication of CN110096790B publication Critical patent/CN110096790B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/14Pipes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Investigating Or Analyzing Materials By The Use Of Magnetic Means (AREA)

Abstract

本发明提供一种基于强化学习的不规则缺陷漏磁信号反演方法,涉及输油管道缺陷漏磁检测技术领域。本发明为产生一个估计的缺陷形状并将其输入正向物理模型中,该正向模型模拟了缺陷产生漏磁信号的过程,通过该模型产生仿真漏磁信号,并计算其与实际测量信号之间的差值,误差反馈给逆向迭代算法,逆向迭代算法产生下一步迭代的缺陷形状参数再次输入正向模型,通过迭代的这个过程使缺陷参数不断的趋近于真实缺陷。本方法通过环境对迭代效果的反馈,进而使价值网络得到不断的训练和提升,最终收敛至全局最优解,提高缺陷反演的精度。

Description

一种基于强化学习的不规则缺陷漏磁信号反演方法
技术领域
本发明涉及输油管道缺陷漏磁检测技术领域,尤其涉及一种基于强化学习的不规则缺陷漏磁信号反演方法。
背景技术
石油和天然气是重要的能源和化工原料,对人民生活、工农业生产和国防建设都具有至关重要的作用。油气管道输送的基本要求是安全、高效。然而长输管道的工作条件通常非常恶劣,受各种因素的影响,很容易发生腐蚀和裂纹等损伤,或使管道内部潜在缺陷发展成破损而引起泄露。油气的泄漏不仅造成了巨大的经济损失,同时也会造成严重的环境污染,并且威胁着人身安全。所以必须对油气管道进行定期的无损检测,以保证油气运输过程的安全与高效。
目前,在所有管道无损检测技术中,漏磁检测技术应用范围最为广泛。而在漏磁检测的过程中,漏磁信号的处理以及缺陷的量化识别是管道漏磁检测的核心环节。漏磁检测信号的量化识别过程就是根据漏磁检测信号确定被测材料中是否存在缺陷、并标定缺陷的形状和位置,进而实现缺陷检测的可视化,称为漏磁检测的反演问题。
漏磁信号的反演对缺陷的位置和形状进行估计,可以为管道维修提供了较为准确的预见和报告,对管道缺陷的精确识别不但可以及时对缺陷严重的管道进行更换,尽可能的减少泄漏事故造成的重大经济损失和严重环境污染,同时,对于并不严重的、不会造成管道泄露的缺陷,可以避免盲目地进行管道更换,为管道运行维护提供准确的预报。而漏磁信号的反演方法主要分为两大类,一类是不需要物理模型的直接法,一类是基于模型的间接法,不基于模型的直接法的原理是直接建立测量信号与缺陷参数之间的映射关系,虽然有快速简单的优点,但是由于这种方法的映射参数是基于训练样本得出的,所以这个模型的泛化能力较差,当实际缺陷和训练样本相差较远时,模型的准确率较低,尤其对于形状不规则的缺陷不能精准的预测,而实际应用中缺陷绝大多数是不规则的。
现有的基于模型的反演方法虽然相对于不基于模型的直接法有更高的精度,但是仍然存在求解精度不够高的问题,因此如何在现有的基于模型的间接法的研究成果的基础上进一步提高反演精度是我们目前急需解决的问题。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于强化学习的不规则缺陷漏磁信号反演方法,本方法通过环境对迭代效果的反馈,进而使价值网络得到不断的训练和提升,最终收敛至全局最优解,提高缺陷反演的精度。
为解决上述技术问题,本发明所采取的技术方案是:
本发明提供一种基于强化学习的不规则缺陷漏磁信号反演方法,包括如下步骤:
步骤1:已知待估计不规则缺陷的参数target_state产生的轴向漏磁信号Bx_real,随机初始化不规则缺陷形状参数
Figure GDA0003344213340000021
initial_state有n个自由度,每个自由度对应一个分量,该分量代表在该自由度对应的轴向位置上缺陷的形状参数,即缺陷深度占管道厚度的百分比,其中管道缺陷参数具有如下规律:
Figure GDA0003344213340000022
进行缺陷参数的初始化方法为:首先,通过直接法得到最深的中心点
Figure GDA0003344213340000023
Figure GDA0003344213340000024
的初始值;其次,除中心点
Figure GDA0003344213340000025
Figure GDA0003344213340000026
以外的点可在上述不等式所确定的缺陷参数范围中随机初始化;计算初始误差initial_err,并将其值赋给pre_err;
初始误差initial_err的计算公式如下:
initial_err=(Bx_real[i]-Bx_sim[i])2
其中,Bx_real是实际测量的轴向信号,Bx_sim是初始化的缺陷产生的仿真轴向信号,i是采样点序列号,共有m个采样点;
步骤2:建立两个结构相同的价值神经网络,包括价值神经网络1和价值神经网络2;并对两个价值神经网络的参数进行初始化;价值神经网络1用于在迭代选择动作时产生动作价值,每次迭代都会根据随机梯度下降法进行训练并更新参数;价值神经网络2的输出用于在训练神经网络时作为训练目标,每到间隔人为设定的迭代次数时会对价值神经网络2参数进行更新,即将价值网络1的参数赋给价值网络2;
两个价值神经网络中的每个价值网络都包括输入层、输出层和隐藏层,以initial_state作为输入,则输入节点个数为n,隐藏层的激活函数用relu函数,输出层节点数为2n个,则代表输出2n个动作,每个动作代表在一个自由度上进行加或减操作;
步骤3:将步骤1中的初始缺陷形状参数initial_state赋给state,将state输入价值神经网络1中,价值神经网络1输出2n个动作价值,根据该状态下每个动作的价值用ε-greedy方法选择动作action;
所述ε-greedy方法是以ε的小概率随机选择一个动作,而以1-ε的概率选择价值最大的动作;表达式为:
Figure GDA0003344213340000031
其中,Q(state,action,w)为价值网络1在状态state下的输出价值,其中state为估计缺陷的形状参数,w为神经网络的权重,p代表当前概率,random代表随机选择一个动作,ε为采用随机的方式选择一个动作的概率;
步骤4:根据选择的动作action迭代出下一个估计的缺陷参数next_state=state+action;
步骤5:将迭代得到的next_state输入正向有限元模型中,产生对应的仿真漏磁信号Bx_sim_n,计算Bx_sim_n和实际漏磁信号Bx_real之间的误差err;
步骤6:根据err、pre_err、initial_err的值,计算此次迭代的奖励reward;将当前迭代的误差err与上一次迭代的误差pre_err、从之前迭代产生误差里面随机抽取的误差random_err和initial_err进行比较,仅当err同时小于这三者时,reward=+1,否则reward=-1;
步骤7:将此次迭代相关的变量组存储至记忆库,变量组包括state,action,reward,next_state,err;存储方式为顺序存储,当记忆库存储满时新的变量组会覆盖记忆库中存储最早的变量组;
步骤8:判断记忆库是否已经存满,若存满则从记忆库中批量随机抽取变量组并根据批量抽取样本的随机梯度下降法进行参数学习,学习后执行步骤9;若未存满则执行步骤9;
所述批量抽取样本的随机梯度下降法中的损失函数为:
L(ω)=E[(R+γ·maxaQ(next_state,a,ω-)-Q(state,action,ω))2]
其中R为随机批量抽取的变量组中reward构成的向量,γ为折扣因子,Q(next_state,a,ω-)为输入为next_state时神经网络2输出的所有动作价值,其中ω-为神经网络2的参数,在公式中取输出价值的最大值,而Q(state,action,ω)为神经网络1在输入为state且输出对应action的价值,其中ω为神经网络1的参数,E是代表(R+γ·maxaQ(next_state,a,ω-)-Q(state,action,ω))的均值,a代表所有动作解空间;
步骤9:判断是否满足终止条件,若否则执行步骤10;若是则按照终止条件执行;所述终止条件为两种,一种是局部终止条件,局部终止条件是指当迭代产生的next_state在任意一个自由度下面的分量偏离目标缺陷参数target_state相应分量且偏移大于阈值1时,此次迭代终止,重新初始化缺陷参数,将该参数输入到价值神经网络1中,执行步骤3;另一种是全局终止条件,全局终止条件是指当信号误差err小于阈值2时,执行步骤11;所述阈值1和阈值2是根据人为的需求设置;
重新初始化缺陷参数方法如下:判断记忆库中是否已经存储满,若没有存满则将步骤1中的
Figure GDA0003344213340000041
作为缺陷参数;若存储满了,要从记忆库中选择和Bx_real的误差最小的缺陷,并比较其误差err和之前的初始化缺陷的误差initial_err,若err<initial_err,则将对应的state作为再次初始化时候的initial_state;若err≥initial_err,则initial_state保持不变,重新初始化后将initial_state的值赋给state,执行步骤3
步骤10:将next_state的值赋给state,将err的值赋给pre_err,执行步骤3;
步骤11:反演结束,得到估计的缺陷形状参数;
步骤12:根据已知的管道壁厚度和步骤11中得到的缺陷形状参数获得缺陷深度序列,通过该序列最终得到不规则缺陷的形状。
所述步骤3中的估计缺陷的形状参数state是以一维数组的形式表现,数组的每个分量代表估计的缺陷在该自由度下的形状参数,通过此方式表达不规则缺陷形状。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于强化学习的不规则缺陷漏磁信号反演方法,本方法是产生一个估计的缺陷形状并将其输入正向物理模型中,该正向模型模拟了缺陷产生漏磁信号的过程,通过该模型产生仿真漏磁信号,并计算其与实际测量信号之间的差值,误差反馈给逆向迭代算法,逆向迭代算法产生下一步迭代的缺陷形状参数再次输入正向模型,本方法的学习能力导致算法反演的缺陷信号越多,反演的速度和收敛精度越高,也就是说算法可以利用之前的反演经验得出通用性迭代策略,而不像现有的经典算法(梯度下降法、模拟退火法等)那样每次反演都抛弃之前的经验独立计算最优解;随着算法不断训练,达到了相对于现有方法更高的收敛精度。
附图说明
图1为本发明实施例提供的不规则缺陷反演方法的流程图;
图2为本发明实施例提供的确定强化学习奖励reward值的流程图;
图3为本发明实施例提供的缺陷参数初始化的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明中应用的是基于模型的漏磁方法,原理大致如下:产生一个估计的缺陷形状并将其输入正向物理模型中,该正向模型模拟了缺陷产生漏磁信号的过程,通过该模型产生仿真漏磁信号,并计算其与实际测量信号之间的差值,误差反馈给逆向迭代算法,逆向迭代算法产生下一步迭代的缺陷形状参数再次输入正向模型,通过迭代的这个过程使缺陷参数不断的趋近于真实缺陷。基于模型的反演方法没有了直接法上述的缺点,反演结果更加准确,精度更高。
缺陷形状参数在这里并不是一次性收敛至目标缺陷参数附近,而是在已经积累的迭代经验的基础上重新初始化缺陷参数多次,才收敛至也全局最优解。也就是说在每次迭代过程中,即使估计缺陷信号和实际信号的误差没有收敛至阈值以下,但是当估计缺陷参数偏离目标缺陷参数target_state的相应分量大于某一阈值时,也会终止此次迭代后重新初始化开始新的迭代。这样做的原因是当估计的缺陷参数偏离较大后,短时间内很难再回到目标缺陷附近,而这种情况下积累的训练数据也是没有价值的,如果任其迭代下去,就会因为状态空间过分扩张而浪费非常多的训练时间。
如图1所示,本实施例的方法如下所述。
本发明提供一种基于强化学习的不规则缺陷漏磁信号反演方法,包括如下步骤:
步骤1:已知待估计不规则缺陷的参数target_state产生的轴向漏磁信号Bx_real,随机初始化不规则缺陷形状参数
Figure GDA0003344213340000051
initial_state有n个自由度,每个自由度对应一个分量,该分量代表在该自由度对应的轴向位置上缺陷的形状参数,即缺陷深度占管道厚度的百分比,其中管道缺陷参数具有如下规律:
Figure GDA0003344213340000052
进行缺陷参数的初始化方法为:首先,通过直接法得到最深的中心点
Figure GDA0003344213340000053
Figure GDA0003344213340000054
的初始值;其次,除中心点
Figure GDA0003344213340000055
Figure GDA0003344213340000056
以外的点可在上述不等式所确定的缺陷参数范围中随机初始化;计算初始误差initial_err,并将其值赋给pre_err;
初始误差initial_err的计算公式如下:
initial_err=(Bx_real[i]-Bx_sim[i])2
其中,Bx_real是实际测量的轴向信号,Bx_sim是初始化的缺陷产生的仿真轴向信号,i是采样点序列号,共有m个采样点;
步骤2:建立两个结构相同的价值神经网络,包括价值神经网络1和价值神经网络2;并对两个价值神经网络的参数进行初始化;价值神经网络1用于在迭代选择动作时产生动作价值,每次迭代都会根据随机梯度下降法(SGD)进行训练并更新参数;价值神经网络2的输出用于在训练神经网络时作为训练目标,每到间隔人为设定的迭代次数时会对价值神经网络2参数进行更新,即将价值网络1的参数赋给价值网络2;
两个价值神经网络中的每个价值网络都包括输入层、输出层和隐藏层,以initial_state作为输入,则输入节点个数为n,隐藏层的激活函数用relu函数,输出层节点数为2n个,则代表输出2n个动作,每个动作代表在一个自由度上进行加或减操作;
本步骤中的初始化的缺陷参数并不是固定的,在下述的记忆库存储满了且需要重新初始化开始新的迭代时,要从记忆库中选择和Bx_real的误差最小的缺陷,并比较其误差和之前的初始化缺陷的误差,如果误差更小将对应的state,作为再次初始化时候的initial_state,这样做的原因一是为了缩短迭代路径,二是为了将神经网络的训练样本更多的集中在实际缺陷附近,减少学习时间,在更短的时间内提高价值网络的准确性。
本实施例中设有4个自由度,initial_state=[15,30,70,4]代表在这4个自由度上面缺陷的深度分别为管壁厚度的15%,30%,70%和4%,而动作的可能解为[-1,0,0,0],[1,0,0,0][0,-1,0,0],[0,1,0,0],[0,0,-1,0],[0,0,1,0],[0,0,0,-1],[0,0,0,1],那么价值网络输出的值为这8个动作对应的价值,价值的大小反映了采用相对应的动作后向实际缺陷逼近了多少。隐藏层的激活函数用relu函数,为了避免强化学习中可能出现的参数不收敛情况,设立两个结构完全相同的价值神经网络并且同时初始化,一个价值网络1用于在迭代选择动作时产生动作价值,每次迭代都会根据随机梯度下降法(SGD)进行训练并更新参数;一个价值网络2用于在训练神经网络时作为训练目标,每隔一设定的迭代次数才会更新,这种双价值网络的方式模仿了有监督学习,保证了训练样本的相对稳定性;使得神经网络通过训练能越来越准确地产生动作价值,因而增大算法向正确方向迭代的可能性;
步骤3:将步骤1中的初始缺陷形状参数initial_state赋给state,将state输入价值神经网络1中,价值神经网络1输出2n个动作价值,根据该状态下每个动作的价值用ε-greedy方法选择动作action;
所述ε-greedy方法是以ε的小概率随机选择一个动作,而以1-ε的概率选择价值最大的动作;表达式为:
Figure GDA0003344213340000071
其中,Q(state,action,w)为价值网络在状态state下的输出价值,其中state为估计缺陷的形状参数,w为神经网络的权重,p代表当前概率,random代表随机选择一个动作,ε为采用随机的方式选择一个动作的概率;
在该问题中动作变量action为在某特定状态变量state下对相应参数采取的动作,每个动作仅在一个自由度上面进行加减,也就是说当自由度为n时,有2n个可能的动作。
本实施例中ε=0.01;
步骤4:根据选择的动作action迭代出下一个估计的缺陷参数next_state=state+action;
步骤5:将迭代得到的next_state输入正向有限元模型中,漏磁检测的有限元模型用ANSYS有限元分析软件来实现。因为强化学习算法是用pytorch框架搭建并用python实现的,所以在这时需要用python将next_state的参数写入以文本形式存储的APDL语言中,再用python实现ANSYS的调用,将ANSYS的运行后台打开输入APDL命令执行仿真,产生对应的仿真漏磁信号Bx_sim_n,计算Bx_sim_n和实际漏磁信号Bx_real之间的误差err;
步骤6:根据err、pre_err、initial_err的值,计算此次迭代的奖励reward,如图2所示,;将当前迭代的误差err与上一次迭代的误差pre_err、从之前迭代产生误差里面随机抽取的误差random_err和initial_err进行比较,仅当err同时小于这三者时,reward=+1,否则reward=-1;
步骤7:将此次迭代相关的变量组存储至记忆库,变量组包括state,action,reward,next_state,err;存储方式为顺序存储,当记忆库存储满时新的变量组会覆盖记忆库中存储最早的变量组;之所以使用记忆库是因为要通过经验回放(experience replay)来消除数据之间的关联性;
步骤8:判断记忆库是否已经存满,若存满则从记忆库中批量随机抽取变量组并根据批量抽取样本的随机梯度下降法进行参数学习,因此当记忆库存满以后,每迭代一次神经网络1的参数更新一次,而神经网络2的参数每m次迭代和价值神经网络同步。在学习时,参数的更新算法用mini-batch SGD,即批量抽取样本的随机梯度下降法,该方法既在一定程度上避免了传统的梯度下降法存在的容易陷入局部极小值的问题,又通过批量抽取样本避免了损失函数的大幅波动。学习后执行步骤9;若未存满则执行步骤9;因此当记忆库存满以后,每迭代一次神经网络1的参数更新一次,而神经网络2的参数每m次迭代和价值神经网络1同步更新一次;
所述批量抽取样本的随机梯度下降法中的损失函数为:
L(ω)=E[(R+γ·maxaQ(next_state,a,ω-)-Q(state,action,ω))2]
其中R为随机批量抽取的变量组中reward构成的向量,γ为折扣因子,Q(next_state,a,ω-)为输入为next_state时神经网络2输出的所有动作价值,其中ω-为神经网络2的参数,在公式中取输出价值的最大值,而Q(state,action,ω)为神经网络1在输入为state且输出对应action的价值,其中ω为神经网络1的参数,E是代表(R+γ·maxaQ(next_state,a,ω-)-Q(state,action,ω))的均值,a代表所有可能的动作解空间。
步骤9:判断是否满足终止条件,若否则执行步骤10;若是则按照终止条件执行;所述终止条件为两种,一种是局部终止条件,局部终止条件是指当迭代产生的next_state在任意一个自由度下面的分量偏离目标缺陷参数target_state相应分量且偏移大于阈值1时,此次迭代终止,重新初始化缺陷参数,将该参数输入到价值神经网络1中,执行步骤3;这种设计是为了避免状态空间过于发散而产生多余的训练时间;另一种是全局终止条件,全局终止条件是指当信号误差err小于阈值2时,执行步骤11;所述阈值1和阈值2是根据人为的需求设置;
本实施例中阈值1在这里设定为目前迭代的缺陷参数其中一个自由度下的分量与初始缺陷参数对应分量之间的偏离大于30;阈值2在这里设定为0.000005。
如图3所示,重新初始化缺陷参数方法如下:判断记忆库中是否已经存储满,若没有存满则将步骤1中的
Figure GDA0003344213340000081
作为缺陷参数;若存储满了,要从记忆库中选择和Bx_real的误差最小的缺陷,并比较其误差err和之前的初始化缺陷的误差initial_err,若err<initial_err,则将对应的state作为再次初始化时候的initial_state;若err≥initial_err,则initial_state保持不变,重新初始化后将initial_state的值赋给state,执行步骤3;
步骤10:将next_state的值赋给state,将err的值赋给pre_err,执行步骤3;
步骤11:反演结束,得到估计的缺陷形状参数;
步骤12:根据已知的管道壁厚度和步骤11中得到的缺陷形状参数获得缺陷深度序列,通过该序列最终得到不规则缺陷的形状。
本实施例中的经过反演得到的缺陷形状参数为[4,55,35,8],管道厚度为8mm,将代表占管道厚度百分比的缺陷形状参数乘以管道厚度,得到缺陷深度序列为[0.32,4.4,2.8,0.64](单位:mm),将深度序列中的点连接起来得到不规则缺陷的形状;
步骤3中所述的估计缺陷的形状参数state是以一维数组的形式表现,数组的每个分量代表估计的缺陷在该自由度下的形状参数,通过此方式表达不规则缺陷形状。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (2)

1.一种基于强化学习的不规则缺陷漏磁信号反演方法,其特征在于:包括如下步骤:
步骤1:已知待估计不规则缺陷的参数target_state产生的轴向漏磁信号Bx_real,随机初始化不规则缺陷形状参数
Figure FDA0003344213330000011
initial_state有n个自由度,每个自由度对应一个分量,该分量代表在该自由度对应的轴向位置上缺陷的形状参数,即缺陷深度占管道厚度的百分比,其中管道缺陷参数具有如下规律:
Figure FDA0003344213330000012
进行缺陷参数的初始化方法为:首先,通过直接法得到最深的中心点
Figure FDA0003344213330000013
Figure FDA0003344213330000014
的初始值;其次,除中心点
Figure FDA0003344213330000015
Figure FDA0003344213330000016
以外的点能在上述不等式所确定的缺陷参数范围中随机初始化;计算初始误差initial_err,并将其值赋给pre_err;
初始误差initial_err的计算公式如下:
initial_err=(Bx_real[i]-Bx_sim[i])2
其中,Bx_real是实际测量的轴向信号,Bx_sim是初始化的缺陷产生的仿真轴向信号,i是采样点序列号,共有m个采样点;
步骤2:建立两个结构相同的价值神经网络,包括价值神经网络1和价值神经网络2;并对两个价值神经网络的参数进行初始化;价值神经网络1用于在迭代选择动作时产生动作价值,每次迭代都会根据随机梯度下降法进行训练并更新参数;价值神经网络2的输出用于在训练神经网络时作为训练目标,每到间隔人为设定的迭代次数时会对价值神经网络2参数进行更新,即将价值网络1的参数赋给价值网络2;
两个价值神经网络中的每个价值网络都包括输入层、输出层和隐藏层,以initial_state作为输入,则输入节点个数为n,隐藏层的激活函数用relu函数,输出层节点数为2n个,则代表输出2n个动作,每个动作代表在一个自由度上进行加或减操作;
步骤3:将步骤1中的初始缺陷形状参数initial_state赋给state,将state输入价值神经网络1中,价值神经网络1输出2n个动作价值,根据该状态下每个动作的价值用ε-greedy方法选择动作action;
所述ε-greedy方法是以ε的小概率随机选择一个动作,而以1-ε的概率选择价值最大的动作;表达式为:
Figure FDA0003344213330000021
其中,Q(state,action,w)为价值网络1在状态state下的输出价值,其中state为估计缺陷的形状参数,w为神经网络的权重,p代表当前概率,random代表随机选择一个动作,ε为采用随机的方式选择一个动作的概率;
步骤4:根据选择的动作action迭代出下一个估计的缺陷参数next_state=state+action;
步骤5:将迭代得到的next_state输入正向有限元模型中,产生对应的仿真漏磁信号Bx_sim_n,计算Bx_sim_n和实际漏磁信号Bx_real之间的误差err;
步骤6:根据err、pre_err、initial_err的值,计算此次迭代的奖励reward;将当前迭代的误差err与上一次迭代的误差pre_err、从之前迭代产生误差里面随机抽取的误差random_err和initial_err进行比较,仅当err同时小于这三者时,reward=+1,否则reward=-1;
步骤7:将此次迭代相关的变量组存储至记忆库,变量组包括state,action,reward,next_state,err;存储方式为顺序存储,当记忆库存储满时新的变量组会覆盖记忆库中存储最早的变量组;
步骤8:判断记忆库是否已经存满,若存满则从记忆库中批量随机抽取变量组并根据批量抽取样本的随机梯度下降法进行参数学习,学习后执行步骤9;若未存满则执行步骤9;
所述批量抽取样本的随机梯度下降法中的损失函数为:
L(ω)=E[(R+γ·maxaQ(next_state,a,ω-)-Q(state,action,ω))2]
其中R为随机批量抽取的变量组中reward构成的向量,γ为折扣因子,Q(next_state,a,ω-)为输入为next_state时神经网络2输出的所有动作价值,其中ω-为神经网络2的参数,在公式中取输出价值的最大值,而Q(state,action,ω)为神经网络1在输入为state且输出对应action的价值,其中ω为神经网络1的参数,E是代表(R+γ·maxaQ(next_state,a,ω-)-Q(state,action,ω))的均值,a代表所有动作解空间;
步骤9:判断是否满足终止条件,若否则执行步骤10;若是则按照终止条件执行;所述终止条件为两种,一种是局部终止条件,局部终止条件是指当迭代产生的next_state在任意一个自由度下面的分量偏离目标缺陷参数target_state相应分量且偏移大于阈值1时,此次迭代终止,重新初始化缺陷参数,将该参数输入到价值神经网络1中,执行步骤3;另一种是全局终止条件,全局终止条件是指当信号误差err小于阈值2时,执行步骤11;所述阈值1和阈值2是根据人为的需求设置;
重新初始化缺陷参数方法如下:判断记忆库中是否已经存储满,若没有存满则将步骤1中的
Figure FDA0003344213330000031
作为缺陷参数;若存储满了,要从记忆库中选择和Bx_real的误差最小的缺陷,并比较其误差err和之前的初始化缺陷的误差initial_err,若err<initial_err,则将对应的state作为再次初始化时候的initial_state;若err≥initial_err,则initial_state保持不变,重新初始化后将initial_state的值赋给state,执行步骤3
步骤10:将next_state的值赋给state,将err的值赋给pre_err,执行步骤3;
步骤11:反演结束,得到估计的缺陷形状参数;
步骤12:根据已知的管道壁厚度和步骤11中得到的缺陷形状参数获得缺陷深度序列,通过该序列最终得到不规则缺陷的形状。
2.根据权利要求1所述的一种基于强化学习的不规则缺陷漏磁信号反演方法,其特征在于:所述步骤3中的估计缺陷的形状参数state是以一维数组的形式表现,数组的每个分量代表估计的缺陷在该自由度下的形状参数,通过此方式表达不规则缺陷形状。
CN201910349592.0A 2019-04-28 2019-04-28 一种基于强化学习的不规则缺陷漏磁信号反演方法 Expired - Fee Related CN110096790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910349592.0A CN110096790B (zh) 2019-04-28 2019-04-28 一种基于强化学习的不规则缺陷漏磁信号反演方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910349592.0A CN110096790B (zh) 2019-04-28 2019-04-28 一种基于强化学习的不规则缺陷漏磁信号反演方法

Publications (2)

Publication Number Publication Date
CN110096790A CN110096790A (zh) 2019-08-06
CN110096790B true CN110096790B (zh) 2022-05-20

Family

ID=67446093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910349592.0A Expired - Fee Related CN110096790B (zh) 2019-04-28 2019-04-28 一种基于强化学习的不规则缺陷漏磁信号反演方法

Country Status (1)

Country Link
CN (1) CN110096790B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110702782B (zh) * 2019-10-12 2022-01-28 辽宁机电职业技术学院 一种用于石油管道的无损检测系统及其检测方法
CN113191055B (zh) * 2021-05-06 2022-05-10 河海大学 一种基于深度强化网络的大坝材料性能参数反演方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899868A (zh) * 2015-05-12 2015-09-09 清华大学 三维漏磁检测缺陷复合反演成像方法
CN106018545A (zh) * 2016-06-29 2016-10-12 东北大学 一种基于Adaboost-RBF协同的管道缺陷漏磁反演方法
CN106950276A (zh) * 2017-03-21 2017-07-14 东北大学 一种基于卷积神经网络的管道缺陷深度的反演方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899868A (zh) * 2015-05-12 2015-09-09 清华大学 三维漏磁检测缺陷复合反演成像方法
CN106018545A (zh) * 2016-06-29 2016-10-12 东北大学 一种基于Adaboost-RBF协同的管道缺陷漏磁反演方法
CN106950276A (zh) * 2017-03-21 2017-07-14 东北大学 一种基于卷积神经网络的管道缺陷深度的反演方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Rotor resistance and excitation inductance estimation of an induction motor using deep-Q-learning algorithm;Xing Qi;《Engineering Applications of Artificial Intelligence》;20180406;第72卷;67-79 *
Three-dimensional defect inversion from magnetic flux leakage signals using iterative neural network;Junjie Chen;《IET Science,Measurement & Technology》;20150701;第9卷(第4期);418-426 *
基于数据驱动的漏磁检测管道故障诊断方法研究;吴振宁;《中国博士学位论文全文数据库工程科技Ⅰ辑》;20180815;B019-12 *

Also Published As

Publication number Publication date
CN110096790A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
US11106978B2 (en) Execution of a genetic algorithm with variable evolutionary weights of topological parameters for neural network generation and training
CN108764540B (zh) 基于并行lstm串联dnn的供水管网压力预测方法
CN108900346B (zh) 基于lstm网络的无线网络流量预测方法
Shahkarami et al. Applications of smart proxies for subsurface modeling
CN108564326A (zh) 订单的预测方法及装置、计算机可读介质、物流系统
CN110096790B (zh) 一种基于强化学习的不规则缺陷漏磁信号反演方法
CN114492211B (zh) 一种基于自回归网络模型的剩余油分布预测方法
CN113393034A (zh) 一种在线自适应oselm-garch模型的电量预测方法
CN116050241A (zh) 基于pca-tso-bpnn模型的海底管道腐蚀速率预测方法
CN104732067A (zh) 一种面向流程对象的工业过程建模预测方法
CN113468044B (zh) 一种基于改进的灰色预测演化算法的测试用例生成方法
CN116882323B (zh) 一种考虑时序性及细分任务的自适应代理策略优化方法
CN113537614A (zh) 电网工程造价预测模型的构建方法、系统、设备及介质
Preis et al. Online hydraulic state prediction for water distribution systems
CN117076921A (zh) 基于残差全连接网络的随钻测井电阻率曲线的预测方法
CN116049427A (zh) 一种基于广度优先搜索的少样本知识图谱协同编辑方法
CN115099464A (zh) 一种基于油嘴模型流量系数预测的油井产量预测方法
CN113887026A (zh) 一种基于集成学习的输油管道水力预测方法
Carpenter Transformer-Based Models Aid Prediction of Transient Production of Oil Wells
CN113378464A (zh) 一种电能表现场检验仪寿命预测方法及装置
CN112862211A (zh) 通信管理系统动环缺陷派单方法及装置
Aldosari et al. Generative adversarial neural network and genetic algorithms to predict oil and gas pipeline defect lengths
Huang et al. Probabilistic prediction intervals of wind speed based on explainable neural network
Jayeola et al. Machine Learning Prediction Versus Decline Curve Prediction: A Niger Delta Case Study
CN114282614B (zh) 基于随机森林和ifda优化cnn-gru的中长期径流预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220520