CN110427633A

CN110427633A - 一种基于深度强化学习的水泥搅拌桩质量评估方法

Info

Publication number: CN110427633A
Application number: CN201910368131.8A
Authority: CN
Inventors: 秦文虎; 李凡; 孙立博; 郑方正
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2019-11-08

Abstract

本发明提供了一种基于深度强化学习的水泥搅拌桩质量评估方法，包括以下步骤：步骤1：构建基于DQN的水泥搅拌桩质量评估深度强化学习模型；步骤2：采用深度强化学习方法训练质量评估深度网络；步骤3：定期进行验证测试，计算正负召回率；步骤4：当正负召回率趋于平衡时，模型训练结束，否则转至步骤2。步骤5：用训练好的深度强化学习模型对各种水泥搅拌桩进行质量评估。本发明考虑到水泥搅拌桩质量影响因素的多样性，将软土特性、固化剂和施工工艺都纳入模型进行训练，提高了评估结果的真实性和可靠性。

Description

一种基于深度强化学习的水泥搅拌桩质量评估方法

技术领域

本发明涉及水泥搅拌桩质量评价领域，具体设计一种基于深度强化学习的水泥搅拌桩质量评估方法。

背景技术

桩基工程是建筑工程的基础，是整个建设项目的根基，重要性不言而喻。如果桩基质量不合格就会造成一定程度的安全隐患，因此把控桩基质量评估过程显得尤为重要。

对于桩基质量检测，目前国内外使用较为普遍的检测技术主要有：低应变反射波法、低应变动力试桩法、静荷载试验法、声波透射法等，但这些手段往往需要耗费大量的人力、物力资源，难免会出现数据记录不准确、计算精度有局限、不能真实反应桩-土特性等问题。

针对这些问题，本专利将深度强化学习应用于桩基质量分析，建立一种基于深度强化学习的水泥搅拌桩质量评估方法，通过本发明提出的方法，可以更加全面和快速地评估水泥搅拌桩质量特性，对于把控桩基工程具有重要意义。

发明内容

本发明所要解决的技术问题是提供了一种基于深度强化学习的水泥搅拌桩质量评估方法。

为了实现上述目的，本发明采用的技术方案是：一种基于深度强化学习的水泥搅拌桩质量评估方法，包括以下步骤：

步骤1：构建基于DQN的水泥搅拌桩质量评估深度强化学习模型；

步骤2：采用深度强化学习方法训练质量评估深度网络；

步骤3：定期进行验证测试，计算正负召回率；

步骤4：当正负召回率趋于平衡时，模型训练结束，否则转至步骤2。

步骤5：用训练好的深度强化学习模型对各种水泥搅拌桩进行质量评估。

作为本发明的一种优选，所述步骤1中，样本的选择为工程上的试桩数据；样本标签将试桩以5m为界限，采用不同的标准，将水泥搅拌桩在5m以上及5m 以下分别进行综合评定，100分即为标签“1”，75分即为标签“2”，50分及0 分为不合格桩即为标签“0”。

作为本发明的一种优选，所述步骤1中，构建基于DQN的水泥搅拌桩质量评估深度强化学习模型时，拟合Q函数的回归模型，在使用神经网络模型时，输出层不使用Softmax，而直接将全连接层的输出作为神经网络的输出结果。

作为本发明的一种优选，所述步骤2中，采用深度强化学习方法训练质量评估深度网络时，将分类任务构建为智能体连续决策的过程为：智能体依次对环境中的每一个训练样本分类，当分类正确时，从环境中获得正回报值，当分类错误时，从环境中获得负回报值，智能体的目标就是在分类任务中获得最多的累计回报。

作为本发明的一种优选，智能体学会对水泥搅拌桩质量进行分类的策略，智能体与环境采用了如下交互：

将水泥搅拌桩的质量评定分为等级0、1和2一类，总计3类；

如果智能体对不合格的水泥搅拌桩即标签为“0”的样本分类正确，环境给予较大的正回报值以奖励；

一旦分类错误，则终止当前分类任务，同时环境给予较大的负回报值以惩罚，之后重置累计回报，再重新开始新一轮的分类任务；

如果智能体对合格的水泥搅拌桩样本分类正确，环境给予较小的正回报值以奖励；

如果分类错误，环境给予低额的负回报值以惩罚，此时，智能体的目标就是在尽可能正确分类不合格的水泥搅拌桩样本的基础上，尽可能正确分类合格的水泥搅拌桩样本；

在智能体不断与环境交互中，将交互数据存入经验池D，再利用这些经验样本学习分类策略，当智能体在分类任务中获得最高累计回报时，认为智能体学会了水泥搅拌桩质量分类的策略，其中，一次分类任务从开始到结束，相当于DQN 中的一次episode。

作为本发明的一种优选，所述步骤2中，采用深度强化学习方法训练质量评估深度网络时，需要考虑：状态、动作和奖励，其中状态空间S由影响水泥搅拌桩质量的因素决定，包括软土特性、固化剂和施工工艺；动作空间A由水泥搅拌桩质量的分类级别决定，即为1、2和0，其中1、2为合格类，0为不合格类，总计3类，所以A＝{0，1，2}，智能体对每一个样本分类输出动作a_t，a_t＝O表示将样本分为不合格类，a_t＝1，2表示将样本分为合格类；奖励r_t中，定义D_i水泥搅拌桩质量评定合格的样本集，|D_i|为对应的样本数量；D_j为水泥搅拌桩质量评定不合格的样本数量集，|D_j|为对应的样本数量，定义合格类和不合格类比例为ρ，如式(1)所示：

此时奖励公式如式(2)为：

式中，x_t表示待分类的样本，a_t＝y_t表示对该样本分类正确，a_t≠y_t表示对样本分类错误。

作为本发明的一种优选，所述步骤2中，采用深度强化学习方法训练质量评估深度网络时，需构造经验池存储状态转移记录，通过经验回放从经验池D中随机采样小批量历史状态转移记录以训练Q网络。

作为本发明的一种优选，所述步骤2中，采用深度强化学习方法训练质量评估深度网络时，网络训练时，使用深度神经网络拟合Q网络，更新方式如式(3) 所示：

Q(s，a；θ)←Q(s，a；θ)+α[r+γ max_a′Q(s′，a’；θ’)-Q(s，a；θ)] (3)

目标状态S的实际Q值即为当前Q网络的输出值，目标Q值由分类任务是否终结来决定，当分类任务终止时T＝True，目标Q值为即时回报的值；当分类任务未终止时T＝Flase，目标Q值为即时回报与未来最大回报的总和，实际Q值如式(4)所示：

之后定义Q网络的损失函数为L(θ)，采用梯度下降法修正神经网络的参数θ直至收敛，就可以求解Q函数，其中θ为均方误差损失，损失函数如式(5)所示：

L(θ)＝E[(r+γ max_a′Q(s′，a′；θ′)-Q(s，a；θ))²] (5)

作为本发明的一种优选，所述步骤2中，采用深度强化学习方法训练质量评估深度网络时，网络训练时，为求得累计回报达到全局最大的最优策略，应将探索方法和利用已有的经验知识相结合的方式；采用线性退火ε-贪婪策略与环境交互；智能体每次采取动作时，以概率从动作空间中随机选择一个动作执行，以概率利用已学习的知识，选取状态空间价值最大的动作执行，策略选择如式(7) 所示：

而随着时间的推进，可以对ε值进行控制，使其均匀线性的衰减并达到稳定状态；在起始阶段，智能体会以较高的概率随机性采取动作探索环境，而随着经验的累积，智能体会更加偏向于利于已有的知识来选取价值最高的动作。

本发明与现有技术相比，具有以下优点：

(1)本发明首先考虑到水泥搅拌桩质量影响因素的多样性，将软土特性、固化剂和施工工艺都纳入模型进行训练，提高了评估结果的真实性和可靠性。

(2)本发明充分考虑实际工程中水泥搅拌桩质量评定时，往往不合格桩占比比较小，且不合格桩对后续工程的开展的影响比较大，因此建立了一个符合工程实际需要的分类模型。对于常规的机器学习通常建立在数据分布比较均匀的基础上，模型的建立往往会忽略某些样本的特征，而更多的偏向于多数样本的特征。本发明所述模型中智能体可以利用已学会的分类策略更好的识别少数类样本的特征，能够适应数据分布不平衡的数据环境。

附图说明

图1是功能结构流程图；

图2是智能体与环境交互模型图；

图3为网络训练模型图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步详细说明。如图1功能结构流程图所示，本发明包括构建DQN评估模型、训练网络模型、定期进行验证测试、判断正负召回率是否趋于平衡四个步骤。

所述步骤1中，样本的选择为工程上的试桩数据，网络输入参数为影响影响桩质量的主要因素，包括软土特性(土的含水量、土的有机质含量、土的塑形指数)、固化剂(水泥渗入比、水泥标号、外渗剂)和施工工艺。

样本标签为依据《江苏省高速公路水泥搅拌桩成桩质量检测优化标准的优化探讨》将试桩以5m为界限，采用不同的标准，将水泥搅拌桩在5m以上及5m以下分别进行综合评定，100分即为标签“1”，75分即为标签“2”，50分及0分为不合格桩即为标签“0”。

所述步骤1中，构建基于DQN的水泥搅拌桩质量评估深度强化学习模型时，可以拟合Q函数的回归模型，在使用神经网络模型，输出层可以不使用Softmax，而直接将全连接层的输出作为神经网络的输出结果。

所述步骤2中，采用深度强化学习方法训练质量评估深度网络时，将分类任务构建为智能体连续决策的过程：智能体依次对环境中的每一个训练样本分类，当分类正确时，从环境中获得正回报值，当分类错误时，从环境中获得负回报值，智能体的目标就是在分类任务中获得最多的累计回报。

而水泥搅拌桩的质量评定可分为等级0、1和2类，总计3类，所以为引导智能体学会对水泥搅拌桩质量进行分类的策略，智能体与环境可进行如下交互：如果智能体对不合格的水泥搅拌桩即标签为“0”的样本分类正确，环境给予较大的正回报值以奖励；一旦分类错误，则终止当前分类任务，同时环境给予较大的负回报值以惩罚，之后重置累计回报，再重新开始新一轮的分类任务。如果智能体对合格的水泥搅拌桩样本分类正确，环境给予较小的正回报值以奖励；如果分类错误，环境给予低额的负回报值以惩罚，此时，智能体的目标就是在尽可能正确分类不合格的水泥搅拌桩样本的基础上，尽可能正确分类合格的水泥搅拌桩样本。

同时，在智能体不断与环境交互中，将交互数据存入经验池D，再利用这些经验样本学习分类策略，当智能体在分类任务中获得最高累计回报时，认为智能体学会了水泥搅拌桩质量分类的策略。其中，一次分类任务从开始到结束，相当于DQN中的一次episode。

其次，采用深度强化学习方法训练质量评估深度网络时，需要考虑：状态(States)、动作(Actions)和奖励(Rewards)。

状态空间S由影响水泥搅拌桩质量的因素决定，包括软土特性(土的含水量、土的有机质含量、土的塑形指数)、固化剂(水泥渗入比、水泥标号、外渗剂) 和施工工艺。

使用样本集T＝{<x_i，y_i>|i＝1，2，3…}来构建模拟环境，定义训练集样本空间为状态空间S，x_i为依次进行训练的待分类的样本，y_i为对应分类样本的标签。当分类任务重新开始时，将训练集中的所有样本打乱，然后在每一时刻展示一个待分类的样本x_t给智能体，智能体给出分类动作，环境通过回报函数来评价动作的价值并给予智能体一个即时回报，并判断是否继续向智能体展示下一个分类样本x_t。

动作空间A由水泥搅拌桩质量的分类级别决定，即为1、2(合格类)和0 (不合格)，总计3类，所以A＝{0，1，2}，智能体对每一个样本分类输出动作a_t， a_t＝0表示将样本分为不合格类，a_t＝1，2表示将样本分为合格类。

奖励r_t，定义D_i水泥搅拌桩质量评定合格的样本集，|D_i|为对应的样本数量； D_j为水泥搅拌桩质量评定不合格的样本数量集，|D_j|为对应的样本数量，定义合格类和不合格类比例为ρ，如式(1)所示：

此时奖励公式如式(2)为：

另外，采用深度强化学习方法训练质量评估深度网络时，需构造经验池(Experience replay)存储状态转移记录，通过经验回放从经验池D中随机采样小批量历史状态转移记录以训练Q网络。

所述步骤2中，网络训练时，使用深度神经网络拟合Q网络，更新方式如式(3)下：

Q(s，a；θ)←Q(s，α；θ)+α[r+γ max_a′Q(s′，a′；θ′)-Q(s，a；θ)] (3)

目标状态S的实际Q值(即为y)即为当前Q网络的输出值，目标Q值由分类任务是否终结来决定，当分类任务终止时(T＝True)，目标Q值为即时回报的值；当分类任务未终止时(T＝Flase)，目标Q值为即时回报与未来最大回报的总和，实际Q值如式(4)所示：

L(θ)＝E[(r+γ max_a′Q(s′，a′：θ′)-Q(s，a；θ))²] (5)

而为求得累计回报达到全局最大的最优策略，应将探索方法和利用已有的经验知识相结合的方式。所以采用线性退火ε-贪婪策略与环境交互。智能体每次采取动作时，以概率从动作空间中随机选择一个动作执行，以概率利用已学习的知识，选取状态空间价值最大的动作执行，策略选择如式(7)所示：

而随着时间的推进，可以对ε值进行控制，使其均匀线性的衰减并达到稳定状态。所以，在起始阶段，智能体会以较高的概率随机性采取动作探索环境，而随着经验的累积，智能体会更加偏向于利于已有的知识来选取价值最高的动作。

基于DQN的网络训练模型算法步骤如下所示：

步骤2.1：初始化经验池D；

步骤2.2：初始化神经网络，随机初始化权重参数θ；

步骤2.3：设定分类任务次数，即episode次数为60000；

步骤2.4：初始化网络输入；

步骤2.5：将样本依次喂入模型，根据线性退火ε-贪婪策略的概率ε选择一个随机的分类动作，或者根据概率1-ε将当前的状态输入到当前的网络中，计算出每个动作的Q值，选择Q值最大的一个分类动作；

步骤2.6：得到执行a_t后的奖励r_t和下一个网络的输入；

步骤2.7：将经验数据存入到经验池D中；

步骤2.8：当样本训练到达设定值时，随机从D中取出小批量样本；

步骤2.9：计算每一个状态的目标值；

步骤2.10：通过随机梯度下降计算参数，更新Q网络；

步骤2.11：定期进行验证集测试，计算正负召回率，若趋于平衡，则结束模型训练，否则转到步骤2.5。

Claims

1.一种基于深度强化学习的水泥搅拌桩质量评估方法，其特征在于，包括以下步骤：

步骤2：采用深度强化学习方法训练质量评估深度网络；

步骤3：定期进行验证测试，计算正负召回率；

步骤4：当正负召回率趋于平衡时，模型训练结束，否则转至步骤2；

2.根据权利要求1所述的一种基于深度强化学习的水泥搅拌桩质量评估方法，其特征在于：所述步骤1中，样本的选择为工程上的试桩数据；样本标签将试桩以5m为界限，采用不同的标准，将水泥搅拌桩在5m以上及5m以下分别进行综合评定，100分即为标签“1”，75分即为标签“2”，50分及0分为不合格桩即为标签“0”。

3.根据权利要求1所述的一种基于深度强化学习的水泥搅拌桩质量评估方法，其特征在于：所述步骤1中，构建基于DQN的水泥搅拌桩质量评估深度强化学习模型时，拟合Q函数的回归模型，在使用神经网络模型时，输出层不使用Softmax,而直接将全连接层的输出作为神经网络的输出结果。

4.根据权利要求1所述的一种基于深度强化学习的水泥搅拌桩质量评估方法，其特征在于：所述步骤2中，采用深度强化学习方法训练质量评估深度网络时，将分类任务构建为智能体连续决策的过程为：智能体依次对环境中的每一个训练样本分类，当分类正确时，从环境中获得正回报值，当分类错误时，从环境中获得负回报值，智能体的目标就是在分类任务中获得最多的累计回报。

5.根据权利要求4所述的一种基于深度强化学习的水泥搅拌桩质量评估方法，其特征在于：智能体学会对水泥搅拌桩质量进行分类的策略，智能体与环境采用了如下交互：

将水泥搅拌桩的质量评定分为等级0、1和2一类，总计3类；

在智能体不断与环境交互中，将交互数据存入经验池D，再利用这些经验样本学习分类策略，当智能体在分类任务中获得最高累计回报时，认为智能体学会了水泥搅拌桩质量分类的策略，其中，一次分类任务从开始到结束，相当于DQN中的一次episode。

6.根据权利要求1所述的一种基于深度强化学习的水泥搅拌桩质量评估方法，其特征在于：所述步骤2中，采用深度强化学习方法训练质量评估深度网络时，需要考虑：状态、动作和奖励，其中状态空间S由影响水泥搅拌桩质量的因素决定，包括软土特性、固化剂和施工工艺；动作空间A由水泥搅拌桩质量的分类级别决定，即为1、2和0，其中1、2为合格类，0为不合格类，总计3类，所以，智能体对每一个样本分类输出动作，表示将样本分为不合格类，表示将样本分为合格类；奖励中，定义水泥搅拌桩质量评定合格的样本集，为对应的样本数量；为水泥搅拌桩质量评定不合格的样本数量集，为对应的样本数量，定义合格类和不合格类比例为，如式（1）所示：

此时奖励公式如式（2）为：

（2）

式中，表示待分类的样本，表示对该样本分类正确，表示对样本分类错误。

7.根据权利要求1所述的一种基于深度强化学习的水泥搅拌桩质量评估方法，其特征在于，所述步骤2中，采用深度强化学习方法训练质量评估深度网络时，需构造经验池存储状态转移记录，通过经验回放从经验池D中随机采样小批量历史状态转移记录以训练Q网络。

8.根据权利要求1所述的一种基于深度强化学习的水泥搅拌桩质量评估方法，其特征在于，所述步骤2中，采用深度强化学习方法训练质量评估深度网络时，网络训练时，使用深度神经网络拟合Q网络，更新方式如式（3）所示：

（3）

目标状态S的实际Q值即为当前Q网络的输出值，目标Q值由分类任务是否终结来决定，当分类任务终止时，目标Q值为即时回报的值；当分类任务未终止时，目标Q值为即时回报与未来最大回报的总和，实际Q值如式（4）所示：

（4）

之后定义Q网络的损失函数为，采用梯度下降法修正神经网络的参数直至收敛，就可以求解Q函数，其中为均方误差损失，损失函数如式（5）所示：

（5）

（6）。

9.根据权利要求1所述的一种基于深度强化学习的水泥搅拌桩质量评估方法，其特征在于，所述步骤2中，采用深度强化学习方法训练质量评估深度网络时，网络训练时，为求得累计回报达到全局最大的最优策略，应将探索方法和利用已有的经验知识相结合的方式；采用线性退火 -贪婪策略与环境交互；智能体每次采取动作时，以概率从动作空间中随机选择一个动作执行，以概率利用已学习的知识，选取状态空间价值最大的动作执行，策略选择如式（7）所示：

（7）

而随着时间的推进，可以对值进行控制，使其均匀线性的衰减并达到稳定状态；在起始阶段，智能体会以较高的概率随机性采取动作探索环境，而随着经验的累积，智能体会更加偏向于利于已有的知识来选取价值最高的动作。