CN107357757B

CN107357757B - 一种基于深度增强学习的代数应用题自动求解器

Info

Publication number: CN107357757B
Application number: CN201710514889.9A
Authority: CN
Inventors: 张东祥; 王磊; 邵杰; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2020-10-09
Anticipated expiration: 2037-06-29
Also published as: CN107357757A

Abstract

本发明属于人工智能技术领域，公开了一种基于深度增强学习的代数应用题自动求解器，所述基于深度增强学习的代数应用题自动求解器采用数字策略来识别相关数字作为表达式树的最底层，通过确定数字节点的运算符节点，以自底向上的方式构建表达式树；提取三个相关数字(13,4,9)作为表达式树的最底层。本发明的方法比当前最先进的方法更有效、更准确。和对比算法相比，本发明的框架在提高准确率的同时仅仅需要低于它们10倍的运行时间来求解一道应用题。更重要的是，在最具挑战性的基准数据集上，将准确率从45.2％提高到了63.7％，验证了DQN框架的通用性。

Description

一种基于深度增强学习的代数应用题自动求解器

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于深度增强学习的代数应用题自动求解器。

背景技术

自动求解应用数学题(MWP)的研究历史可追溯到20世纪60年代，并且最近几年仍然继续吸引着研究者的关注。MWP首先将人类可读懂的句子映射成机器可理解的逻辑形式，然后进行推理。该过程不能简单地通过模式匹配或端对端分类技术解决，因此，设计具有语义理解和推理能力的应用数学题自动求解器已成为通向通用人工智能之路中不可缺少的一步。ARIS提出于“Mohammad Javad Hosseini,Hannaneh Hajishirzi,Oren Etzioni,andNate Kushman.Learning to solve arithmetic word problems with verbcategorization.In EMNLP,pages 523–533,2014.”，作为早期的尝试，使用综合分析来识别相关的变量和数值，并采用SVM来进行操作符的分类。ARIS的缺点是只能支持加法和减法两种运算，不能支持更多更复杂的运算，如乘除法。基于标签的方法，提出于“Chao-ChunLiang,Kuang-Yi Hsu,Chien-Tsung Huang,Chung-Min Li,Shen-Yu Miao,and Keh-YihSu.A tag-based statistical english mathword problem solver withunderstanding,reasoning and explanation.In IJCAI,pages 4254–4255,2016.”，利用映射规则将已识别的变量和数值转换为逻辑形式，然后进一步把逻辑形式转换成用于推理的逻辑语句。然而，这种方法在标签标注和规则生成上需要过多的人工干预，扩展到更大更复杂的数据集上就会给更困难，因此不具备通用性。基于模板的解决方案，提出于“NateKushman,Luke Zettlemoyer,Regina Barzilay,and Yoav Artzi.Learning toautomatically solve algebra word problems.In ACL,pages 271–281,2014.”、“LipuZhou,Shuaixiang Dai,and Liwei Chen.Learn to solve algebra word problems usingquadratic programming.In EMNLP,pages 817–822,2015.”，需要将文本分类为预定义的方程组模板，通过人工特征来推断未知插槽的排列组合，把识别出来的数字和相关的名词单元在插槽中进行填充。基于模板的方案的效果不尽人意，因为当数据集增大，模板集的基数和复杂性增加时，这种方法的性能将急剧下降。LCA+，提出于“Subhro Roy and DanRoth.Solving general arithmetic word problems.In EMNLP,pages 1743–1752,2015.”，将多步数学应用题转化为表达式树，通过构建用于识别数字是否相关数字和一对相关数字的操作符为加减乘除哪种运算符这两类分类器。然后将识别出来的相关数字作为叶子节点，一对数字对应的操作符作为内节点，自底向上构建表达式树来求解数学应用题。在该示例中，首先识别出相关的数字13；4；9，然后通过SVM分类器来确定表达式树中更高层节点的操作符。ALGES,“Rik Koncel-Kedziorski,Hannaneh Hajishirzi,AshishSabharwal,Oren Etzioni,and Siena Dumas Ang.Parsing algebraic word problemsinto equations.TACL,3:585–597,2015.”，采用了一个更暴力的方法，通过整数线性规划，枚举所有可能的等式树。提出了一种对候选树进行排序评分函数，然后选择分数最高的树作为最终答案。由于随着数字个数的增加，搜索空间呈指数增长，因此这些方法不得不面对运算效率这一个不可回避的痛点。总的来说，目前在该领域，训练数据集还不够多，现有的方法表现的还不够鲁棒，随着数据量和数据复杂度的增加，现有的方法将在人工干预上花费更大的代价，且不能够在可接受的运算时间内得到足够好的效果。根据最新的一项实验研究，基于“Danqing Huang,Shuming Shi,ChinYew Lin,Jian Yin,and Wei-Ying Ma.Howwell do computers solve math word problems？large-scale dataset constructionand evaluation.In ACL,2016.”，结果表明，对于从社区问答网页上收集的更大规模、更多样化的数据集Dolphin来说，目前这些方法的性能在测评中急剧下降。

综上所述，现有技术存在的问题是：目前的代数应用题自动求解器存在训练数据集还不够多，鲁棒性不强，测评效果较差，主要原因是大部分方法人工干预较多，通用性不强，推理机制随着数据量增加呈指数增长。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度增强学习的代数应用题自动求解器。

本发明是这样实现的，一种基于深度增强学习的代数应用题自动求解器，所述基于深度增强学习的代数应用题自动求解器采用数字策略来识别相关数字作为表达式树的最底层，通过确定数字节点的运算符节点，以自底向上的方式构建表达式树；提取三个相关数字(13,4,9)作为表达式树的最底层；

使用被选中的数字对所构成的特征的实值向量来表示状态，其相关联的动作将为这两个数字确定一个运算符；通过环境反馈的正的或者负的回报来迭代地选择数字对和它们之间的操作符；对于DQN，构造一个两层前馈神经网络来计算预期的Q值；DQN的参数通过代价函数的梯度下降来学习更新，以减少DQN预测的Q值和目标最优Q值之间的差异。

进一步，所述基于深度增强学习的代数应用题自动求解器的状态被表示为了具有固定维度的实值向量，实值向量通过相互结合函数，被送入到神经网络通过计算来近似Q值函数；

首先连接被选中的数字对的特征，特征转换成固定的实值向量来表示状态，随后把状态向量作为一个两层的前馈神经网络的输入，通过网络的计算来近似Q值函数；提取单个数字，数字对和问句这三部分的特征用于状态的构建。

进一步，所述基于深度增强学习的代数应用题自动求解器的动作在每一步中，代理选择动作来使两个数字获得回报的期望最大化，并决定这个两个数字的最小公共元祖运算符，运算符：反向减法和反向除法。

进一步，所述基于深度增强学习的代数应用题自动求解器的回报函数代理在训练期间对每个动作的选择都会收到从环境中返回的正的或者负的回报；损失函数利用回报来计算目标最优Q值，其与预测Q值的差异，并加这种差异用于调整DQN的参数；所选择的运算符对于其两个相关数字来说是正确的，则环境返回正的回报；否则，将作为惩罚返回负的回报。

进一步，所述基于深度增强学习的代数应用题自动求解器的的参数学习使用一个两层前馈神经网络作为深度Q-网络来计算期望的Q值，网络的参数q将通过从环境中的反馈的回报来更新学习，随机从D中采样一批四元组，模型通过用mini-batch，周期性的更新参数来最小化代价函数：

L_t(θ_t)＝E_s,a[(y_t-Q(s,a；θ_t))²]

其中y_t＝r+γmax_a'Q(s',a'；θ_t-1)是目标最优Q值，它通过对当前回报r与后续步骤的最优Q值的求和计算得到；

期望是关于被采样的四元组(s,a,s',r)的；

DQN的参数通过利用代价函数的梯度下降来缩小DQN预测的Q值和用bellman等式得到的目标最优Q值之前的差异来更新学习：

进一步，所述基于深度增强学习的代数应用题自动求解器的训练方法包括：

创建一个经验重放存储器D用于存储四元组(s；a；s’；r)和一个随机赋予权重的动作-价值函数Q；整个训练集总共有M个训练周期，每个周期，遍历数学应用题并提取它们的数字策略；丢弃掉不相关的数字，并将剩余的数字用于表达式树的构建；用于数字相关性的分类器的特征包括数字的单元是否出现在问句中；其他数字是否有和问句有更好的匹配；和问句匹配的数字数量有多少；和某些其他特征。

进一步，所述基于深度增强学习的代数应用题自动求解器的训练方法具体包括：

本发明的优点及积极效果为：把表达式树的建立过程构造为一个马尔科夫决策过程，通过深度增强学习来解决数学应用题；状态，动作和奖励是增强学习算法中三个重要的组成部分，针对求解数学应用题提出了对这三个重要组成部分的设计方法。模型通过一个作为深度Q-网络(DQN)的两层前馈神经网络来近似Q值函数，根据环境中给出的回报反馈来学习模型的参数。把表达式树的建立过程构造为马尔科夫过程，并且根据实际情况本发明自主设计了DQN网络中主要的构成部分，包括状态，动作，回报和网络结构；实验结果表明本发明的方法比当前最先进的方法更有效、更准确。和对比算法相比，本发明的框架在提高准确率的同时仅仅需要低于它们10倍的运行时间来求解一道应用题。更重要的是，在最具挑战性的基准数据集上，将准确率从45.2％提高到了63.7％，从而验证了DQN框架的通用性。

附图说明

图1是本发明实施例提供的基于深度增强学习的代数应用题自动求解器示意图。

图2是本发明实施例提供的基于深度增强学习的代数应用题自动求解器远离示意图。

图3和图4是本发明实施例提供的平均回报及其相关准确率的变化过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

1本发明提出的增强学习框架如图1所示。给定一道数学应用题，本发明采用数字策略来识别相关数字作为表达式树的最底层。此后，通过确定数字节点(最底层节点)的运算符节点，以自底向上的方式构建表达式树。让本发明考虑如图1所示的玩具示例。最初，提取三个相关数字(13,4,9)作为表达式树的最底层。随后的步骤中，将确定两个运算符节点和，用于这些相关数字的构建表达式树。

本发明可以把到目前为止构建的部分树表示为增强学习框架里的状态。如果下一个状态或部分树更接近最终的“groundtruth”树，则环境返回正的回报作为奖励。否则，返回负的回报作为惩罚。然而，将无法确定维度的部分树向量化并输入到深度Q-网络中，用于参数学习是很具有挑战性的。为了解决维度问题，本发明每次选择一对数字用于树的构建，可以导出维度固定的特征来表示状态。举个例子，本发明希望在第一次迭代中选择13和4，并决定它们的操作符，在下一步中，要么选择(13；9)或(4；9)来确定其最小公共元祖节点上的操作符，即在该示例中的表达式树的根节点。而不是将(134)9分解成134和99这两步来计算。

在本发明的深度增强学习的框架中，使用了被选中的数字对所构成的特征的实值向量来表示状态。其相关联的动作将为这两个数字确定一个合适的运算符。本发明通过环境反馈的正的或者负的回报来迭代地选择数字对和它们之间的操作符。对于DQN，本发明构造一个两层前馈神经网络来计算预期的Q值。DQN的参数可以通过代价函数的梯度下降来学习更新，以减少DQN预测的Q值和目标最优Q值之间的差异。在下面的章节，本发明明确地解释了为数学应用题求解器制定的状态，动作，回报和具体的训练过程。

1.1状态

状态被表示为了具有固定维度的实值向量。这些实值向量通过相互结合函数，然后被送入到神经网络通过计算来近似Q值函数。

本发明首先连接被选中的数字对的特征，把这些特征转换成固定的实值向量来表示状态，随后把状态向量作为一个两层的前馈神经网络的输入，通过网络的计算来近似Q值函数。人工设计的特征和Roy提出的数字策略类似。如表1所示，本发明提取单个数字，数字对和问句这三部分的特征用于状态的构建。给出一个数学应用题，通过诸如斯坦福解析器这类语法解析器工具分析并导出的解析树来自动地产生这三部分特征，这些特征有助于动作的选择来确定一个正确的运算符节点。

此外，本发明在状态向量中添加两个维度，以影响后续动作的选择。每个维度用于指示相关数量是否已经出现在到目前为止构建的部分表达式树中。这两个维度指示要确定的运算符节点的层级。如果两个维度都未设置，本发明将为两个最底层的数字节点构造一个高一层的运算符节点。如果它们中其中一个被设置，本发明将把运算符确定在更高的层级中。

表1 用于状态构建提取的数字对的特征

1.2动作

在每一步中，代理选择动作来使两个数字获得回报的期望最大化，并决定这个两个数字的最小公共元祖运算符。由于本发明处理的是简单的算术应用题，所以只涉及了四种基本类型的运算符：加法+，减法，乘法和除法。

本发明表达式树的底层中的数字顺序可能不遵循它们在数学应用题中出现的顺序。因此，本发明引入两个新的运算符：反向减法(即,a _inv b＝b a)和反向除法_inv(即,a _invb＝b a)。由于a+b＝b+a和a*b＝b*a，因此不需要为加法和乘法定义额外的反向运算符。

1.3回报函数

在增强学习中，代理在训练期间对每个动作的选择都会收到从环境中返回的正的或者负的回报。损失函数利用回报来计算目标最优Q值，其与预测Q值的差异，并加这种差异用于调整DQN的参数。本发明回报函数的定义是直接的，如果所选择的运算符对于其两个相关数字来说是正确的，则环境返回正的回报。否则，将作为惩罚返回负的回报。

1.4参数学习

本发明使用一个两层前馈神经网络作为深度Q-网络来计算期望的Q值。网络的参数q将通过从环境中的反馈的回报来更新学习。本发明也维护了一个经验重放存储器D来存储状态转移四元组。为了更新参数q，本发明随机从D中采样一批四元组。模型通过用mini-batch，周期性的更新参数来最小化代价函数：

L_t(θ_t)＝E_s,a[(y_t-Q(s,a；θ_t))²]

其中y_t＝r+γmax_a'Q(s',a'；θ_t-1)是目标最优Q值，它通过对当前回报r与后续步骤的最优Q值的求和计算得到。

期望是关于被采样的四元组(s,a,s',r)的。

1.5训练

综上所述，本发明在算法1中描述了DQN完整的训练过程。在初始化步骤中，本发明创建一个经验重放存储器D用于存储四元组(s,a,s',r)和一个随机赋予权重的动作-价值函数Q。整个训练集总共有M个训练周期(训练数据集被完整的训练一次称为一个周期)。每个周期，本发明遍历数学应用题并提取它们的数字策略。丢弃掉不相关的数字，并将剩余的数字用于表达式树的构建。用于数字相关性的分类器的特征包括数字的单元(提取的名词)是否出现在问句中；其他数字是否有和问句有更好的匹配；和问句匹配的数字数量有多少；和某些其他特征。

在增强学习中，本发明采用e-贪婪策略来获得探索和开发之间的平衡。本发明根据概率e的大小，随机地选择一个动作用于探索。在本发明的执行过程中，e随着周期的增加线性的减少(比如从1到0:1)。然而，由于构建表达树产生的探索空间远远比小于玩视频游戏所产生的探索空间，因此本发明将e从0:5逐渐减少到0:01以此偏向开发。通过被选择的操作符，代理得到了回报r_t和新的状态s_t+1，构成新的四元组存放在经验重放存储器D中。值得注意的是，如果D满了的话，本发明仅仅把回报r_t<0的四元组弹出，空出空间给新的四元组。这样做的原因是因为回报为负的四元组的数量远高于回报为正的四元组的数量。当弹出回报为负的四元组时，对两种类型四元组的采样百分比(采样概率)保持不变。此后，本发明均匀地从D中采样四元组来更新DQN的参数。本发明用当前的回报来更新最优目标Q值，计算损失并使用梯度下降来更新参数q。

如果所有被提取的相关数字已经被选择用于建立表达式树，那么数学应用题的训练过程将被终止。

Algorithm 1:深度Q-网络的训练过程

下面结合实验对本发明的应用效果作详细的描述。

1、实验

在三个公开可用的算术应用题的数据集上评估提出的DQN框架。本发明通过与最先进的方法进行比较，评估其准确性和效率。本发明还分别对单步和多步问题进行分解分析。

1.1数据集

由于Dolphin数据集还没有被公开用于访问，本发明还不能够用它来评估本发明解决方案的通用性，因此使用和当前最先进的方法[Roy and Roth,2015]在算术数学应用题上相同的基准数据集来代替Dolphin数据集。

1.AI2数据集.该数据集有395道单步和多步加减算术应用题。每道应用题包含多个数字，其中有的数字可能对于解来说是不相关的。对于该数据集，本发明使用3折交叉验证，来得到评估结果。

2.IL数据集.该数据集有562道只运算一次的单步加减乘除数学应用题。每道应用题也可能包含不相关的数字。本发明遵循[Roy and Roth,2015]相同的设置，并在这个数据集上进行5折交叉验证来评估最后的结果。

3.CC数据集.

从www.commoncoresheets.com收集的第三个数据集是这三个数据集中是最具挑战性的。它由600道多步不含不相关数字的应用题组成。和AI2数据集不同，它的题目涉及到加减乘除四种运算符，包括(a)先减后加的混合运算；(b)先加后减的混合运算；(c)加法乘法混合运算；(d)加法除法混合运算；(e)减法乘法混合运算；(f)减法除法混合运算。本发明在次数据集上采用6折交叉验证

此外，本发明将上述三个数据集合并起来，重新把他们分成两个数据集来做分解分析。其中一个数据集所有的数学题为单步运算(称作S-STEP)，另一个数据集所有的数学题为多步运算(称作M-STEP)，S-STEP包含890道应用题，M-STEP包含667道应用题。

1.2参数设置

在本发明DQN模型中，本发明把经验重放存储器D的大小设置为15；000，折旧因子g＝设置为0:9。DQN模型使用基于Tensorflow，学习率为0:0001的RMSprop来训练学习。为了调整探索和开发的平衡点，eε-greedy从0:5经过30；000周期减少到0:01。本发明把mini-batch设置为32，在表达式树构建的每一步中都会有32个四元组被用于DQN的梯度更新。前馈神经网络包含2个50个单元的隐藏层。本发明设置正的回报为5，负的回报为5作为本发明的奖励策略。

1.3实验结果

本发明把提出的DQN框架和当前最先进的两个方法进行比较：基于模板的方法Template和基于分数的方法LCA。值得注意的是，后一种方法通过观察数据集做出两个假设，即结果可能是正的和整数的，本发明认为在一般情况下可能不一定如此。然而，本发明仍然和设定了这两种限制的LCA进行了比较。ARIS不足以处理除加法和减法之外运算符的数学应用题。因此，它不包括在以下实验测试中。

本发明在表3中报告在这三个基准数据集的测试的准确率。根据本发明的观察发现，首先，基于模板的方法不具有很好的扩展性，不能够处理如CC数据集这样复杂的情形。随着操作符的类型和计算步骤的增加，模板的数量将呈指数级增长，这给正确模板的识别和未知插槽的填充带了巨大的挑战。因此，这个方法在CC数据集上性能表现的最差，准确率也最低。第二，LCA因为人工设计的特征和更有效的表达式树的构建策略，因此该算法比Template表现的更好。本发明可以看到CC数据集的准确率提升到了对于机器来说可以接受的范围。第三，本发明的方法实现了最好的性能，并且在AI2和CC数据集上，分别把准确率提高了9％和41％。这都归功于DQN框架的有效设计。本发明把表达式树的构建过程建模为马尔科夫决策过程，通过适当地制定状态，动作，回报以及作为深度Q网络的两层前馈神经网络，使得本发明的解决方案可以更有效地解决数学应用题。

表2 基准数据集上的准确率

	AI2	IL	CC
				Template	64.0	73.7	2.3
LCA	72.0	73.9	45.2
				OurDQNFramework	78.48	73.27	63.7

本发明还进行了分解分析，来比较单步(S-STEP)和多步(M-STEP)数据集中的性能。结果表明，这三种方法在解决单步算术问题中表现出类似的性能。然而，随着数学问题复杂性的增加，本发明提出的DQN框架的性能明显优于其他两种方法，这意味着本发明的方法具有更加通用和鲁棒的性能。

表3 单步和多步应用题的分解分析

	S-STEP	M-STEP
			Template	69.33	11.84
LCA	74.04	46.18
			OurDQNFramework	74.94	66.42

图3和图4分别说明了平均回报及其相关准确率的变化过程。对于AI2和IL这两个数据集本发明画出前20；000个周期，对于CC数据集本发明画出前8；000个周期。本发明可以看到开始的时候回报是为负的，主要有以下两个原因。第一个原因是，本发明在初始阶段将e设置成0:5左右的一个中间值，代理(agent)有很大概率会随机选择一个动作用于探索。其次，开始阶段代理还没有从环境中获得足够多的训练反馈，并不能准确的选择正确的动作。随着训练周期的增加，代理会从反复的试错过程中快速的学习。本发明还观察到，AI2数据集中的奖励高于CC数据集，因为它仅涉及两种用于动作的选择的运算符。

1.4运行时间结果

因为考虑到用户希望尽快的得到计算结果，所以本发明还研究了这些数学应用题求解器的解题效率。在表4中报告了求解一道数学应用题所需的平均运行时间。方法Template是最慢的，因为它需要考虑数字槽和未知槽之间所有可能的映射方式。

LCA比Template更高效，因为它使用了相关性分类器来过滤不相关的数字，从而减少搜索空间。然而，它仍然需要枚举表达式树以找到具有最高分数的那棵表达式树作为最终的答案树。

相比之下，本发明提出的DQN框架要比竞争对手至少快10倍。这是因为本发明通过已训练的模型从深度Q网络中选择预期回报最高的动作来构建表达式树。其复杂度不随表达式树的大小呈指数级增长。

表4平均运行时间

	AI2	IL	CC
				Template	8.441	10.217	19.130
LCA	2.828	1.630	16.657
				OurDQNFramework	0.370	0.217	1.66

本发明是第一个尝试使用一个增强学习框架来自动求解数学应用题。在基准数据集上的实验结果说明自动求解是有希望的。本发明的方法使用更少的计算时间，得到了更好的效果，尤其是在更具有挑战性的多步应用题上比其他方法表现的更好。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度增强学习的代数应用题自动求解器，其特征在于，所述基于深度增强学习的代数应用题自动求解器采用数字策略来识别相关数字作为表达式树的最底层，通过确定数字节点的运算符节点，以自底向上的方式构建表达式树；提取三个相关数字13, 4,9作为表达式树的最底层；

2.如权利要求1所述的基于深度增强学习的代数应用题自动求解器，其特征在于，所述基于深度增强学习的代数应用题自动求解器的状态被表示为具有固定维度的实值向量，实值向量通过相互结合函数，被送入到神经网络，通过该两层前馈神经网络的计算来近似Q值函数；

首先连接被选中的数字对的特征并将特征转换成固定的实值向量来表示状态，随后把状态向量作为一个两层的前馈神经网络的输入，通过网络的计算来近似Q值函数；提取单个数字，数字对和问句这三部分的特征用于状态的构建。

3.如权利要求1所述的基于深度增强学习的代数应用题自动求解器，其特征在于，所述基于深度增强学习的代数应用题自动求解器的动作在每一步中，代理选择动作来使两个数字获得回报的期望最大化，并决定这个两个数字的最小公共元祖运算符，运算符：反向减法和反向除法。

4.如权利要求1所述的基于深度增强学习的代数应用题自动求解器，其特征在于，所述基于深度增强学习的代数应用题自动求解器的回报函数代理在训练期间对每个动作的选择都会收到从环境中返回的正的或者负的回报；损失函数利用回报来计算目标最优Q值，其与预测Q值的差异，并将这种差异用于调整DQN的参数；所选择的运算符对于两个相关数字来说是正确的，则环境返回正的回报；否则，将作为惩罚返回负的回报。

5.如权利要求1所述的基于深度增强学习的代数应用题自动求解器，其特征在于，所述基于深度增强学习的代数应用题自动求解器的参数学习使用一个两层前馈神经网络作为深度Q-网络来计算期望的Q值，网络的参数q将通过从环境中的反馈的回报来更新学习，随机从D中采样一批四元组，模型通过用mini-batch，周期性的更新参数来最小化代价函数：

；

其中

是目标最优Q值，它通过对当前回报 r 与后续步骤的最优Q值的求和计算得到；

期望是关于被采样的四元组

的；

。

6.如权利要求1所述的基于深度增强学习的代数应用题自动求解器，其特征在于，所述基于深度增强学习的代数应用题自动求解器的训练方法包括：

创建一个经验重放存储器用于存储四元组

和一个随机赋予权重的动作-价值Q值；整个训练集总共有M个训练周期，每个周期，遍历数学应用题并提取它们的数字策略；丢弃掉不相关的数字，并将剩余的数字用于表达式树的构建；用于数字相关性的分类器的特征包括数字的单元是否出现在问句中；其他数字是否有和问句有更好的匹配、和问句匹配的数字数量有多少。