CN117033847B

CN117033847B - 基于层次性递归树解码模型的数学应用题求解方法及系统

Info

Publication number: CN117033847B
Application number: CN202310894649.1A
Authority: CN
Inventors: 周光有; 张怡; 谢志文
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2024-04-19
Anticipated expiration: 2043-07-20
Also published as: CN117033847A

Abstract

本发明公开了基于层次性递归树解码模型的数学应用题求解方法及系统，包括：获取待求解的数学问题文本；基于所述数学问题文本构建数值图，将所述数值图进行嵌入与更新，并获取所述数值图的表征信息；基于所述数学问题文本构建语义图，将所述语义图进行嵌入与更新，获取所述语义图的表征信息；基于自我注意机制，将所述数值图的表征信息和所述语义图的表征信息进行融合和编码，获取编码信息；将所述编码信息输入所述层次性递归树解码模型生成数学表达树，获取所述数学问题文本的数学表达式，其中，所述层次性递归树解码模型具有分层关注机制，进行根节点预测、祖先节点学习、子节点预测。

Description

基于层次性递归树解码模型的数学应用题求解方法及系统

技术领域

本发明属于数学应用题的自动化求解技术领域，尤其涉及基于层次性递归树解码模型的数学应用题求解方法及系统。

背景技术

自动求解数学应用题(MathWordProblem,MWP)的目的是根据自然语言描述的问题文本求解出相应的表达式和答案。作为核心的数学推理任务之一，MWP自20世纪60年代以来就吸引了大量的研究兴趣。由于MWP任务要求机器理解数学知识(例如，数值推理和数量属性)和自然语言文本，这些挑战仍然需要解决。

在早期阶段，基于规则和基于统计的数学应用题求解器试图将输入的问题文本转换为人为定义的逻辑特征，以促进数学推理。但是，这些方法需要手工制作的逻辑表单作为模板。目前，研究人员已经利用深度学习的力量来解决MWP问题。其中三种主流方法分别使用sseq2seq的模型、seq2tree模型和graph2tree的模型，它们是解决MWP任务的常用框架。最近，由于将预训练语言模型(pre-trainedlanguagemodel,PLM)纳入到现有的框架中，如MWP-BERT等模型，基准数据集的性能得到了显著提高。这些现有模型利用端到端机制，遵循编码器-解码器框架，如循环神经网络RNN、图神经网络GNN、大型语言模型BERT作为编码器，GTS的树形解码器作为解码器。尽管这些基于深度学习的求解器取得了一定的成功，但它们仍然远未达到类人类的数学推理能力。一方面，根据认知理论，人类需要通过从问题文本中学习数字之间的直接关系(如“1<2<3”)来获得明确的数学推理知识。另一方面，人类一步一步地生成数学表达式，并记忆解题的逻辑思维中的早期信息。然而，目前的MWP求解器的性能还远不能为数学推理能力提供足够的支持。

尽管数值计算能力在数字普遍存在的MWP领域中至关重要，但大多数现有的MWP求解器要么直接在预处理步骤中将数字丢弃，要么将数字视为特殊的符号占位符(例如，字符“[NUM]”)。部分早期工作进行了初步研究，以提高MWP任务的数值推理能力。然而，这些方法在MWP任务表现不佳，因为他们不能处理大量的数字，特别是部分没有出现在训练数据中的数字(例如，超出词汇表的(out-of-vocabulary,OOV)数字)，这严重限制了他们在编码任何在MWP的数字。此外，主流的GTS解码器在生成新的目标向量时，只保留了父节点和兄弟节点的信息。而早期阶段的父节点信息(例如，父节点信息)被丢失，这会导致生成的数学表达式存在不足，特别是对于具有更多数学运算符的复杂问题。

发明内容

为解决上述技术问题，本发明提出了基于层次性递归树解码模型的数学应用题求解方法及系统，首先提出了一个基于十进制计数法的嵌入方法来初始化数字表示，然后通过双向图注意网络来捕获数字的大小关系。通过这种方式，NERHRT就可以很好地归纳任意数字的数值属性，从而提高了数学计算能力。此外，还将数字表示和语义表示融合成一个统一的表示，以全面理解数学描述。最后，通过具有层次注意机制的层次递归树形解码器来聚合来自表达式树上所有的祖先节点信息。

为实现上述目的，本发明提供了基于层次性递归树解码模型的数学应用题求解方法，包括：

获取待求解的数学问题文本；

基于所述数学问题文本构建数值图，将所述数值图进行嵌入与更新，并获取所述数值图的表征信息；

基于所述数学问题文本构建语义图，将所述语义图进行嵌入与更新，获取所述语义图的表征信息；

基于自我注意机制，将所述数值图的表征信息和所述语义图的表征信息进行融合和编码，获取编码信息；

将所述编码信息输入所述层次性递归树解码模型生成数学表达树，获取所述数学问题文本的数学表达式，其中，所述层次性递归树解码模型具有分层关注机制，进行根节点预测、祖先节点学习、子节点预测。

可选的，基于所述数学问题文本构建所述数值图包括：

提取所述数学问题文本中数字，并将所述数字作为数字节点，构建有向无环图；

将所述节点通过预设的关系类型进行连接，完成所述数值图的构建。

可选的，将所述数值图进行嵌入与更新，并获取所述数值图的表征信息包括：

利用十进制计数法表示所述数字节点的值，获取用十进制计数法表示的数字；

基于标准配分函数和神经网络，对十进制计数法表示的所述数字进行编码，获取数字嵌入的向量，其中所述数字嵌入的向量包括数字值嵌入向量和数位嵌入向量；

构建整数嵌入生成器，利用所述整数嵌入生成器对所述数字值嵌入向量和所述数位嵌入向量进行整数嵌入，完成所述数字的嵌入，其中所述整数嵌入生成器由两个前馈网络和一个具有ReLU激活的两层全连接网络组成；

构建双方向的图注意网络，基于所述双方向的图注意网络，获取每个所述数字节点的双方向的邻域信息，完成所述数值图的更新；

基于每个所述数字节点的双方向的邻域信息，获取所述数字图的表征信息。

可选的，基于所述双方向的图注意网络，获取每个所述数字节点的双方向的邻域信息包括：

将任一所述数字节点的邻域分为内邻域和外邻域，分别获取所述数字节点与所述内邻域的邻居节点的节点对和与所述外邻域的邻居节点的节点对；

将所述节点对进行向量连接操作，获取向量连接后的内邻居节点对和外邻居节点对；

构建双方向的图注意网络，所述双方向的图注意网络包括多头注意力机制；

基于向量连接后的内邻居节点对和外邻居节点对，通过所述注意力机制聚合具有不同注意力系数的内邻域方向的邻域信息和外邻域方向的邻域信息；

通过具有softmax功能的注意机制对所述注意力系数进行迭代，获取每个所述数字节点的双方向的邻域信息。

可选的，基于所述数学问题文本构建所述语义图包括：

通过对所述数学问题文本中的词语进行依赖分析或根据所述词语局部相关性，构建所述语义图。

可选的，将所述语义图进行嵌入与更新，获取所述语义图的表征信息包括：

获取所述数学问题文本中的文本数据，基于所述文本数据，通过RoBERTa对所述语义图的节点嵌入进行初始化，获取所述语义图的初始表征；

获取所述语义图中任一节点在特定关系类型的边下的表示，方法为：

其中，为线性变换参数，/>为语义关系/>下节点j的注意权重，/>为第l层网络迭代中特定关系类型的边τ下的邻居节点j的特征向量，/>为第l+1层网络迭代中任一节点i在特定关系类型的边τ下的表示；

通过softmax函数归一化，获取所述语义图中任一节点在特定关系类型的边下邻居节点的注意权重；

基于所述初始表征、任一节点在特定关系类型的边下的表示和任一节点在特定关系类型的边下邻居节点的注意权重，获取所述语义图的表征信息。

可选的，基于自我注意机制，将所述数值图的表征信息和所述语义图的表征信息进行融合和编码包括：

基于Transformer的编码器，将所述数值图的表征信息和所述语义图的表征信息进行连接，获取所述数学问题文本中所有单词的表示；

通过元素级的最小池化对所述数学问题文本中所有单词的表示进行处理，获取所述数学问题文本的全局向量，获取所述编码信息。

可选的，将所述编码信息输入所述层次性递归树解码模型生成数学表达树，获取所述数学问题文本的数学表达式包括：

S1、根据所述数学问题文本的全局向量，获取根节点的目标向量；

基于GTS树形解码器中的注意模块、所述数学问题文本中所有单词的表示和所述目标向量，将所述数学问题文本中所有单词的表示编码为上下文向量；

根据所述目标向量和所述上下文向量，获取预测节点；

若所述预测节点是一个数字或常数，则所述预测节点保持为叶节点，算法终止；否则将所述预测节点创建两个空子节点位置，进行步骤S2；

S2、利用每一个历史节点信息的加权求和，获取中间目标向量和中间上下文向量，进行步骤S3；

S3、获取已被预测的最新节点，基于所述中间目标向量和所述中间上下文向量，获取左子节点的目标向量，基于所述左子节点的目标向量和所述中间上下文向量，获取预测的左子节点，当所述预测的左子节点为常数或者数量时，则进行步骤S4，否则继续预测左子节点；

S4、基于同级节点的子树嵌入、所述已被预测的最新节点、所述中间目标向量和所述中间上下文向量，获取预测的右子节点，若所述预测的右子节点为运算符则返回步骤S2，若为数字，则通过递归方式寻找空的右节点位置，若没有寻找到所述空的右节点位置，则结束，否则，继续进行S4。

可选的，获取中间目标向量和中间上下文向量的方法为：

其中，和/>分别表示中间目标向量和中间上下文向量，q⁽ⁱ⁾是前序遍历表达式的第i个节点的目标向量，c⁽ⁱ⁾是前序遍历的第i个节点的上下文向量，h⁽ⁱ⁾是前序遍历表达式中节点i的位置嵌入向量，h^(i′)是前序遍历表达式中任一节点的位置嵌入向量，q^(i′)是前序遍历表达式中任一节点的目标向量，c^(i′)是前序遍历表达式中任一节点的上下文向量，W_q是目标向量的一个可学习参数，W_c是上下文向量的一个可学习参数，t是被预测的节点y^(t)的位置，i′是前序遍历中第i′个位置，σ是激活函数。

另一方面，还提供了基于层次性递归树解码模型的数学应用题求解系统，包括：

图构建模块、数值图嵌入与更新模块、语义图嵌入与更新模块、信息融合模块和层次性递归树解码模块；

所述图构建模块，用于基于数学问题文本构建数值图和语义图；

所述数值图嵌入与更新模块，用于将所述数值图进行嵌入与更新，并获取所述数值图的表征信息；

所述语义图嵌入与更新模块，用于将所述语义图进行嵌入与更新，获取所述语义图的表征信息；

信息融合模块，用于基于自我注意机制，将所述数值图的表征信息和所述语义图的表征信息进行融合和编码，获取编码信息；

所述层次性递归树解码模块，用于将所述编码信息输入层次性递归树解码模型生成数学表达树，获取所述数学问题文本的数学表达式，其中，所述层次性递归树解码模型具有分层关注机制，进行根节点预测、祖先节点学习、子节点预测。

本发明技术效果：本发明基于十进制计数法的嵌入方法来初始化数字表示，通过双向图注意网络来捕获数字的大小关系，NERHRT就可以很好地归纳任意数字的数值属性，从而提高了数学计算能力。此外，将数字表示和语义表示融合成一个统一的表示，以全面理解数学描述。通过具有层次注意机制的层次递归树形解码器来聚合来自表达式树上所有的祖先节点信息，防止早期嵌入信息丢失问题

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例基于层次性递归树解码模型的数学应用题求解方法的流程示意图；

图2为本发明实施例中整数嵌入示意图；

图3为本发明实施例中对四个基线数据集中具有不同推理复杂度的子集的模型性能进行细粒度分析，其中图(a)为数据集Math23k上不同难度的问题上的表现，(b)数据集MAWPS上不同难度的问题上的表现，(c)为数据集SVAMP上不同难度的问题上的表现，(d)数据集MathQA上不同难度的问题上的表现。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1所示，本实施例中提供基于层次性递归树解码模型的数学应用题求解方法，包括：

获取待求解的数学问题文本；

构建层次性递归树解码模型，获取数据集，通过数据集对所述层次性递归树解码模型进行训练，获取训练后的所述层次性递归树解码模型；

将所述编码信息输入训练后的所述层次性递归树解码模型生成数学表达树，获取所述数学问题文本的数学表达式。

数字推理和数学文本描述的语义理解是解决MWP的两个关键因素。本发明从两个不同的角度构建了一个数字图和一个语义图。前者试图构建数字之间的大小关系，并学习计算能力，而后者的图则是捕捉词语之间的结构信息，以更好地理解文本描述背后的语义。

数值图(G_num)构造：从数字的角度来看，基于层次性递归树解码模型的数学应用题求解方法NERHRT((Number-Enhanced Representation with Hierarchical RecursiveTree Decoding，NERHRT)专注于构建数字图。数值图可以正确而直观地表示数字及其大小关系。将所有从数学问题文本描述中提取的数字视为图上的节点，从而构建一个有向无环图，其中节点是有数值的数字。这些节点通过“isLessThan”(“≤”)这一种关系类型连接起来，确保了数字的大小属性能够被捕捉到。如果节点″v_i≤v_j″，而且节点″v_j≤v_k″，能够从数字图中推断出节点″v_i≤v_k″。这样一个具有单一关系类型″isLessThan″的数字图不仅可以为模型提供适当的数字嵌入，还可以启发式地引导两个数字的算术转换(例如，减法和除法)。

语义图(G_sem)的构造：两种构建语义图的思路：(i)依赖解析树中的边代表了各种语法关系，并包含特定的语义形式，这有助于学习更有意义的图节点特征；(ii)局部相关性能丰富局部单词特征，如一个数字周围的单词定义了数字的属性。

数值图的嵌入与更新：

对于一个数字节点v_i∈G_num，使用十进制计数法来表示其值。例如，实数″543.2″的值用十进制符号标记为一个整数序列″2×10^-1+3×10⁰+4×10¹+5×10²″。基于十进制计数法，数据集中的任意数字都可以使用[-9，9]范围内的整数组合进行表示。即无限的实数可以使用一个有限的整数序列来表示。通过下列的标准配分函数来表示任意的数字v_i：

其中，a^p和p分别表示数值和数位，k和K随着v_i的变化而变化(例如，数字“543.2”的k和K分别为-1和2)。基于标准配分函数，通过对数值a^p和数位p进行编码来计算数字嵌入的

其中，为数字值嵌入向量，/>为数位嵌入向量，d_h＝d_a+d_p，/>为神经网络。对于MWP任务，设置了p∈{-9，...，0，...，9}和a_p∈{0，...，9}。以数字“543.2”为例，其嵌入可以表示为：

由于数值和数位都是整数，使用从整数序列在线百科全书(Online Encyclopediaof Integer Sequences，OEIS)学习的预先训练的整数嵌入进行初始化E^a(·)和E^p(·)。如图2所示显示了一个如何学习整数嵌入的例子。该整数嵌入生成器由两个前馈网络(feed-forward networks，FFNs)和一个具有ReLU激活的两层全连接网络(multilayerperceptron，MLP)组成。此外，如果一个数字的数字位置大于“9”或小于“-9”，则只保留其位置在“-9”和“9”之间的值。

数字嵌入方法是直观的、人性化的数学思维，以连续的方式捕捉到数字的规模和精度。无需复杂的数学运算，能够在测试阶段直接获得未见过的数字嵌入。

尽管基于十进制计数法的数字嵌入方法可以规范化表达数字，并在一个近似连续的空间中对数字进行编码，但它难以捕捉数字的大小关系，这些关系可以启发式地指导两个数字的推理(例如减法和除法)。一个数字在推理中的作用不仅由其本身决定，而且还与相邻的数字有关。传播邻近的数字信息以更新数字表示是很重要的。然而，传统的图学习方法(如GATs)只考虑来自入站方向的邻居(例如值大于中心数字的邻居数字)，忽略了来自出站方向的数字邻居。事实上，来自两个方向的邻域数对理解数字至关重要。因此，开发了一个双方向的图注意网络来学习双向邻域传播。

如图1所示，一个数字节点v_i的邻域可分为两组，如内邻域/>和外邻域/>对于任意邻居/>构造一个内邻居节点对(v_j，v_i)，并将它们的嵌入向量连接进行线性变换，得到节点对的表示：

h_j，i＝[h_j||h_i]W_in (3)

其中，h_j，i为内邻居节点对(v_j，v_i)的表示向量，[·||·]表示向量连接操作，h_j和h_i表示节点v_j和v_i的嵌入向量，W_in是所有内邻居的共享转换参数。

类似地，对于每个邻居构造一个外邻居节点对(v_i，v_o)，得到该节点对的表示：

h_i，o＝[h_i||h_o]W_out (4)

其中，h_i，o为外邻居节点对(v_i，v_o)的表示向量，h_o为节点v_o的嵌入向量，W_out是所有外邻居的共享转换参数。

单跳邻域聚合只能推断出相邻节点之间的关系。对于某些任务(如排序)，可能需要多跳节点之间基于路径的组合关系。基于数字路径的推理进行多跳邻域聚合。例如，对于一个2跳的节点v_r，关系(v_r→v_j→v_i)被定义为其中/>表示一个元素加法，将路径中的所有实体嵌入加起来。通过公式(4)可以很容易地计算出远距离数字对的表示

不失一般性，对于每个节点v_i，在多头注意方式下聚合具有不同注意系数的两个方向的邻域信息：

其中，为是节点v_i的第l+1层网络迭代的输出嵌入向量，/>为内邻居节点对(v_j，v_i)的第l层网络迭代时的表示向量，/>为外邻居节点对(v_i，v_o)的第l层网络迭代时的表示向量，l为图神经网络迭代层数，K为头数，/>为k次注意头的参数，/>和/>分别为/>和/>的注意权重，通过具有softmax功能的注意机制计算：

其中，linear(·)表示一个线性变换函数。通过第L次迭代，得到了每个节点v_i的最终表示法其中包含了数字图中的两个方向的信息。最后，将数字图表示为

语义图的嵌入和更新：

语义图中各节点之间的充分互动对于理解MWP和影响最终性能至关重要。与数字图不同，语义图被认为是由各种类型的边组成的异质图。不同边下的节点表示是根据其在当前边下的邻居节点更新的。该节点在不同边下的所有表示将被合并，以得到其最终表示。通过这种方式，模型可以关注不同表征边下的信息，并自适应地对各种关系进行建模。

给定一个长度为n的数学文本描述X＝{x₁，...，x_n}，使用RoBERTa来初始化语义图G_sem的节点嵌入

具体来说，语义图G_sem包含各种类型的边这些类型的边将节点与它的邻居连接在一起。假设/>是节点i的邻居集合，邻居子集/>是通过某类型的边/>连接节点i的节点集和，通过不同关系的邻居的注意加权和来计算v_i的表示：

其中，为第l层网络迭代中特定关系类型的这τ下的邻居节点j的特征向量，为第l+1层网络迭代中任一节点i在特定关系类型的边τ下的表示，ReLU表示激活函数，/>为线性变换参数，/>为节点i的邻居节点j在特定关系类型的边τ下的权重，由softmax函数归一化：

其中，为任一的邻居节点j′在第l层网络迭代的特征向量，j′为任一邻居节点。

有了初始表征(例如，)，进行特定语义关系下的节点之间的信息传播，进行第L次反复得到最终的语义表示/>

信息融合

得到数值图表示和语义图表示/>因此有必要将两种表征整合为一个统一的表征。具体来说，适当地整合这两种表征可以提供互补的信息，并在很大程度上提高解码过程的准确性，基于自我注意的机制，为重要的数字和语义词分配更高的权重，以综合利用这两个特征的优势。

在形式上，将语义图表示与数字图表示连接起来，作为转化器的输入，以更新输入标记的嵌入：

H＝Transformer([H_sem；[SEQ]；H_num]) (11)

其中，Transformer(.)是一个Transformer编码器，由一个多层自注意层和一个全连接的前馈网络组成。在自我注意的帮助下，所有的数字嵌入都与问题词完全交互，其中H是所有单词的表示。为使用元素级的最小池化来获取文本描述的全局向量，以便进一步解码。

z_g＝MinPooling(H) (12)

层次性递归树形结构解码器：

分层递归的树状结构解码器，该解码器具有分层关注机制，以聚合来自祖先节点的信息。该树状结构解码器有四个模块：根节点预测、祖先学习、左侧子节点预测和右侧子节点预测。解码的步骤如下：

步骤1：根节点预测采用前序遍历的方式来生成表达式树，该表达式树是二叉树结构，所以主要目标是预测根节点。为了开始树的生成过程，模型根据数学问题文本的全局向量z_g初始化根节点的目标向量q⁽¹⁾。使用GTS树形解码器中的注意模块将表示的单词H编码为上下文向量c⁽¹⁾，这有助于预测新的节点。形式上，上下文向量c⁽¹⁾和预测的节点y⁽¹⁾：

c⁽¹⁾＝GTS-Attention(q⁽¹⁾，H) (13)

y⁽¹⁾＝GTS-Predicte(q⁽¹⁾，c⁽¹⁾) (14)

如果预测的y⁽¹⁾是一个数字或常数(例如，圆周率3.14)，则预测节点保持为叶节点，算法终止；否则将当前预测的节点y⁽¹⁾创建两个空的子节点位置，模型继续到步骤2。

步骤2：祖先节点学习的动机是模仿人类会回顾多阶段的解决步骤来回答一个数学问题，可以探索当前节点的最合理的解决方案。当得到当前预测的节点y^(t)时，应用每一个历史节点的信息加权求和来生成中间表示和/>

其中，和/>分别为中间目标向量和中间上下文向量，h^(i′)是前序遍历表达式中任一节点的位置嵌入向量，h⁽ⁱ⁾是前序遍历表达式中节点i的位置嵌入向量，q^(i′)是前序遍历表达式中任一节点的目标向量，q⁽ⁱ⁾是前序遍历表达式中节点i的目标向量，c^(i′)是前序遍历表达式中任一节点的上下文向量，c⁽ⁱ⁾是前序遍历表达式中节点i的上下文向量，W_q是目标向量的一个可学习参数，W_c是上下文向量的一个可学习参数，t是被预测的节点y^(t)的位置，i′是前序遍历中第i′个位置，σ是激活函数。为了在前缀表达式中保留节点的原始顺序信息，在早期阶段的父节点表示中添加了位置嵌入{h⁽ⁱ⁾|i∈(1...，L)}。L是一个超参数。其优点是，NERHRT不仅考虑了父节点和兄弟节点，而且还可以在多阶段预测中有效地捕获早期阶段的父节点。之后进入步骤3。

步骤3：左子节点预测，假设y_p是解码过程中已被预测的最新节点，现在生成它的左子节点。当历史节点信息被重新学习后，节点将被转发到这个分解模块：

其中，y_p，和/>分别表示解码过程中已被预测的最新节点、中间目标向量和中间上下文向量，q_l是左子节点的目标向量，y_l是预测的左子节点。当y_l是一个量(常数或从V_num开始)时，将进入步骤4；否则，左子节点预测的过程将继续进行，直到y_l是一个量。

步骤4：右子节点预测，当右边的目标节点生成时，左边的兄弟姐妹节点已经完成。因此，树形解码器使用右边的子节点生成模块来填补右边的空节点位置。考虑了其同级节点的子树嵌入、已被预测的最新节点、中间目标向量和中间上下文向量来生成右子节点的目标向量q_r，可以表示为：

t_l＝GTS-SubTree(y_l，q_l) (19)

其中，y_r是预测的右子节点，q_r是右子节点的目标向量，t_l是当前被预测的右子节点的邻居左子树的嵌入向量，如果y_r是一个数学运算符(例如，“{+，-，×，÷，∧}”)，将回到步骤2。如果y_r是一个数字，模型将通过递归方式，从底向上寻找空的右节点位置。当模型找不到任何空的右节点位置时，树解码器终止；否则，将继续步骤4。最后，二叉树中的所有节点都不能被进一步分解，并且有一个预测的标记。

训练：

本发明旨在生成一个长度为t的方程V＝{y₁，...，y_t}，这是一个数学表达式的前序遍历序列。在这里，Y通常由数学常量(例如，“π”)、数字(例如，“1200”、“3”)和数学运算符(例如，“÷”、“×”)组成。更明确地，Y的词汇表包含三个部分，数学常量V_cos、数量V_num和运算符V_op。数学常量V_cos和数学运算符V_op的词汇表分别包含必要的常量值和所有数学运算符{+，-，×，÷，∧}。V_num是由一个映射函数构造的，该函数将X中的数字按问题序列中的顺序映射到一个数字令牌{n₁，...，n_m}的列表中。数据集D＝{(X₁，Y₁)，(X₂，Y₂)，...，(X_|D|，Y_|D|)}，共有|D|个问题文本-表达式对在训练过程中，给定数据集D＝{(X₁，Y₁)，(X₂，Y₂)，...，(X_|D|，Y_|D|)}，其中X_i是第i个数学词问题，是目标数学表达式。通过优化概率分布问题prob(y^(t)|y^(＜t)，X_i)上的最大似然估计(Maximum LikelihoodEstimation，MLE)损失来训练的模型NERHRT。

其中，y^(t)是代表第i个样本的目标表达式中需要生成的第t个目标标记，y^(＜t)是代表第i个样本的目标表达式中已经生成的标记。

使用光束搜索来生成最终的表达式。在生成步骤t中，如果y^(t)是一个数学运算符，则模型将继续生成其子节点。如果y^(t)是一个数字或常数，则它表示一个没有子节点的叶节点。一旦模型找不到新的节点，生成就被终止，生成的表达式序列被转换为表达式树。为了统一表示符号，使用大写粗体和小写粗体字母分别表示矩阵和向量，而非粗体的小写字母表示标量，表1为主要的符号及其对应的含义。

表1

Notation	Meanings	Notation	Meanings
				X	MWP textual description	Y	Mathematical equation
V_op	Operators，such as{+，-，×，÷，∧}	V_cons	Constants，such asπ
				V_num	Numbers in MWP	D	Training datasets
G_num	Number graph	G_sem	Semantic graph
				a_p	Decimal digit value	p	Decimal digit position value
E^a	Pre-trained digit value embedding	E^p	Pre-trained digit postion embedding
				H_num	number embeddings	H_sem	word embeddings

实验验证

使用四个标准的MWP基准数据集评估结果：Math23K、MAWPS和SVAMP和MathQA。在这些数据集中，将考虑五个运算符：加法(+)、减法(-)、乘法(×)、除法(÷)和幂次(∧)运算。Math23K包含了23，161个小学生的中文MWP，每个样本都用相应的方程表达式和答案进行标记。MAWPS由1987个英语MWP组成，其中有一个或多个未知变量用于小学算术问题。与Math23K和MAWPS数据集不同，SVAMP和MathQA更具挑战性。SVAMP由4138个英语MWP组成，在数学文本中有大量看不见的数字。MathQA包含20,207个英语MWP，这些问题涉及更多的操作。遵循前人的工作将每个数据集分成Train\Dev\Test三个子集。统计数据如表2所示。

表2

遵循之前工作中使用的标准评估指标，并使用5倍交叉验证(例如，MAWPS＊)报告结果。此外，使用平均答案精度(例如，MAWPS)来给出结果。

将本发明提出的方法与以下四组下的基线进行了比较：

(1)基于Seq2序列的方法。这些模型包括：DNS、Math-En、T-RNN、Group-ATT和mBERT-LSTM。

(2)Seq2树的方法。这些型号包括GTS、AST-Dec、KA-S2T、SAU-Solver、TSN-MD、HMS、NS-Solver、MWP-TS、NumS2T、SUMC-Solver、Ro-GTS。

(3)Graph2是基于树的方法。这些型号包括G2T-Z、G2T-L、Multi-E&D、EEH-G2T、RPKHS、Gen&Rank、HGEN、HLGT、Ro-G2T-Z。基于树的方法有效地捕获了数量标记和描述性词之间的关系，使学习到的标记表示更有意义。

(4)此外，一些较强的基线(如Seq2DAG，RE-推导，MWP-CL，MWP-BERT)也取得了有竞争力的结果，但他们使用不同的解决方案来解决MWP。

在Ubuntu18.04上用RTX3090GPU用PyTorch6实现了所提出的方法。为了构建语义图，使用LTP分别生成中国数据和英语数据的依赖解析树。隐藏编码器和解码器的尺寸为512。使用Adam优化器来优化损失。对于Math23K和MAWPS，学习速率设置为1e-3。SVAMP和MathQA的学习速率设置为2e-3。学习速率每20个周期衰减一次，其中权值衰减系数设置为1e-5。Math23K和MAWPS的批量大小分别为30，MathQA，SVAMP的批量大小分别为60。设置Dropout为0.5。

在训练过程中，Math23K和MAWPS的历元数被设置为80，SVAMP为150，MathQA为120。实现了一个大小为5的集束搜索(beamsearch)算法来生成表达式树。表3为模型中的主要超参数及其搜索范围的详细信息。

表3

结果如表4和表5所示。比较中没有提供RODA和MV-Reasoning方法的对比，这是因为这两个方法通过数据增强的方式来生成结果，这与其他基线和本发明的比较是不公平的。从表4中得到的观察结果有：(1)使用图结构作为编码器，性能可以显著提高(GTSvs，G2T-Z)；(2)考虑到数字嵌入，其性能显著优于其他树模型(GTSvs，NumS2TT)。其原因是前一种编码器在推理过程中只考虑语义信息，而在推理过程中忽略了数字的数量，特别是数字性。相比之下，数字图方法明确地编码了数值，并增强了模型的数值推理能力。(3)以树状结构作为解码器，其性能一般优于序列解码器(T-RNN和Group-ATTvs。GTS)，因为树形解码器可以很容易地捕获结构信息。特别地，用提出的层次递归树结构解码器取代了GTS的树结构解码器，这表明了解码器对消融研究中GTS的树结构解码器的有效性。(4)与使用预训练语言模型的方法相比，也获得了最好的性能(MWP-BERTvs，Ro-NERHRT)，例如，提出的Ro-NERHRT比MWP-BERT的改进分别为2.5％在数据集Math23K上。而使用5倍交叉验证，在数据集Math23K上提升了2.3％和数据集。另外，在数据集MAWPS上使用5倍交叉验证相对于MWP-BERT方法，NERHRT提升了2.8％。此外，采用RE方法(Re-Deduction)的模型的结果本发明提出的NERHRT在Math23K上效果低2.1％，在5倍交叉验证下的Math23K数据集低1.9％，另外在5倍交叉验证的MAWPS数据集低1.2％。这些比较证实了数字信息和早期解码信息对MWP任务都非常重要。

表5显示了在两个更具挑战性的数据集，SVAMP和MathQA上的性能比较。Ro-NERHRT在两个数据集上都获得了最好的性能，超过了强基线Ro-G2T-Z和Re-Deduction，在SVAMP上分别提高了1.1％和1.0％，在MathQA上分别提高了2.6％和1.2％。发现SVAMP中的测试数据包含了大量的OOV数字，这些基线无法有效处理。对于MathQA，观察到存在许多拥有更多的运算符的复杂问题，而这些复杂问题的基线面临早期信息丢失。实验结果再次验证了该方法具有优越的推理能力。

表4

表5

表达式中拥有更多的运算符说明这是一个更复杂的问题。因此，有必要研究与两个代表性基线(NumS2T和G2T-Z)相比，NERHRT模型在不同数量的运算符下的性能。

如图3所示，验证了本发明的方法可以处理更复杂的问题。其中包含了4个图，图中横坐标是目标表达式的运算符个数，纵坐标是在答案准确度，理论上需要生成的目标表达式中的运算符越多，数学应用题越难。从图3可以看出_，当#运算符>2时，本发明的改进特别显著。如图3(a)和图3(b)，在具有4个运算符的Math23K和MAWPS的数学应用题子集上，性能分别比基线值的性能高出4.2％和16.6％。在图3(c)的挑战性数据集SVAMP上也可以观察到类似的结果，例如，当目标表达式包含的#数学运算符＝3时，本发明的方法在SVAMP上提高了9％。其中图3(d)对应的MathQA是最复杂的数据集，而NERHRT对于包含更长的运算符个数的数据子集有更好的推理能力。NERHRT比强基线模型G2T-Z和NumS2T的改进在目标表达式中包含7个数学运算符的MathQA子集上的改进分别为12％和8％。这些结果表明，NERHRT模型可以更好地解决复杂的问题。

实施例二

本实施例中提供基于层次性递归树解码模型的数学应用题求解系统，包括：

所述图构建模块，用于基于所述数学问题文本构建数值图和语义图；

所述层次性递归树解码模块，用于构建层次性递归树解码模型并通过数据集进行训练，将所述编码信息输入训练后的所述层次性递归树解码模型生成数学表达树，获取所述数学问题文本的数学表达式。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.基于层次性递归树解码模型的数学应用题求解方法，其特征在于，包括：

获取待求解的数学问题文本；

基于所述数学问题文本构建所述数值图包括：提取所述数学问题文本中数字，并将所述数字作为数字节点，构建有向无环图；将所述节点通过预设的关系类型进行连接，完成所述数值图的构建；

将所述数值图进行嵌入与更新，并获取所述数值图的表征信息包括：

基于每个所述数字节点的双方向的邻域信息，获取所述数字图的表征信息；

2.如权利要求1所述的基于层次性递归树解码模型的数学应用题求解方法，其特征在于，基于所述双方向的图注意网络，获取每个所述数字节点的双方向的邻域信息包括：

3.如权利要求1所述的基于层次性递归树解码模型的数学应用题求解方法，其特征在于，基于所述数学问题文本构建所述语义图包括：

4.如权利要求1所述的基于层次性递归树解码模型的数学应用题求解方法，其特征在于，将所述语义图进行嵌入与更新，获取所述语义图的表征信息包括：

其中，为线性变换参数，/>为语义关系τ下节点j的注意权重，/>为第l层网络迭代中特定关系类型的边τ下的邻居节点j的特征向量，/>为第l+1层网络迭代中任一节点i在特定关系类型的边τ下的表示；

5.如权利要求1所述的基于层次性递归树解码模型的数学应用题求解方法，其特征在于，基于自我注意机制，将所述数值图的表征信息和所述语义图的表征信息进行融合和编码包括：

6.如权利要求5所述的基于层次性递归树解码模型的数学应用题求解方法，其特征在于，将所述编码信息输入所述层次性递归树解码模型生成数学表达树，获取所述数学问题文本的数学表达式包括：

根据所述目标向量和所述上下文向量，获取预测节点；

7.如权利要求6所述的基于层次性递归树解码模型的数学应用题求解方法，其特征在于，获取中间目标向量和中间上下文向量的方法为：

8.基于层次性递归树解码模型的数学应用题求解系统，其特征在于，包括：

利用十进制计数法表示所述数字节点的值，获取用十进制计数法表示的数字；基于标准配分函数和神经网络，对十进制计数法表示的所述数字进行编码，获取数字嵌入的向量，其中所述数字嵌入的向量包括数字值嵌入向量和数位嵌入向量；构建整数嵌入生成器，利用所述整数嵌入生成器对所述数字值嵌入向量和所述数位嵌入向量进行整数嵌入，完成所述数字的嵌入，其中所述整数嵌入生成器由两个前馈网络和一个具有ReLU激活的两层全连接网络组成；构建双方向的图注意网络，基于所述双方向的图注意网络，获取每个所述数字节点的双方向的邻域信息，完成所述数值图的更新；基于每个所述数字节点的双方向的邻域信息，获取所述数字图的表征信息；