CN113095045B

CN113095045B - 一种基于逆向操作的中文数学应用题数据增强方法

Info

Publication number: CN113095045B
Application number: CN202110423459.2A
Authority: CN
Inventors: 冯钧; 陈浩东; 陆佳民
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2023-11-10
Anticipated expiration: 2041-04-20
Also published as: CN113095045A

Abstract

本发明涉及一种基于逆向操作的中文数学应用题数据增强方法，属于计算机技术领域，方法包括目标数字筛选模块、问题逆转模块和方程逆转模块。目标数字筛选模块基于预定义规则构建目标数字的合法性约束条件并过滤候选数字；问题逆转模块负责生成新的数学应用题题目文本，扩充原有的问题题集；方程逆转模块负责生成新数学问题所需的解方程表达式，并通过计算得到该方程的数字解。最后结合所生成的问题、方程和解，使之共同构成新的数学应用题样本，完成数据集的扩充；本发明实现针对中文数学应用题进行有效的数据增强，可对规模较小的应用题数据集进行有效扩充，该增强方法能够提高数学应用题自动求解系统的泛化能力和答题准确性。

Description

一种基于逆向操作的中文数学应用题数据增强方法

技术领域

本发明属于计算机技术领域，具体的涉及一种基于逆向操作的中文数学应用题数据增强方法。

背景技术

数学是人类文明的重要基础，占有举足轻重的地位，培养学生在数学方面的问题解决能力更是国内外教育界研究的重点。在初等数学教育教学过程中，数学应用题已成为教学的重点和难点：1)应用题一般都包含背景，如果设置的情景学生在生活中很少经历，学生缺乏对问题的最基本的感性认识，这样在解答的时候就比较茫然；2)应用题包含很多文字，语言形式多样，学生阅读和理解起来很费劲；3)应用题有复杂的数量关系，涉及常识知识，隐蔽性较强，学生很难分析出正确的题意。

总之，应用题的解答对学生素质的考验是全方位的，既考查学生的数学知识面，又检验学生的数学能力水平；既是学生智商的试金石，又是学生情商的演练场。数学应用题由于集描述性文字和内在的数字逻辑为一体，对语言的理解和推理具有重大挑战，因此建立计算机模型自动求解应用题一直是自然语言处理领域及问题自动求解领域的重要研究课题。

目前国内外有很多专家和学者都致力于这方面的研究。当前基于深度学习的研究正在逐渐成为应用题自动求解问题的主流方向，通过机器学习文本问题的语义特征规律，并通过不断地探索准确的文本表达方式和构建训练模型来提升自动解答的准确率。不仅脱离了对人工定义规则模板的依赖，而且在大规模训练数据集和较复杂的实际问题场景中都具有优于前人方法的准确性，且具有更大的泛化能力。

在深度学习的任务中，为了模型能够更好地学到样本的普适性特征，防止过拟合，通常会需要大量的标注数据，这要求大量的人工去做标注，也是深度学习研究上的一大难题，使得研究者不能很快将模型应用到一个新的领域。为了能够在较短时间内得到大量的标注数据，通常的做法是对训练集做数据增强，对现有的小数据集进行扩充。

传统的自然语言处理数据增强方法如回译、简单数据增强等方法在增强纯文本数据的任务中有较好的表现，但是在数学题目文本中应用这里方法可能造成信息缺失的后果。由于数学问题的精确性，问题文本的描述中缺失的任一关键词可能对整个问题的信息完整性造成破坏，导致该问题描述不再符合训练的要求。

海量的训练数据集一直是深度学习模型理解文本语义和序列特征的基础，为了使模型学习到更加完备的数学题信息，目前可用数据的大小还远远不够，如何有效扩大训练数据集的数量成为进一步提升模型性能的关键任务。因此，设计一种针对数学应用题文本的大规模高质量数据增强的方法是必然需求的。

发明内容

发明目的：为克服深度学习中训练数据集数量的不足，本发明提供了一种基于逆向操作的中文数学应用题数据增强方法。

技术方案：为实现上述发明目的，本发明提供如下技术方案：一种基于逆向操作的中文数学应用题数据增强方法，包括以下步骤：

(1)获取原始数据，对所述原始数据按照模板进行分段处理，以获得问题文本、方程表达式、答案数字三个模块的内容；

(2)构建目标数字筛选模块，首先基于预定义规则构建目标数字的合法性约束条件，并对候选数字进行过滤，得到满足逆转操作条件的目标数字；

(3)构建问题逆转模块负责生成新的数学应用题题目文本，生成过程包括定位疑问代词、替换目标数字、更替问题语句三个步骤；

(4)构建方程逆转模块负责生成新数学问题所需的解方程表达式，并通过计算得到该方程的数字解，实现扩充原有的方程表达式集；

(5)将步骤(3)生成新的数学应用题题目文本、步骤(4)生成的方程表达式集合并为数据样本，作为扩充数据加入原数据集，得到增强后的训练数据集。

进一步地，所述的步骤(2)中，具体包括如下步骤：分别扫描文本和方程中的字符，若出现符合过滤条件的数字，则将该数字关联到该应用题的无效数字集合中，否则将所有数字关联到该应用题的有效数字集合中；所述目标数字为所述原问题文本中条件句包含的确定数字，所述合法性约束条件指对数学问题中数字的过滤规则，满足规则的数字将不作为逆转操作的目标数字。

进一步地，所述的步骤(2)中，基于预定义规则构建目标数字的合法性约束条件，并对候选数字进行过滤，包括以下步骤：

(21)数学问题中或方程表达式中出现两次及以上的数字重复出现了两次以上的数字破坏了问题文本与方程表达式中相应数字的一一映射关系，因此无法对其进行逆转，需要将其进行无效性标记，标记的数字将不作为逆转操作的目标数字；

(22)对于原方程中包含指数运算的数字进行逆运算将会引入对数运算法则，该法则超越了初等数学运算的范畴，因此对包含指数的数字进行无效性标记；

(23)应用题中一部分常识性知识通常没有在文本中显式说明，这类知识中隐含的数字在问题与方程中通常没有对应关系，因此对于问题和方程中的常数项进行无效性标记。

进一步地，所述的步骤(3)中，包括以下步骤：

(31)定位问题文本中的疑问代词；具体包括通过分析题目问句特征，构建常用数学应用题中疑问代词的集合；使用该集合对题目文本进行遍历匹配，确定疑问代词所处的位置，所述疑问代词为数学应用题中常见词语包括“多少”、“几”；

(32)替换目标字符；具体包括使用原问题的答案数字替换(31)中定位的疑问代词；并使用新的疑问代词“多少”替换条件陈述句中候选的目标数字。

进一步地，所述的步骤(4)中，包括以下步骤：

(41)根据方程表达式构建二叉语法树；

(42)通过递归算法操作构建标准的方程表达式。

进一步地，所述的步骤(41)具体规则是首先构造待转换的表达式：将问题的答案数字单独置于等号左侧，使用未知变量符号替换逆转目标数字；接着将待转化表达式中等号右边的部分按照运算符为根节点，字符和数字为子树的规则构造一棵二叉树。

进一步地，所述的步骤(42)具体包括实现一种语法二叉树的递归算法，其中递归算法为：将等号左边含有未知变量的子树移到等号右侧，将原右侧的两棵子树作为等号左边的两个新子树，并基于预定义规则生成新的运算符作为新的根节点；由新运算符构成的二叉树中已经不包含未知变量，因此可以将其看作一个确定的数字，而等号右边的未知变量子树可以继续拆分为含有一个未知变量子树的新二叉树，因此对其递归逆转直到右边子树仅有一个未知变量字符,至此完成方程表达式的逆转过程。

进一步地，所述的预定义的规则描述为：若未知量为除数，则其表达为另两个数的商；若未知量为被除数，则其表达为另两个数的乘积；若未知量为加数，则其表达为另两个数的差；若未知量为减数，则其表达为另两个数的差；若未知量为被减数，则其表达为另两个数的和；若未知量为乘数，则其表达为另两个数的商。

有益效果：与现有技术相比，本发明的一种基于逆向操作的中文数学应用题数据增强方法，适用于初等单步算术数学题，对数学应用题数据集的扩充效果要优于其他文本数据增强方法。能够明显增强基于数据驱动的数学应用题自动求解系统的答题准确率，具有实际的研究价值和经济价值。

附图说明

图1是所述数据增强的总流程图；

图2是所述逆转方程表达式中的递归过程图；

图3是所述逆转方程表达式中的四则运算匹配规则图。

具体实施方式

下面结合附图和具体实施方式，进一步阐述本发明。

如图1所示，一种基于逆向操作的中文数学应用题数据增强方法，包括以下步骤：

(1)获取原始数据，对原始数据按照模板进行分段处理，以获得问题文本、方程表达式、答案数字三个模块的内容；

步骤(2)中，具体包括如下步骤：分别扫描文本和方程中的字符，若出现符合过滤条件的数字，则将该数字关联到该应用题的无效数字集合中，否则将所有数字关联到该应用题的有效数字集合中；目标数字为原问题文本中条件句包含的确定数字，合法性约束条件指对数学问题中数字的过滤规则，满足规则的数字将不作为逆转操作的目标数字。

步骤(2)中，基于预定义规则构建目标数字的合法性约束条件，并对候选数字进行过滤，包括以下步骤：

步骤(3)中，包括以下步骤：

(31)定位问题文本中的疑问代词；具体包括通过分析题目问句特征，构建常用数学应用题中疑问代词的集合；使用该集合对题目文本进行遍历匹配，确定疑问代词所处的位置，疑问代词为数学应用题中常见词语包括“多少”、“几”；

步骤(4)中，包括以下步骤：

(41)根据方程表达式构建二叉语法树；

(42)通过递归算法操作构建标准的方程表达式。

步骤(41)具体规则是首先构造待转换的表达式：将问题的答案数字单独置于等号左侧，使用未知变量符号替换逆转目标数字；接着将待转化表达式中等号右边的部分按照运算符为根节点，字符和数字为子树的规则构造一棵二叉树。

步骤(42)具体包括实现一种语法二叉树的递归算法，其中递归算法为：将等号左边含有未知变量的子树移到等号右侧，将原右侧的两棵子树作为等号左边的两个新子树，并基于预定义规则生成新的运算符作为新的根节点；由新运算符构成的二叉树中已经不包含未知变量，因此可以将其看作一个确定的数字，而等号右边的未知变量子树可以继续拆分为含有一个未知变量子树的新二叉树，因此对其递归逆转直到右边子树仅有一个未知变量字符,至此完成方程表达式的逆转过程。

预定义的规则描述为：若未知量为除数，则其表达为另两个数的商；若未知量为被除数，则其表达为另两个数的乘积；若未知量为加数，则其表达为另两个数的差；若未知量为减数，则其表达为另两个数的差；若未知量为被减数，则其表达为另两个数的和；若未知量为乘数，则其表达为另两个数的商。

递归算法如图2所示。四则运算的匹配规则如图3所示。递归结束后将未知变量移到等号左侧，完成方程表达式的逆转过程。

实施例

本发明具体实现步骤如下：

S1：获取原始数据，对所述原始数据按照模板进行分段处理，以获得问题文本、方程表达式、答案数字三个模块的内容。

S2：构建目标数字筛选模块，首先基于预定义规则构建目标数字的合法性约束条件，并对候选数字进行过滤，得到满足逆转操作条件的目标数字；所述目标数字为所述原问题文本中条件陈述句中包含的确定数字，该数字也将作为逆转操作生成新问题中的未知变量；所述合法性约束条件指对数学问题中数字的过滤规则，满足规则的数字将不作为逆转操作的目标数字。

S3：问题逆转模块负责生成新的数学应用题题目文本，生成过程包括定位疑问代词、替换目标数字、更替问题语句四个步骤。最终实现扩充原有的问题题集；所述疑问代词为数学问题文本中问句中的疑问词。

S4：方程逆转模块负责生成新数学问题所需的解方程表达式，生成过程包括构建二叉语法树、递归转换两个步骤。并通过计算得到该方程的数字解,实现扩充原有的方程表达式集。

S5：将生成的数据样本所谓扩充数据加入原数据集，得到增强后的训练数据集。

其中，在S1中，分段处理后的问题模板实例为：

{"original_text":"A城市与B城市之间的距离为660公里，从A城市出发的汽车时速32公里，从B处出发的汽车时速34公里。两辆汽车同时从两地出发向对方行驶。多少小时后，两车会相遇？",

"ans":"10",

"equation":"x＝660/(32+34)"}

其中，在S2中，构建目标数字合法性约束条件具体包括以下步骤：

S201：对数学问题中或方程表达式中出现两次及以上的数字进行无效性标记，具有无效标记的数字将不作为逆转操作的目标数字。所述数学问题中出现两次的数字如“甲有4堆苹果每堆2个，乙有2个苹果，乙给了甲1个苹果，现在甲有多少个苹果？”，该问题文本中数字2将不能作为逆转操作的目标数字，因为无法确定2转换后的未知变量是属于甲或者乙。所述方程表达式中出现两次以上的重复数字是指方程如“x＝2*2”，逆转中该方程中的2作为未知变量后，表达式将无法由一个已知数字4和线性关系逻辑生成。

S202：对于方程表达式中包含幂次运算的数字进行无效性标记。所示幂次操作表达式如“x＝4^2”转中数字4作为未知变量时，运算法则将引入四则运算以外的对数运算，不符合本发明所述的初等数学应用题范围。

S203：对于数学问题和方程表达式中的常数项进行无效性标记，所述常数项为数学问题中常用来替代数字的特殊字符，如圆周率pi。

其中，在S3中，实现对新的数学应用题题目文本的生成技术具体包括以下步骤：

S301：定位问题文本中的疑问代词。具体包括通过分析题目问句特征，构建常用数学应用题中疑问代词的集合；使用该集合对题目文本进行遍历匹配，确定疑问代词所处的位置。所述疑问代词为数学应用题中常见词语包括“多少”、“几”。

S302：替换目标字符。具体包括使用原问题的答案数字替换(21)中定位的疑问代词；并使用新的疑问代词替换条件陈述句中候选的目标数字。所述替换目标字符应用于S5示例中后，生成的问题文本为：“A城市与B城市之间的距离为660公里，从A城市出发的汽车时速多少公里，从B处出发的汽车时速34公里。两辆汽车同时从两地出发向对方行驶。10小时后，两车会相遇”。

其中，在S4中根据方程构建二叉语法树以及对其进行递归转换，具体包括以下步骤：

S401：根据方程表达式构建二叉语法树。具体规则是首先构造待转换的表达式：将问题的答案数字单独置于等号左侧，使用未知变量x替换逆转目标数字。如原方程表达式“x＝660/(32+34)”改写为“10＝660/(x+34)”接着将数字和字符都作为结点，以等号为界限构建两棵二叉语法树，该语法树的定义是以运算符为根节点，运算符左右的数字/表达式作为其子树。上述方程的二叉语法树结构为：等号作为10为单独节点，等号右边根节点为“/”,其左子树为660，右子树为“+”，其中运算符号“+”的左右子树分别为x和34。

S402：通过递归算法操作构建标准的方程表达式。具体包括实现一种二叉树的递归算法，其中递归过程操作为：以等号右侧的根节点运算符号op1为匹配条件，通过预定于的四则运算规则将包含未知变量的左/右子树v1单独移到等号右侧，等号左侧形成新的运算符号op1’以及不含未知变量的两棵子树f1、n1。递归的结束条件为：等号右侧有且仅有一个未知变量x’。递归结束后将未知变量移到等号左侧，完成方程表达式的逆转过程。上述二叉语法树的递归操作过程为“10＝660/(x+34)”一次递归变化为“660/10＝(x+34)”，其中“660/10”为新运算符op1’以及对应子树f1、n1；“(x+34)”为等号右边包含目标变量的子树v1；第二次递归时将“+”看作根节点运算符op2，重复上述过程得到方程“660/10-34＝x”,最后将未知变量移到左侧，即生成目标问题对应的方程表达式“x＝660/10-34”。

类似的，依次完成对原始数学应用题的数据集扩充：以下将再补充部分生成的样本实例：

{"original_text":"某小学食堂运来500千克大米，吃了325千克，剩下的可以吃7天，平均每天吃多少千克？",

"ans":"25",

"equation":"x＝(500-325)/7"}

{"original_text":"某小学食堂运来多少千克大米，吃了325千克，剩下的可以吃7天，平均每天吃25千克",

"ans":"500",

"equation":"x＝325+25*7"}

{"original_text":"小李从一楼到四楼用了45秒，照这样计算，小李从三楼走到十二楼需要几秒？",

"ans":"135",

"equation":"x＝45/(4-1)*(12-3)"}

{"original_text":"小李从一楼到四楼用了多少秒，照这样计算，小李从三楼走到十二楼需要135秒",

"ans":"45",

"equation":"x＝135/(12-3)*(4-1)"}

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于逆向操作的中文数学应用题数据增强方法，其特征在于，包括以下步骤：

（1）获取原始数据，对原始数据按照模板进行分段处理，以获得问题文本、方程表达式、答案数字三个模块的内容；

（2）构建目标数字筛选模块，首先基于预定义规则构建目标数字的合法性约束条件，并对候选数字进行过滤，得到满足逆转操作条件的目标数字；

（3）构建问题逆转模块，负责生成新的数学应用题题目文本，生成过程包括定位疑问代词、替换目标数字、更替问题语句三个步骤；

其中，具体包括以下步骤：

（31）定位问题文本中的疑问代词；具体包括通过分析题目问句特征，构建常用数学应用题中疑问代词的集合；使用该集合对题目文本进行遍历匹配，确定疑问代词所处的位置；

（32）替换目标字符；具体包括使用原问题的答案数字替换（31）中定位的疑问代词；并使用新的疑问代词替换条件陈述句中候选的目标数字；

（4）构建方程逆转模块，负责生成新数学问题所需的解方程表达式，并通过计算得到该方程的数字解，实现扩充原有的方程表达式集；

其中，具体包括以下步骤：

（41）根据方程表达式构建二叉语法树；所述的步骤（41）具体规则是首先构造待转换的表达式：将问题的答案数字单独置于等号左侧，使用未知变量符号替换逆转目标数字；接着将待转化表达式中等号右边的部分按照运算符为根节点，字符和数字为子树的规则构造一棵二叉树；

（42）通过递归算法操作构建标准的方程表达式；所述的步骤（42）具体包括实现一种语法二叉树的递归算法，其中递归算法为：将等号左边含有未知变量的子树移到等号右侧，将原右侧的两棵子树作为等号左边的两个新子树，并基于预定义规则生成新的运算符作为新的根节点；由新运算符构成的二叉树中已经不包含未知变量，因此可以将其看作一个确定的数字，而等号右边的未知变量子树可以继续拆分为含有一个未知变量子树的新二叉树，因此对其递归逆转直到右边子树仅有一个未知变量字符，完成方程表达式的逆转过程；

（5）将步骤（3）生成新的数学应用题题目文本、步骤（4）生成的方程表达式集合并为数据样本，作为扩充数据加入原数据集，得到增强后的训练数据集。

2.根据权利要求1所述的一种基于逆向操作的中文数学应用题数据增强方法，其特征在于，所述的步骤（2）中，具体包括如下步骤：分别扫描文本和方程中的字符，若出现符合过滤条件的数字，则将该数字关联到该应用题的无效数字集合中，否则将所有数字关联到该应用题的有效数字集合中；所述目标数字为所述问题文本中条件句包含的确定数字，所述合法性约束条件指对数学问题中数字的过滤规则，满足规则的数字将不作为逆转操作的目标数字。

3.根据权利要求2所述的一种基于逆向操作的中文数学应用题数据增强方法，其特征在于，所述的步骤（2）中，基于预定义规则构建目标数字的合法性约束条件，并对候选数字进行过滤，包括以下步骤：

（21）数学问题中或方程表达式中出现两次及以上的数字重复出现，需要将其进行无效性标记，标记的数字将不作为逆转操作的目标数字；

（22）对于原方程中包含指数运算的数字进行逆运算将会引入对数运算法则，对包含指数的数字进行无效性标记；

（23）对于问题和方程中的常数项进行无效性标记。

4.根据权利要求1所述的一种基于逆向操作的中文数学应用题数据增强方法，其特征在于，所述的预定义规则描述为：若未知量为除数，则其表达为另两个数的商；若未知量为被除数，则其表达为另两个数的乘积；若未知量为加数，则其表达为另两个数的差；若未知量为减数，则其表达为另两个数的差；若未知量为被减数，则其表达为另两个数的和；若未知量为乘数，则其表达为另两个数的商。