CN112818099A

CN112818099A - 基于多粒度分词的应用题解答处理方法、系统和存储介质

Info

Publication number: CN112818099A
Application number: CN202110126514.1A
Authority: CN
Inventors: 肖菁; 黄林嘉; 曹阳; 陈寅
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-18
Anticipated expiration: 2041-01-29
Also published as: CN112818099B

Abstract

本发明公开了一种基于多粒度分词的应用题解答处理方法、系统和存储介质，方法包括：获取待求解应用题文本；对待求解应用题文本进行多粒度分词处理，得到文本实体；构建文本实体的数字与属性图、字符与词语图、数量实体的数值比较图以及日期实体的数值比较图；将文本实体转换为第一预设维度的第一张量；将第一张量、数字与属性图、字符与词语图、数量实体的数值比较图以及日期实体的数值比较图输入所述图转换网络，输出第二张量；选定第一个位置的第二张量作为第三张量；根据第二张量和第三张量，采用树形解码器求解所述应用题文本的输出结果。本发明能提高应用题求解结果的准确性。本发明可广泛应用于应用题自动求解领域。

Description

基于多粒度分词的应用题解答处理方法、系统和存储介质

技术领域

本发明涉及应用题自动求解领域，尤其是一种基于多粒度分词的应用题解答处理方法、系统和存储介质。

背景技术

随着线上教育的发展，越来越多的具有自动批改功能的辅导软件也应运而生。数学应用题的求解，涉及根据文本描述自动回答数学问题。早期的工作是把数学应用题MWP问题当做统计机器学习方法和语义分析方法来解决。而随着深度学习在人脸识别、目标检测、机器翻译等领域的应用，基于深度学习的数学应用题的自动解答器也应运而生。这些深度学习方法能够自动学习到具有强泛化能力的特征，并可以成功解决一些在训练集中没有见过的题目。例如：Deep Neural Solver(DNS)是第一个把深度学习运用到MWP的算法，DNS是改进了用于机器翻译的sequence to sequence(seq2seq)模型，把它用于学习算术表达式。Goal-driven Tree-structured Solver(GTS)是第一个把seq2seq的解码器同树形结构进行表示，因为树形解码器可以模拟人类解答数学应用题的思路，把一个大问题拆成多个小问题，一步步解决，并且树形解码器可以学习到算术表达式中数字与操作符之间的约束关系。Graph2Tree是第一个把图卷积神经网络运用在MWP任务的算法，它和GTS不同在于，GTS是针对解码器进行改进，而Graph2Tree是增强seq2seq的解码器的特征表示能力。Graph2Tree提出了数量细胞图(Quantity Cell Graph)和数量比较图(QuantityComparison Graph)来有效学习到MWP中数字与数字之间的关系和顺序。

但是，目前基于中文的数学应用题的自动解答器，存在特征表示能力差、无法充分利用好数学应用题文本中的词性和实体信息、无法充分挖掘出图神经网络更强的表达和约束能力等特点，从而导致无法准确求解出应用题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于多粒度分词的应用题解答处理方法、系统和存储介质，能够提高应用题求解结果的准确性。

根据本发明的第一方面实施例的一种基于多粒度分词的应用题解答处理方法，包括以下步骤：

获取待求解应用题文本；

对所述待求解应用题文本进行多粒度分词处理，得到文本实体；

构建所述文本实体的数字与属性图、字符与词语图、数量实体的数值比较图以及日期实体的数值比较图；

将所述文本实体转换为第一预设维度的第一张量；

将所述第一张量、所述数字与属性图、所述字符与词语图、所述数量实体的数值比较图以及所述日期实体的数值比较图输入图转换网络，输出第二张量；

选定第一个位置的第二张量作为第三张量；

根据所述第二张量和所述第三张量，采用树形解码器求解所述应用题文本的输出结果。

根据本发明实施例的一种基于多粒度分词的应用题解答处理方法，至少具有如下有益效果：本实施例通过对待求解应用题文本进行多粒度分词处理，以提高词汇表的规模，从而增强泛化能力和抗干扰能力，然后通过构建数字与属性图、字符与词语图、数量实体的数值比较图以及日期实体的数值比较图这四种图结构，并通过文本实体转换的第一张量结合数字与属性图、字符与词语图、数量实体的数值比较图以及日期实体的数值比较图采用图转换网络输出第二张量后，采用树形解码器求解应用题文本的输出结果，从而充分利用文本本身的词性和实体信息，以及图神经网络的表达和约束能力，以提高应用题求解结果的准确性。

根据本发明的一些实施例，所述对所述待求解应用题文本进行多粒度分词处理，得到文本实体，包括：

采用粗粒度分词方式对所述待求解应用题文本进行分词，得到第一词语集；

采用细粗粒度分词方式对所述第一词语集内的词语进行处理，得到第一字符集；

采用随机分割方式对所述第一词语集内的词语进行处理，得到第二字符集；

将所述第一字符集和所述第二字符集组成文本实体。

根据本发明的一些实施例，所述构建所述文本实体的数字与属性图，包括：

采用命名实体识别方式获取所述文本实体中的包含数字的实体；

采用词性标注方式获取所述包含数字的实体所在句子中满足第一预设要求的词语；

构建所述包含数字的实体与所述满足第一预设要求的词语的数字与属性图。

根据本发明的一些实施例，所述构建所述文本实体的数量实体的数值比较图，包括：

获取所述文本实体中符合满足第二预设要求的数量实体；

计算所述数量实体的边的权重；

根据数量实体的边的权重构建数量实体的数值比较图。

根据本发明的一些实施例，所述构建所述文本实体的日期实体的数值比较图，包括：

获取所述文本实体的日期数量实体；

计算所述日期数量实体的边的权重；

根据日期数量实体的边的权重构建日期实体的数值比较图。

根据本发明的一些实施例，所述将所述文本实体转换为第一预设维度的第一张量，包括：

将所述文本实体转换为满足第二预设维度的第四张量；

将所述第四张量输入全连接层，得到满足第三预设维度的第五张量；

采用编码器对所述第五张量进行处理，得到满足第四预设维度的两个方向的第六张量；

将两个方向的第六张量进行拼接，得到满足第一预设维度的第一张量。

根据本发明的一些实施例，在执行所述采用树形解码器求解所述应用题文本的输出结果这一步骤时，还包括以下步骤：

采用损失函数对所述树形解码器进行训练，并通过参数求解函数输出所述应用题文本的表达式。

根据本发明的第二方面实施例的一种基于多粒度分词的应用题解答处理系统，包括：

获取模块，用于获取待求解应用题文本；

多粒度分词处理模块，用于对所述待求解应用题文本进行多粒度分词处理，得到文本实体；

构建模块，用于构建所述文本实体的数字与属性图、字符与词语图、数量实体的数值比较图以及日期实体的数值比较图；

转换模块，用于将所述文本实体转换为第一预设维度的第一张量；

输入模块，用于将所述第一张量、所述数字与属性图、所述字符与词语图、所述数量实体的数值比较图以及所述日期实体的数值比较图输入图转换网络，输出第二张量；

选择模块，用于选定第一个位置的第二张量作为第三张量；

输出模块，用于根据所述第二张量和所述第三张量，采用树形解码器求解所述应用题文本的输出结果。

根据本发明的第三方面实施例的一种基于多粒度分词的应用题解答处理系统，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行第一方面实施例的基于多粒度分词的应用题解答处理方法。

根据本发明的第四方面实施例的一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行第一方面实施例的基于多粒度分词的应用题解答处理方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实施例对本发明做进一步的说明，其中：

图1为本发明实施例的一种基于多粒度分词的应用题解答处理方法的流程图；

图2为一种实施例的网络模型的模块框图；

图3为一种实施例的数字与属性图；

图4为一种实施例的数量实体的数值比较图；

图5为一种实施例的日期实体的数值比较图；

图6为一种实施例的字符与词语图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

参照图1，本发明实施例提供了一种基于多粒度分词的应用题解答处理方法，本实施例可通过图2所示网络模型进行处理。其中，网络模型包括多粒度词语分割和嵌入向量层、图的构建层、图编码器和树形解码器。

在处理过程中，本实施例包括以下步骤：

S11、获取待求解应用题文本。该待求解应用题文本可以为一个数学应用题的题目内容。在获取到该待求解应用题文本后，将该待求解应用题文本输入图2所述网络模型，以执行后续步骤。

S12、对待求解应用题文本进行多粒度分词处理，得到文本实体。

具体地，由于目前的方法在对中文的数学应用题文本进行预处理时，都是对待求解应用题文本进行分词处理，如表1所示，即对待求解应用题文本分割成一个又一个词语，这样输入嵌入层，把每个词语变成一个张量。而本本实施例是提出了新的分词方式，首先，对每个文本，先按照中文分词的方式进行分割处理，和表1的方式一样，接着对得到的每个词语，按照不间断的排列方式得到每个词语的不断组合方式，如表2所示。可以发现通过本实施例的方式，一个长度为L的词语，可以得到(L+1)*L/2个新的字符串，从而大大增加了词汇表。其中，可以发现新组合的字符串中包含着细粒度级别的字符，即只有一个字符的字符串，同时也包含有粗粒度级别的字符串，从而兼顾不同粒度的词语表示。

表1分词预处理

表2多粒度分词

粗粒度	数码宝贝
		多粒度	数、码、宝、贝、数码、码宝、宝贝、数码宝、码宝贝、数码宝贝

由上述可知，通过本实施例的多粒度的分词方式，可以发现相比粗粒度的分词方法，图2所示模型的表示更具有泛化能力，比如在训练的数据集中，只出现过小刚，亮亮这两个人名，但是在测试集中出现了小亮，由于在训练集中没有出现过这个人名，因此这个词语会使用UNK这个字符串来表示，即未命名字符，这会损失模型对句子的表示能力，而使用了多粒度分词算法后，就可以通过小和亮这两个字符，组合成小亮这个新的字符串，从而不会损失模型的效果。其次通过多粒度的分词方法，会引入一些没有意义的词语，比如表2中的码宝、码宝贝、数码宝这三个词语都是没有任何现实意义，这些样本的引入可以会模型训练带来干扰样本，避免模型过拟合，增强模型的鲁棒性。

在一些实施例中，上述步骤S12可总结为如下步骤：

采用粗粒度分词方式对待求解应用题文本进行分词，把待求解应用题文本分割成一个一个的词语，组成第一词语集；

采用细粗粒度分词方式对第一词语集内的词语进行处理，得到词语对应的字符，组成第一字符集；

采用随机分割方式对第一词语集内的词语进行处理，得到第二字符集；

将第一字符集和第二字符集组成文本实体。

将步骤S12的处理方式应用于实际处理过程，可得表3的处理结果：

表3多粒度分词预处理

在本实施例中，假设与处理后的文本长度为L，则先对文本做one-hot向量形式，得到维度为(L，N)的张量E，N为词汇表的大小，然后把张量E通过全连接层得到维度为(L，C)的张量E_n，其中C是嵌入层的输出维度。

在对待求解应用题文本完成处理后，执行后续步骤：

S13、构建文本实体的数字与属性图、字符与词语图、数量实体的数值比较图以及日期实体的数值比较图。

具体地，在构建图结构时，首先需要找到数学应用题文本中的实体。但是目前开源的几个知名的中文命名实体识别库在查找数学应用题文本的实体时，效果都不是很精确，如表4所示，可以发现文本中有一些命名实体是找不到的，比如甲地，乙地，自行车。更有甚者，有些开源库一个实体都没找到，因此用现有的命名实体库去查找所有数字实体是不行的，因此，本实施例通过先找到文本中包含数字的命名实体，然后根据这些实体所在的句子，结合词性标注，找到这些实体周围的人名、宾语等词性，通过这种方法近似找到需要的所有实体，如表5所示。

表4命名实体识别结果

表5结合命名实体识别和词性标注的结果

在一些实施例中，构建文本实体的数字与属性图，包括以下步骤：

采用命名实体识别方式获取所述文本实体中的包含数字的实体；接着采用词性标注方式获取包含数字的实体所在句子中满足第一预设要求的词语，第一预设要求的词语例如人名、专有词语、动词、动名词、宾语等词性的词语；然后构建包含数字的实体与满足第一预设要求的词语的数字与属性图，可通过点-边-点构造的数字与属性图。

其中，数字-属性图通过把不同数字连接起来的方式，间接让与数字相关的属性词语之间建立联系。通过数字-属性图，使得图2所示模型在训练时，算术表达式中数字与数字之间的操作符就可以通过图神经网络学习到对应相关联的词语，增加有关联的边的权重，降低弱关联的边的权重。

在一些实施例中，构建文本实体的数量实体的数值比较图，包括以下步骤：

获取文本实体中符合满足第二预设要求的数量实体，其中，第二预设要求的数量实体是指指不包括日期数字的其他数字实体。接着采用公式1计算数量实体的边的权重；然后根据数量实体的边的权重构建数量实体的数值比较图。

a_ij为第i个数字和第j个数字的边的权重。

在一些实施例中，构建文本实体的日期实体的数值比较图，包括以下步骤：

获取文本实体的日期数量实体；接着通过公式2计算日期数量实体的边的权重；然后根据日期数量实体的边的权重构建日期实体的数值比较图。

a_ij为第i个数字和第j个数字的边的权重。

在一些实施例中，在构建字符与词语图时，由于在进行多粒度分词时，会把一些原本固定的词语分割成多个词语，比如把数码宝贝分割成数码和宝贝，但是，希望模型在训练时依旧保留这个词语原本的信息，因此通过字符与词语图来显性建立这两个词语之间的关系，表示这两个词是由一个词分割而来的。

在上述实施例的应用过程中，假设待求解应用题文本为：一个工程队挖土，第一天挖了316方，从第二天开始每天都挖230方，连续挖了6天，这个工程队一周共挖土多少方？

则对待求解应用题文本进行多粒度分词后，得到文本实体为：一个工程队挖土，第一天挖了316方，从第二天开始每天都挖230方，连续挖了6天，这个工程队一周共挖土多少方？

对该文本实体构建如图3所示的数字与属性图；图4所示的数量实体的数值比较图；图5所示的日期实体的数值比较图；图6所示的字符与词语图，接着执行下面步骤：

S14、将文本实体转换为第一预设维度的第一张量。

在一些实施例中，所述步骤S14可通过以下方式实现：

将文本实体转换为满足第二预设维度的第四张量E；第二预设维度可以为(32，L)，32是文本实体中的分词个数，L是模型词汇表现规模大小，在本步骤中，是将步骤S12得到的文本实体转换成one-hot形式。

将第四张量E输入全连接层，得到满足第三预设维度的第五张量E_n；第三预设维度可以为(32,512)，512是嵌入层的维度，即全连接层的维度。

采用编码器对第五张量E_n进行处理，由于编码器是双向的LSTM，因此，可得到满足第四预设维度的两个方向的第六张量E_p；第四预设维度可以为(32,512)，LSTM的输出维度为512。

采用公式3将两个方向的第六张量E_p进行拼接，得到满足第一预设维度的第一张量

第一预设维度可以为(32,512)：

S15、将第一张量、数字与属性图、字符与词语图、数量实体的数值比较图以及日期实体的数值比较图输入图转换网络，输出第二张量，其中，图转换网络为GraphTransformer。第二张量为

S16、选定第一个位置的第二张量作为第三张量。第三张量为E_f。

S17、根据第二张量和第三张量，采用树形解码器求解所述应用题文本的输出结果。

在一些实施例中，还通过公式4所示的损失函数进行训练，并通过参数求解函数argmax输出所述应用题文本的表达式316+230×(6-1)：

loss_f＝∑_(T,P)∈D-logp(T|P) 公式4

其中，

P为待求解应用题，T为数学表达式输出。

将本实施例的方法与目前的求解方式进行对比，得到表5的结果：

表5多种求解方式对比

从表5可知，本实施例的求解效果最好，其中，可以发现基于多粒度分词对GTS的提升非常大，提升了2.16个点，而添加了四种图结构之后，又提升了1.27个点，取得了目前最好的效果77.73，而且本实施例的模型和Graph2Tree参数量一样，但是相比Graph2Tree，本实施例的算法也提升了2.23个点，所以本实施例的算法确实显著提升了MWP的准确率。表6可以发现GTS犯的错误都是操作符前后数字位置错了，而本实施例的算法的引入的图结构可以改善这个问题。

表6样本实例对照

综上可知，本实施例能提高词汇表的规模，从而增强泛化能力和抗干扰能力，并充分利用文本本身的词性和实体信息，以及图神经网络的表达和约束能力，以提高应用题求解结果的准确性。

本发明实施例提供了一种基于多粒度分词的应用题解答处理系统，包括：

获取模块，用于获取待求解应用题文本；

选择模块，用于选定第一个位置的第二张量作为第三张量；

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

至少一个存储器，用于存储程序；

本发明实施例提供了一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行图1所示的基于多粒度分词的应用题解答处理方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.一种基于多粒度分词的应用题解答处理方法，其特征在于，包括以下步骤：

获取待求解应用题文本；

将所述文本实体转换为第一预设维度的第一张量；

选定第一个位置的第二张量作为第三张量；

2.根据权利要求1所述的一种基于多粒度分词的应用题解答处理方法，其特征在于，所述对所述待求解应用题文本进行多粒度分词处理，得到文本实体，包括：

将所述第一字符集和所述第二字符集组成文本实体。

3.根据权利要求1所述的一种基于多粒度分词的应用题解答处理方法，其特征在于，所述构建所述文本实体的数字与属性图，包括：

4.根据权利要求3所述的一种基于多粒度分词的应用题解答处理方法，其特征在于，所述构建所述文本实体的数量实体的数值比较图，包括：

获取所述文本实体中符合满足第二预设要求的数量实体；

计算所述数量实体的边的权重；

根据数量实体的边的权重构建数量实体的数值比较图。

5.根据权利要求4所述的一种基于多粒度分词的应用题解答处理方法，其特征在于，所述构建所述文本实体的日期实体的数值比较图，包括：

获取所述文本实体的日期数量实体；

计算所述日期数量实体的边的权重；

根据日期数量实体的边的权重构建日期实体的数值比较图。

6.根据权利要求1所述的一种基于多粒度分词的应用题解答处理方法，其特征在于，所述将所述文本实体转换为第一预设维度的第一张量，包括：

将所述文本实体转换为满足第二预设维度的第四张量；

7.根据权利要求1所述的一种基于多粒度分词的应用题解答处理方法，其特征在于，在执行所述采用树形解码器求解所述应用题文本的输出结果这一步骤时，还包括以下步骤：

8.一种基于多粒度分词的应用题解答处理系统，其特征在于，包括：

获取模块，用于获取待求解应用题文本；

选择模块，用于选定第一个位置的第二张量作为第三张量；

9.一种基于多粒度分词的应用题解答处理系统，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行如权利要求1-7任一项所述的基于多粒度分词的应用题解答处理方法。

10.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述的基于多粒度分词的应用题解答处理方法。