CN112836474B - 基于减法门的数学应用题解答处理方法、系统和存储介质 - Google Patents

基于减法门的数学应用题解答处理方法、系统和存储介质 Download PDF

Info

Publication number
CN112836474B
CN112836474B CN202110126530.0A CN202110126530A CN112836474B CN 112836474 B CN112836474 B CN 112836474B CN 202110126530 A CN202110126530 A CN 202110126530A CN 112836474 B CN112836474 B CN 112836474B
Authority
CN
China
Prior art keywords
vector
time step
hidden
application
gate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110126530.0A
Other languages
English (en)
Other versions
CN112836474A (zh
Inventor
肖菁
何岱俊
曹阳
陈寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202110126530.0A priority Critical patent/CN112836474B/zh
Publication of CN112836474A publication Critical patent/CN112836474A/zh
Application granted granted Critical
Publication of CN112836474B publication Critical patent/CN112836474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于减法门的数学应用题解答处理方法、系统和存储介质,方法包括以下步骤:获取待求解应用题目文本;对所述待求解应用题目文本进行编码,得到编码序列;采用减法门机制对所述编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量,所述若干时间步的第一隐态向量为采用问题反馈机制反馈当前解码过程对应的隐态向量;当完成所述编码序列的解码过程后,生成所述待求解应用题目文本的数学表达式。本实施例能在一定程度上解决长距离中序列信息丢失的问题,并使得在后期的生成过程中也能较为容易地获得初期信息,提高表达式生成结果的准确性。本实施例可广泛应用于应用题自动求解领域。

Description

基于减法门的数学应用题解答处理方法、系统和存储介质
技术领域
本发明涉及应用题自动求解领域,尤其是一种基于减法门的数学应用题解答处理方法、系统和存储介质。
背景技术
线上教育相较于传统教育具备成本低廉、资源最大化、个性化的学习方式等优势。尽管现在机器学习技术在通识教育中的文科科目的应用如作文批改、阅读题解答溯源等取得不错的进展,但在理科方面却没能够取得突破,数学应用题的自动解答就是其中的一个难题。其中,数学应用题的自动解答,主要任务是设计一种通用的算法来解决应用题题目中的自然语言序列所蕴涵的数学问题。
而随着深度学习技术发展,第一个使用深度学习应用在数学解答上的是DNS(DeepNeural Solver),之前使用的机器学习方法都需要手工特征来进行问题的求解。DNS改进了机器翻译中的经典Seq2Seq技术来解答数学应用题。为了解决数学表达式输出的泛化性问题,数字标示的混合模型(Hybird model with significant number identification)和使用等式正则化的融合模型(Ensemble model with equation normalization)使用了数字标识符替代掉原文中的数字,并固定住结果表达式中各个数字的顺序,更有利于模型的训练并提高模型的泛化性能。随后,受到数学表达式本身可转换为树的启发,TSD(Tree-structured Decoding for Solving Math Word Problem)和GTS(Goal-driven tree-structured MWP solver)在编码器-解码器架构上提出了树形的解码器,将解题效果提升到新的一层高度上。但是,由于上述模型都采用了传统的放缩门作为序列信息的传递机制,并只使用上一时间步的信息,从而在长距离序列中容易丢失早期的信息。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于减法门的数学应用题解答处理方法、系统和存储介质,能够在一定程度上解决长距离中序列信息丢失的问题,并在后期的生成过程中也能较为容易地获得初期信息,提高表达式生成结果的准确性。
根据本发明的第一方面实施例的一种基于减法门的数学应用题解答处理方法,包括以下步骤:
获取待求解应用题目文本;
对所述待求解应用题目文本进行编码,得到编码序列;
采用减法门机制对所述编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量,所述若干时间步的第一隐态向量为采用问题反馈机制反馈当前解码过程对应的隐态向量;
当完成所述编码序列的解码过程后,生成所述待求解应用题目文本的数学表达式。
根据本发明实施例的一种基于减法门的数学应用题解答处理方法,至少具有如下有益效果:本实施例通过采用减法门机制对待求解应用题目文本对应的编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的采用问题反馈机制反馈的当前解码过程对应的隐态向量,以在一定程度上解决长距离中序列信息丢失的问题,并使得在后期的生成过程中也能较为容易地获得初期信息,提高表达式生成结果的准确性。
根据本发明的一些实施例,在所述获取待求解应用题目文本这一步骤后,还包括以下步骤:
对所述待求解应用题目文本进行符号化,得到题目序列。
根据本发明的一些实施例,所述采用减法门机制对所述编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量,所述若干时间步的第一隐态向量为采用问题反馈机制反馈当前解码过程对应的隐态向量,包括:
将编码序列和起始字符输入基于减法门的解码器;
采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量;
根据所述若干时间步的第一隐态向量对所述编码序列进行解码,得到当前时间步的解码向量和第二隐态向量;
从所述编码序列中获取数字对应的编码向量;
将数字对应的编码向量与当前时间步的解码向量进行比较,获取满足预设要求的第一向量;
采用问题反馈机制将当前时间步的第二隐态向量和第一向量反馈到预设时间步的隐态向量中,所述预设时间步为当前时间步之前的所有时间步。
根据本发明的一些实施例,所述预设要求的第一向量为比较分数最高的编码向量对应的数字、操作符或者符号。
根据本发明的一些实施例,所述对所述待求解应用题目文本进行编码,其具体为:
采用LSTM编码器、GRU编码器或者Bert编码器对所述题目序列进行编码。
根据本发明的第二方面实施例的一种基于减法门的数学应用题解答处理系统,包括:
输入模块,用于输入待求解应用题目文本;
编码器模块,用于对待求解应用题目文本进行编码,得到编码序列;
解码器模块,用于采用减法门机制对所述编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量,所述若干时间步的第一隐态向量为采用问题反馈机制反馈当前解码过程对应的隐态向量;
输出模块,用于在完成所述编码序列的解码过程后,输出所述待求解应用题目文本的数学表达式。
根据本发明的一些实施例,所述采用减法门机制对所述编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量,所述若干时间步的第一隐态向量为采用问题反馈机制反馈当前解码过程对应的隐态向量,包括:
将编码序列和起始字符输入基于减法门的解码器;
采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量;
根据所述若干时间步的第一隐态向量对所述编码序列进行解码,得到当前时间步的解码向量和第二隐态向量;
从所述编码序列中获取数字对应的编码向量;
将数字对应的编码向量与当前时间步的解码向量进行比较,获取满足预设要求的第一向量;
采用问题反馈机制将当前时间步的第二隐态向量和第一向量反馈到预设时间步的隐态向量中,所述预设时间步为当前时间步之前的所有时间步。
根据本发明的一些实施例,所述预设要求的第一向量为比较分数最高的编码向量对应的数字、操作符或者符号。
根据本发明的第三方面实施例的一种基于减法门的数学应用题解答处理系统,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行第一方面实施例所述的基于减法门的数学应用题解答处理方法。
根据本发明的第四方面实施例的一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行第一方面实施例所述的基于减法门的数学应用题解答处理方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
下面结合附图和实施例对本发明做进一步的说明,其中:
图1为本发明实施例的一种基于减法门的数学应用题解答处理方法的流程图;
图2为一种实施例的解码器单元的神经网络示意图;
图3为本发明实施例的一种基于减法门的数学应用题解答处理系统的模块框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
参照图1,本发明实施例提供了一种基于减法门的数学应用题解答处理方法,本实施例可应用于服务器、各类题目自动求解软件的后台处理器。
在应用过程中,本实施例包括以下步骤:
S11、获取待求解应用题目文本。在执行完本步骤后,还需要对待求解应用题目文本进行符号化,以得到题目序列,从而便于后续步骤的执行。
S12、对待求解应用题目文本进行编码,得到编码序列。具体地,本步骤可采用LSTM编码器、GRU编码器或者Bert编码器对所述题目序列进行编码。Bert编码器能够通过注意力机制将任意位置的两个单词的距离转换为1。LSTM编码器是一种基于长短期记忆网络涉及的编码器,也可以理解为基于时间循环神经网络的编码器。GRU编码器是一种就门控循环单元的编码器。
S13、采用减法门机制对所述编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量,其中,若干时间步的第一隐态向量为采用问题反馈机制反馈当前解码过程对应的隐态向量。
在一些实施例中,所述步骤S13可通过以下步骤实现:
将编码序列和起始字符输入基于减法门的解码器;
采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量;
根据若干时间步的第一隐态向量对编码序列进行解码,得到当前时间步的解码向量和第二隐态向量;同时从编码序列中获取数字对应的编码向量;
将数字对应的编码向量与当前时间步的解码向量进行比较,获取满足预设要求的第一向量,其中,预设要求的第一向量为比较分数最高的编码向量对应的数字、操作符或者符号。
采用问题反馈机制将当前时间步的第二隐态向量和第一向量反馈到预设时间步的隐态向量中,其中,预设时间步为当前时间步之前的所有时间步。
具体地,由于传统的循环神经网络逐渐地解决不了越来越长的序列编码和序列解码的任务。特别在解码任务中,当目标序列较长时往往无法生成出正确或者高质量的序列。为了改善这种状况,本实施例提出了一种新的信息融合的机制。其中,传统的循环神经网络的信息融合是通过放缩门的机制将上一时间步的信息和该时间步所需要的信息一一融合的,其融合机制如公式1所示:
output=tanh(Wc[A,B])*σ(Wg[A,B]) 公式1
[A,B]为拼接向量A和向量B的操作;W[A,B]为对拼接后的向量进行线性变换,逻辑上相当于一层全连接层;Wc和Wg为不同的线性变换;tanh(Wc[A,B])∈(-1,1)表示A与B的初步信息融合,σ(Wg[A,B])∈(0,1)和哈密达积则表示对融合后的信息的控制。
在公式1的融合机制中,在时间步增加时导致tanh函数和σ函数的多次迭代使得它的值和回传的梯度都迅速减少。因此,本实施例基于该问题,提出了如公式2所示的减法门的机制:
output=ReLU(Wc[A,B])-ReLU(Wg[A,B]) 公式2
在公式2中,ReLU函数的取值为[0,+∞),因此,在一定程度上使得时间步增加导致多次迭代后的函数值并不会减少得很快而是维持在一定的水平上,同时使用减法代替哈达玛积,避免多次迭代后输出值会迅速增大或迅速减小。
在公式2的信息融合机制中还可以再叠加多层,如公式3、公式4和公式5所示:
c0=ReLU(Wc[A,B]) 公式3
ci=ci-1-gi*zioutput=cn 公式5
其中,gi表示第i层的信息控制,zi表示对gi的控制。
通过上述多层次的机制的信息融合、传递能使最后的输出得到更深层的信息。
此外,由于在传统的循环神经网络中,该时间步的隐态是由上一个时间步的隐态和其他一些信息计算得出的。但在数学表达式中,特别是前缀表达式,该时间步所需要的不总是上一个时间步所隐含的问题,比如在前缀表达式(×)(×)(4)(8)(25)中,(25)是第一个(×)的第二个操作数,但他的前一时间步的(8)却是第二个(×)的操作数,但明显与(25)更需要的结构性信息应当来自于第一个(×)而不是它的上一时间步(8)。另一方面,第二个(×)所隐含的信息在模型输出(4)之后和输出(8)之后应该有所变化,这种变化应该表示这个操作符所隐含的问题已经被解决,使得而下一步的解码应该着重于另外一个子问题或者回到父问题中去。基于这两个方面,本实施例还提出了问题选取机制和问题反馈机制,使得解码过程中每一时间步对于信息的选择更加精确。
在问题选取机制中,本实施不再使用上一个时间步的隐态作为输入,而是通过注意力选取与该时间步所要解决的问题相关的那些时间步的隐态向量。在问题反馈机制中,在当前时间步的隐态和输出的符号计算完成后,将这两个相应的向量通过减法门机制反馈到之前所有时间步的隐态中去,以便于下一时间步能在更准确的历史状态的基础上进行解码,其中,这两个机制是相辅相成的。
本实施例基于上述提出的减法门机制、问题选取机制和问题反馈机制提出了如图2所示的解码器单元的神经网络示意图,其中,其中Last Token为上一时间步的输出符号相应的向量,Last Context为上一时间步所需要的题目上下文,Hidden Context为通过问题选取机制选取的隐态向量,Context为本时间步所需的题目上下文,最后得到Output作为当前时间步的解码向量输出,而当前时间步的隐态Hidden会通过问题反馈机制修改之前时间步的隐态,每个圆圈表示使用减法门机制进行信息融合。
在解码过程中,以编码器的输出和“SOS”起始符作为输入,通过图2所示的解码器单元的神经网络示意图生成当前时间步的解码向量输出Output和隐态Hidden,通过解码向量输出与各个符号、操作符、数字所对应的向量比较选取得分最高的符号、操作符、数字作为这一步的输出,然后通过问题反馈机制将当前隐态向量和选取的符号、操作符、数字对应向量反馈到之前时间步的隐态中去,完成一步的解码。通过这样一步一步地解码直到生成“EOS”结束符为止。
S14、当完成所述编码序列的解码过程后,生成所述待求解应用题目文本的数学表达式。具体地,将生成的序列去掉“SOS”起始符和“EOS”结束符得到模型输出的数学表达式。
综上可知,上述实施例能在一定程度上解决长距离中序列信息丢失的问题,并使得在后期的生成过程中也能较为容易地获得初期信息,提高表达式生成结果的准确性。
参照图3,本发明实施例提供了一种基于减法门的数学应用题解答处理系统,包括:
输入模块,用于输入待求解应用题目文本。在获取到待求解应用题目文本后,对待求解应用题目文本进行符号化,以得到题目序列,从而便于后续步骤的执行。
编码器模块,用于对待求解应用题目文本进行编码,得到编码序列。具体地,可采用LSTM编码器、GRU编码器或者Bert编码器对所述题目序列进行编码。Bert编码器能够通过注意力机制将任意位置的两个单词的距离转换为1。LSTM编码器是一种基于长短期记忆网络涉及的编码器,也可以理解为基于时间循环神经网络的编码器。GRU编码器是一种就门控循环单元的编码器。
解码器模块,用于采用减法门机制对所述编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量,其中,若干时间步的第一隐态向量为采用问题反馈机制反馈当前解码过程对应的隐态向量。
在一些实施例中,所述解码器模块的执行过程可以为:
将编码序列和起始字符输入基于减法门的解码器;
采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量;
根据若干时间步的第一隐态向量对编码序列进行解码,得到当前时间步的解码向量和第二隐态向量;同时从编码序列中获取数字对应的编码向量;
将数字对应的编码向量与当前时间步的解码向量进行比较,获取满足预设要求的第一向量,其中,预设要求的第一向量为比较分数最高的编码向量对应的数字、操作符或者符号。
采用问题反馈机制将当前时间步的第二隐态向量和第一向量反馈到预设时间步的隐态向量中,其中,预设时间步为当前时间步之前的所有时间步。
具体地,由于传统的循环神经网络逐渐地解决不了越来越长的序列编码和序列解码的任务。特别在解码任务中,当目标序列较长时往往无法生成出正确或者高质量的序列。为了改善这种状况,本实施例提出了一种新的信息融合的机制。其中,传统的循环神经网络的信息融合是通过放缩门的机制将上一时间步的信息和该时间步所需要的信息一一融合的,其融合机制如公式1所示:
output=tanh(Wc[A,B])*σ(Wg[A,B]) 公式1
tanh(Wc[A,B])∈(-1,1)表示A与B的初步信息融合,σ(Wg[A,B])∈(0,1)和哈密达积则表示对融合后的信息的控制。
在公式1的融合机制中,在时间步增加时导致tanh函数和σ函数的多次迭代使得它的值和回传的梯度都迅速减少。因此,本实施例基于该问题,提出了如公式2所示的减法门的机制:
output=ReLU(Wc[A,B])-ReLU(Wg[A,B]) 公式2
在公式2中,ReLU函数的取值为[0,+∞),因此,在一定程度上使得时间步增加导致多次迭代后的函数值并不会减少得很快而是维持在一定的水平上,同时使用减法代替哈达玛积,避免多次迭代后输出值会迅速增大或迅速减小。
在公式2的信息融合机制中还可以再叠加多层,如公式3、公式4和公式5所示:
c0=ReLU(Wc[A,B]) 公式3
ci=ci-1-gi*zioutput=cn 公式5
其中,gi表示第i层的信息控制,zi表示对gi的控制。
通过上述多层次的机制的信息融合、传递能使最后的输出得到更深层的信息。
此外,由于在传统的循环神经网络中,该时间步的隐态是由上一个时间步的隐态和其他一些信息计算得出的。但在数学表达式中,特别是前缀表达式,该时间步所需要的不总是上一个时间步所隐含的问题,比如在前缀表达式(×)(×)(4)(8)(25)中,(25)是第一个(×)的第二个操作数,但他的前一时间步的(8)却是第二个(×)的操作数,但明显与(25)更需要的结构性信息应当来自于第一个(×)而不是它的上一时间步(8)。另一方面,第二个(×)所隐含的信息在模型输出(4)之后和输出(8)之后应该有所变化,这种变化应该表示这个操作符所隐含的问题已经被解决,使得而下一步的解码应该着重于另外一个子问题或者回到父问题中去。基于这两个方面,本实施例还提出了问题选取机制和问题反馈机制,使得解码过程中每一时间步对于信息的选择更加精确。
在问题选取机制中,本实施不再使用上一个时间步的隐态作为输入,而是通过注意力选取与该时间步所要解决的问题相关的那些时间步的隐态向量。在问题反馈机制中,在当前时间步的隐态和输出的符号计算完成后,将这两个相应的向量通过减法门机制反馈到之前所有时间步的隐态中去,以便于下一时间步能在更准确的历史状态的基础上进行解码,其中,这两个机制是相辅相成的。
本实施例基于上述提出的减法门机制、问题选取机制和问题反馈机制提出了如图2所示的解码器单元的神经网络示意图,其中,其中Last Token为上一时间步的输出符号相应的向量,Last Context为上一时间步所需要的题目上下文,Hidden Context为通过问题选取机制选取的隐态向量,Context为本时间步所需的题目上下文,最后得到Output作为当前时间步的解码向量输出,而当前时间步的隐态Hidden会通过问题反馈机制修改之前时间步的隐态,每个圆圈表示使用减法门机制进行信息融合。
在解码过程中,以编码器的输出和“SOS”起始符作为输入,通过图2所示的解码器单元的神经网络示意图生成当前时间步的解码向量输出Output和隐态Hidden,通过解码向量输出与各个符号、操作符、数字所对应的向量比较选取得分最高的符号、操作符、数字作为这一步的输出,然后通过问题反馈机制将当前隐态向量和选取的符号、操作符、数字对应向量反馈到之前时间步的隐态中去,完成一步的解码。通过这样一步一步地解码直到生成“EOS”结束符为止。
输出模块,用于在完成所述编码序列的解码过程后,输出所述待求解应用题目文本的数学表达式。具体地,将生成的序列去掉“SOS”起始符和“EOS”结束符得到模型输出的数学表达式。
在完成图3所示系统的构建后,还可以通过以下方式对所述系统进行训练:
假设数据集为D={(Pn,Tn):1≤n≤N},则在训练过程中,可采用公式6作为损失函数:
loss=∑(T,P)∈D-logp(T|P) 公式6
其中,P为应用题题目,T为数学表达式输出。
在一些实施例中,将上述实施例应用于实际处理过程进行验证,选择Math23K数据集作为模型训练验证的数据集。该数据集是当前第二大的应用题数据集,包含了23161个标注了数学表达式的应用题题目,这些应用题都可以使用一个线性的代数表达式进行解答。
为了评价算法的有效性,本实施例采用了输出表达式的结果正确率作为评价指标,即把模型输出的数学表达式进行计算,得到结果与标注的答案进行比较,一样则表示模型能解决该样本的问题。
通过在Math23K数据集上使用五交叉验证的结果与其他算法的准确率作对比。这些算法包括使用数字标示的混合模型(Hybird model combines the retrieval modeland the seq2seq model with significant number identification,简称SNI),使用等式正则化的融合模型(Ensemble model selects the result according to models’sgeneration probability among BiLSTM,ConvS2S and Transformer with equationnormalization,简称EN),目标驱动的树形应用题解答器(Goal-driven tree-structuredMWP solver,简称GTS),GTS中使用了束搜索(Beam Search),在实验中为了对比,参数束大小(Beam Size)分别取1和5。本实施例的算法为减法门解码器(Minus Gate Decoder,简称为MGD),并在GRU和BERT编码器基础上进行实验,简称GRU+MGD和BERT+MGD,使用贪心搜索,相当于束搜索的束大小为1。表1为本实施例与其他算法在Math23K数据集上五折交叉验证的结果:
表1对比结果
模型 正确率
SNI 64.7%
EN 68.4%
GTS,Beam=1 75.0%
GTS,Beam=5 75.3%
GRU+MGD 75.9%
BERT+MGD 81.7%
从表1可知,在同样贪心搜索下,本实施例的算法的结果比GTS高了0.9%,就算GTS使用了束搜索,效果也不如本实施例的算法。在使用BERT提高对题目自然语言的理解后,配合本实施例的解码器效果更是上升到了81.7%,远超之前各个算法的结果。
在表2中通过查看长序列样本解码过程的结果,进一步说明本实施例在数学应用题自动解答上有很好的效果。
表2样本实例对照
本发明实施例提供了一种基于减法门的数学应用题解答处理系统,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行图1所示的基于减法门的数学应用题解答处理方法。
本发明方法实施例的内容均适用于本系统实施例,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例提供了一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行图1所示的基于减法门的数学应用题解答处理方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。此外,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

Claims (10)

1.一种基于减法门的数学应用题解答处理方法,其特征在于,包括以下步骤:
获取待求解应用题目文本;
对所述待求解应用题目文本进行编码,得到编码序列;
采用减法门机制对所述编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量,所述若干时间步的第一隐态向量为采用问题反馈机制反馈当前解码过程对应的隐态向量;
当完成所述编码序列的解码过程后,生成所述待求解应用题目文本的数学表达式;
其中,所述减法门机制的表达式如下:
其中,[A,B]为拼接向量A和向量B的操作;和/>为不同的线性变换,W[A,B]为对拼接后的向量进行线性变换;ReLU函数的取值为/>
所述问题选取机制是通过注意力选取与该时间步所要解决的问题相关的那些时间步的隐态向量;所述问题反馈机制是在当前时间步的隐态和输出的符号计算完成后,将这两个相应的向量通过减法门机制反馈到之前所有时间步的隐态中去,以便于下一时间步能在更准确的历史状态的基础上进行解码。
2.根据权利要求1所述的一种基于减法门的数学应用题解答处理方法,其特征在于,在所述获取待求解应用题目文本这一步骤后,还包括以下步骤:
对所述待求解应用题目文本进行符号化,得到题目序列。
3.根据权利要求1所述的一种基于减法门的数学应用题解答处理方法,其特征在于,所述采用减法门机制对所述编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量,所述若干时间步的第一隐态向量为采用问题反馈机制反馈当前解码过程对应的隐态向量,包括:
将编码序列和起始字符输入基于减法门的解码器;
采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量;
根据所述若干时间步的第一隐态向量对所述编码序列进行解码,得到当前时间步的解码向量和第二隐态向量;
从所述编码序列中获取数字对应的编码向量;
将数字对应的编码向量与当前时间步的解码向量进行比较,获取满足预设要求的第一向量;
采用问题反馈机制将当前时间步的第二隐态向量和第一向量反馈到预设时间步的隐态向量中,所述预设时间步为当前时间步之前的所有时间步。
4.根据权利要求3所述的一种基于减法门的数学应用题解答处理方法,其特征在于,所述预设要求的第一向量为比较分数最高的编码向量对应的数字、操作符或者符号。
5.根据权利要求2所述的一种基于减法门的数学应用题解答处理方法,其特征在于,所述对所述待求解应用题目文本进行编码,其具体为:
采用LSTM编码器、GRU编码器或者Bert编码器对所述题目序列进行编码。
6.一种基于减法门的数学应用题解答处理系统,其特征在于,包括:
输入模块,用于输入待求解应用题目文本;
编码器模块,用于对待求解应用题目文本进行编码,得到编码序列;
解码器模块,用于采用减法门机制对所述编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量,所述若干时间步的第一隐态向量为采用问题反馈机制反馈当前解码过程对应的隐态向量;
输出模块,用于在完成所述编码序列的解码过程后,输出所述待求解应用题目文本的数学表达式;
其中,所述减法门机制的表达式如下:
其中,[A,B]为拼接向量A和向量B的操作;和/>为不同的线性变换,W[A,B]为对拼接后的向量进行线性变换;ReLU函数的取值为/>
所述问题选取机制是通过注意力选取与该时间步所要解决的问题相关的那些时间步的隐态向量;所述问题反馈机制是在当前时间步的隐态和输出的符号计算完成后,将这两个相应的向量通过减法门机制反馈到之前所有时间步的隐态中去,以便于下一时间步能在更准确的历史状态的基础上进行解码。
7.根据权利要求6所述的一种基于减法门的数学应用题解答处理系统,其特征在于,所述采用减法门机制对所述编码序列进行解码,并采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量,所述若干时间步的第一隐态向量为采用问题反馈机制反馈当前解码过程对应的隐态向量,包括:
将编码序列和起始字符输入基于减法门的解码器;
采用问题选取机制获取与当前时间步所要解决问题相关的若干时间步的第一隐态向量;
根据所述若干时间步的第一隐态向量对所述编码序列进行解码,得到当前时间步的解码向量和第二隐态向量;
从所述编码序列中获取数字对应的编码向量;
将数字对应的编码向量与当前时间步的解码向量进行比较,获取满足预设要求的第一向量;
采用问题反馈机制将当前时间步的第二隐态向量和第一向量反馈到预设时间步的隐态向量中,所述预设时间步为当前时间步之前的所有时间步。
8.根据权利要求7所述的一种基于减法门的数学应用题解答处理系统,其特征在于,所述预设要求的第一向量为比较分数最高的编码向量对应的数字、操作符或者符号。
9.一种基于减法门的数学应用题解答处理系统,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行如权利要求1-5任一项所述的基于减法门的数学应用题解答处理方法。
10.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-5任一项所述的基于减法门的数学应用题解答处理方法。
CN202110126530.0A 2021-01-29 2021-01-29 基于减法门的数学应用题解答处理方法、系统和存储介质 Active CN112836474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110126530.0A CN112836474B (zh) 2021-01-29 2021-01-29 基于减法门的数学应用题解答处理方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110126530.0A CN112836474B (zh) 2021-01-29 2021-01-29 基于减法门的数学应用题解答处理方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN112836474A CN112836474A (zh) 2021-05-25
CN112836474B true CN112836474B (zh) 2023-07-21

Family

ID=75931074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110126530.0A Active CN112836474B (zh) 2021-01-29 2021-01-29 基于减法门的数学应用题解答处理方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN112836474B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN111259632A (zh) * 2020-02-10 2020-06-09 暗物智能科技(广州)有限公司 一种基于语义对齐的树结构数学应用题求解方法及系统
CN111783423A (zh) * 2020-07-09 2020-10-16 北京猿力未来科技有限公司 解题模型的训练方法及装置、解题方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590192B (zh) * 2017-08-11 2023-05-05 深圳市腾讯计算机系统有限公司 文本问题的数学化处理方法、装置、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN111259632A (zh) * 2020-02-10 2020-06-09 暗物智能科技(广州)有限公司 一种基于语义对齐的树结构数学应用题求解方法及系统
CN111783423A (zh) * 2020-07-09 2020-10-16 北京猿力未来科技有限公司 解题模型的训练方法及装置、解题方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
S2SA-BiLSTM:面向法律纠纷智能问答系统的深度学习模型;涂海;彭敦陆;陈章;刘丛;;小型微型计算机系统(05);第124-129页 *

Also Published As

Publication number Publication date
CN112836474A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN110929515B (zh) 基于协同注意力和自适应调整的阅读理解方法及系统
CN112214604A (zh) 文本分类模型的训练方法、文本分类方法、装置及设备
CN111611811B (zh) 翻译方法、装置、电子设备及计算机可读存储介质
CN112417092B (zh) 基于深度学习的智能化文本自动生成系统及其实现方法
CN115795009A (zh) 基于生成式多语言模型的跨语言问答系统构建方法和装置
CN110738059B (zh) 一种文本相似度计算方法及系统
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112487786A (zh) 一种基于乱序重排的自然语言模型预训练方法及电子设备
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN113553847A (zh) 用于对地址文本进行解析的方法、装置、系统和存储介质
CN112163434B (zh) 基于人工智能的文本翻译方法、装置、介质及电子设备
CN112836474B (zh) 基于减法门的数学应用题解答处理方法、系统和存储介质
KR20200032441A (ko) 사용자 적응형 자동번역 모델 선택 강화 장치 및 방법
CN111126059B (zh) 一种短文文本的生成方法、生成装置及可读存储介质
WO2024027252A1 (zh) 静态网页的生成方法、生成装置、电子设备及存储介质
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN116304728A (zh) 一种基于句子表征的短文本相似度匹配方法及应用
CN116955419A (zh) 一种几何题解答方法、系统及电子设备
CN110888976B (zh) 一种文本摘要生成方法和装置
CN115589446A (zh) 一种基于预训练与提示的会议摘要生成方法及系统
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN114626529A (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN111400484B (zh) 一种关键词提取方法和系统
CN113330457A (zh) 使用插入操作生成神经网络输出
CN112685543B (zh) 一种基于文本回答问题的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant