CN115840867A

CN115840867A - 数学解题模型的生成方法、装置、电子设备和存储介质

Info

Publication number: CN115840867A
Application number: CN202111109588.0A
Authority: CN
Inventors: 魏琢钰; 王乐; 张天宇; 柳景明
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2023-03-24

Abstract

本公开公开了一种数学解题模型的生成方法、装置、电子设备和存储介质，涉及计算机技术领域。其中，方案为：获取训练数据集，训练数据集中包括多个题目与目标答案对；将题目输入初始解题模型，以确定题目对应的数学表达式；根据数学表达式及目标答案，确定当前的奖励值；将题目与数学表达式，输入初始解题模型，以确定数学表达式对应的概率值；根据概率值及奖励值，确定当前的损失值；基于损失值，对初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至损失值满足预设条件。由此，通过利用较易获得的题目和答案作为训练数据集，以及利用强化学习的方法，结合蒙特卡洛算法，训练生成准确的解题模型，从而降低了解题模型的成本。

Description

数学解题模型的生成方法、装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，具体涉及强化学习等人工智能技术领域，尤其涉及一种数学解题模型的生成方法、装置、电子设备和存储介质。

背景技术

随着计算机技术的蓬勃发展，人工智能领域也得到了迅速发展，利用模型来进行数学题目的解答也越来越广泛。相关技术中，在数学解题模型训练的过程中，通常将题目信息及其对应的数学表达式作为训练数据集，而数学表达式需要人工进行标注，为了获取充足的训练数据，就需要大量的数学表达式，从而会耗费大量的时间和人工成本。由此，如何减少数学解题模型的成本，成为当前亟待解决的问题。

发明内容

本公开提供了一种数学解题模型的生成方法、装置、电子设备和存储介质。

本公开一方面，提供了一种数学解题模型的生成方法，包括：

获取训练数据集，其中，所述训练数据集中包括多个题目与目标答案对；

将所述题目输入初始解题模型，以确定所述题目对应的数学表达式；

根据所述数学表达式及所述目标答案，确定当前的奖励值；

将所述题目与所述数学表达式，输入所述初始解题模型，以确定所述数学表达式对应的概率值；

根据所述概率值及所述奖励值，确定当前的损失值；

基于所述损失值，对所述初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至所述损失值满足预设条件。

本公开的另一方面，提供了一种数学解题模型的生成装置，包括：

获取模块，用于获取训练数据集，其中，所述训练数据集中包括多个题目与目标答案对；

第一确定模块，用于将所述题目输入初始解题模型，以确定所述题目对应的数学表达式；

第二确定模块，用于根据所述数学表达式及所述目标答案，确定当前的奖励值；

第三确定模块，用于将所述题目与所述数学表达式，输入所述初始解题模型，以确定所述数学表达式对应的概率值；

第四确定模块，用于根据所述概率值及所述奖励值，确定当前的损失值；

修正模块，用于基于所述损失值，对所述初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至所述损失值满足预设条件。

本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的数学解题模型的生成方法。

本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机指令用于使所述计算机执行上述一方面实施例所述的数学解题模型的生成方法。

本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述一方面实施例所述的数学解题模型的生成方法。

本公开提供的数学解题模型的生成方法、装置、电子设备和存储介质，可以先获取训练数据集，其中，训练数据集中包括多个题目与目标答案对，之后将题目输入初始解题模型，以确定题目对应的数学表达式，之后可以根据数学表达式及目标答案，确定当前的奖励值，再将题目与数学表达式，输入初始解题模型，以确定数学表达式对应的概率值，之后可以根据概率值及奖励值，确定当前的损失值，再基于损失值，对初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至损失值满足预设条件。由此，在模型训练过程中，可以利用较易获得的题目和答案作为训练数据集，之后可以利用强化学习的方法，结合蒙特卡洛算法，利用题目和答案对训练生成准确的解题模型，从而在不损失解题模型性能的情况下，降低了解题模型的成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开一实施例提供的一种数学解题模型的生成方法的流程示意图；

图2为本公开另一实施例提供的一种数学解题模型的生成方法的流程示意图；

图3为本公开又一实施例提供的一种数学解题模型的生成方法的流程示意图；

图4为本公开另一实施例提供的一种数学解题模型的生成装置的结构示意图；

图5为用来实现本公开实施例的数学解题模型的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。

强化学习是机器学习的一个领域，它注重的是软件主体在一个环境中应该如何进行行动，从而达到最大化累积奖励的想法。强化学习被认为是与监督学习和非监督学习并列的三种机器学习范式之一。强化学习与监督学习的不同之处在于，不需要标记输入/输出对，并且不需要明确校正次优动作。相反，强化学习的重点是在探索(未知领域)和利用(当前知识)之间找到平衡。

下面参考附图描述本公开实施例的数学解题模型的生成方法、装置、电子设备和存储介质。

本公开实施例的数学解题模型的生成方法，可由本公开实施例提供的数学解题模型的生成装置执行，该装置可配置于电子设备中。

图1为本公开实施例提供的一种数学解题模型的生成方法的流程示意图。如图1所示，该数学解题模型的生成方法，可以包括以下步骤：

步骤101，获取训练数据集，其中，训练数据集中包括多个题目与目标答案对。

可以理解的是，在模型训练过程中，通常将题目及其对应的数学表达式作为训练数据集，而数学表达式需要人工进行标注，从而会耗费大量的时间和人工成本。相对的，若仅获得题目对应的正确答案则较为简单，比如可以直接从书籍中获取题目与对应的答案，或者可以从题库中选取题目与对应的答案等。

从而，本公开实施例中，将题目与答案作为训练数据，也即本公开的训练数据集中，每个题目都有对应的正确答案(也可称为目标答案)，即题目与目标答案为成对出现的，本公开对此不做限定。

步骤102，将题目输入初始解题模型，以确定题目对应的数学表达式。

其中，将题目输入初始解题模型，经过处于推理模式的初始解题模型的处理，可以确定题目对应的数学表达式，本公开对此不做限定。

另外，数学表达式中，可以包含数学运算符、运算量标识等。其中，运算符可能为“+”、“-”、“*”、“/”、“＝”、“(”、“)”等；运算量标识可能为一个，也可能为多个，比如：d₁、d₂、d₃、d₄等等，本公开对此不做限定。

举例来说，将题目1输入初始解题模型，经过初始解题模型的解析与处理，输出与题目1对应的数学表达式1，其可以为d₁+d₂*d₄-d₃。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中题目、数学表达式等的限定。

步骤103，根据数学表达式及目标答案，确定当前的奖励值。

可以理解的是，可以先将题目代入确定出的数学表达式，以得到对应的预测答案，根据预测答案与目标答案的匹配度，确定当前的奖励值。

比如，若将题目代入数学表达式中，确定出的预测答案与目标答案一致，则可以确定当前的奖励值为正值，比如可以为：1、3等等。或者，将题目代入数学表达式中，确定出的预测答案与目标答案不一致，则可以确定当前的奖励值为负值，或者为零等等。本公开对此不做限定。

步骤104，将题目与数学表达式，输入初始解题模型，以确定数学表达式对应的概率值。

可以理解的是，将题目与数学表达式输入初始解题模型中，经过处于训练模式的初始解题模型对题目与数学表达式进行处理，可以确定该数学表达式对应的概率值，本公开对此不做限定。

步骤105，根据概率值及奖励值，确定当前的损失值。

其中，可以先将概率值与奖励值相乘，以确定出损失函数，之后根据损失函数，确定出当前的损失值。

比如，损失函数可以满足如下关系：

J＝P_i*r_i (1)

其中，J为损失值，P_i为概率值，r_i为奖励值。

可选的，在模型训练过程中，对于一批数据，可以先初始化损失值，之后在使用这一批数据进行训练的过程中，可以将每次训练的损失值叠加，从而确定损失值J。比如前一次模型训练的损失值为J₁，当前的概率值为P₂及当前的奖励值为r₂，可以确定当前的损失值为：J＝J₁+P₂*r₂。本公开对此不做限定。

从而，本公开实施例中，在确定损失值时，既考虑到了经初始解题模型输出的数学表达式所确定的奖励值，又关注到了由初始解题模型确定的数学表达式所对应的概率值，从而使得确定出的损失值更为准确和可靠。

步骤106，基于损失值，对初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至损失值满足预设条件。

其中，预设条件可以为提前设定好的内容，本公开对此不做限定。

可以理解的是，在损失值不满足预设条件的情况下，可以基于确定出的损失值，对该初始解题模型的参数进行反向修正，并对修正后的解题模型继续进行训练，以使该解题模型的学习能力增强。之后，继续对修正后的解题模型进行训练，若损失值满足预设条件，即可认为该解题模型的训练过程可以结束，其具有较好的性能，从而在使用该解题模型进行题目解答时，可以得到较为准确的答案。

需要说明的是，本公开中数学解题模型的生成，是基于强化学习框架，并利用蒙特卡洛算法生成的。可以理解为：将训练数据集中的题目输入初始解题模型中，经过处于推理模式的初始解题模型的处理，可以确定该题目对应的数学表达式；将题目和对应的数学表达式输入初始解题模型，经过处于训练模式的初始解题模型的处理，可以确定该数学表达式对应的概率值，之后可以基于概率值与奖励值，以确定对应的损失值，之后再基于损失值对初始解题模型进行修正，从而生成解题模型。

本公开实施例，可以先获取训练数据集，其中，训练数据集中包括多个题目与目标答案对，之后将题目输入初始解题模型，以确定题目对应的数学表达式，之后可以根据数学表达式及目标答案，确定当前的奖励值，再将题目与数学表达式，输入初始解题模型，以确定数学表达式对应的概率值，之后可以根据概率值及奖励值，确定当前的损失值，再基于损失值，对初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至损失值满足预设条件。由此，在模型训练过程中，可以利用较易获得的题目和答案作为训练数据集，之后可以利用强化学习的方法，结合蒙特卡洛算法，利用题目和答案对训练生成准确的解题模型，从而在不损失解题模型性能的情况下，降低了解题模型的成本。

上述实施例，在对模型进行训练过程中，可以利用较易获得的题目和答案作为训练数据集，之后可以根据经初始解题模型输出的数学表达式所确定的奖励值，以及根据该数学表达式所确定的概率值，确定出对应的损失值，基于该损失值对初始解题模型进行修正，从而可使得经过训练后的初始解题模型输出的结果更加准确。在一种可能的实现方式中，将题目输入初始解题模型之后，可以根据预设的词表对应的概率分布，确定数学表达式中的各个字符，下面结合图2对上述过程进行详细说明。

图2为本公开实施例提供的一种数学解题模型的生成方法的流程示意图，如图2所示，该数学解题模型的生成方法，可以包括以下步骤：

步骤201，获取训练数据集，其中，训练数据集中包括多个题目与目标答案对。

步骤202，将题目输入初始解题模型，以确定预设的词表对应的第一概率分布，其中第一概率分布，用于表征预设的词表中每个候选字符分别为数学表达式中首字符的第一概率。

可以理解的是，预设的词表中，可以包含运算符及运算量标识。其中，运算符可以包含多种，比如可以为“+”、“-”、“*”、“/”、“＝”、“(”、“)”等；运算量标识也可以包含多个，比如可以为：d₁、d₂、d3、d₄、d₅、d₆、d₇、d₈等等，本公开对此不做限定。

从而，本公开实施例中，候选字符可以为运算符，或者也可以为运算量标识，本公开对此不做限定。

步骤203，基于第一概率分布，确定数学表达式中的目标首字符。

可选的，可以将第一概率分布中第一概率值最大的候选字符，确定为数学表达式中的目标首字符，本公开对此不做限定。

可选的，也可以基于第一概率分布，采用最大随机贪心采样方法，从词表中选取数学表达式中的目标首字符。

其中，最大随机贪心(epsilongreedy,∈-greedy)采样方法，通常采用随机探索的方式，可以理解为：有∈的概率根据第一概率分布随机选择候选字符作为首字符，有(1-∈)的概率直接选取第一概率分布中最大概率对应的候选字符作为首字符，从而既保证了确定首字符时，采样足够充分与全面，又尽量保证了首字符确定的准确性。

步骤204，将目标首字符及题目输入初始解题模型，以确定预设的词表对应的第二概率分布。

其中，第二概率分布，可以表征预设的词表中每个候选字符分别为数学表达式中第二字符的第二概率。

可以理解的是，将目标首字符及题目输入初始解题模型中，经过初始解题模型的分析与处理，可以输出预设词表对应的第二概率分布。

步骤205，基于第二概率分布，确定数学表达式中的目标第二字符。

可选的，确定数学表达式中的目标第二字符的方式，可以有多种。

比如可以直接将第二概率分布中最大概率对应的候选字符，确定为数学表达式中的目标第二字符；或者也可以采用∈-greedy采样方法，从第二概率分布中随机选取候选字符作为数学表达式中的目标第二字符。本公开对此不做限定。

步骤206，重复执行上述确定预设的词表对应的概率分布的操作，直至生成数学表达式。

可选的，可以根据确定出的目标字符的类型，确定数学表达式是否已结束。

比如，可以提前设定“结束字符”，在确定的目标字符为“结束字符”情况下，即可认为数学表达式已经完整。或者，在确定的目标字符不是“结束字符”的情况下，可以按照上述确定数学表达式中目标首字符、目标第二字符的方式，继续确定目标第三字符、目标第四字符等，以生成数学表达式。

比如，目标第二字符不是“结束字符”，则可以在确定出目标第二字符之后，继续将目标首字符、目标第二字符及题目输入初始解题模型，以确定预设的词表对应的第三概率分布，之后再基于第三概率分布，确定数学表达式中的目标第三字符。本公开对此不做限定。

可以理解的是，若基于概率分布，选取的数学表达式中的任一字符有多个，则将该任一字符与其他字符进行组合，生成的数学表达式也可能有多个，本公开对此不做限定。

比如，基于第一概率分布，确定的数学表达式中的目标首字符为d₁、d₃、d₅,基于第二概率分布，确定的数学表达式中的第二字符为：+及*。则生成的数学表达式可能为：d₁+、d₃+、d₅+、d₁*、d₃*、d₅*，本公开对此不做限定。

步骤207，根据数学表达式及目标答案，确定当前的奖励值。

步骤208，将题目与数学表达式，输入初始解题模型，以确定数学表达式对应的概率值。

可选的，若同一个题目，经初始解题模型处理后，生成的数学表达式有多个，可以随机选取其中一个数学表达式来确定当前的奖励值，并基于该数学表达式，来确定对应的概率值。

比如，将题目1输入至初始解题模型处理后，生成的数学表达式有多个，分别为数学表达式1、数学表达式2、数学表达式3。若随机选取数学表达式2，来确定当前的奖励值，之后可以将题目1与数学表达式2输入初始解题模型中，确定该数学表达式2对应的概率值。本公开对此不做限定。

步骤209，根据概率值及奖励值，确定当前的损失值。

步骤210，基于损失值，对初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至损失值满足预设条件。

需要说明的是，步骤207至步骤210的具体内容及实现方式，可以参照本公开其他各实施例的说明，此处不再赘述。

本公开实施例，可以先获取训练数据集，之后将题目输入初始解题模型，以确定预设的词表对应的第一概率分布，再基于第一概率分布，确定数学表达式中的目标首字符，之后将目标首字符及题目输入初始解题模型，以确定预设的词表对应的第二概率分布，再基于第二概率分布，确定数学表达式中的目标第二字符，之后重复执行上述确定所述预设的词表对应的概率分布的操作，直至生成数学表达式，再根据数学表达式及目标答案，确定当前的奖励值、对应的概率值以及当前的损失值，再基于损失值，对初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练。由此，在模型训练过程中，可以利用较易获得的题目和答案作为训练数据集，之后可以利用强化学习的方法，结合蒙特卡洛算法，利用题目和答案对训练生成准确的解题模型，从而在不损失解题模型性能的情况下，降低了解题模型的成本。

上述实施例，在模型训练过程中，将题目输入初始解题模型之后，可以根据预设的词表对应的概率分布，依次确定数学表达式中的各个字符，直至生成数学表达式，之后再根据该数学表达式确定当前的奖励值、概率值以及损失值，再基于损失值对初始解题模型进行修正。在一种可能的实现方式中，可以先根据预设的映射规则，确定题目中每个运算数对应的运算量标识，并计算数学表达式对应的预测答案，之后根据预测答案与目标答案的匹配度，确定当前的奖励值，下面结合图3对上述过程进行详细说明。

图3为本公开实施例提供的一种数学解题模型的生成方法的流程示意图，如图3所示，该数学解题模型的生成方法，可以包括以下步骤：

步骤301，获取训练数据集，其中，训练数据集中包括多个题目与目标答案对。

步骤302，将题目输入初始解题模型，以确定题目对应的数学表达式。

步骤303，根据预设的映射规则，确定题目中每个运算数对应的运算量标识。

其中，预设的映射规则可以有多种，比如运算数与运算量标识按照运算数在题目中的顺序依次对应；或者运算数与运算量标识可以间隔对应，比如，第一个运算数对应第一个运算量标识，第二个预算数对应第三个运算量标识，第三个运算数对应第五个运算量标识等等，本公开对此不做限定。

举例来说，预设的映射规则为：运算数与运算量标识按照运算数在题目中的顺序依次对应。比如，题目为鸡兔同笼，共有274只脚，已知鸡比兔多23只，则鸡有多少只。若运算量标识为：d1、d2、d3、d4、d5、d6，则按照该预设的映射规则进行映射，可以确定出第一个运算数274对应的运算量标识为：d1，第二个运算数23对应的运算量标识为：d2。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中预设的映射规则、运算数、运算量标识等的限定。

步骤304，根据数学表达式中各个运算量标识对应的运算数，计算数学表达式对应的预测答案。

其中，可以将各个运算量标识对应的运算数代入到数学表达式中，经过计算，确定数学表达式对应的预测答案。

比如，数学表达式可以为：d1+d2*d3，若d1对应的运算数为10，d2对应的运算数为12，d3对应的运算数为5，则将d1、d2、d3各自对应的运算数代入该数学表达式中，可以得到预测答案：70。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中数学表达式、运算数、运算量标识等的限定。

步骤305，根据预测答案与目标答案的匹配度，确定当前的奖励值。

可选的，可以在预测答案与目标答案的匹配度大于或等于阈值的情况下，确定当前的奖励值为1。或者，在预测答案与所述目标答案的匹配度小于所述阈值的情况下，确定当前的奖励值为0。

其中，阈值可以为提前设定好的数值，本公开对此不做限定。

可以理解的是，可以采用任何可取的方式确定预测答案与目标答案之间的匹配度。比如可以采用编辑距离确定预测答案与目标答案之间的匹配度，或者也可以根据余弦相似度确定预测答案与目标答案之间的匹配度等等，本公开对此不做限定。

举例来说，阈值为0.98。根据余弦相似度确定出预测答案与目标答案之间的匹配度为0.5，其小于阈值0.98，则可以确定当前的奖励值为0。或者，经计算确定出预测答案与目标答案之间的匹配度为0.98，其与阈值相等，则可以确定当前的奖励值为1。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中阈值、匹配度等的限定。

步骤306，将题目与数学表达式，输入初始解题模型，以确定数学表达式对应的概率值。

步骤307，根据概率值及奖励值，确定当前的损失值。

步骤308，基于损失值，对初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至损失值满足预设条件。

需要说明的是，步骤305至步骤308的具体内容及实现方式，可以参照本公开其他各实施例的说明，此处不再赘述。

本公开实施例，可以先获取训练数据集，之后将题目输入初始解题模型，以确定题目对应的数学表达式，再根据预设的映射规则，确定题目中每个运算数对应的运算量标识，之后可以根据数学表达式中各个运算量标识对应的运算数，计算数学表达式对应的预测答案，并根据预测答案与目标答案的匹配度，确定当前的奖励值、对应的概率值以及当前的损失值，之后可以基于损失值，对初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至损失值满足预设条件。由此，在模型训练过程中，可以利用较易获得的题目和答案作为训练数据集，之后可以利用强化学习的方法，结合蒙特卡洛算法，利用题目和答案对训练生成准确的解题模型，从而在不损失解题模型性能的情况下，降低了解题模型的成本。

为了实现上述实施例，本公开还提出一种数学解题模型的生成装置。

图4为本公开实施例提供的一种数学解题模型的生成装置的结构示意图。

如图4所示，该数学解题模型的生成装置400，包括：获取模块410、第一确定模块420、第二确定模块430、第三确定模块440、第四确定模块450以及修正模块460。

其中，获取模块410，用于获取训练数据集，其中，所述训练数据集中包括多个题目与目标答案对。

第一确定模块420，用于将所述题目输入初始解题模型，以确定所述题目对应的数学表达式。

第二确定模块430，用于根据所述数学表达式及所述目标答案，确定当前的奖励值。

第三确定模块440，用于将所述题目与所述数学表达式，输入所述初始解题模型，以确定所述数学表达式对应的概率值。

第四确定模块450，用于根据所述概率值及所述奖励值，确定当前的损失值。

修正模块460，用于基于所述损失值，对所述初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至所述损失值满足预设条件。

可选的，所述第一确定模块420，包括：

第一确定单元，用于将所述题目输入所述初始解题模型，以确定预设的词表对应的第一概率分布，其中所述第一概率分布，用于表征所述预设的词表中每个候选字符分别为数学表达式中首字符的第一概率；

第二确定单元，用于基于所述第一概率分布，确定所述数学表达式中的目标首字符；

第三确定单元，用于将所述目标首字符及所述题目输入所述初始解题模型，以确定所述预设的词表对应的第二概率分布；

第四确定单元，用于基于所述第二概率分布，确定所述数学表达式中的目标第二字符；

生成单元，用于重复执行上述确定所述预设的词表对应的概率分布的操作，直至生成所述数学表达式。

可选的，所述第二确定单元，具体用于：

基于所述第一概率分布，采用最大随机贪心采样方法，从所述词表中选取所述数学表达式中的目标首字符。

可选的，所述第二确定模块430，包括：

第五确定单元，用于根据预设的映射规则，确定所述题目中每个运算数对应的运算量标识；

计算单元，用于根据所述数学表达式中各个运算量标识对应的运算数，计算所述数学表达式对应的预测答案；

第六确定单元，用于根据所述预测答案与所述目标答案的匹配度，确定当前的奖励值。

可选的，所述第六确定单元，具体用于：

在所述预测答案与所述目标答案的匹配度大于或等于阈值的情况下，确定所述当前的奖励值为1；

在所述预测答案与所述目标答案的匹配度小于所述阈值的情况下，确定所述当前的奖励值为0。

本公开实施例中的上述各模块的功能及具体实现原理，可参照上述各方法实施例，此处不再赘述。

本公开实施例的数学解题模型的生成装置，可以先获取训练数据集，其中，训练数据集中包括多个题目与目标答案对，之后将题目输入初始解题模型，以确定题目对应的数学表达式，之后可以根据数学表达式及目标答案，确定当前的奖励值，再将题目与数学表达式，输入初始解题模型，以确定数学表达式对应的概率值，之后可以根据概率值及奖励值，确定当前的损失值，再基于损失值，对初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至损失值满足预设条件。由此，在模型训练过程中，可以利用较易获得的题目和答案作为训练数据集，之后可以利用强化学习的方法，结合蒙特卡洛算法，利用题目和答案对训练生成准确的解题模型，从而在不损失解题模型性能的情况下，降低了解题模型的成本。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如数学解题模型的生成方法。例如，在一些实施例中，数学解题模型的生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的数学解题模型的生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数学解题模型的生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本公开的技术方案，可以先获取训练数据集，其中，训练数据集中包括多个题目与目标答案对，之后将题目输入初始解题模型，以确定题目对应的数学表达式，之后可以根据数学表达式及目标答案，确定当前的奖励值，再将题目与数学表达式，输入初始解题模型，以确定数学表达式对应的概率值，之后可以根据概率值及奖励值，确定当前的损失值，再基于损失值，对初始解题模型的参数进行修正，并对修正后的解题模型继续进行训练，直至损失值满足预设条件。由此，在模型训练过程中，可以利用较易获得的题目和答案作为训练数据集，之后可以利用强化学习的方法，结合蒙特卡洛算法，利用题目和答案对训练生成准确的解题模型，从而在不损失解题模型性能的情况下，降低了解题模型的成本。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数学解题模型的生成方法，其特征在于，包括：

根据所述数学表达式及所述目标答案，确定当前的奖励值；

根据所述概率值及所述奖励值，确定当前的损失值；

2.如权利要求1所述的方法，其特征在于，所述将所述题目输入初始解题模型，以确定所述题目对应的数学表达式，包括：

将所述题目输入所述初始解题模型，以确定预设的词表对应的第一概率分布，其中所述第一概率分布，用于表征所述预设的词表中每个候选字符分别为数学表达式中首字符的第一概率；

基于所述第一概率分布，确定所述数学表达式中的目标首字符；

将所述目标首字符及所述题目输入所述初始解题模型，以确定所述预设的词表对应的第二概率分布；

基于所述第二概率分布，确定所述数学表达式中的目标第二字符；

重复执行上述确定所述预设的词表对应的概率分布的操作，直至生成所述数学表达式。

3.如权利要求2所述的方法，其特征在于，所述基于所述第一概率分布，确定所述数学表达式中的目标首字符，包括：

4.如权利要求1-3任一所述的方法，其特征在于，所述数学表达式包括运算符及运算量标识，所述根据所述数学表达式及所述目标答案，确定当前的奖励值，包括：

根据预设的映射规则，确定所述题目中每个运算数对应的运算量标识；

根据所述数学表达式中各个运算量标识对应的运算数，计算所述数学表达式对应的预测答案；

根据所述预测答案与所述目标答案的匹配度，确定当前的奖励值。

5.如权利要求4所述的方法，其特征在于，所述根据所述预测答案与所述目标答案的匹配度，确定当前的奖励值，包括：

6.一种数学解题模型的生成装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述第一确定模块，包括：

8.如权利要求7所述的装置，其特征在于，所述第二确定单元，具体用于：

9.如权利要求6-8任一所述的装置，其特征在于，所述第二确定模块，包括：

10.如权利要求9所述的装置，其特征在于，所述第六确定单元，具体用于：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。