CN109858627A

CN109858627A - 一种推理模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN109858627A
Application number: CN201811583983.0A
Authority: CN
Inventors: 金霄然
Original assignee: Shanghai Ren Jing Information Technology Co Ltd
Current assignee: Shanghai Ren Jing Information Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-06-07
Anticipated expiration: 2038-12-24
Also published as: CN109858627B

Abstract

本公开实施例公开了一种推理模型的训练方法、装置、电子设备及存储介质，该推理模型的训练方法包括：通过针对训练样本中的当前题目，获取所述当前题目的当前题目状态；根据所述当前题目状态选取当前待执行动作；执行所述当前待执行动作，得到新的题目状态；将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件，这样的技术方案可以使推理模型能够不断积累解题经验，优化推理的准确率，训练出的推理模型在实际使用中可以实现对复杂初等数学题目的自动推理。

Description

一种推理模型的训练方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种推理模型的训练方法、装置、电子设备及存储介质。

背景技术

自动推理是机器解题的核心技术之一，是根据题目给定的条件、问题以及系统内部定义的一系列动作(推理规则)，通过执行动作对条件和问题不断进行变化，直到新的条件满足新的问题，即找出可行的解题路径。

目前的推理技术主要是基于前推、后推和双向搜索推理方法。这三种推理方法主要存在的问题是搜索空间随着条件、问题和推理规则的数量增加而几何级增长，因此只能用解决一些简单的推理问题。虽然在一些特定领域可以通过针对性设计独特的推理策略和优化方法，如几何推理的消点法，解决特定领域的复杂问题。但是这些方法局限于自身的领域无法推广，同时，这些方法依靠特定机械的方法和策略，无法达到类似人一样的推理的灵活性。

发明内容

本公开提供一种推理模型的训练方法、装置、电子设备及存储介质，可以实现对题目的自动推理。

第一方面，本公开实施例提供了一种推理模型的训练方法，包括：

针对训练样本中的当前题目，获取所述当前题目的当前题目状态；

根据所述当前题目状态选取当前待执行动作；

执行所述当前待执行动作，得到新的题目状态；

将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件；

其中，所述题目状态包括题目中的条件和问题。

进一步的，根据所述当前题目状态选取当前待执行动作，包括：

根据所述当前题目状态在动作数据库中获取相关解题动作；

根据预设的规则在所述相关解题动作中选取当前待执行动作。

进一步的，将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件之后，还包括：

当解题成功或失败时，根据预设的收益规则计算所述推理模型的收益值；

其中，所述解题成功包括：初始的题目条件满足题目问题时；所述解答不成功包括以下情况至少之一：

初始的题目条件不满足题目问题；

推理步骤超过预设长度；

题目状态的复杂度超过预设复杂度阈值。

进一步的，根据预设的规则在所述相关解题动作中选取当前待执行动作，包括：

根据预先设定的与所述解题动作相关的抽取概率选出当前待执行动作。

通过在神经网络模型中输入当前题目状态和各解题动作，预测所述各解题动作对应的收益；

选取收益值最大的解题动作为当前待执行动作。

获取一随机数，当随机数小于预设阈值时，从所述相关解题动作中随机选择一个动作作为当前待执行动作；

当所述随机数大于所述预设阈值时，通过在神经网络模型中输入当前题目状态和各解题动作，预测所述各解题动作对应的收益；选取收益值最大的解题动作为当前待执行动作。

进一步的，所述停止条件包括：推理完成和/或推理步骤超过预设步数；

在满足停止条件之后，还包括：

获取所述训练样本中下一题目对应的题目状态进行模型训练直至所述推理模型的推理成功率大于预设推理阈值率。

第二方面，本公开实施例提供了一种推理模型的训练装置，包括：

题目获取模块，用于针对训练样本中的当前题目，获取所述当前题目的当前题目状态；

动作选取模块，用于根据所述当前题目状态选取当前待执行动作；

动作执行模块，用于执行所述当前待执行动作，得到新的题目状态；

重复执行模块，用于将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件；

其中，所述题目状态包括题目中的条件和问题。

进一步的，所述动作选取模块包括：

解题动作选取单元，用于根据所述当前题目状态在动作数据库中获取相关解题动作；

执行动作选取单元，用于根据预设的规则在所述相关解题动作中选取当前待执行动作。

进一步的，所述装置还包括：收益计算模块，用于将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件之后，当解题成功或失败时，根据预设的收益规则计算所述推理模型的收益值；将计算的收益值按照预设分配规则分配给解答所述当前题目所执行的各动作，以作为使用所述推理模型进行解题时选取动作的依据；

其中，所述解题成功包括：初始的题目条件满足题目问题；所述解答不成功包括以下情况至少之一：

初始的题目条件不满足题目问题；

推理步骤超过预设长度；

题目状态的复杂度超过预设复杂度阈值。

可选的，执行动作选取单元具体用于：根据预先设定的与所述解题动作相关的抽取概率选出当前待执行动作。

进一步的，所述执行动作选取单元包括：第一选取动作子单元，用于通过在神经网络模型中输入当前题目状态和各解题动作，预测所述各解题动作对应的收益；选取收益值最大的解题动作为当前待执行动作。

进一步的，所述执行动作选取单元包括：第二选取动作子单元，用于获取一随机数，当随机数小于预设阈值时，从所述相关解题动作中随机选择一个动作作为当前待执行动作；当所述随机数大于所述预设阈值时，通过在神经网络模型中输入当前题目状态和各解题动作，预测所述各解题动作对应的收益；选取收益值最大的解题动作为当前待执行动作。

所述装置还包括：样本获取模块，用于在满足停止条件之后，获取所述训练样本中下一题目对应的题目状态进行模型训练直至所述推理模型的推理成功率大于预设推理阈值率。

第三方面，本公开实施例提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本公开实任意实施例中所述的一种推理模型的训练方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开实任意实施例中所述的一种推理模型的训练方法。

本公开实施例通过针对训练样本中的当前题目，获取所述当前题目的当前题目状态；根据所述当前题目状态选取当前待执行动作；执行所述当前待执行动作，得到新的题目状态；将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行当前待执行动作，直到满足停止条件的方法来训练推理模型。这样的技术方案可以使推理模型能够不断积累解题经验，优化解题动作搜索和推理的准确率，推理模型在实际使用中可以实现对复杂题目的自动推理。

附图说明

图1是本公开一实施例中的一种推理模型的训练方法的流程图；

图2是本公开另一实施例中的一种推理模型的训练方法的流程图；

图3是本公开另一实施例中的一种推理模型的训练方法的流程图；

图4是本公开另一实施例中的一种推理模型的训练方法的流程图；

图5是本公开另一实施例中的一种推理模型的训练装置的结构示意图；

图6是本公开另一实施例中的一种解题装置的结构示意图；

图7是本公开另一实施例中的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

本公开实施例提供了基于学习模型的题目自动推理方案，通过使用增强学习的训练框架，模型能够不断积累解题经验，优化解题准确率。该方案能够广泛应用于题目的自动推理，尤其是复杂的题目，如复杂初等数学题目等。下面结合实施例对模型的训练以及使用进行说明。

图1为本公开一实施例提供的一种推理模型的训练方法的流程图，本实施例可适用于题目自动推理模型的训练情况，该方法可以由推理模型装置来执行，该装置可通过软件和/或硬件实现，该方法具体包括如下步骤：

S110、针对训练样本中的当前题目，获取所述当前题目的当前题目状态。

其中，训练样本是用于对推理模型进行训练的样本题目。训练样本可以是预设数量的相关题目，示例性的，如果是初中数学相关的知识，则可以选取相关一定数量的初中数学题目。所述题目状态包括题目中的条件和问题，也可以视为题目当前的所有条件和问题的集合。条件和问题都可以设定一定的格式，比如由一阶谓词构成的形式化语言表示。示例性的，条件可以是已知一元二次方程x²-2x-3＝0，而相应的问题可以是求该方程的解。

S120、根据所述当前题目状态选取当前待执行动作。

其中，当前待执行动作是针对当前题目状态要执行的解题步骤。示例性的，如果是解一个一元二次方程，可以执行的步骤为因式分解或求根公式等解法，则相应的，当前待执行动作可以是因式分解或利用求根公式。

S130、执行所述当前待执行动作，得到新的题目状态。

其中，通过对当前题目状态执行选取的当前待执行动作，可以将当前题目状态转化为新的状态，得到新的题目状态，包括新的题目条件和题目问题。示例性的，在对待一个一元二次方程x²+2x-3＝0进行解答时，当执行动作是因式分解时，执行当前待执行动作后，新的题目状态则变为(x-1)(x+3)＝0。

S140、将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件。

其中，根据新的题目状态选取新的待执行动作，得到进一步的题目状态，重复执行上述S110到S130的步骤，直到满足停止条件，针对当前题目的训练过程结束。

可选的，所述停止条件包括：推理完成和/或推理步骤超过预设步数；

在满足停止条件之后，还包括：

其中，推理完成包括解题成功和解题失败，预设步数可以是预先设定的推理过程中将要执行的解题动作的个数。当推理过程中满足停止条件之后，可以按照训练样本中题目的设定顺序选取下一个题目进行训练。当推理模型训练完成后，可以选取一定数量的测试题目，通过将测试题目输入推理模型进行测试，根据测试题目推理成功的数量和所有测试题目的数量计算推理成功率。示例性的，预设推理阈值率可以是90％，当推理成功率达到90％时，则可以视为推理模型训练成功，不需要再进行推理模型的训练。

本实施例的技术方案，可以通过训练样本中题目推理的训练，使推理模型能够不断积累解题经验，使得推理模型的推理成功率达到预设推理阈值率，训练出的推理模型在实际使用中可以实现对复杂初等数学题目成功的自动推理。

图2是本公开另一实施例中提供的一种推理模型的训练方法的流程图，在上述实施例的基础上，可选的，根据所述当前题目状态选取当前待执行动作，包括：根据所述当前题目状态在动作数据库中获取相关解题动作；根据预设的规则在所述相关解题动作中选取当前待执行动作。如图2所示，该方法具体包括：

S210、针对训练样本中的当前题目，获取所述当前题目的当前题目状态。

S220、根据所述当前题目状态在动作数据库中获取相关解题动作。

S230、根据预设的规则在所述相关解题动作中选取当前待执行动作。

其中，解题动作是针对特定题目条件可以执行的解题步骤，所有的解题动作可以由动作名和输入变量表示。动作数据库中存储有大量相关的解题动作，比如因式分解，求根公式和三角函数求解等解题动作。示例性的，如果求解一元二次方程的x²+2x-3＝0解时，相关的解题动作则可以是因式分解或求根公式等。预设的规则可以是预先设定的用于选取待执行的解题动作的规则，比如预设的规则可以是随机选取。

S240、执行所述当前待执行动作，得到新的题目状态。

S250、将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件。

可选的，根据预设的规则在所述相关解题动作中选取当前待执行动作，包括：根据预先设定的与所述解题动作相关的抽取概率选出当前待执行动作。

其中，与解题动作相关的抽取概率可以用于按照抽取概率的大小在选取执行动作进行解题时选取待执行动作。即可以针对题目状态为相关解题动作设置一定的抽取概率，在选取当前待执行动作时选择抽取概率大的解题动作。

可选的，根据预设的规则在所述相关解题动作中选取当前待执行动作，包括：

选取收益值最大的解题动作为当前待执行动作。

其中，可以通过深度神经网络模型将题目条件和题目问题由形式语言构成的解题动作—题目状态转换成连续向量，并预测向量的Q值，Q为动作效用函数(action-utilityfunction)，用于评价在特定状态下采取某个解题动作的优劣，也可以视为解题动作—题目状态的加权长期收益。每个题目状态所对应的解题动作都有一个效用值，可以作为收益值，可以选择收益值较大的动作作为当前题目状态中解题时要选择的待执行动作。

其中，由于如果每次都采取当前题目状态收益值最大的解题动作，可能是局部解答最优的情况，但是有可能错过题目整体的最优的解题动作。因此，可以进行在解题动作中随机选取。当然也可以在一定条件下利用随机选取规则进行选取，一定的条件下可以选取上述的选取收益值大的解题动作。具体的，可以利用随机数发生器等装置或程序生成随机数，如果随机数小于预设阈值，则随机选取解题动作，如果随机数大于阈值，则选取收益值大的解题动作。需要说明的是，在本公开实施例中，也可以利用其他方法选取题目状态对应的解题动作，在此并不限制。

本公开实施例提供的技术方案，通过在题目推理过程中根据预设的规则在解题动作中选取待执行的动作，随机选取动作可以视为一个试错的推理过程，可以在不断的训练中得到更优的推理模型。在选取当前待执行动作时选择抽取概率大的解题动作或收益值最大的解题动作，在判断出某个解题动作的优劣情况下，执行更优的解题动作进行训练，使推理模型能够不断积累解题经验，优化选取执行动作的准确率和推理的准确率，训练出的推理模型在实际使用中可以实现对复杂初等数学题目的自动推理。

图3是本公开另一实施例中提供的一种推理模型的训练方法，在上述实施例的基础上，可选的，将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件之后，还包括：当解题成功或失败时，根据预设的收益规则计算所述推理模型的收益值；将计算的收益值按照预设分配规则分配给解答所述当前题目所执行的各动作，以作为使用所述推理模型进行解题时选取动作的依据。如图3所示，所述方法包括：

S310、针对训练样本中的当前题目，获取所述当前题目的当前题目状态。

S320、根据所述当前题目状态选取当前待执行动作。

S330、执行所述当前待执行动作，得到新的题目状态。

S340、将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件。

其中，所述解题成功包括：初始的题目条件满足题目问题；所述解题不成功包括以下情况至少之一：

初始的题目条件不满足题目问题；

推理步骤超过预设长度；

题目状态的复杂度超过预设复杂度阈值。

其中，初始的题目条件满足题目问题可以视为在解题结果代入到样本题目时，题目条件满足题目问题。示例性的，在解答x²+2x-3＝0时，求的解题结果为x＝-1或x＝3，将x＝-1或x＝3代入到方程x²+2x-3＝0时，题目条件是满足题目问题的，即题目解答结果是正确的。推理步骤的长度可以视为解题过程中执行的解题动作的个数，题目状态的复杂度可以为公式的公式字符或参数的多少，也可以是未知数增多或解题难度增大等情况，相应的复杂度阈值可以是未知数的个数或公式字符的个数等。

S350、当解题成功或失败时，根据预设的收益规则计算所述推理模型的收益值。

其中，预设的收益规则可以是预先设定的与训练结果相关的奖惩机制。示例性的，当解题成功时，解题结束，给予推理模型正向的奖励。比如可以在收益属性值上加5；当解题失败，比如解题步骤超过预设长度或者题目状态复杂度超过设定阈值时，给予推理模型负向的惩罚，比如可以在收益属性值上减5。进一步的，可以在对应的解题动作中反馈预设的收益值。

S360、将计算的收益值按照预设分配规则分配给解答所述当前题目所执行的各动作，以作为使用所述推理模型进行解题时选取动作的依据。

其中，预设的分配规则可以是预先设定的将计算的收益值反馈至解题过程中各执行动作的规则。比如可以是平均分配或是按照其他设定的权重规则进行分配。示例性的，如果解题成功时，可以在解题中执行的各个解题动作给予奖励，收益属性值分别加1，相应的，如果失败，则相应的，可以在解题中执行的各个解题动作给予惩罚，收益属性值分别减1。在计算推理模型的收益或是进行奖惩后，使得下次再遇到相同的题目状态时，可以根据当前题目状态来采取收益属性值大的解题动作，可以据此选出更优的解题动作，使得推理模型的训练的得到强化。

本实施例的技术方案，通过在计算推理模型的收益或是进行奖惩后，在根据当前题目状态选取收益值最大的解题动作，执行更优的解题动作进行训练，使得下次再到相同题目状态时，推理模型能做出更优的动作。使得推理模型的准确率和效率更高，在实际使用过程中，题目的解答时实现更加准确的自动推理。

图4是是本公开另一实施例中提供的一种解题方法，本实施例可适用于解答题目的情况，该方法可以由解题装置来执行，如图4所示，具体包括如下步骤：

S410、将待解题目输入预设的推理模型中，其中，所述推理模型按照本公开任意实施例所述的推理模型的训练方法训练得到；

S420、获取所述推理模型的输出结果，作为解题步骤，直到所述待解题目解答完毕。

具体的，获取所述推理模型的输出结果可以按照推理模型训练方法进行解题。示例性的，待解题目输入后，识别出待解题目的题目状态，比如条件和问题，根据题目状态选择待执行动作并执行，得到新的题目状态，在新的题目状态下，继续选择待执行动作，直到解答完毕。具体可以依据模型训练过程中分配给动作的收益值来选取题目状态对应的最优动作。其中，解答完毕可以包括：解题成功，解题失败或解题步骤超过预设步数。在解题成功时，可以将各执行动作下的输出结果作为解题步骤。选择执行动作的方法可以参见上述实施例，在此不再赘述。

本实施例的技术方案，通过本公开实施例中的推理模型的训练方法训练出来的推理模型提供了一个通用的初等数学自动推理方法，在实际使用中可以实现对复杂初等数学题目的自动推理。

图5为本公开另一实施例提供的一种推理模型的训练装置的结构示意图，该装置可通过软件和/或硬件实现。如图5所示，所述装置包括：

题目获取模块510，用于针对训练样本中的当前题目，获取所述当前题目的当前题目状态；

动作选取模块520，用于根据所述当前题目状态选取当前待执行动作；

动作执行模块530，用于执行所述当前待执行动作，得到新的题目状态；

重复执行模块540，用于将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件；

其中，所述题目状态包括题目中的条件和问题。

可选的，动作选取模块520包括：

可选的，所述装置还包括：收益计算模块，用于将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件之后，当解题成功或失败时，根据预设的收益规则计算所述推理模型的收益值；将计算的收益值按照预设分配规则分配给解答所述当前题目所执行的各动作，以作为使用所述推理模型进行解题时选取动作的依据；

初始的题目条件不满足题目问题；

推理步骤超过预设长度；

题目状态的复杂度超过预设复杂度阈值。

可选的，所述执行动作选取单元包括：第一选取动作子单元，用于通过在神经网络模型中输入当前题目状态和各解题动作，预测所述各解题动作对应的收益；选取收益值最大的解题动作为当前待执行动作。

可选的，所述执行动作选取单元包括：第二选取动作子单元，用于获取一随机数，当随机数小于预设阈值时，从所述相关解题动作中随机选择一个动作作为当前待执行动作；当所述随机数大于所述预设阈值时，通过在神经网络模型中输入当前题目状态和各解题动作，预测所述各解题动作对应的收益；选取收益值最大的解题动作为当前待执行动作。

本公开实施例所提供的一种推理模型的训练装置，可执行本公开任意实施例所提供的一种推理模型的训练方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本公开任意实施例提供的一种推理模型的训练方法。

图6为本公开另一实施例提供的一种解题装置的结构示意图，该装置可通过软件和/或硬件实现。如图6所示，所述装置包括：

题目输入模块610，用于将待解题目输入预设的推理模型中，其中，所述推理模型按照本公开任意实施例所述的推理模型的训练方法训练得到；

结果输出模块620，用于获取所述推理模型的输出结果，作为解题步骤，直到所述待解题目解答完毕。

本公开实施例所提供的一种解题装置，可执行本公开任意实施例所提供的一种解题方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本公开任意实施例提供的一种解题方法。

参考图7，其示出了适于用来实现本公开实施例的电子设备700的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：针对训练样本中的当前题目，获取所述当前题目的当前题目状态；

根据所述当前题目状态选取当前待执行动作；

执行所述当前待执行动作，得到新的题目状态；

其中，所述题目状态包括题目中的条件和问题。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块或单元的名称在某种情况下并不构成对该单元本身的限定。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

注意，上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解，本公开不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此，虽然通过以上实施例对本公开进行了较为详细的说明，但是本公开不仅仅限于以上实施例，在不脱离本公开构思的情况下，还可以包括更多其他等效实施例，而本公开的范围由所附的权利要求范围决定。

Claims

1.一种推理模型的训练方法，其特征在于，包括：

根据所述当前题目状态选取当前待执行动作；

执行所述当前待执行动作，得到新的题目状态；

其中，所述题目状态包括题目中的条件和问题。

2.根据权利要求1所述的方法，其特征在于，根据所述当前题目状态选取当前待执行动作，包括：

根据所述当前题目状态在动作数据库中获取相关解题动作；

3.根据权利要求2所述的方法，其特征在于，根据预设的规则在所述相关解题动作中选取当前待执行动作，包括：

4.根据权利要求2所述的方法，其特征在于，根据预设的规则在所述相关解题动作中选取当前待执行动作，包括：

选取收益值最大的解题动作为当前待执行动作。

5.根据权利要求2所述的方法，其特征在于，根据预设的规则在所述相关解题动作中选取当前待执行动作，包括：

6.根据权利要求1所述的方法，其特征在于，将所述新的题目状态作为当前题目的当前题目状态，继续选取并执行相应的当前待执行动作，直到满足停止条件之后，还包括：

将计算的收益值按照预设分配规则分配给解答所述当前题目所执行的各动作，以作为使用所述推理模型进行解题时选取动作的依据；

初始的题目条件不满足题目问题；

推理步骤超过预设长度；

题目状态的复杂度超过预设复杂度阈值。

7.根据权利要求1所述的方法，其特征在于，所述停止条件包括：推理完成和/或推理步骤超过预设步数；

在满足停止条件之后，还包括：

8.一种推理模型的训练装置，其特征在于，包括：

其中，所述题目状态包括题目中的条件和问题。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的一种推理模型的训练方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的一种推理模型的训练方法。