CN110443369A

CN110443369A - 基于机器学习的定理证明方法、装置、电子设备及存储介质

Info

Publication number: CN110443369A
Application number: CN201910713930.4A
Authority: CN
Inventors: 施智平; 唐晨阳; 张倩颖; 王国辉; 李希萌; 关永
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2019-11-12

Abstract

本公开实施例公开了一种基于机器学习的定理证明方法、装置、电子设备及存储介质，所述基于机器学习的定理证明方法包括根据目标命题获取所述目标命题的中间推理步骤；利用预先训练好的识别模型从所述中间推理步骤中确定能够用于证明所述目标命题的目标推理步骤；通过形式化定理证明方式利用所述目标推理步骤证明所述目标命题。该技术方案简化了目标命题的证明过程，压缩了中间推理步骤的搜索空间，提高了命题证明的效率及自动化程度。

Description

基于机器学习的定理证明方法、装置、电子设备及存储介质

技术领域

本公开涉及机器定理证明技术领域，具体涉及一种基于机器学习的定理证明方法、装置、电子设备及存储介质。

背景技术

机器定理证明是基于数理逻辑理论把数学定理证明和逻辑演绎推理在计算机上自动或交互进行的符号演算的过程和技术，定理证明是验证数学证明以及安全攸关系统正确性的重要方法，同时也是构建计算机可以理解的数学知识库和推动人工智能发展的重要基础之一。

在定理证明器中证明一个目标命题(猜想)时，需要以系统中已有的定义、公理或定理等(统称为引理)为前提，尝试大量的中间推理步骤，最终找到抵达目标的推理路线从而完成证明。这些中间推理步骤有的对完成证明有用，成为最终证明路径中的单元，有的对完成证明无用，不会出现在最终证明路径中。若在证明过程中对所有相关的引理都进行推理，或将所有的中间推理步骤都继续向前搜索推理路径，则很快会造成组合爆炸。同时，现有的机器定理证明中的模型都是监督学习模型，需要标注相当数量的正例和反例，定理证明器中已有的证明数据都可以作为正例，但是反例需要专门收集大量无用的推理步骤或者专门生成无用的推理步骤，这一过程需要耗费大量时间和精力。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种基于机器学习的定理证明方法、装置、电子设备及存储介质。

第一方面，本公开实施例中提供了一种基于机器学习的定理证明方法。

具体地，所述基于机器学习的定理证明方法，包括：

根据目标命题获取所述目标命题的中间推理步骤；

利用预先训练好的识别模型从所述中间推理步骤中确定能够用于证明所述目标命题的目标推理步骤；

通过形式化定理证明方式利用所述目标推理步骤证明所述目标命题。

可选地，所述根据目标命题获取所述目标命题的中间推理步骤，包括：

将所述目标命题分解为多个目标子命题；

根据所述目标命题的预设引理和/或预设推理规则，对所述目标子命题进行推理获取多个中间推理步骤。

可选地，所述预设推理规则包括以下规则中的至少一种：重写规则、简化规则、归纳规则、反证规则、约束条件规则、逆推规则。

可选地，还包括：

获取样本数据；其中，所述样本数据包括定理证明的真实推理步骤；

利用生成对抗网络模型中的生成模型得到生成数据；

将所述生成数据和所述样本数据输入至所述生成对抗网络模型中的判别模型进行训练，得到所述识别模型。

可选地，所述利用生成对抗网络模型中的生成模型得到生成数据，包括：

将随机截断正态分布函数生成的数值序列作为噪音数据，其中，所述数值取值范围为0-86；

利用所述噪音数据训练生成对抗网络模型中的生成模型；

利用已训练好的所述生成模型获取生成数据。

可选地，所述判别模型的训练次数大于或等于所述生成模型的训练次数。

可选地，所述利用预先训练好的识别模型从所述中间推理步骤中确定能够用于证明所述目标命题的目标推理步骤，包括：

将所述中间推理步骤表示为字符形式的中间推理步骤；

将所述字符形式的中间推理步骤表示为独热编码的向量矩阵；

将所述独热编码的向量矩阵输入至所述识别模型，以判别所述中间推理步骤是否为目标推理步骤。

第二方面，本公开实施例中提供了一种基于机器学习的定理证明装置。

具体地，所述基于机器学习的定理证明装置，包括：

获取模块，被配置为根据目标命题获取所述目标命题的中间推理步骤；

确定模块，被配置为利用预先训练好的识别模型从所述中间推理步骤中确定能够用于证明所述目标命题的目标推理步骤；

证明模块，被配置为通过形式化定理证明方式利用所述目标推理步骤证明所述目标命题。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤：

根据目标命题获取所述目标命题的中间推理步骤；

第四方面，本公开实施例中提供了一种可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面任一项所述的方法。

根据本公开实施例提供的技术方案，首先将目标命题分解为多个目标子命题，该步骤对应机器定理证明过程中的前提选择，再根据目标命题的预设引理和/或预设推理规则，对目标子命题进行推理获取多个中间推理步骤，该步骤对应机器定理证明过程中的步骤选择，由于前提选择和步骤选择是两种不同的任务，通过提前进行前提选择和步骤选择，排除对完成证明无用的中间推理步骤，可以指数倍地压缩搜索空间，提高命题证明的效率和自动化程度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开的实施例的基于机器学习的定理证明方法的流程图；

图2示出根据本公开的实施例的根据目标命题获取所述目标命题的中间推理步骤的流程图；

图3示出根据本公开的实施例的基于机器学习的定理证明方法的流程图；

图4A示出根据本公开的实施例的生成对抗网络模型的结构图；

图4B示出根据本公开的实施例的生成对抗网络模型中的生成模型402的结构图；

图4C示出根据本公开的实施例的生成对抗网络模型中的判别模型401的结构图；

图5示出根据本公开的实施例的基于机器学习的定理证明装置的结构框图；

图6示出根据本公开的实施例的电子设备的结构框图；

图7示出适于用来实现根据本公开的实施例的基于机器学习的定理证明方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出根据本公开的实施例的基于机器学习的定理证明方法的流程图。如图1所示，所述基于机器学习的定理证明方法包括以下步骤S101-S103：

在步骤S101中，根据目标命题获取所述目标命题的中间推理步骤；

在步骤S102中，利用预先训练好的识别模型从所述中间推理步骤中确定能够用于证明所述目标命题的目标推理步骤；

在步骤S103中，通过形式化定理证明方式利用所述目标推理步骤证明所述目标命题。

根据本公开的实施例，由于直接证明目标命题存在一定的复杂度，因此，可以利用与目标命题相关的已有引理，选取合适的推理规则，获取在目标命题的证明过程中可能会用到的中间推理步骤。其中，引理包括但不限于定义、公理和定理等。

如上文所示，这些中间推理步骤有的对完成命题证明有用，成为最终证明路径中的单元，有的对完成命题证明无用，不会出现在最终证明路径中，若将所有的中间推理步骤都继续向前搜索证明路径，则很快会造成组合爆炸。因此，根据本公开的实施例，可以利用预先训练好的识别模型对目标命题的中间推理步骤进行识别，将能够用于证明目标命题是否成立的中间推理步骤确定为目标推理步骤，而剔除不能用于证明目标命题是否成立的中间推理步骤，从而压缩搜索空间，提高目标命题证明的效率及自动化程度。

当确定目标推理步骤之后，可以结合与目标命题相关的已有引理，及获取目标推理步骤时所采用的推理规则，通过形式化定理证明方式证明所述目标命题。例如，目标命题为“若一个可逆矩阵A的转置等于该矩阵的逆矩阵，则该矩阵A的行列式等于正负1”，该目标命题可表示为(P∧Q)→R∨S，其中，P表示矩阵A是一个可逆矩阵，Q表示矩阵A的转置等于该矩阵的逆矩阵，R表示矩阵A的行列式等于1，S表示矩阵A的行列式等于-1。首先，利用矩阵A的行列式等于正负1等价于该矩阵A的行列式的平方等于1的性质，即已知定理结合重写规则，获取中间推理步骤1为(P∧Q)→W，即“若一个可逆矩阵A的转置等于该矩阵的逆矩阵，则该矩阵A行列式的平方等于1”；其次，利用正交矩阵A等价于该矩阵可逆且矩阵A的转置等于该矩阵的逆矩阵，即已知定理结合重写规则，简化中间推理步骤1，得到中间推理步骤2为K→W；最后，利用已知的正交矩阵的行列式的平方等于1的性质(即K→W)结合简化规则简化中间推理步骤2，从而完成目标命题的证明。

根据本公开实施例提供的技术方案，通过获取目标命题的中间推理步骤，再利用预先训练好的识别模型从中间推理步骤中确定能够用于证明目标命题的目标推理步骤，最后通过形式化定理证明方式利用所述目标推理步骤证明目标命题，简化了目标命题的证明过程，压缩了中间推理步骤的搜索空间，提高了命题证明的效率及自动化程度。

图2示出根据本公开的实施例的根据目标命题获取所述目标命题的中间推理步骤的流程图。如图2所示，所述步骤S101，包括以下步骤S201-S202：

在步骤S201中，将所述目标命题分解为多个目标子命题；

在步骤S202中，根据所述目标命题的预设引理和/或预设推理规则，对所述目标子命题进行推理获取多个中间推理步骤；

根据本公开的实施例，为分解目标命题的证明过程，简化目标命题的证明难度，可以根据目标命题中包含的逻辑关系，将目标命题分解为多个目标子命题。目标命题可以包括由逻辑关系连接的多个子命题，目标子命题则是根据目标命题中所包括的逻辑关系从多个子命题中确定的一个或者多个子命题。例如，目标命题中包含逻辑与关系时，可将目标命题分解为该逻辑与关系连接的前后两个子命题，而由于目标命题的证明与该逻辑与关系前后的两个子命题均相关，因此可以确定该逻辑与关系的前后两个子命题均为目标命题的目标子命题，比如：目标命题为P∧Q∧R时，则目标命题可以分解为三个目标子命题P、Q和R。再例如，目标命题中包含逻辑或关系时，可将目标命题分解为该逻辑或关系连接的前后两个子命题，只要证明前后两个子命题中任一子命题为真，即可确定目标命题为真，因此可以优选证明难度最小的子命题作为目标子命题，例如：目标命题为P∨Q∨R时，可将目标命题分解为三个目标子命题P、Q或R，若目标子命题P的证明难度最小，则将目标子命题确定为P。再例如，目标命题中包含推导关系时，可通过引入中间命题，将目标命题分解为多个目标子命题，例如：目标命题为P→R时，可根据目标命题证明过程中可能出现的引理加入中间命题Q，将目标命题分解为两个目标子命题P→Q、Q→R。可以理解的是，在目标命题中包括多个逻辑关系时，可以先根据其中一个第一级逻辑关系分解成两个子命题，如果分解得到的两个子命题中依然包括逻辑关系时，可以继续对该子命题进行分解，直到所有子命题中的逻辑关系均分解完成为止，最后可以根据分解的逻辑关系从中选定目标子命题。

根据本公开的实施例，先根据目标命题中涉及到的数学概念找到相关的定义或者性质，再根据经验或数学参考资料等选取合适的预设引理，其中，预设引理包括定义、定理和公理等。其中，预设引理的数量可以为一个或多个，本公开对其不做具体限定，可以根据实际情况进行选择。例如，目标命题为证明恒等函数的性质，即对于所有自变量x，恒等函数的因变量I(x)等于自变量x，则可以将目标命题中涉及到的恒等函数的定义作为预设引理。

根据本公开的实施例，当确定预设引理之后，可以结合预设引理，选取合适的预设推理规则，对目标子命题进行推理获取多个中间推理步骤。其中，预设推理规则的数量可以为一个或多个，本公开对其不做具体限定，可以根据实际情况进行选择。由于针对相同含义子命题的不同形式在使用时可以简化推理过程，(例如，子命题第一形式P→Q等价于子命题第二形式～P∨Q，即子命题的这两种形式不同，但是具有相同的含义)优选地，预设推理规则的数量可以为多个，可以根据不同推理规则对目标子命题进行推理，从而获取多个不同中间推理步骤。例如，目标命题为三个内角a、b、c相等的三角形是一个等边三角形，且其内角等于60度，由于该目标命题是逻辑与的关系，首先可以将该目标命题分解为两个目标子命题，其中，目标子命题1为三个内角相等的三角形是等边三角形，目标子命题2为三个内角相等的三角形的内角等于60度；针对目标子命题1，可以根据目标命题的预设定理(三边相等的三角形是等边三角形、内角相等的三角形的对应边相等)和预设推理规则(简化规则、重写规则)，对目标子命题1进行推理，根据两个不同的预设定理可获得两个不同的中间推理步骤，其中，中间推理步骤1为三个内角相等的三角形的三边相等，中间推理步骤2为三边相等的三角形是等边三角形。

根据本公开实施例提供的技术方案，首先将目标命题分解为多个目标子命题，该步骤对应机器定理证明过程中的前提选择，再根据目标命题的预设引理和/或预设推理规则，对目标子命题进行推理获取多个中间推理步骤，该步骤对应机器定理证明过程中的步骤选择，由于前提选择和步骤选择是两种不同的任务，通过提前进行前提选择和步骤选择，排除对完成证明无用的中间推理步骤，可以指数倍地压缩搜索空间，提高机器学习的定理证明效率和自动化程度。

根据本公开的实施例，所述预设推理规则包括以下规则中的至少一种：重写规则、简化规则、归纳规则、反证规则、约束条件规则、逆推规则。

重写规则是指利用已成立的定理或公理重写目标子命题，例如，目标子命题为(P∧Q)→R，假如Q为已成立定理，则利用重写规则，对目标子命题进行重写可以得到中间推理步骤为P→R。

简化规则是指利用已成立的定理或公理简化目标子命题，也即目标命题中已成立的定理或公理引入目标命题后简化目标命题，包括重写和蕴含式的简化，例如，目标子命题为(P∧Q)→R，假设～Q(非Q)为已成立定理，则利用简化规则，对目标子命题进行简化可以获取中间推理步骤为永真式T，其中，T表示true，表示布尔值真，恒成立的命题称为永真式，一般写成T的形式。

归纳规则是指针对目标子命题中的变量做数学上的归纳证明，即先证明i＝0时成立，再根据假设i＝n时成立证明i＝n+1时成立，例如，目标子命题为(！i.P i)，则利用归纳规则，对目标子命题进行推理获取中间推理步骤为(i＝0→P 0)和(P(n)→P(n+1))。

反证规则是指通过反证法证明目标子命题，例如，目标子命题为P→R，则利用反证规则，对目标子命题进行推理获取中间推理步骤为～R→～P(非R推出非P)。

约束条件规则是指根据目标子命题隐含的性质(已成立)添加前置约束条件，例如，目标子命题为P→R，则利用约束条件规则，可以添加隐含性质Q，对目标子命题进行推理获取中间推理步骤(P∧Q)→R。

逆推规则是指根据已成立的公理或定理对目标子命题进行逆推，即证明充分条件，例如，目标子命题为R，则利用逆推规则，根据已成立的定理P→R，改变目标命题为P。

图3示出根据本公开的实施例的基于机器学习的定理证明方法的流程图。如图3所示，所述基于机器学习的定理证明方法还包括以下步骤S301-S303：

在步骤S301中，获取样本数据；其中，所述样本数据包括定理证明的真实推理步骤；

在步骤S302中，利用生成对抗网络模型中的生成模型得到生成数据；

在步骤S303中，将所述生成数据和所述样本数据输入至所述生成对抗网络模型中的判别模型进行训练，得到所述识别模型。

生成对抗网络模型的基本原理是同时训练两个模型，分别为生成模型和判别模型，其中，生成模型生成尽可能接近真实的数据样本，目标是让判别模型无法区分真实样本和生成样本；判别模型则努力判别真实样本和生成样本，两个模型互相对抗彼此成全。根据本公开的实施例，将生成对抗网络模型用于确定中间推理步骤是否为目标推理步骤。

根据本公开的实施例，在HolStep数据集上训练生成对抗网络模型，其中，HolStep数据集取自Hol light系统中的多元分析库和kepler猜想证明库中的证明文件，从11410个复杂定理证明中提取证明步骤，并生成有用和没有用的推理步骤，得到2013046个训练样本和196030个测试样本。在HolStep中的每个公式有两种表达方式，分别为字符表示和Token表示，实验表明Token方式不能提高分类效果，本公开的实施例选用字符表示方式。对所有命题中出现的字符进行统计分析，共有86个不同字符，每个字符用86维热独编码表示。HolStep的训练集包含2013046个正反例，本公开的生成对抗网络模型用1006523个正例即定理证明的真实推理步骤作为判别模型的样本数据，测试数据为HolStep测试集的196030个测试样本。

图4A示出根据本公开的实施例的生成对抗网络模型的结构图。如图4A所示，首先获取判别模型401的样本数据即真实样本数据，其中，样本数据包括定理证明的真实推理步骤，其中，真实推理步骤是指进行定理证明时实际用到的推理步骤，并将真实推理步骤的文字内容用字符形式表示出来，再表示为独热编码的向量矩阵，其次利用生成对抗网络模型中的生成模型402得到生成数据，且生成数据用独热编码的向量矩阵表示，最后将生成数据和样本数据输入至对抗网络模型中的判别模型401中进行训练，得到识别模型。其中，样本数据和生成数据在输入至判别模型401时，均以独热编码方式进行编码。该实施方式避免了专门收集大量无用的反例数据，提高训练识别模型的效率。

图4B示出根据本公开的实施例的生成对抗网络模型中的生成模型402的结构图。如图4B所示，所述生成模型402依次包括：嵌入层、第一卷积层、最大池化层、第二卷积层、第三卷积层、第四卷积层和全局最大池化层，其中，所述嵌入层的作用是为了压缩输入数据空间，所述第一卷积层、第二卷积层、第三卷积层和第四卷积层的作用是为了提取数据特征，所述最大池化层的作用是为了强化有效数据特征，所述全局最大池化层的作用是将卷积核中的最大特征值覆盖该卷积核中的所有特征值，从而选择出最明显的特征值。由于在训练生成模型402时，数据是以独热编码方式输入的，由于独热编码方式在处理离散特征时可以将其映射到欧式空间，在分类、回归、聚类等机器学习算法中，特征之间的相似度都以欧式空间距离来衡量，但是独热编码在处理大规模文本数据集时会产生十分稀疏的矩阵，太过稀疏的矩阵会增加计算量，因此，本公开使用嵌入层作为生成模型402的第一层。

图4C示出根据本公开的实施例的生成对抗网络模型中的判别模型401的结构图。如图4C所示，所述判别模型401依次包括：第一全连接层、转换层(Reshape)、第五卷积层、第一随机失活层(Dropout)、第六卷积层、第二随机失活层、第七卷积层、第三随机失活层、第八卷积层、第四随机失活层、长短期记忆网络层(LSTM)、平铺层(Flatten)、第二全连接层和二分类层，其中，所述第一全连接层的作用是将“分布式特征表示”映射到样本标记空间，从而为分类做准备，所述Reshape层的作用是将数据规范到预设的张量范围内，所述第五卷积层、第六卷积层、第七卷积层和第八卷积层的作用是为了提取数据特征，所述第一随机失活层、第二随机失活层、第三随机失活层和第四随机失活层的作用是避免过拟合从而保证生成对抗网络模型活性，所述LSTM层的作用是保证数据的有效信息能在较长的长度下被保存下来，所述Flatten层的作用是将输入数据“压平”，即把多维的输入数据进行一维化，常用在从卷积层到全连接层的过渡，所述第二全连接层的作用是强化样本空间，提高分类准确率，所述二分类层使用Sigmoid激活函数和逻辑回归损失函数的组合。

根据本公开的实施例，训练生成对抗网络模型的具体参数为：生成模型中，第一卷积层、第二卷积层、第三卷积层和第四卷积层的卷积核大小均为3，输出维度均为256；判别模型中，第五卷积层、第六卷积层、第七卷积层和第八卷积层的卷积核分别为(5，5，3，3)，输出维度分别为(256，128，64，32)。生成对抗网络模型中所有卷积层的激活函数均为ReLU，并在每层卷积层之间加入批量正则化，动量参数(Momentum)设为0.8，其中动量参数是指控制梯度下降速度的参数，可以防止梯度过快的向相反方向改变，从而可以稳定学习过程。第一随机失活层、第二随机失活层、第三随机失活层和第四随机失活层的随机失活参数均为0.25。使用Adam优化器训练，学习率最好是0.0002，其中，学习率是指控制梯度下降程度的参数，越大的学习率带来的梯度下降效果越好。生成模型和判别模型的损失函数为交叉熵函数(Cross Entropy Loss)。训练过程中对判别模型生成数据和样本数据的输出损失函数的结果取均值作为总的损失。

根据本公开的实施例，所述步骤S302，即所述利用生成对抗网络模型中的生成模型得到生成数据，包括以下步骤：

利用所述噪音数据训练生成对抗网络模型中的生成模型；

利用已训练好的所述生成模型获取生成数据。

由于本公开在HolStep数据集上训练生成对抗网络模型，且HolStep中的每个公式采用字符表示方式，同时每个字符用86维热独编码表示，根据本公开的实施例，在训练生成模型时，首先将随机截断正态分布函数生成的数值序列作为噪音数据，且数值取值范围为0-86。其次，利用噪音数据训练生成对抗网络模型中的生成模型，最后利用已训练好的生成模型获取生成数据。

根据本公开的实施例，所述判别模型的训练次数大于或等于所述生成模型的训练次数。

由于在训练生成对抗网络模型的过程中，生成模型和判别模型不能同时进行训练，应该初始化后固定判别模型的参数，单独优化生成模型的参数，待生成模型训练好之后，再固定生成模型的参数，再优化判别模型的参数，其中，判别模型的训练次数大于或等于生成模型的训练次数。反复进行以上生成对抗的训练过程，直到完成预设的迭代次数或达到优化平衡停止训练。优选地，判别模型的训练次数与生成模型的训练次数比例为10:1，总共迭代40000次。

根据本公开的实施例，所述步骤S102，即所述利用预先训练好的识别模型从所述中间推理步骤中确定能够用于证明所述目标命题的目标推理步骤，包括以下步骤：

将所述中间推理步骤表示为字符形式中间推理步骤；

将所述字符形式中间推理步骤表示为独热编码的向量矩阵；

将所述独热编码的向量矩阵输入至所述识别模型；

所述识别模型对所述独热编码的向量矩阵进行判别，其中，将所述识别模型输出结果为“真”的所述独热编码的向量矩阵所对应的所述中间推理步骤确定为所述目标推理步骤，将所述识别模型输出结果为“假”的所述独热编码的向量矩阵所对应的所述中间推理步骤确定为无关推理步骤。

由于中间推理步骤可以用文字和数学符号表示，首先将所有中间推理步骤表示为字符形式，其次，再将字符形式的中间推理步骤表示为独热编码的向量矩阵，经过统计，数据集中出现的不同字符共87个，可以作为87个字典字符。例如，字符形式的中间推理步骤为cat，表示的独热编码的向量矩阵为：

a b c d e f g t

c 0 0 1 0 0 0 0 0

a 1 0 0 0 0 0 0 0

t 0 0 0 0 0 0 0 1

然后将得到的与中间推理步骤相对应的独热编码的向量矩阵输入至别模型，识别模型对独热编码的向量矩阵进行判别，其中，将识别模型输出结果为“真”的独热编码的向量矩阵所对应的中间推理步骤确定为目标推理步骤，将识别模型出结果为“假”的独热编码的向量矩阵所对应的中间推理步骤确定为无关推理步骤，最后，利用目标推理步骤证明目标命题。

HolStep设置了两种分类任务：Unconditioned任务，只需要将中间推理步骤输入至生成对抗网络模型；Conditioned任务，需要同时将中间推理步骤和目标命题同时输入至生成对抗网络模型。图4中的识别模型可以直接用于Unconditioned任务。

当进行Conditioned任务时，所述生成对抗网络模型可以集成两个孪生的生成对抗网络模型分支并共享参数，每个分支结构使用图4的生成模型与判别模型结构。此时，需要将中间推理步骤和目标命题同时输入至生成对抗网络模型，判断中间推理步骤是否为目标推理步骤，从而完成Conditioned任务。

图5示出根据本公开的实施例的基于机器学习的定理证明装置500的结构框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示，所述基于机器学习的定理证明装置包括获取模块510、确定模块520和证明模块530。

所述获取模块510被配置为根据目标命题获取所述目标命题的中间推理步骤；

所述确定模块520被配置为利用预先训练好的识别模型从所述中间推理步骤中确定能够用于证明所述目标命题的目标推理步骤；

所述证明模块530被配置为通过形式化定理证明方式利用所述目标推理步骤证明所述目标命题。

本公开还公开了一种电子设备，图6示出根据本公开的实施例的电子设备的结构框图。

如图6所示，所述电子设备600包括存储器601和处理器602；其中，

所述存储器601用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器602执行以实现以下方法步骤：

根据目标命题获取所述目标命题的中间推理步骤；

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分707加载到随机访问存储器(RAM)703中的程序而执行上述实施例中的各种处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行上述对象类别确定方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于机器学习的定理证明方法，其特征在于，包括：

根据目标命题获取所述目标命题的中间推理步骤；

2.根据权利要求1所述的方法，其特征在于，所述根据目标命题获取所述目标命题的中间推理步骤，包括：

将所述目标命题分解为多个目标子命题；

3.根据权利要求2所述的方法，其特征在于，所述预设推理规则包括以下规则中的至少一种：重写规则、简化规则、归纳规则、反证规则、约束条件规则、逆推规则。

4.根据权利要求1所述的方法，其特征在于，还包括：

利用生成对抗网络模型中的生成模型得到生成数据；

5.根据权利要求4所述的方法，其特征在于，所述利用生成对抗网络模型中的生成模型得到生成数据，包括：

利用所述噪音数据训练生成对抗网络模型中的生成模型；

利用已训练好的所述生成模型获取生成数据。

6.根据权利要求4所述的方法，其特征在于，所述判别模型的训练次数大于或等于所述生成模型的训练次数。

7.根据权利要求1所述的方法，其特征在于，所述利用预先训练好的识别模型从所述中间推理步骤中确定能够用于证明所述目标命题的目标推理步骤，包括：

将所述中间推理步骤表示为字符形式的中间推理步骤；

8.一种基于机器学习的定理证明装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤：

根据目标命题获取所述目标命题的中间推理步骤；

10.一种存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-7任一项所述的方法步骤。