CN114596353A

CN114596353A - 一种题目处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN114596353A
Application number: CN202210209597.5A
Authority: CN
Inventors: 李忠利; 张宇森
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-06-07
Anticipated expiration: 2042-03-04
Also published as: CN114596353B

Abstract

本申请提供了一种题目处理方法、装置、设备、计算机可读存储介质及计算机程序产品，应用于云技术、人工智能、智慧交通和车载等各种场景；该题目处理方法包括：获取待解析题目，其中，待解析题目包括几何图形；从几何图形中提取几何信息，其中，几何信息包括从几何图形中提取到的位置点，位置点属于几何图形的图形元素；在几何信息中，将距离小于指定距离的至少两个位置点确定为位置点集，并合并位置点集，得到目标几何信息；基于目标几何信息进行形式化转换，得到形式化信息；基于几何定理对形式化信息进行解析，得到待解析题目的解析结果。通过本申请，能够提升题目解析的准确度。

Description

一种题目处理方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能领域的信息处理技术，尤其涉及一种题目处理方法、装置、设备、计算机可读存储介质及计算机程序产品。

背景技术

随着智能化的快速发展，人工智能应用到了题目解析过程中；通过人工智能技术解析题目，能够实现题目的自动化解析。

一般来说，在对题目进行自动化解析的过程中，通常是对题目中的几何图形进行几何信息的提取，并基于几何信息进行解析来得到解析结果。然而，上述进行自动化解析获得解析结果的过程中，由于提取的几何信息中往往包括错误的位置点(比如，标识信息与几何边的交点)，从而当基于包括错误的位置点的几何信息进行解析时，将导致所获得的题目的解析结果的准确度较低。

发明内容

本申请实施例提供一种题目处理方法、装置、设备、计算机可读存储介质及计算机程序产品，能够提升题目解析的准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种题目处理方法，包括：

获取待解析题目，其中，所述待解析题目包括几何图形；

从所述几何图形中提取几何信息，其中，所述几何信息包括从所述几何图形中提取到的位置点，所述位置点属于所述几何图形的图形元素；

在所述几何信息中，将距离小于指定距离的至少两个所述位置点确定为位置点集，并合并所述位置点集，得到目标几何信息；

基于所述目标几何信息进行形式化转换，得到形式化信息；

基于几何定理对所述形式化信息进行解析，得到所述待解析题目的解析结果。

本申请实施例提供一种题目处理装置，包括：

题目获取模块，用于获取待解析题目，其中，所述待解析题目包括几何图形；

信息提取模块，用于从所述几何图形中提取几何信息，其中，所述几何信息包括从所述几何图形中提取到的位置点，所述位置点属于所述几何图形的图形元素；

点集合并模块，用于在所述几何信息中，将距离小于指定距离的至少两个所述位置点确定为位置点集，并合并所述位置点集，得到目标几何信息；

形式化模块，用于基于所述目标几何信息进行形式化转换，得到形式化信息；

信息解析模块，用于基于几何定理对所述形式化信息进行解析，得到所述待解析题目的解析结果。

在本申请实施例中，所述点集合并模块，还用于通过所述指定距离对所述几何信息中的所述位置点进行聚类，将距离小于所述指定距离的至少两个所述位置点确定为所述位置点集；合并所述位置点集，得到目标位置点；将所述几何信息中的所述位置点集更新为所述目标位置点，得到所述目标几何信息。

在本申请实施例中，所述几何信息还包括符号信息，所述符号信息包括描述信息和几何关系中的至少一种，且所述符号信息是通过符号提取模型得到的；所述题目处理装置还包括模型训练模块，用于获取训练数据，其中，所述训练数据包括几何图形样本集和几何图形样本标签集；对所述几何图形样本集进行变换，并将变换结果与所述几何图形样本标签集结合，得到增强训练数据，其中，所述变换包括图形旋转和几何关系变换中的至少一种；结合所述训练数据和所述增强训练数据，训练待训练符号提取模型，得到所述符号提取模型。

在本申请实施例中，所述模型训练模块，还用于对所述几何图形样本集进行分类，得到至少两个符号类别；获取每个所述符号类别对应的图形样本数量；从至少两个所述符号类别中，选择所述图形样本数量少于第一指定数量的所述符号类别，得到至少一个目标符号类别；从所述几何图形样本集中，确定与每个所述目标符号类别对应的子几何图形样本集；对所述子几何图形样本集中的每个几何图形样本进行变换。

在本申请实施例中，所述模型训练模块，还用于从至少两个所述符号类别中，选择所述图形样本数量大于第二指定数量的所述符号类别，得到待去除符号类别，其中，所述第二指定数量大于或等于所述第一指定数量；从所述子几何图形样本集中的每个所述几何图形样本中，去除所述待去除符号类别所对应的待去除符号信息，得到待变换几何图形样本；对所述待变换几何图形样本进行变换。

在本申请实施例中，所述模型训练模块，还用于确定与所述子几何图形样本集所对应的所述图形样本数量负相关的变换次数。

在本申请实施例中，所述模型训练模块，还用于基于所述变换次数，对所述子几何图形样本集中的每个所述几何图形样本进行变换。

在本申请实施例中，所述信息解析模块，还用于将所述几何定理，转换为条件规则信息，其中，所述条件规则信息包括前提信息和结论信息；当所述前提信息与所述形式化信息匹配时，基于所述结论信息迭代更新所述形式化信息；当迭代更新后的所述形式化信息中包括与所述待解析题目的所求问题匹配的题目答案时，结束解析，得到与所述待解析题目对应的包括所述题目答案的所述解析结果。

在本申请实施例中，所述模型训练模块，还用于获取已迭代更新的次数；当所述已迭代更新的次数大于指定次数时，结束解析，得到与所述待解析题目对应的包括解析失败的所述解析结果。

在本申请实施例中，所述题目处理装置还包括应用处理模块，用于基于所述解析结果的解析过程，生成解析步骤；基于所述解析步骤对待判定解析步骤进行判定，得到判定结果。

在本申请实施例中，所述应用处理模块，还用于判断所述待解析题目是否属于指定题目库。

在本申请实施例中，所述应用处理模块，还用于当判断出所述待解析题目不属于所述指定题目库时，基于所述解析结果的所述解析过程，生成所述解析步骤。

在本申请实施例中，所述应用处理模块，还用于基于所述待解析题目和所述解析步骤更新所述指定题目库。

在本申请实施例中，所述应用处理模块，还用于当判断出所述待解析题目属于所述指定题目库时，基于所述解析结果的解析过程对所述指定题目库中与所述待解析题目对应的待校验解析步骤进行校验，得到校验结果；当所述校验结果是指所述待校验解析步骤不属于所述解析过程时，将所述待校验解析步骤更新为基于所述解析结果的解析过程所生成的所述解析步骤。

本申请实施例提供一种题目处理设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的题目处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，所述可执行指令用于被处理器执行时，实现本申请实施例提供的题目处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现本申请实施例提供的题目处理方法。

本申请实施例至少具有以下有益效果：由于几何信息中的非真实存在的位置点(以下简称为虚假位置点)与真实的位置点之间的距离小于指定距离，因此从待解析题目的几何图形中提取了几何信息之后，对几何信息中位置点之间的距离小于指定距离的位置点集进行合并，也就去除了几何信息中的虚假位置点而得到了准确的目标几何信息；从而，当基于目标几何信息进行解析时，能够获得准确的解析结果，提升题目解析的准确度。

附图说明

图1是本申请实施例提供的题目处理系统的架构示意图；

图2是本申请实施例提供的一种图1中的服务器的组成结构示意图；

图3是本申请实施例提供的题目处理方法的流程示意图一；

图4是本申请实施例提供的一种示例性的虚假位置点的示意图；

图5是本申请实施例提供的一种示例性的合并位置点集的结果示意图；

图6是本申请实施例提供的题目处理方法的流程示意图二；

图7是本申请实施例提供的一种示例性的模型训练的流程图；

图8是本申请实施例提供的一种示例性的解析几何题目的示意图；

图9是本申请实施例提供的一种示例性的图形解析的示意图；

图10是本申请实施例提供的一种示例性的符号解析的结果示意图；

图11是本申请实施例提供的一种示例性的数据增强示意图；

图12是本申请实施例提供的一种示例性的应用示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

2)机器学习(Machine Learning，ML)，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能；重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。

3)人工神经网络，是一种模仿生物神经网络结构和功能的数学模型，本申请实施例中人工神经网络的示例性结构包括深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent NeuralNetwork，RNN)、神经状态机(Neural State Machine，NSM)和相位函数神经网络(Phase-Functioned Neural Network，PFNN)等。本申请实施例中所涉及的符号提取模型即为人工神经网络对应的模型。

4)自然语言处理(Nature Language Processing，NLP)，是计算机科学领域与人工智能领域中的一个重要方向，用于研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学，因此，自然语言处理领域的研究将涉及自然语言，即人们日常使用的语言，所以自然语言与语言学的研究有着密切的联系。在本申请实施例中，当待解析题目中包括题目文本时，该题目文本是自然语言，通过题目文本提取知识信息的过程，即为自然语言处理。

5)云计算(Cloud Computing)，是一种计算模式，通过将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务；其中，为资源池提供资源的网络被称为“云”，“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。本申请实施例提供的题目处理方法，可应用于云计算中。

需要说明的是，智能化在题目自动解析过程得到了应用；而在对题目进行自动化解析的过程中，通常是对题目中的几何图形进行几何信息的提取，并基于几何信息进行解析来得到解析结果。然而，上述进行自动化解析获得解析结果的过程中，由于提取的几何信息中往往包括虚假位置点，这些虚假位置点会在后续的解析中产生其他的线和角等几何元素，而这些几何元素本质上是几何图形中不存在的信息，相当于产生了大量噪声信息，会影响解题的准确度，甚至导致几何题目不可解。

另外，也会导致解析的元素信息和解析的符号信息的偏差，从而导致后续步骤匹配存在偏差，进而影响最后输出的形式化语句,也就会直接影响最终的解析结果。从而当基于包括虚假位置点的几何信息进行解析时，将导致所获得的题目的解析结果的准确度较低。

基于此，本申请实施例提供一种题目解析方法、装置、设备、计算机可读存储介质及计算机程序产品，能够提升题目解析的准确度。

下面说明本申请实施例提供的题目处理设备的示例性应用，本申请实施例提供的题目处理设备可以实施为智能手机、智能手表、笔记本电脑、平板电脑、台式计算机、智能家电、机顶盒、智能车载设备、便携式音乐播放器、个人数字助理、专用消息设备、智能语音交互设备、便携式游戏设备和智能音箱等各种类型的终端，也可以实施为服务器。下面，将说明题目处理设备实施为服务器时的示例性应用。

参见图1，图1是本申请实施例提供的题目处理系统的架构示意图；如图1所示，为支撑一个题目处理应用，在题目处理系统100中，终端200(示例性示出了终端200-1和终端200-2)通过网络300连接服务器400(题目处理设备)，网络300可以是广域网或者局域网，又或者是二者的组合。另外，该题目处理系统100中还包括数据库500，用于向服务器400提供数据支持；并且，图1中示出的为数据库500独立于服务器400的一种情况，此外，数据库500还可以集成在服务器400中，本申请实施例对此不作限定。

终端200，用于通过网络300向服务器400发送待解析题目；还用于通过网络300接收服务器400发送的解析结果，并显示解析结果。

服务器400，用于通过网络300接收终端200发送的待解析题目，也就获得了待解析题目，其中，待解析题目包括几何图形；从几何图形中提取几何信息，其中，几何信息包括从几何图形中提取到的位置点，位置点属于几何图形的图形元素；在几何信息中，将距离小于指定距离的至少两个位置点确定为位置点集，并合并位置点集，得到目标几何信息；基于目标几何信息进行形式化转换，得到形式化信息；基于几何定理对形式化信息进行解析，得到待解析题目的解析结果；还用于通过网络300向终端200发送解析结果。

在一些实施例中，服务器400可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端200可以是智能手机、智能手表、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、智能车载设备、便携式音乐播放器、个人数字助理、专用消息设备、便携式游戏设备和智能音箱等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不作限制。

参见图2，图2是本申请实施例提供的一种图1中的服务器的组成结构示意图，图2所示的服务器400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。服务器400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算机设备，示例性的网络接口420包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的题目处理装置可以采用软件方式实现，图2示出了存储在存储器450中的题目处理装置455，其可以是程序和插件等形式的软件，包括以下软件模块：题目获取模块4551、信息提取模块4552、点集合并模块4553、形式化模块4554、信息解析模块4555、模型训练模块4556和应用处理模块4557，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在一些实施例中，本申请实施例提供的题目处理装置可以采用硬件方式实现，作为示例，本申请实施例提供的题目处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的题目处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的题目处理方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如解题APP或者题库APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

下面，将结合本申请实施例提供的题目处理设备的示例性应用和实施，说明本申请实施例提供的题目处理方法。另外，本申请实施例提供的题目处理方法应用于云技术、人工智能、智慧交通和车载等各种场景。

参见图3，图3是本申请实施例提供的题目处理方法的流程示意图一，将结合图3示出的步骤进行说明。

步骤301、获取待解析题目，其中，待解析题目包括几何图形。

在本申请实施例中，当题目处理设备在进行题目解析时，所获得的题目即为待解析题目；也就是说，待解析题目是题目处理设备的解析对象。

需要说明的是，待解析题目至少包括几何图形，还可以包括题目文本，本申请实施例对此不作限定；其中，几何图形是待解析题目中的题目图形，且该题目图形描述的是几何信息；题目文本是待解析题目的文本形式的题目描述，可以是直接获得的，还可以是对承载题目文本描述的图像进行文本识别获得的，又可以是对语音进行文本识别获得的，等等，本申请实施例对此不作限定。

步骤302、从几何图形中提取几何信息。

在本申请实施例中，题目处理设备对待解析题目中的几何图形进行信息提取，也就获得了几何信息；其中，几何信息包括从几何图形中提取到的位置点，而位置点属于几何图形的图形元素，比如，交点。这里，题目处理设备可以采用直接提取几何图形的特征、神经网络模型(比如，残差网络等)和图形检测(比如，霍夫变换等)中的至少一种方式，来对几何图形进行信息提取。

需要说明的是，几何信息至少包括从几何图形中提取到的位置点，还可以包括除位置点之外的其他图形元素(比如，边，线等)、几何关系(比如，垂直关系，平行关系，相交关系等)和几何图形中的文本信息(比如，边长，角度数等)中的至少一种，本申请实施例对此不作限定。

步骤303、在几何信息中，将距离小于指定距离的至少两个位置点确定为位置点集，并合并位置点集，得到目标几何信息。

在本申请实施例中，由于几何图形中往往存在一些标识信息，在对几何图形提取位置点时，往往受标识信息的影响，或者由于几何图形的原因，又或者由于提取的准确性的原因，将导致提取到虚假位置点；而由于几何信息中的虚假位置点与真实位置点之间的距离往往小于指定距离，因此处理设备获得了几何信息之后，基于指定距离对几何信息中的各位置点之间的距离进行检测，以检测出几何信息中是否包括虚假位置点，进而对该虚假位置点进行剔除，以提升获得的几何信息的准确度。其中，虚假位置点不是几何图形的图形元素的点。

需要说明的是，题目处理设备基于指定距离对几何信息中的各位置点之间的距离进行检测，如果检测出几何信息中不包括至少两个位置点之间的距离小于指定距离的位置点集，则表明所提取出的位置点中不包括虚假位置点，故几何信息是准确的；从而题目处理设备能够直接基于该几何信息进行题目解析。而如果检测出几何信息中包括至少两个位置点之间的距离小于指定距离的位置点集，则表明所提取出的位置点中包括虚假位置点，故几何信息是不准确的；从而题目处理设备需要对提取到的位置点进行虚假位置点的剔除；这里，题目处理设备通过合并包括虚假位置点的位置点集为一个位置点，以通过对位置点集的归一化来实现虚假位置点的剔除；其中，处理设备可以综合位置点集中每个位置点的位置确合并出的位置点，也可以基于真实位置点的位置特征确定一个位置点为合并出的位置点，等等，本申请实施例对此不作限定。

还需要说明的是，目标几何信息是剔除了虚假位置点后的几何信息，即合并了位置点集后的几何信息；以及针对位置点集中的每个位置点，在该位置点集中包括与该位置点之间的距离小于指定距离的位置点。

示例性地，针对与边之间的距离小于阈值的边标识(称为标识信息)，将会误获取到该边标识与边之间存在一个位置点；又比如，针对角的标识(实心圆圈，称为标识信息)，将会误获取到该视线圆圈与该角对应的边之间存在一个位置点。参见图4，图4是本申请实施例提供的一种示例性的虚假位置点的示意图；如图4所示，几何图形4-1中，通过“X”表示提取出的所有位置点；其中，位置点4-11、位置点4-12和位置点4-13为虚假位置点。当对图4中的提取出的所有位置点进行检测，并对检测出的位置点集进行合并时，参见图5，图5是本申请实施例提供的一种示例性的合并位置点集的结果示意图；如图5所示，几何图形4-1中的位置点4-11、位置点4-12和位置点4-13已被剔除。

可以理解的是，题目处理设备在提取出了位置点之后，并不直接基于所提取出的位置点进行题目的解析，而是对提取出的位置点进行虚拟位置点的检测和剔除，提升了所获得的位置点的准确度；进而提升了目标几何信息的准确度。

步骤304、基于目标几何信息进行形式化转换，得到形式化信息。

在本申请实施例中，题目处理设备获得了目标几何信息之后，将目标几何信息转换为能够实现自动解析的数据格式，也就获得了形式化信息。其中，形式化信息是指待解析题目对应的待解析的指定格式的信息，形式化转换是指转换为指定格式的处理。

示例性地，针对目标几何信息中的“线段的BC长度为32”，对应的形式化信息为“Equal(Line(B,C),32)”；针对目标几何信息中的“线段AB和线段BC相等”，对应的形式化信息为“Equal(Line(B,C),Line(A,B))”。

需要说明的是，当待解析题目包括题目文本时，题目处理设备还用于将题目文本中包含的信息与目标几何信息结合，来转换为形式化信息。这里，题目处理设备可以基于神经网络模型获取题目文本中的信息，还可以基于指定规则(比如，正则表达式)获取题目文本中的信息，等等，本申请实施例对此不作限定。

步骤305、基于几何定理对形式化信息进行解析，得到待解析题目的解析结果。

需要说明的是，题目处理设备中设置有定理库，或者能够从其他设备获取到定理库，该定理库包括各种定理；这里题目处理设备可以将定理库确定为几何定理，还可以从定理库中筛选可能用到的定理，并将筛选出的可能用到的定理确定为几何定理；等等，本申请实施例对此不作限定。

在本申请实施例中，题目处理设备利用几何定理对形式化信息解析时，将形式化信息作为先决条件，以基于该先决条件从几何定理出获取对应的结果，直到满足解析结束条件时，也就获得了与待解析题目对应的解析结果。其中，解析结束条件可以是获得了待解析题目的答案，还可以是解析过程中达到了指定推理次数，又可以达到了指定解析时长，等等，本申请实施例对此不作限定。从而，题目处理设备所获得的解析结果是指完成对待解析题目的解析的结果，可以是解析成功的解析结果，此时可以包括待解析题目的答案，还可以是解析失败的解析结果，此时可以包括解析失败的原因(比如，到达解析时长，到达指定推理次数，等)，本申请实施例对此不作限定。

可以理解的是，由于几何信息中的虚假位置点与真实的位置点之间的距离小于指定距离，因此从待解析题目的几何图形中提取了几何信息之后，对几何信息中位置点之间的距离小于指定距离的位置点集进行合并，也就去除了几何信息中的虚假位置点而得到了准确的目标几何信息；从而，当基于目标几何信息进行解析时，能够获得准确的解析结果，提升题目解析的准确度。

参见图6，图6是本申请实施例提供的题目处理方法的流程示意图二；如图6所示，在本申请实施例中，步骤303可通过步骤3031至步骤3033实现；也就是说，题目处理设备从几何信息中，确定至少两个位置点之间的距离小于指定距离的位置点集，并合并位置点集，得到目标几何信息，包括步骤3031至步骤3033，下面对各步骤分别进行说明。

步骤3031、通过指定距离对几何信息中的位置点进行聚类，将距离小于指定距离的至少两个位置点确定为位置点集。

在本申请实施例中，题目处理设备在基于指定距离对比各位置点之间的距离来获得位置点集时，可通过区域划分(比如，划分指定尺寸(基于指定距离确定)的单元网格)等分类方式来获得位置点集，还可以基于指定距离进行聚类来获得位置点集，等等，本申请实施例对此不作限定。

步骤3032、合并位置点集，得到目标位置点。

在本申请实施例中，题目处理设备可以将位置点集中各位置点对应的质心确定为合并结果，也可以将位置点集中与其他位置点之间的距离最短的位置点确定为合并结果，还可以将位置点集中个位置点的中心确定为合并结果，等等，本申请实施例对此不作限定。其中，位置点集的合并结果即为目标位置点。

需要说明的是，合并位置点集是迭代进行的；也就是说，当题目处理设备完成当前合并时，如果合并后的几何信息中位置点还存在至少两个位置点之间的距离小于指定距离的位置点集，则继续进行合并，直至合并后的位置点之间的距离均大于指定距离时结束合并，也就获得了最终的目标位置点。

步骤3033、将几何信息中的位置点集更新为目标位置点，得到目标几何信息。

在本申请实施例中，题目处理设备在几何信息中将位置点集用目标位置点来替换，也就将几何信息中的位置点集更新为了目标位置点；此时，更新后的几何信息即为目标几何信息。

在本申请实施例中，几何信息还包括符号信息，符号信息包括描述信息和几何关系中的至少一种；其中，描述信息是指从几何图形中提取到的文本信息，即为上述的几何图形中的文本信息，比如，描述边长的信息。并且，符号信息是通过符号提取模型得到的。

参见图7，图7是本申请实施例提供的一种示例性的模型训练的流程图；如图7所示，符号提取模型通过步骤306至步骤308训练得到，下面对各步骤分别进行说明。

步骤306、获取训练数据，其中，训练数据包括几何图形样本集和几何图形样本标签集。

需要说明的是，题目处理设备获取用于训练出符号提取模型的训练数据集，也就获得了训练数据；并且，训练数据是指用于训练出符号提取模型的已有的训练样本。这里，训练数据包括几何图形样本集和几何图形样本标签集，其中，几何图形样本集是由几何图形样本构建的集合，而几何图形样本即为图形，几何图形样本标签集为几何图形样本集的标签数据，是通过对几何图形样本集中的几何图形样本标注符号信息标签获得的，从而，几何图形样本标签集中的每个几何图形样本标签为几何图形样本的符号信息标签。

步骤307、对几何图形样本集进行变换，并将变换结果与几何图形样本标签集结合，得到增强训练数据。

在本申请实施例中，题目处理设备还用于对训练数据进行增强，以相较于训练数据，获得更多的数据集。这里，由于几何图形样本经过变换后，该几何图形中的几何关系标签是不变的，比如，旋转后垂直的线段依然垂直，拉伸后平行的线段依然平行；因此，题目处理设备通过对几何图形样本集进行变换，来获得与变换的几何图形样本包括相同几何关系标签的变换后的几何图形样本，而所有的变换后的几何图形样本即为变换结果，从而，该变换结果是指变换后的几何图形样本集。其中，变换包括图形旋转和几何关系变换中的至少一种，比如，几何关系变换是基于几何关系标签进行的拉伸，比如，沿平行方向拉伸矩形得到平行四边形的变换。

需要说明的是，题目处理设备基于几何图形样本标签集确定变换结果对应的标签，并将变换结果、以及确定出的变换结果所对应的标签，组合为增强训练数据。

步骤308、结合训练数据和增强训练数据，训练待训练符号提取模型，得到符号提取模型。

在本申请实施例中，题目处理设备获得了增强训练数据之后，将训练数据和增强训练数据共同作为待训练符号提取模型的训练样本，以训练出符号提取模型。这里，题目处理设备可以利用待训练符号提取模型从训练数据和增强训练数据中的图形提取预估几何关系，并将提取的预估几何关系与对应的几何关系标签对比，来获得损失函数值；从而基于该损失函数值在待训练符号提取模型中进行反向传播，以对待训练符号提取模型中的参数进行调整；如此迭代训练，直到满足训练结束条件(比如，收敛，损失函数值低于阈值，达到训练次数等)结束训练，并将当前训练阶段的待训练符号提取模型确定为符号提取模型。

需要说明的是，待训练符号提取模型是指原始的用于提取符号信息的网络模型，可以是搭建的原始网络模型，还可以是预训练模型，等等，本申请实施例对此不作限的；而符号提取模型是指训练好的符号提取模型。

可以理解的是，通过对已有的几何图形样本集进行变换来对训练数据进行增强，相较于原有的训练数据，获得了更多的训练集，从而，能够提升符号提取模型的准确度，进而，基于符号提取模型进行题目解析提取几何符号时，能够提升解析的准确度。另外，基于几何关系标签不变性对原有几何图形样本进行旋转或拉伸变换，使得仍然能够采用原有的标签，在未增加标注量的情况下增强了原有数据集，提升了数据集增强的效率。

在本申请实施例中，步骤307中题目处理设备对几何图形样本集进行变换，可通过步骤3071至步骤3075(图中未示出)实现，下面对各步骤分别进行说明。

步骤3071、对几何图形样本集进行分类，得到至少两个符号类别。

在本申请实施例中，题目处理设备可以通过不同的几何关系类型，对几何图形样本集进行分别变换；从而，题目处理设备先对几何图形样本集进行分类，所获得的分类结果即为至少两个符号类别，每个符号类别为一个几何关系类型；比如，文本类型，角相等类型，边相等类型，平行类型，垂直类型，等等。

步骤3072、获取每个符号类别对应的图形样本数量。

需要说明的是，题目处理设备通过获取每个符号类别对应的图形样本数量，来对每个符号类别进行针对性变换，或者来确定待进行针对性变换的符号类别。图形样本数量是指每个符号类别在几何图形样本集中所对应的几何图形样本的数量。

步骤3073、从至少两个符号类别中，选择图形样本数量少于第一指定数量的符号类别，得到至少一个目标符号类别。

需要说明的是，当题目处理设备基于图形样本数量来确定待进行针对性变换的符号类别时，基于第一指定数量进行确定；也就是说，题目处理设备将图形样本数量大于或等于第一指定数量的符号类别确定为训练集足够多的符号类别，而将图形样本数量小于第一指定数量的符号类别确定为训练集较少的符号类别，也是待进行针对性变换的符号类别，这里称为目标符号类别。这里，题目处理设备基于第一指定数量能够从至少两个符号类别确定出至少一个目标符号类别；易知，至少一个目标符号类别对应的符号类别的数量，小于或等于至少两个符号类别的数量。

步骤3074、从几何图形样本集中，确定与每个目标符号类别对应的子几何图形样本集。

在本申请实施例中，题目处理设备获得了至少两个目标符号类别之后，从几何图形样本集中获取与每个目标符号类别对应的几何图形样本；这里，将获得的与每个目标符号类别对应的几何图形样本称为子几何图形样本集，包括的几何图形样本的数量为至少一个。

步骤3075、对子几何图形样本集中的每个几何图形样本进行变换。

在本申请实施例中，题目处理设备通过对每个子几何图形样本集中的每个几何图形样本进行变换，来实现对几何图形样本集的变换；这里，当完成对所有子几何图形样本集中的所有几何图形样本的变换时，也就获得了变换结果。

可以理解的是，题目处理设备通过对几何图形样本集进行分类，并基于没类的图形数量确定待进行变换的类别，实现了基于类别的针对性变换，提升了增强数据的针对性；从而，当基于增强数据训练网络模型时，能够针对性提升网络模型提取数据的针对性，在保证训练效果的情况下提升了训练效率。

在本申请实施例中，步骤3075可通过步骤30751至步骤30753(图中未示出)实现；也就是说，题目处理设备对子几何图形样本集中的每个几何图形样本进行变换，包括步骤30751至步骤30753，下面对各步骤分别进行说明。

步骤30751、从至少两个符号类别中，选择图形样本数量大于第二指定数量的符号类别，得到待去除符号类别。

在本申请实施例中，题目处理设备还用于确定无需增强数据集的符号类别；这里，题目处理设备基于第二指定数量与图形样本数量的比较结果确定无需增强数据集的符号类别；图形样本数量大于第二指定数量的符号类别为无需增强数据集的符号类别，这里，称为待去除符号类别。其中，第二指定数量大于或等于第一指定数量，并且当第二指定数量等于第一指定数量时，待去除符号类别是指至少两个符号类别中除至少一个目标符号类别之外的其他符号类别。

步骤30752、从子几何图形样本集中的每个几何图形样本中，去除待去除符号类别所对应的待去除符号信息，得到待变换几何图形样本。

在本申请实施例中，题目处理设备在对子几何图形样本集中的每个几何图形样本进行变换之前，从该几何图形样本中去除(比如，覆盖，扣除等)待去除符号类别所对应的待去除符号信息(比如，几何图形样本中的文本信息)；这里，去除了待去除符号信息的几何图形样本即为待变换几何图形样本，易知，待变换几何图形样本中不再包括待去除符号信息。

步骤30753、对待变换几何图形样本进行变换。

在本申请实施例中，题目处理设备通过对待变换几何图形样本进行变换来作为对几何图形样本的变换。

可以理解的是，题目处理设备通过去除待去除符号信息，有效限制了数量较多(图形样本数量大于第二指定数量)的符号类别的数据集的数量，进而，使得变换后针对每个符号类型的数据的数量均衡性，也就能够提升模型训练的准确度。另外，还减少了噪声的引入。

在本申请实施例中，步骤3075之前还包括步骤3076(图中未示出)；也就是说，题目处理设备对子几何图形样本集中的每个几何图形样本进行变换之前，该题目处理方法还包括步骤3076，下面对该步骤进行说明。

步骤3076、确定与子几何图形样本集所对应的图形样本数量负相关的变换次数。

需要说明的是，图形样本数量越大，题目处理设备所确定的变换次数越小；而图像样本数量越小，题目处理设备所确定的变换次数越大。

相应地，在本申请实施例中，步骤3075中题目处理设备对子几何图形样本集中的每个几何图形样本进行变换，包括：题目处理设备基于变换次数，对子几何图形样本集中的每个几何图形样本进行变换

可以理解的是，由于变换次数是基于图形样本数量确定的，且与对应目标符号类别的图形样本数量负相关；因此，图形样本数量越大变换出的图形数量越少，而图形样本数量越小变换出的图形数量越多，因此，能够提升各符号类型的训练集的均衡性；另外，还减少了噪声的引入。

在本申请实施例中，步骤305可通过步骤3051至步骤3053(图中未示出)实现；也就是说，题目处理设备基于几何定理对形式化信息进行解析，得到待解析题目的解析结果，包括步骤3051至步骤3053，下面对各步骤分别进行说明。

步骤3051、将几何定理，转换为条件规则信息。

需要说明的是，题目处理设备获得的条件规则信息包括前提信息和结论信息；其中，前提信息是条件，结论信息是前提信息对应的结论；比如，针对几何定理“如果A则B”，前提信息为A，结论信息为B。

步骤3052、当前提信息与形式化信息匹配时，基于结论信息迭代更新形式化信息。

在本申请实施例中，题目处理设备将前提信息在形式化信息中匹配，当无匹配信息时，表明基于几何定理无法实现待解析题目的解析，此时可以重新获取更多(相比于当前几何定理的数量)的几何定理；而当存在匹配信息时，确定该匹配信息在结论信息中对应的结论，并将确定出的结论添加至形式化信息中，或者将确定出的结论进行形式化信息的格式转换后再添加至形式化信息中，以完成形式化信息的更新；其中，形式化信息的更新是迭代进行的。

步骤3053、当迭代更新后的形式化信息中包括与待解析题目的所求问题匹配的题目答案时，结束解析，得到与待解析题目对应的包括题目答案的解析结果。

需要说明的是，待解析题目还包括所求问题，在对形式化信息进行迭代更新的过程中，如果当前迭代更新后的形式化信息中包括与所求问题匹配的题目答案时，结束解析，即结束对形式化信息的迭代更新；此时，也就获得了待解析题目的解析结果，也就是题目答案。

在本申请实施例中，步骤3052之后还包括步骤3054和步骤3055(图中未示出)；也就是说，当前提信息与形式化信息匹配时，题目处理设备基于结论信息迭代更新形式化信息之后，该题目处理方法还包括步骤3054和步骤3055，下面对各步骤分别进行说明。

步骤3054、获取已迭代更新的次数。

需要说明的是，题目处理设备在解析形式化信息而对形式化信息进行迭代更新的过程中，每次完成迭代更新后对迭代更新的次数进行加一处理，以统计出当前已迭代更新的次数，以基于已迭代更新的次数确定是否还要继续进行迭代更新。

步骤3055、当已迭代更新的次数大于指定次数时，结束解析，得到与待解析题目对应的包括解析失败的解析结果。

在本申请实施例中，题目处理设备中设置有指定次数，或者题目处理设备能够从其他设备中获得指定次数，该指定次数是指迭代更新的最大次数；这里，题目处理设备将获得的已迭代更新的次数与指定次数相比，当已迭代更新的次数小于或等于指定次数时，继续进行迭代更新；而当已迭代更新的次数大于指定次数时，停止迭代更新，也即结束解析，并确定解析失败，获得与待解析题目对应的包括解析失败的解析结果。

可以理解的是，通过指定次数限制迭代更新，使得在待解析题目因信息提取的准确度较低而无解时，能够快速获得解析结果，提高解析的准确度，并降低解析过程的资源消耗。

在本申请实施例中，步骤305之后还包括步骤309和步骤310；也就是说，题目处理设备基于几何定理对形式化信息进行解析，得到待解析题目的解析结果之后，该题目处理方法还包括步骤309和步骤310。

步骤309、基于解析结果的解析过程，生成解析步骤。

在本申请实施例中，当解析结果包括解析答案时，题目处理设备获取解析结果的解析过程中所有的与前提信息匹配的信息、以及所对应的结论解析，也就获得了解析过程信息；从解析过程信息中提取获取与解析答案关联的过程，也就生成了解析步骤。其中，步骤309可应用于解题应用场景中，实现待解析题目的自动解答；另外，解析步骤还用于显示，可以是在题目处理设备上显示，还可以是由题目处理设备发送至其他设备进行显示，本申请实施例对此不作限定。

步骤310、基于解析步骤对待判定解析步骤进行判定，得到判定结果。

需要说明的是，当题目处理设备获得了解析步骤之后，可以进行题目批改，以判定已有的待判定解析步骤的正确性；其中，判定结果表示已有的待判定解析步骤的正确性，可以是待判定解析步骤正确，也可以是待判定解析步骤不正确。其中，待判定解析步骤是待解析题目对应的已有的解题步骤，比如，学生的解题步骤。

在本申请实施例中，步骤309之后还可以包括步骤311(图中未示出)；也就是说，题目处理设备基于解析结果的解析过程，生成解析步骤之前，该题目处理方法还包括步骤311，下面对该步骤进行说明。

步骤311、判断待解析题目是否属于指定题目库。

需要说明的是，该题目处理方法还可以应用于题目库的扩充场景中；此时，题目处理设备先判断待解析题目是否已经存在于题目库中。

相应地，在本申请实施例中，步骤309可通过步骤3091(图中未示出)实现；也就是说，题目处理设备基于解析结果的解析过程，生成解析步骤，包括步骤3091，下面对该步骤进行说明。

步骤3091、当判断出待解析题目不属于指定题目库时，基于解析结果的解析过程，生成解析步骤。

在本申请实施例中，题目处理设备判断待解析题目是否属于指定题目库，当判断出待解析题目不属于指定题目库时，才基于解析结果的解析过程生成解析步骤。

相应地，在本申请实施例中，步骤3091之后还包括：题目处理设备基于待解析题目和解析步骤更新指定题目库。也就是说，题目处理设备将待解析题目和解析步骤添加至指定题目库，以完成对指定题目库的更新。另外，在题目处理设备基于待解析题目和解析步骤更新指定题目库之前，还可以是审核(比如，人工审核)成功后才执行的。

在本申请实施例中，步骤310之后还包括步骤312和步骤313(图中未示出)；也就是说，题目处理设备判断待解析题目是否属于指定题目库之后，该题目处理设备方法还包括步骤312和步骤313，下面对各步骤分别进行说明。

步骤312、当判断出待解析题目属于指定题目库时，基于解析结果的解析过程对指定题目库中与待解析题目对应的待校验解析步骤进行校验，得到校验结果。

需要说明的是，当题目处理设备判断出待解析题目属于指定题目库时，从指定题目库中获取与待解析题目对应的待校验解析步骤，并校验待校验解析步骤是否属于解析结果的解析过程；从而所获得的校验结果表示待校验解析步骤是否属于解析结果的解析过程。其中，由于解析结果的解析过程是通过搜索获得的，从而解析结果的解析过程所包括的内容至少包括待解析题目的真实解析步骤。

步骤313、当校验结果是指待校验解析步骤不属于解析过程时，将待校验解析步骤更新为基于解析结果的解析过程所生成的解析步骤。

在本申请实施例中，当校验结果是指待校验解析步骤属于解析过程时，表明指定题目库中的待校验解析步骤是正确的；而当校验结果是指待校验解析步骤不属于解析过程时，表明指定题目库中的待校验解析步骤是不正确的，将待校验解析步骤更新为基于解析结果的解析过程所生成的解析步骤；这里，题目处理设备将待校验解析步骤更新为基于解析结果的解析过程所生成的解析步骤，可以是在审核(比如，人工审核)成功后才执行的。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。该示例性应用描述了自动解析高中数学教育领域中的几何题目(称为待解析题目)的过程。

需要说明的是，几何题目的自动解析的过程涉及图像和文本的知识抽取，还涉及逻辑推理，因此，高中数学教育领域中的几何题目解析是人工智能领域中的重要部分。

参见图8，图8是本申请实施例提供的一种示例性的解析几何题目的示意图；如图8所示，几何题目8-1包括题目图形8-11(称为几何图形)和题目文本8-12；首先，利用图形解析器8-21对题目图形8-11进行图形解析，以提取几何信息，并利用文本解析器8-22对题目文本8-12进行文本解析，以提取文本知识，以及将提取到的几何信息和文本知识解析为形式化语句8-3(称为形式化信息)。然后，形式化语句8-3通过预测模块8-4预测可能用到的定理8-5(称为几何定理)。最后推理引擎(比如“Sympy”推理引擎)利用可能用到的定理8-5进行推理以解析几何题目8-1，得到包括题目答案(“Equals(y，25.89)”)的解析结果8-6。其中，图形解析器8-21可以是残差网络(Resnet)模型；提取到的几何信息和文本知识包括了几何题目中的几何属性和几何关系。

下面依次对几何题目、文本解析、图形解析、几何推理和应用场景分别进行说明。

这里，先说明几何题目。

几何题目P表示为一个三原组(t，d，c)；其中，t表示题目文本，d表示题目图形，c为{c1，c2，c3，c4，…}是解析步骤。几何题目的解析过程即为基于t和d获取c的过程。

下面说明文本解析。

文本解析是将几何题目的题目文本解析为描述题目条件、以及所求问题的形式化语句的过程；其中，该形式化语句用于推理引擎的推理。另外，图8中的文本解析器8-22可以是神经网络模型，还可以是正则表达式。

在本申请实施例中，当利用正则表达式进行文本解析时，基于正则表达式生成模板库，以基于模板库提取题目文本中的几何属性和几何关系。比如，题目文本包括“三角形ABC”，则提取到的几何属性包括：线段AB、线段BC、线段AC、角A、角B和角C等；再比如，题目文本包括“AB＝AC”，则提取到的几何属性包括：线段AB长度等于线段AC。

下面说明图形解析。

图形解析包括元素解析和符号解析。其中，元素解析用于从题目图形中解析出元素信息，元素信息是指题目图形的图形原语(比如，点、线、以及圆等基本图形，对应于上述的位置点和其他图形元素)；通常，采用霍夫变换来进行元素解析。而符号解析用于从题目图形中解析出符号信息，包括元素信息之间的几何关系(比如，平行、垂直和相等等)和文本信息。

参见图9，图9是本申请实施例提供的一种示例性的图形解析的示意图；如图9所示，当对几何题目9-1进行图形解析时，针对图形解析中的元素解析9-2，利用霍夫变换解析出元素信息9-21，并对元素信息9-21进行筛选聚类，得到元素信息9-22；针对图形解析中的符号解析9-3，利用目标检测模型9-31(比如，“Retinanet”模型，称为符号提取模型)解析出目标标记信息9-32，并通过文字识别(比如，光学字符识别(Optical CharacterRecognition，OCR))来识别出文本信息，以及通过符号检测来检测出几何关系，从而得到包括文本信息和几何关系的符号信息；最后基于距离搜索匹配将元素信息9-22和符号信息进行对应和组合、以及标准化处理，得到形式化语句9-4(称为形式化信息)。

需要说明的是，图9中的筛选聚类用于去除抽取的错误位置点。这里，所解析出的图形原语中，常常包括抽取的错误位置点(称为虚假位置点)，而这些抽取的错误位置点与真实的位置点之间的距离小于阈值，从而采用聚类的方式去除抽取的错误位置点。通过设定聚类半径的阈值(比如，15，称为指定距离)，获得各个簇，当该簇中的各位置点之间的距离小于阈值(该簇称为位置点集)时，将该簇中的各位置点合并为该簇中各位置点的质心位置(称为目标位置点)，实现该簇的位置点的归一化，直到每一簇中各位置点之间的距离都大于阈值，聚类停止，完成抽取的错误位置点的去除，获得有效的元素信息。如此，能够提升元素信息提取的准确度。

需要说明的是，通过对数据集进行数据增强，使得图9中的符号解析9-3的过程中能够准确地提取符号信息。其中，数据增强的过程中，将几何关系和文本信息划分为文本(text)、垂直(perpendicular)、对应边相等、对应角相等和平行五个类别(称为符号类别)；参见图10，图10是本申请实施例提供的一种示例性的符号解析的结果示意图；如图10所示，题目图形10-1中，包括文本类别10-11、垂直类别10-12和对应边类别10-13。

另外，针对对应边相等、对应角相等和平行三个类别，还可以继续进行类别的细分；将对应边相等分为单对应边相等(bar)、双对应边相等(double bar)和三对应边相等(triple bar)，单对应边相等是指包括一组相等的对应边，双对应边相等是指包括两组相等的对应边，三对应边相等包括三组相等的对应边；将对应角相等分为单对应角相等(angle)、双对应角相等(double angle)和三对应角相等(triple angle)，单对应角相等是指包括一组相等的对应角，双对应角相等是指包括两组相等的对应角，三对应角相等包括三组相等的对应角；将平行分为单平行(parallel)、双平行(double parallel)和三平行(triple parallel)，单平行是指包括一组平行的对应边，双平行是指包括两组平行的对应边，三平行包括三组平行的对应边。

接着统计训练数据中每个类别的图形的数量(称为图形样本数量)，获得的分布情况如表1所示。

表1

类别	数量
		单对应角相等	140
双对应角相等	42
		三对应角相等	12
单对应边相等	390
		双对应边相等	98
三对应边相等	10
		单平行	253
双平行	31
		三平行	2
垂直	862
		文本	8697

由表1可知，各类别的数量分布不均衡，其中数量最多的是文本类型；另外原始的目标检测模型(称为待训练符号提取模型)针对文本类别和垂直类别(称为待去除符号类别)，检测的准确度最高，而针对数量最少的三平行和三对应边相等类别，检测的准确度最低。这里，对数量较少(小于文本类型对应的数量)的类别进行数据增强，即对垂直、单对应边相等、双对应边相等、三对应边相等、单对应角相等、双对应角相等、三对应角相等、单平行、双平行和三平行进行数据增强。

需要说明的是，在进行数据增强时，对每个类别的每张图形(称为子几何图形样本集中的每个几何图形样本)进行旋转或拉伸；比如，对每张图形进行随机旋转θ度，并且旋转的重复次数(称为变换次数)为N；并且，由于文本类型对应的准确度最高，在对图像进行旋转之前覆盖掉文本信息，如此即确定文本类型的数量的不变性，也降低了数据增强的噪声；以及，旋转后，基于图形的旧坐标与旋转角度，就能够确定旋转得到的图形的每个符号信息的位置。

示例性地，参见图11，图11是本申请实施例提供的一种示例性的数据增强示意图；如图11所示，针对原图形11-1，经过一次旋转后获得图形11-2，经过另一次旋转后获得图形11-3。其中，通过箭头方向确定图形11-2和图形11-3分别相对于原图形11-1的旋转方向，图形11-2和图形11-3中，仍然包括原图形11-1中所包括的平行关系。

还需要说明的是，重复次数N为大于等于1的正整数；为了各类别的数量的均衡性，针对不同的类别设置了不同的N值，如表2所示。

表2

由表2可知，类型的数量与重复次数N负相关。

需要说明的是，在进行数据增强时，还可以对每个类别的每张图形进行拉伸，以利用平行、垂直和相等等几何的特殊性质来增强类型的数量。比如，对于存在平行关系的图形(矩形等)，沿着平行的方向对图形做指定角度的倾斜以实现拉伸，使得拉伸后的图形(平行四边形等)中的该平行关系是仍然存在的。如此构造数据，使得在模型训练中，只针对平行类别更新模型的梯度，降低了数据增强后其他几何关系变化带来的训练中的噪音。

下面说明几何推理。

在进行几何推理时，根据预估到的可能用到的定理和形式化语句迭代地生成新的几何关系或求解新的几何属性值，直到求解目标(即为题目答案)出现为止。同时，几何题目的自动求解可能因为抽取的形式化语句中几何关系集合的不充分，导致无法求解，而迭代更新后的形式化语句伴随着迭代次数的增多不断扩大，因此限制迭代的轮数为预设值(比如，50，称为指定次数)，超过50后停止迭代推理，并确定无法解出几何题目。

需要说明的是，迭代推理的过程中，对于求解目标,在经过文本解析和图形解析之后可以生成解题需要的包括几何关系或几何属性值的集合R，然后通过迭代地应用定理，可以不断地扩充集合R，直到求解目标出现在集合R中，即求解完毕。这里，每个定理k_i都确定为一个有前提p(称为前提信息)和结论q(称为结论信息)的条件规则(称为条件规则信息)。在每次推理过程中，如果k_i的前提p与当前几何R_(t-1)匹配，则根据结论q更新集合R_t。其中，i表示定理的次序，t表示迭代的次数。

下面说明应用场景。几何题目的自动求解可以应用在实际的教育业务场景中，比如AI解题场景、AI批改场景和题库扩充等。参见图12，图12是本申请实施例提供的一种示例性的应用示意图；如图12所示，给定一个几何题目12-1，生成解题步骤12-2，应用于AI解题场景12-3中；在AI批改场景12-4中，对比解题步骤12-2和学生作答步骤12-5(称为待判定步骤)，判断学生作答步骤12-5是否符合逻辑，从而实现步骤批改；在题库场景12-6中，先判断几何题目12-1是否已经存在于题库(称为指定题目库)，若是，则对题库保存的答案步骤进行校验，并在校验结果表示题库保存的答案步骤不正确时，通过人工复核修改题库，若否，则生成解题步骤12-2，并在人工审核通过后，将几何题目12-1和解题步骤12-2新增至题库中，用于扩充题库。

需要说明的是，通过对抽取到的错误位置点进行聚类优化、以及通过按类别进行数据增强之后，将原始的形式化语句、数据增强后的形式化语句、数据增强+聚类优化后的形式化语句，分别与标注数据对比，获得的评估信息参见表3。

表3

评估标准	原始	数据增强	数据增强+聚类优化
				完全一致(F1分值＝100％)	26.29％	32.9％	36.44％
完全召回(召回率＝100％)	32.45％	42.60％	44.93％
				基本一致(F1分值>＝75％)	42.43％	48.59％	52.91％
可能一致(F1分值>＝50％)	63.39％	68.72％	74.38％

由表3可知，通过对比来分别计算F1值和召回率(Recall)，并根据F1值和召回率、以及阈值划分为四类(完全一致(Totally Same)、完全召回(Perfect Recall)、基本一致(Almost Same)和可能一致(Likely Same))并计算占比；可以确定，相比于原始的形式化语句，数据增强后、以及数据增强+聚类优化后的形式化语句的准确度得到了提升。

基于原始的形式化语句、数据增强后的形式化语句、以及数据增强+聚类优化后的形式化语句分别进行几何题目的解析，获得的评估信息参见表4。

表4

由表4可知，通过数据增强，提升了几何题目可解的数量与解题的正确率，表明符号信息的正确检测会影响几何关系的抽取，进而影响解题效果；而通过对元素信息进行聚类优化，提升了题目可解的数量，并且所增加的可解题的结果全部正确，表明正确地对几何图形进行元素解析是正确解题的基础，错误地解析会导致解题错误甚至不可解。另外，解决但错误的数量的上升表明能够解决的题目增多了。其中，解决与猜测正确的数量num_guessed_correct可通过式(1)描述，式(1)如下所示。

num_guessed_correct＝num_solved_correct+num_guess (1)；

这里，num_guess通过未解决的数量乘上1/4获得；这是因为当几何题目包括4个待选项时，通过随机选择选项将有1/4概率猜中答案。

还需要说明的是，一方面，从num_solved评估标准看，对于整个评测数据集(称为训练数据)，可解的题目明显增加(224->309)，说明求解能力的提升(37.27％->51.41％)；另一方面，从num_guessed_correct评估标准看，对于整个评测数据集，得出正确答案的题目数量明显增加(293.25->344)，说明解题的正确率的提升(48.79％->57.24％)。

可以理解的是，通过数据增强和聚类优化中的至少一种方式处理后，能够提升几何信息提取的准确度，从而能够提升几何题目的自动解析能力。

下面继续说明本申请实施例提供的题目处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的题目处理装置455中的软件模块可以包括：

题目获取模块4551，用于获取待解析题目，其中，所述待解析题目包括几何图形；

信息提取模块4552，用于从所述几何图形中提取几何信息，其中，所述几何信息包括从所述几何图形中提取到的位置点，所述位置点属于所述几何图形的图形元素；

点集合并模块4553，用于在所述几何信息中，将距离小于指定距离的至少两个所述位置点确定为位置点集，并合并所述位置点集，得到目标几何信息；

形式化模块4554，用于基于所述目标几何信息进行形式化转换，得到形式化信息；

信息解析模块4555，用于基于几何定理对所述形式化信息进行解析，得到所述待解析题目的解析结果。

在本申请实施例中，所述点集合并模块4553，还用于通过所述指定距离对所述几何信息中的所述位置点进行聚类，将距离小于所述指定距离的至少两个所述位置点确定为所述位置点集；合并所述位置点集，得到目标位置点；将所述几何信息中的所述位置点集更新为所述目标位置点，得到所述目标几何信息。

在本申请实施例中，所述几何信息还包括符号信息，所述符号信息包括描述信息和几何关系中的至少一种，且所述符号信息是通过符号提取模型得到的；所述题目处理装置455还包括模型训练模块4556，用于获取训练数据，其中，所述训练数据包括几何图形样本集和几何图形样本标签集；对所述几何图形样本集进行变换，并将变换结果与所述几何图形样本标签集结合，得到增强训练数据，其中，所述变换包括图形旋转和几何关系变换中的至少一种；结合所述训练数据和所述增强训练数据，训练待训练符号提取模型，得到所述符号提取模型。

在本申请实施例中，所述模型训练模块4556，还用于对所述几何图形样本集进行分类，得到至少两个符号类别；获取每个所述符号类别对应的图形样本数量；从至少两个所述符号类别中，选择所述图形样本数量少于第一指定数量的所述符号类别，得到至少一个目标符号类别；从所述几何图形样本集中，确定与每个所述目标符号类别对应的子几何图形样本集；对所述子几何图形样本集中的每个几何图形样本进行变换。

在本申请实施例中，所述模型训练模块4556，还用于从至少两个所述符号类别中，选择所述图形样本数量大于第二指定数量的所述符号类别，得到待去除符号类别，其中，所述第二指定数量大于或等于所述第一指定数量；从所述子几何图形样本集中的每个所述几何图形样本中，去除所述待去除符号类别所对应的待去除符号信息，得到待变换几何图形样本；对所述待变换几何图形样本进行变换。

在本申请实施例中，所述模型训练模块4556，还用于确定与所述子几何图形样本集所对应的所述图形样本数量负相关的变换次数。

在本申请实施例中，所述模型训练模块4556，还用于基于所述变换次数，对所述子几何图形样本集中的每个所述几何图形样本进行变换。

在本申请实施例中，所述信息解析模块4555，还用于将所述几何定理，转换为条件规则信息，其中，所述条件规则信息包括前提信息和结论信息；当所述前提信息与所述形式化信息匹配时，基于所述结论信息迭代更新所述形式化信息；当迭代更新后的所述形式化信息中包括与所述待解析题目的所求问题匹配的题目答案时，结束解析，得到与所述待解析题目对应的包括所述题目答案的所述解析结果。

在本申请实施例中，所述模型训练模块4556，还用于获取已迭代更新的次数；当所述已迭代更新的次数大于指定次数时，结束解析，得到与所述待解析题目对应的包括解析失败的所述解析结果。

在本申请实施例中，所述题目处理装置455还包括应用处理模块4557，用于基于所述解析结果的解析过程，生成解析步骤；基于所述解析步骤对待判定解析步骤进行判定，得到判定结果。

在本申请实施例中，所述应用处理模块4557，还用于判断所述待解析题目是否属于指定题目库。

在本申请实施例中，所述应用处理模块4557，还用于当判断出所述待解析题目不属于所述指定题目库时，基于所述解析结果的所述解析过程，生成所述解析步骤。

在本申请实施例中，所述应用处理模块4557，还用于基于所述待解析题目和所述解析步骤更新所述指定题目库。

在本申请实施例中，所述应用处理模块4557，还用于当判断出所述待解析题目属于所述指定题目库时，基于所述解析结果的解析过程对所述指定题目库中与所述待解析题目对应的待校验解析步骤进行校验，得到校验结果；当所述校验结果是指所述待校验解析步骤不属于所述解析过程时，将所述待校验解析步骤更新为基于所述解析结果的解析过程所生成的所述解析步骤。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的题目处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的题目处理方法，例如，如图3示出的题目处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算机设备上执行(此时，这一个计算机设备即题目处理设备)，或者在位于一个地点的多个计算机设备上执行(此时，位于一个地点的多个计算机设备即题目处理设备)，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行(此时，分布在多个地点且通过通信网络互连的多个计算机设备即题目处理设备)。

综上所述，本申请实施例中由于几何信息中的虚假位置点与真实的位置点之间的距离小于指定距离，因此从待解析题目的几何图形中提取了几何信息之后，对几何信息中位置点之间的距离小于指定距离的位置点集进行合并，也就去除了几何信息中的虚假位置点而得到了准确的目标几何信息；从而，当基于目标几何信息进行解析时，能够获得准确的解析结果，提升题目解析的准确度。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种题目处理方法，其特征在于，所述方法包括：

获取待解析题目，其中，所述待解析题目包括几何图形；

基于所述目标几何信息进行形式化转换，得到形式化信息；

2.根据权利要求1所述的方法，其特征在于，所述在所述几何信息中，将距离小于指定距离的至少两个所述位置点确定为位置点集，并合并所述位置点集，得到目标几何信息，包括：

通过所述指定距离对所述几何信息中的所述位置点进行聚类，将距离小于所述指定距离的至少两个所述位置点确定为所述位置点集；

合并所述位置点集，得到目标位置点；

将所述几何信息中的所述位置点集更新为所述目标位置点，得到所述目标几何信息。

3.根据权利要求1或2所述的方法，其特征在于，所述几何信息还包括符号信息，所述符号信息包括描述信息和几何关系中的至少一种，且所述符号信息是通过符号提取模型得到的；

所述符号提取模型通过以下步骤训练得到：

获取训练数据，其中，所述训练数据包括几何图形样本集和几何图形样本标签集；

对所述几何图形样本集进行变换，并将变换结果与所述几何图形样本标签集结合，得到增强训练数据，其中，所述变换包括图形旋转和几何关系变换中的至少一种；

结合所述训练数据和所述增强训练数据，训练待训练符号提取模型，得到所述符号提取模型。

4.根据权利要求3所述的方法，其特征在于，所述对所述几何图形样本集进行变换，包括：

对所述几何图形样本集进行分类，得到至少两个符号类别；

获取每个所述符号类别对应的图形样本数量；

从至少两个所述符号类别中，选择所述图形样本数量少于第一指定数量的所述符号类别，得到至少一个目标符号类别；

从所述几何图形样本集中，确定与每个所述目标符号类别对应的子几何图形样本集；

对所述子几何图形样本集中的每个几何图形样本进行变换。

5.根据权利要求4所述的方法，其特征在于，所述对所述子几何图形样本集中的每个几何图形样本进行变换，包括：

从至少两个所述符号类别中，选择所述图形样本数量大于第二指定数量的所述符号类别，得到待去除符号类别，其中，所述第二指定数量大于或等于所述第一指定数量；

从所述子几何图形样本集中的每个所述几何图形样本中，去除所述待去除符号类别所对应的待去除符号信息，得到待变换几何图形样本；

对所述待变换几何图形样本进行变换。

6.根据权利要求4所述的方法，其特征在于，所述对所述子几何图形样本集中的每个几何图形样本进行变换之前，所述方法还包括：

确定与所述子几何图形样本集所对应的所述图形样本数量负相关的变换次数；

所述对所述子几何图形样本集中的每个几何图形样本进行变换，包括：

基于所述变换次数，对所述子几何图形样本集中的每个所述几何图形样本进行变换。

7.根据权利要求1或2所述的方法，其特征在于，所述基于几何定理对所述形式化信息进行解析，得到所述待解析题目的解析结果，包括：

将所述几何定理，转换为条件规则信息，其中，所述条件规则信息包括前提信息和结论信息；

当所述前提信息与所述形式化信息匹配时，基于所述结论信息迭代更新所述形式化信息；

当迭代更新后的所述形式化信息中包括与所述待解析题目的所求问题匹配的题目答案时，结束解析，得到与所述待解析题目对应的包括所述题目答案的所述解析结果。

8.根据权利要求7所述的方法，其特征在于，所述当所述前提信息与所述形式化信息匹配时，基于所述结论信息迭代更新所述形式化信息之后，所述方法还包括：

获取已迭代更新的次数；

当所述已迭代更新的次数大于指定次数时，结束解析，得到与所述待解析题目对应的包括解析失败的所述解析结果。

9.根据权利要求1或2所述的方法，其特征在于，所述基于几何定理对所述形式化信息进行解析，得到所述待解析题目的解析结果之后，所述方法还包括：

基于所述解析结果的解析过程，生成解析步骤；

基于所述解析步骤对待判定解析步骤进行判定，得到判定结果。

10.根据权利要求9所述的方法，其特征在于，所述基于所述解析结果的解析过程，生成解析步骤之前，所述方法还包括：

判断所述待解析题目是否属于指定题目库；

所述基于解析结果的解析过程，生成解析步骤，包括：

当判断出所述待解析题目不属于所述指定题目库时，基于所述解析结果的所述解析过程，生成所述解析步骤；

所述当判断出所述待解析题目不属于所述指定题目库时，基于所述解析结果的所述解析过程，生成所述解析步骤之后，所述方法还包括：

基于所述待解析题目和所述解析步骤更新所述指定题目库。

11.根据权利要求10所述的方法，其特征在于，所述判断所述待解析题目是否属于指定题目库之后，所述方法还包括：

当判断出所述待解析题目属于所述指定题目库时，基于所述解析结果的解析过程对所述指定题目库中与所述待解析题目对应的待校验解析步骤进行校验，得到校验结果；

当所述校验结果是指所述待校验解析步骤不属于所述解析过程时，将所述待校验解析步骤更新为基于所述解析结果的解析过程所生成的所述解析步骤。

12.一种题目处理装置，其特征在于，所述题目处理装置包括：

13.一种题目处理设备，其特征在于，所述题目处理设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的题目处理方法。

14.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令用于被处理器执行时，实现权利要求1至11任一项所述的题目处理方法。

15.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时，实现权利要求1至11任一项所述的题目处理方法。