CN114021561A

CN114021561A - 一种数学公式相似度计算方法及系统

Info

Publication number: CN114021561A
Application number: CN202111278968.7A
Authority: CN
Inventors: 汤博阳; 邓嘉; 张新访
Original assignee: Wuhan Tianyu Information Industry Co Ltd
Current assignee: Wuhan Tianyu Information Industry Co Ltd
Priority date: 2021-10-31
Filing date: 2021-10-31
Publication date: 2022-02-08

Abstract

本发明公开了一种数学公式相似度计算方法及系统，涉及教育领域，该方法包括识别文本中含有的公式，并对识别得到的公式进行结构转化，得到公式的SLT树形结构和OPT树形结构；对公式的SLT树形结构构建对应的元组序列，对公式的OPT树形结构构建对应的元组序列；对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理；训练FastText n‑gram模型，得到两个训练完成的词嵌入模型；对公式进行编码，得到公式词嵌入后的SLT向量表征以及OPT向量表征；基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量，并基于公式的向量计算得到公式间的相似度。本发明能够准确的对公式进行向量化表示并准确完成公式间的相似度计算。

Description

一种数学公式相似度计算方法及系统

技术领域

本发明涉及教育领域，具体涉及一种数学公式相似度计算方法及系统。

背景技术

当前在NLP(Natural Language Processing，自然语言处理)工业领域，对文本中嵌入的数学公式信息主要采用两种处理方式：一种是直接将公式和文本一起作为语料进行分词再训练，从而得到相应的词嵌入向量；另一种是将公式的特征元素映射为位置向量，通过比较两个公式之间元素位置的的相对匹配度以及重合度计算得到公式间的相似度。此外还有通过基于二叉树的数学表达式计算公式相似度的方式，例如将公式转化成二叉树结构，再进行结构与变量的归一化，最终根据公共子序列的长度来计算数学表达式之间的相似度。

但上述处理方式在计算公式间相似度时存在以下问题：1、公式大多用MathML格式或者LaTex格式来表示，如何准确抽取公式并正确的表示其内在信息是上述处理方式面临的最大难点；2、将公式直接看作文本处理，采用暴力拆解公式结构的方式可能损坏公式自身隐含的重要信息，例如公式计算存在一定的先后顺序，上述方式无法获取公式内各元素之间隐含的结构和语义信息；3、公式存在特异性且数量级巨大，传统方法在应对新公式时，无法准确的对其进行向量化表示。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种数学公式相似度计算方法及系统，能够准确的对公式进行向量化表示并准确完成公式间的相似度计算。

为达到以上目的，本发明提供的一种数学公式相似度计算方法，具体包括以下步骤：

识别文本中含有的公式，并对识别得到的公式进行结构转化，得到公式的SLT树形结构和OPT树形结构；

对公式的SLT树形结构构建对应的元组序列，对公式的OPT树形结构构建对应的元组序列；

对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理，分别得到第一词表和第二词表；

采用第一词表和第二词表分别训练FastText n-gram模型，得到两个训练完成的词嵌入模型；

使用训练完成的词嵌入模型分别对公式进行编码，得到公式词嵌入后的SLT向量表征以及OPT向量表征；

基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量，并基于公式的向量计算得到公式间的相似度。

在上述技术方案的基础上，所述识别文本中含有的公式，具体步骤包括：

获取含有公式的文本或者HTML文件，并对文本或者HTML文件中公式的格式进行判断：

当为MathML格式时，直接对公式进行识别和提取；

当不为MathML格式时，转换为MathML格式后，再进行识别和提取。

在上述技术方案的基础上，所述对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理，分别得到第一词表和第二词表，具体步骤包括：

对公式SLT树形结构的元组序列的每一个元组均进行分词处理，基于得到的分词构成第一词表；

对公式OPT树形结构的元组序列的每一个元组均进行分词处理，基于得到的分词构成第二词表。

在上述技术方案的基础上，当对元组序列的每一个元组进行分词处理得到分词后，对每一个分词均进行唯一ID标记。

在上述技术方案的基础上，所述采用第一词表和第二词表分别训练FastText n-gram模型，得到两个训练完成的词嵌入模型，具体步骤包括：

采用第一词表对FastText n-gram模型进行训练，得到用作SLT形式的词嵌入模型；

采用第二词表对FastText n-gram模型进行训练，得到用作OPT形式的词嵌入模型。

在上述技术方案的基础上，所述使用训练完成的词嵌入模型分别对公式进行编码，得到公式词嵌入后的SLT向量表征以及OPT向量表征，具体步骤包括：

使用基于第一词表训练后得到的词嵌入模型对公式进行编码，得到公式词嵌入后的SLT向量表征；

使用基于第二词表训练后得到的词嵌入模型对公式进行编码，得到公式词嵌入后的OPT向量表征。

在上述技术方案的基础上，所述基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量，具体步骤为：

将公式的SLT向量表征和OPT向量表征进行相加处理，然后进行平均计算得到公式的向量。

在上述技术方案的基础上，所述基于公式的向量计算得到公式间的相似度，具体步骤包括：

计算得到待进行相似度计算的公式的向量；

基于待进行相似度计算的公式的向量，进行余弦相似度计算，得到公式间的相似度。

本发明提供的一种数学公式相似度计算系统，包括：

识别模块，其用于识别文本中含有的公式，并对识别得到的公式进行结构转化，得到公式的SLT树形结构和OPT树形结构；

构建模块，其用于对公式的SLT树形结构构建对应的元组序列，对公式的OPT树形结构构建对应的元组序列；

分词模块，其用于对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理，分别得到第一词表和第二词表；

训练模块，其用于采用第一词表和第二词表分别训练FastText n-gram模型，得到两个训练完成的词嵌入模型；

编码模块，其用于使用训练完成的词嵌入模型分别对公式进行编码，得到公式词嵌入后的SLT向量表征以及OPT向量表征；

计算模块，其用于基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量，并基于公式的向量计算得到公式间的相似度。

在上述技术方案的基础上，所述基于公式的向量计算得到公式间的相似度，具体过程包括：

计算得到待进行相似度计算的公式的向量；

与现有技术相比，本发明的优点在于：通过识别文本中含有的公式，并对识别得到的公式进行结构转化，得到公式的SLT树形结构和OPT树形结构，从而实现公式的准确抽取以及公式内在信息的准确表示；通过对公式的SLT树形结构构建对应的元组序列，对公式的OPT树形结构构建对应的元组序列，对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理，分别得到第一词表和第二词表，实现公式内各元素之间隐含的结构和语义信息的获取；通过采用第一词表和第二词表分别训练FastText n-gram模型，得到两个训练完成的词嵌入模型，使用训练完成的词嵌入模型分别对公式进行编码，得到公式词嵌入后的SLT向量表征以及OPT向量表征，基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量，并基于公式的向量计算得到公式间的相似度，从而准确的对公式进行向量化表示并准确完成公式间的相似度计算。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种数学公式相似度计算方法的流程图；

图2为将公式进行结构转化，得到的SLT树形结构和OPT树形结构的示意图；

图3为本发明实施例中一种数学公式相似度计算系统的结构示意图。

具体实施方式

本发明实施例提供一种数学公式相似度计算方法，通过识别文本中含有的公式，并对识别得到的公式进行结构转化，得到公式的SLT树形结构和OPT树形结构，从而实现公式的准确抽取以及公式内在信息的准确表示；通过对公式的SLT树形结构构建对应的元组序列，对公式的OPT树形结构构建对应的元组序列，对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理，分别得到第一词表和第二词表，实现公式内各元素之间隐含的结构和语义信息的获取；通过采用第一词表和第二词表分别训练FastText n-gram模型，得到两个训练完成的词嵌入模型，使用训练完成的词嵌入模型分别对公式进行编码，得到公式词嵌入后的SLT向量表征以及OPT向量表征，基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量，并基于公式的向量计算得到公式间的相似度，从而准确的对公式进行向量化表示并准确完成公式间的相似度计算。本发明实施例相应地还提供了一种数学公式相似度计算系统。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在教育领域的实际业务场景中，例如抄袭检测、相似题推荐、知识点自动标注等，文档信息一般都是多模态数据，除了文本信息外，还包括丰富的表格、图形和公式等信息，这些信息与占主导地位的文本信息互相说明，互为补充。在下游任务中，例如相似题推荐、知识点自动标注等都是利用文本信息所提取的特征训练模型，学习向量表征间的信息计算相似性来完成，这种方法一般将公式直接当做文本来进行处理，拆解了公式自身存在的特殊信息，特别是对理科学科而言，其主要思想或者观点会通过特定的公式来表达。

尽管，像信息检索、文本分类等NLP任务通过词嵌入模型对文本信息进行向量化处理已得到广泛地应用，但是对数学公式进行向量化的表示还未得到完全的探索。数学公式体量巨大，形式结构各异，能自动化对公式信息进行向量化表示是本发明的最终目标。

基于上述可知，有效地识别公式并表示公式特征，显得尤为重要。因此，本发明提出一种基于数学公式的词嵌入方法，公式间的相似性可通过计算各个公式向量之间余弦相似度，从而有效解决了公式信息利用不完全的问题，提升了试题推荐的有效率以及试题知识点标注的准确性。

参见图1所示，本发明实施例提供的一种数学公式相似度计算方法，具体包括以下步骤：

S1：识别文本中含有的公式，并对识别得到的公式进行结构转化，得到公式的SLT(Symbol Layout Trees，符号布局树)树形结构和OPT(Operator Trees，算子树)树形结构；

本发明实施例中，识别文本中含有的公式，具体步骤包括：

S101：获取含有公式的文本或者HTML(Hyper Text Markup Language，超文本标记语言)文件，并对文本或者HTML文件中公式的格式进行判断：

S102：当为MathML格式时，直接对公式进行识别和提取；

S103：当不为MathML格式时，转换为MathML格式后，再进行识别和提取。

由于公式一般为MathML格式或LaTex格式，当前的公式识别方法中对MathML格式的公式识别效果较好，因为公式一般被类似于HTML格式的标记符(<math>，</math>)所包含在内，且MathML对公式元素的标记有完整的体系结构，能够清晰的表示公式的内部结构，更容易被准确的识别和提取，故LaTex格式的公式可以先转化成MathML格式后再进行识别和提取。

对于SLT树形结构和OPT树形结构，SLT树形结构涵盖了公式中各元素出现的顺序以及嵌套继承关系，OPT树形结构涵盖了公式中的操作符对各个元素的计算过程。如图2所示，为将公式转化为SLT树形结构和OPT树形结构的举例，图2中，(a)表示公式，(b)表示对公式转化得到的SLT树形结构，(c)表示对公式转化得到的OPT树形结构。

S2：对公式的SLT树形结构构建对应的元组序列，对公式的OPT树形结构构建对应的元组序列；

在公式被转化成SLT树形结构和OPT树形结构后，再分别进行元组序列的构建，元组反应的是公式中某两个元素间的相对关系，由上下两个元素以及连接他们的边来表示。对图2中公式(a)所构建的两种树形结构下的元组序列如下表1所示。

表1

表1中，SLT tuples表示对公式的SLT树形结构构建的元组序列，OPT tuples表示对公式的OPT树形结构构建的元组序列。所有的元组都是以(S1,S2,R,FRP)的形式出现，S1表示上位元素，S2表示下位元素，R表示从S1到S2的边的标签，在SLT的元组中FRP表示的是从根节点到当前S1的全路径。

S3：对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理，分别得到第一词表和第二词表；

本发明实施例中，对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理，分别得到第一词表和第二词表，具体步骤包括：

S301：对公式SLT树形结构的元组序列的每一个元组均进行分词处理，基于得到的分词构成第一词表；

S302：对公式OPT树形结构的元组序列的每一个元组均进行分词处理，基于得到的分词构成第二词表。

当对元组序列的每一个元组进行分词处理得到分词后，对每一个分词均进行唯一ID标记。

当前，对公式的词嵌入大多定义在词的级别，训练好的模型对以后从未见过的公式进行词嵌入时，准确性和有效性就会降低，所以，采用subword算法或者字符级别的词嵌入方式能够产生鲁棒性更好的向量表示。将每个元组看为一个单词，并对每个单词进行内部的分割，例如(U！eq,O！minus,0)会被标记为‘U！’、‘eq’、‘O！’、‘minus’和‘0’，并且给它们每一个都标记上一个唯一的ID，需要注意的是，这里没有使用FRP，因为对于OPT形式的表达，其意义仅在表示操作符运算的顺序，分词时加入FRP的信息会引入没有必要的错误信息从导致产生错误的词嵌入向量。

S4：采用第一词表和第二词表分别训练FastText n-gram模型，得到两个训练完成的词嵌入模型；

对于本发明实施例中的FastText n-gram模型，说明如下：

FastText n-gram模型一般用来进行有监督学习的文本分类，也可以进行无监督学习词向量，在训练词向量时会考虑subword(一种NLP模型性能提升方法)。Word2Vec模型把语料库中的每个单词当成一个原子，会为每个单词生成一个向量，但这忽略了单词内部的形态特征，比如：“apple”和“apples”，这两个单词有较多公共字符，即它们的内部形态类似，但是在传统的word2vec中，单词内部的形态信息由于单词被转换成不同的ID而丢失了，为了克服这个问题，FastText模型使用了字符级别的n-grams来表示一个单词。例如对于单词“apple”，它的trigram(三元语言模型)有："<ap","app","ppl","ple","le>"，因此可以用这些trigram来表示“apple”这个单词，进一步，还可以使用这5个trigram的向量叠加来表示“apple”的词向量。上述表示的优点包括：1、对于低频词生成的词向量效果会更好，因为它们的n-gram可以和其它词共享；2、对于训练词库之外的单词，仍然可以构建它们的词向量。

FastText n-gram模型包含三层：输入层、隐含层和输出层。输出层一般是预测的标签，隐含层输出的便是单词的词向量，词向量为单词多个字符级n-gram向量的叠加平均。本发明中给FastText n-gram模型作为输入的是公式分词后的词序列表，一个公式由多个元组表示，每个元组看作一个单词，元组内部会根据设定分解为多个字符级的单词，例如(U！eq,O！minus,0)会被标记为‘U！’、‘eq’、‘O！’、‘minus’和‘0’，并且给它们每一个都标记上一个唯一的ID，则每个元组的输入表示为其所有ID的组合。

本发明实施例中，采用第一词表和第二词表分别训练FastText n-gram模型，得到两个训练完成的词嵌入模型，具体步骤包括：

S401：采用第一词表对FastText n-gram模型进行训练，得到用作SLT形式的词嵌入模型；通过采用第一词表对FastText n-gram模型进行训练，得到用作SLT形式的词嵌入模型，使得训练完成得到的词嵌入模型具有对公式进行编码以得到SLT向量表征的能力。

S402：采用第二词表对FastText n-gram模型进行训练，得到用作OPT形式的词嵌入模型。通过采用第二词表对FastText n-gram模型进行训练，得到用作OPT形式的词嵌入模型，使得训练完成得到的词嵌入模型具有对公式进行编码以得到OPT向量表征的能力。

S5：使用训练完成的词嵌入模型分别对公式进行编码，得到公式词嵌入后的SLT向量表征以及OPT向量表征；

本发明实施例中，使用训练完成的词嵌入模型分别对公式进行编码，得到公式词嵌入后的SLT向量表征以及OPT向量表征，具体步骤包括：

S501：使用基于第一词表训练后得到的词嵌入模型对公式进行编码，得到公式词嵌入后的SLT向量表征；

S502：使用基于第二词表训练后得到的词嵌入模型对公式进行编码，得到公式词嵌入后的OPT向量表征。

对于本发明中使用词嵌入模型对公式进行编码的具体过程，说明如下：

需要进行编码的公式同样需先转换成OPT形式或SLT形式的元组序列，然后采用训练完成的词嵌入模型以及相应的词表对公式的每一个元组进行词嵌入。训练完成的词嵌入模型会设定一个固定维度的向量输出，本发明中的固定维度设置为300，对于公式的向量计算式可以表示为：

其中，formulaVec(F)表示公式F的向量，T_F表示公式F的元组序列，n表示T_F所包含的元组数，t表示元组，词嵌入后的元组t是一个300维度的词向量，用tupleVec(t)表示；即一个公式F由一个元组序列T_F表示，T_F包含n个元组，公式的向量为所有n个元组的向量相加求均值，同样为一个300维度的词向量。

S6：基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量，并基于公式的向量计算得到公式间的相似度。

本发明实施例中，基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量，具体步骤为：

本发明实施例中，基于公式的向量计算得到公式间的相似度，具体步骤包括：

S601：计算得到待进行相似度计算的公式的向量；

S602：基于待进行相似度计算的公式的向量，进行余弦相似度计算，得到公式间的相似度。

例如，对于待进行相似度计算的两个公式，均采用上述步骤S1～S5所述方法计算得到公式的向量，然后对两公式的向量进行余弦相似度计算，得到两公式间的相似度。

本发明的数学公式相似度计算方法，能够有效识别并提取文本中含有的数学公式，对其进行规范的向量化处理，使得在利用题目信息时能有效关注到公式所提供的独有特征。在实际业务场景中，依托计算公式之间的相似度并结合文本自身的信息，相似题推荐的有效率以及试题知识点标注的准确率都得到较大的提升。

本发明通过引入有关数学公式词嵌入的方法，主要体现在以下几点：将公式转化为两种树形结构，并根据树形结构构建了相对应的元组序列，深入元组内部构建了字符级别的公式词表并用于FastText n-gram模型的训练。对于混杂数学公式的文本信息，在处理过程中能有效地地避免将文本直接作词向量嵌入带来的信息缺少，能有效捕捉数学公式的内在隐含信息，提高了公式检索匹配的效率，对未知的公式能有效的进行词嵌入表示，且能计算更为精准的公式相似度，从而为实际场景中的下游任务提供有关公式的可靠信息。

本发明实施例的数学公式相似度计算方法，通过识别文本中含有的公式，并对识别得到的公式进行结构转化，得到公式的SLT树形结构和OPT树形结构，从而实现公式的准确抽取以及公式内在信息的准确表示；通过对公式的SLT树形结构构建对应的元组序列，对公式的OPT树形结构构建对应的元组序列，对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理，分别得到第一词表和第二词表，实现公式内各元素之间隐含的结构和语义信息的获取；通过采用第一词表和第二词表分别训练FastText n-gram模型，得到两个训练完成的词嵌入模型，使用训练完成的词嵌入模型分别对公式进行编码，得到公式词嵌入后的SLT向量表征以及OPT向量表征，基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量，并基于公式的向量计算得到公式间的相似度，从而准确的对公式进行向量化表示并准确完成公式间的相似度计算。

参见图3所示，本发明实施例提供的一种数学公式相似度计算系统，包括识别模块、构建模块、分词模块、训练模块、编码模块和计算模块。

识别模块用于识别文本中含有的公式，并对识别得到的公式进行结构转化，得到公式的SLT树形结构和OPT树形结构；构建模块用于对公式的SLT树形结构构建对应的元组序列，对公式的OPT树形结构构建对应的元组序列；分词模块用于对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理，分别得到第一词表和第二词表；训练模块用于采用第一词表和第二词表分别训练FastText n-gram模型，得到两个训练完成的词嵌入模型；编码模块用于使用训练完成的词嵌入模型分别对公式进行编码，得到公式词嵌入后的SLT向量表征以及OPT向量表征；计算模块用于基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量，并基于公式的向量计算得到公式间的相似度。

本发明实施例中，基于公式的向量计算得到公式间的相似度，具体过程包括：

计算得到待进行相似度计算的公式的向量；

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

Claims

1.一种数学公式相似度计算方法，其特征在于，具体包括以下步骤：

2.如权利要求1所述的一种数学公式相似度计算方法，其特征在于，所述识别文本中含有的公式，具体步骤包括：

当为MathML格式时，直接对公式进行识别和提取；

3.如权利要求1所述的一种数学公式相似度计算方法，其特征在于，所述对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理，分别得到第一词表和第二词表，具体步骤包括：

4.如权利要求3所述的一种数学公式相似度计算方法，其特征在于：当对元组序列的每一个元组进行分词处理得到分词后，对每一个分词均进行唯一ID标记。

5.如权利要求1所述的一种数学公式相似度计算方法，其特征在于，所述采用第一词表和第二词表分别训练FastText n-gram模型，得到两个训练完成的词嵌入模型，具体步骤包括：

6.如权利要求5所述的一种数学公式相似度计算方法，其特征在于，所述使用训练完成的词嵌入模型分别对公式进行编码，得到公式词嵌入后的SLT向量表征以及OPT向量表征，具体步骤包括：

7.如权利要求1所述的一种数学公式相似度计算方法，其特征在于，所述基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量，具体步骤为：

8.如权利要求1所述的一种数学公式相似度计算方法，其特征在于，所述基于公式的向量计算得到公式间的相似度，具体步骤包括：

计算得到待进行相似度计算的公式的向量；

9.一种数学公式相似度计算系统，其特征在于，包括：

10.如权利要求9所述的一种数学公式相似度计算系统，其特征在于，所述基于公式的向量计算得到公式间的相似度，具体过程包括：

计算得到待进行相似度计算的公式的向量；