CN110414319B

CN110414319B - 一种公式相似度计算方法和科技文档检索方法及装置

Info

Publication number: CN110414319B
Application number: CN201910510665.XA
Authority: CN
Inventors: 韩光; 周献民; 冯文化; 崔永进; 兰静; 杨杨; 田宝松
Original assignee: China National Software & Service Co ltd
Current assignee: China National Software & Service Co ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2021-08-31
Anticipated expiration: 2039-06-13
Also published as: CN110414319A

Abstract

本发明涉及一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置。该公式相似度计算方法包括：1)将数学公式解析为树结构，并从树结构中提取有效子树信息；2)利用提取的有效子树信息，将数学公式表示为有效子树的有序多重集；3)根据有效子树找到有效匹配子树，并计算有效匹配子树的权重加和，得到权重和相似度；4)对权重和相似度进行标准化处理，得到最终的公式相似度。进一步可基于该公式相似度计算方法进行科技文档检索。本发明能够解决现有技术中公式子树不独立而产生的无效匹配问题，能够使公式相似度计算的准确性得到明显提升。

Description

一种公式相似度计算方法和科技文档检索方法及装置

技术领域

本发明属于信息技术领域，涉及一种相似度计算方法和文档检索方法，尤其涉及一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置。

背景技术

随着科技文档数量的急剧增加，研究者越来越难以精准找到研究领域的相关文献。为解决该问题，科技文献检索、分类、精准推送等技术应运而生，而科技文档相似性度量是解决这些技术的关键问题之一。

传统的科技文档相似度计算方法主要基于文本信息。但科技文档是一种多模态数据，其中公式是科技文档的重要关键组成，往往是科技文档最为凝练的部分。

在外形上，公式呈非线性结构，可以清晰地描述和展示复杂的逻辑关系；在内容上，公式简洁明了，能精确的描述和表达问题；在应用上，公式是国际学术交流通用的语言，应用范围广，有助于实现跨语言科技文档相似度计算；在稳定性上，公式更稳定且不易更改。

因此公式相似度的计算对度量整个科技文档的相似度有重要价值。

基于子树方法是目前比较常用的公式相似度计算方法，该方法提取公式子树或泛化子树的文本信息作为公式特征元素，累加所有特征元素的相似度作为公式相似度。在该方法中，从文本角度看，特征元素相互独立，从树形结构角度看子树具有可分解性，因此特征元素是不完全相互独立的。当两棵子树相似时，其分解的子树自然也相似。公式子树不独立问题导致无效匹配问题，影响了公式相似度计算效果。

发明内容

本发明提出了一种基于有效匹配子树的公式相似度计算方法和装置，用以解决上述公式子树不独立而产生的无效匹配问题，能够使公式相似度计算的准确性得到明显提升。进一步本发明提出了基于该公式相似度计算方法的科技文档检索方法和装置。

首先说明本发明涉及到的定义：

定义1(多重集)允许一个元素重复出现的集合。

定义2(子树)假设v是树T中的任意节点，则以v为根节点及v所有后代组成的树叫做树在节点v的子树。

一棵树T^p的第i个子树可以表示为

其中，p是区别不同树的标识，

表示子树

的节点多重集，

表示子树

的边多重集，

表示子树

的根节点。

定义3(有效子树)节点数大于1的子树称为有效子树。

定义4(子树完全匹配)假设两棵树T^p和T^q的子树

如果

和

满足以下条件，则

和

完全匹配。

①

②

其中，

表示子树

的先序遍历序列，

表示子树

的中序遍历序列。

定义5(有效匹配子树)假设

且

是

的一个子树，

且

是

的一个子树，

和

称为有效匹配子树须满足以下条件：

①

和

不完全匹配

②

且

③当

且

时，须满足

其中，

表示子树

在之前的匹配中未被匹配，

表示子树

在之前的匹配中已被匹配；

表示子树

是父节点的从左到右的第i个子树；

表示子树

根节点的第一个孩子节点不具有交换性，

表示具有交换性。

定义6(有效匹配子树的权重)指有效匹配子树对公式相似度计算的贡献程度。

本发明的基于有效匹配子树的公式相似度计算方法，包括以下步骤：

1)将数学公式解析为树结构，并从树结构中提取有效子树信息；

2)利用提取的有效子树信息，将数学公式表示为有效子树的有序多重集；

3)根据有效子树找到有效匹配子树，并计算有效匹配子树的权重加和，得到权重和相似度；

4)对权重和相似度进行标准化处理，得到最终的公式相似度。

下面结合图1，详细描述基于有效匹配子树的公式相似度计算方法。

步骤S101，公式的树型结构表示及有效子树信息提取。

数学公式的描述方式有LaTeX、MathML、OpenMath、图像等，各种描述方式之间可以通过直接或间接的方法相互转化，并且可以被解析为树结构。不失一般性，本发明以内容型MathML格式为例进行解析得到树结构。

对公式a²+b²＝c²的内容型MathML描述方法(如图2所示)进行解析，得到的树结构如图3所示。

在以内容型MathML的描述方式对数学公式进行表述时，所有的运算符都以XML标签的形式存在。标签<cn>是表示常量的一种标志，<ci>是表示变量的一种标志，<apply>类似于数学公式中的括号，可理解为公式中子表达式(子树)的一种标志。

由于脱离文档的公式变量没有实际意义，因此不提取变量作为子树的信息。

有效子树信息的提取步骤为：

①利用Python程序中的ElementTree对内容型MathML格式的数学公式解析，通过函数getroot()和getchildren()分别获取根节点和根节点的孩子节点集。

②利用函数getchildren()获取根节点的孩子节点集。

③遍历孩子节点集，在遍历过程中若孩子节点标签为“apply”，转至步骤④和⑤，否则，继续遍历，直至遍历结束提取步骤结束。

④以“apply”为根节点，利用步骤②获取并遍历孩子节点，直至遍历完以“apply”为根结点的所有结点。在遍历过程中，若节点的标签为“ci”或“cn”，则记录标签对应的文本内容；若节点标签既不是“ci”也不是“cn”，则记录节点的标签。

⑤同时以“apply”为根节点，循环步骤②和③，直至遍历完所有节点为止。

步骤S102，基于有效子树的公式表示。

一个数学公式可以由其解析树的所有子树集合表示。但在content标记(content标记与presentation标记是现有的两个对MathML描述方式下的不同数学公式的定义标识)的数学公式中，运算符和常量是其树型结构中的叶子节点。一个叶子节点也是一棵子树，而将运算符和常量单独作为一棵子树进行相似度计算并没有实际意义。因此，一个数学公式可以表示为有效子树的集合。但从公式a²+b²＝c²对应的解析树图3可以看出，若将一个数学公式表示为有效子树的集合，会丢失部分公式结构信息。例如图3中子树t₃,t₄和t₅三者是相同的(图中的编号代表有效子树的顺序)，但子树t₃,t₄与t₅所在层次不同。因此一个数学公式可以表示为有效子树的有序多重集，即

其中n表示有效子树的个数。为了便于简洁论述，下文中的子树(除特殊说明外)均指有效子树。

步骤S103，权重和相似度计算。

从树型结构角度来看，影响公式相似度的因素包括有效匹配子树的规则和权重。

如图4中的(a)与(b)，

和

是树T^p的两个子树且

是

的一个子树，

和

是树T^q的两个子树且

是

的一棵子树，当子树

和子树

相似时，那么

和

肯定相似，所以若已知子树

和子树

相似时，则计算其子树

和

的相似度无意义。再如图4中(a)与(c)，T^p根节点的标签是‘eq’(＝)，T^m根节点的标签是‘neq’(≠)时，即使T^p和T^m的最大子树

和

是相似的，但根据数学语义可知，T^p和T^m的相似度sim(T^p,T^m)＝0，这时计算其子树

和

的相似度也无意义。

综上可知，有效子树在匹配过程中产生的无意义匹配会增加子树匹配计算量和影响公式相似度计算的准确性，因此在计算公式相似度时，应根据定义5，仅计算有效匹配子树。

由于大部分数学公式都是等式，而且含

等关系运算符的公式或表达式一般作为公式的条件是其最小子树，因此本文不考虑关系运算符的正反语义。

公式相似度计算问题可以演化为其对应解析树匹配问题，进而将其表示为所有的有效匹配子树的权重之和，称之为权重和相似度。

有效匹配子树的权重与两个因素有关：①有效匹配子树的节点数；②有效匹配子树所在层次。有效匹配子树的节点数越多，越能体现两个公式更相似；从图5可以看出，sim(f₁,f₂)＞sim(f₁,f₃)，因此有效匹配子树所在层次差越小，越能表示两个公式更相似。

综上分析，两棵有效匹配子树

和

的权重计算如公式1所示：

其中，

表示子树

所在的层次，

表示子树除去节点“apply”的节点数。a是一个调节因子，取值范围为a＞1，a值越大表明较小有效匹配子树对公式相似度计算的影响越小。由于考虑所有的有效匹配子树，本发明举例取a＝2作为示例。

步骤S104，相似度标准化。

在步骤S103中计算所得权重和相似度未进行标准化，采用公式2对权重和相似度进行归一化。

其中，|T^p|表示树型结构T^p不包含“apply”节点的节点总数，|T^q|表示树型结构T^q不包含“apply”节点的节点总数，sum表示公式f_i和f_j的权重和相似度。

与上述公式相似度计算方法对应地，本发明还提供一种基于有效匹配子树的公式相似度计算装置，其包括：

有效子树信息提取模块，负责将数学公式解析为树结构，并从树结构中提取有效子树信息；

公式表示模块，负责利用提取的有效子树信息，将数学公式表示为有效子树的有序多重集；

权重和相似度计算模块，负责根据有效子树找到有效匹配子树，并计算有效匹配子树的权重加和，得到权重和相似度；

相似度标准化模块，负责对权重和相似度进行标准化处理，得到最终的公式相似度。

基于上述公式相似度计算方法，本发明还提供一种科技文档检索方法，包括以下步骤：

1)输入待查询的公式；

2)提取科技文档库中所有文档的公式；

3)采用本发明的公式相似度计算方法，计算待查询的公式与科技文档库中科技文档所含的公式之间的相似度；

4)基于步骤3)得到的公式之间的相似度，获得科技文档检索结果。比如某公式与待查询公式的相似度超过设置的阈值，将包含该公式的科技文档作为检索结果返回给用户。

与上述科技文档检索方法对应地，本发明还提供一种科技文档检索装置，其包括：

输入模块，用于输入待查询的公式；

公式提取模块，负责提取科技文档库中所有文档的公式；

公式相似度计算模块，负责采用本发明的公式相似度计算方法，计算待查询的公式与科技文档库中科技文档所含的公式之间的相似度；

输出模块，负责基于得到的公式之间的相似度，获得科技文档检索结果。

本发明的有益效果是：

本发明基于有效匹配子树计算公式相似度，能够解决现有技术中公式子树不独立而产生的无效匹配问题，能够使公式相似度计算的准确性得到明显提升，同时提供了一种通过公式检索科技文档的新方法。

附图说明

图1为基于有效匹配子树的公式相似度计算流程。

图2为公式a²+b²＝c²的内容型MathML描述方式。

图3为公式a²+b²＝c²解析树结构图。

图4为无效匹配说明图。其中(a)为公式c＝a²+3的树型结构，(b)为公式c≥a²+3的树型结构，(c)为公式c≠a²+3的树型结构。

图5为层次因素说明图。其中：(a)f₁:

(b)f₂:

(c)f₃:

图6为公式相似度计算实现方式流程图。

图7为实验查准率结果统计图。

具体实施方式

实施例一：

下面结合实例和附图6，进一步描述公式相似度的计算实现过程。

本实施例中的公式相似度计算方法仅作为案例展示，不局限于此一种实现方式。

为保证公式子树的有效匹配，假定公式f₁和f₂的节点总数为n₁,n₂，子树个数m₁,m₂，子树顺序为i,j，子树

和

根节点对应的索引为num_i,num_j，则公式f₁和f₂的相似度计算实现步骤如下：

(1)将两个子树的相似度初始值默认为0，两棵子树顺序都默认为0；

(2)第一个公式的子树顺序i作为外层循环，判断第一个公式子树顺序i是否小于第一个公式的子树总个数m₁，判断为是进入步骤(3)；判断为否，跳出计算，对结果进行标准化处理，得到公式相似度；

(3)第二个公式的子树顺序j作为内层循环，判断第二个公式子树顺序j是否小于第二个公式子树总个数m₂，判断为是进入步骤(4)；判断为否，第一棵子树顺序i加1，进入步骤(2)；

(4)在内层循环中，判断两个子树父节点的第一个孩子节点是否都具有交换性；如果都不具有交换性且两个子树是父节点不同位置的孩子节点，即判断为是，第二个公式子树顺序加1，进入步骤(3)；如果不都具有交换性，同时两个子树是父节点同位置的孩子节点或具有交换性，即判断为否，，进入步骤(5)；

(5)判断两个子树是否都为有效匹配，且之前未被匹配；判断为是，计算两棵有效匹配子树的权重和相似度，并对子树进行循环遍历，将包含在匹配子树下的子树标记为已匹配，进入步骤(6)；判断为否，第二个公式子树顺序j加1，进入步骤(3)；

(6)判断匹配子树下的子树的节点个数是否超出匹配子树下子树的节点索引，判断为是，则跳出循环；判断为否，第二个子树顺序j加1，进入步骤(3)；

(7)内层循环执行完后，在外层循环体条件中进行条件的逻辑计算与判断(即步骤(2)中判断第一个公式子树顺序i是否小于第一个公式的子树总个数m₁)，判断结果为true，进入内循环，之后进入步骤(3)；

(8)循环体全部嵌套循环完毕，判断根节点的索引是否大于子树个数，判断为是，跳出计算；判断为否，对第一个公式子树顺序i加一。

(9)对权重和相似度进行标准化处理，得出两个公式最终的相似度。

实施例二：

通过本实施例进一步描述基于公式相似度实现科技文档检索的过程，包括以下步骤：

将待查询公式表示成有效子树；

提取科技文档库中所有文档的公式，例如可采用Jsoup提供的开源程序API提取XHTML文档中标记“colspan＝”1””和“encoding＝”MathML-Content””属性的公式。其中“colspan＝”1””表示独立公式，“encoding＝”MathML-Content””表示content标记的公式。

给每个公式增加标签以表明公式的来源文档，或建立相应的公式与文档间的对照表，方便通过公式追溯其所在文档；

将所有文档的公式表示成有效子树，并计算与待查询公式之间的公式相似度；

然后设定相似度阈值，超过阈值的公式认为高度相似，此时通过公式标签找到对应的来源文档，返回来源文档作为检索结果返回用户。

实施例三：本实施例通过对比基于有效匹配子树方法和基于子树方法两种算法的效果来体现本发明的优势。

本发明成果可以应用在检索、分类、精准推送等诸多方面，现在以检索应用来实验举例。

实验所用的实验数据集来源于公共数据集MREC。其中MREC(2011.4.439版)包含439000篇科技文档，这些文档来自于arXMLiv项目，涉及物理、数学、计算机科学和统计学等领域，包含158106118个数学公式。arXMLiv项目将文档集从arXiv转换为XHTML+MathML(包括content和presentation两种标记)。本文选取该数据集中计算机科学领域的所有文档作为实验文档集。

由于MREC提供的是XHTML格式的文档集，该文档集中包括内嵌公式和独立公式并且提供content和presentation两种公式的标记，因此需采用Jsoup提供的开源程序API提取XHTML文档中标记“colspan＝”1””和“encoding＝”MathML-Content””属性的公式。其中“colspan＝”1””表示独立公式，“encoding＝”MathML-Content””表示content标记的公式。去除解析后无节点的公式，最终共提取出93381个公式作为数据集。

采用信息检索系统中常用的查准率(P)来衡量基于有效匹配子树方法和基于子树方法对公式相似度计算的准确性。

P值是一个基于集合的评估指标，用于评估检索结果的准确性，不考虑排名列表中结果的位置差异，top-k的P值计算如公式3所示。

其中，k表示取前k个相似度较高的数学公式。用rel_i表示查询结果top-k中第i个公式与查询是否相关，其值通过人工判断得出。rel_i＝0表示第i个公式与待比较公式不相关；rel_i＝1表示第i个公式与待比较公式相关。

为了验证方法的有效性，选取具有重复有效子树和常见结构的简单公式作为查询，并利用两种方法获取对应查询的top-3、top-5、top-10结果，并采用平均精查准率来衡量基于有效匹配子树方法和基于子树方法的性能。

以查询中的q₁：

和q₂：|pv|+t|vq|的检索结果为例，来分析基于有效匹配子树方法和基于子树方法的检索性能。

表1给出了两个查询实例及其在不同方法下的top-5结果。

表1不同方法查询的top-5结果

表2给出了两种方法下公式自身相似度的计算情况。从理论上分析，公式与自身的相似度应该是最大的，但从表2可以看出，基于子树方法计算不同公式与本身的相似度得到的结果是不同的，从公式相似度角度看，这不能严格区分公式间的相似程度。而基于有效匹配子树方法利用有效匹配子树的节点覆盖度，规范化了公式相似度，使得两个完全相同公式的相似度为1，两个完全不同公式的相似度值为0，合理量化了公式之间的差异。

表2两种方法下两个查询与自身的相似度值

表3给出了两种方法下查询的第一个子树与公式自身的相似度值。从树结构的角度分析，查询的第一个子树即为查询的完整表示，因此第一个子树与本身的相似度应等于公式本身的相似度，但结合表2和表3分析可知，基于子树方法在计算公式相似度时叠加了不该重复计算的子树相似度，同时亦出现了冗余的子树相似度计算。

表3两种方法下第一个子树与公式自身的相似度值

以上是实验的具体结果，现在通过评价指标的详细统计来说明实验最终结果，详见图7。从图7中可以看出，基于有效匹配子树方法的检索在top-3、top-5、top-10下的查全率都要优于基于子树方法的查全率，说明基于有效匹配子树方法比基于子树方法更容易查找出相关的查询结果。通过表2和表3可以看出，基于有效匹配子树方法更能合理量化公式的相似度。综上，说明基于有效匹配子树方法比基于子树方法更有优势。

本发明另一实施例提供一种基于有效匹配子树的公式相似度计算装置，其包括：

本发明另一实施例提供一种科技文档检索装置，其包括：

输入模块，用于输入待查询的公式；

公式提取模块，负责提取科技文档库中所有文档的公式；

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。