CN106372073A

CN106372073A - 一种数学公式检索方法与装置

Info

Publication number: CN106372073A
Application number: CN201510430407.2A
Authority: CN
Inventors: 高良才; 王悦涵; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-07-21
Filing date: 2015-07-21
Publication date: 2017-02-01

Abstract

本发明公开了一种数学公式检索方法与装置。本方法为：1)将不同来源的公式数据进行格式归一化，保存到一数据库中；2)根据符号优先级顺序、符号作用范围将归一化后的每一公式建立一公式树；3)对每一公式树，提取该公式树的原始子结构并创建原始子结构对应的泛化子结构；4)根据原始子结构和泛化子结构对该数据库创建倒排索引；5)对待查询公式建立公式树并进行原始子结构提取和泛化子结构创建，然后从该数据库中查找包含该待查询公式的原始子结构和泛化子结构的公式；6)根据查找到的公式与该待查询公示的相似度对查找到的公式进行排序，选取若干公式返回。本发明在准确率和DCG上有大幅提高。

Description

一种数学公式检索方法与装置

技术领域

本发明属于信息检索领域，涉及一种数学公式检索方法与装置。

背景技术

公式是科技文档的重要组成部分，在教育、科技等领域得到广泛使用。文档中的公式具有丰富含义，包含着重要信息，是一笔宝贵的数字资源。而当前由于缺乏成熟实用的公式检索技术，使得这部分知识很难被检索，长久以来未能得到激活、再生和利用。实现公式检索，一方面可以大大提高检索数学内容、科技文献等信息的效率，另一方面也可以促进信息的交流与共享。近些年来，以公式为查询条件以及检索对象的公式检索技术开始得到关注和研究。

目前主流的搜索引擎主要基于文本检索，例如：Google、Baidu，均不支持公式检索。

现有的公式索引技术主要包括基于文本、基于树结构。

基于文本的索引方法，通过将二维公式转化为一维文本字符串，再利用传统的文本检索技术对公式建立索引。文献“Technical aspects ofthe digital library ofmathematical functions”将数学符号映射为单词；再标记数学符号的作用域，即实现二维公式结构线性化为一维文本结构；最后对数学符号作用域的描述顺序等进行了归一化描述，克服由于描述差异导致匹配失败的问题。

基于树结构索引的方法，其思想是从公式的布局或语义结构树中提取树结构的属性(例如：子结构、路径)作为索引项。一种最为直接的方法是提取公式的所有子结构作为索引项，并且记录它们出现的频率和层次。在这种方法中，处于高层的子结构无法得到模糊匹配。

现有的公式排序算法是针对相应的索引技术来设计的，主要也分针对文本和树结构两种。

大多数基于文本索引的公式检索方法都采用tf-idf来计算公式间的相似度来排序结果。

文献“An approach to mathematical search through query formulation and data normalization”针对词块的层次、长度和复杂度来衡量词块的匹配度。由于在基于文本索引的方法中，大部分的结构信息都没有得到索引，因此也无法很好地支持公式相似性的计算。

一些基于树结构的索引方法也以公式子结构作为词块，基于tf-idf来计算公式间的相似度。基于处于越高层次的子结构越重要的假设，文献“Indexing and searching mathematics indigital libraries”在此基础上引入了权重来衡量不同层次中子结构的匹配度。该方法的问题是，处于高层的子结构虽然重要，但是由于它们包含更长更具体的内容，因此能与之匹配的对应结构一般较少，即：匹配结构很稀疏，因此高层结构往往还是没有得到充分考虑。

发明内容

为了解决现有公式检索系统索引、排序等方面的问题，本发明提出一种公式检索的方法与装置。

检索过程主要分为两个子过程：1)建立索引；2)查询。建立索引分为以下几个模块：预处理、公式树构建、子结构提取、建立索引。查询分为以下几个模块：预处理、公式树构建、子结构提取、待匹配词、排序。其中预处理、公式树构建、子结构提取模块是两个子过程公用的。流程如图1所示，其中虚线部分为建立索引子过程，实线部分为查询子过程。下文将分模块说明。

预处理的目标之一是将不同来源的公式数据(Presentation MathML、LaTeX)转化为统一的内部格式。本发明将不同数据源转化为Presentation MathML作为统一内部格式来存储公式进行归一化。另外，公式符号顺序归一化也是在预处理阶段完成的，具体规则是根据设定的优先级顺序，符号优先级顺序低的在左边，优先级顺序高的在右边。

公式除了语义信息(包含某个变量、符号等)，也还有空间结构信息，即位置布局信息，如哪个符号先出现，哪个运算符作用于哪些变量等等。本发明提出了一种构建公式树的算法，根据符号优先级顺序、符号作用范围等来建立公式树。具体的说，就是把符号当作分支结点，变量、常量当作叶子节点，根据符号和变量、常量的关系、作用域来构建这棵树。

本发明提出层次泛化的子结构提取算法。子结构就是公式树以每个分支结点为根节点的完全子树。该算法将生成两类公式子结构：原始子结构和泛化子结构。原始子结构指的是从公式树中直接提取出来的子结构。泛化子结构是在公式的原始子结构上，用不同通配符分别代表变量和常量得到的子结构。对于每个子结构，记录其内容属性、层次属性、频率属性等信息：内容属性描述的是子结构的Presentation MathML编码，而层次属性描述的是子结构在原公式中所处的层次，频率属性是指tf、idf(词频、逆向文件频率)等。

建立索引步骤，使用倒排索引技术，对公式子结构建立公式的索引。同时，记录包含该子结构所有公式的倒排表，在该表中，记录了子结构在该公式中的出现频率tf和描述该子结构在数据库中稀有度的idf。

待匹配词步骤，是在对用户输入查询公式进行预处理、建立公式树、子结构提取等步骤后，根据查询公式的子结构去查找已经建立好的数据库公式的索引，将所有与查询公式包含相同子结构的公式都召回。

排序过程是指，根据匹配过程，在数据库中的公式与查询公示相关的公式(即含有相同子结构的公式)的相似度得分，依据得分由大到小排序。

在排序过程中，用户输入的查询公式和数据库中的公式的相似度得分主要依据如下因素：

1)子结构频率相关性质，除了在建立索引步骤所说的tf、idf，还有子结构匹配个数、子结构所在公式层数、子结构是泛化子结构还是原始子结构。

2)数据库中召回公式在文档中重要度，其中影响因素包括：文档中公式的总数、公式上下文段落长度、公式在文档中被引用次数，公式是否独立成行等。

两个公式的相似度得分的具体公式如下所示：

s c o r e (f_{1}, f_{2}) = Σ_{f t &Element; f_{1}, f_{2}} t f (f t, f_{2}) \times {idf}^{2} (f t) \times W_{f_{2}} \times α

W_{f_{2}} = W_{i m p o r \tan c e} (f_{2}) \times W_{cov e r} (f_{1}, f_{2}) \times W_{l e v e l} (f t, f_{1}, f_{2})

W_{i m p o r \tan c e} (f_{2}) = β \times ω_{l} \times ω_{p} \times \frac{1}{\ln (ω_{n} + 1)} \times ω_{c}

其中f₁为查询公式，f₂为数据库中的公式，score为最终得分。其中tf、idf分别描述了泛化子结构和原始子结构的频率和稀有程度；W_cover(f₁，f₂)是两个公式f₁，f₂中泛化子结构和原始子结构覆盖率；W_level是指两个公式中共同的子结构的层数距离(比如共同子结构a在公式1中的层数为m，在公式2中的层数为n，则W_level为|m-n|)，α表示泛化系数，为一设定值，对于泛化子结构取值为0.5，对于原始子结构其取值为1；ft是指公式的分词小节，tf(ft)指的是某一个给定的小节在该公式中出现的频率，idf(ft)是一个词语普遍重要性的度量。可以由总文件数目除以包含该小节之文件的数目，Wlevel(ft,f1,f2)是指ft小节分别在f1，f2公式的公式树的层数距离。

W_importance(f₂)代表数据库中公式f₂的重要度；β是一个启发式系数；ω_l是独立成行公式权重；ω_p是公式f₂上下文描述段的长度与f₂所在文档总长度的比值；ω_n是f₂所在文档中公式总数；ω_c是公式f₂在文档中引用次数。

根据上述公式，计算每个召回公式与查询公式的得分，依据得分从大到小排序就得到了公式检索的排序结果。

与现有技术相比，本发明的积极效果为：

与一个已有的公式方法MIaS对比，分别通过top3，to5，top10的准确率、DCG(说明结果排序情况)两个指标说明。具体实验结果数据如表1所示。

表1为实验对比表

	MIaS	本专利方法
			P3	0.647	0.951
P5	0.604	0.945

P10	0.529	0.861
			DCG3	8.164	16.559
DCG5	12.377	19.865
			DCG10	17.452	24.750

通过对比，本发明在准确率和DCG上有大幅提高。

附图说明

图1为本发明方法流程图；

图2为“(x+y)*a/b”树形结构图。

具体实施方式

本发明是一种公式的检索、排序方法与装置，其中检索分为建立索引、查询两个过程。具体实例如下。

在建立索引过程中，首先是预处理，如数据库，wikipedia中公式“(x+y)*a/b”，是以LaTeX格式存储，在本发明中会将它先转换为Presentation MathML格式，具体LaTeX、PresentationMathML格式公式如表2所示：

表2为“(x+y)*a/b”`的LaTeX和Presentation MathML格式

“(x+y)*a/b”符号优先级符合本发明规则，不需要变换符号顺序归一化。

公式预处理之后是建立公式树，“(x+y)*a/b”树形结构如图2所示。其中符号“+”、“*”、“/”为公式树的分支结点，变量“x”、“y”、“a”、“b”为公式树的叶子节点。

公式树建立之后是公式子结构提取阶段，公式“(x+y)*a/b”提取的子结构如表3所示，分为原始子结构和泛化子结构。

表3为子结构表

原始子结构	泛化子结构
		(x+y)*a/b	(_v+_v)*_v/_v
x+y	_v+_v
		a/b	_v/_v

公式子结构抽取后，建立索引，在上述六个子结构的索引项中，会添加该公式“(x+y)*a/b”的相应信息，如tf、idf，公式在文档中的一些信息等，这些将会在排序过程中使用到。

在检索的查询过程中，以“x+y＝1”为例，首先同样经过预处理、公式树建立、子结构提取等步骤。与刚才“(x+y)*a/b”不同的是“x+y＝1”的符号顺序不符合优先级低的在左边，在预处理阶段要先调整符号顺序，即“x+y＝1”被转化为“1＝x+y”，符号优先级顺序低的在左边。“x+y＝1”(“1＝x+y”)的子结构如表4所示。

表4按符号优先级转换后的子结构

原始子结构	泛化子结构
		1＝x+y	_c＝_v+*_v
x+y	_v+_v

在查询阶段提取了所有包含与查询公式有相同的子结构的公式，之后是排序过程，排序过程根据上文提到的公式

s c o r e = \underset{f t | f_{1}, f_{2}}{Σ} t f (f t, f_{2}) \times {idf}^{2} (f t) \times W_{f_{2}} \times α

W_{f_{2}} = W_{i m p o r \tan c e} (f_{2}) \times W_{cov e r} (f_{1}, f_{2}) \times W_{l e v e l} (f t, f_{1}, f_{2})

W_{i m p o r \tan c e} (f_{2}) = β \times ω_{l} \times ω_{p} \times \frac{1}{\ln (ω_{n} + 1)} \times ω_{c}

计算所有被提取的公式与查询公式的相似度得分。查询“x+y＝1”得分前十的公式如表5所示，作为查询的返回结果。

表5为得分排序表

Claims

1.一种数学公式检索方法，其步骤为：

1)将不同来源的公式数据进行格式归一化，保存到一数据库中；

2)根据符号优先级顺序、符号作用范围将归一化后的每一公式建立一公式树；

3)对每一公式树，提取该公式树的原始子结构并创建原始子结构对应的泛化子结构；其中，泛化子结构是用不同通配符分别代表原始子结构中变量和常量得到的子结构；

4)根据原始子结构和泛化子结构对该数据库创建倒排索引；

5)对待查询公式建立公式树并进行原始子结构提取和泛化子结构创建，然后从该数据库中查找包含该待查询公式的原始子结构和泛化子结构的公式；

6)根据查找到的公式与该待查询公示的相似度对查找到的公式进行排序，选取若干公式返回。

2.如权利要求1所述的方法，其特征在于，所述公式树的构建方法为：将公式中的符号当作分支结点，公式中的变量、常量当作叶子节点，根据公式中符号和变量、常量的关系、作用域构建所述公式树。

3.如权利要求1或2所述的方法，其特征在于，所述原始子结构的属性包括：内容属性、层次属性和频率属性，其中，内容属性是原始子结构归一化格式的编码，层次属性是原始子结构在原公式中所处的层次，频率属性是原始子结构的词频tf、逆向文件频率idf；所述泛化子结构的属性包括：内容属性、层次属性和频率属性；其中，内容属性是泛化子结构归一化格式的编码，层次属性是泛化子结构在原公式中所处的层次，频率属性是泛化子结构的词频tf、逆向文件频率idf。

4.如权利要求1或2所述的方法，其特征在于，计算所述相似度的方法为：

s c o r e (f_{1}, f_{2}) = Σ_{f t &Element; f_{1} f_{2}} t f (f t, f_{2}) \times {idf}^{2} (f t) \times W_{f 2} \times α

W_{f_{2}} = W_{i m p o r \tan c e} (f_{2}) \times W_{cov e r} (f_{1}, f_{2}) \times W_{l e v e l} (f t, f_{1}, f_{2})

W_{i m p o r \tan c e} (f_{2}) = β \times ω_{l} \times ω_{p} \times \frac{1}{\ln (ω_{n} + 1)} \times ω_{c}

其中，f₁为待查询公式，f₂为数据库中的公式，score为相似度值，tf为公式中泛化子结构或原始子结构的频率，idf为公式中泛化子结构或原始子结构的稀有程度；W_cover(f₁，f₂)是两个公式f₁，f₂中泛化子结构和原始子结构覆盖率；W_level是指两个公式f₁、f₂中共同的原始子结构或泛化子结构的层数距离，α为泛化系数；W_importance(f₂)代表数据库中公式f₂的重要度，β是一个启发式系数，ω_l是独立成行公式权重，ω_p是公式f₂上下文描述段的长度与f₂所在文档总长度的比值；ω_n是f₂所在文档中公式总数；ω_c是公式f₂在文档中引用次数。

5.如权利要求1或2所述的方法，其特征在于，所述归一化的格式为Presentation MathML格式。

6.如权利要求1或5所述的方法，其特征在于，所述归一化格式中包括对公式符号顺序的归一化，即根据设定的符号优先级顺序对公式进行调整。

7.一种数学公式检索装置，其特征在于，包括预处理模块、公式树构建模块、子结构提取模块、索引模块和查询模块；其中，

所述预处理模块，用于将不同来源的公式数据进行格式归一化，保存到一数据库中；

所述公式树构建模块，用于根据符号优先级顺序、符号作用范围将归一化后的每一公式建立一公式树；

所述子结构提取模块，用于从公式树中提取原始子结构并创建原始子结构对应的泛化子结构；其中，泛化子结构是用不同通配符分别代表原始子结构中变量和常量得到的子结构；

所述索引模块，用于根据原始子结构和泛化子结构对该数据库创建倒排索引；

所述查询模块，用于对待查询公式建立公式树并进行原始子结构提取和泛化子结构创建，然后从该数据库中查找包含该待查询公式的原始子结构和泛化子结构的公式；并根据查找到的公式与该待查询公示的相似度对查找到的公式进行排序，选取若干公式返回。

8.如权利要求7所述的装置，其特征在于，所述公式树构建模块将公式中的符号当作分支结点，公式中的变量、常量当作叶子节点，根据公式中符号和变量、常量的关系、作用域构建所述公式树。

9.如权利要求7所述的装置，其特征在于，所述原始子结构的属性包括：内容属性、层次属性和频率属性；其中，内容属性是原始子结构归一化格式的编码，层次属性是原始子结构在原公式中所处的层次，频率属性是原始子结构的词频tf、逆向文件频率idf；所述泛化子结构的属性包括：内容属性、层次属性和频率属性；其中，内容属性是泛化子结构归一化格式的编码，层次属性是泛化子结构在原公式中所处的层次，频率属性是泛化子结构的词频tf、逆向文件频率idf。

10.如权利要求7或9所述的装置，其特征在于，所述查询模块计算所述相似度的公式为：

s c o r e (f_{1}, f_{2}) = Σ_{f t &Element; f_{1} f_{2}} t f (f t, f_{2}) \times {idf}^{2} (f t) \times W_{f 2} \times α

W_{f_{2}} = W_{i m p o r \tan c e} (f_{2}) \times W_{cov e r} (f_{1}, f_{2}) \times W_{l e v e l} (f t, f_{1}, f_{2})

W_{i m p o r \tan c e} (f_{2}) = β \times ω_{l} \times ω_{p} \times \frac{1}{\ln (ω_{n} + 1)} \times ω_{c}

其中，f₁为待查询公式，f₂为数据库中的公式，score为相似度值，tf为公式中泛化子结构或原始子结构的频率，idf为公式中泛化子结构或原始子结构的稀有程度；W_cover(f₁，f₂)是两个公式f₁，f₂中子结构覆盖率；W_level是指两个公式f₁、f₂中共同的原始子结构或泛化子结构的层数距离，α为泛化系数；W_importance(f₂)代表数据库中公式f₂的重要度，β是一个启发式系数，ω_l是独立成行公式权重，ω_p是公式f₂上下文描述段的长度与f₂所在文档总长度的比值；ω_n是f₂所在文档中公式总数；ω_c是公式f₂在文档中引用次数。