CN110414319A - 一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置 - Google Patents
一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置 Download PDFInfo
- Publication number
- CN110414319A CN110414319A CN201910510665.XA CN201910510665A CN110414319A CN 110414319 A CN110414319 A CN 110414319A CN 201910510665 A CN201910510665 A CN 201910510665A CN 110414319 A CN110414319 A CN 110414319A
- Authority
- CN
- China
- Prior art keywords
- formula
- tree
- similarity
- sub
- subtree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000004364 calculation method Methods 0.000 claims abstract description 49
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 241000764238 Isis Species 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 239000013307 optical fiber Substances 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract 2
- 238000005516 engineering process Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000004816 latex Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置。该公式相似度计算方法包括:1)将数学公式解析为树结构,并从树结构中提取有效子树信息;2)利用提取的有效子树信息,将数学公式表示为有效子树的有序多重集;3)根据有效子树找到有效匹配子树,并计算有效匹配子树的权重加和,得到权重和相似度;4)对权重和相似度进行标准化处理,得到最终的公式相似度。进一步可基于该公式相似度计算方法进行科技文档检索。本发明能够解决现有技术中公式子树不独立而产生的无效匹配问题,能够使公式相似度计算的准确性得到明显提升。
Description
技术领域
本发明属于信息技术领域,涉及一种相似度计算方法和文档检索方法,尤其涉及一种基 于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置。
背景技术
随着科技文档数量的急剧增加,研究者越来越难以精准找到研究领域的相关文献。为解 决该问题,科技文献检索、分类、精准推送等技术应运而生,而科技文档相似性度量是解决 这些技术的关键问题之一。
传统的科技文档相似度计算方法主要基于文本信息。但科技文档是一种多模态数据,其 中公式是科技文档的重要关键组成,往往是科技文档最为凝练的部分。
在外形上,公式呈非线性结构,可以清晰地描述和展示复杂的逻辑关系;在内容上,公 式简洁明了,能精确的描述和表达问题;在应用上,公式是国际学术交流通用的语言,应用 范围广,有助于实现跨语言科技文档相似度计算;在稳定性上,公式更稳定且不易更改。
因此公式相似度的计算对度量整个科技文档的相似度有重要价值。
基于子树方法是目前比较常用的公式相似度计算方法,该方法提取公式子树或泛化子树 的文本信息作为公式特征元素,累加所有特征元素的相似度作为公式相似度。在该方法中, 从文本角度看,特征元素相互独立,从树形结构角度看子树具有可分解性,因此特征元素是 不完全相互独立的。当两棵子树相似时,其分解的子树自然也相似。公式子树不独立问题导 致无效匹配问题,影响了公式相似度计算效果。
发明内容
本发明提出了一种基于有效匹配子树的公式相似度计算方法和装置,用以解决上述公式 子树不独立而产生的无效匹配问题,能够使公式相似度计算的准确性得到明显提升。进一步 本发明提出了基于该公式相似度计算方法的科技文档检索方法和装置。
首先说明本发明涉及到的定义:
定义1(多重集)允许一个元素重复出现的集合。
定义2(子树)假设v是树T中的任意节点,则以v为根节点及v所有后代组成的树叫做树 在节点v的子树。
一棵树Tp的第i个子树可以表示为其中,p是区别不同树的标识, 表示子树的节点多重集,表示子树的边多重集,表示子树的根节点。
定义3(有效子树)节点数大于1的子树称为有效子树。
定义4(子树完全匹配)假设两棵树Tp和Tq的子树 如果和满足以下条件,则和完全匹配。
①
②
其中,表示子树的先序遍历序列,表示子树的中序遍历序列。
定义5(有效匹配子树)假设且是的一个子树,且是的一个子树,和称为有效匹配子树须满足以下条件:
①和不完全匹配
②且
③当且时,须满足
其中,表示子树在之前的匹配中未被匹配,表示子树在之 前的匹配中已被匹配;表示子树是父节点的从左到右的第i个子树;表示子树根节点的第一个孩子节点不具有交换性,表示具有交换性。
定义6(有效匹配子树的权重)指有效匹配子树对公式相似度计算的贡献程度。
本发明的基于有效匹配子树的公式相似度计算方法,包括以下步骤:
1)将数学公式解析为树结构,并从树结构中提取有效子树信息;
2)利用提取的有效子树信息,将数学公式表示为有效子树的有序多重集;
3)根据有效子树找到有效匹配子树,并计算有效匹配子树的权重加和,得到权重和相似 度;
4)对权重和相似度进行标准化处理,得到最终的公式相似度。
下面结合图1,详细描述基于有效匹配子树的公式相似度计算方法。
步骤S101,公式的树型结构表示及有效子树信息提取。
数学公式的描述方式有LaTeX、MathML、OpenMath、图像等,各种描述方式之间可以通过直接或间接的方法相互转化,并且可以被解析为树结构。不失一般性,本发明以内容型MathML格式为例进行解析得到树结构。
对公式a2+b2=c2的内容型MathML描述方法(如图2所示)进行解析,得到的树结构如图3所示。
在以内容型MathML的描述方式对数学公式进行表述时,所有的运算符都以XML标签 的形式存在。标签<cn>是表示常量的一种标志,<ci>是表示变量的一种标志,<apply>类似于 数学公式中的括号,可理解为公式中子表达式(子树)的一种标志。
由于脱离文档的公式变量没有实际意义,因此不提取变量作为子树的信息。
有效子树信息的提取步骤为:
①利用Python程序中的ElementTree对内容型MathML格式的数学公式解析,通过函数 getroot()和getchildren()分别获取根节点和根节点的孩子节点集。
②利用函数getchildren()获取根节点的孩子节点集。
③遍历孩子节点集,在遍历过程中若孩子节点标签为“apply”,转至步骤④和⑤,否则, 继续遍历,直至遍历结束提取步骤结束。
④以“apply”为根节点,利用步骤②获取并遍历孩子节点,直至遍历完以“apply”为根 结点的所有结点。在遍历过程中,若节点的标签为“ci”,则不记录标签和标签的文本内容; 若节点的标签为“cn”,则记录标签对应的文本内容;若节点标签不是“ci”或“cn”,则记录 节点的标签。
⑤同时以“apply”为根节点,循环步骤②和③,直至遍历完所有节点为止。
步骤S102,基于有效子树的公式表示。
一个数学公式可以由其解析树的所有子树集合表示。但在content标记(content标记与 presentation标记是现有的两个对MathML描述方式下的不同数学公式的定义标识)的数学公 式中,运算符和常量是其树型结构中的叶子节点。一个叶子节点也是一棵子树,而将运算符 和常量单独作为一棵子树进行相似度计算并没有实际意义。因此,一个数学公式可以表示为 有效子树的集合。但从公式a2+b2=c2对应的解析树图3可以看出,若将一个数学公式表示 为有效子树的集合,会丢失部分公式结构信息。例如图3中子树t3,t4和t5三者是相同的(图 中的编号代表有效子树的顺序),但子树t3,t4与t5所在层次不同。因此一个数学公式可以表示 为有效子树的有序多重集,即其中n表示有效子树的个数。为了便于简洁 论述,下文中的子树(除特殊说明外)均指有效子树。
步骤S103,权重和相似度计算。
从树型结构角度来看,影响公式相似度的因素包括有效匹配子树的规则和权重。
如图4中的(a)与(b),和是树Tp的两个子树且是的一个子树,和是树Tq的 两个子树且是的一棵子树,当子树和子树相似时,那么和肯定相似,所以若已 知子树和子树相似时,则计算其子树和的相似度无意义。再如图4中(a)与(c),Tp根 节点的标签是‘eq’(=),Tm根节点的标签是‘neq’(≠)时,即使Tp和Tm的最大子树和是相似的,但根据数学语义可知,Tp和Tm的相似度这时计算其子树和的相似度也无意义。
综上可知,有效子树在匹配过程中产生的无意义匹配会增加子树匹配计算量和影响公式 相似度计算的准确性,因此在计算公式相似度时,应根据定义5,仅计算有效匹配子树。
由于大部分数学公式都是等式,而且含等关系运算符的公式或表达式一般作为公式 的条件是其最小子树,因此本文不考虑关系运算符的正反语义。
公式相似度计算问题可以演化为其对应解析树匹配问题,进而将其表示为所有的有效匹 配子树的权重之和,称之为权重和相似度。
有效匹配子树的权重与两个因素有关:①有效匹配子树的节点数;②有效匹配子树所在 层次。有效匹配子树的节点数越多,越能体现两个公式更相似;从图5可以看出,sim(f1,f2)>sim(f1,f3),因此有效匹配子树所在层次差越小,越能表示两个公式更相似。
综上分析,两棵有效匹配子树和的权重计算如公式1所示:
其中,表示子树所在的层次,表示子树除去节点“apply”的节点数。a是 一个调节因子,取值范围为a>1,a值越大表明较小有效匹配子树对公式相似度计算的影响 越小。由于考虑所有的有效匹配子树,本发明举例取a=2作为示例。
步骤S104,相似度标准化。
在步骤S103中计算所得权重和相似度未进行标准化,采用公式2对权重和相似度进行归 一化。
其中,|Tp|表示树型结构Tp不包含“apply”节点的节点总数,|Tq|表示树型结构Tq不 包含“apply”节点的节点总数,sum表示公式fi和fj的权重和相似度。
与上述公式相似度计算方法对应地,本发明还提供一种基于有效匹配子树的公式相似度 计算装置,其包括:
有效子树信息提取模块,负责将数学公式解析为树结构,并从树结构中提取有效子树信 息;
公式表示模块,负责利用提取的有效子树信息,将数学公式表示为有效子树的有序多重 集;
权重和相似度计算模块,负责根据有效子树找到有效匹配子树,并计算有效匹配子树的 权重加和,得到权重和相似度;
相似度标准化模块,负责对权重和相似度进行标准化处理,得到最终的公式相似度。
基于上述公式相似度计算方法,本发明还提供一种科技文档检索方法,包括以下步骤:
1)输入待查询的公式;
2)提取科技文档库中所有文档的公式;
3)采用本发明的公式相似度计算方法,计算待查询的公式与科技文档库中科技文档所含 的公式之间的相似度;
4)基于步骤3)得到的公式之间的相似度,获得科技文档检索结果。比如某公式与待查 询公式的相似度超过设置的阈值,将包含该公式的科技文档作为检索结果返回给用户。
与上述科技文档检索方法对应地,本发明还提供一种科技文档检索装置,其包括:
输入模块,用于输入待查询的公式;
公式提取模块,负责提取科技文档库中所有文档的公式;
公式相似度计算模块,负责采用本发明的公式相似度计算方法,计算待查询的公式与科 技文档库中科技文档所含的公式之间的相似度;
输出模块,负责基于得到的公式之间的相似度,获得科技文档检索结果。
本发明的有益效果是:
本发明基于有效匹配子树计算公式相似度,能够解决现有技术中公式子树不独立而产生 的无效匹配问题,能够使公式相似度计算的准确性得到明显提升,同时提供了一种通过公式 检索科技文档的新方法。
附图说明
图1为基于有效匹配子树的公式相似度计算流程。
图2为公式a2+b2=c2的内容型MathML描述方式。
图3为公式a2+b2=c2解析树结构图。
图4为无效匹配说明图。其中(a)为公式c=a2+3的树型结构,(b)为公式c≥a2+3 的树型结构,(c)为公式c≠a2+3的树型结构。
图5为层次因素说明图。其中:(a)(b)(c)
图6为公式相似度计算实现方式流程图。
图7为实验查准率结果统计图。
具体实施方式
实施例一:
下面结合实例和附图6,进一步描述公式相似度的计算实现过程。
本实施例中的公式相似度计算方法仅作为案例展示,不局限于此一种实现方式。
为保证公式子树的有效匹配,假定公式f1和f2的节点总数为n1,n2,子树个数m1,m2,子 树顺序为i,j,子树和根节点对应的索引为numi,numj,则公式f1和f2的相似度计算实现 步骤如下:
(1)将两个子树的相似度初始值默认为0,两棵子树顺序都默认为0;
(2)第一个公式的子树顺序i作为外层循环,判断第一个公式子树顺序i是否小于第一个公式 的子树总个数m1,判断为是进入步骤(3);判断为否,跳出计算,对结果进行标准化 处理,得到公式相似度;
(3)第二个公式的子树顺序j作为内层循环,判断第二个公式子树顺序j是否小于第二个公式 子树总个数m2,判断为是进入步骤(4);判断为否,第一棵子树顺序i加1,进入步骤 (2);
(4)在内层循环中,判断两个子树父节点的第一个孩子节点是否都具有交换性;如果都不 具有交换性且两个子树是父节点不同位置的孩子节点,即判断为是,第二个公式子树 顺序加1,进入步骤(3);如果不都具有交换性,同时两个子树是父节点同位置的孩 子节点或具有交换性,即判断为否,,进入步骤(5);
(5)判断两个子树是否都为有效匹配,且之前未被匹配;判断为是,计算两棵有效匹配子 树的权重和相似度,并对子树进行循环遍历,将包含在匹配子树下的子树标记为已匹 配,进入步骤(6);判断为否,第二个公式子树顺序j加1,进入步骤(3);
(6)判断匹配子树下的子树的节点个数是否超出匹配子树下子树的节点索引,判断为是, 则跳出循环;判断为否,第二个子树顺序j加1,进入步骤(3);
(7)内层循环执行完后,在外层循环体条件中进行条件的逻辑计算与判断(即步骤(2)中 判断第一个公式子树顺序i是否小于第一个公式的子树总个数m1),判断结果为true, 进入内循环,之后进入步骤(3);
(8)循环体全部嵌套循环完毕,判断根节点的索引是否大于子树个数,判断为是,跳出计 算;判断为否,对第一个公式子树顺序i加一。
(9)对权重和相似度进行标准化处理,得出两个公式最终的相似度。
实施例二:
通过本实施例进一步描述基于公式相似度实现科技文档检索的过程,包括以下步骤:
将待查询公式表示成有效子树;
提取科技文档库中所有文档的公式,例如可采用Jsoup提供的开源程序API提取XHTML 文档中标记“colspan=”1””和“encoding=”MathML-Content””属性的公式。其中“colspan=”1”” 表示独立公式,“encoding=”MathML-Content””表示content标记的公式。
给每个公式增加标签以表明公式的来源文档,或建立相应的公式与文档间的对照表,方 便通过公式追溯其所在文档;
将所有文档的公式表示成有效子树,并计算与待查询公式之间的公式相似度;
然后设定相似度阈值,超过阈值的公式认为高度相似,此时通过公式标签找到对应的来 源文档,返回来源文档作为检索结果返回用户。
实施例三:本实施例通过对比基于有效匹配子树方法和基于子树方法两种算法的效果来 体现本发明的优势。
本发明成果可以应用在检索、分类、精准推送等诸多方面,现在以检索应用来实验举例。
实验所用的实验数据集来源于公共数据集MREC。其中MREC(2011.4.439版)包含439000 篇科技文档,这些文档来自于arXMLiv项目,涉及物理、数学、计算机科学和统计学等领域, 包含158106118个数学公式。arXMLiv项目将文档集从arXiv转换为XHTML+MathML(包 括content和presentation两种标记)。本文选取该数据集中计算机科学领域的所有文档作为实 验文档集。
由于MREC提供的是XHTML格式的文档集,该文档集中包括内嵌公式和独立公式并且 提供content和presentation两种公式的标记,因此需采用Jsoup提供的开源程序API提取 XHTML文档中标记“colspan=”1””和“encoding=”MathML-Content””属性的公式。其中“colspan=”1””表示独立公式,“encoding=”MathML-Content””表示content标记的公式。去 除解析后无节点的公式,最终共提取出93381个公式作为数据集。
采用信息检索系统中常用的查准率(P)来衡量基于有效匹配子树方法和基于子树方法对 公式相似度计算的准确性。
P值是一个基于集合的评估指标,用于评估检索结果的准确性,不考虑排名列表中结果 的位置差异,top-k的P值计算如公式3所示。
其中,k表示取前k个相似度较高的数学公式。用reli表示查询结果top-k中第i个公式与 查询是否相关,其值通过人工判断得出。reli=0表示第i个公式与待比较公式不相关;reli=1 表示第i个公式与待比较公式相关。
为了验证方法的有效性,选取具有重复有效子树和常见结构的简单公式作为查询,并利 用两种方法获取对应查询的top-3、top-5、top-10结果,并采用平均精查准率来衡量基于有效 匹配子树方法和基于子树方法的性能。
以查询中的q1:和q2:|pv|+t|vq|的检索结果为例,来分析基于有效匹配子 树方法和基于子树方法的检索性能。
表1给出了两个查询实例及其在不同方法下的top-5结果。
表1不同方法查询的top-5结果
表2给出了两种方法下公式自身相似度的计算情况。从理论上分析,公式与自身的相似 度应该是最大的,但从表2可以看出,基于子树方法计算不同公式与本身的相似度得到的结 果是不同的,从公式相似度角度看,这不能严格区分公式间的相似程度。而基于有效匹配子 树方法利用有效匹配子树的节点覆盖度,规范化了公式相似度,使得两个完全相同公式的相 似度为1,两个完全不同公式的相似度值为0,合理量化了公式之间的差异。
表2两种方法下两个查询与自身的相似度值
表3给出了两种方法下查询的第一个子树与公式自身的相似度值。从树结构的角度分析, 查询的第一个子树即为查询的完整表示,因此第一个子树与本身的相似度应等于公式本身的 相似度,但结合表2和表3分析可知,基于子树方法在计算公式相似度时叠加了不该重复计 算的子树相似度,同时亦出现了冗余的子树相似度计算。
表3两种方法下第一个子树与公式自身的相似度值
以上是实验的具体结果,现在通过评价指标的详细统计来说明实验最终结果,详见图7。 从图7中可以看出,基于有效匹配子树方法的检索在top-3、top-5、top-10下的查全率都要优 于基于子树方法的查全率,说明基于有效匹配子树方法比基于子树方法更容易查找出相关的 查询结果。通过表2和表3可以看出,基于有效匹配子树方法更能合理量化公式的相似度。 综上,说明基于有效匹配子树方法比基于子树方法更有优势。
本发明另一实施例提供一种基于有效匹配子树的公式相似度计算装置,其包括:
有效子树信息提取模块,负责将数学公式解析为树结构,并从树结构中提取有效子树信 息;
公式表示模块,负责利用提取的有效子树信息,将数学公式表示为有效子树的有序多重 集;
权重和相似度计算模块,负责根据有效子树找到有效匹配子树,并计算有效匹配子树的 权重加和,得到权重和相似度;
相似度标准化模块,负责对权重和相似度进行标准化处理,得到最终的公式相似度。
本发明另一实施例提供一种科技文档检索装置,其包括:
输入模块,用于输入待查询的公式;
公式提取模块,负责提取科技文档库中所有文档的公式;
公式相似度计算模块,负责采用本发明的公式相似度计算方法,计算待查询的公式与科 技文档库中科技文档所含的公式之间的相似度;
输出模块,负责基于得到的公式之间的相似度,获得科技文档检索结果。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可 以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保 护范围应以权利要求书所述为准。
Claims (10)
1.一种基于有效匹配子树的公式相似度计算方法,其特征在于,包括以下步骤:
1)将数学公式解析为树结构,并从树结构中提取有效子树信息;
2)利用提取的有效子树信息,将数学公式表示为有效子树的有序多重集;
3)根据有效子树找到有效匹配子树,并计算有效匹配子树的权重加和,得到权重和相似度;
4)对权重和相似度进行标准化处理,得到最终的公式相似度。
2.根据权利要求1所述的方法,其特征在于,步骤1)对于内容型MathML数学公式,提取有效子树信息的步骤包括:
①利用Python程序中的ElementTree对内容型MathML格式的数学公式解析,通过函数getroot()和getchildren()分别获取根节点和根节点的孩子节点集;
②利用函数getchildren()获取根节点的孩子节点集;
③遍历孩子节点集,在遍历过程中若孩子节点标签为“apply”,转至步骤④和⑤,否则,继续遍历,直至遍历结束,提取步骤结束;
④以“apply”为根节点,利用步骤②获取并遍历孩子节点,直至遍历完以“apply”为根结点的所有结点;在遍历过程中,若节点的标签为“ci”,则不记录标签和标签的文本内容;若节点的标签为“cn”,则记录标签对应的文本内容;若节点标签不是“ci”或“cn”,则记录节点的标签;
⑤同时以“apply”为根节点,循环步骤②和③,直至遍历完所有节点为止。
3.根据权利要求1所述的方法,其特征在于,所述有效匹配子树的定义为:
假设一棵树Tp的第i个子树表示为其中p是区别不同树的标识,表示子树的节点多重集,表示子树的边多重集,表示子树的根节点;且是的一个子树,且是的一个子树,和称为有效匹配子树须满足以下条件:
①和不完全匹配;
②且
③当且时,须满足其中,表示子树在之前的匹配中未被匹配,表示子树在之前的匹配中已被匹配;表示子树是父节点的从左到右的第i个子树;表示子树根节点的第一个孩子节点不具有交换性,表示具有交换性。
4.根据权利要求1所述的方法,其特征在于,步骤3)中有效匹配子树的权重与两个因素有关:①有效匹配子树的节点数,②有效匹配子树所在层次;有效匹配子树的节点数越多,越能体现两个公式更相似;有效匹配子树所在层次差越小,越能表示两个公式更相似。
5.根据权利要求4所述的方法,其特征在于,两棵有效匹配子树和的权重计算公式为:
其中,表示子树所在的层次,表示子树除去节点“apply”的节点数,a是调节因子,取值范围为a>1。
6.根据权利要求1所述的方法,其特征在于,步骤4)采用以下公式对权重和相似度进行标准化处理:
其中,|Tp|表示树型结构Tp不包含“apply”节点的节点总数,|Tq|表示树型结构Tq不包含“apply”节点的节点总数,sum表示公式fi和fj的权重和相似度。
7.一种基于有效匹配子树的公式相似度计算装置,其特征在于,包括:
有效子树信息提取模块,负责将数学公式解析为树结构,并从树结构中提取有效子树信息;
公式表示模块,负责利用提取的有效子树信息,将数学公式表示为有效子树的有序多重集;
权重和相似度计算模块,负责根据有效子树找到有效匹配子树,并计算有效匹配子树的权重加和,得到权重和相似度;
相似度标准化模块,负责对权重和相似度进行标准化处理,得到最终的公式相似度。
8.一种科技文档检索方法,其特征在于,包括以下步骤:
(1)输入待查询的公式;
(2)提取科技文档库中所有文档的公式;
(3)采用权利要求1~6中任一权利要求所述的公式相似度计算方法,计算待查询的公式与科技文档库中科技文档所含的公式之间的相似度;
(4)基于步骤3)得到的公式之间的相似度,获得科技文档检索结果。
9.根据权利要求8所述的方法,其特征在于,给步骤(2)提取的每个公式增加标签以表明公式的来源文档,或建立公式与其所在文档间的对照表;步骤(4)设定相似度阈值,如果公式之间的相似度超过阈值则认为高度相似,通过所述标签或所述对照表找到对应的来源文档,将来源文档作为检索结果返回给用户。
10.一种科技文档检索装置,其特征在于,包括:
输入模块,用于输入待查询的公式;
公式提取模块,负责提取科技文档库中所有文档的公式;
公式相似度计算模块,负责采用权利要求1~6中任一权利要求所述的公式相似度计算方法,计算待查询的公式与科技文档库中科技文档所含的公式之间的相似度;
输出模块,负责基于得到的公式之间的相似度,获得科技文档检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910510665.XA CN110414319B (zh) | 2019-06-13 | 2019-06-13 | 一种公式相似度计算方法和科技文档检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910510665.XA CN110414319B (zh) | 2019-06-13 | 2019-06-13 | 一种公式相似度计算方法和科技文档检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414319A true CN110414319A (zh) | 2019-11-05 |
CN110414319B CN110414319B (zh) | 2021-08-31 |
Family
ID=68359017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910510665.XA Active CN110414319B (zh) | 2019-06-13 | 2019-06-13 | 一种公式相似度计算方法和科技文档检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414319B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597393A (zh) * | 2020-04-14 | 2020-08-28 | 北京金山云网络技术有限公司 | 定理检索方法、装置、设备及存储介质 |
CN114282531A (zh) * | 2021-08-24 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种题目检测方法、装置、电子设备和存储介质 |
CN114611460A (zh) * | 2022-02-08 | 2022-06-10 | 阿里巴巴(中国)有限公司 | 数据处理方法、装置、设备和存储介质 |
CN116127079A (zh) * | 2023-04-20 | 2023-05-16 | 中电科大数据研究院有限公司 | 一种文本分类方法 |
CN116503027A (zh) * | 2023-06-27 | 2023-07-28 | 成都智达万应科技有限公司 | 一种公路资产智能化管理系统 |
CN117609519A (zh) * | 2024-01-22 | 2024-02-27 | 云南大学 | 一种电力碳排放计算公式中的实体关系抽取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100281350A1 (en) * | 2009-04-29 | 2010-11-04 | Nokia Corporation | Method, Apparatus, and Computer Program Product for Written Mathematical Expression Analysis |
CN103135981A (zh) * | 2011-10-25 | 2013-06-05 | 德商赛克公司 | 用于支持在模型到模型的转换中的部分往返的选择性变化转播技术 |
CN103250149A (zh) * | 2010-12-07 | 2013-08-14 | Sk电信有限公司 | 用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质 |
CN104991905A (zh) * | 2015-06-17 | 2015-10-21 | 河北大学 | 一种基于层次索引的数学表达式检索方法 |
CN106372073A (zh) * | 2015-07-21 | 2017-02-01 | 北京大学 | 一种数学公式检索方法与装置 |
-
2019
- 2019-06-13 CN CN201910510665.XA patent/CN110414319B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100281350A1 (en) * | 2009-04-29 | 2010-11-04 | Nokia Corporation | Method, Apparatus, and Computer Program Product for Written Mathematical Expression Analysis |
CN103250149A (zh) * | 2010-12-07 | 2013-08-14 | Sk电信有限公司 | 用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质 |
CN103135981A (zh) * | 2011-10-25 | 2013-06-05 | 德商赛克公司 | 用于支持在模型到模型的转换中的部分往返的选择性变化转播技术 |
CN104991905A (zh) * | 2015-06-17 | 2015-10-21 | 河北大学 | 一种基于层次索引的数学表达式检索方法 |
CN106372073A (zh) * | 2015-07-21 | 2017-02-01 | 北京大学 | 一种数学公式检索方法与装置 |
Non-Patent Citations (3)
Title |
---|
XUAN HU ET AL: "WikiMirs: A Mathematical Information Retrieval System for Wikipedia", 《JCDL’13》 * |
田学东 等: "基于数学表达式特征的科技文档检索模型", 《河北大学学报(自然科学版)》 * |
赵艳妮 等: "基于有效路径权重的XML树匹配算法", 《计算机工程与设计》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597393A (zh) * | 2020-04-14 | 2020-08-28 | 北京金山云网络技术有限公司 | 定理检索方法、装置、设备及存储介质 |
CN114282531A (zh) * | 2021-08-24 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种题目检测方法、装置、电子设备和存储介质 |
CN114611460A (zh) * | 2022-02-08 | 2022-06-10 | 阿里巴巴(中国)有限公司 | 数据处理方法、装置、设备和存储介质 |
CN116127079A (zh) * | 2023-04-20 | 2023-05-16 | 中电科大数据研究院有限公司 | 一种文本分类方法 |
CN116127079B (zh) * | 2023-04-20 | 2023-06-20 | 中电科大数据研究院有限公司 | 一种文本分类方法 |
CN116503027A (zh) * | 2023-06-27 | 2023-07-28 | 成都智达万应科技有限公司 | 一种公路资产智能化管理系统 |
CN116503027B (zh) * | 2023-06-27 | 2024-01-19 | 成都智达万应科技有限公司 | 一种公路资产智能化管理系统 |
CN117609519A (zh) * | 2024-01-22 | 2024-02-27 | 云南大学 | 一种电力碳排放计算公式中的实体关系抽取方法 |
CN117609519B (zh) * | 2024-01-22 | 2024-04-19 | 云南大学 | 一种电力碳排放计算公式中的实体关系抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110414319B (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414319B (zh) | 一种公式相似度计算方法和科技文档检索方法及装置 | |
Dalamagas et al. | A methodology for clustering XML documents by structure | |
Yan et al. | Graph indexing: a frequent structure-based approach | |
US7127469B2 (en) | XML database mixed structural-textual classification system | |
US8024325B2 (en) | Estimating the cost of XML operators for binary XML storage | |
Guo et al. | SOR: An optimized semantic ontology retrieval algorithm for heterogeneous multimedia big data | |
Nayak et al. | XML schema clustering with semantic and hierarchical similarity measures | |
Mansouri et al. | Learning to rank for mathematical formula retrieval | |
CN102737125B (zh) | 基于Web时态对象模型的过时网页信息自动发现方法 | |
Prudhomme et al. | Automatic Integration of Spatial Data into the Semantic Web. | |
Zhiqiang et al. | Measuring semantic similarity between words using wikipedia | |
Ohashi et al. | Efficient algorithm for math formula semantic search | |
Guha et al. | Integrating XML data sources using approximate joins | |
Yang et al. | Finding hot query patterns over an XQuery stream | |
Zheng | Individualized Recommendation Method of Multimedia Network Teaching Resources Based on Classification Algorithm in a Smart University | |
Droop et al. | Embedding Xpath Queries into SPARQL Queries. | |
Guo et al. | RED: Redundancy-Driven Data Extraction from Result Pages? | |
CN113361263A (zh) | 基于属性值分布的人物实体属性对齐方法及系统 | |
Ahmed et al. | Building multiview analyst profile from multidimensional query logs: from consensual to conflicting preferences | |
Devareddi et al. | Interlinked feature query-based image retrieval model for content-based image retrieval | |
Alrammal | Algorithms for XML stream processing: massive data, external memory and scalable performance | |
Huang | XML Query Optimization Model Based on Cost Operation | |
CN112749301B (zh) | 一种海量遥感元数据模糊xml的关键字查询方法 | |
CN118520863B (zh) | 临床试验项目的变更合同生成方法及系统 | |
Chandrasekharan et al. | On the minimum vocabulary problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |