CN110414319B - 一种公式相似度计算方法和科技文档检索方法及装置 - Google Patents

一种公式相似度计算方法和科技文档检索方法及装置 Download PDF

Info

Publication number
CN110414319B
CN110414319B CN201910510665.XA CN201910510665A CN110414319B CN 110414319 B CN110414319 B CN 110414319B CN 201910510665 A CN201910510665 A CN 201910510665A CN 110414319 B CN110414319 B CN 110414319B
Authority
CN
China
Prior art keywords
formula
tree
similarity
sub
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910510665.XA
Other languages
English (en)
Other versions
CN110414319A (zh
Inventor
韩光
周献民
冯文化
崔永进
兰静
杨杨
田宝松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Software & Service Co ltd
Original Assignee
China National Software & Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Software & Service Co ltd filed Critical China National Software & Service Co ltd
Priority to CN201910510665.XA priority Critical patent/CN110414319B/zh
Publication of CN110414319A publication Critical patent/CN110414319A/zh
Application granted granted Critical
Publication of CN110414319B publication Critical patent/CN110414319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置。该公式相似度计算方法包括:1)将数学公式解析为树结构,并从树结构中提取有效子树信息;2)利用提取的有效子树信息,将数学公式表示为有效子树的有序多重集;3)根据有效子树找到有效匹配子树,并计算有效匹配子树的权重加和,得到权重和相似度;4)对权重和相似度进行标准化处理,得到最终的公式相似度。进一步可基于该公式相似度计算方法进行科技文档检索。本发明能够解决现有技术中公式子树不独立而产生的无效匹配问题,能够使公式相似度计算的准确性得到明显提升。

Description

一种公式相似度计算方法和科技文档检索方法及装置
技术领域
本发明属于信息技术领域,涉及一种相似度计算方法和文档检索方法,尤其涉及一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置。
背景技术
随着科技文档数量的急剧增加,研究者越来越难以精准找到研究领域的相关文献。为解决该问题,科技文献检索、分类、精准推送等技术应运而生,而科技文档相似性度量是解决这些技术的关键问题之一。
传统的科技文档相似度计算方法主要基于文本信息。但科技文档是一种多模态数据,其中公式是科技文档的重要关键组成,往往是科技文档最为凝练的部分。
在外形上,公式呈非线性结构,可以清晰地描述和展示复杂的逻辑关系;在内容上,公式简洁明了,能精确的描述和表达问题;在应用上,公式是国际学术交流通用的语言,应用范围广,有助于实现跨语言科技文档相似度计算;在稳定性上,公式更稳定且不易更改。
因此公式相似度的计算对度量整个科技文档的相似度有重要价值。
基于子树方法是目前比较常用的公式相似度计算方法,该方法提取公式子树或泛化子树的文本信息作为公式特征元素,累加所有特征元素的相似度作为公式相似度。在该方法中,从文本角度看,特征元素相互独立,从树形结构角度看子树具有可分解性,因此特征元素是不完全相互独立的。当两棵子树相似时,其分解的子树自然也相似。公式子树不独立问题导致无效匹配问题,影响了公式相似度计算效果。
发明内容
本发明提出了一种基于有效匹配子树的公式相似度计算方法和装置,用以解决上述公式子树不独立而产生的无效匹配问题,能够使公式相似度计算的准确性得到明显提升。进一步本发明提出了基于该公式相似度计算方法的科技文档检索方法和装置。
首先说明本发明涉及到的定义:
定义1(多重集)允许一个元素重复出现的集合。
定义2(子树)假设v是树T中的任意节点,则以v为根节点及v所有后代组成的树叫做树在节点v的子树。
一棵树Tp的第i个子树可以表示为
Figure GDA0003101003610000021
其中,p是区别不同树的标识,
Figure GDA0003101003610000022
表示子树
Figure GDA0003101003610000023
的节点多重集,
Figure GDA0003101003610000024
表示子树
Figure GDA0003101003610000025
的边多重集,
Figure GDA0003101003610000026
表示子树
Figure GDA0003101003610000027
的根节点。
定义3(有效子树)节点数大于1的子树称为有效子树。
定义4(子树完全匹配)假设两棵树Tp和Tq的子树
Figure GDA0003101003610000028
Figure GDA0003101003610000029
如果
Figure GDA00031010036100000210
Figure GDA00031010036100000211
满足以下条件,则
Figure GDA00031010036100000212
Figure GDA00031010036100000213
完全匹配。
Figure GDA00031010036100000214
Figure GDA00031010036100000215
其中,
Figure GDA00031010036100000216
表示子树
Figure GDA00031010036100000217
的先序遍历序列,
Figure GDA00031010036100000218
表示子树
Figure GDA00031010036100000219
的中序遍历序列。
定义5(有效匹配子树)假设
Figure GDA00031010036100000220
Figure GDA00031010036100000221
Figure GDA00031010036100000222
的一个子树,
Figure GDA00031010036100000223
Figure GDA00031010036100000224
Figure GDA00031010036100000225
Figure GDA00031010036100000226
的一个子树,
Figure GDA00031010036100000227
Figure GDA00031010036100000228
称为有效匹配子树须满足以下条件:
Figure GDA00031010036100000229
Figure GDA00031010036100000230
不完全匹配
Figure GDA00031010036100000231
Figure GDA00031010036100000232
③当
Figure GDA00031010036100000233
Figure GDA00031010036100000234
时,须满足
Figure GDA00031010036100000235
其中,
Figure GDA00031010036100000236
表示子树
Figure GDA00031010036100000237
在之前的匹配中未被匹配,
Figure GDA00031010036100000238
表示子树
Figure GDA00031010036100000239
在之前的匹配中已被匹配;
Figure GDA00031010036100000240
表示子树
Figure GDA00031010036100000241
是父节点的从左到右的第i个子树;
Figure GDA00031010036100000242
表示子树
Figure GDA00031010036100000243
根节点的第一个孩子节点不具有交换性,
Figure GDA00031010036100000244
表示具有交换性。
定义6(有效匹配子树的权重)指有效匹配子树对公式相似度计算的贡献程度。
本发明的基于有效匹配子树的公式相似度计算方法,包括以下步骤:
1)将数学公式解析为树结构,并从树结构中提取有效子树信息;
2)利用提取的有效子树信息,将数学公式表示为有效子树的有序多重集;
3)根据有效子树找到有效匹配子树,并计算有效匹配子树的权重加和,得到权重和相似度;
4)对权重和相似度进行标准化处理,得到最终的公式相似度。
下面结合图1,详细描述基于有效匹配子树的公式相似度计算方法。
步骤S101,公式的树型结构表示及有效子树信息提取。
数学公式的描述方式有LaTeX、MathML、OpenMath、图像等,各种描述方式之间可以通过直接或间接的方法相互转化,并且可以被解析为树结构。不失一般性,本发明以内容型MathML格式为例进行解析得到树结构。
对公式a2+b2=c2的内容型MathML描述方法(如图2所示)进行解析,得到的树结构如图3所示。
在以内容型MathML的描述方式对数学公式进行表述时,所有的运算符都以XML标签的形式存在。标签<cn>是表示常量的一种标志,<ci>是表示变量的一种标志,<apply>类似于数学公式中的括号,可理解为公式中子表达式(子树)的一种标志。
由于脱离文档的公式变量没有实际意义,因此不提取变量作为子树的信息。
有效子树信息的提取步骤为:
①利用Python程序中的ElementTree对内容型MathML格式的数学公式解析,通过函数getroot()和getchildren()分别获取根节点和根节点的孩子节点集。
②利用函数getchildren()获取根节点的孩子节点集。
③遍历孩子节点集,在遍历过程中若孩子节点标签为“apply”,转至步骤④和⑤,否则,继续遍历,直至遍历结束提取步骤结束。
④以“apply”为根节点,利用步骤②获取并遍历孩子节点,直至遍历完以“apply”为根结点的所有结点。在遍历过程中,若节点的标签为“ci”或“cn”,则记录标签对应的文本内容;若节点标签既不是“ci”也不是“cn”,则记录节点的标签。
⑤同时以“apply”为根节点,循环步骤②和③,直至遍历完所有节点为止。
步骤S102,基于有效子树的公式表示。
一个数学公式可以由其解析树的所有子树集合表示。但在content标记(content标记与presentation标记是现有的两个对MathML描述方式下的不同数学公式的定义标识)的数学公式中,运算符和常量是其树型结构中的叶子节点。一个叶子节点也是一棵子树,而将运算符和常量单独作为一棵子树进行相似度计算并没有实际意义。因此,一个数学公式可以表示为有效子树的集合。但从公式a2+b2=c2对应的解析树图3可以看出,若将一个数学公式表示为有效子树的集合,会丢失部分公式结构信息。例如图3中子树t3,t4和t5三者是相同的(图中的编号代表有效子树的顺序),但子树t3,t4与t5所在层次不同。因此一个数学公式可以表示为有效子树的有序多重集,即
Figure GDA0003101003610000031
其中n表示有效子树的个数。为了便于简洁论述,下文中的子树(除特殊说明外)均指有效子树。
步骤S103,权重和相似度计算。
从树型结构角度来看,影响公式相似度的因素包括有效匹配子树的规则和权重。
如图4中的(a)与(b),
Figure GDA0003101003610000041
Figure GDA0003101003610000042
是树Tp的两个子树且
Figure GDA0003101003610000043
Figure GDA0003101003610000044
的一个子树,
Figure GDA0003101003610000045
Figure GDA0003101003610000046
是树Tq的两个子树且
Figure GDA0003101003610000047
Figure GDA0003101003610000048
的一棵子树,当子树
Figure GDA0003101003610000049
和子树
Figure GDA00031010036100000410
相似时,那么
Figure GDA00031010036100000411
Figure GDA00031010036100000412
肯定相似,所以若已知子树
Figure GDA00031010036100000413
和子树
Figure GDA00031010036100000414
相似时,则计算其子树
Figure GDA00031010036100000415
Figure GDA00031010036100000416
的相似度无意义。再如图4中(a)与(c),Tp根节点的标签是‘eq’(=),Tm根节点的标签是‘neq’(≠)时,即使Tp和Tm的最大子树
Figure GDA00031010036100000417
Figure GDA00031010036100000418
是相似的,但根据数学语义可知,Tp和Tm的相似度sim(Tp,Tm)=0,这时计算其子树
Figure GDA00031010036100000419
Figure GDA00031010036100000420
的相似度也无意义。
综上可知,有效子树在匹配过程中产生的无意义匹配会增加子树匹配计算量和影响公式相似度计算的准确性,因此在计算公式相似度时,应根据定义5,仅计算有效匹配子树。
由于大部分数学公式都是等式,而且含
Figure GDA00031010036100000421
等关系运算符的公式或表达式一般作为公式的条件是其最小子树,因此本文不考虑关系运算符的正反语义。
公式相似度计算问题可以演化为其对应解析树匹配问题,进而将其表示为所有的有效匹配子树的权重之和,称之为权重和相似度。
有效匹配子树的权重与两个因素有关:①有效匹配子树的节点数;②有效匹配子树所在层次。有效匹配子树的节点数越多,越能体现两个公式更相似;从图5可以看出,sim(f1,f2)>sim(f1,f3),因此有效匹配子树所在层次差越小,越能表示两个公式更相似。
综上分析,两棵有效匹配子树
Figure GDA00031010036100000422
Figure GDA00031010036100000423
的权重计算如公式1所示:
Figure GDA00031010036100000424
其中,
Figure GDA00031010036100000425
表示子树
Figure GDA00031010036100000426
所在的层次,
Figure GDA00031010036100000427
表示子树除去节点“apply”的节点数。a是一个调节因子,取值范围为a>1,a值越大表明较小有效匹配子树对公式相似度计算的影响越小。由于考虑所有的有效匹配子树,本发明举例取a=2作为示例。
步骤S104,相似度标准化。
在步骤S103中计算所得权重和相似度未进行标准化,采用公式2对权重和相似度进行归一化。
Figure GDA00031010036100000428
其中,|Tp|表示树型结构Tp不包含“apply”节点的节点总数,|Tq|表示树型结构Tq不包含“apply”节点的节点总数,sum表示公式fi和fj的权重和相似度。
与上述公式相似度计算方法对应地,本发明还提供一种基于有效匹配子树的公式相似度计算装置,其包括:
有效子树信息提取模块,负责将数学公式解析为树结构,并从树结构中提取有效子树信息;
公式表示模块,负责利用提取的有效子树信息,将数学公式表示为有效子树的有序多重集;
权重和相似度计算模块,负责根据有效子树找到有效匹配子树,并计算有效匹配子树的权重加和,得到权重和相似度;
相似度标准化模块,负责对权重和相似度进行标准化处理,得到最终的公式相似度。
基于上述公式相似度计算方法,本发明还提供一种科技文档检索方法,包括以下步骤:
1)输入待查询的公式;
2)提取科技文档库中所有文档的公式;
3)采用本发明的公式相似度计算方法,计算待查询的公式与科技文档库中科技文档所含的公式之间的相似度;
4)基于步骤3)得到的公式之间的相似度,获得科技文档检索结果。比如某公式与待查询公式的相似度超过设置的阈值,将包含该公式的科技文档作为检索结果返回给用户。
与上述科技文档检索方法对应地,本发明还提供一种科技文档检索装置,其包括:
输入模块,用于输入待查询的公式;
公式提取模块,负责提取科技文档库中所有文档的公式;
公式相似度计算模块,负责采用本发明的公式相似度计算方法,计算待查询的公式与科技文档库中科技文档所含的公式之间的相似度;
输出模块,负责基于得到的公式之间的相似度,获得科技文档检索结果。
本发明的有益效果是:
本发明基于有效匹配子树计算公式相似度,能够解决现有技术中公式子树不独立而产生的无效匹配问题,能够使公式相似度计算的准确性得到明显提升,同时提供了一种通过公式检索科技文档的新方法。
附图说明
图1为基于有效匹配子树的公式相似度计算流程。
图2为公式a2+b2=c2的内容型MathML描述方式。
图3为公式a2+b2=c2解析树结构图。
图4为无效匹配说明图。其中(a)为公式c=a2+3的树型结构,(b)为公式c≥a2+3的树型结构,(c)为公式c≠a2+3的树型结构。
图5为层次因素说明图。其中:(a)f1:
Figure GDA0003101003610000061
(b)f2:
Figure GDA0003101003610000062
(c)f3:
Figure GDA0003101003610000063
图6为公式相似度计算实现方式流程图。
图7为实验查准率结果统计图。
具体实施方式
实施例一:
下面结合实例和附图6,进一步描述公式相似度的计算实现过程。
本实施例中的公式相似度计算方法仅作为案例展示,不局限于此一种实现方式。
为保证公式子树的有效匹配,假定公式f1和f2的节点总数为n1,n2,子树个数m1,m2,子树顺序为i,j,子树
Figure GDA0003101003610000064
Figure GDA0003101003610000065
根节点对应的索引为numi,numj,则公式f1和f2的相似度计算实现步骤如下:
(1)将两个子树的相似度初始值默认为0,两棵子树顺序都默认为0;
(2)第一个公式的子树顺序i作为外层循环,判断第一个公式子树顺序i是否小于第一个公式的子树总个数m1,判断为是进入步骤(3);判断为否,跳出计算,对结果进行标准化处理,得到公式相似度;
(3)第二个公式的子树顺序j作为内层循环,判断第二个公式子树顺序j是否小于第二个公式子树总个数m2,判断为是进入步骤(4);判断为否,第一棵子树顺序i加1,进入步骤(2);
(4)在内层循环中,判断两个子树父节点的第一个孩子节点是否都具有交换性;如果都不具有交换性且两个子树是父节点不同位置的孩子节点,即判断为是,第二个公式子树顺序加1,进入步骤(3);如果不都具有交换性,同时两个子树是父节点同位置的孩子节点或具有交换性,即判断为否,,进入步骤(5);
(5)判断两个子树是否都为有效匹配,且之前未被匹配;判断为是,计算两棵有效匹配子树的权重和相似度,并对子树进行循环遍历,将包含在匹配子树下的子树标记为已匹配,进入步骤(6);判断为否,第二个公式子树顺序j加1,进入步骤(3);
(6)判断匹配子树下的子树的节点个数是否超出匹配子树下子树的节点索引,判断为是,则跳出循环;判断为否,第二个子树顺序j加1,进入步骤(3);
(7)内层循环执行完后,在外层循环体条件中进行条件的逻辑计算与判断(即步骤(2)中判断第一个公式子树顺序i是否小于第一个公式的子树总个数m1),判断结果为true,进入内循环,之后进入步骤(3);
(8)循环体全部嵌套循环完毕,判断根节点的索引是否大于子树个数,判断为是,跳出计算;判断为否,对第一个公式子树顺序i加一。
(9)对权重和相似度进行标准化处理,得出两个公式最终的相似度。
实施例二:
通过本实施例进一步描述基于公式相似度实现科技文档检索的过程,包括以下步骤:
将待查询公式表示成有效子树;
提取科技文档库中所有文档的公式,例如可采用Jsoup提供的开源程序API提取XHTML文档中标记“colspan=”1””和“encoding=”MathML-Content””属性的公式。其中“colspan=”1””表示独立公式,“encoding=”MathML-Content””表示content标记的公式。
给每个公式增加标签以表明公式的来源文档,或建立相应的公式与文档间的对照表,方便通过公式追溯其所在文档;
将所有文档的公式表示成有效子树,并计算与待查询公式之间的公式相似度;
然后设定相似度阈值,超过阈值的公式认为高度相似,此时通过公式标签找到对应的来源文档,返回来源文档作为检索结果返回用户。
实施例三:本实施例通过对比基于有效匹配子树方法和基于子树方法两种算法的效果来体现本发明的优势。
本发明成果可以应用在检索、分类、精准推送等诸多方面,现在以检索应用来实验举例。
实验所用的实验数据集来源于公共数据集MREC。其中MREC(2011.4.439版)包含439000篇科技文档,这些文档来自于arXMLiv项目,涉及物理、数学、计算机科学和统计学等领域,包含158106118个数学公式。arXMLiv项目将文档集从arXiv转换为XHTML+MathML(包括content和presentation两种标记)。本文选取该数据集中计算机科学领域的所有文档作为实验文档集。
由于MREC提供的是XHTML格式的文档集,该文档集中包括内嵌公式和独立公式并且提供content和presentation两种公式的标记,因此需采用Jsoup提供的开源程序API提取XHTML文档中标记“colspan=”1””和“encoding=”MathML-Content””属性的公式。其中“colspan=”1””表示独立公式,“encoding=”MathML-Content””表示content标记的公式。去除解析后无节点的公式,最终共提取出93381个公式作为数据集。
采用信息检索系统中常用的查准率(P)来衡量基于有效匹配子树方法和基于子树方法对公式相似度计算的准确性。
P值是一个基于集合的评估指标,用于评估检索结果的准确性,不考虑排名列表中结果的位置差异,top-k的P值计算如公式3所示。
Figure GDA0003101003610000081
其中,k表示取前k个相似度较高的数学公式。用reli表示查询结果top-k中第i个公式与查询是否相关,其值通过人工判断得出。reli=0表示第i个公式与待比较公式不相关;reli=1表示第i个公式与待比较公式相关。
为了验证方法的有效性,选取具有重复有效子树和常见结构的简单公式作为查询,并利用两种方法获取对应查询的top-3、top-5、top-10结果,并采用平均精查准率来衡量基于有效匹配子树方法和基于子树方法的性能。
以查询中的q1
Figure GDA0003101003610000082
和q2:|pv|+t|vq|的检索结果为例,来分析基于有效匹配子树方法和基于子树方法的检索性能。
表1给出了两个查询实例及其在不同方法下的top-5结果。
表1不同方法查询的top-5结果
Figure GDA0003101003610000083
表2给出了两种方法下公式自身相似度的计算情况。从理论上分析,公式与自身的相似度应该是最大的,但从表2可以看出,基于子树方法计算不同公式与本身的相似度得到的结果是不同的,从公式相似度角度看,这不能严格区分公式间的相似程度。而基于有效匹配子树方法利用有效匹配子树的节点覆盖度,规范化了公式相似度,使得两个完全相同公式的相似度为1,两个完全不同公式的相似度值为0,合理量化了公式之间的差异。
表2两种方法下两个查询与自身的相似度值
Figure GDA0003101003610000091
表3给出了两种方法下查询的第一个子树与公式自身的相似度值。从树结构的角度分析,查询的第一个子树即为查询的完整表示,因此第一个子树与本身的相似度应等于公式本身的相似度,但结合表2和表3分析可知,基于子树方法在计算公式相似度时叠加了不该重复计算的子树相似度,同时亦出现了冗余的子树相似度计算。
表3两种方法下第一个子树与公式自身的相似度值
Figure GDA0003101003610000092
以上是实验的具体结果,现在通过评价指标的详细统计来说明实验最终结果,详见图7。从图7中可以看出,基于有效匹配子树方法的检索在top-3、top-5、top-10下的查全率都要优于基于子树方法的查全率,说明基于有效匹配子树方法比基于子树方法更容易查找出相关的查询结果。通过表2和表3可以看出,基于有效匹配子树方法更能合理量化公式的相似度。综上,说明基于有效匹配子树方法比基于子树方法更有优势。
本发明另一实施例提供一种基于有效匹配子树的公式相似度计算装置,其包括:
有效子树信息提取模块,负责将数学公式解析为树结构,并从树结构中提取有效子树信息;
公式表示模块,负责利用提取的有效子树信息,将数学公式表示为有效子树的有序多重集;
权重和相似度计算模块,负责根据有效子树找到有效匹配子树,并计算有效匹配子树的权重加和,得到权重和相似度;
相似度标准化模块,负责对权重和相似度进行标准化处理,得到最终的公式相似度。
本发明另一实施例提供一种科技文档检索装置,其包括:
输入模块,用于输入待查询的公式;
公式提取模块,负责提取科技文档库中所有文档的公式;
公式相似度计算模块,负责采用本发明的公式相似度计算方法,计算待查询的公式与科技文档库中科技文档所含的公式之间的相似度;
输出模块,负责基于得到的公式之间的相似度,获得科技文档检索结果。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。

Claims (9)

1.一种基于有效匹配子树的公式相似度计算方法,其特征在于,包括以下步骤:
1)将数学公式解析为树结构,并从树结构中提取有效子树信息;
2)利用提取的有效子树信息,将数学公式表示为有效子树的有序多重集;
3)根据有效子树找到有效匹配子树,并计算有效匹配子树的权重加和,得到权重和相似度;
4)对权重和相似度进行标准化处理,得到最终的公式相似度;
所述有效匹配子树的定义为:
假设一棵树Tp的第i个子树表示为
Figure FDA0003101003600000011
其中p是区别不同树的标识,Vi p表示子树
Figure FDA0003101003600000012
的节点多重集,
Figure FDA0003101003600000013
表示子树
Figure FDA0003101003600000014
的边多重集,
Figure FDA0003101003600000015
表示子树
Figure FDA0003101003600000016
的根节点;
Figure FDA0003101003600000017
Figure FDA0003101003600000018
Figure FDA0003101003600000019
的一个子树,
Figure FDA00031010036000000110
Figure FDA00031010036000000111
Figure FDA00031010036000000112
的一个子树,
Figure FDA00031010036000000113
Figure FDA00031010036000000114
称为有效匹配子树须满足以下条件:
Figure FDA00031010036000000115
Figure FDA00031010036000000116
不完全匹配;
Figure FDA00031010036000000117
Figure FDA00031010036000000118
③当
Figure FDA00031010036000000119
Figure FDA00031010036000000120
时,须满足
Figure FDA00031010036000000121
其中,
Figure FDA00031010036000000122
表示子树
Figure FDA00031010036000000123
在之前的匹配中未被匹配,
Figure FDA00031010036000000124
表示子树
Figure FDA00031010036000000125
在之前的匹配中已被匹配;
Figure FDA00031010036000000126
表示子树
Figure FDA00031010036000000127
是父节点的从左到右的第i个子树;
Figure FDA00031010036000000128
表示子树
Figure FDA00031010036000000129
根节点的第一个孩子节点不具有交换性,
Figure FDA00031010036000000130
表示具有交换性。
2.根据权利要求1所述的方法,其特征在于,步骤1)对于内容型MathML数学公式,提取有效子树信息的步骤包括:
①利用Python程序中的ElementTree对内容型MathML格式的数学公式解析,通过函数getroot()和getchildren()分别获取根节点和根节点的孩子节点集;
②利用函数getchildren()获取根节点的孩子节点集;
③遍历孩子节点集,在遍历过程中若孩子节点标签为“apply”,转至步骤④和⑤,否则,继续遍历,直至遍历结束,提取步骤结束;
④以“apply”为根节点,利用步骤②获取并遍历孩子节点,直至遍历完以“apply”为根结点的所有结点;在遍历过程中,若节点的标签为“ci”或“cn”,则记录标签对应的文本内容;若节点标签既不是“ci”也不是“cn”,则记录节点的标签;
⑤同时以“apply”为根节点,循环步骤②和③,直至遍历完所有节点为止。
3.根据权利要求1所述的方法,其特征在于,步骤3)中有效匹配子树的权重与两个因素有关:①有效匹配子树的节点数,②有效匹配子树所在层次;有效匹配子树的节点数越多,越能体现两个公式更相似;有效匹配子树所在层次差越小,越能表示两个公式更相似。
4.根据权利要求3所述的方法,其特征在于,两棵有效匹配子树
Figure FDA0003101003600000021
Figure FDA0003101003600000022
的权重计算公式为:
Figure FDA0003101003600000023
其中,
Figure FDA0003101003600000024
表示子树
Figure FDA0003101003600000025
所在的层次,
Figure FDA0003101003600000026
表示子树除去节点“apply”的节点数,a是调节因子,取值范围为a>1。
5.根据权利要求1所述的方法,其特征在于,步骤4)采用以下公式对权重和相似度进行标准化处理:
Figure FDA0003101003600000027
其中,|Tp|表示树型结构Tp不包含“apply”节点的节点总数,|Tq|表示树型结构Tq不包含“apply”节点的节点总数,sum表示公式fi和fj的权重和相似度。
6.一种采用权利要求1~5中任一权利要求所述方法的基于有效匹配子树的公式相似度计算装置,其特征在于,包括:
有效子树信息提取模块,负责将数学公式解析为树结构,并从树结构中提取有效子树信息;
公式表示模块,负责利用提取的有效子树信息,将数学公式表示为有效子树的有序多重集;
权重和相似度计算模块,负责根据有效子树找到有效匹配子树,并计算有效匹配子树的权重加和,得到权重和相似度;
相似度标准化模块,负责对权重和相似度进行标准化处理,得到最终的公式相似度。
7.一种科技文档检索方法,其特征在于,包括以下步骤:
(1)输入待查询的公式;
(2)提取科技文档库中所有文档的公式;
(3)采用权利要求1~5中任一权利要求所述的公式相似度计算方法,计算待查询的公式与科技文档库中科技文档所含的公式之间的相似度;
(4)基于步骤(3)得到的公式之间的相似度,获得科技文档检索结果。
8.根据权利要求7所述的科技文档检索方法,其特征在于,给步骤(2)提取的每个公式增加标签以表明公式的来源文档,或建立公式与其所在文档间的对照表;步骤(4)设定相似度阈值,如果公式之间的相似度超过阈值则认为高度相似,通过所述标签或所述对照表找到对应的来源文档,将来源文档作为检索结果返回给用户。
9.一种科技文档检索装置,其特征在于,包括:
输入模块,用于输入待查询的公式;
公式提取模块,负责提取科技文档库中所有文档的公式;
公式相似度计算模块,负责采用权利要求1~5中任一权利要求所述的公式相似度计算方法,计算待查询的公式与科技文档库中科技文档所含的公式之间的相似度;
输出模块,负责基于得到的公式之间的相似度,获得科技文档检索结果。
CN201910510665.XA 2019-06-13 2019-06-13 一种公式相似度计算方法和科技文档检索方法及装置 Active CN110414319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910510665.XA CN110414319B (zh) 2019-06-13 2019-06-13 一种公式相似度计算方法和科技文档检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910510665.XA CN110414319B (zh) 2019-06-13 2019-06-13 一种公式相似度计算方法和科技文档检索方法及装置

Publications (2)

Publication Number Publication Date
CN110414319A CN110414319A (zh) 2019-11-05
CN110414319B true CN110414319B (zh) 2021-08-31

Family

ID=68359017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910510665.XA Active CN110414319B (zh) 2019-06-13 2019-06-13 一种公式相似度计算方法和科技文档检索方法及装置

Country Status (1)

Country Link
CN (1) CN110414319B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597393A (zh) * 2020-04-14 2020-08-28 北京金山云网络技术有限公司 定理检索方法、装置、设备及存储介质
CN114282531A (zh) * 2021-08-24 2022-04-05 腾讯科技(深圳)有限公司 一种题目检测方法、装置、电子设备和存储介质
CN116127079B (zh) * 2023-04-20 2023-06-20 中电科大数据研究院有限公司 一种文本分类方法
CN116503027B (zh) * 2023-06-27 2024-01-19 成都智达万应科技有限公司 一种公路资产智能化管理系统
CN117609519B (zh) * 2024-01-22 2024-04-19 云南大学 一种电力碳排放计算公式中的实体关系抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103135981A (zh) * 2011-10-25 2013-06-05 德商赛克公司 用于支持在模型到模型的转换中的部分往返的选择性变化转播技术
CN104991905A (zh) * 2015-06-17 2015-10-21 河北大学 一种基于层次索引的数学表达式检索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047267B2 (en) * 2009-04-29 2015-06-02 Nokia Technologies Oy Method, apparatus, and computer program product for written mathematical expression analysis
KR101431530B1 (ko) * 2010-12-07 2014-08-22 에스케이텔레콤 주식회사 수학문장의 시맨틱거리 추출 및 시맨틱거리에 의한 수학문장의 분류방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
CN106372073A (zh) * 2015-07-21 2017-02-01 北京大学 一种数学公式检索方法与装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103135981A (zh) * 2011-10-25 2013-06-05 德商赛克公司 用于支持在模型到模型的转换中的部分往返的选择性变化转播技术
CN104991905A (zh) * 2015-06-17 2015-10-21 河北大学 一种基于层次索引的数学表达式检索方法

Also Published As

Publication number Publication date
CN110414319A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110414319B (zh) 一种公式相似度计算方法和科技文档检索方法及装置
CN111159223B (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
US7127469B2 (en) XML database mixed structural-textual classification system
CN102693299B (zh) 一种并行视频拷贝检测系统和方法
Guo et al. SOR: An optimized semantic ontology retrieval algorithm for heterogeneous multimedia big data
US7797310B2 (en) Technique to estimate the cost of streaming evaluation of XPaths
Nayak et al. XML schema clustering with semantic and hierarchical similarity measures
EP1736901A2 (en) Method for classifying sub-trees in semi-structured documents
CN102945244A (zh) 基于句号特征字串的中文网页重复文档检测和过滤方法
CN115547466B (zh) 基于大数据的医疗机构登记评审系统及其方法
Mansouri et al. Learning to rank for mathematical formula retrieval
Prudhomme et al. Automatic Integration of Spatial Data into the Semantic Web.
CN102737125A (zh) 基于Web时态对象模型的过时网页信息自动发现方法
Guha et al. Integrating XML data sources using approximate joins
Yang et al. Finding hot query patterns over an XQuery stream
CN113361263B (zh) 基于属性值分布的人物实体属性对齐方法及系统
Guo et al. RED: Redundancy-Driven Data Extraction from Result Pages?
Xie et al. Extracting data records from web using suffix tree
CN114168751A (zh) 一种基于医学知识概念图的医学文本标签识别方法及系统
Tian et al. Multi-attribute scientific documents retrieval and ranking model based on GBDT and LR
Alrammal Algorithms for XML stream processing: massive data, external memory and scalable performance
CN112749301B (zh) 一种海量遥感元数据模糊xml的关键字查询方法
Devareddi et al. Interlinked feature query-based image retrieval model for content-based image retrieval
CN116431815B (zh) 一种村务公开数据智慧管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant