CN106372073A - 一种数学公式检索方法与装置 - Google Patents

一种数学公式检索方法与装置 Download PDF

Info

Publication number
CN106372073A
CN106372073A CN201510430407.2A CN201510430407A CN106372073A CN 106372073 A CN106372073 A CN 106372073A CN 201510430407 A CN201510430407 A CN 201510430407A CN 106372073 A CN106372073 A CN 106372073A
Authority
CN
China
Prior art keywords
formula
substructure
original
generalized
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510430407.2A
Other languages
English (en)
Inventor
高良才
王悦涵
汤帜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201510430407.2A priority Critical patent/CN106372073A/zh
Publication of CN106372073A publication Critical patent/CN106372073A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/111Mathematical or scientific formatting; Subscripts; Superscripts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数学公式检索方法与装置。本方法为:1)将不同来源的公式数据进行格式归一化,保存到一数据库中;2)根据符号优先级顺序、符号作用范围将归一化后的每一公式建立一公式树;3)对每一公式树,提取该公式树的原始子结构并创建原始子结构对应的泛化子结构;4)根据原始子结构和泛化子结构对该数据库创建倒排索引;5)对待查询公式建立公式树并进行原始子结构提取和泛化子结构创建,然后从该数据库中查找包含该待查询公式的原始子结构和泛化子结构的公式;6)根据查找到的公式与该待查询公示的相似度对查找到的公式进行排序,选取若干公式返回。本发明在准确率和DCG上有大幅提高。

Description

一种数学公式检索方法与装置
技术领域
本发明属于信息检索领域,涉及一种数学公式检索方法与装置。
背景技术
公式是科技文档的重要组成部分,在教育、科技等领域得到广泛使用。文档中的公式具有丰富含义,包含着重要信息,是一笔宝贵的数字资源。而当前由于缺乏成熟实用的公式检索技术,使得这部分知识很难被检索,长久以来未能得到激活、再生和利用。实现公式检索,一方面可以大大提高检索数学内容、科技文献等信息的效率,另一方面也可以促进信息的交流与共享。近些年来,以公式为查询条件以及检索对象的公式检索技术开始得到关注和研究。
目前主流的搜索引擎主要基于文本检索,例如:Google、Baidu,均不支持公式检索。
现有的公式索引技术主要包括基于文本、基于树结构。
基于文本的索引方法,通过将二维公式转化为一维文本字符串,再利用传统的文本检索技术对公式建立索引。文献“Technical aspects ofthe digital library ofmathematical functions”将数学符号映射为单词;再标记数学符号的作用域,即实现二维公式结构线性化为一维文本结构;最后对数学符号作用域的描述顺序等进行了归一化描述,克服由于描述差异导致匹配失败的问题。
基于树结构索引的方法,其思想是从公式的布局或语义结构树中提取树结构的属性(例如:子结构、路径)作为索引项。一种最为直接的方法是提取公式的所有子结构作为索引项,并且记录它们出现的频率和层次。在这种方法中,处于高层的子结构无法得到模糊匹配。
现有的公式排序算法是针对相应的索引技术来设计的,主要也分针对文本和树结构两种。
大多数基于文本索引的公式检索方法都采用tf-idf来计算公式间的相似度来排序结果。
文献“An approach to mathematical search through query formulation and data normalization”针对词块的层次、长度和复杂度来衡量词块的匹配度。由于在基于文本索引的方法中,大部分的结构信息都没有得到索引,因此也无法很好地支持公式相似性的计算。
一些基于树结构的索引方法也以公式子结构作为词块,基于tf-idf来计算公式间的相似度。基于处于越高层次的子结构越重要的假设,文献“Indexing and searching mathematics indigital libraries”在此基础上引入了权重来衡量不同层次中子结构的匹配度。该方法的问题是,处于高层的子结构虽然重要,但是由于它们包含更长更具体的内容,因此能与之匹配的对应结构一般较少,即:匹配结构很稀疏,因此高层结构往往还是没有得到充分考虑。
发明内容
为了解决现有公式检索系统索引、排序等方面的问题,本发明提出一种公式检索的方法与装置。
检索过程主要分为两个子过程:1)建立索引;2)查询。建立索引分为以下几个模块:预处理、公式树构建、子结构提取、建立索引。查询分为以下几个模块:预处理、公式树构建、子结构提取、待匹配词、排序。其中预处理、公式树构建、子结构提取模块是两个子过程公用的。流程如图1所示,其中虚线部分为建立索引子过程,实线部分为查询子过程。下文将分模块说明。
预处理的目标之一是将不同来源的公式数据(Presentation MathML、LaTeX)转化为统一的内部格式。本发明将不同数据源转化为Presentation MathML作为统一内部格式来存储公式进行归一化。另外,公式符号顺序归一化也是在预处理阶段完成的,具体规则是根据设定的优先级顺序,符号优先级顺序低的在左边,优先级顺序高的在右边。
公式除了语义信息(包含某个变量、符号等),也还有空间结构信息,即位置布局信息,如哪个符号先出现,哪个运算符作用于哪些变量等等。本发明提出了一种构建公式树的算法,根据符号优先级顺序、符号作用范围等来建立公式树。具体的说,就是把符号当作分支结点,变量、常量当作叶子节点,根据符号和变量、常量的关系、作用域来构建这棵树。
本发明提出层次泛化的子结构提取算法。子结构就是公式树以每个分支结点为根节点的完全子树。该算法将生成两类公式子结构:原始子结构和泛化子结构。原始子结构指的是从公式树中直接提取出来的子结构。泛化子结构是在公式的原始子结构上,用不同通配符分别代表变量和常量得到的子结构。对于每个子结构,记录其内容属性、层次属性、频率属性等信息:内容属性描述的是子结构的Presentation MathML编码,而层次属性描述的是子结构在原公式中所处的层次,频率属性是指tf、idf(词频、逆向文件频率)等。
建立索引步骤,使用倒排索引技术,对公式子结构建立公式的索引。同时,记录包含该子结构所有公式的倒排表,在该表中,记录了子结构在该公式中的出现频率tf和描述该子结构在数据库中稀有度的idf。
待匹配词步骤,是在对用户输入查询公式进行预处理、建立公式树、子结构提取等步骤后,根据查询公式的子结构去查找已经建立好的数据库公式的索引,将所有与查询公式包含相同子结构的公式都召回。
排序过程是指,根据匹配过程,在数据库中的公式与查询公示相关的公式(即含有相同子结构的公式)的相似度得分,依据得分由大到小排序。
在排序过程中,用户输入的查询公式和数据库中的公式的相似度得分主要依据如下因素:
1)子结构频率相关性质,除了在建立索引步骤所说的tf、idf,还有子结构匹配个数、子结构所在公式层数、子结构是泛化子结构还是原始子结构。
2)数据库中召回公式在文档中重要度,其中影响因素包括:文档中公式的总数、公式上下文段落长度、公式在文档中被引用次数,公式是否独立成行等。
两个公式的相似度得分的具体公式如下所示:
s c o r e ( f 1 , f 2 ) = Σ f t ∈ f 1 , f 2 t f ( f t , f 2 ) × idf 2 ( f t ) × W f 2 × α
W f 2 = W i m p o r tan c e ( f 2 ) × W cov e r ( f 1 , f 2 ) × W l e v e l ( f t , f 1 , f 2 )
W i m p o r tan c e ( f 2 ) = β × ω l × ω p × 1 ln ( ω n + 1 ) × ω c
其中f1为查询公式,f2为数据库中的公式,score为最终得分。其中tf、idf分别描述了泛化子结构和原始子结构的频率和稀有程度;Wcover(f1,f2)是两个公式f1,f2中泛化子结构和原始子结构覆盖率;Wlevel是指两个公式中共同的子结构的层数距离(比如共同子结构a在公式1中的层数为m,在公式2中的层数为n,则Wlevel为|m-n|),α表示泛化系数,为一设定值,对于泛化子结构取值为0.5,对于原始子结构其取值为1;ft是指公式的分词小节,tf(ft)指的是某一个给定的小节在该公式中出现的频率,idf(ft)是一个词语普遍重要性的度量。可以由总文件数目除以包含该小节之文件的数目,Wlevel(ft,f1,f2)是指ft小节分别在f1,f2公式的公式树的层数距离。
Wimportance(f2)代表数据库中公式f2的重要度;β是一个启发式系数;ωl是独立成行公式权重;ωp是公式f2上下文描述段的长度与f2所在文档总长度的比值;ωn是f2所在文档中公式总数;ωc是公式f2在文档中引用次数。
根据上述公式,计算每个召回公式与查询公式的得分,依据得分从大到小排序就得到了公式检索的排序结果。
与现有技术相比,本发明的积极效果为:
与一个已有的公式方法MIaS对比,分别通过top3,to5,top10的准确率、DCG(说明结果排序情况)两个指标说明。具体实验结果数据如表1所示。
表1为实验对比表
MIaS 本专利方法
P3 0.647 0.951
P5 0.604 0.945
P10 0.529 0.861
DCG3 8.164 16.559
DCG5 12.377 19.865
DCG10 17.452 24.750
通过对比,本发明在准确率和DCG上有大幅提高。
附图说明
图1为本发明方法流程图;
图2为“(x+y)*a/b”树形结构图。
具体实施方式
本发明是一种公式的检索、排序方法与装置,其中检索分为建立索引、查询两个过程。具体实例如下。
在建立索引过程中,首先是预处理,如数据库,wikipedia中公式“(x+y)*a/b”,是以LaTeX格式存储,在本发明中会将它先转换为Presentation MathML格式,具体LaTeX、PresentationMathML格式公式如表2所示:
表2为“(x+y)*a/b”`的LaTeX和Presentation MathML格式
“(x+y)*a/b”符号优先级符合本发明规则,不需要变换符号顺序归一化。
公式预处理之后是建立公式树,“(x+y)*a/b”树形结构如图2所示。其中符号“+”、“*”、“/”为公式树的分支结点,变量“x”、“y”、“a”、“b”为公式树的叶子节点。
公式树建立之后是公式子结构提取阶段,公式“(x+y)*a/b”提取的子结构如表3所示,分为原始子结构和泛化子结构。
表3为子结构表
原始子结构 泛化子结构
(x+y)*a/b (*v+*v)**v/*v
x+y *v+*v
a/b *v/*v
公式子结构抽取后,建立索引,在上述六个子结构的索引项中,会添加该公式“(x+y)*a/b”的相应信息,如tf、idf,公式在文档中的一些信息等,这些将会在排序过程中使用到。
在检索的查询过程中,以“x+y=1”为例,首先同样经过预处理、公式树建立、子结构提取等步骤。与刚才“(x+y)*a/b”不同的是“x+y=1”的符号顺序不符合优先级低的在左边,在预处理阶段要先调整符号顺序,即“x+y=1”被转化为“1=x+y”,符号优先级顺序低的在左边。“x+y=1”(“1=x+y”)的子结构如表4所示。
表4按符号优先级转换后的子结构
原始子结构 泛化子结构
1=x+y *c=*v+*v
x+y *v+*v
在查询阶段提取了所有包含与查询公式有相同的子结构的公式,之后是排序过程,排序过程根据上文提到的公式
s c o r e = Σ f t | f 1 , f 2 t f ( f t , f 2 ) × idf 2 ( f t ) × W f 2 × α
W f 2 = W i m p o r tan c e ( f 2 ) × W cov e r ( f 1 , f 2 ) × W l e v e l ( f t , f 1 , f 2 )
W i m p o r tan c e ( f 2 ) = β × ω l × ω p × 1 ln ( ω n + 1 ) × ω c
计算所有被提取的公式与查询公式的相似度得分。查询“x+y=1”得分前十的公式如表5所示,作为查询的返回结果。
表5为得分排序表

Claims (10)

1.一种数学公式检索方法,其步骤为:
1)将不同来源的公式数据进行格式归一化,保存到一数据库中;
2)根据符号优先级顺序、符号作用范围将归一化后的每一公式建立一公式树;
3)对每一公式树,提取该公式树的原始子结构并创建原始子结构对应的泛化子结构;其中,泛化子结构是用不同通配符分别代表原始子结构中变量和常量得到的子结构;
4)根据原始子结构和泛化子结构对该数据库创建倒排索引;
5)对待查询公式建立公式树并进行原始子结构提取和泛化子结构创建,然后从该数据库中查找包含该待查询公式的原始子结构和泛化子结构的公式;
6)根据查找到的公式与该待查询公示的相似度对查找到的公式进行排序,选取若干公式返回。
2.如权利要求1所述的方法,其特征在于,所述公式树的构建方法为:将公式中的符号当作分支结点,公式中的变量、常量当作叶子节点,根据公式中符号和变量、常量的关系、作用域构建所述公式树。
3.如权利要求1或2所述的方法,其特征在于,所述原始子结构的属性包括:内容属性、层次属性和频率属性,其中,内容属性是原始子结构归一化格式的编码,层次属性是原始子结构在原公式中所处的层次,频率属性是原始子结构的词频tf、逆向文件频率idf;所述泛化子结构的属性包括:内容属性、层次属性和频率属性;其中,内容属性是泛化子结构归一化格式的编码,层次属性是泛化子结构在原公式中所处的层次,频率属性是泛化子结构的词频tf、逆向文件频率idf。
4.如权利要求1或2所述的方法,其特征在于,计算所述相似度的方法为:
s c o r e ( f 1 , f 2 ) = Σ f t ∈ f 1 f 2 t f ( f t , f 2 ) × idf 2 ( f t ) × W f 2 × α
W f 2 = W i m p o r tan c e ( f 2 ) × W cov e r ( f 1 , f 2 ) × W l e v e l ( f t , f 1 , f 2 )
W i m p o r tan c e ( f 2 ) = β × ω l × ω p × 1 ln ( ω n + 1 ) × ω c
其中,f1为待查询公式,f2为数据库中的公式,score为相似度值,tf为公式中泛化子结构或原始子结构的频率,idf为公式中泛化子结构或原始子结构的稀有程度;Wcover(f1,f2)是两个公式f1,f2中泛化子结构和原始子结构覆盖率;Wlevel是指两个公式f1、f2中共同的原始子结构或泛化子结构的层数距离,α为泛化系数;Wimportance(f2)代表数据库中公式f2的重要度,β是一个启发式系数,ωl是独立成行公式权重,ωp是公式f2上下文描述段的长度与f2所在文档总长度的比值;ωn是f2所在文档中公式总数;ωc是公式f2在文档中引用次数。
5.如权利要求1或2所述的方法,其特征在于,所述归一化的格式为Presentation MathML格式。
6.如权利要求1或5所述的方法,其特征在于,所述归一化格式中包括对公式符号顺序的归一化,即根据设定的符号优先级顺序对公式进行调整。
7.一种数学公式检索装置,其特征在于,包括预处理模块、公式树构建模块、子结构提取模块、索引模块和查询模块;其中,
所述预处理模块,用于将不同来源的公式数据进行格式归一化,保存到一数据库中;
所述公式树构建模块,用于根据符号优先级顺序、符号作用范围将归一化后的每一公式建立一公式树;
所述子结构提取模块,用于从公式树中提取原始子结构并创建原始子结构对应的泛化子结构;其中,泛化子结构是用不同通配符分别代表原始子结构中变量和常量得到的子结构;
所述索引模块,用于根据原始子结构和泛化子结构对该数据库创建倒排索引;
所述查询模块,用于对待查询公式建立公式树并进行原始子结构提取和泛化子结构创建,然后从该数据库中查找包含该待查询公式的原始子结构和泛化子结构的公式;并根据查找到的公式与该待查询公示的相似度对查找到的公式进行排序,选取若干公式返回。
8.如权利要求7所述的装置,其特征在于,所述公式树构建模块将公式中的符号当作分支结点,公式中的变量、常量当作叶子节点,根据公式中符号和变量、常量的关系、作用域构建所述公式树。
9.如权利要求7所述的装置,其特征在于,所述原始子结构的属性包括:内容属性、层次属性和频率属性;其中,内容属性是原始子结构归一化格式的编码,层次属性是原始子结构在原公式中所处的层次,频率属性是原始子结构的词频tf、逆向文件频率idf;所述泛化子结构的属性包括:内容属性、层次属性和频率属性;其中,内容属性是泛化子结构归一化格式的编码,层次属性是泛化子结构在原公式中所处的层次,频率属性是泛化子结构的词频tf、逆向文件频率idf。
10.如权利要求7或9所述的装置,其特征在于,所述查询模块计算所述相似度的公式为:
s c o r e ( f 1 , f 2 ) = Σ f t ∈ f 1 f 2 t f ( f t , f 2 ) × idf 2 ( f t ) × W f 2 × α
W f 2 = W i m p o r tan c e ( f 2 ) × W cov e r ( f 1 , f 2 ) × W l e v e l ( f t , f 1 , f 2 )
W i m p o r tan c e ( f 2 ) = β × ω l × ω p × 1 ln ( ω n + 1 ) × ω c
其中,f1为待查询公式,f2为数据库中的公式,score为相似度值,tf为公式中泛化子结构或原始子结构的频率,idf为公式中泛化子结构或原始子结构的稀有程度;Wcover(f1,f2)是两个公式f1,f2中子结构覆盖率;Wlevel是指两个公式f1、f2中共同的原始子结构或泛化子结构的层数距离,α为泛化系数;Wimportance(f2)代表数据库中公式f2的重要度,β是一个启发式系数,ωl是独立成行公式权重,ωp是公式f2上下文描述段的长度与f2所在文档总长度的比值;ωn是f2所在文档中公式总数;ωc是公式f2在文档中引用次数。
CN201510430407.2A 2015-07-21 2015-07-21 一种数学公式检索方法与装置 Pending CN106372073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510430407.2A CN106372073A (zh) 2015-07-21 2015-07-21 一种数学公式检索方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510430407.2A CN106372073A (zh) 2015-07-21 2015-07-21 一种数学公式检索方法与装置

Publications (1)

Publication Number Publication Date
CN106372073A true CN106372073A (zh) 2017-02-01

Family

ID=57879786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510430407.2A Pending CN106372073A (zh) 2015-07-21 2015-07-21 一种数学公式检索方法与装置

Country Status (1)

Country Link
CN (1) CN106372073A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304383A (zh) * 2018-01-29 2018-07-20 北京神州泰岳软件股份有限公司 业务文档的公式信息提取方法及装置
CN109284420A (zh) * 2018-08-31 2019-01-29 国科赛思(北京)科技有限公司 电子元器件替代选型系统及替代选型方法
CN109918473A (zh) * 2017-12-14 2019-06-21 北大方正集团有限公司 数学公式相似度的测量方法及其测量系统
CN110414319A (zh) * 2019-06-13 2019-11-05 中国软件与技术服务股份有限公司 一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置
CN110968681A (zh) * 2019-11-05 2020-04-07 中国软件与技术服务股份有限公司 一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置
CN111078724A (zh) * 2019-12-11 2020-04-28 中国建设银行股份有限公司 学习系统中的测试题检索方法、装置、设备及存储介质
CN111400491A (zh) * 2018-12-27 2020-07-10 北大方正集团有限公司 公式主体定位方法、装置、设备及计算机可读存储介质
CN111539383A (zh) * 2020-05-22 2020-08-14 浙江蓝鸽科技有限公司 公式知识点识别方法及装置
CN111597393A (zh) * 2020-04-14 2020-08-28 北京金山云网络技术有限公司 定理检索方法、装置、设备及存储介质
CN111738198A (zh) * 2020-06-30 2020-10-02 上海松鼠课堂人工智能科技有限公司 智能速算系统及方法
CN114519132A (zh) * 2020-11-18 2022-05-20 北京大学 一种基于公式引用图的公式检索方法与装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663138A (zh) * 2012-05-03 2012-09-12 北京大学 一种公式查询条件的输入方法与装置
CN102693303A (zh) * 2012-05-18 2012-09-26 上海极值信息技术有限公司 一种公式化数据的搜索方法及装置
CN103186509A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 通配符类模板泛化方法和装置、通用模板泛化方法和系统
CN104408405A (zh) * 2014-11-03 2015-03-11 北京畅景立达软件技术有限公司 人脸表示和相似度计算方法
CN104636403A (zh) * 2013-11-15 2015-05-20 腾讯科技(深圳)有限公司 处理查询请求的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186509A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 通配符类模板泛化方法和装置、通用模板泛化方法和系统
CN102663138A (zh) * 2012-05-03 2012-09-12 北京大学 一种公式查询条件的输入方法与装置
CN102693303A (zh) * 2012-05-18 2012-09-26 上海极值信息技术有限公司 一种公式化数据的搜索方法及装置
CN104636403A (zh) * 2013-11-15 2015-05-20 腾讯科技(深圳)有限公司 处理查询请求的方法及装置
CN104408405A (zh) * 2014-11-03 2015-03-11 北京畅景立达软件技术有限公司 人脸表示和相似度计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOYAN LIN 等: "A mathematics retrieval system for formulae in layout presentations", 《PROCEEDINGS OF THE 37TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH & DEVELOPMENT IN INFORMATION RETRIEVAL》 *
YUEHAN WANG 等: "WikiMirs 3.0: A Hybrid MIR System Based on the Context, Structure and Importance of Formulae in a Document", 《PROCEEDINGS OF THE 15TH ACM/IEEE-CS JOINT CONFERENCE ON DIGITAL LIBRARIES》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918473B (zh) * 2017-12-14 2020-12-29 北大方正集团有限公司 数学公式相似度的测量方法及其测量系统
CN109918473A (zh) * 2017-12-14 2019-06-21 北大方正集团有限公司 数学公式相似度的测量方法及其测量系统
CN108304383B (zh) * 2018-01-29 2019-06-25 北京神州泰岳软件股份有限公司 业务文档的公式信息提取方法及装置
CN108304383A (zh) * 2018-01-29 2018-07-20 北京神州泰岳软件股份有限公司 业务文档的公式信息提取方法及装置
CN109284420A (zh) * 2018-08-31 2019-01-29 国科赛思(北京)科技有限公司 电子元器件替代选型系统及替代选型方法
CN111400491A (zh) * 2018-12-27 2020-07-10 北大方正集团有限公司 公式主体定位方法、装置、设备及计算机可读存储介质
CN110414319A (zh) * 2019-06-13 2019-11-05 中国软件与技术服务股份有限公司 一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置
CN110968681A (zh) * 2019-11-05 2020-04-07 中国软件与技术服务股份有限公司 一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置
CN111078724A (zh) * 2019-12-11 2020-04-28 中国建设银行股份有限公司 学习系统中的测试题检索方法、装置、设备及存储介质
CN111597393A (zh) * 2020-04-14 2020-08-28 北京金山云网络技术有限公司 定理检索方法、装置、设备及存储介质
CN111539383A (zh) * 2020-05-22 2020-08-14 浙江蓝鸽科技有限公司 公式知识点识别方法及装置
CN111539383B (zh) * 2020-05-22 2023-05-05 浙江蓝鸽科技有限公司 公式知识点识别方法及装置
CN111738198A (zh) * 2020-06-30 2020-10-02 上海松鼠课堂人工智能科技有限公司 智能速算系统及方法
CN114519132A (zh) * 2020-11-18 2022-05-20 北京大学 一种基于公式引用图的公式检索方法与装置
CN114519132B (zh) * 2020-11-18 2024-06-11 北京大学 一种基于公式引用图的公式检索方法与装置

Similar Documents

Publication Publication Date Title
CN106372073A (zh) 一种数学公式检索方法与装置
CN103440313B (zh) 基于音频指纹特征的音乐检索系统
CN105488196B (zh) 一种基于互联语料的热门话题自动挖掘系统
CN104991905B (zh) 一种基于层次索引的数学表达式检索方法
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN104346438B (zh) 基于大数据数据管理服务系统
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
CN103646032A (zh) 一种基于本体和受限自然语言处理的数据库查询方法
CN102306176B (zh) 一种基于数据仓库内在特征的olap关键词查询方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN109902142B (zh) 一种基于编辑距离的字符串模糊匹配和查询方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN106708929A (zh) 视频节目的搜索方法和装置
CN111177410B (zh) 基于进化R-tree的知识图谱存储和相似性检索方法
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
US9146988B2 (en) Hierarchal clustering method for large XML data
CN104615734B (zh) 一种社区管理服务大数据处理系统及其处理方法
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN107436955A (zh) 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
Zubiaga et al. Content-based clustering for tag cloud visualization
CN109145161A (zh) 中文地名查询方法、装置及设备
CN105404677A (zh) 一种基于树形结构的检索方法
CN106919658A (zh) 一种基于gpu加速的大规模图像词汇树检索方法及系统
CN106570196A (zh) 视频节目的搜索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170201

RJ01 Rejection of invention patent application after publication