CN110968681B - 一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置 - Google Patents

一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置 Download PDF

Info

Publication number
CN110968681B
CN110968681B CN201911070798.6A CN201911070798A CN110968681B CN 110968681 B CN110968681 B CN 110968681B CN 201911070798 A CN201911070798 A CN 201911070798A CN 110968681 B CN110968681 B CN 110968681B
Authority
CN
China
Prior art keywords
evidence
formula
subnet
network
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911070798.6A
Other languages
English (en)
Other versions
CN110968681A (zh
Inventor
韩光
郭祎萍
许彩云
崔永进
兰静
田宝松
杨杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Software & Service Co ltd
Original Assignee
China National Software & Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Software & Service Co ltd filed Critical China National Software & Service Co ltd
Priority to CN201911070798.6A priority Critical patent/CN110968681B/zh
Publication of CN110968681A publication Critical patent/CN110968681A/zh
Application granted granted Critical
Publication of CN110968681B publication Critical patent/CN110968681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置。扩展的信念网络检索模型包含基本信念网络、以公式变量为证据的证据网络和以公式为证据的证据网络;基本信念网络包含查询子网、术语子网和文档子网;以公式变量为证据的证据网络包含查询子网、术语子网和文档子网;以公式为证据的证据网络包含查询子网、公式子网和文档子网。通过三个网络分别获得基于文本的证据、基于公式语义的证据和基于公式的证据,采用不同的操作符归并得到的三种证据,获得不同的检索结果。本发明既可以实现文本索引机制又可以实现公式索引机制,可以兼容文本索引和公式索引,实现并行的双索引机制,利用双索引检索后的相关文档排序较为合理。

Description

一种组合公式信息扩展的信念网络检索模型构建方法和检索 方法及装置
技术领域
本发明属于信息检索领域,涉及一种文档检索方法,尤其涉及一种科技文献检索方法。
背景技术
信念网络检索模型是1996年由Ribeiro-Neto和Muntz提出的一种基于贝叶斯网络的信息检索模型,其给出了一个灵活有效的基本框架,定义了明确的样本空间,通过合理的规定条件概率可表示经典的布尔模型、概率模型和矢量模型。基本信念网络检索模型的拓扑结构如图1所示。
模型包括三类节点:查询节点q、术语节点ki和文档节点dj。若术语ki是查询q的一个查询术语,则有一条弧(图1中用箭头表示)从ki指向查询节点q;若术语ki是文档dj的一个索引术语,则有一条弧从ki指向文档节点dj。模型假设术语节点之间、文档节点之间相互独立,所以术语节点之间、文档节点之间没有弧。
所有术语组成一个概念空间U。概念u为概念空间U的一个子集。查询节点q和文档节点dj都可以看成是概念空间U中的一个概念。
信息检索的过程被看做是文档dj与查询q的匹配过程,即计算P(dj|q)的过程。依据条件概率及贝叶斯网络中的条件独立性假设可得:
P(dj|q)=ηP(dj|u)P(q|u)P(u)
其中,η为规范化常数。因最初不知u发生的概率,于是假定等概率发生,即:
Figure BDA0002260868160000011
其中t为概念空间U中术语的个数。
对P(q|u)和P(dj|u)的不同规定能表示信息检索中不同的经典检索模型。将信念网络应用于矢量模型,为此对概率p(q|u),p(dj|u)做出如下规定:
Figure BDA0002260868160000012
gi(u)是一个函数,如果术语ki∈u,则gi(u)=1,否则gi(u)=0。
Figure BDA0002260868160000021
其中wi,j为术语ki在文档dj中的权重,wi,u为术语ki在概念U中的权重。
与传统信息检索模型一样,基本信念网络检索模型仅能利用文本信息检索出相关文档,不能满足科研人员对公式检索的需求。
随着技术的发展,出现了很多公式检索系统,但这些检索系统只能利用公式编码信息检索相关文档。与文本信息相比,人们对公式记忆的衰减周期较短,因此设计一种兼容文本信息和公式信息的文档检索模型很有必要。
在信息检索系统中建立串行双索引机制并不困难,但实现并行双索引却很困难。因为利用文本信息检索会得到一个相关文档排序表,利用公式信息进行检索也会得到一个相关文档排序表,而如何将这两个相关文档排序表合理地整合为一个排序表,是非常困难的。
发明内容
本发明提出一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置,用以解决上述不能兼容文本和公式检索的问题。
考虑到信念网络组合证据信息的有效性,本发明提出了一种组合公式信息扩展的信念网络检索模型,该模型可以有效兼容文本和公式索引,并可以合理地整合相关文档排序表。
本发明的一种组合公式信息扩展的信念网络检索模型构建方法,包括以下步骤:
构建基本信念网络,所述基本信念网络包含查询子网、术语子网和文档子网;
构建以公式变量为证据的证据网络,所述以公式变量为证据的证据网络包含查询子网、术语子网和文档子网;
构建以公式为证据的证据网络,所述以公式为证据的证据网络包含查询子网、公式子网和文档子网;
由所述基本信念网络、所述以公式变量为证据的证据网络和所述以公式为证据的证据网络构成扩展的信念网络检索模型。
进一步地,本发明根据文档中的公式信息,构建了一种扩展的信念网络检索模型,其拓扑结构如图2所示。在扩展的信念网络检索模型中,左侧是初始用于信息检索的基本信念网络,由三个子网组成:查询子网由一个节点,即初始查询中的文本查询qc组成;术语子网包括t个术语ki(1≤i≤t),其构成了左侧网络的概念空间U;文档子网由n个文档节点构成,用dcj表示文档。中间侧是以公式变量为证据的证据网络,包括三个子网:查询子网、文档子网与左侧网络中的对应子网完全一样,为了区别分别用qs、dsj表示;术语子网包括r个术语hi(1≤i≤r),其构成了中间侧网络的概念空间V。右侧是以公式为证据的证据网络,也包括三个子网:查询子网由初始查询中的公式查询qf构成、文档子网与左侧网络中的对应子网完全一样,为了区别用dfj表示;公式子网包括z个公式mi(1≤i≤z),其构成了右侧网络的概念空间W。其中,“证据”是指能提高查询准确率的辅助信息。
拓扑结构中,如果术语ki构成查询qc,则有一条从ki指向qc的弧(即图中的箭头)。类似地,如果文档dcj由术语ki索引,则有一条从ki指向dcj的弧;如果公式mi构成了qf,则有一条从mi指向qf的弧,同时,如果文档dfj由公式mi索引,则有一条从mi指向dfj的弧;文档dcj、dsj和dfj都是对文档dj的复制,节点dcj、dsj和dfj产生的证据组合起来。形成节点dj,表示得到的最终检索结果;查询节点qc、qs和qf通过合取操作将文本查询、公式语义查询和公式查询组合成总查询q。
进一步地,通过分析文档组成,采用以下方式构建各网络的概念空间:
对文档集中的文本集进行分词、去停用词后得到的术语集,构成所述基本信念网络中术语子网的概念空间;
提取文档集中与内嵌公式匹配的文本特征信息,获得的文本特征信息集,构成所述以公式变量为证据的证据网络中术语子网的概念空间;
提取文档集中的文档的所有独立公式,构成所述以公式为证据的证据网络中公式子网的概念空间。
基于同一发明构思,本发明还提供一种组合公式信息扩展的信念网络检索模型构建装置,其包括:
第一网络构建模块,用于构建基本信念网络,所述基本信念网络包含查询子网、术语子网和文档子网;
第二网络构建模块,用于构建以公式变量为证据的证据网络,所述以公式变量为证据的证据网络包含查询子网、术语子网和文档子网;
第三网络构建模块,用于构建以公式为证据的证据网络,所述以公式为证据的证据网络包含查询子网、公式子网和文档子网。
基于同一发明构思,本发明还提供一种科技文献检索方法,其采用本发明方法构建的组合公式信息扩展的信念网络检索模型进行科技文献检索,包括以下步骤:
通过基本信念网络、以公式变量为证据的证据网络和以公式为证据的证据网络,分别获得基于文本的证据、基于公式语义的证据和基于公式的证据;
采用不同的操作符归并得到的三种证据,获得不同的检索结果。
进一步地,所述采用不同的操作符归并得到的三种证据,获得不同的检索结果,包括:
采用析取操作符or归并三种证据,进行模糊检索;
采用合取操作符and归并三种证据,进行精准检索。
进一步地,对扩展模型的概率推导具体说明如下:
该模型中包括三类证据:基于文本的证据、基于公式语义的证据和基于公式的证据,采用不同的操作符归并这三种证据将得到不同的检索结果。该模型通过析取和合取操作符提供模糊检索和精准检索两种方法:
(1)模糊检索
采用析取操作符or归并左侧网络、右侧网络、中间侧网络的证据可得到如下排序计算式:
Figure BDA0002260868160000041
其中:
P(dj|q)表示文档dj与查询q的匹配概率,信息检索的过程被看做是文档dj与查询q的匹配过程。
η为规范化常数。概念u、v、w分别为概念空间U、V、W的一个子集。
P(dj∩q|u,v,w)表示在概念u、v、w条件下,查询q和文档dj共同发生的概率。P(u)、P(v)、P(w)分别表示概念u、概念v、概念w发生的概率。
Figure BDA0002260868160000042
表示在概念u、v、w条件下,文档dcj不发生的概率;/>
Figure BDA0002260868160000043
表示文档dcj不发生的事件;/>
Figure BDA0002260868160000044
表示在概念u、v、w条件下,文档dsj不发生的概率;/>
Figure BDA0002260868160000045
表示文档dsj不发生的事件;/>
Figure BDA0002260868160000046
表示在概念u、v、w条件下,文档dfj不发生的概率;/>
Figure BDA0002260868160000047
表示文档dfj不发生的事件。p(qc|u)表示在概念u条件下,查询qc发生的概率;P(qs|v)表示在概念v条件下,查询qs发生的概率;P(qf|w)表示在概念w条件下,查询qf发生的概率。P(dcj|u)表示在概念u条件下,文档dcj发生的概率;P(dsj|v)表示在概念v条件下,文档dsj发生的概率;P(dfj|w)表示在概念w条件下,文档dfj发生的概率。
(2)精准检索
采用合取操作符and归并左侧网络、右侧网络、中间侧网络的证据可得到如下排序计算式:
Figure BDA0002260868160000051
其中:P(dcj∩dsj∩dfj|u,v,w)表示在概念u、v、w条件下,文档dcj、dsj和dfj共同发生的概率。P(qc∩qs∩qf|u,v,w)表示在概念u、v、w条件下,查询qc、qs和qf共同发生的概率。P(dcj|u,v,w)表示在概念u、v、w条件下,文档dcj发生的概率;P(dsj|u,v,w)表示在概念u、v、w条件下,文档dsj发生的概率;P(dfj|u,v,w)表示在概念u、v、w条件下,文档dfj发生的概率。P(qc|u,v,w)表示在概念u、v、w条件下,查询qc发生的概率;P(qs|u,v,w)表示在概念u、v、w条件下,查询qs发生的概率;P(qf|u,v,w)表示在概念u、v、w条件下,查询qf发生的概率。
基于同一发明构思,本发明还提供一种科技文献检索装置,其包含一计算机,所述计算机包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明的科技文献检索方法中各步骤的指令。
除特殊说明外,本发明中所有的公式均指独立公式,所谓独立公式是指在文档中单独占一行的公式。
本发明有益效果为:采用本方案后,一是既可以实现文本索引机制又可以实现公式索引机制;二是可以兼容文本索引和公式索引,实现并行的双索引机制;三是利用双索引检索后的相关文档排序较为合理。
附图说明
图1是基本的信念网络检索模型的拓扑图。
图2是利用公式信息扩展的信念网络检索模型的拓扑图。
图3是组合公式信息扩展的信念网络检索模型的构建及检索流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明的具体实施方式作详细描述。
图3为组合公式信息扩展的信念网络检索模型的流程图,主要包括如下步骤:
步骤一:文档组成的分析
本发明主要考虑文档正文信息中的文本信息和公式信息。从逻辑层面看,一篇文档di可由文本集Ti和公式集Fi的并集组成,即di=Ti∪Fi;从物理层面来看,可将一篇文档di划分为段落信息集PAi和独立公式集INFi,即:di=PAi∪INFi。段落信息集PAi可划分为含内嵌公式的段落集FPAi和非含内嵌公式的段落集IFPAi,即PAi=FPAi∪IFPAi;含内嵌公式的段落fpair可划分为含内嵌公式的句子集fsir和非含内嵌公式的句子集ifsir,即fpair=fsir∪ifsir
综上分析可得,在物理层面一篇文档di可表示为
Figure BDA0002260868160000061
Figure BDA0002260868160000062
其中m表示非含内嵌公式的句子数,n表示含内嵌公式的句子数。
内嵌公式是独立公式的子式,与内嵌公式对应的文本信息是对独立公式的解释说明,是对独立公式变量的明确。若将与内嵌公式对应的文本信息归为文档中的文本信息,则公式对应变量的语义信息的权重可能会很低,同时也不会更加准确地提取到公式的语义信息。此外人们对公式记忆的衰减周期较短,往往只会准确记住部分变量信息,而对变量间的逻辑关系记忆不准确。而从物理层面划分文档可以有效解决该问题。因此,本发明从物理层面将文档分为三部分,即
Figure BDA0002260868160000063
其中文本信息Ti由不含内嵌公式的段落集和含内嵌公式段落集中不含内嵌公式的句子集构成,即/>
Figure BDA0002260868160000064
INFi表示文档di中的独立公式集,/>
Figure BDA0002260868160000065
表示文档di中含内嵌公式的句子集。
步骤一中所述“内嵌公式”是指与文本信息交杂在一起的公式。
步骤二:扩展的信念网络检索模型拓扑结构的构建
(1)概念空间U的获取
利用开源API-Jsoup解析器,根据段落的标识,提取文档集的段落集;利用逗号、分号和句号对含内嵌公式的段落集进行断句并提取不含内嵌公式的句子;利用文档中文本的构成原理得到每篇文档的文本集Ti。对文档集中的文本集进行分词、去停用词后得到的术语集即构成了概念空间U。
Jsoup解析器是一款优秀的HTML解析器,其提供了一套DOM选择器以及CSS选择器来对HTML的节点进行定位,可以兼容不规范的HTML的节点。
(2)概念空间V的获取
利用逗号、分号和句号对含内嵌公式的段落集进行断句并提取含内嵌公式的句子集;对含有内嵌公式的句子进行分词、去停用词后提取名词短语,并记录名词短语与内嵌公式的距离;利用最近邻法,依次提取与内嵌公式匹配的文本特征信息;获得文档集中的文本特征信息集即概念空间V。
(3)概念空间W的获取
利用开源API-Jsoup解析器,根据独立公式的标识,提取文档中的独立公式,获得文档集中的所有独立公式即概念空间W。
步骤三:推理与检索
1)左、中侧网络中的P(dcj|u)、P(dsj|v)、P(qc|u)、P(qs|v)、P(v)和P(w)都可按照基本信念网络模型的计算方法计算。
2)P(dfj|w)可定义为下式:
Figure BDA0002260868160000071
3)P(qf|w)表示查询qf与ml的相似程度,可利用任何一种公式相似度计算方法计算。
Figure BDA0002260868160000072
本发明的一种组合公式信息扩展的信念网络检索模型,可以实现文本、公式双索引的并行或串行机制,同时可精准或模糊地检索到与查询相关的文档。
其中,并行机制是指:能同时利用文本和公式两种索引机制,检索相关文档
其中,串行机制是指:只能利用文本或公式中的一种索引机制,检索相关文档。
基于同一发明构思,本发明另一实施例提供一种组合公式信息扩展的信念网络检索模型构建装置,其包括:
第一网络构建模块,用于构建基本信念网络,所述基本信念网络包含查询子网、术语子网和文档子网;
第二网络构建模块,用于构建以公式变量为证据的证据网络,所述以公式变量为证据的证据网络包含查询子网、术语子网和文档子网;
第三网络构建模块,用于构建以公式为证据的证据网络,所述以公式为证据的证据网络包含查询子网、公式子网和文档子网。
基于同一发明构思,本发明另一实施例提供一种科技文献检索方法,其采用本发明方法构建的组合公式信息扩展的信念网络检索模型进行科技文献检索,包括以下步骤:
通过基本信念网络、以公式变量为证据的证据网络和以公式为证据的证据网络,分别获得基于文本的证据、基于公式语义的证据和基于公式的证据;
采用不同的操作符归并得到的三种证据,获得不同的检索结果。
所述采用不同的操作符归并得到的三种证据,获得不同的检索结果,包括:
采用析取操作符or归并三种证据,进行模糊检索;
采用合取操作符and归并三种证据,进行精准检索。
基于同一发明构思,本发明另一实施例提供一种科技文献检索装置,其包含一计算机,所述计算机包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明的科技文献检索方法中各步骤的指令。
仿真实验数据:假设查询q为“词语权重w=tf*idf的计算方法”。
实验结果:利用文本检索系统则查询q为“词语权重计算方法”,利用此查询会检索出很多有关词语权重计算方法的文档,此文档集中可能会包含公式w=tf*idf,也可能会包含其它词语权重的公式;利用公式检索系统,则查询q为w=tf*idf,利用此查询会检索出词语权重w=tf*idf,可能也会检索出包含公式权重w=tf*iff的相关文档。利用本发明中的精准检索可以查询到同时包含“词语权重计算方法”和“w=tf*idf”的文档;利用本发明中的模糊检索则可以查询到包含“词语权重计算方法”或“w=tf*idf”的文档。
其中“公式权重w=tf*iff”是部分研究者借鉴词语权重w=tf*idf的思想,提出的公式权重计算方法。
通过仿真实验数据证明本发明可以更准确地检索到相关文档。
应当理解的是上述实施方式描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种组合公式信息扩展的信念网络检索模型构建方法,其特征在于,包括以下步骤:
构建基本信念网络,所述基本信念网络包含查询子网、术语子网和文档子网;
构建以公式变量为证据的证据网络,所述以公式变量为证据的证据网络包含查询子网、术语子网和文档子网;
构建以公式为证据的证据网络,所述以公式为证据的证据网络包含查询子网、公式子网和文档子网;
由所述基本信念网络、所述以公式变量为证据的证据网络和所述以公式为证据的证据网络构成扩展的信念网络检索模型;
通过分析文档组成,采用以下方式构建各网络的概念空间:
对文档集中的文本集进行分词、去停用词后得到的术语集,构成所述基本信念网络中术语子网的概念空间;
提取文档集中与内嵌公式匹配的文本特征信息,获得的文本特征信息集,构成所述以公式变量为证据的证据网络中术语子网的概念空间;
提取文档集中的文档的所有独立公式,构成所述以公式为证据的证据网络中公式子网的概念空间;
采用以下方式得到所述与内嵌公式匹配的文本特征信息:利用逗号、分号和句号对含内嵌公式的段落集进行断句并提取含内嵌公式的句子集;对含有内嵌公式的句子进行分词、去停用词后提取名词短语,并记录名词短语与内嵌公式的距离;利用最近邻法,依次提取与内嵌公式匹配的文本特征信息。
2.根据权利要求1所述的方法,其特征在于,所述基本信念网络中,查询子网由一个节点即初始查询中的文本查询qc组成;术语子网包括t个术语ki,1≤i≤t,其构成概念空间U;文档子网由n个文档节点构成,用dcj表示文档;所述以公式变量为证据的证据网络中,查询子网、文档子网与所述基本信念网络中的对应子网相同,分别用qs、dsj表示,术语子网包括r个术语hi,1≤i≤r,其构成概念空间V;所述以公式为证据的证据网络中,查询子网由初始查询中的公式查询qf构成、文档子网与所述基本信念网络中的对应子网相同,用dfj表示,公式子网包括z个公式mi,1≤i≤z,其构成概念空间W。
3.根据权利要求1所述的方法,其特征在于,所述分析文档组成,从物理层面将一篇文档di划分为段落信息集PAi和独立公式集INFi,即:di=PAi∪INFi;段落信息集PAi划分为含内嵌公式的段落集FPAi和非含内嵌公式的段落集IFPAi,即PAi=FPAi∪IFPAi;含内嵌公式的段落fpair划分为含内嵌公式的句子集fsir和非含内嵌公式的句子集ifsir,即fpair=fsir∪ifsir
4.根据权利要求1所述的方法,其特征在于,采用以下方式得到所述文本集:利用开源解析器,根据段落的标识,提取文档集的段落集;利用逗号、分号和句号对含内嵌公式的段落集进行断句并提取不含内嵌公式的句子;利用文档中文本的构成原理得到每篇文档的文本集。
5.一种采用权利要求1~4中任一项所述方法的组合公式信息扩展的信念网络检索模型构建装置,其特征在于,包括:
第一网络构建模块,用于构建基本信念网络,所述基本信念网络包含查询子网、术语子网和文档子网;
第二网络构建模块,用于构建以公式变量为证据的证据网络,所述以公式变量为证据的证据网络包含查询子网、术语子网和文档子网;
第三网络构建模块,用于构建以公式为证据的证据网络,所述以公式为证据的证据网络包含查询子网、公式子网和文档子网。
6.一种科技文献检索方法,其特征在于,采用权利要求1~4中任一权利要求所述方法构建的组合公式信息扩展的信念网络检索模型进行科技文献检索,包括以下步骤:
通过基本信念网络、以公式变量为证据的证据网络和以公式为证据的证据网络,分别获得基于文本的证据、基于公式语义的证据和基于公式的证据;
采用不同的操作符归并得到的三种证据,获得不同的检索结果。
7.根据权利要求6所述的方法,其特征在于,所述采用不同的操作符归并得到的三种证据,获得不同的检索结果,包括:
采用析取操作符or归并三种证据,进行模糊检索;
采用合取操作符and归并三种证据,进行精准检索。
8.一种科技文献检索装置,其特征在于,包含一计算机,所述计算机包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求6或7所述方法的指令。
CN201911070798.6A 2019-11-05 2019-11-05 一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置 Active CN110968681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911070798.6A CN110968681B (zh) 2019-11-05 2019-11-05 一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911070798.6A CN110968681B (zh) 2019-11-05 2019-11-05 一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置

Publications (2)

Publication Number Publication Date
CN110968681A CN110968681A (zh) 2020-04-07
CN110968681B true CN110968681B (zh) 2023-05-23

Family

ID=70030194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911070798.6A Active CN110968681B (zh) 2019-11-05 2019-11-05 一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置

Country Status (1)

Country Link
CN (1) CN110968681B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715374A (en) * 1994-06-29 1998-02-03 Microsoft Corporation Method and system for case-based reasoning utilizing a belief network
CN104699786A (zh) * 2015-03-17 2015-06-10 浪潮通信信息系统有限公司 一种语义智能搜索的通信网络投诉系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106734A1 (en) * 2007-10-23 2009-04-23 Riesen Michael J Bayesian belief network query tool
CN101685455B (zh) * 2008-09-28 2012-02-01 华为技术有限公司 数据检索的方法和系统
CN106372073A (zh) * 2015-07-21 2017-02-01 北京大学 一种数学公式检索方法与装置
CN105069080B (zh) * 2015-07-31 2018-06-29 中国农业科学院农业信息研究所 一种文献检索方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715374A (en) * 1994-06-29 1998-02-03 Microsoft Corporation Method and system for case-based reasoning utilizing a belief network
CN104699786A (zh) * 2015-03-17 2015-06-10 浪潮通信信息系统有限公司 一种语义智能搜索的通信网络投诉系统

Also Published As

Publication number Publication date
CN110968681A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
WO2020001373A1 (zh) 一种本体构建方法及装置
Rong et al. Egoset: Exploiting word ego-networks and user-generated ontology for multifaceted set expansion
US20050108200A1 (en) Category based, extensible and interactive system for document retrieval
CN104281702B (zh) 基于电力关键词分词的数据检索方法及装置
CN111325018B (zh) 一种基于web检索和新词发现的领域词典构建方法
WO2023010427A1 (en) Systems and methods generating internet-of-things-specific knowledge graphs, and search systems and methods using such graphs
Yang et al. Ontology generation for large email collections.
CN109522396A (zh) 一种面向国防科技领域的知识处理方法及系统
Trabelsi et al. Semantic labeling using a deep contextualized language model
CN110968681B (zh) 一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置
Cortez et al. A flexible approach for extracting metadata from bibliographic citations
Khin et al. Query classification based information retrieval system
Bernhard Morphonet: Exploring the use of community structure for unsupervised morpheme analysis
CN108846094A (zh) 一种基于分词检索交互的方式
Wu et al. Machine Learning-Based Keywords Extraction for Scientific Literature.
US20230142351A1 (en) Methods and systems for searching and retrieving information
Dhanapal An intelligent information retrieval agent
Zhou et al. Chinese documents classification based on N-grams
Niraula et al. A novel approach to part name discovery in noisy text
Xie et al. Personalized query recommendation using semantic factor model
Song et al. Unsupervised learning of word semantic embedding using the deep structured semantic model
CN113609296B (zh) 用于舆情数据识别的数据处理方法和装置
Akash et al. Domain Representative Keywords Selection: A Probabilistic Approach
Raza et al. An Improved Semantic Query Expansion Approach Using Incremental User Tag Profile for Efficient Information Retrieval
Nikolić et al. Information retrieval for unstructured text documents in Serbian into the crime domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant