CN110968681B

CN110968681B - 一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置

Info

Publication number: CN110968681B
Application number: CN201911070798.6A
Authority: CN
Inventors: 韩光; 郭祎萍; 许彩云; 崔永进; 兰静; 田宝松; 杨杨
Original assignee: China National Software & Service Co ltd
Current assignee: China National Software & Service Co ltd
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2023-05-23
Anticipated expiration: 2039-11-05
Also published as: CN110968681A

Abstract

本发明涉及一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置。扩展的信念网络检索模型包含基本信念网络、以公式变量为证据的证据网络和以公式为证据的证据网络；基本信念网络包含查询子网、术语子网和文档子网；以公式变量为证据的证据网络包含查询子网、术语子网和文档子网；以公式为证据的证据网络包含查询子网、公式子网和文档子网。通过三个网络分别获得基于文本的证据、基于公式语义的证据和基于公式的证据，采用不同的操作符归并得到的三种证据，获得不同的检索结果。本发明既可以实现文本索引机制又可以实现公式索引机制，可以兼容文本索引和公式索引，实现并行的双索引机制，利用双索引检索后的相关文档排序较为合理。

Description

一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置

技术领域

本发明属于信息检索领域，涉及一种文档检索方法，尤其涉及一种科技文献检索方法。

背景技术

信念网络检索模型是1996年由Ribeiro-Neto和Muntz提出的一种基于贝叶斯网络的信息检索模型，其给出了一个灵活有效的基本框架，定义了明确的样本空间，通过合理的规定条件概率可表示经典的布尔模型、概率模型和矢量模型。基本信念网络检索模型的拓扑结构如图1所示。

模型包括三类节点：查询节点q、术语节点k_i和文档节点d_j。若术语k_i是查询q的一个查询术语，则有一条弧(图1中用箭头表示)从k_i指向查询节点q；若术语k_i是文档d_j的一个索引术语，则有一条弧从k_i指向文档节点d_j。模型假设术语节点之间、文档节点之间相互独立，所以术语节点之间、文档节点之间没有弧。

所有术语组成一个概念空间U。概念u为概念空间U的一个子集。查询节点q和文档节点d_j都可以看成是概念空间U中的一个概念。

信息检索的过程被看做是文档d_j与查询q的匹配过程，即计算P(d_j|q)的过程。依据条件概率及贝叶斯网络中的条件独立性假设可得：

P(d_j|q)＝ηP(d_j|u)P(q|u)P(u)

其中，η为规范化常数。因最初不知u发生的概率，于是假定等概率发生，即：

其中t为概念空间U中术语的个数。

对P(q|u)和P(d_j|u)的不同规定能表示信息检索中不同的经典检索模型。将信念网络应用于矢量模型，为此对概率p(q|u)，p(d_j|u)做出如下规定：

g_i(u)是一个函数，如果术语k_i∈u，则g_i(u)＝1，否则g_i(u)＝0。

其中w_i,j为术语k_i在文档d_j中的权重，w_i,u为术语k_i在概念U中的权重。

与传统信息检索模型一样，基本信念网络检索模型仅能利用文本信息检索出相关文档，不能满足科研人员对公式检索的需求。

随着技术的发展，出现了很多公式检索系统，但这些检索系统只能利用公式编码信息检索相关文档。与文本信息相比，人们对公式记忆的衰减周期较短，因此设计一种兼容文本信息和公式信息的文档检索模型很有必要。

在信息检索系统中建立串行双索引机制并不困难，但实现并行双索引却很困难。因为利用文本信息检索会得到一个相关文档排序表，利用公式信息进行检索也会得到一个相关文档排序表，而如何将这两个相关文档排序表合理地整合为一个排序表，是非常困难的。

发明内容

本发明提出一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置，用以解决上述不能兼容文本和公式检索的问题。

考虑到信念网络组合证据信息的有效性，本发明提出了一种组合公式信息扩展的信念网络检索模型，该模型可以有效兼容文本和公式索引，并可以合理地整合相关文档排序表。

本发明的一种组合公式信息扩展的信念网络检索模型构建方法，包括以下步骤：

构建基本信念网络，所述基本信念网络包含查询子网、术语子网和文档子网；

构建以公式变量为证据的证据网络，所述以公式变量为证据的证据网络包含查询子网、术语子网和文档子网；

构建以公式为证据的证据网络，所述以公式为证据的证据网络包含查询子网、公式子网和文档子网；

由所述基本信念网络、所述以公式变量为证据的证据网络和所述以公式为证据的证据网络构成扩展的信念网络检索模型。

进一步地，本发明根据文档中的公式信息，构建了一种扩展的信念网络检索模型，其拓扑结构如图2所示。在扩展的信念网络检索模型中，左侧是初始用于信息检索的基本信念网络，由三个子网组成：查询子网由一个节点，即初始查询中的文本查询q_c组成；术语子网包括t个术语k_i(1≤i≤t)，其构成了左侧网络的概念空间U；文档子网由n个文档节点构成，用d_cj表示文档。中间侧是以公式变量为证据的证据网络，包括三个子网：查询子网、文档子网与左侧网络中的对应子网完全一样，为了区别分别用q_s、d_sj表示；术语子网包括r个术语h_i(1≤i≤r)，其构成了中间侧网络的概念空间V。右侧是以公式为证据的证据网络，也包括三个子网：查询子网由初始查询中的公式查询q_f构成、文档子网与左侧网络中的对应子网完全一样，为了区别用d_fj表示；公式子网包括z个公式m_i(1≤i≤z)，其构成了右侧网络的概念空间W。其中，“证据”是指能提高查询准确率的辅助信息。

拓扑结构中，如果术语k_i构成查询q_c，则有一条从k_i指向q_c的弧(即图中的箭头)。类似地，如果文档d_cj由术语k_i索引，则有一条从k_i指向d_cj的弧；如果公式m_i构成了q_f，则有一条从m_i指向q_f的弧，同时，如果文档d_fj由公式m_i索引，则有一条从m_i指向d_fj的弧；文档d_cj、d_sj和d_fj都是对文档d_j的复制，节点d_cj、d_sj和d_fj产生的证据组合起来。形成节点d_j，表示得到的最终检索结果；查询节点q_c、q_s和q_f通过合取操作将文本查询、公式语义查询和公式查询组合成总查询q。

进一步地，通过分析文档组成，采用以下方式构建各网络的概念空间：

对文档集中的文本集进行分词、去停用词后得到的术语集，构成所述基本信念网络中术语子网的概念空间；

提取文档集中与内嵌公式匹配的文本特征信息，获得的文本特征信息集，构成所述以公式变量为证据的证据网络中术语子网的概念空间；

提取文档集中的文档的所有独立公式，构成所述以公式为证据的证据网络中公式子网的概念空间。

基于同一发明构思，本发明还提供一种组合公式信息扩展的信念网络检索模型构建装置，其包括：

第一网络构建模块，用于构建基本信念网络，所述基本信念网络包含查询子网、术语子网和文档子网；

第二网络构建模块，用于构建以公式变量为证据的证据网络，所述以公式变量为证据的证据网络包含查询子网、术语子网和文档子网；

第三网络构建模块，用于构建以公式为证据的证据网络，所述以公式为证据的证据网络包含查询子网、公式子网和文档子网。

基于同一发明构思，本发明还提供一种科技文献检索方法，其采用本发明方法构建的组合公式信息扩展的信念网络检索模型进行科技文献检索，包括以下步骤：

通过基本信念网络、以公式变量为证据的证据网络和以公式为证据的证据网络，分别获得基于文本的证据、基于公式语义的证据和基于公式的证据；

采用不同的操作符归并得到的三种证据，获得不同的检索结果。

进一步地，所述采用不同的操作符归并得到的三种证据，获得不同的检索结果，包括：

采用析取操作符or归并三种证据，进行模糊检索；

采用合取操作符and归并三种证据，进行精准检索。

进一步地，对扩展模型的概率推导具体说明如下：

该模型中包括三类证据：基于文本的证据、基于公式语义的证据和基于公式的证据，采用不同的操作符归并这三种证据将得到不同的检索结果。该模型通过析取和合取操作符提供模糊检索和精准检索两种方法：

(1)模糊检索

采用析取操作符or归并左侧网络、右侧网络、中间侧网络的证据可得到如下排序计算式：

其中：

P(d_j|q)表示文档d_j与查询q的匹配概率，信息检索的过程被看做是文档d_j与查询q的匹配过程。

η为规范化常数。概念u、v、w分别为概念空间U、V、W的一个子集。

P(d_j∩q|u,v,w)表示在概念u、v、w条件下，查询q和文档d_j共同发生的概率。P(u)、P(v)、P(w)分别表示概念u、概念v、概念w发生的概率。

表示在概念u、v、w条件下，文档d_cj不发生的概率；/>

表示文档d_cj不发生的事件；/>

表示在概念u、v、w条件下，文档d_sj不发生的概率；/>

表示文档d_sj不发生的事件；/>

表示在概念u、v、w条件下，文档d_fj不发生的概率；/>

(2)精准检索

采用合取操作符and归并左侧网络、右侧网络、中间侧网络的证据可得到如下排序计算式：

基于同一发明构思，本发明还提供一种科技文献检索装置，其包含一计算机，所述计算机包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明的科技文献检索方法中各步骤的指令。

除特殊说明外，本发明中所有的公式均指独立公式，所谓独立公式是指在文档中单独占一行的公式。

本发明有益效果为：采用本方案后，一是既可以实现文本索引机制又可以实现公式索引机制；二是可以兼容文本索引和公式索引，实现并行的双索引机制；三是利用双索引检索后的相关文档排序较为合理。

附图说明

图1是基本的信念网络检索模型的拓扑图。

图2是利用公式信息扩展的信念网络检索模型的拓扑图。

图3是组合公式信息扩展的信念网络检索模型的构建及检索流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明的具体实施方式作详细描述。

图3为组合公式信息扩展的信念网络检索模型的流程图，主要包括如下步骤：

步骤一：文档组成的分析

本发明主要考虑文档正文信息中的文本信息和公式信息。从逻辑层面看，一篇文档d_i可由文本集T_i和公式集F_i的并集组成，即d_i＝T_i∪F_i；从物理层面来看，可将一篇文档d_i划分为段落信息集PA_i和独立公式集INF_i，即：d_i＝PA_i∪INF_i。段落信息集PA_i可划分为含内嵌公式的段落集FPA_i和非含内嵌公式的段落集IFPA_i，即PA_i＝FPA_i∪IFPA_i；含内嵌公式的段落fpa_ir可划分为含内嵌公式的句子集fs_ir和非含内嵌公式的句子集ifs_ir，即fpa_ir＝fs_ir∪ifs_ir。

综上分析可得，在物理层面一篇文档d_i可表示为

其中m表示非含内嵌公式的句子数，n表示含内嵌公式的句子数。

内嵌公式是独立公式的子式，与内嵌公式对应的文本信息是对独立公式的解释说明，是对独立公式变量的明确。若将与内嵌公式对应的文本信息归为文档中的文本信息，则公式对应变量的语义信息的权重可能会很低，同时也不会更加准确地提取到公式的语义信息。此外人们对公式记忆的衰减周期较短，往往只会准确记住部分变量信息，而对变量间的逻辑关系记忆不准确。而从物理层面划分文档可以有效解决该问题。因此，本发明从物理层面将文档分为三部分，即

其中文本信息T_i由不含内嵌公式的段落集和含内嵌公式段落集中不含内嵌公式的句子集构成，即/>

INF_i表示文档d_i中的独立公式集，/>

表示文档d_i中含内嵌公式的句子集。

步骤一中所述“内嵌公式”是指与文本信息交杂在一起的公式。

步骤二：扩展的信念网络检索模型拓扑结构的构建

(1)概念空间U的获取

利用开源API-Jsoup解析器，根据段落的标识，提取文档集的段落集；利用逗号、分号和句号对含内嵌公式的段落集进行断句并提取不含内嵌公式的句子；利用文档中文本的构成原理得到每篇文档的文本集T_i。对文档集中的文本集进行分词、去停用词后得到的术语集即构成了概念空间U。

Jsoup解析器是一款优秀的HTML解析器，其提供了一套DOM选择器以及CSS选择器来对HTML的节点进行定位，可以兼容不规范的HTML的节点。

(2)概念空间V的获取

利用逗号、分号和句号对含内嵌公式的段落集进行断句并提取含内嵌公式的句子集；对含有内嵌公式的句子进行分词、去停用词后提取名词短语，并记录名词短语与内嵌公式的距离；利用最近邻法，依次提取与内嵌公式匹配的文本特征信息；获得文档集中的文本特征信息集即概念空间V。

(3)概念空间W的获取

利用开源API-Jsoup解析器，根据独立公式的标识，提取文档中的独立公式，获得文档集中的所有独立公式即概念空间W。

步骤三：推理与检索

1)左、中侧网络中的P(d_cj|u)、P(d_sj|v)、P(q_c|u)、P(q_s|v)、P(v)和P(w)都可按照基本信念网络模型的计算方法计算。

2)P(d_fj|w)可定义为下式：

3)P(q_f|w)表示查询q_f与m_l的相似程度，可利用任何一种公式相似度计算方法计算。

本发明的一种组合公式信息扩展的信念网络检索模型，可以实现文本、公式双索引的并行或串行机制，同时可精准或模糊地检索到与查询相关的文档。

其中，并行机制是指：能同时利用文本和公式两种索引机制，检索相关文档

其中，串行机制是指：只能利用文本或公式中的一种索引机制，检索相关文档。

基于同一发明构思，本发明另一实施例提供一种组合公式信息扩展的信念网络检索模型构建装置，其包括：

基于同一发明构思，本发明另一实施例提供一种科技文献检索方法，其采用本发明方法构建的组合公式信息扩展的信念网络检索模型进行科技文献检索，包括以下步骤：

所述采用不同的操作符归并得到的三种证据，获得不同的检索结果，包括：

采用析取操作符or归并三种证据，进行模糊检索；

采用合取操作符and归并三种证据，进行精准检索。

基于同一发明构思，本发明另一实施例提供一种科技文献检索装置，其包含一计算机，所述计算机包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明的科技文献检索方法中各步骤的指令。

仿真实验数据：假设查询q为“词语权重w＝tf*idf的计算方法”。

实验结果：利用文本检索系统则查询q为“词语权重计算方法”，利用此查询会检索出很多有关词语权重计算方法的文档，此文档集中可能会包含公式w＝tf*idf，也可能会包含其它词语权重的公式；利用公式检索系统，则查询q为w＝tf*idf，利用此查询会检索出词语权重w＝tf*idf，可能也会检索出包含公式权重w＝tf*iff的相关文档。利用本发明中的精准检索可以查询到同时包含“词语权重计算方法”和“w＝tf*idf”的文档；利用本发明中的模糊检索则可以查询到包含“词语权重计算方法”或“w＝tf*idf”的文档。

其中“公式权重w＝tf*iff”是部分研究者借鉴词语权重w＝tf*idf的思想，提出的公式权重计算方法。

通过仿真实验数据证明本发明可以更准确地检索到相关文档。

应当理解的是上述实施方式描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种组合公式信息扩展的信念网络检索模型构建方法，其特征在于，包括以下步骤：

由所述基本信念网络、所述以公式变量为证据的证据网络和所述以公式为证据的证据网络构成扩展的信念网络检索模型；

通过分析文档组成，采用以下方式构建各网络的概念空间：

提取文档集中的文档的所有独立公式，构成所述以公式为证据的证据网络中公式子网的概念空间；

采用以下方式得到所述与内嵌公式匹配的文本特征信息：利用逗号、分号和句号对含内嵌公式的段落集进行断句并提取含内嵌公式的句子集；对含有内嵌公式的句子进行分词、去停用词后提取名词短语，并记录名词短语与内嵌公式的距离；利用最近邻法，依次提取与内嵌公式匹配的文本特征信息。

2.根据权利要求1所述的方法，其特征在于，所述基本信念网络中，查询子网由一个节点即初始查询中的文本查询q_c组成；术语子网包括t个术语k_i，1≤i≤t，其构成概念空间U；文档子网由n个文档节点构成，用d_cj表示文档；所述以公式变量为证据的证据网络中，查询子网、文档子网与所述基本信念网络中的对应子网相同，分别用q_s、d_sj表示，术语子网包括r个术语h_i，1≤i≤r，其构成概念空间V；所述以公式为证据的证据网络中，查询子网由初始查询中的公式查询q_f构成、文档子网与所述基本信念网络中的对应子网相同，用d_fj表示，公式子网包括z个公式m_i，1≤i≤z，其构成概念空间W。

3.根据权利要求1所述的方法，其特征在于，所述分析文档组成，从物理层面将一篇文档d_i划分为段落信息集PA_i和独立公式集INF_i，即：d_i＝PA_i∪INF_i；段落信息集PA_i划分为含内嵌公式的段落集FPA_i和非含内嵌公式的段落集IFPA_i，即PA_i＝FPA_i∪IFPA_i；含内嵌公式的段落fpa_ir划分为含内嵌公式的句子集fs_ir和非含内嵌公式的句子集ifs_ir，即fpa_ir＝fs_ir∪ifs_ir。

4.根据权利要求1所述的方法，其特征在于，采用以下方式得到所述文本集：利用开源解析器，根据段落的标识，提取文档集的段落集；利用逗号、分号和句号对含内嵌公式的段落集进行断句并提取不含内嵌公式的句子；利用文档中文本的构成原理得到每篇文档的文本集。

5.一种采用权利要求1～4中任一项所述方法的组合公式信息扩展的信念网络检索模型构建装置，其特征在于，包括：

6.一种科技文献检索方法，其特征在于，采用权利要求1～4中任一权利要求所述方法构建的组合公式信息扩展的信念网络检索模型进行科技文献检索，包括以下步骤：

7.根据权利要求6所述的方法，其特征在于，所述采用不同的操作符归并得到的三种证据，获得不同的检索结果，包括：

采用析取操作符or归并三种证据，进行模糊检索；

采用合取操作符and归并三种证据，进行精准检索。

8.一种科技文献检索装置，其特征在于，包含一计算机，所述计算机包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求6或7所述方法的指令。