CN107832319B

CN107832319B - 一种基于语义关联网络的启发式查询扩展方法

Info

Publication number: CN107832319B
Application number: CN201710468786.3A
Authority: CN
Inventors: 郭黎敏; 李童; 高需; 苏醒; 丁治明
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-06-20
Filing date: 2017-06-20
Publication date: 2021-09-17
Anticipated expiration: 2037-06-20
Also published as: CN107832319A

Abstract

本发明公开一种基于语义关联网络的启发式查询扩展方法，其步骤为：1)在语料库的基础上，结合本体中抽取的概念，建立关联图；2)在所述关联图和查询的基础上，通过启发式查询扩展，得到关联语义上的扩展式查询。本发明可以保证查询扩展的合理性和准确性。该发明的最终结果可以提供给相关领域的用户使用，例如应急救援、图书推荐等领域，可以真实地反映用户需求的结果。

Description

一种基于语义关联网络的启发式查询扩展方法

技术领域

本发明属于信息查询技术领域，具体涉及一种基于语义关联网络的启发式查询扩展方法。

背景技术

随着信息通讯技术及其相关应用的飞速发展，各种来源的数据，如互联网网页数据、社交网络数据、移动通讯数据、交通数据、物联网采样数据等急剧膨胀，极大地改变了人们的生产与生活模式。传统的查询技术已经无法满足用户的检索需求，如何有效地利用这些数据进行查询服务，是研究者们面临的重大挑战之一。数据的查询除了简单的关键词查询、时空查询、数值查询之外，还包括更加复杂的启发式关联查询。通过关联语义得到启发式的扩展查询，可以为最终决策提供有力支持。因此启发式关联查询具有重要的研究价值与广阔的应用前景，如在应急救援领域中，实时查询某一灾害，可以衍生查询出类似灾害、救援方式、灾害区域附近的救援力量、医院分布情况等，为救援起积极指导作用；在图书查询系统中，通过用户输入的关键词，推荐类似书籍或作者的其他系列书籍等，更全面地满足用户需求；在电商推荐系统中，分析用户的购买数据，发现用户购物行为的关联关系，向其推荐感兴趣的商品。可以说，启发式关联查询技术已经得到了人们日益广泛的重视。

传统的信息检索技术根据查询关键词进行匹配检索，为文本集中每个词建立精确的定位并提供检索。全文检索是典型的信息检索系统，它允许用户从全文的任意结构中查找。查询扩展是在原始查询词的基础上，通过一定的方法和策略将与原查询词相关的扩展词添加到查询中，形成能更准确表达查询意图的新查询。总体上来说，查询扩展技术可以分为三类：基于全局与局部分析的查询扩展、基于查询日志的查询扩展和基于语义概念的查询扩展。第一类主要依据文档中词语之间的共现信息来发现其相似性，从而实现查询扩展；第二类是通过分析用户的查询日志，建立查询空间与文档空间之间的联系进行扩展；第三类是从语义概念层面上对查询进行扩展^]。

然而，传统的检索技术只能根据关键词进行匹配，忽略了语义在查询中的作用，无法实现关联式的启发查询。查询扩展方法从统计或语义的角度出发进行研究，但是都没有考虑时间因素，且忽略了扩展词之间的关联路径。启发式查询的合理定义与描述、语义关联网络的构建方法、启发式查询扩展方法等，没有得到有效的研究与解决，对这些关键技术问题有待进一步的研究。

发明内容

针对上述尚没有解决的关键问题，本发明提出了一种基于语义关联网络的启发式查询扩展方法，目的是为查询词进行语义扩展提供一种可行的解决方案，从而搜索出相关联的数据对象。

为实现上述目的，本发明采用如下的技术方案：

一种基于语义关联网络的启发式查询扩展方法包括以下步骤：

步骤1、根据本体中抽取的概念，建立关联图，其中，所述关联图用RG＝(V,E)表示，V是节点的集合，

v是一个概念，用语义标签A表示；E是边的集合，

e＝(v_i,v_j,rw)表示v_i和v_j之间有关联，且其关联权重为rw；所述查询用Q＝(A₁,A₂,…,A_m)表示，A_i表示第i个查询条件对应的概念；

步骤2、根据查询Q和关联图RG，构造最小查询生成树MQST，同时根据所述最小查询生成树MQST对查询中的节点进一步进行有效路径扩展。

作为优选，步骤1构建关联图的方法包括如下：

步骤1-1、从本体中抽取领域内的概念集AS，将概念集中的概念作为关联图的节点，并初始化各概念对之间的关联权重为0；

步骤1-2、抽取窗口Wd内的关联矩阵集合RMS’，并累加计算节点间的关联度的时间权重的加权和；

步骤1-3、计算节点间的关联权重，若存在关联，则添加关联图的边。

作为优选，步骤1-2所述关联矩阵的计算方法包括如下：

步骤1-2-1、从本体中抽取领域内的概念集AS，然后扫描文本集ST，查看每个概念是否在ST中出现，初始化统计矩阵OM，其中，所述文本集用ST＝(st₁,st₂,…,st_n)表示，统计矩阵OM记录概念是否在文本中出现，其中，行表示文本，列表示概念，OM[i,j]表示第j个概念是否在第i个文本中出现；

步骤1-2-2、逐个计算共现率和关联度，如果满足强关联条件，即共现率大于等于最小共现率且关联度大于等于最小关联度，将其保存在关联矩阵RM中，其中，在所述文本集ST＝(st₁,st₂,…,st_n)中，概念的A₁和A₂的共现率为

其中

表示A₁和A₂在st_i中的共现情况；概念的A₁和A₂的关联度为

其中CP(A₁,A₂)是A₁和A₂在ST中的共现率，OP(A_i)是A_i在ST中出现的概率；统计矩阵RM记录概念之间的共现率和关联度，其中行、列表示概念，RM[i,j].cp表示第i个概念与第i个概念的共现率，RM[i,j].rp表示第i个概念与第i个概念的关联度。

作为优选，步骤1-2中所述统计窗口用Wd＝{t_k-n,t_k-n+1,…,t_k}表示；时间权重W_T(t_l,t_k)＝1/2^(tk-tl)，其中t_k为当前的时间段，t_l(l≤k)为任一时间段；步骤1-3中所述概念对(A_i,A_j)的关联权重为

其中Wd为统计窗口，W_T(t_l,t_k)为时间权重，RP_tl(A_i,A_j)是A_i、A_j在时间段t_l的关联度。

作为优选，，步骤2中所述最小查询生成树的构造方法包括如下：

步骤2-1、从查询Q中随机选择一个节点作为开始节点，并初始化最小查询生成树MQST的节点集合V’和边集合E’；

步骤2-2、对Q中的每一对概念(u,v)，判断其是否路径可达，若可达，则在邻接表adj中保存可达节点，并使用矩阵M的M[u,v].sp和M[u,v].w分别保存RG中u、v之间的最短路径和其关联值；否则则分别设置为空和无穷大；

步骤2-3、初始化权重数组weight和小顶堆Heap；

步骤2-4、开始迭代计算，弹出堆Heap中weight最小的节点u，更新Q中u的每个路径可达节点v的weigh，保证其是v到MQST的最小关联值；

步骤2-5、调整堆并将该路径中的节点和边添加至集合V’和E’中，直至Heap为空，即Q中的节点全部添加至MQST中，迭代结束。

作为优选，步骤2-1所述关联图RG在查询Q下的查询生成树T满足：(1)T包含Q中的每一个节点；(2)T不包含环；(3)T是RG的一个连通子图；最小查询生成树MQST满足：W(MQST)＝min{W(T)|T∈TS}，其中TS＝{T₁,T₂,…,T_n}是满足RG和Q的所有查询生成树的集合。

作为优选，步骤2-2所述判断路径是否可达的方法是采用Dijkstra算法预先计算RG中所有节点对之间的最短路径，并保存起来，执行步骤2-2时可直接查看是否可达。

作为优选，步骤2-3所述权重weight[v]表示v到MQST的所有路径中的最小关联值；小顶堆Heap依据weight值构建并调整堆。

作为优选，步骤2-4所述路径P的关联值

其中rw(e_i)是边e_i的关联权重。

作为优选，步骤2中有效路径扩展方法包括如下：

步骤2-2-1、对查询Q＝(v₁,v₂,…,v_m)中每个节点v_i进行有效路径扩展，其中，所述节点v的有效路径VP＝(v’₁,v’₂,…,v’_k)满足：(1)v等于有效路径VP的第一个节点v’₁；(2)W(VP)小于等于给定关联阈值δ；(3)有效路径VP的长度k小于等于给定关联层级阈值τ；

步骤2-2-2、合并MQST和每个v_i的有效路径VPS_vi的节点，得到查询Q的启发式关联扩展查询Q’，即

本发明所采用的技术方案是两阶段框架，首先在语料库文本集的基础上，结合特定领域的本体中的概念集，构建语义标签关联关系网络；然后基于语义关联网络，分析查询关键词，通过启发式查询得到关联语义上的扩展式查询。

综合以上分析，本发明可以保证查询扩展的合理性和高准确性。该发明的最终结果可以提供给相关领域的用户使用，例如应急救援、图书推荐等领域，可以真实地反映用户需求的结果。

附图说明

图1为语义关联图RG的示意图；

图2为矩阵OM实例的示意图；

图3为矩阵RM实例的示意图；

图4为最小查询生成树MQST的构造；

图5为最短路径生成图实例的示意图；

图6为查询扩展实例的示意图；

图7(a)是扩展词个数与和最小共现率min_cp的关系图，图7(b)是扩展词个数与和最小关联度min_rp的关系图；

图8(a)是P@20与文档集规模大小N_ST的关系图，图8(b)是P@10与文档集规模大小N_ST的关系图，图8(c)是P@20与关联值阈值δ的关系图，图8(d)是P@10与关联值阈值δ的关系图，图8(e)是P@20与关联层级阈值τ的关系图，图8(f)是P@10与关联层级阈值τ的关系图；

图9(a)是不同查询的P@20与HQoSR、DQ的关系图，图9(b)是不同查询的P@10与HQoSR、DQ的关系图；

图10为本发明基于语义关联网络的启发式查询扩展方法的流程图。

具体实施方式

下面结合附图，通过实例进一步说明本发明，但不以任何方式限制本发明的范围。

如图10所示，本发明实施例提供一种基于语义关联网络的启发式查询扩展方法，其原理是：

在语料库的基础上，结合本体中抽取的概念，建立关联图。然后在关联图RG和查询Q的基础上，通过启发式查询扩展，得到关联语义上的扩展式查询。本发明中关联图RG＝(V,E)，V是节点的集合，

v是一个概念，用语义标签A表示；E是边的集合，

e＝(v_i,v_j,rw)表示v_i和v_j之间有关联，且其关联权重为rw。图1给出了语义关联图RG的示意图。

所述语料库是指经科学取样和加工的大规模电子文本库；概念是指任何事务，它表示的是对象的集合，其定义包括概念的名称，与其他概念之间的关系的集合，以及用自然语言对概念的描述。本体是捕获相关的领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义。

启发式查询扩展的具体过程包括：

第一步：每一个统计时刻，对当前计算和存储的关联矩阵集合RMS’，通过计算节点间的时间加权的关联权重，构造当前统计窗口的关联图，具体方法如下：

1.从本体中抽取领域内的概念集AS，将概念集中的概念作为关联图的节点，并初始化各概念对之间的关联权重为0。

2.计算当前时刻的关联矩阵RM，具体方法如下：

⑴从本体中抽取领域内的概念集AS，然后扫描文本集ST，查看每个概念是否在ST中出现，初始化统计矩阵OM，统计矩阵OM记录概念是否在文本中出现，其中行表示文本，列表示概念，OM[i,j]表示第j个概念是否在第i个文本中出现。表1为语料库中的文本集合实例。图2是以表1为例的统计矩阵OM实例。

表1.文本集合实例

文本	文本
		编st<sub>1</sub>号	a,b,c,d,c,e,f,g
st<sub>2</sub>	b,d,e,f,a,c,g
		st<sub>3</sub>	a,b,c,b,u,t,h,l
st<sub>4</sub>	a,b,d,c,f,b,t,p,v,l

⑵逐个计算共现率和关联度，如果满足强关联条件，即共现率大于等于最小共现率且关联度大于等于最小关联度，将其保存在关联矩阵RM中。在文本集ST＝(st₁,st₂,…,st_n)中，概念的A₁和A₂的共现率为

其中

其中CP(A₁,A₂)是A₁和A₂在ST中的共现率，OP(A_i)是A_i在ST中出现的概率；统计矩阵RM记录概念之间的共现率和关联度，其中行、列表示概念，RM[i,j].cp表示第i个概念与第i个概念的共现率，RM[i,j].rp表示第i个概念与第i个概念的关联度。图3是以表1为例的统计矩阵RM实例。

3.抽取统计窗口Wd内的关联矩阵集合RMS’，计算节点间的关联权重，若存在关联，则构造关联图的边。在统计窗口Wd＝{t_k-n,t_k-n+1,…,t_k}内，概念对(A_i,A_j)的关联权重为

其中Wd为统计窗口，W_T(t_l,t_k)为时间权重，

是A_i、A_j在时间段t_l的关联度；时间权重W_T(t_l,t_k)＝1/2^(tk-tl)，其中t_k为当前的时间段，t_l(l≤k)为任一时间段。

第二步：根据第一步中得到的关联图RG，首先依据查询Q构造最小查询生成树MQST，关联图RG在查询Q下的查询生成树T满足：(1)T包含Q中的每一个节点；(2)T不包含环；(3)T是RG的一个连通子图；最小查询生成树MQST满足：W(MQST)＝min{W(T)|T∈TS}，其中TS＝{T₁,T₂,…,T_n}是满足RG和Q的所有查询生成树的集合。图5是最短路径生成图实例。然后再进一步对查询Q中的节点进行有效路径扩展。图6是查询扩展的实例。具体方法如下：

1.根据查询Q和关联图RG，构造最小查询生成树MQST，具体方法如下：

⑴从查询Q中随机选择一个节点作为开始节点，并初始化最小查询生成树MQST的节点集合V’和边集合E’。

⑵对Q中的每一对概念(u,v)，判断其是否路径可达，若可达，则在邻接表adj中保存可达节点，并使用矩阵M的M[u,v].sp和M[u,v].w分别保存RG中u、v之间的最短路径和其关联值；否则则分别设置为空和无穷大。

⑶初始化权重数组weight和小顶堆Heap，weight[v]表示v到MQST的所有路径中的最小关联值；小顶堆Heap依据weight值构建并调整堆。

⑷开始迭代计算，弹出堆Heap中weight最小的节点u，更新Q中u的每个路径可达节点v的关联值weigh，保证其是v到MQST的最小关联值。路径P的关联值

其中rw(e_i)是边e_i的关联权重。

⑸调整堆并将该路径中的节点和边添加至集合V’和E’中，直至Heap为空，即Q中的节点全部添加至MQST中，迭代结束。以图1为例，假设Q＝(G,H,N)，迭代的过程中，最小查询生成树MQST的构造过程如图4所示。

2.在最小查询生成树MQST的基础上，对查询中的节点进一步进行有效路径扩展，具体方法如下：

⑴对查询Q＝(v₁,v₂,…,v_m)中每个节点v_i进行有效路径扩展，节点v的有效路径VP＝(v’₁,v’₂,…,v’_k)满足：①v等于有效路径VP的第一个节点v’₁；②W(VP)小于等于给定关联阈值δ；③有效路径VP的长度k小于等于给定关联层级阈值τ。

⑵合并MQST和每个v_i的有效路径VPS_vi的节点，得到查询Q的启发式关联扩展查询Q’，即

为了验证本发明的有效性和准确性，本发明设计了一些查询，并对这些查询使用本发明提出的方法进行查询扩展。表2给出了实验的查询列表。

表2.查询列表

本发明提出了一种基于语义关联网络的启发式查询扩展方法。与现有的查询扩展方法没有考虑时间因素且忽略了扩展词之间的关联路径相比，本发明具有如下优势：

(1)本发明提出了动态关联图，真实反映了用户的查询需求。如图7(a)—7(b)所示，图7(a)，7(b)分别给出了扩展词个数与和最小共现率min_cp、最小关联度min_rp的关系图，说明了启发式查询扩展的合理性，其中纵坐标Number of Expansion Words表示扩展词个数，横坐标min_cp表示最小共现率，min_rp表示最小关联度。

(2)本发明提出了启发式查询扩展方法，提高了查询准确率。如图8(a)—8(f)所示，图8(a)，8(b)是P@20和P@10与文档集规模大小N_ST的关系图，其中纵坐标P@k表示前k个检索结果中与查询相关的文档数，横坐标Number of ST表示文本集个数。8(c)，8(d)是P@20和P@10与关联值阈值δ的关系图，其中纵坐标δ表示关联阈值，纵坐标P@k表示前k个检索结果中与查询相关的文档数。8(e)，8(f)是P@20和P@10与关联层级阈值τ的关系图，其中纵坐标τ表示关联层级阈值，纵坐标P@k表示前k个检索结果中与查询相关的文档数。

(3)本发明对比了查询扩展后的结果和直接查询的结果，证明了有效性。如图9(a)—9(b)所示，图9(a)，9(b)分别是不同查询的P@20和P@10与HQoSR、DQ的关系图，其中纵坐标P@k表示前k个检索结果中与查询相关的文档数，横坐标Q₁-Q₄表示不同查询。

综合以上分析，本发明可以保证扩展查询的合理性和准确性。该发明的最终结果可以提供给相关领域的用户使用，例如应急救援、图书推荐等领域，可以真实地反映用户需求的结果。

以上通过实施例对本发明进行了详细的描述，本领域的技术人员应当理解，在不超出本发明的精神和实质的范围内，对本发明做出一定的修改和变动，比如建立其他关联度统计方法，或者最小查询生成树构造方法，仍然可以实现本发明的目的。

Claims

1.一种基于语义关联网络的启发式查询扩展方法，其特征在于，包括以下步骤：

v是一个概念，用语义标签A表示；E是边的集合，

步骤2、根据查询Q和关联图RG，构造最小查询生成树MQST，同时根据所述最小查询生成树MQST对查询中的节点进一步进行有效路径扩展；

步骤1构建关联图的方法包括如下：

步骤1-2、抽取统计窗口Wd内的关联矩阵集合RMS’，并累加计算节点间的关联度的时间权重的加权和；

步骤1-3、计算节点间的关联权重，若存在关联，则添加关联图的边；

步骤1-2所述关联矩阵的计算方法包括如下：

其中

其中CP(A₁,A₂)是A₁和A₂在ST中的共现率，OP(A_i)是A_i在ST中出现的概率；统计矩阵RM记录概念之间的共现率和关联度，其中行、列表示概念，RM[i,j].cp表示第i个概念与第j个概念的共现率，RM[i,j].rp表示第i个概念与第j个概念的关联度；

步骤1-2中所述统计窗口用Wd＝{t_k-n,t_k-n+1,…,t_k}表示；时间权重W_T(t_l,t_k)＝1/2^(tk ^-tl)，其中t_k为当前的时间段，t_l(l≤k)为任一时间段；

步骤1-3中所述概念对(A_i,A_j)的关联权重为

其中Wd为统计窗口，W_T(t_l,t_k)为时间权重，

是A_i、A_j在时间段t_l的关联度。

2.如权利要求1所述的基于语义关联网络的启发式查询扩展方法，其特征在于，步骤2中所述最小查询生成树的构造方法包括如下：

步骤2-3、初始化权重数组weight和小顶堆Heap；

3.如权利要求2所述的基于语义关联网络的启发式查询扩展方法，其特征在于，步骤2-1所述关联图RG在查询Q下的查询生成树T满足：(1)T包含Q中的每一个节点；(2)T不包含环；(3)T是RG的一个连通子图；最小查询生成树MQST满足：W(MQST)＝min{W(T)|T∈TS}，其中TS＝{T₁,T₂,…,T_n}是满足RG和Q的所有查询生成树的集合。

4.如权利要求2所述的基于语义关联网络的启发式查询扩展方法，其特征在于，步骤2-2所述判断路径是否可达的方法是采用Dijkstra算法预先计算RG中所有节点对之间的最短路径，并保存起来，执行步骤2-2时可直接查看是否可达。

5.如权利要求2所述的基于语义关联网络的启发式查询扩展方法，其特征在于，步骤2-3所述权重weight[v]表示v到MQST的所有路径中的最小关联值；小顶堆Heap依据weight值构建并调整堆。

6.如权利要求2所述的基于语义关联网络的启发式查询扩展方法，其特征在于，步骤2-4所述路径P的关联值

其中rw(e_i)是边e_i的关联权重。

7.如权利要求2所述的基于语义关联网络的启发式查询扩展方法，其特征在于，步骤2中有效路径扩展方法包括如下：

步骤2-2-2、合并MQST和每个v_i的有效路径

的节点，得到查询Q的启发式关联扩展查询Q’，即