CN107066535A

CN107066535A - 一种基于时态和关键词查询的检索方法和系统

Info

Publication number: CN107066535A
Application number: CN201710125163.6A
Authority: CN
Inventors: 史红权; 陈行军; 赵晓哲; 张俊
Original assignee: Dalian Naval Vessels College Navy P L A
Current assignee: Dalian Naval Vessels College Navy P L A
Priority date: 2017-03-03
Filing date: 2017-03-03
Publication date: 2017-08-18

Abstract

本发明提供一种基于时态和关键词查询的检索方法和系统，通过对STAR算法的改进，把关系数据建模成时态数据图，考虑结点之间的内容语义相关性以及时态相关性来计算时态边的权重，实现了一种基于关键词的关系数据库时态信息检索方法，可以满足用户对数据库的时态检索信息需求。该方法可以有效提高关系数据库信息检索的效果。

Description

一种基于时态和关键词查询的检索方法和系统

技术领域

本发明面向信息检索领域，尤其涉及一种基于时态和关键词查询的检索方法和系统。

背景技术

随着大数据时代的到来，信息呈现爆炸式性增长，如何在海量信息中查找有用信息具有更大的挑战。按照时态属性来组织、存储、管理和检索大数据，已经成为一种有效的解决途径，因为时态是信息的重要属性维度，任何信息都含有具有相应的时态特性。中国专利申请 CN201610576897.1提供了一种时态图数据中动态属性数据的存储方法和装置，解决了不能实现对点/边中的动态属性数据单独存储的问题。目前，大多数的搜索引擎对于时态信息缺乏有效的处理技术，不能很好地理解用户的时态检索意图，检索效果不够理想。

时态信息检索(Temporal Information Retrieval，TIR)通过将时态信息融入信息检索技术中，可以有效地处理用户的时态查询。按照时间属性快速、高效地检索用户所需要的信息，并按时间属性分类和排序检索结果，可以在很大程度上提高检索的效率和效果，时态信息检索已经成为信息检索领域的热点研究方向。

关系数据库中存储的关系数据包含较多的时态属性和时态实体联系信息。近年来，在数据库领域，基于关键词的关系数据库检索方法研究已经取得大量的研究成果，提出了许多检索算法，实现了很多原型系统。例如中国专利申请CN201310710834.7提供了一种基于关键词进行检索的方法及装置，其基于基础关键词的预测权重，虽然从一定程度上提高了检索结果的准确率和召回率，但是仍然没有充分利用关系数据中丰富的时态信息，还不能有效处理时态查询。

发明内容

针对现有技术的上述问题，本发明提出一种时态图、一种基于相似度的权重计算方法和一种基于关键词的关系数据库时态信息检索方法T-STAR方法及相应的系统，T-STAR方法是从信息的时间维度出发，将时态信息加入到用户的检索过程中，通过对STAR算法的改进，把关系数据建模成时态数据图，考虑结点之间的内容语义相关性以及时态相关性来计算时态边的权重，实现了一种基于时态和关键词查询的检索方法，可以满足用户对数据库的时态检索信息需求。该方法可以有效提高关系数据库信息检索的效果。要识别关键词查询中的显示或者隐含时态信息，然后根据时态索引检索候选时态实体对象或者是时态联系，执行时态图搜索算法，生成时态图检索结果，根据相应的过滤和排序机制，将最终结果展现给用户。

本发明提供一种基于时态和关键词查询的检索方法，包括以下步骤：

(1).系统启动阶段，根据关系数据库生成时态数据图，根据时态数据图的结构计算时态边的权重,得到带权重的时态数据图；

(2).根据用户输入的时态关键词，通过全文索引和时态索引检索出符合用户的时态约束的候选时态元组集合；

(3).在时态数据图上定位候选元组，得到候选时态结点，然后在时态数据图上执行时态检索算法，生成时态检索结果；

(4).根据时态排序机制对检索结果排序，输出时态检索结果。

优选的是，时态检索算法具体包括：对每一时态关键词结点分配一个迭代器，寻找一个根结点，从这个根结点到每个关键词节点的时态路径形成一棵时态Steiner树。

优选的是，采用轮转调度方式，对迭代器中当前关键词结点进行宽度优先搜索，在搜索的过程中，根据时间的限制进行时态边的过滤，同时，每一条边的权重都需要通过用户输入的关键词和时间信息进行相似性计算来更新边的权重值。

优选的是，对时态Steiner树进行迭代的优化，用时态最短路径来替换固定结点之间的松散路径，在时态最短路径的查找过程中找到满足时间限制的边，同时对此边进行动态的权重计算。

优选的是，时态数据图Gt＝(Vt,Et)，实体建模为时态结点vt∈Vt,表示为vt＝(v,[tsvt, tevt])，v是时态结点的标识，半开时间区间[tsvt,tevt]表示实体的有效时间(ValidTime)，tsvt 表示实体诞生的时间，称为有效起始时间，tevt表示实体消亡的时间，称为有效结束时间；实体联系建模为时态边et∈Et，表示为et＝(ut,vt,[ts’,te’])，这里ut∈Vt,vt∈Vt，[ts’,te’]表示实体联系的有效时间，ts’表示实体联系的建立时间，称为有效起始时间，te’表示实体联系的失效时间，称为有效结束时间，时态结点和时态边要满足如下时态约束：ts’>＝max{ts_ut,ts_vt}, te’<min{te_ut,te_vt}。

优选的是，时态数据图中的结点和边的有效时间可以是多个离散的时间点，或者是多个不连续的时间区间。

优选的是，对于时态数据图的时态结点v_t＝(v,[ts_vt,te_vt])和u_t＝(u,[ts_ut,te_ut])的有效时间，时态边e＝(u,v)的最大有效时间可以为[ts’,te’]]，其中ts’＝max{tsut,tsvt},te’＝min{teut,tevt}。

优选的是，对于时态数据图，时态结点的有效时间可以为(-∞，+∞)。

优选的是，对于时态数据图，时态结点和时态边的有效时间可以均为(-∞，+∞)。

优选的是，给定一个时态数据图Gt(Vt,Et),ut∈Vt,vt∈Vt,是Gt上两个时态结点，u_t到v_t在时间约束Ic＝[ts_c,te_c)下的时态路径表示为：

P(u_t,v_t,[ts_c,te_c))＝(u_t,x_i,[ts_ux,te_ux))P(x_i,y_i,[ts_c,te_c))(y_i,v_t,[ts_yv,te_yv))

其中x_i∈V_t,y_i∈V_t,e_ux＝(u_t,x_i,[ts_ux,te_ux))∈E_t和e_yv＝(y_i,v_t,[ts_yv,te_yv))∈E_t,且 P(x_i,y_i,[ts_c,te_c])是x_i到y_i在时间约束I_c下的时态路径。

优选的是，给定一个时态数据图G_t(V_t,E_t)，p(u_t,v_t,[ts_c,te_c])是u_t到v_t在时间约束I_c＝[ts_c,te_c] 下的时态路径，在时态路径P上的最短路径p∈{p(u_t,v_t,[ts_c,te_c])}，并且这里W(p)为时态路径所有时态边的权重之和，W(exy)表示x，y时态结点之间边的权重。

优选的是，时态数据图的权重计算如下：其中每一条时态边e_t＝(u,v,[ts’,te’])权值计算如下：

w(Q，e_t)＝αw_s(Q,e_t)+(1-α)w_t(Q,e_t)，这里参数α作为调节因子代表内容相似度权重相对于时态相似度权重的重要性，w_s(Q,e_t)表示时态边与用户查询Q相关的文本内容相关性权值，w_t(Q,e_t)表示时态边e_t与用户查询Q相关的时态语义相关性权值。

优选的是，时态边的有效时间表示为I_e＝[ts_e,te_e)，用户查询的时间为I_c＝[ts_c,te_c],时态语义相似性的计算公式如下：

优选的是，文本内容相关性权值

其中IR_(k,u)，IR_(k,v)表示关键词在元组u，v中的IR分数，这里α_u＝ln(1+N_in(u))作为结点u 的入度对边权值影响因子，N_in(u)为结点u入度。

本发明还提供一种基于时态和关键词查询的检索系统，包括以下模块：

第一模块，用于在系统启动阶段，根据关系数据库生成时态数据图，根据时态数据图的结构计算时态边的权重,得到带权重的时态数据图；

第二模块，用于在根据用户输入的时态关键词查询，通过全文索引和时态索引检索出符合用户的时态约束的候选时态元组集合；

第三模块，用于在时态数据图上定位候选元组，得到候选时态结点，然后在时态数据图上执行时态检索算法，生成时态检索结果；

第四模块，用于在根据时态排序机制对检索结果排序，输出时态检索结果。

优选的是，时态检索算法具体包括：对用户输入的每一时态关键词结点分配一个迭代器，寻找一个根结点，从这个根结点到每个关键词节点的时态路径形成一棵时态Steiner树。

优选的是，时态数据图G_t＝(V_t,E_t)，实体建模为时态结点v_t∈V_t,表示为v_t＝(v,[ts_vt,te_vt])， v是时态结点的标识，半开时间区间[ts_vt,te_vt]表示实体的有效时间(ValidTime)，ts_vt表示实体诞生的时间，称为有效起始时间，te_vt表示实体消亡的时间，称为有效结束时间；实体联系建模为时态边e_t∈E_t，表示为e_t＝(u_t,v_t,[ts’,te’])，这里u_t∈V_t,v_t∈V_t，[ts’,te’]表示实体联系的有效时间，ts’表示实体联系的建立时间，称为有效起始时间，te’表示实体联系的失效时间，称为有效结束时间，时态结点和时态边要满足如下时态约束：ts’>＝max{ts_ut,ts_vt}, te’<min{te_ut,te_vt}。

优选的是，对于时态数据图的时态结点v_t＝(v,[ts_vt,te_vt])和u_t＝(u,[ts_ut,te_ut])的有效时间，时态边e＝(u,v)的最大有效时间可以为[ts’,te’]]，其中ts’＝max{ts_ut,ts_vt},te’＝min{te_ut,te_vt}。

22.如权利要求21所述的系统，其特征在于：对于时态数据图，时态结点的有效时间可以为 (-∞，+∞)。

优选的是，给定一个时态数据图G_t(V_t,E_t),ut∈V_t,v_t∈V_t,是Gt上两个时态结点，u_t到v_t在时间约束Ic＝[ts_c,te_c]下的时态路径表示为：

P(u_t,v_t,[ts_c,te_c])＝(u_t,x_i,[ts_ux,te_ux])P(x_i,y_i,[ts_c,te_c])(y_i,v_t,[ts_yv,te_yv])

优选的是，时态数据图的权重计算如下：

其中每一条时态边e_t＝(u,v,[ts’,te’])权值计算如下：

优选的是，文本内容相关性权值

说明书附图

图1是现有技术的需求管理数据库模式示意图

图2是现有技术的需求管理非时态和时态数据图示意图

图3是本发明优选实施例的流程图

图4是本发明优选实施例的Employee时态数据库模式图

图5是本发明优选实施例的P@K曲线图

图6是本发明优选实施例的MAP曲线图

图7是本发明优选实施例的不同关键词数量对检索效率的影响

图8是本发明优选实施例的Top-k检索响应时间

图9是本发明的基于关键词的关系数据库时态信息检索系统框图

具体实施方式

下面通过实施例，对本发明的技术方案做进一步具体的说明。

时间是信息的本质属性之一，随着时间变化的信息称之为时态信息，时态信息通过时间元素来进行表达，时间元素包括基于时间点，区间，时态集合等。时间点表示为时间轴上的实数点，也可以看作始点和终点重合的时态区间。例如，DBLP数据中的论文的发表时间的年份，软件的版本发布日期等。时间区间是指两个时刻之间的时间段，它是有明确的开始与结束时刻的。例如，软件版本的试用期限，Employees中工作人员的工作年限等。本发明采用时态区间的形式进行时态的表示。时态集合是时间点和时态区间的一种混合表现形式。

传统的数据图(Data Graph)将每个实体建模成一个结点、实体之间的联系建模成边，并没有考虑实体(Entity)以及实体联系(Entity Relationship)的时态特性,不能有效支持时态查询的处理。

例如：图1表示为需求管理数据库部分模式关系。

在图2的数据图中，可以看出需求有不同的版本，而每个版本存在于某一时间区间，此图并未给出此信息。当用户想知道需求版本在某一时间内的信息时，搜索该数据图得到结果将会非常差强人意。其中DMR:Data Management Requirement数据管理需求的缩写。State 1:状态1；reqmaterials 1:需求素材1；Ver 1.0，Ver2.0等等：是版本1.0，版本2.0的缩写。

实体联系的有为了更好地表达数据的时态特性，本发明提出了三种时态图的定义：时态数据图(Temporal Data Graph)、时态实体数据图(Temporal Entity DataGraph)、时态联系数据图 (Temporal Relationship Data Graph)。

定义1：时态数据图(Temporal Data Graph)

时态数据图Gt＝(Vt,Et)，实体建模为时态结点vt∈Vt,表示为vt＝(v,[tsvt,tevt]]，v是时态结点的标识，半开时间区间[tsvt,tevt]表示实体的生命周期(或称为有效时间(Valid Time))， tsvt表示实体诞生的时间，称为有效起始时间，tevt表示实体消亡的时间，称为有效结束时间；实体联系建模为时态边et∈Et，表示为et＝(ut,vt,[ts’,te’]]，这里ut∈Vt,vt∈Vt，[ts’,te’)表示效时间，ts’表示实体联系的建立时间，称为有效起始时间，te’表示实体联系的失效时间，称为有效结束时间。时态结点和时态边要满足如下时态约束：ts’>＝max{tsut,tsvt}, te’<min{teut,tevt}。

实际上，时态数据图中的结点和边的有效时间也可能是多个离散的时间点，或者是多个不连续的时间区间。为了简单起见，本发明只考虑时态结点和时态边的有效时间为连续时间区间的情况。

定义2：时态实体数据图(Temporal Entity Data Graph)

时态实体数据图Gte＝(Vt,E)，实体建模为时态结点vt∈Vt,表示为vt＝(v,[tsvt,tevt))，v 是时态结点的标识，半开时间区间[tsvt,tevt)表示实体的生命周期(或称为有效时间Valid Time)，tsvt表示实体诞生的时间，称为有效起始时间，tevt表示实体消亡的时间，称为有效

定义3:时态联系数据图(Temporal Relationship Data Graph)

时态联系数据图Gtr＝(V,Et)，实体建模为结点v∈V,实体联系建模为时态边et∈Et，表示为et＝(u,v,[ts’,te’))，这里u∈V,v∈V，[ts’,te’)表示实体联系的有效时间，ts’表示实体联系的建立时间，称为有效起始时间，te’表示实体联系的失效时间，称为有效结束时间。

不同的时态应用，需要建模成不同的时态图。例如社交网络的时态分析，通常只需要考虑人们之间社交联系(实体联系)的时态性，而不需要考虑人(实体)的时态性，只需要建模成时态联系数据图；而对于历史人物的时态分析，则既要考虑历史人物(实体)的时态性，又要考虑历史人物之间联系(实体联系)的时态性，则需要建模成时态数据图。

从上述定义可以看出，时态实体数据图只考虑结点的时态性，而不考虑边的时态性；时态联系数据图只考虑边的时态性，而不考虑结点的时态性，时态数据图既考虑结点的时态性又考虑边的时态性，因此时态实体数据图和时态联系数据图也称为单时态数据图(Uni-temporal Data Graph)，而时态数据图也称为双时态数据图(Bitemporal DataGraph)。实际上，对于时态实体数据图，可以根据时态结点vt＝(v,[tsvt,tevt))和ut＝(u,[tsut,teut))的有效时间，推断出边e＝(u,v)的最大有效时间为[ts’,te’))，其中ts’＝max{tsut,tsvt},te’＝min{teut,tevt}；对于时态联系数据图，可以视结点的有效时间为(-∞，+∞)，即永远有效；对于非时态数据图，可以视结点和边的有效时间均为(-∞，+∞)，因此，时态实体数据图、时态联系数据图和非时态数据图，都可以看做是时态数据图的特例。

对于某个时态应用，如果考虑实体的时态性，通常也需要考虑实体联系的时态性，因此时态实体数据图较少使用。对于时态数据图，根据结点和边的时态约束可以，如果时态边满足时态查询要求，则时态边关联的两个时态结点也一定满足时态查询要求。因此，为了简单起见，本发明只考虑时态联系数据图，也简称为时态数据图。

T-STAR算法是在STAR算法的基础上通过增加时态约束改进而成的。

定义4：时态关键词查询(Temporal Keyword Query)

给定时态关键词查询Qt＝(kw1,kw2,…,kwn,[tsq,teq))表示查询在[tsq,teq)时间约束下包含查询关键词kwi(i＝1,2…n)的相关信息。

定义5：时态路径(Temporal Path)

给定一个时态数据图Gt(Vt,Et),ut∈Vt,vt∈Vt,是Gt上两个时态结点，ut到vt在时间约束Ic＝[tsc,tec)下的时态路径表示为：

P(ut,vt,[tsc,tec])＝(ut,xi,[tsux,teux])P(xi,yi,[tsc,tec])(yi,vt,[tsyv,teyv])

其中xi∈Vt,yi∈Vt,eux＝(ut,xi,[tsux,teux))∈Et和eyv＝(yi,vt,[tsyv,teyv))∈Et,且 P(xi,yi,[tsc,tec])是xi到yi在时间约束Ic下的时态路径。

简单地说，时态路径上每条时态边的有效时间与时间约束相交不为空。本发明定义的时态路径，并不要求路径上的时态边满足时序关系。

定义6：时态最短路径(Temporal Shortest Path)

给定一个时态数据图Gt(Vt,Et)，p(ut,vt,[tsc,tec))是ut到vt在时间约束Ic＝[tsc,tec)下的时态路径，在时态路径P上的最短路径p∈{p(ut,vt,[tsc,tec))}，并且这里W(p)为时态路径所有时态边的权重之和，W(exy)表示x，y时态结点之间边的权重. 时态权重计算见公式3。

定义5：时态斯坦纳树(Temporal Steiner Tree)

给定一个时态图Gt(Vt,Et)，对于给定的时态结点集在时间约束Ic＝[tsc,tec)下的时态斯坦纳

树T是Gt的连通子树且满足一下条件：对于vt∈Vt’，

有vt∈T，并且T中的所有路径P都是在时间约束Ic下的时态路径。假设W(T)表示T的时态边权重之和，在Gt中关于Vt’的所有时态Steiner树中，W(T)最小的树，称为最小时态 Steiner树。

本发明将时态查询结果定义为时态斯坦纳树,是因为可以体现出关键词字结点是通过哪些结点紧密相连的,而且结点之间的关系是符合我们所定义的时态约束。

定义7：固定结点(Fixed Node)[3]

在Steiner树中,是终端结点(Terminal Node,即叶子结点)或者度大于等于3的结点。

定义8:宽松路径(Loop Path)[3]

在Steiner树中,两个末端都是固定结点的路径。

时态Steine树T的权重计算如下:

时态边权重的计算包含2部分的内容文本内容相关性权值和时态语义相关性权值。每一条时态边et＝(u,v,[ts’,te’))权值计算公式如下：

w(Q，e_t)＝αw_s(Q,e_t)+(1-α)w_t(Q,e_t) (公式2)

这里参数α作为调节因子代表内容相似度权重相对于时态相似度权重的重要性。ws(Q,et) 表示时态边与用户查询Q相关的文本内容相关性权值，wt(Q,et)表示时态边et与用户查询Q 相关的时态语义相关性权值。

本发明采用的时间区间来进行时态信息的表示，时态边的有效时间表示为Ie＝[tse,tee)，用户查询的时间为Ic＝[tsc,tec),时态语义相似性的计算公式如下：

结点相似度的计算问题实质上就是结点中文本内容与关键词相似度的计算问题。为了与时态相关性计算保持一致，时态边与时态查询的内容相关性，把时态边相关的两个结点与查询的内容相关性，转换成了边的内容相关性计算。本发明结点与查询的内容相关性权值直接利用数据库中的全文检索得到。由于边的权值往往是根据图的结构来确定，图中单个结点与邻接结点的关系反映了该结点对周围结点的影响和它所包含内容的重要程度.通常入度越大表示该结点邻接的边越重要。将图结构确定的结点的重要性引入到文本内容相关的边权重计算公式中。计算公式如下：

其中IR(k,u)，IR(k,v)表示关键词在元组u，v中的IR分数，这里αu＝ln(1+Nin(u))作为结点u的入度对边权值影响因子。Nin(u)为结点u入度。通过此公式我们可以看到， αuIR(k，u)+αvIR(k，v)越大，边的权重越小，此边的优先度就会变高。当时 αuIR(k，u)+αvIR(k，v)＝0，边的权重值就变为1。

图3是本发明优选实施例的流程图

本发明的基于关键词的时态检索算法，使得用户通过简单的关键词检索，就可以灵活检索基于时态的管理数据。检索过程中，首先要识别关键词查询中的显示或者隐含时态信息，然后根据时态索引检索候选时态实体对象或者是时态联系，执行时态图搜索算法，生成时态图检索结果，根据相应的过滤和排序机制，将最终结果展现给用户。

基于时态和关键词查询的检索方法主要思想是：充分利用关系数据的时态信息，把关系数据转换生成时态数据图，设计时态相关性评分机制，在时态图搜索过程中引入时态语义约束，设计一种基于关键词的时态图检索算法。图3展示了该方法的总体框架。

由图3可知，基于关键词的关系数据库时态信息检索方法主要分为四个步骤：

(1).系统启动阶段，根据关系数据库生成时态数据图。根据时态数据图的结构计算时态边的权重,得到带权重的时态数据图；

(2).根据用户输入的时态查询，通过全文索引和时态索引检索出符合用户的时态约束的候选时态元组集合；

(4).根据时态排序机制对检索结果排序，输出时态检索结果。

下面将详细介绍时态数据图模型和T-STAR时态数据图检索算法。

T-STAR算法是对STAR算法的扩展，分为2个步骤.

首先，对每一关键词结点分配一个迭代器，寻找一个根结点，从这个根结点到每个关键词节点的时态路径形成一棵时态生成树。在此过程中中，采用轮转(Round Robin)调度方式，对迭代器中当前关键词结点进行宽度优先搜索，在搜索的过程中，根据时间的限制进行时态边的过滤。同时，每一条边的权重都需要通过用户输入的关键词和时间信息进行相似性计算来更新边的权重值。

然后，需要对时态生成树进行迭代的优化，用时态最短路径来替换固定结点之间的松散路径。在时态最短路径的查找过程中不仅要找到满足时间限制的边，同时依旧需要对此边进行动态的权重计算。如果时态Steiner树不再被优先，然后通过Top-k排序得到最终的结果。

算法4.1：T-STAR算法

算法4.1中，第三行中Gt.search()函数作用是通过全文索引和时态索引得到候选时态结点，TBES()是算法的第一阶段，通过反向扩展的方式生成第一颗包含时态结点的时态斯坦纳树，在搜索过程中需要通过公式2对时态斯坦纳树的每一条时态边进行权重更新。算法的第 14-17行是算法的第二阶段，对第一阶段生成的时态斯坦纳树迭代优化，首先得到该时态斯坦纳树中的宽松路径，getNodeSetPartitioning(lp)根据宽松路径lp将该树分为了两个时态子树，然后通过findTempShortestPath(T1,T2,lp)(参见算法2)对时态数据图遍历，找寻两个子树之间的最短时态路径。查询最短时态路的同时，需要对每条遍历的时态边根据用户查询进行权重的更新，将得到的最短时态路径与宽松路径进行了替换，得到权重更小的时态SteinerTree。依次对时态SteinerTree进行迭代优化，最终得到最优时态SteinerTree。通过top-k排序返回k 个时态结果。

算法4.2：findTempShortestPath算法

算法4.2是查找两颗子树T1,T2的最短时态路径，该路径满足时间约束，是Dijkstra算法的时态扩展。首先将每棵子树包含的结点加入到优先队列中，然后对Q1和Q2队列中的某一结点进行最短时态路径查找。在进行时态数据图遍历的过程中，需要对时态边进行过滤，排除不满足时间约束的时态边，并且对符合时间约束的时态边通过本发明权值计算公式进行权值更新，直到找到符合要求的时态最短路径，算法停止。

为了验证方法的可行性和有效性，本发明使用了如图4的Employee时态数据集，在时态数据图构建过程中，把Employee数据库中employees表，departments表和titles表中的每一个元组建模成结点，根据dept_emp表和titles表中的元组建模成时态边，而此边的时态性通过fromdate和todate属性来进行表示。本发明从Employee中抽取了部分数据，时态数据图中包含66332个结点，154571条时态边。雇员Employees(雇员号eno,生日birthdate,雇员名 firstname,雇员姓lastname,雇用日期hiredate)；职务Titles(雇员号eno,职务title,有效开始日期 fromdate,有效结束日期todate)；部门Departments(部门号dno,部门名称dname)；部门雇员联系 Dept_Emp(雇员号eno,部门号dno,有效开始日期fromdate,有效结束日期todate)。

本发明分别使用P@K(k＝5,10,15,20)和MAP(平均准确率)评价指标来进行对该方法的实验效果进行验证。因为P@K评价指标能够有效地反映系统在真实应用环境下所表现的性能，同时MAP可以解决查准率、查全率和F值度量的单点局限性，能够反映全局性能。为了让用户更清晰的判断与查询的相关性,实验中采用随机选取的6组时态查询。例如employee数据查询Q＝{Genta Kolvik,Engineer,[19960102,20001101]}。

P@K评价指标的实验结果如图5所示，主要对STAR和T-STAR算法进行比较，p@k (k＝5,10,15,20)是在k个结果下的查准率。从图中可以看出T-STAR的检索效果好于STAR。进一步统计分析T-STAR的P@K平均值为0.8115，STAR的P@K平均值为0.6778。总体上检索效果提升率了13.37％。这主要是因为STAR算法主要侧重于对图检索算法效率的提升, 对于边的权重值也采用的是随机赋值的方法,没有考虑边的时态信息，导致检索效果不够理想。T-STAR算法不仅考虑到了结点之间语义关系的强弱，更考虑到了时态语义的关系，使得检索的效果更好。针对P@K的检索情况，计算出P@5、P@10、P@15、P@20的6组时态查询的MAP值，如图6所示，T-STAR的MAP值高于STAR。MAP曲线图反应的现象和图5 的P@K曲线图相一致。

(3)检索效率分析

Steiner树查找问题是一个NP-hard问题，即使采用启发式算法，通常也具有很高的代价。本文的研究重点不是提高查询算法的效率，但是通过实验我们可以看出T-STAR算法对STAR 算法的改进，在一定程度上了也提高了检索的效率。我们6组时态查询的扩展进行测试，每一组的查询包含不同的关键词数量，通过计算每组不同关键词的查询响应时间的平均值作为评测指标。图7显示了STAR和T-STAR不同关键词的响应时间比较。在不同关键词数量下 T-STAR算法的查询效率略高于STAR，由数据计算得出T-STAR算法查询效率仅仅提高了 73.25ms。Number:指关键词个数。图8是关键词数量为3时,top-k查询的效率对比情况。Top k:指查询前K个最相关结果。T-STAR算法的检索性能好于STAR。这主要得由于加入了时间的限制，对于不满足用户要求的时态边进行了过滤，使得遍历的时态边的数目减少。从而该算法效率上得到提高。但是由于T-STAR算法中需要动态的对时态边进行权重的计算，会消耗部分时间，所以T-STAR在总体检索效率上提升程度不是很大。

T-STAR方法把关系数据库中的时态信息引入到数据图中,构建了时态数据图，在此基础上实现关键词时态检索的方法。该方法将关键词的结点相似性以及结点联系时态相似性的计算问题转化为子树中时态边权重的求和问题，使得检索结果更加符合用户的预期，保证了检索结果的有效性，T-STAR方法在检索效果上比STAR算法有较大的提高。

图9是本发明的基于关键词的关系数据库时态信息检索系统框图，该系统包括以下模块：

以上实施例仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于时态和关键词查询的检索方法，其特征在于，包括以下步骤：

(2).根据用户输入的时态关键词查询，通过全文索引和时态索引检索出符合用户的时态约束的候选时态元组集合；

(4).根据时态排序机制对检索结果排序，输出时态检索结果。

2.如权利要求1所述的方法，其特征在于，时态检索算法具体包括：对用户输入的每一时态关键词结点分配一个迭代器，寻找一个根结点，从这个根结点到每个关键词节点的时态路径形成一棵时态Steiner树。

3.如权利要求2所述的方法，其特征在于：采用轮转调度方式，对迭代器中当前关键词结点进行宽度优先搜索，在搜索的过程中，根据时间的限制进行时态边的过滤，同时，每一条边的权重都需要通过用户输入的关键词和时间信息进行相似性计算来更新边的权重值。

4.如权利要求2或3所述的方法，其特征在于：对时态Steiner树进行迭代的优化，用时态最短路径来替换固定结点之间的松散路径，在时态最短路径的查找过程中找到满足时间限制的边，同时对此边进行动态的权重计算。

5.如权利要求1-3之一所述的方法，其特征在于：时态数据图G_t＝(V_t,E_t)，实体建模为时态结点v_t∈V_t,表示为v_t＝(v,[ts_vt,te_vt])，v是时态结点的标识，半开时间区间[ts_vt,te_vt]表示实体的有效时间(Valid Time)，ts_vt表示实体诞生的时间，称为有效起始时间，te_vt表示实体消亡的时间，称为有效结束时间；实体联系建模为时态边e_t∈E_t，表示为e_t＝(u_t,v_t,[ts’,te’])，这里u_t∈V_t,v_t∈V_t，[ts’,te’]表示实体联系的有效时间，ts’表示实体联系的建立时间，称为有效起始时间，te’表示实体联系的失效时间，称为有效结束时间，时态结点和时态边要满足如下时态约束：ts’>＝max{ts_ut,ts_vt},te’<min{te_ut,te_vt}；时态数据图中的结点和边的有效时间可以是多个离散的时间点，或者是多个不连续的时间区间。

6.如权利要求5所述的方法，其特征在于：对于时态数据图的时态结点v_t＝(v,[ts_vt,te_vt])和u_t＝(u,[ts_ut,te_ut])的有效时间，时态边e＝(u,v)的最大有效时间可以为[ts’,te’]]，其中ts’＝max{ts_ut,ts_vt},te’＝min{te_ut,te_vt}。

7.如权利要求1-6之一所述的方法，其特征在于：给定一个时态数据图G_t(V_t,E_t),ut∈V_t,v_t∈V_t,是Gt上两个时态结点，u_t到v_t在时间约束Ic＝[ts_c,te_c)下的时态路径表示为：

其中x_i∈V_t,y_i∈V_t,eux＝(u_t,x_i,[ts_ux,te_ux))∈E_t和e_yv＝(y_i,vt,[ts_yv,te_yv))∈E_t,且 P(x_i,y_i,[ts_c,te_c])是x_i到y_i在时间约束I_c下的时态路径。

8.如权利要求1-6之一所述的方法，其特征在于：给定一个时态数据图G_t(V_t,E_t)，p(u_t,v_t,[ts_c,te_c])是u_t到v_t在时间约束I_c＝[ts_c,te_c]下的时态路径，在时态路径P上的最短路径p∈{p(u_t,v_t,[ts_c,te_c])}，并且这里W(p)为时态路径所有时态边的权重之和，W(exy)表示x，y时态结点之间边的权重。

9.如权利要求1-8之一所述的方法，其特征在于，时态数据图的权重计算如下：

其中每一条时态边e_t＝(u,v,[ts’,te’])权值计算如下：

10.如权利要求1-8之一所述的方法，其特征在于：时态边的有效时间表示为I_e＝[ts_e,te_e)，用户查询的时间为I_c＝[ts_c,te_c],时态语义相似性的计算公式如下：

<mrow> <msub> <mi>w</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>Q</mi> <mo>,</mo> <msub> <mi>e</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>I</mi> <mi>c</mi> <mo>&cap;</mo> <msub> <mi>I</mi> <mi>e</mi> </msub> <mo>=</mo> <msub> <mi>I</mi> <mi>e</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mi>I</mi> <mi>c</mi> <mo>&cap;</mo> <msub> <mi>I</mi> <mi>e</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>I</mi> <mi>c</mi> <mo>|</mo> </mrow> </mfrac> </mrow> </mtd> <mtd> <mrow> <mi>I</mi> <mi>c</mi> <mo>&cap;</mo> <msub> <mi>I</mi> <mi>e</mi> </msub> <mo>&NotEqual;</mo> <mi>&Phi;</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>I</mi> <mi>c</mi> <mo>&cap;</mo> <msub> <mi>I</mi> <mi>e</mi> </msub> <mo>=</mo> <mi>&Phi;</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> </mrow>

11.如权利要求7所述的方法，其特征在于：文本内容相关性权值

<mrow> <msub> <mi>w</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>Q</mi> <mo>,</mo> <msub> <mi>e</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msub> <mi>&alpha;</mi> <mi>u</mi> </msub> <msub> <mi>IR</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> </msub> <mo>+</mo> <msub> <mi>&alpha;</mi> <mi>v</mi> </msub> <msub> <mi>IR</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中IR_(k,u)，IR_(k,v)表示关键词在元组u，v中的IR分数，这里α_u＝ln(1+N_in(u))作为结点u的入度对边权值影响因子，N_in(u)为结点u入度。

12.一种基于时态和关键词查询的检索系统，其特征在于，包括以下模块：

13.如权利要求12所述的系统，其特征在于，时态检索算法具体包括：对用户输入的每一时态关键词结点分配一个迭代器，寻找一个根结点，从这个根结点到每个关键词节点的时态路径形成一棵时态Steiner树。

14.如权利要求13所述的系统，其特征在于：采用轮转调度方式，对迭代器中当前关键词结点进行宽度优先搜索，在搜索的过程中，根据时间的限制进行时态边的过滤，同时，每一条边的权重都需要通过用户输入的关键词和时间信息进行相似性计算来更新边的权重值。

15.如权利要求13或14所述的系统，其特征在于：对时态Steiner树进行迭代的优化，用时态最短路径来替换固定结点之间的松散路径，在时态最短路径的查找过程中找到满足时间限制的边，同时对此边进行动态的权重计算。

16.如权利要求12-14之一所述的系统，其特征在于：时态数据图G_t＝(V_t,E_t)，实体建模为时态结点v_t∈V_t,表示为v_t＝(v,[ts_vt,te_vt])，v是时态结点的标识，半开时间区间[ts_vt,te_vt]表示实体的有效时间(Valid Time)，ts_vt表示实体诞生的时间，称为有效起始时间，te_vt表示实体消亡的时间，称为有效结束时间；实体联系建模为时态边e_t∈E_t，表示为e_t＝(u_t,v_t,[ts’,te’])，这里u_t∈V_t,v_t∈V_t，[ts’,te’]表示实体联系的有效时间，ts’表示实体联系的建立时间，称为有效起始时间，te’表示实体联系的失效时间，称为有效结束时间，时态结点和时态边要满足如下时态约束：ts’>＝max{ts_ut,ts_vt},te’<min{te_ut,te_vt}；

时态数据图中的结点和边的有效时间可以是多个离散的时间点，或者是多个不连续的时间区间。

17.如权利要求16所述的算法，其特征在于：对于时态数据图的时态结点v_t＝(v,[ts_vt,te_vt])和u_t＝(u,[ts_ut,te_ut])的有效时间，时态边e＝(u,v)的最大有效时间可以为[ts’,te’]]，其中ts’＝max{ts_ut,ts_vt},te’＝min{te_ut,te_vt}。

18.如权利要求12-17之一所述的系统，其特征在于：给定一个时态数据图G_t(V_t,E_t),ut∈V_t,v_t∈V_t,是Gt上两个时态结点，u_t到v_t在时间约束Ic＝[ts_c,te_c)下的时态路径表示为：

其中x_i∈V_t,y_i∈V_t,e_ux＝(u_t,x_i,[ts_ux,te_ux))∈E_t和e_yv＝(y_i,v_t,[ts_yv,te_yv))∈E_t,且是x_i到y_i在时间约束I_c下的时态路径。

19.如权利要求12-17之一所述的系统，其特征在于：给定一个时态数据图G_t(V_t,E_t)，p(u_t,v_t,[ts_c,te_c])是u_t到v_t在时间约束I_c＝[ts_c,te_c]下的时态路径，在时态路径P上的最短路径p∈{p(u_t,v_t,[ts_c,te_c])}，并且这里W(p)为时态路径所有时态边的权重之和，W(exy)表示x，y时态结点之间边的权重。

20.如权利要求12-19之一所述的系统，其特征在于，时态数据图的权重计算如下：其中每一条时态边e_t＝(u,v,[ts’,te’])权值计算如下：

21.如权利要求12-19之一所述的系统，其特征在于：时态边的有效时间表示为I_e＝[ts_e,te_e)，用户查询的时间为I_c＝[ts_c,te_c],时态语义相似性的计算公式如下：

22.如权利要求18所述的系统，其特征在于：文本内容相关性权值