CN104794238A

CN104794238A - 检索方法

Info

Publication number: CN104794238A
Application number: CN201510229773.1A
Authority: CN
Inventors: 张孝; 李睿; 于翌睎; 王珊
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2015-05-07
Filing date: 2015-05-07
Publication date: 2015-07-22
Anticipated expiration: 2035-05-07
Also published as: CN104794238B

Abstract

本发明实施例提供一种检索方法。该检索方法包括：获取页面的时间间隔信息与关键字信息；根据时间间隔信息与关键字信息构建TriI索引；根据TriI索引计算待查询的关键字的相关度分数；根据预设规则获得与相关度分数对应的页面，将相关度分数对应的页面作为检索结果。本发明实施例通过根据构建基于时间间隔信息和关键字信息的TriI索引，并根据该TriI索引获得待查询的关键字的相关度分数，根据TIKQ算法获得相关度分数最高的前k位各自对应的页面，并将获得的页面作为检索结果。实现了检索时的高效且同时的对时间间隔信息和关键字信息进行处理，提高了TIKQ中文本内容具有较大区分度的场景的查询效率。

Description

检索方法

技术领域

本发明涉及信息处理技术，尤其涉及一种检索方法。

背景技术

社交媒体和移动服务是互联网上普遍流行的信息来源，由于数据量快速的增长，各种应用中不仅仅需要用关键字信息来进行查询，还越来越需要用时间间隔信息来进行查询。例如，用户可以提交时间间隔信息来查询、找到热点信息，并追踪事件的发展；网络管理员可以执行时间间隔信息来查询、找出活跃的页面，从而方便网络的管理和维护。

在现有传统的检索方法中，同时对时间间隔信息和关键字信息的处理需要很大的管理开销，并且严重的依赖缓存容量，无法同时高效地处理时间间隔信息和关键字信息。

发明内容

本发明实施例提供一种检索方法，以解决现有的检索方法中，无法同时高效的处理时间间隔信息和关键字信息的问题。

本发明实施例提供一种检索方法，包括：

获取页面的时间间隔信息与关键字信息；

根据所述时间间隔信息与所述关键字信息构建TriI索引；

根据所述TriI索引计算待查询的关键字的相关度分数；

根据预设规则获得与所述相关度分数对应的页面，将所述相关度分数对应的页面作为检索结果。

如上所述的方法，其中，所述根据所述TriI索引计算待查询的关键字的相关度分数，包括：

根据所述TriI索引确定所述待查询的关键字的类型；所述关键字的类型包括频繁关键字和非频繁关键字；

计算确定类型后的所述待查询的关键字的相关度分数。

如上所述的方法，其中，所述根据预设规则获得与所述相关度分数对应的页面，具体包括：

根据TIKQ算法获得所述相关度分数最高的前k位各自对应的页面，其中，k为自然数。

如上所述的方法，其中，所述TriI索引包括关键字匹配表，所述关键字匹配表用于存储所述关键字、所述关键字的标识符、所述关键字的页面数以及所述关键字列表的存储结构。

如上所述的方法，其中，所述关键字列表的存储结构包括：聚合线段树和分布式文件系统HDFS块文件；

其中，所述聚合线段树用于存储所述频繁关键字，所述聚合线段树的树节点还存储所述频繁关键字的标识符以及所述频繁关键字的权重；

所述HDFS块文件用于存储所述非频繁关键字，所述HDFS块文件中还存储所述非频繁关键字的标识符和所述非频繁关键字在页面中的余弦相似度。

如上所述的方法，其中，所述相关度分数包括时间间隔相似度δ(p.i,q.i)和关键字相似度θ(p.d,q.d)；

所述相关度分数ζ(p,q)为：ζ(p,q)＝α·δ(p.i,q.i)+(1-α)·θ(p.d,q.d)；

其中，α为查询偏好率，α∈[0,1]，用于权衡所述时间间隔相似度和关键字相似度的相对影响；p.i为页面的时间间隔范围；q.i为查询的时间间隔范围；p.d为页面的关键字集合；q.d为查询的关键字集合。

如上所述的方法，其中，所述时间间隔相似度δ(p.i,q.i)为：

δ (p . i, q . i) = \frac{| p . i \cap q . i |}{| p . i \cup q . i |}, δ (p . i, q . i) &Element; [0,1];

其中，|p.i∩q.i|为所述时间间隔交集的长度；|p.i∪q.i|为所述时间间隔并集的长度。

如上所述的方法，其中，所述关键字相似度θ(p.d,q.d)为：

θ (p . d, q . d) = \frac{Σ_{t &Element; q . d} ω_{t, p . d} \cdot ω_{t, q . d}}{\sqrt{Σ_{t &Element; p . d} {(ω_{t, p . d})}^{2} \cdot Σ_{t &Element; q . d} {(ω_{t, q . d})}^{2}}}, θ (p . d, q . d) &Element; [0,1];

其中，ω_t,p.d＝1+ln(f_t,p.d)；f_t,p.d为所述页面的关键字集合p.d中关键字t的频率，ω_t,q.d＝ln(1+idf_t,D)，idf_t,D为页面集合D中所述关键字t的独特性；df_t,D为所述页面集合D中包含所述关键字t的页面个数。

本发明实施例提供的检索方法具体包括：获取页面的时间间隔信息与关键字信息；根据时间间隔信息与关键字信息构建TriI索引；根据TriI索引计算待查询的关键字的相关度分数；根据预设规则获得与相关度分数对应的页面，将相关度分数对应的页面作为检索结果。本发明实施例通过根据构建基于时间间隔信息和关键字信息的TriI索引，并根据该TriI索引获得待查询的关键字的相关度分数，根据TIKQ算法获得相关度分数最高的前k位各自对应的页面，并将获得的页面作为检索结果。实现了检索时的高效且同时的对时间间隔信息和关键字信息进行处理，提高了TIKQ中文本内容具有较大区分度的场景的查询效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的检索方法的流程图；

图2a为本发明实施例提供的检索方法中聚合线段树存储结构的示意图；

图2b为本发明实施例提供的检索方法中HDFS块文件存储结构的示意图；

图3为本发明实施例提供的检索方法的应用示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着社交媒体和移动服务成为互联网上普遍流行的信息来源，数据量出现了史无前例的增长，各种应用不仅仅要用关键字信息来进行查询，还需要用时间间隔信息来进行查询。由于热点推文和事件与用户点击率超过给定阈值的有效时间间隔有关，因此用户可以提交时间间隔信息进行查询以找到热点事件，并追踪该热点事件的发展，即，用户的信息需求可以用时间间隔信息结合关键字信息进行表达。本发明实施例提供的检索方法即是基于时间间隔信息和关键字信息的top-k查询(Top-k Interval Keyword Query，TIKQ)，在该检索方法中，以时间间隔相似度和关键字相似度作为计算基准，返回一个时间-文本对象的有序集合。本发明实施例中的TriI索引即是在TIKQ中首先执行关键字过滤而构建的索引，提高了TIKQ的查询效率，适合文本内容具有较大区分度的应用场景。

下面对本发明实施例中涉及到的名词给出如下定义：

1)TIKQ：一个TIKQ是一个如下等式所示的三元组：

q = {i, d, k} = {[begin, end], {t_{n}}, k} (&ForAll; n \leq | q . d |, t_{n} &Element; q . d)

其中q.i表示时间间隔范围，q.d表示关键字集合，q.k表示用户指定的结果数目。

令D＝{p₁,p₂,…,p_|D|}为页面的集合，每个页面p_m＝{id,i,d}包含标识符id，时间间隔信息i，及其文本内容d。TIKQ需要D中最相关的q.k个页面，基于两个度量：时间间隔相似度和关键字相似度，其定义分别如下。

2)时间间隔相似度(Interval Similarity)：其中，|p.i∩q.i|表示这两个时间间隔交集的长度，|p.i∪q.i|表示这两个时间间隔并集的长度。根据以上等式，可知，时间间隔相似度必然属于[0,1]。

3)关键字相似度(Keyword Relevance)：关键字相似度模型利用了众所周知的余弦相似度模型，页面p和查询q之间的关键字相似度计算如下：

θ (p . d, q . d) = \frac{Σ_{t &Element; q . d} ω_{t, p . d} \cdot ω_{t, q . d}}{\sqrt{Σ_{t &Element; p . d} {(ω_{t, p . d})}^{2} \cdot Σ_{t &Element; q . d} {(ω_{t, q . d})}^{2}}},

在上式中，，权值ω_t,p.d＝1+ln(f_t,p.d)是由p.d中关键字t的频率f_t,p.d计算得到的，权值ω_t,q.d＝ln(1+idf_t,D)中的表示集合D中关键字t的独特性，df_t,D为集合D中包含关键字t的页面个数。据此可知，关键字相似度也属于[0,1]。

4)相关度分数(Relevance Score)：是时间间隔相似度和关键字相似度的线性组合，即：ζ(p,q)＝α·δ(p.i,q.i)+(1-α)·θ(p.d,q.d)，α为查询偏好率，α∈[0,1]，用于权衡时间间隔相似度和关键字相似度的相对影响；q.i为查询的时间间隔范围；q.d为查询的关键字集合；p.d为页面的关键字集合；p.i为页面的时间间隔范围。

下面结合具体实施例对本发明实施例提供的检索方法进行进一步的详细说明。

图1为本发明实施例提供的检索方法的流程图。如图1所示，本实施例提供的检索方法具体可以包括：

步骤101、获取页面的时间间隔信息与关键字信息。

步骤102、根据时间间隔信息与关键字信息构建TriI索引。

需要说明的是，TriI索引中包括关键字匹配表(keyword matchlist)，该关键字匹配表用于存储关键字、关键字的标识符、关键字的页面数以及关键字列表的存储结构。该关键字匹配表具体可以如表一所示，关键字标识符1对应的关键字为“Obama”，与该关键字对应的页面数为5，本实施例中，认为关键字的页面数为5属于频繁关键字，则将该关键字存储在聚合线段树中；关键字标识符2对应的关键字为“Lincoln”，与该关键字对应的页面数为3，本实施例中，认为关键字的页面数为3属于非频繁关键字，则将该关键字存储在HDFS块文件中。

表一关键字匹配表

关键字标识符	关键字	关键字的页面数	关键字列表的存储结构
				1	Obama	5	聚合线段树
2	Lincoln	3	HDFS块文件
				3	Clinton	2	HDFS块文件

需说明的是，上述关键字列表的存储结构可以包括：聚合线段树(aSegment Tree)和分布式文件系统(Hadoop Distributed File System，HDFS)块文件。

其中，该聚合线段树是一棵基于Hbase的聚合线段树，是对传统线段树的改进，该聚合线段树用于存储频繁关键字，该聚合线段树的树节点还存储频繁关键字的标识符以及频繁关键字的权重，该聚合线段树的各节点以行的形式存储在Hbase表中，此外，每个节点中的聚合值是该节点本身与该节点的两个孩子节点的页面权值的最大值。图2a为本发明实施例提供的检索方法中聚合线段树存储结构的示意图，如图2a所示，其中，Q、X、Y、W、Z分别表示不同网页的标识符。

HDFS块文件用于存储非频繁关键字，HDFS块文件中还存储非频繁关键字的标识符和非频繁关键字在页面中的余弦相似度。本实施例中，对非频繁关键字的列表构造一个倒排表，将该倒排表存储在HDFS块文件中，图2b为本发明实施例提供的检索方法中HDFS块文件存储结构的示意图，如图2b所示，每个列表的入口由以下三元组表示：{page id，[begin,end],weight}，其中，page id表示非频繁关键字的标识符；[begin,end]表示时间间隔，begin表示该时间间隔的起点，end表示该时间间隔的终点，weight表示非频繁关键字在本页面中的余弦相似度。

实际应用中，在执行TIKQ算法时，首先在关键字匹配表中查找待查询的关键字，确定该待查询的关键字是存储在聚合线段树中还是存储在HDFS块文件中，然后从相应的存储结构中获得该待查询的关键字的相关信息，从而计算出相关度分数。

步骤103、根据TriI索引计算待查询的关键字的相关度分数。

本步骤中，先根据TriI索引确定待查询的关键字的类型；其中，关键字的类型包括频繁关键字和非频繁关键字；再计算确定类型后的待查询的关键字的相关度分数。

具体的，相关度分数包括时间间隔相似度δ(p.i,q.i)和关键字相似度θ(p.d,q.d)；相关度分数ζ(p,q)为：ζ(p,q)＝α·δ(p.i,q.i)+(1-α)·θ(p.d,q.d)；其中，α为查询偏好率，α∈[0,1]，用于权衡时间间隔相似度和关键字相似度的相对影响；p.i为页面的时间间隔范围；q.i为查询的时间间隔范围；p.d为页面的关键字集合；q.d为查询的关键字集合。

时间间隔相似度δ(p.i,q.i)为：δ(p.i,q.i)∈[0,1]；其中，|p.i∩q.i|为时间间隔交集的长度；|p.i∪q.i|为时间间隔并集的长度。

关键字相似度θ(p.d,q.d)为：

θ (p . d, q . d) = \frac{Σ_{t &Element; q . d} ω_{t, p . d} \cdot ω_{t, q . d}}{\sqrt{Σ_{t &Element; p . d} {(ω_{t, p . d})}^{2} \cdot Σ_{t &Element; q . d} {(ω_{t, q . d})}^{2}}},

θ(p.d,q.d)∈[0,1]；其中，ω_t,p.d＝1+ln(f_t,p.d)；f_t,p.d为页面的关键字集合p.d中关键字t的频率，ω_t,q.d＝ln(1+idf_t,D)，idf_t,D为页面集合D中关键字t的独特性；df_t,D为页面集合D中包含关键字t的页面个数。

步骤104、根据预设规则获得与相关度分数对应的页面，将相关度分数对应的页面作为检索结果。

预设规则具体可以为TIKQ算法，本步骤中，根据TIKQ算法获得相关度分数最高的前k位各自对应的页面，其中，k为自然数。

实际应用中，先为存储在HDFS块文件中的非频繁关键字构建一个初始为空的优先级堆H^page，按照相关度分数降序存储所有的页面；为存储在聚合线段树中的频繁关键字构建另一个初始为根节点的堆H^node，同样按照相关度分数降序存储所有的节点。

下面分为TIKQ中包含单个关键字和多个关键字两个场景进行说明。

对于TIKQ中包含单个关键字的场景，利用对单关键字的查询算法进行页面检索。

关键字匹配表中给定关键字的df_t值决定了关键字列表的下层存储结构。

对于存储在HDFS块文件中的非频繁关键字，构建一个初始为空的优先级堆H^page按照相关度分数ζ(p,q)降序存储所有的页面。

对于存储在聚合线段树中的频繁关键字，用初始为根节点的堆H^node按照相关度分数ζ(p,q)存储所有的节点。

如果关键字集合q.d为HDFS块文件类型，则将关键字集合q.d的所有页面插入到堆H^page。

如果关键字集合q.d为聚合线段树类型，则将关键字集合root_q.d插入到堆H^node中。从堆H^node中弹出一个相关度分数最高的节点n。

若节点n非空，则将与节点n对应的所有页面插入到堆H^page中；如果节点n为内部节点，则计算该节点n的两个孩子节点的相关度分数，并分别将该两个孩子节点对应的页面插入到堆H^node中。

重复上述过程，直至堆H^node中弹出的节点n为空。

当堆H^node为空时，意味着检索过程已经从根节点遍历到叶子节点层，则上述循环终止。

对于TIKQ中包含多个关键字的场景，利用对多关键字的查询算法进行页面检索。

首先初始化哈希集合C为空。

在界限更新过程中，采用轮询策略来决定指向下一个页面p的下一个关键字t_i，从而通过更新算法中的上下限的值，判定当前页面是否满足某一条件，如满足则立即返回，节省检索时间。

由于相关度分数最高，相关性越好，越可能成为最终的结果，所以要先提取出来筛选，节省检索时间，因此，对于关键字集合q.d_ti用单关键字的查询算法找出相关度分数最高的页面p。

对每个关键字t_i，更新上限的值，记录所有要被检索的页面中最大的部分相关度分数。

对于页面p，更新下限p_-的值，并将该页面p加入到候选哈希集合C中。

对于哈希集合C中的所有页面，更新上限p^-的值。

在扫描哈希集合C中的页面的过程中，要检查是否存在某个页面的下限大于或等于其他页面的上限的最大值，如果存在，则把这个页面从哈希集合C中移出，并作为检索结果之一。

重复执行上述过程，直至所有的页面都被处理过。

若通过任何关键字都不能检索出新的页面，则将哈希集合C中下限最大的下一个页面作为检索结果。

下面对部分相关度分数进行说明。

本实施例中，部分相关度分数用于记录单个关键字时页面p对查询q的分数，部分相关度分数的定义需要两个特征：基于余弦相似度的关键字相关度θ(p.d,q.d)独立于关键字的数量，以及对每个关键字，时间间隔相似度δ(p.i,q.i)的加权平均值，即，部分相关度分数(Partial Score)ζ_t(p,q)：

ζ_{t} (p, q) = α \cdot \frac{δ (p . i, q . i)}{| q . d |} + (1 - α) \cdot θ_{t} (p . d, q . d), (t &Element; q . d)

根据定义，最终的相关度分数ζ(p,q)是所有查询的关键字的部分相关度分数的总和，即，

考虑到利用页面界限的上限和下限代表相关度分数这两种极端情况，假设由关键字t检索到的页面p不包含其他关键字，我们可以获得页面p的最小可能分数，即页面下限，ζ_-(p,q)＝ζ_t(p,q)，在最好的情况下，页面p的相关度分数等于所有关键字当前最高分数之和，即页面上限，

ζ^{-} (p, q) = ζ_{t} (p, q) + \underset{t^{'} &Element; q . d \cap t^{'} &NotEqual; t}{Σ} ζ_{t^{'}} (p, q) .

需要说明的是，在实际应用中，本实施例提供的检索方法具体可以由Linux服务器平台执行，该Linux服务器平台包括四台服务器，每台服务器的硬件配置如表一所示，每台服务器的软件配置如表二所示。

表一服务器硬件配置

CPU	2个英特尔处理器E5645，主频2.40GHz，每个CPU包括6个核12个线程
		内存	48G内存
硬盘	2TB 7200转硬盘
		网络	4台服务器处于同一机架，以1Gbps网卡相互连接

表二服务器软件配置

操作系统	Red Hat5.5企业版操作系统
		内核版本	Linux 2.6.18-194内核
Java版本	JDK 8Linux x64版
		开发环境	NetBeans IDE 8.0
Hadoop	Hadoop1.0.2稳定版
		Hbase	Hbase0.94.2

图3为本发明实施例提供的检索方法的应用示意图。下面结合图3对本实施例提供的检索方法进行说明。

将原型系统构造在分布式聚簇上，这些聚簇由局域网连接，用户可以输入查询语句“top-10pages that contain“Obama”in the last three month”，由查询预处理器对查询语句进行解析并变形成标准的TIKQ语句“{[10,100],{Obama},10}”，若是文本内容具有较大区分度的情况，则自适应索引选择器会输出执行计划“{TriI,[10,100],{Obama},10}”，利用TriI索引，由执行器执行查询算法“get(),scan()”从Hadoop和Hbase中检索出结果。若TIKQ中只包含单个关键字，则执行上述实施例中TIKQ中包含单个关键字的场景的方法，若TIKQ中包含多个关键字，则执行上述实施例中TIKQ中包含多个关键字的场景的方法。

本实施例提供的检索方法，通过获取页面的时间间隔信息与关键字信息；根据时间间隔信息与关键字信息构建TriI索引；根据TriI索引计算待查询的关键字的相关度分数；根据预设规则获得与相关度分数对应的页面，将相关度分数对应的页面作为检索结果。本发明实施例通过根据构建基于时间间隔信息和关键字信息的TriI索引，并根据该TriI索引获得待查询的关键字的相关度分数，根据TIKQ算法获得相关度分数最高的前k位各自对应的页面，并将获得的页面作为检索结果。实现了检索时的高效且同时的对时间间隔信息和关键字信息进行处理，提高了TIKQ中文本内容具有较大区分度的场景的查询效率。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种检索方法，其特征在于，包括：

获取页面的时间间隔信息与关键字信息；

根据所述时间间隔信息与所述关键字信息构建TriI索引；

根据所述TriI索引计算待查询的关键字的相关度分数；

2.根据权利要求1所述的方法，其特征在于，所述根据所述TriI索引计算待查询的关键字的相关度分数，包括：

计算确定类型后的所述待查询的关键字的相关度分数。

3.根据权利要求1所述的方法，其特征在于，所述根据预设规则获得与所述相关度分数对应的页面，具体包括：

4.根据权利要求2所述的方法，其特征在于，所述TriI索引包括关键字匹配表，所述关键字匹配表用于存储所述关键字、所述关键字的标识符、所述关键字的页面数以及所述关键字列表的存储结构。

5.根据权利要求4所述的方法，其特征在于，所述关键字列表的存储结构包括：聚合线段树和分布式文件系统HDFS块文件；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述相关度分数包括时间间隔相似度δ(p.i,q.i)和关键字相似度θ(p.d,q.d)；

所述相关度分数为：

7.根据权利要求6所述的方法，其特征在于，所述时间间隔相似度δ(p.i,q.i)为：

δ (p . i, q . i) = \frac{| p . i \cap q . i |}{| p . i \cup q . i |},

δ(p.i,q.i)∈[0,1]；

8.根据权利要求6所述的方法，其特征在于，所述关键字相似度θ(p.d,q.d)为：

θ (p . d, q . d) = \frac{Σ_{t &Element; q . d} ω_{t, q . d} \cdot ω_{t, q . d}}{\sqrt{Σ_{t &Element; p . d} {(ω_{t, p . d})}^{2} \cdot Σ_{t &Element; q . d} {(ω_{t, q . d})}^{2}}}, θ (p . d, q . d) &Element; [0,1];