CN104794237B - 网页信息处理方法及装置 - Google Patents

网页信息处理方法及装置 Download PDF

Info

Publication number
CN104794237B
CN104794237B CN201510229707.4A CN201510229707A CN104794237B CN 104794237 B CN104794237 B CN 104794237B CN 201510229707 A CN201510229707 A CN 201510229707A CN 104794237 B CN104794237 B CN 104794237B
Authority
CN
China
Prior art keywords
mrow
retrieved
webpage
web pages
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510229707.4A
Other languages
English (en)
Other versions
CN104794237A (zh
Inventor
张孝
李睿
于翌睎
王珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN201510229707.4A priority Critical patent/CN104794237B/zh
Publication of CN104794237A publication Critical patent/CN104794237A/zh
Application granted granted Critical
Publication of CN104794237B publication Critical patent/CN104794237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页信息处理方法及装置,所述方法包括:获取待检索网页的时间间隔信息;根据所述待检索网页的时间间隔信息将所述待检索网页的集合划分为多个区域,通过线段树结构将所述时间间隔信息构成的时间间隔集合划分成至少两个单元时间间隔;基于所述单元时间间隔为每个区域添加倒排线段树索引;根据查询时间间隔以及每个区域的倒排线段树索引分别对每个区域内的待检索网页进行检索,确定与所述查询时间间隔关联的第一候选网页;从所述第一候选网页中确定包含查询关键字的第二候选网页;输出所述第二候选网页。

Description

网页信息处理方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种网页信息处理方法及装置。
背景技术
社交媒体和移动服务是互联网上普遍流行的信息来源。根据2013年的推特招股说明书,推特每月有超过2.15亿的活跃用户,每天产生近5亿条推文。由于网络数据量史无前例的增长,当用户进行网页信息查询时,为了准确得到所需的信息,越来越需要结合时间间隔来进行查询,而不仅仅使用关键字来进行查询。例如,在推特中,由于热点推文与用户点击率超过给定阈值的时间间隔有关,因此用户可以通过提交时间间隔结合关键字的查询条件来找到热点推文,并追踪事件的发展。再如,维基百科标记了存档文件从创建到最后一次修改的这段时间间隔,管理员可以通过执行时间间隔及关键字查询来找出活跃网页,从而方便网络的管理和维护。
现有技术中,结合时间间隔和关键词这两方面的查询条件对网络数据进行查询和处理时,通常采用经典的向量空间模型,对待检索网页的时间间隔信息和文本信息建立统一的倒排索引检索模型,同时针对这两类信息进行检索处理,完成待检索网页的筛选过滤以及候选数据集与查询条件之间的相关度计算。但是,这种信息处理方式采用统一的索引同时对所述待检索网页的时间间隔信息和文本信息进行检索,当给定的查询关键字区分度不大,即,大量的待检索网页共同包含所述查询关键字时,同时针对待检索网页的文本信息进行检索,容易造成信息处理量大,查询效率低下的问题。
发明内容
本发明实施例提供一种网页信息处理方法及装置,用以解决现有技术中同时针对查询时间间隔及查询关键字进行网页检索过程中检索效率及检索性能低下的问题。
本发明实施例提供一种网页信息处理方法,所述方法包括:
获取待检索网页的时间间隔信息;
根据所述待检索网页的时间间隔信息将所述待检索网页的集合划分为多个区域,通过线段树结构将所述时间间隔信息构成的时间间隔集合划分成至少两个单元时间间隔;
基于所述单元时间间隔为每个区域添加倒排线段树索引;
根据查询时间间隔以及每个区域的倒排线段树索引分别对每个区域内的待检索网页进行检索,确定与所述查询时间间隔关联的第一候选网页;
从所述第一候选网页中确定包含查询关键字的第二候选网页;
输出所述第二候选网页。
在本发明的另一实施例中,所述基于所述单元时间间隔为每个区域添加倒排线段树索引具体包括:
基于所述单元时间间隔对每个区域中的待检索网页构建线段树索引;
通过节点摘要文件存储所述线段树中每个待检索网页的文本统计信息;
通过节点倒排索引表存储每个区域的待检索网页的倒排列表。
在本发明的另一实施例中,还包括:
所述线段树索引的每个叶节点中存储所述叶节点与其孩子节点中包含的所述待检索网页的数量;
所述文本统计信息包括行标识符和二元组列表,所述行标识符为所述待检索网页中包含的文本信息,所述二元组列表的形式为node=df|tf,其中,node表示所述线段树索引中包含所述文本信息的待检索网页的标识符,df表示包含所述文本信息的待检索网页的总数,tf表示所述文本信息在包含所述文本信息的待检索网页中出现的次数;
所述倒排列表包括行键值及键值对,其中,所述行键值为所述待检索网页在所述线段树索引中的标识符,所述键值对包括所述待检索网页中包含的所述文本信息及所述待检索网页的标识符对应的连接。
在本发明的另一实施例中,还包括:
若确定有至少两个所述第二候选网页,分别计算所述至少两个第二候选网页的相关度分数,并输出至少一个所述第二候选网页;其中,所述至少一个第二候选网页的相关度分数值大于其它第二候选网页的相关度分数值。
在本发明的另一实施例中,所述相关度分数的计算方法为:
ζ(p,q)=α*δ(p.i,q.i)+(1-α)*θ(p.d,q.d)
其中,p表示所述第一候选网页,q表示查询条件,p.i表示所述第一候选网页的时间间隔范围,q.i表示所述查询时间间隔的范围,p.d表示所述第一候选网页的文本信息集合,q.d表示所述查询关键字集合,δ(p.i,q.i)表示所述第一候选网页与所述查询时间间隔的时间间隔相似度,θ(p.k,q.k)表示所述第一候选网页与所述查询关键字的关键字相关度,α为查询偏好率,用于权衡所述时间间隔相似度和关键字相关度的相对影响;
其中,所述时间间隔相似度的计算方法为:
所述关键字相关度的计算方法为:
ωt,p.d=1+ln(ft,p.d),ωt,q.d=ln(1+idft,D),
其中,ft,p.d表示所述待检索网页的文本信息集合p.d中关键字t的出现频率,D表示所述第一候选网页的集合,Dq表示所述第一候选网页的数量,dft,D表示D中包含所述查询关键字t的网页的个数。
在本发明的另一实施例中,所述根据所述待检索网页的时间间隔信息将所述待检索网页的集合划分为多个区域具体包括:根据所述待检索网页的时间间隔,通过z-order多维映射函数计算出所述待检索网页的Z-order值,根据所述Z-order值的排序将所述待检索网页的集合划分为Z-order值域不关联的多个区域。
本发明实施例还提供一种网页信息处理装置,所述装置包括:
获取模块,用于获取待检索网页的时间间隔信息;
划分模块,用于根据所述待检索网页的时间间隔信息将所述待检索网页的集合划分为多个区域,并通过线段树结构将所述时间间隔信息构成的时间间隔集合划分成若干单元时间间隔,
倒排线段树索引构建模块,用于基于所述单元时间间隔为每个区域添加倒排线段树索引;
第一确定模块,用于根据查询时间间隔以及每个区域的倒排线段树索引分别对每个区域内的待检索网页进行检索,确定与所述查询时间间隔关联的第一候选网页;
第二确定模块,用于从所述第一候选网页中确定包含查询关键字的第二候选网页;
输出模块,用于输出所述第二候选网页。
在本发明的另一实施例中,所述倒排线段树索引构建模块具体用于:
基于所述单元时间间隔对每个区域中的待检索网页构建线段树索引;
通过节点摘要文件存储所述线段树中每个待检索网页的文本统计信息;
通过节点倒排索引表存储每个区域的待检索网页的倒排列表。
在本发明的另一实施例中,所述装置还包括计算模块,用于当所述第二确定模块确定有至少两个所述第二候选网页时,分别计算所述至少两个第二候选网页的相关度分数;
所述输出模块用于输出至少一个所述第二候选网页;其中,所述至少一个第二候选网页的相关度分数值大于其它第二候选网页的相关度分数值。
在本发明的另一实施例中,所述划分模块用于根据所述待检索网页的时间间隔信息,通过z-order多维映射函数计算出所述待检索网页的Z-order值,根据所述Z-order值的排序将所述待检索网页的集合划分为Z-order值域不关联的多个区域。
本发明实施例所提供的网页信息处理方法及装置,按照待检索网页的时间间隔信息对所述待检索网页进行分区,采用基于单元时间间隔的线段树结构为每个区域的待检索网页构建倒排线段树索引,当给定的查询时间间隔区分度较大,即,给定的查询时间间隔内包含少量的待检索网页时,采用本发明实施例所提供的网页信息处理方法,先根据给定的查询时间间隔进行检索,可以快速获得与所述查询时间间隔关联的第一候选网页,再从所述第一候选网页中针对所述查询关键字进行检索,即可得到与查询时间间隔相关联,且包含所述查询关键字的第二候选网页,提高了网页检索效率,降低了对硬件设备的性能要求,节省了硬件成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的一种网页信息处理方法的流程图;
图2为本发明第二实施例提供的一种网页信息处理方法的流程图;
图3a为本发明第二实施例提供的线段树的结构示意图;
图3b为本发明第二实施例提供的节点摘要文件的结构示意图;
图3c为本发明第二实施例提供的节点倒排索引表的结构示意图;
图4为本发明第三实施例提供的一种网页信息处理方法的流程图;
图5为本发明第四实施例提供的一种网页信息处理方法的具体流程图;
图6为本发明第五实施例提供的一种网页信息处理装置的结构框图;
图7为本发明第六实施例提供的一种网页信息处理装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种网页信息处理方法的流程图。如图1所示,本实施例的网页信息处理方法,可以包括如下步骤:
S101:获取待检索网页的时间间隔信息。
S102:根据所述待检索网页的时间间隔信息将所述待检索网页的集合划分为多个区域,通过线段树结构将所述时间间隔信息构成的时间间隔集合划分成至少两个单元时间间隔。
具体地,根据所述待检索网页的时间间隔信息将所述待检索网页的集合划分为多个区域具体包括:根据所述待检索网页的时间间隔,通过z-order多维映射函数计算出所述待检索网页的z-order值,根据所述Z-order值的排序将所述待检索网页的集合划分为z-order值域不关联的多个区域。其中,Z-order值域不关联是指所述多个区域的z-order值域相互之间的关系为不包含,不相交,不覆盖。
S103:基于所述单元时间间隔为每个区域添加倒排线段树索引。
所述倒排线段树索引结构利用z-order曲线对于待检索网页集合进行聚簇,将所述待检索网页集合划分为z-order值域不关联的子集区域,使得倒排线段树(InvertedSegment Tree,IS-tree)索引可以有效地从时间维度缩小查询范围;并且各个划分区域存储独立,提升了网页查询的并发性,提高了查询速度。
S104:根据查询时间间隔以及每个区域的倒排线段树索引分别对每个区域内的待检索网页进行检索,确定与所述查询时间间隔关联的第一候选网页。其中,所述与查询时间间隔关联的第一候选网页是指所述待检索网页中时间间隔与所述查询时间间隔的相互关系为相交、覆盖、或包含的网页。
S105:从所述第一候选网页中确定包含查询关键字的第二候选网页。
S106:输出所述第二候选网页。
上述步骤中,执行主体可以是具有数据存储及处理功能的计算机系统。
本发明实施例所提供的网页信息处理方法,按照待检索网页的时间间隔信息对所述待检索网页进行分区,采用基于单元时间间隔的线段树结构为每个区域的待检索网页构建倒排线段树索引,当给定的查询时间间隔区分度较大,即,给定的查询时间间隔内包含少量的待检索网页时,采用本发明实施例所提供的网页信息处理方法,先根据给定的查询时间间隔同时在各个区域内进行检索,可以快速筛选获得与所述查询时间间隔关联的第一候选网页,再从所述第一候选网页中针对所述查询关键字进行检索,即可得到与查询时间间隔相关联,且包含所述查询关键字的第二候选网页,提高了网页检索效率;同时,由于查询时间间隔区分度较大,先通过时间间隔对待检索网页进行筛选,可以有效缩小查询范围,减小了信息处理过程中对缓存容量的依赖性,降低了对硬件设备的性能要求,节省了硬件成本。
图2为本发明第二实施例提供的一种网页信息处理方法的流程图。图3a为本发明第二实施例提供的线段树的结构示意图。图3b为本发明第二实施例提供的节点摘要文件的结构示意图。图3c为本发明第二实施例提供的节点倒排索引表的结构示意图。
如图2所示,进一步地,所述S103具体包括:
S1031:基于所述单元时间间隔对每个区域中的待检索网页构建线段树索引。
具体地,如图3a所示,所述线段树用于将待检索网页的时间间隔信息构成的时间间隔集合划分成一些单元时间间隔,每个单元时间间隔对应所述线段树索引中的一个叶节点,而两个孩子节点的时间间隔的并集为上层父节点的索引的时间间隔。同时,所述线段树索引的每个叶节点中存储所述叶节点与其孩子节点中包含的所述待检索网页的数量。
S1032:通过节点摘要文件存储所述线段树中每个待检索网页的文本统计信息。
具体地,如图3b所示,所述文本统计信息包括行标识符和二元组列表,所述行标识符为所述待检索网页中包含的文本信息,所述二元组列表的形式为node=df|tf,其中,node表示所述线段树索引中包含所述文本信息的待检索网页的标识符,df表示包含所述文本信息的待检索网页的总数,tf表示所述文本信息在包含所述文本信息的待检索网页中出现的次数。
在检索过程中,所述文本统计信息用于判断当前待检索网页的文本信息是否与所述查询关键字相关,即所述待检索网页的文本域是否包含给定关键字。对于不相关的对象,可以直接排除,不用一一扫描其文本信息,加快了检索过程。
S1033:通过节点倒排索引表存储每个区域的待检索网页的倒排列表。
具体地,如图3c所示,所述倒排列表包括行键值及键值对,其中,所述行键值为所述待检索网页在所述线段树索引中的标识符,所述键值对包括所述待检索网页中包含的所述文本信息及所述待检索网页的标识符对应的连接。
图4为本发明第三实施例提供的一种网页信息处理方法的流程图。
如图4所示,进一步地,所述S106具体包括:
S1061:若确定有至少两个所述第二候选网页,分别计算所述至少两个第二候选网页的相关度分数,并输出至少一个所述第二候选网页;其中,所述至少一个第二候选网页的相关度分数值大于其它第二候选网页的相关度分数值。
具体地,所述相关度分数的计算方法为:
ζ(p,q)=α*δ(p.i,q.i)+(1-α)*θ(p.d,q.d)
其中,p表示所述第一候选网页,q表示查询条件,p.i表示所述第一候选网页的时间间隔范围,q.i表示所述查询时间间隔范围,p.d表示所述第一候选网页的文本信息集合,q.d表示所述查询关键字集合,δ(p.i,q.i)表示时间间隔相似度,θ(p.k,q.k)表示关键字相关度,α为查询偏好率,用于权衡所述时间间隔相似度和关键字相关度的相对影响;
其中,所述时间间隔相似度的计算方法为:
所述关键字相关度的计算方法为:
ωt,p.d=1+ln(ft,p.d),ωt,q.d=ln(1+idft,D),
其中,ft,p.d表示所述待检索网页的文本信息集合p.d中关键字t的出现频率,D表示所述第一候选网页的集合,Dq表示所述第一候选网页的数量,dft,D表示所述查询关键字t对应的聚合对象频数,即,D中包含所述查询关键字t的第一候选网页的个数。其中,所述第一候选网页的数量Dq可以根据所述线段树索引的叶节点中存储的待检索网页的数量来得到。
针对包括查询时间间隔及查询关键字的查询条件进行网页检索时,为所述待检索网页集合的每个区域分别创建一个线程,多个线程并行完成检索后,再汇总合并得到全局的检索结果。具体地,每一个线程的查询执行包括以下两个阶段:(一)、idf值遍历阶段,用于获得所述各个区域中与所述查询时间间隔关联的所述第一候选网页集合,并计算所有查询关键字的idf值;(二)、第二候选网页获取阶段,合并各个区域的第一候选网页集合,从中确定用户设定的多个第二候选网页。
在所述idf值遍历阶段,采用深度优先遍历所述倒排线段树索引的策略来获得所述各个区域中与所述查询时间间隔关联的所述第一候选网页的集合,并计算所有查询关键字的idf值。可替换地,采用广度优先遍历的策略同样适用。遍历过程中,用队列Q存储所述线段树结构中的节点n,用哈希映射表M存储所述查询关键字及其idf值,用优先级堆Hnode存储与所述第二候选网页对应的节点,用优先级队列Hpage存储所述第二候选网页及其相关度分数值。
图5为本发明第四实施例提供的一种网页信息处理方法的具体流程图。请参阅图5,所述网页信息处理方法具体包括如下步骤:
S201:对各参数进行初始化。
具体地,将所述第一候选网页的数量Dq,及每个查询关键字t对应的聚合对象频数df的初始值都设置为所述线段树的根节点对应的值,将所述队列Q的初始值设置为所述线段树的根节点,同时,将所述哈希映射表M及优先级堆Hnode设为空。
S202:判断所述队列Q是否为非空;若是,执行S203;若否,执行S208。
S203:从队列Q中弹出一个节点n,判断所述节点n与查询时间间隔的交集是否为非空;
若是,执行S204;若否,即所述节点n的时间间隔与查询时间间隔无关联,执行S206,并返回S202,以排除不符合所述查询时间间隔的网页,从而确定所述第一候选网页。
S204:判断所述节点n的文本信息集合中是否包含查询关键字,若包含至少一个所述查询关键字,则执行S205;若不包含所述查询关键字,则执行S206及S207,以排除不符合所述查询关键字的网页,从而确定所述第二候选网页。
S205:将所述节点n插入所述优先级堆Hnode中,所述节点n的孩子节点插入队列Q中。
S206:执行Dq=Dq-Dn,以排除所述节点n及其孩子节点,即,排除与所述查询时间间隔无关联的节点对应的待检索网页。
S207:执行dft=dft-dft,n,排除掉不包含所述查询关键字t的节点对应的待检索网页,并返回S202。
S208:计算所述查询关键字的idf值,将所述查询关键字及其idf值插入所述映射表M中。
S209:计算所述优先级堆Hnode中的每个节点对应的第二候选网页与所述查询条件的相关度分数,并将所述第二候选网页及其相关度分数值插入所述优先级队列Hpage中。
具体地,根据所述哈希映射表M计算所述优先级堆Hnode中的所述节点对应的每个第二候选网页的时间间隔与所述查询时间间隔的相似度值,及所述每个第二候选网页的文本信息与所述查询关键字的相关度值,然后根据所述时间间隔相似度值和关键字相关度值,采用动态规划方法计算所述每个第二候选网页与所述查询条件的相关度分数。
S210:在所述优先级队列Hpage中完成相关度分数值的排序,输出至少一个第二候选网页,其中,所述至少一个第二候选网页的相关度分数值高于所述优先级队列Hpage中其它第二候选网页的相关度分数值。
在使用上述实施例提供的网页信息处理方法进行网页查询前,先采用索引选择器组件(Adaptive Index Selector,AIS)针对查询条件预估其特点,选定查询代价小,性能高的索引分支完成查询工作,从而提升整体的响应能力。当预估到给定的查询时间间隔范围内待检索网页的分布密集度较小,即,时间间隔区分度较大时,采用本发明所提供的IS-tree网页信息处理方法进行检索。由于本发明中所提供的所述倒排线段树索引结构中的第一层索引是基于时间间隔所做的筛选,当待检索网页的时间间隔区分度较大时,其筛选率高,剩余的候选网页较少,使得后续的查询响应时间减少,可以较大地提升查询效率。同时,由于减少了候选网页,降低了对缓存容量的依赖性,对硬件设备的性能要求减低,可以有效地节省硬件成本。
图6为本发明第五实施例提供的一种网页信息处理装置的结构框图。
请参阅图6,所述网页信息处理装置包括获取模块10,划分模块11,倒排线段树索引构建模块12,第一确定模块13,第二确定模块14,及输出模块16。
所述获取模块10用于获取待检索网页的时间间隔信息。
所述划分模块11用于根据所述待检索网页的时间间隔信息将所述待检索网页的集合划分为多个区域,并通过线段树结构将所述时间间隔信息构成的时间间隔集合划分成若干单元时间间隔。
具体地,所述划分模块11具体用于:根据所述待检索网页的时间间隔信息,通过z-order多维映射函数计算出所述待检索网页的Z-order值,根据所述Z-order值的排序将所述待检索网页的集合划分为Z-order值域不关联的多个区域。
所述倒排线段树索引构建模块12用于基于所述单元时间间隔为每个区域添加倒排线段树索引。
具体地,所述倒排线段树索引构建模块12用于:基于所述单元时间间隔对每个区域中的待检索网页构建线段树索引;通过节点摘要文件存储所述线段树中每个待检索网页的文本统计信息;并通过节点倒排索引表存储每个区域的待检索网页的倒排列表。
所述第一确定模块13用于根据查询时间间隔以及每个区域的倒排线段树索引分别对每个区域内的待检索网页进行检索,确定与所述查询时间间隔关联的第一候选网页;
第二确定模块14用于从所述第一候选网页中确定包含查询关键字的第二候选网页。
所述输出模块16用于输出所述第二候选网页。
图7为本发明第六实施例提供的一种网页信息处理装置的结构框图。
请参阅图7,除了本发明第五实施方式提供的网页信息处理装置中的所有元件外,所述网页信息处理装置还包括计算模块15。所述计算模块用于当所述第二确定模块确定有至少两个所述第二候选网页时,分别计算所述至少两个第二候选网页的相关度分数;所述输出模块16用于输出至少一个所述第二候选网页;其中,所述至少一个第二候选网页的相关度分数值大于其它第二候选网页的相关度分数值。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种网页信息处理方法,其特征在于,包括:
获取待检索网页的时间间隔信息;
根据所述待检索网页的时间间隔信息将所述待检索网页的集合划分为多个区域,通过线段树结构将所述时间间隔信息构成的时间间隔集合划分成至少两个单元时间间隔;
基于所述单元时间间隔为每个区域添加倒排线段树索引;倒排线段树索引是指利用z-order曲线对于待检索网页集合进行聚簇,将所述待检索网页集合划分为z-order值域不关联的子集区域;
根据查询时间间隔以及每个区域的倒排线段树索引分别对每个区域内的待检索网页进行检索,确定与所述查询时间间隔关联的第一候选网页;
从所述第一候选网页中确定包含查询关键字的第二候选网页;
输出所述第二候选网页。
2.根据权利要求1所述的网页信息处理方法,其特征在于,所述基于所述单元时间间隔为每个区域添加倒排线段树索引具体包括:
基于所述单元时间间隔对每个区域中的待检索网页构建线段树索引;
通过节点摘要文件存储所述线段树中每个待检索网页的文本统计信息;
通过节点倒排索引表存储每个区域的待检索网页的倒排列表。
3.根据权利要求2所述的网页信息处理方法,其特征在于,
所述线段树索引的每个叶节点中存储所述叶节点与其孩子节点中包含的所述待检索网页的数量;
所述文本统计信息包括行标识符和二元组列表,所述行标识符为所述待检索网页中包含的文本信息,所述二元组列表的形式为node=df|tf,其中,node表示所述线段树索引中包含所述文本信息的待检索网页的标识符,df表示包含所述文本信息的待检索网页的总数,tf表示所述文本信息在包含所述文本信息的待检索网页中出现的次数;
所述倒排列表包括行键值及键值对,其中,所述行键值为所述待检索网页在所述线段树索引中的标识符,所述键值对包括所述待检索网页中包含的所述文本信息及所述待检索网页的标识符对应的连接。
4.根据权利要求1至3任一项所述的网页信息处理方法,其特征在于,若确定有至少两个所述第二候选网页,分别计算所述至少两个第二候选网页的相关度分数,并输出至少一个所述第二候选网页;其中,所述至少一个第二候选网页的相关度分数值大于其它第二候选网页的相关度分数值。
5.根据权利要求4所述的网页信息处理方法,其特征在于,所述相关度分数的计算方法为:
ζ(p,q)=α*δ(p.i,q.i)+(1-α)*θ(p.d,q.d)
其中,p表示所述第一候选网页,q表示查询条件,p.i表示所述第一候选网页的时间间隔范围,q.i表示所述查询时间间隔的范围,p.d表示所述第一候选网页的文本信息集合,q.d表示所述查询关键字集合,δ(p.i,q.i)表示所述第一候选网页与所述查询时间间隔的时间间隔相似度,θ(p.k,q.k)表示所述第一候选网页与所述查询关键字的关键字相关度,α为查询偏好率,用于权衡所述时间间隔相似度和关键字相关度的相对影响;
其中,所述时间间隔相似度的计算方法为:
<mrow> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>.</mo> <mi>i</mi> <mo>,</mo> <mi>q</mi> <mo>.</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mi>p</mi> <mo>.</mo> <mi>i</mi> <mo>&amp;cap;</mo> <mi>q</mi> <mo>.</mo> <mi>i</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>p</mi> <mo>.</mo> <mi>i</mi> <mo>&amp;cup;</mo> <mi>q</mi> <mo>.</mo> <mi>i</mi> <mo>|</mo> </mrow> </mfrac> </mrow>
所述关键字相关度的计算方法为:
<mrow> <mi>&amp;theta;</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>.</mo> <mi>d</mi> <mo>,</mo> <mi>q</mi> <mo>.</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>q</mi> <mo>.</mo> <mi>d</mi> </mrow> </msub> <msub> <mi>&amp;omega;</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>p</mi> <mo>.</mo> <mi>d</mi> </mrow> </msub> <mo>.</mo> <msub> <mi>&amp;omega;</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>p</mi> <mo>.</mo> <mi>d</mi> </mrow> </msub> </mrow> <msqrt> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>q</mi> <mo>.</mo> <mi>d</mi> </mrow> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>&amp;omega;</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>p</mi> <mo>.</mo> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>q</mi> <mo>.</mo> <mi>d</mi> </mrow> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>&amp;omega;</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>p</mi> <mo>.</mo> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> <mo>,</mo> </mrow>
<mrow> <msub> <mi>&amp;omega;</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>p</mi> <mo>.</mo> <mi>d</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>+</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>p</mi> <mo>.</mo> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>&amp;omega;</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>q</mi> <mo>.</mo> <mi>d</mi> </mrow> </msub> <mo>=</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msub> <mi>idf</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>D</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>idf</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>D</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>D</mi> <mi>q</mi> </mrow> <mrow> <msub> <mi>df</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>D</mi> </mrow> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,ft,p.d表示所述待检索网页的文本信息集合p.d中关键字t的出现频率,D表示所述第一候选网页的集合,Dq表示所述第一候选网页的数量,dft,D表示D中包含所述查询关键字t的网页的个数。
6.根据权利要求1至3任一项所述的网页信息处理方法,其特征在于,所述根据所述待检索网页的时间间隔信息将所述待检索网页的集合划分为多个区域具体包括:根据所述待检索网页的时间间隔信息,通过z-order多维映射函数计算出所述待检索网页的Z-order值,根据所述Z-order值的排序将所述待检索网页的集合划分为Z-order值域不关联的多个区域。
7.一种网页信息处理装置,其特征在于,包括:
获取模块,用于获取待检索网页的时间间隔信息;
划分模块,用于根据所述待检索网页的时间间隔信息将所述待检索网页的集合划分为多个区域,并通过线段树结构将所述时间间隔信息构成的时间间隔集合划分成若干单元时间间隔,
倒排线段树索引构建模块,用于基于所述单元时间间隔为每个区域添加倒排线段树索引;倒排线段树索引是指利用z-order曲线对于待检索网页集合进行聚簇,将所述待检索网页集合划分为z-order值域不关联的子集区域;
第一确定模块,用于根据查询时间间隔以及每个区域的倒排线段树索引分别对每个区域内的待检索网页进行检索,确定与所述查询时间间隔关联的第一候选网页;
第二确定模块,用于从所述第一候选网页中确定包含查询关键字的第二候选网页;
输出模块,用于输出所述第二候选网页。
8.根据权利要求7所述的网页信息处理装置,其特征在于,所述倒排线段树索引构建模块具体用于:
基于所述单元时间间隔对每个区域中的待检索网页构建线段树索引;
通过节点摘要文件存储所述线段树中每个待检索网页的文本统计信息;
通过节点倒排索引表存储每个区域的待检索网页的倒排列表。
9.根据权利要求7或8所述的网页信息处理装置,其特征在于,还包括计算模块,用于当所述第二确定模块确定有至少两个所述第二候选网页时,分别计算所述至少两个第二候选网页的相关度分数;
所述输出模块用于输出至少一个所述第二候选网页;其中,所述至少一个第二候选网页的相关度分数值大于其它第二候选网页的相关度分数值。
10.根据权利要求7或8所述的网页信息处理装置,其特征在于,所述划分模块具体用于:根据所述待检索网页的时间间隔信息,通过z-order多维映射函数计算出所述待检索网页的Z-order值,根据所述Z-order值的排序将所述待检索网页的集合划分为Z-order值域不关联的多个区域。
CN201510229707.4A 2015-05-07 2015-05-07 网页信息处理方法及装置 Active CN104794237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510229707.4A CN104794237B (zh) 2015-05-07 2015-05-07 网页信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510229707.4A CN104794237B (zh) 2015-05-07 2015-05-07 网页信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN104794237A CN104794237A (zh) 2015-07-22
CN104794237B true CN104794237B (zh) 2018-04-27

Family

ID=53559029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510229707.4A Active CN104794237B (zh) 2015-05-07 2015-05-07 网页信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN104794237B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628950B (zh) * 2018-04-04 2022-07-19 昆明理工大学 一种基于文本-域倒排的空间文本查询方法及装置
CN109063222B (zh) * 2018-11-04 2021-11-30 朗威寰球(北京)科技集团有限公司 一种基于大数据的自适应数据搜索方法
CN112328640A (zh) * 2020-11-10 2021-02-05 杭州趣链科技有限公司 数据查询方法、装置、系统和数据集处理方法
CN112328639A (zh) * 2020-11-10 2021-02-05 杭州趣链科技有限公司 数据查询方法、装置、系统以及数据集处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1802645A (zh) * 2003-05-08 2006-07-12 西门子公司 用于建立和更新用户界面以访问数据网络中的信息页面的方法和装置
CN101369276A (zh) * 2008-09-28 2009-02-18 杭州电子科技大学 一种Web浏览器缓存数据的取证方法
CN103377238A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 处理网页信息的方法及浏览器
CN103778175A (zh) * 2012-10-18 2014-05-07 富士胶片株式会社 网页阅览服务器、网页阅览系统、以及网页阅览方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886637B2 (en) * 2008-05-12 2014-11-11 Enpulz, L.L.C. Web browser accessible search engine which adapts based on user interaction
US20140108413A1 (en) * 2012-10-11 2014-04-17 Dell Products L.P. Responsive Images Service
US20140181033A1 (en) * 2012-12-21 2014-06-26 Commvault Systems, Inc. Systems and methods to track deleted files
US20140278573A1 (en) * 2013-03-15 2014-09-18 State Farm Mutual Automobile Insurance Company Systems and methods for initiating insurance processing using ingested data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1802645A (zh) * 2003-05-08 2006-07-12 西门子公司 用于建立和更新用户界面以访问数据网络中的信息页面的方法和装置
CN101369276A (zh) * 2008-09-28 2009-02-18 杭州电子科技大学 一种Web浏览器缓存数据的取证方法
CN103377238A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 处理网页信息的方法及浏览器
CN103778175A (zh) * 2012-10-18 2014-05-07 富士胶片株式会社 网页阅览服务器、网页阅览系统、以及网页阅览方法

Also Published As

Publication number Publication date
CN104794237A (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
CN102722553B (zh) 基于用户日志分析的分布式倒排索引组织方法
CN107038207A (zh) 一种数据查询方法、数据处理方法及装置
CN106951526B (zh) 一种实体集扩展方法及装置
CN106528787A (zh) 一种基于海量数据多维分析的查询方法及装置
CN104794237B (zh) 网页信息处理方法及装置
CN104408159B (zh) 一种数据关联、加载、查询方法及装置
JP6243045B2 (ja) グラフデータクエリ方法および装置
CN107103032A (zh) 一种分布式环境下避免全局排序的海量数据分页查询方法
CN105989076A (zh) 一种数据统计方法以及装置
Deshpande et al. Efficient reverse skyline retrieval with arbitrary non-metric similarity measures
CN108052514A (zh) 一种处理地理文本Skyline查询的混合空间索引机制
CN107943952A (zh) 一种基于Spark框架进行全文检索的实现方法
CN107918642A (zh) 数据查询方法、服务器及计算机可读存储介质
CN104407879A (zh) 一种电网时序大数据并行加载方法
WO2013138441A1 (en) Systems, methods, and software for computing reachability in large graphs
CN104221015A (zh) 图像检索装置、图像检索方法、程序以及计算机可读取的存储介质
CN112560444A (zh) 文本处理方法、装置、计算机设备和存储介质
CN109033295A (zh) 超大数据集的合并方法及装置
CN108764307A (zh) 自然最近邻优化的密度峰值聚类方法
CN109033173A (zh) 一种用于生成多维指标数据的数据处理方法及装置
CN103324762A (zh) 基于Hadoop的索引创建方法及其索引方法
CN106250456A (zh) 一种中标公告的抽取方法及装置
JP2019204475A (ja) Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法
US20150012563A1 (en) Data mining using associative matrices
CN104537016B (zh) 一种确定文件所在分区的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant