CN104462457A

CN104462457A - 一种面向内部搜索引擎的信息更新检测方法

Info

Publication number: CN104462457A
Application number: CN201410783400.4A
Authority: CN
Inventors: 李玉坤; 卞智繁
Original assignee: YUNQI SIYUAN (TIANJIN) TECHNOLOGY Co Ltd
Current assignee: YUNQI SIYUAN (TIANJIN) TECHNOLOGY Co Ltd
Priority date: 2014-12-16
Filing date: 2014-12-16
Publication date: 2015-03-25

Abstract

一种面向内部搜索引擎的信息更新检测方法，该方法通过采用网络爬虫技术，将网站的URL信息在不同时段内进行多次重复集成，形成数据集；集成后，通过分析不同时段下的相同的URL所对应的网页长度，判读其是否相同，从而判断该网页是否存在更新；通过计算网页的更新周期，重新定义网页的更新时间，从而减少爬虫程序的集成时间，同时也提高了集成效率。本发明将该信息更新方法与内部搜索引擎结合起来，针对企业内部信息搜索更新缓慢的问题，提出以上解决方案。该方法简明实用，同时，可以极大的满足客户的需求。便于查找所需信息，提高工作效率。

Description

一种面向内部搜索引擎的信息更新检测方法

技术领域

本发明涉及企业信息管理领域，尤其是涉及一种面向企业内部搜索引擎的信息更新监测方法。

背景技术

互联网信息的爆炸性增长，为广大用户提供了更多可用资源。如何有效地找到最有价值的信息成为了人们普遍遇到的问题。随着各大搜索引擎(如百度、Google等)的完善及优化，用户能够更加快速、准确地找到所需要的信息。垂直搜索引擎的出现，则是为了更好的满足部分用户的特定需求，它是针对某一个行业建立的专业搜索引擎，是搜索引擎的细分和延伸。对一些组织和企业而言，随着内部信息量的不断增大，企业员工或组织内部的成员需要及时检索本单位内部的信息，因而面向企业(组织)的内部搜索引擎应运而生，其目的是为内部人员提供一种快速、准确地找到所需信息的通道。

对于企业(组织)内部搜索引擎而言，其需要索引的网页的范围与数量和传统的互联网搜索引擎(例如百度、Google等)大不相同，而对其性能的要求也不一样。比如，对于传统搜索引擎而言，其搜索范围过于宽广，往往不能及时发现更新的网页。而垂直搜索引擎则是面向专业领域的搜索，搜索领域也过于宽泛。对于一个企业网站或者校园门户网站而言，制定一个属于自己的内部搜索引擎就显得极为重要。

建立内部搜索引擎过程中最重要的步骤是对于网站信息的集成和更新。而目前的普遍方法是通过遍历整个网站，每次都要利用爬虫将网页信息爬取并存储下来，无疑会消耗大量的时间，间接地加大了信息的更新周期，从而降低了搜索的准确率。

面向企业内部搜索引擎的信息更新检测方法可以有效的提高网站信息的更新效率，为用户查询，检索提高了准确性，本发明就是针对这一问题的。

发明内容

本发明目的是克服现有技术存在的上述问题，提出一种面向企业内部搜索引擎的信息更新监测方法。

本发明是基于通过发明人编写爬虫程序收集大量的网站信息并进行分析得出的，主要针对传统内部搜索引擎当中信息更新速度慢而造成用户无法及时获取最新讯息的问题。当用户在庞大的企业内部网站中想要查询一条最新的通知或者是一些相关的文档时，很难及时找到所需要的信息，而采用传统遍历更新的方法，即耗费计算资源，也难以及时发现网站最新的信息。

本发明针对企业内部搜索引擎中信息更新缓慢的问题，在遍历更新的基础上，考虑到网页更新频率的快慢，制定分级更新策略。因而能够在最短的时间内及时发现更新的信息。本发明提供的基于内部搜索引擎更新方法的具体步骤包括：

第1，通过网络爬虫程序将目标网站的网页信息通过URL超链接进行集成，将URL信息存入数据库，并基于网页之间的链接关系构造一个树状数据结构，其中每个节点是一个网页，如果P是Q的父节点，表示P网页有超链接指向Q网页；

第2，以相同的时间间隔，基于上述树形结构，对于网站的每个网页信息进行多次收集，并记录网页更新状态，形成一个记录网页更新情况的数据表；

第2.1遍历每个URL，对其对应的网页进行长度分析，并将网页长度信息存入数据表，形成包含每个网页在特点时间点的长度信息的数据表；

第2.2对于相邻时间点集成的相同的URL信息，分析其网页长度变化，如有变化则认为该网页存在更新；否则，不存在更新；

第2.3针对每个网页，计算其所有更新的时间间隔，进一步得到其平均更新时间；

第3，基于每个URL的平均更新时间自适应地调整每个网页的更新时间间隔；

第3.1为每个URL定义一个初始更新时间P₀；

第3.2假设在时间点T_i，一个URL所指向的网页的更新时间为P_i，如果在时间点T_i+P_i，检测到该网页的状态为已更改，则调整其更新周期为：P_i/2，否则调整为P_i×2；

第4结合企业内部搜索引擎，基于每个网页的更新周期P，实现对网页的及时更新。

第5基于该更新方法建立企业内部搜索引擎。

本发明的优点和有益效果：

本发明将一种新的网页信息更新检测方法与企业内部搜索引擎相结合，针对企业信息查询返回结果的不及时性问题，提出解决方案，该方法具有独特的创造性，既可以应用到企业内部搜索引擎当中，也可在垂直搜索引擎中实现其价值。

本发明方法新颖，具有简洁实用、容易实现的特性，同时还可以大大减少用户的文件查询时间，便于用户查询所需信息。

附图说明

图1是本发明面向企业内部搜索引擎的信息更新监测方法的方框图；

图2是本发明的信息更新的具体流程图；

为了更全面地理解本发明及其优点，下面结合附图及具体实施例对本发明做进一步详细地说明。

具体实施方式

本发明涉及的几个概念

网页结构树

企业内部网站的网页信息可以组织为一个树形结构，其中每个节点是一个网页，如果P是Q的父节点，表示P网页有超链接指向Q网页

网页更新：

网页更新是指网页内容的变化。为提高算法效率，用网页长度的变化近似代表网页内容的变化，每次访问网页会将网页长度记录到数据库中，并与上次对该页面访问时记录的网页长度进行对比，如果网页文件大小发生改变，该该网页更新；否则，认为没有更新。

有效访问：

如果访问某个网页时发现该网页发生更新，则本次访问为有效访问。

更新时间差：

对于同一节点的相邻两次有效访问称作更新时间差。

实施例1

下面以一个例子来说明基于企业内部搜索的信息更新检测方法，并且对以上概念进行实例的说明。

第一，信息集成

如图1，给定一个企业网站入口，对该网站进行广度优先遍历，集成网页当中的URL信息。具体如下：将初始入口网页URL加入到未访问队列Q；从Q中的队列头取出URL，读取该网页，并将该网页中的超链接URL依次加入到队列Q中；将已访问的URL从Q移除，加入到已访问队列。这样可以避免重复访问，提高集成效率。

第二，计算网页节点平均更新频率并作为网页的初始更新周期

一般情况下，企业内部网站的通知消息的时效性至少为两天左右。基于此，设定检查网页操作时间初始值为t＝1(天)，为网站设定一个为期30天的训练集合，如下表，其显示一个网页30天的更新情况，flag＝1表示发生更新，n表示第n次更新。基于此来计算其网页更新频度。

t	flag	n	t	Flag	n	t	flag	n
									t＝1	1	1	t＝11	1	5	t＝21	0
t＝2	0		t＝12	0		t＝22	0
									t＝3	0		t＝13	0		t＝23	0
t＝4	1	2	t＝14	1	6	t＝24	0
									t＝5	0		t＝15	0		t＝25	1	8
t＝6	0		t＝16	0		t＝26	0
									t＝7	0		t＝17	1	7	t＝27	0
t＝8	1	3	t＝18	0		t＝28	0
									t＝9	1	4	t＝19	0		t＝29	1	9
t＝10	0		t＝20	0		t＝30	0

如图2，如果判定一个网页Pi为更新，则更新标记flag为1，否则flag为0。对于初次访问的节点，默认其flag＝1。

其更新时间差等于相邻两次有效访问更新时间的差值

其表达式为Δt_n＝tn-t_n-1,其中n〉1；当n＝1时，Δt₁＝t₁＝1

由以上公式得

Δt₂＝t₂-t₁＝4-1＝3

Δt₃＝t₃-t₂＝8-4＝4

Δt₄＝t₄-t₃＝9-8＝1

Δt₅＝t₅-t₄＝11-9＝2

Δt₆＝t₆-t₅＝14-11＝3

Δt₇＝t₇-t₆＝17-14＝3

Δt₈＝t₈-t₇＝25-17＝8

Δt₉＝t₉-t₈＝29-25＝4

定义节点平均更新频率(ω)的计算公式如下：

ω = Σ_{n = 2}^{n} (t_{n} - t_{n - 1}) / (n - 1)

其中当n＝1时，t₁＝1，n为有效访问次数。

因此，结合以上的更新时间表和公式，可以得到节点的平均更新频率：ω=3+4+1+2+3++3+8+4/8＝3.5

通过计算，对于该网页的集成周期就可以设定为3.5天一次，对于其他网页也是一样。这样就可以通过分级更新，将最初的一个任务分解为多个子任务，可以大大的提高集成效率。

第三，动态更新网页及其更新周期

1.将每个网页的平均更新频率设定为该网页的初始更新周期。

2.对网页树进行广度优先扫描。当扫描到网页P的URL，计算距离上次访问P的时间间隔T'，如果T'大于等于P的更新周期，则访问P并计算网页P的长度，并与上次访问P时记录的长度进行比较。

3.若长度不相等，则证明网页P发生了变化，对网页P重新信息抽取和处理，且调整P的更新周期为：P_i/2，否则不访问网页P，且将其更新周期调整为P_i×2。

第四，设计查询接口进行信息查询

通过利用已有的关键字索引等技术，就可以将所扫描集成的网页建立索引，从而可以支持用户基于关键字进行搜索。

通过上述描述可知，本发明方法新颖，具有简洁实用、容易实现的特性，同时还可以大大减少用户的查找文件的时间，便于用户查找企业文件，文档，以及最新通知，提高工作效率。

对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此，具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此，在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下，可对其做出各种修改。

Claims

1.一种面向内部搜索引擎的信息更新检测方法，其特征在于该方法包括：

第1，通过网络爬虫程序将目标网站的网页信息通过URL(超链接)进行集成，然后将URL信息存入数据库，并基于网页之间的连接关系构造一个树状的数据结构，其中每个节点是一个网页，如果P是Q的父节点，表示P网页有超链接指向Q网页；

第2，以相同的时间间隔为周期，基于上述树形结构，对于网站的每个网页信息进行多次收集，并记录网页更新状态，形成一个记录网页更新情况的数据集；

第2.1遍历每个URL，对其对应的网页进行长度分析，并将网页长度信息存入数据表，形成包含每个网页长度信息的数据集；

第2.2对于相邻周期集成的相同的URL信息，分析其网页长度变化，如有变化则认为该网页存在更新；否则，不存在更新；

第2.3通过计算网页的更新时间间隔，得到每个网页的平均更新时间；

第3.1为每个URL定义一个初始更新时间P₀；