CN104462457A - 一种面向内部搜索引擎的信息更新检测方法 - Google Patents

一种面向内部搜索引擎的信息更新检测方法 Download PDF

Info

Publication number
CN104462457A
CN104462457A CN201410783400.4A CN201410783400A CN104462457A CN 104462457 A CN104462457 A CN 104462457A CN 201410783400 A CN201410783400 A CN 201410783400A CN 104462457 A CN104462457 A CN 104462457A
Authority
CN
China
Prior art keywords
webpage
time
url
information
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410783400.4A
Other languages
English (en)
Inventor
李玉坤
卞智繁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YUNQI SIYUAN (TIANJIN) TECHNOLOGY Co Ltd
Original Assignee
YUNQI SIYUAN (TIANJIN) TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YUNQI SIYUAN (TIANJIN) TECHNOLOGY Co Ltd filed Critical YUNQI SIYUAN (TIANJIN) TECHNOLOGY Co Ltd
Priority to CN201410783400.4A priority Critical patent/CN104462457A/zh
Publication of CN104462457A publication Critical patent/CN104462457A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种面向内部搜索引擎的信息更新检测方法,该方法通过采用网络爬虫技术,将网站的URL信息在不同时段内进行多次重复集成,形成数据集;集成后,通过分析不同时段下的相同的URL所对应的网页长度,判读其是否相同,从而判断该网页是否存在更新;通过计算网页的更新周期,重新定义网页的更新时间,从而减少爬虫程序的集成时间,同时也提高了集成效率。本发明将该信息更新方法与内部搜索引擎结合起来,针对企业内部信息搜索更新缓慢的问题,提出以上解决方案。该方法简明实用,同时,可以极大的满足客户的需求。便于查找所需信息,提高工作效率。

Description

一种面向内部搜索引擎的信息更新检测方法
技术领域
本发明涉及企业信息管理领域,尤其是涉及一种面向企业内部搜索引擎的信息更新监测方法。
背景技术
互联网信息的爆炸性增长,为广大用户提供了更多可用资源。如何有效地找到最有价值的信息成为了人们普遍遇到的问题。随着各大搜索引擎(如百度、Google等)的完善及优化,用户能够更加快速、准确地找到所需要的信息。垂直搜索引擎的出现,则是为了更好的满足部分用户的特定需求,它是针对某一个行业建立的专业搜索引擎,是搜索引擎的细分和延伸。对一些组织和企业而言,随着内部信息量的不断增大,企业员工或组织内部的成员需要及时检索本单位内部的信息,因而面向企业(组织)的内部搜索引擎应运而生,其目的是为内部人员提供一种快速、准确地找到所需信息的通道。
对于企业(组织)内部搜索引擎而言,其需要索引的网页的范围与数量和传统的互联网搜索引擎(例如百度、Google等)大不相同,而对其性能的要求也不一样。比如,对于传统搜索引擎而言,其搜索范围过于宽广,往往不能及时发现更新的网页。而垂直搜索引擎则是面向专业领域的搜索,搜索领域也过于宽泛。对于一个企业网站或者校园门户网站而言,制定一个属于自己的内部搜索引擎就显得极为重要。
建立内部搜索引擎过程中最重要的步骤是对于网站信息的集成和更新。而目前的普遍方法是通过遍历整个网站,每次都要利用爬虫将网页信息爬取并存储下来,无疑会消耗大量的时间,间接地加大了信息的更新周期,从而降低了搜索的准确率。
面向企业内部搜索引擎的信息更新检测方法可以有效的提高网站信息的更新效率,为用户查询,检索提高了准确性,本发明就是针对这一问题的。
发明内容
本发明目的是克服现有技术存在的上述问题,提出一种面向企业内部搜索引擎的信息更新监测方法。
本发明是基于通过发明人编写爬虫程序收集大量的网站信息并进行分析得出的,主要针对传统内部搜索引擎当中信息更新速度慢而造成用户无法及时获取最新讯息的问题。当用户在庞大的企业内部网站中想要查询一条最新的通知或者是一些相关的文档时,很难及时找到所需要的信息,而采用传统遍历更新的方法,即耗费计算资源,也难以及时发现网站最新的信息。
本发明针对企业内部搜索引擎中信息更新缓慢的问题,在遍历更新的基础上,考虑到网页更新频率的快慢,制定分级更新策略。因而能够在最短的时间内及时发现更新的信息。本发明提供的基于内部搜索引擎更新方法的具体步骤包括:
第1,通过网络爬虫程序将目标网站的网页信息通过URL超链接进行集成,将URL信息存入数据库,并基于网页之间的链接关系构造一个树状数据结构,其中每个节点是一个网页,如果P是Q的父节点,表示P网页有超链接指向Q网页;
第2,以相同的时间间隔,基于上述树形结构,对于网站的每个网页信息进行多次收集,并记录网页更新状态,形成一个记录网页更新情况的数据表;
第2.1遍历每个URL,对其对应的网页进行长度分析,并将网页长度信息存入数据表,形成包含每个网页在特点时间点的长度信息的数据表;
第2.2对于相邻时间点集成的相同的URL信息,分析其网页长度变化,如有变化则认为该网页存在更新;否则,不存在更新;
第2.3针对每个网页,计算其所有更新的时间间隔,进一步得到其平均更新时间;
第3,基于每个URL的平均更新时间自适应地调整每个网页的更新时间间隔;
第3.1为每个URL定义一个初始更新时间P0
第3.2假设在时间点Ti,一个URL所指向的网页的更新时间为Pi,如果在时间点Ti+Pi,检测到该网页的状态为已更改,则调整其更新周期为:Pi/2,否则调整为Pi×2;
第4结合企业内部搜索引擎,基于每个网页的更新周期P,实现对网页的及时更新。
第5基于该更新方法建立企业内部搜索引擎。
本发明的优点和有益效果:
本发明将一种新的网页信息更新检测方法与企业内部搜索引擎相结合,针对企业信息查询返回结果的不及时性问题,提出解决方案,该方法具有独特的创造性,既可以应用到企业内部搜索引擎当中,也可在垂直搜索引擎中实现其价值。
本发明方法新颖,具有简洁实用、容易实现的特性,同时还可以大大减少用户的文件查询时间,便于用户查询所需信息。
附图说明
图1是本发明面向企业内部搜索引擎的信息更新监测方法的方框图;
图2是本发明的信息更新的具体流程图;
为了更全面地理解本发明及其优点,下面结合附图及具体实施例对本发明做进一步详细地说明。
具体实施方式
本发明涉及的几个概念
网页结构树
企业内部网站的网页信息可以组织为一个树形结构,其中每个节点是一个网页,如果P是Q的父节点,表示P网页有超链接指向Q网页
网页更新:
网页更新是指网页内容的变化。为提高算法效率,用网页长度的变化近似代表网页内容的变化,每次访问网页会将网页长度记录到数据库中,并与上次对该页面访问时记录的网页长度进行对比,如果网页文件大小发生改变,该该网页更新;否则,认为没有更新。
有效访问:
如果访问某个网页时发现该网页发生更新,则本次访问为有效访问。
更新时间差:
对于同一节点的相邻两次有效访问称作更新时间差。
实施例1
下面以一个例子来说明基于企业内部搜索的信息更新检测方法,并且对以上概念进行实例的说明。
第一,信息集成
如图1,给定一个企业网站入口,对该网站进行广度优先遍历,集成网页当中的URL信息。具体如下:将初始入口网页URL加入到未访问队列Q;从Q中的队列头取出URL,读取该网页,并将该网页中的超链接URL依次加入到队列Q中;将已访问的URL从Q移除,加入到已访问队列。这样可以避免重复访问,提高集成效率。
第二,计算网页节点平均更新频率并作为网页的初始更新周期
一般情况下,企业内部网站的通知消息的时效性至少为两天左右。基于此,设定检查网页操作时间初始值为t=1(天),为网站设定一个为期30天的训练集合,如下表,其显示一个网页30天的更新情况,flag=1表示发生更新,n表示第n次更新。基于此来计算其网页更新频度。
t flag n t Flag n t flag n
t=1 1 1 t=11 1 5 t=21 0
t=2 0 t=12 0 t=22 0
t=3 0 t=13 0 t=23 0
t=4 1 2 t=14 1 6 t=24 0
t=5 0 t=15 0 t=25 1 8
t=6 0 t=16 0 t=26 0
t=7 0 t=17 1 7 t=27 0
t=8 1 3 t=18 0 t=28 0
t=9 1 4 t=19 0 t=29 1 9
t=10 0 t=20 0 t=30 0
如图2,如果判定一个网页Pi为更新,则更新标记flag为1,否则flag为0。对于初次访问的节点,默认其flag=1。
其更新时间差等于相邻两次有效访问更新时间的差值
其表达式为Δtn=tn-tn-1,其中n〉1;当n=1时,Δt1=t1=1
由以上公式得
Δt2=t2-t1=4-1=3
Δt3=t3-t2=8-4=4
Δt4=t4-t3=9-8=1
Δt5=t5-t4=11-9=2
Δt6=t6-t5=14-11=3
Δt7=t7-t6=17-14=3
Δt8=t8-t7=25-17=8
Δt9=t9-t8=29-25=4
定义节点平均更新频率(ω)的计算公式如下:
ω = Σ n = 2 n ( t n - t n - 1 ) / ( n - 1 )
其中当n=1时,t1=1,n为有效访问次数。
因此,结合以上的更新时间表和公式,可以得到节点的平均更新频率:ω=3+4+1+2+3++3+8+4/8=3.5
通过计算,对于该网页的集成周期就可以设定为3.5天一次,对于其他网页也是一样。这样就可以通过分级更新,将最初的一个任务分解为多个子任务,可以大大的提高集成效率。
第三,动态更新网页及其更新周期
1.将每个网页的平均更新频率设定为该网页的初始更新周期。
2.对网页树进行广度优先扫描。当扫描到网页P的URL,计算距离上次访问P的时间间隔T',如果T'大于等于P的更新周期,则访问P并计算网页P的长度,并与上次访问P时记录的长度进行比较。
3.若长度不相等,则证明网页P发生了变化,对网页P重新信息抽取和处理,且调整P的更新周期为:Pi/2,否则不访问网页P,且将其更新周期调整为Pi×2。
第四,设计查询接口进行信息查询
通过利用已有的关键字索引等技术,就可以将所扫描集成的网页建立索引,从而可以支持用户基于关键字进行搜索。
通过上述描述可知,本发明方法新颖,具有简洁实用、容易实现的特性,同时还可以大大减少用户的查找文件的时间,便于用户查找企业文件,文档,以及最新通知,提高工作效率。
对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此,具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此,在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下,可对其做出各种修改。

Claims (1)

1.一种面向内部搜索引擎的信息更新检测方法,其特征在于该方法包括:
第1,通过网络爬虫程序将目标网站的网页信息通过URL(超链接)进行集成,然后将URL信息存入数据库,并基于网页之间的连接关系构造一个树状的数据结构,其中每个节点是一个网页,如果P是Q的父节点,表示P网页有超链接指向Q网页;
第2,以相同的时间间隔为周期,基于上述树形结构,对于网站的每个网页信息进行多次收集,并记录网页更新状态,形成一个记录网页更新情况的数据集;
第2.1遍历每个URL,对其对应的网页进行长度分析,并将网页长度信息存入数据表,形成包含每个网页长度信息的数据集;
第2.2对于相邻周期集成的相同的URL信息,分析其网页长度变化,如有变化则认为该网页存在更新;否则,不存在更新;
第2.3通过计算网页的更新时间间隔,得到每个网页的平均更新时间;
第3,基于每个URL的平均更新时间自适应地调整每个网页的更新时间间隔;
第3.1为每个URL定义一个初始更新时间P0
第3.2假设在时间点Ti,一个URL所指向的网页的更新时间为Pi,如果在时间点Ti+Pi,检测到该网页的状态为已更改,则调整其更新周期为:Pi/2,否则调整为Pi×2;
第4结合企业内部搜索引擎,基于每个网页的更新周期P,实现对网页的及时更新。
CN201410783400.4A 2014-12-16 2014-12-16 一种面向内部搜索引擎的信息更新检测方法 Pending CN104462457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410783400.4A CN104462457A (zh) 2014-12-16 2014-12-16 一种面向内部搜索引擎的信息更新检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410783400.4A CN104462457A (zh) 2014-12-16 2014-12-16 一种面向内部搜索引擎的信息更新检测方法

Publications (1)

Publication Number Publication Date
CN104462457A true CN104462457A (zh) 2015-03-25

Family

ID=52908492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410783400.4A Pending CN104462457A (zh) 2014-12-16 2014-12-16 一种面向内部搜索引擎的信息更新检测方法

Country Status (1)

Country Link
CN (1) CN104462457A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335472A (zh) * 2015-09-30 2016-02-17 北京京东尚科信息技术有限公司 一种更新数据查询引擎配置列表的方法及装置
CN105354258A (zh) * 2015-10-22 2016-02-24 努比亚技术有限公司 一种更新网站数据缓存的装置及方法
CN106055722A (zh) * 2016-07-26 2016-10-26 重庆兆光科技股份有限公司 网页爬虫抓取方法及系统
CN113688146A (zh) * 2021-08-23 2021-11-23 猪八戒股份有限公司 分布式架构高并发下的订单搜索引擎数据刷新方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN104008213A (zh) * 2014-06-24 2014-08-27 电子科技大学 一种网页信息更新发现与统计的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN104008213A (zh) * 2014-06-24 2014-08-27 电子科技大学 一种网页信息更新发现与统计的方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335472A (zh) * 2015-09-30 2016-02-17 北京京东尚科信息技术有限公司 一种更新数据查询引擎配置列表的方法及装置
CN105335472B (zh) * 2015-09-30 2019-03-26 北京京东尚科信息技术有限公司 一种更新数据查询引擎配置列表的方法及装置
CN105354258A (zh) * 2015-10-22 2016-02-24 努比亚技术有限公司 一种更新网站数据缓存的装置及方法
CN105354258B (zh) * 2015-10-22 2019-11-15 努比亚技术有限公司 一种更新网站数据缓存的装置及方法
CN106055722A (zh) * 2016-07-26 2016-10-26 重庆兆光科技股份有限公司 网页爬虫抓取方法及系统
CN113688146A (zh) * 2021-08-23 2021-11-23 猪八戒股份有限公司 分布式架构高并发下的订单搜索引擎数据刷新方法及系统

Similar Documents

Publication Publication Date Title
Shang et al. Parallel trajectory similarity joins in spatial networks
US9305100B2 (en) Object oriented data and metadata based search
US10289700B2 (en) Method for dynamically matching images with content items based on keywords in response to search queries
US8560531B2 (en) Search tool that utilizes scientific metadata matched against user-entered parameters
US8799280B2 (en) Personalized navigation using a search engine
US9116994B2 (en) Search engine optimization for category specific search results
US9141700B2 (en) Search engine optimization with secured search
CN104361102B (zh) 一种基于群组匹配的专家推荐方法及系统
CN103310026B (zh) 一种基于搜索引擎的轻量级通用网页主题爬虫方法
US20120130969A1 (en) Generating context information for a search session
US20120278354A1 (en) User analysis through user log feature extraction
CN103198136B (zh) 一种基于时序关联的个人电脑文件查询方法
US10311053B2 (en) Efficient processing of data extents
CN104462457A (zh) 一种面向内部搜索引擎的信息更新检测方法
US10235387B2 (en) Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries
US20170255653A1 (en) Method for categorizing images to be associated with content items based on keywords of search queries
US20150302090A1 (en) Method and System for the Structural Analysis of Websites
Jiang et al. Application intelligent search and recommendation system based on speech recognition technology
CN103440249A (zh) 一种非结构化数据快速检索的系统及方法
Chen et al. Partition-based range query for uncertain trajectories in road networks
US20120246134A1 (en) Detection and analysis of backlink activity
CN104951503A (zh) 一种新鲜度敏感的大数据概要信息维护及聚合值查询方法
Chuang et al. Effective web crawling for chinese addresses and associated information
US20100169334A1 (en) Peer-to-peer web search using tagged resources
Thelwall et al. Webometrics: An introduction to the special issue

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150325