CN106156104A

CN106156104A - 爬取企业内网信息的方法及装置

Info

Publication number: CN106156104A
Application number: CN201510155628.3A
Authority: CN
Inventors: 陈佃晓
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2015-04-02
Filing date: 2015-04-02
Publication date: 2016-11-23

Abstract

本发明是关于一种爬取企业内网信息的方法、装置及服务器。其中，所述方法，包括：利用网络爬虫从指定企业局域网内的目标内容源中爬取内容信息；根据爬取到的所述内容信息，构建信息索引；将所述信息索引反馈至指定服务器，以供企业内部定制的搜索引擎进行检索。本发明实施例提供的技术方案整合了企业局域网内的信息资源，进而能有效的提高员工检索企业内部信息的工作效率，加强了企业内部知识的共享。

Description

爬取企业内网信息的方法及装置

技术领域

本发明涉及一种计算机领域，特别是涉及一种爬取企业内网信息的方法及系统。

背景技术

随着企业的规模逐渐扩大，许多员工积累的经验与技术知识逐渐形成一个技术及管理经验知识库，公司也形成丰富的企业文化知识。在大型企业中还存在着多种知识库，公司文化库，采购知识库等等。目前，网络信息资源的应用在企业内部及企业间得到快速发展和广泛的应用，企业员工需要接收和处理的信息量每年成倍的增长；Web文档作为企业内部网络信息资源的重要载体，包含了企业大量有价值的相关资源。

但由于许多大型企业内部众多独立的Web资源系统，Web文档的格式和内容大部分都为半结构化和分散形式存在，企业人员很难在大量的Web文档中找到有价值的信息，给企业员工在信息检索方面带来很大的烦恼，也使得企业内部的很多资源没能得到充分的共享。

发明内容

鉴于上述问题，提出了本发明以便于提供一种克服上述问题或者至少部分地解决上述问题的爬取企业内网信息的方法及装置。

依据本发明的第一个方面，提供了一种爬取企业内网信息的方法，包括：

利用网络爬虫从指定企业局域网内的目标内容源中爬取内容信息；

根据爬取到的所述内容信息，构建信息索引；

将所述信息索引反馈至指定服务器，以供企业内部定制的搜索引擎进行检索。

依据本发明的第二个方面，提供了一种爬取企业内网信息的装置，包括：

爬取模块，用于利用网络爬虫从指定企业局域网内的目标内容源中爬取内容信息；

构建模块，用于根据爬取到的所述内容信息，构建信息索引；

反馈模块，用于将所述信息索引反馈至指定服务器，以供企业内部定制的搜索引擎进行检索。

依据本发明的第三个方面，提供了一种服务器，包括爬取企业内网信息的装置，其中，所述爬取企业内网信息的装置，包括：

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明实施例提供的技术方案利用网络爬虫爬取指定企业局域网内的目标内容源中的内容信息，然后根据内容信息构建信息索引，最后再将信息索引反馈至指定服务器，以供企业内部定制的搜索引擎进行检索，整合了企业局域网内的信息资源，进而能有效的提高员工检索企业内部信息的工作效率，加强了企业内部知识的共享。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例一提供的爬取企业内网信息的方法的流程示意图；

图2示出了本发明实施例一提供的爬取企业内网信息的方法中步骤101的一种具体实现实例的流程示意图；

图3示出了本发明实施例二提供的爬取企业内网信息的装置的结构示意图；

图4示出了本实施例三提供的所述服务器的一种实现结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例一提供的爬取企业内网信息的方法的流程示意图。本实施例提供的所述的方法的执行主体可以是能够实现下述方法的装置，该装置可以是实体装置(如服务器)，还可以是虚拟装置(如爬虫程序)。具体的，本实施例所述的方法包括：

步骤101、利用网络爬虫从指定企业局域网内的目标内容源中爬取内容信息。

其中，所述的内容信息为WEB文档。其中，所述WEB文档为包含有企业内部网络的工作内容、企业客户信息、企业即时通信信息、企业人事信息或企业产品信息等的文档。本发明实施例对所述WEB文档包含的内容不作具体限定。所述目标内容源包括：企业数据库、网页、文件和单据等中的任意一种或多种。

网络爬虫主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。即在具体实施例时，本步骤可采用如下方法实现：

首先，利用网络爬虫获取所述指定企业局域网内的目标内容源的网络全局位置。

其中，所述网络全局位置包括至少一个IP地址。具体的，本步骤：利用网络爬虫获取所述指定企业局域网内的目标内容源的网络全局位置，可采用如下方法实现，如图2所示：

步骤S11、利用网络爬虫得到所述指定企业局域网内的待爬取统一资源定位符URL队列，所述URL队列中包含有至少一个待爬取URL。

步骤S12、从所述URL队列中提取待爬取的URL。

步骤S13、根据所述待爬取的URL，解析出域名解析系统DNS，并得到服务器的IP地址。

然后，从所述网络全局位置指向的服务器中保存的目标内容源中爬取所述内容信息。

步骤S14、根据所述IP地址，从所述IP地址指向的服务器中下载所述待爬取的URL对应的WEB文档。

在实际应用中，URL对应的WEB文档中可能还包含有链接，该步骤还可包括：

步骤S15、将已下载WEB文档对应的URL保存在已抓取URL队列中。

步骤S16、对已抓取URL队列中的URL进行分析。

步骤S17、当分析得出所述URL还存在有下一级URL时，将所述下一级URL放入所述待抓取URL队列中。

具体的，本实施例提供的所述网络爬虫的基本结构(如图2所示)，其工作流程如下：

步骤S21、首先网络爬虫选取种子URL。

步骤S22、将这些种子URL放入待爬取URL队列

步骤S23、从待爬取URL队列中取出待爬取的URL，解析DNS，并且得到主机的IP，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已爬取URL队列。

步骤S24、分析已爬取URL队列中的URL，分析其中的其他URL，并且将URL放入待爬取URL队列，从而进入下一个循环。

待爬取URL队列是很重要的一部分。待爬取URL队列中的URL以什么样的顺序排列也是一个很重要的问题，因为这涉及到先爬取哪个页面，后爬取哪个页面。而决定这些URL排列顺序的方法，叫做网络爬虫的爬取策略。

第一种爬取策略：深度优先遍历策略

深度优先遍历策略时指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。

第二种爬取策略：宽度优先遍历策略

宽度优先遍历策略的基本思路是，将新下载网页中发现的链接直接插入待爬取URL队列的末尾。也就是指网络爬虫会先爬取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续爬取在此网页中链接的所有网页。

第二种爬取策略：反向链接数策略

反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此，很多时候搜索引擎的爬取系统会使用这个指标来评价网页的重要程度，从而决定不同网页的爬取先后顺序。

步骤102、根据爬取到的所述内容信息，构建信息索引。

在具体实施例时，本实施例可针对内容信息获得的不同格式的文件/数据将其中需要索引的部分提取出来，再使用不同语言处理模块对其进行处理和标准化，生成信息索引。多个内容索引即可构建出所述信息索引。

步骤103、将所述信息索引反馈至指定服务器，以供企业内部定制的搜索引擎进行检索。

其中，所述指定服务器为所述指定企业局域网内的服务器，或为第三方提供商提供的服务器。

本实施例提供的技术方案利用网络爬虫爬取指定企业局域网内的目标内容源中的内容信息，然后根据内容信息构建信息索引，最后再将信息索引反馈至指定服务器，以供企业内部定制的搜索引擎进行检索，整合了企业局域网内的信息资源，进而能有效的提高员工检索企业内部信息的工作效率，加强了企业内部知识的共享。

互联网是实时变化的，具有很强的动态性，去除一些死链接和/或更新一些信页面是非常必要的。即本发明实施例提供的所述方法，还包括如下步骤：

设定爬取周期，按设定的爬取周期从所述目标内容源中爬取所述内容信息。

其中，上述的设定的爬去周期可此采用相应的网页更新策略的得到。具体的，网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略有一下几种：

1、历史参考策略

根据页面以往的历史更新数据，预测该页面未来何时会发生变化。一般来说，是通过泊松过程进行建模进行预测。

2、用户体验策略

尽管搜索引擎针对于某个查询条件能够返回数量巨大的结果，但是用户往往只关注前几页结果。因此，爬取系统可以优先更新那些现实在查询结果前几页中的网页，而后再更新那些后面的网页。这种更新策略也是需要用到历史信息的。

3、聚类抽样策略

前面提到的两种更新策略都有一个前提：需要网页的历史信息。这样就存在两个问题：第一，系统要是为每个系统保存多个版本的历史信息，无疑增加了很多的系统负担；第二，要是新的网页完全没有历史信息，就无法确定更新策略。

这种策略认为，网页具有很多属性，类似属性的网页，可以认为其更新频率也是类似的。要计算某一个类别网页的更新频率，只需要对这一类网页抽样，以他们的更新周期作为整个类别的更新周期。

进一步的，在web文档爬取中，常常发现检索引擎返回存在重复的WEB文档，为避免重复爬取及后续web文档聚类，需要排除这些重复的文档。这里采取基于URL链接去重的方式进行Web文档去重。即，本发明实施例提供的所述的方法，还包括：对爬取到的所述内容信息进行去重处理。

需要说明的是：对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

如图3所示，本发明实施例二提供的爬取企业内网信息的装置的结构示意图。本实施例提供的所述装置可实现上述实施例提供的所述方法。具体的，所述的装置包括：爬取模块1、构建模块2和反馈模块3。其中，

爬取模块1，用于利用网络爬虫从指定企业局域网内的目标内容源中爬取内容信息。

构建模块2，用于根据爬取到的所述内容信息，构建信息索引。

反馈模块3，用于将所述信息索引反馈至指定服务器，以供企业内部定制的搜索引擎进行检索。

进一步的，上述的指定服务器可以为所述指定企业局域网内的服务器，或为第三方提供商提供的服务器。

进一步的，所述的内容信息为WEB文档；其中，

所述WEB文档为包含有企业内部网络的工作内容、企业客户信息、企业即时通信信息、企业内部邮件信息、企业人事信息或企业产品信息的文档。

进一步的，上述的爬取模块还可采用如下结构实现。具体的，爬取模块，包括：获取单元和爬取单元。其中，获取单元，用于利用网络爬虫获取所述指定企业局域网内的目标内容源的网络全局位置。爬取单元，用于从所述网络全局位置指向的服务器中保存的目标内容源中爬取所述内容信息。

再进一步的，上述的网络全局位置包括至少一个IP地址。

再进一步的，上述的获取单元，可具体用于：

利用网络爬虫得到所述指定企业局域网内的待爬取统一资源定位符URL队列，所述URL队列中包含有至少一个待爬取URL；

从所述URL队列中提取待爬取的URL；

根据所述待爬取的URL，解析出域名解析系统DNS，并得到服务器的IP地址。

再进一步的，上述的爬取单元，可具体用于：

根据所述IP地址，从所述IP地址指向的服务器中下载所述待爬取的URL对应的WEB文档。

进一步的，本实施例提供的所述爬取企业内网信息的装置还可包括：处理模块。其中，所述处理模块，具体用于：

将已下载WEB文档对应的URL保存在已抓取URL队列中；

对已抓取URL队列中的URL进行分析；

当分析得出所述URL还存在有下一级URL时，将所述下一级URL放入所述待抓取URL队列中。

进一步的，本实施例提供的所述爬取企业内网信息的装置还可包括：设定模块。其中，所述设定模块，用于设定爬取周期，按设定的爬取周期从所述目标内容源中爬取所述内容信息。

本发明实施例三提供的一种服务器。其中，所述服务器包括：爬取企业内网信息的装置。该爬取企业内网信息的装置，具体用于：

根据爬取到的所述内容信息，构建信息索引；

具体的，本实施例提供的所述爬取企业内网信息的装置可采用上述实施例二提供的装置来实现，即本实施例提供的所述装置的实现结构及实现原理可参见上述实施例中的相应内容，此处不再赘述。

本实施例中所述的爬取企业内网信息的装置可以是安装在所述服务器上的应用程序，也可以是设置在所述服务器中并与所述服务器中的处理器通信连接的具有上述功能的逻辑电路或芯片。

具体的，图4示出了本实施例三提供的所述服务器的一种实现结构示意图。如图4所示，本实施例三所述的服务器50包括：处理器51和存储器53。其中，所述处理器51和所述存储器53通过通信线路54完成相互间的通信。所述处理器51用于执行应用程序531。所述存储器53用于存放所述应用程序531。其中，所述应用程序531为爬取企业内网信息的装置，该应用程序用于：

根据爬取到的所述内容信息，构建信息索引；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及交换机中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例提供的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A1、一种爬取企业内网信息的方法，包括：

根据爬取到的所述内容信息，构建信息索引；

A2、如A1所述的方法，所述指定服务器为所述指定企业局域网内的服务器，或为第三方提供商提供的服务器。

A3、如A1或A2所述的方法，所述的内容信息为WEB文档；其中，

A4、如A3所述的方法，所述利用网络爬虫从指定企业局域网内的目标内容源中爬取内容信息，包括：

利用网络爬虫获取所述指定企业局域网内的目标内容源的网络全局位置；

从所述网络全局位置指向的服务器中保存的目标内容源中爬取所述内容信息。

A5、如A4所述的方法，所述网络全局位置包括至少一个IP地址。

A6、如A5所述的方法，所述利用网络爬虫获取所述指定企业局域网内的目标内容源的网络全局位置，包括：

从所述URL队列中提取待爬取的URL；

A7、如A6所述的方法，所述从所述网络全局位置指向的服务器中保存的目标内容源中爬取所述内容信息，具体为：

A8、如A7所述的方法，还包括：

将已下载WEB文档对应的URL保存在已抓取URL队列中；

对已抓取URL队列中的URL进行分析；

A9、如A1或A2所述的方法，还包括：

本发明还公开了B10、一种爬取企业内网信息的装置，包括：

B11、如B10所述的装置，所述指定服务器为所述指定企业局域网内的服务器，或为第三方提供商提供的服务器。

B12、如B10或B11所述的装置，所述的内容信息为WEB文档；其中，

B13、如B12所述的装置，所述爬取模块，包括：

获取单元，用于利用网络爬虫获取所述指定企业局域网内的目标内容源的网络全局位置；

爬取单元，用于从所述网络全局位置指向的服务器中保存的目标内容源中爬取所述内容信息。

B14、如B13所述的装置，所述网络全局位置包括至少一个IP地址。

B15、如B14所述的装置，所述获取单元，具体用于：

从所述URL队列中提取待爬取的URL；

B16、如B15所述的装置，所述爬取单元，具体用于：

B17、如B16所述的装置，还包括：处理模块，其中，所述处理模块，具体用于：

将已下载WEB文档对应的URL保存在已抓取URL队列中；

对已抓取URL队列中的URL进行分析；

B18、如B10或B11所述的装置，还包括：

设定模块，用于设定爬取周期，按设定的爬取周期从所述目标内容源中爬取所述内容信息。

本发明还公开了C19、一种服务器，包括上述权利要求B10～B18中任一项所述的爬取企业内网信息的装置。

Claims

1.一种爬取企业内网信息的方法，其特征在于，包括：

根据爬取到的所述内容信息，构建信息索引；

2.根据权利要求1所述的方法，其特征在于，所述的内容信息为WEB文档；其中，

3.根据权利要求2所述的方法，其特征在于，所述利用网络爬虫从指定企业局域网内的目标内容源中爬取内容信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述网络全局位置包括至少一个IP地址。

5.根据权利要求4所述的方法，其特征在于，所述利用网络爬虫获取所述指定企业局域网内的目标内容源的网络全局位置，包括：

从所述URL队列中提取待爬取的URL；

6.一种爬取企业内网信息的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述的内容信息为WEB文档；其中，

8.根据权利要求7所述的装置，其特征在于，所述爬取模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述网络全局位置包括至少一个IP地址。

10.一种服务器，其特征在于，包括上述权利要求6～9中任一项所述的爬取企业内网信息的装置。