CN102073678B

CN102073678B - 一种网站信息分析系统及其方法

Info

Publication number: CN102073678B
Application number: CN 201010574349
Authority: CN
Inventors: 陈奋; 吴世雄; 张永光
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen service cloud Mdt InfoTech Ltd
Priority date: 2010-12-03
Filing date: 2010-12-03
Publication date: 2013-02-27
Anticipated expiration: 2030-12-03
Also published as: CN102073678A

Abstract

本发明公开了一种网站信息分析系统及其方法，该系统包括权限验证器、链接提取器、链接分析器、链接页面成像器、增量信息分析器和报表生成器，其方法是利用权限验证器对目标网站进行权限检测，利用链接提取器来获取目标网站的所有链接数据信息，利用链接分析器对所有链接数据信息进行分析，利用链接页面成像器来对已经分类好的链接数据信息进行内存成像分析，利用增量信息分析器来重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列，利用报表生成器来生成预置格式的报表。采用本发明的系统及其方法，不但能够实现自动信息分析，而且能够消除人工信息分析所存在的页面遗漏现象，具有信息分析准确、快速、无遗漏，以及操作容易的特点。

Description

一种网站信息分析系统及其方法

技术领域

本发明涉及一种对网站的信息分析系统，特别是涉及一种网站信息分析系统及其方法。

背景技术

现有技术的针对网站的信息分析过程，主要采用人工通过浏览器访问网站(如果需要权限的网站还需要用户名和密码登陆)，然后采用截屏方式对网站页面进行截屏信息分析；如果网页页面比较长的话，需要采用特殊的截屏工具才能截取整个页面；同时还存在着网站结构复杂等问题，采用人工方式工作量大又没有办法准确得完成整个网站的信息分析工作。因此，现有技术在解决网站信息分析时存在如下问题：一是，对于页面较长的数据需要特殊的截屏工具才能完成截屏，致使操作复杂；二是，对于结构复杂的网站，不但人工工作量大，并且容易出现页面遗漏现象；三是，在网站内容信息分析过程中，如果已经信息分析过的页面内容发生变化没有办法及时发现，导致信息分析内容跟页面内容出现不一致现象；四是，网站信息分析的结果需要人工录入形成报表，工作量大。

发明内容

本发明的目的在于克服现有技术之不足，提供一种网站信息分析系统及其方法，是利用网络爬虫技术和内存自动成像技术来实现对网站的自动信息分析过程，该信息分析系统不但能够实现自动信息分析，而且能够消除人工信息分析所存在的页面遗漏现象，具有信息分析准确、快速、无遗漏，以及操作容易的特点。

本发明解决其技术问题所采用的技术方案是：一种网站自动信息分析的信息分析系统，包括：

一权限验证器，其用来对目标网站进行权限检测，向目标网站发送登陆指令以提取网站的页面信息，判定目标网站是否需要用户名和密码登陆访问，对于需要用户名和密码登陆访问的目标网站，利用网络爬虫技术分析模块模拟网站的登陆流程自动登陆目标网站；

一链接提取器，其用来获取目标网站的所有链接数据信息，利用链接提取算法模块，从目标网站的页面中提取所有链接数据信息；

一链接分析器，其用来对所有链接数据信息进行分析，并按照预先设定的分类方式对所有链接数据信息进行分类分析；

一链接页面成像器，其用来对已经分类好的链接数据信息进行内存成像分析，以将链接页面自动加载在内存中并对页面直接进行成像保存分析，保存于指定存储器中；

一增量信息分析器，其用来重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列；

一报表生成器，根据成像的链接数据信息生成预置格式的报表；

权限验证器的输出接至链接提取器的输入，权限验证器将目标网站的页面信息输给链接提取器，由链接提取器进行网站页面链接数据信息的提取；链接提取器的输出接至链接分析器的输入，链接提取器将提取的链接数据信息输给链接分析器，由链接分析器进行归类整理；链接分析器的输出接至链接页面成像器的输入，链接分析器将归类整理的链接数据信息输给链接页面成像器，由链接页面成像器进行链接页面成像分析；链接页面成像器的输出接至增量信息分析器的输入，由增量信息分析器重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列；增量信息分析器的输出接至报表生成器，由报表生成器生成报表。

一种网站信息分析方法，包括如下步骤：

对目标网站进行权限检测的步骤；该步骤用来判定目标网站是否需要用户名和密码登陆访问，对于需要用户名和密码登陆访问的目标网站，采用网络爬虫技术模拟网站的登陆流程自动登陆目标网站；

获取目标网站的所有链接的步骤；该步骤是采用链接提取算法来提取目标网站中的所有链接数据信息；

分析所述链接数据信息并对其进行分类的步骤；该步骤是根据预置的方式对链接数据信息进行分类分析；

对分类好的所述链接数据信息进行内存成像分析并保存于指定存储器的步骤；

重新遍历目标网站的所有链接并成像存储未出现在指定存储器的链接队列的步骤；

根据成像的链接数据信息生成报表的步骤。

所述对分类好的所述链接数据信息进行内存成像分析并保存于指定存储器的步骤，其进一步包括：

A.提取内存中分类好的链接队列中的链接信息；

B.创建一个应用程序窗口，该窗口具有一定的初始大小，同时该窗口处于隐藏状态；

C.绑定一个浏览器内核到该窗口上；

D.通过浏览器内核访问并加载链接页面内容；

E.浏览器内核加载的链接页面通过绑定的窗口展现在窗口中；

F.当链接页面加载完成或达到预定时间，则对隐藏窗口页面内容进行成像存储；

G.获取链接页面内容在窗口中的长度和高度，调用图形GDI接口对该范围内的窗口输出进行成像保存；

H.重复步骤A至G，直至链接队列容器中的链接为空。

所述重新遍历目标网站的所有链接并成像存储未出现在指定存储器的链接队列的步骤，其进一步包括：

a.将已遍历的链接信息以及内存成像器成像过的链接信息保存在内存哈西容器中；

b.对整个网站重新进行遍历，将提取到的链接信息发送到内存哈西容器中进行快速查找，若发现该链接已经存在则直接忽略，否则对链接进行分类进入链接列队；

c.内存成像器对链接队列中的链接进行成像保存，同时将链接的信息存入内存哈西容器中。

本发明的有益效果是，由于本发明采用了权限验证器、链接提取器、链接分析器、链接页面成像器、增量信息分析器和报表生成器来构成网站信息分析系统，利用权限验证器对目标网站进行权限检测，利用链接提取器来获取目标网站的所有链接数据信息，利用链接分析器对所有链接数据信息进行分析分析，利用链接页面成像器来对已经分类好的链接数据信息进行内存成像分析，利用增量信息分析器来重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列，利用报表生成器来生成预置格式的报表。采用本发明的系统及其方法，不但能够实现自动信息分析，而且能够消除人工信息分析所存在的页面遗漏现象，具有信息分析准确、快速、无遗漏，以及操作容易的特点。这种利用网络爬虫技术和内存自动成像技术来实现对网站的自动信息分析过程，可代替传统的人工手动对网站信息分析的大工作量的过程，极大提高工作效率。

以下结合附图及实施例对本发明作进一步详细说明；但本发明的一种网站信息分析系统及其方法不局限于实施例。

附图说明

图1是本发明的系统的框图。

具体实施方式

实施例，参见附图所示，本发明的一种网站信息分析系统，包括：

一权限验证器1，其用来对目标网站进行权限检测，向目标网站发送登陆指令以提取网站的页面信息，判定目标网站是否需要用户名和密码登陆访问，对于需要用户名和密码登陆访问的目标网站，利用网络爬虫技术分析模块模拟网站的登陆流程自动登陆目标网站；

一链接提取器2，其用来获取目标网站的所有链接数据信息，利用链接提取算法模块，从目标网站的页面中提取所有链接数据信息；

一链接分析器3，其用来对所有链接数据信息进行分析分析，并按照预先设定的分类方式对所有链接数据信息进行分类分析；

一链接页面成像器4，其用来对已经分类好的链接数据信息进行内存成像分析，以将链接页面自动加载在内存中并对页面直接进行成像保存分析，保存于指定存储器中；

一增量信息分析器5，其用来重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列；

一报表生成器6，根据成像的链接数据信息生成预置格式的报表；

权限验证器1的输出接至链接提取器2的输入，权限验证器1将目标网站的页面信息输给链接提取器2，由链接提取器2进行网站页面链接数据信息的提取；链接提取器2的输出接至链接分析器3的输入，链接提取器2将提取的链接数据信息输给链接分析器3，由链接分析器3进行归类整理；链接分析器3的输出接至链接页面成像器4的输入，链接分析器3将归类整理的链接数据信息输给链接页面成像器4，由链接页面成像器4进行链接页面成像分析；链接页面成像器4的输出接至增量信息分析器5的输入，由增量信息分析器5重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列；增量信息分析器5的输出接至报表生成器6，由报表生成器6生成报表。

本发明的一种网站信息分析方法，包括如下步骤：

1、对目标网站进行权限检测的步骤；

本步骤用来判定目标网站是否需要用户名和密码登陆访问，对于需要用户名和密码登陆访问的目标网站，采用网络爬虫技术模拟网站的登陆流程自动登陆目标网站；本步骤通过“网络爬虫”对用户设定的网站地址进行权限检测，权限检测的目的是为了确定网站是否需要用户名和密码登陆访问；权限检测的方法主要通过访问网站返回的状态值和提示信息进行判断，也可以提过人工预先设置状态值的办法；如果网站需求用户名和密码才能访问，网络爬虫需要模拟网站的登陆流程实现自动登陆；网络爬虫可以通过录制网络包的方法，将整个登陆过程发送的数据包录制下来，后续访问失效的时候通过回放登陆包的流程进行自动登陆。

2、获取目标网站的所有链接的步骤；

本步骤是采用链接提取算法来提取目标网站中的所有链接数据信息；

本步骤是根据任务网站的地址，通过链接提取算法，从任务网站的页面中提取所有链接；

本步骤中，链接提取算法可以采用正则表达式或者字符特征匹配的方法。一个网页页面中可能出现链接的地方主要有以下几处：

1)、<BASE href＝URL>，表示基URL，在HTML中，路径信息经常通过URL来指定，相对URL根据基URL来决定；

2)、<A href＝URL>，这是最常用的链接格式，用于链接到另一个WEB页面或链接到同一页面的其他地方；

3)、<LINK href＝URL>，用于链接WEB页面使用到的CSS样式表地址或者javascript页面地址；

4)、<FRAME src＝URL>，在框架页面中用于链接框架所指向的页面地址；

5)、<IFRAME src＝URL>，IFRAME是框架的一种形式，它与FRAME不同的是，IFRAME可以嵌在网页中的任意部分。

如果采用字符特征匹配算法，就是去找字符串“href”和“src”后面的链接；

如果采用正则表示式，我们构造正则表达式：

<.*？(src|href)\s*＝\s*[\″|’]？(？<uri>[^’\″>\s]+)。通过这个正则表达式我们就可以获得网页中所有链接。

3、分析所述链接数据信息并对其进行分类的步骤；该步骤是根据预置的方式对链接数据信息进行分类分析；

本步骤对于提取到的链接需要进行分析归类，归类的目的是为了让信息分析的结果更符合用户的需求。根据不同的网站的类型，有不同的归类策略。

论坛网站：需要归类出列表页、列表翻页、帖子主页、帖子翻页；

对于用户来说截屏的重点在于帖子主页，因为主要的内容都在帖子主页；因此链接归类对网站截屏信息分析是一个非常重要的步骤。

比如像比较常见的开源免费的Discuz论坛，其各个类型的链接举例如下：

列表页： http://xxx.com/forum-29-1.html；

列表翻页：http://xxx.com/forum-29-2.html；

http://xxx.com/forum-29-3.html；

http://xxx.com/forum-29-4.html；

也就是最后一位数字的递加来表示翻页；

帖子页： http://xxx.com/thread-1878415-1-1.html；

帖子翻页：http://xxx.com/thread-1878415-2-1.html；

http://xxx.com/thread-1878415-3-1.html；

http://xxx.com/thread-1878415-4-1.html；

也就是通过倒数第二个数字的递加来表示翻页；

对于这些不同类型的链接分析归类，我们采用前缀规则技术和特征字符相结合的方式进行归类。

前缀规则技术即采用一定的前缀字符规则来进行模式匹配，上述例子中的帖子页和帖子翻页的前缀规则都是forum-，帖子页和帖子翻页的前缀规则都是thread-。前缀规则我们可以采用预先训练好的模板可进行快速提取，也可通过人工事先设置好的规则。根据前缀规则我们就可以对链接进行准确的分析归类。

链接的特征字符提取是对前缀规则归类过的链接进行进一步归类，即将同一主题或同一版块内容的列表页及其翻页归为一类、同一帖子及其帖子翻页归为一类。这样归类的目的有三个：(1)为了网络爬虫继续搜索爬取页面的向导指引；(2)为后续步骤中内存成像做准备，即对某种类型的链接页面才进行内存成像；(3)为了过滤链接，减少爬虫搜索的链接数目。

链接的特征字符提取采用字符分割算法，主要步骤如下：

一是，去除域名部分(前提是每个链接都包含域名部分，通过爬虫程序可进行构造)：从字符首字母向后找第一个’/’字符，将’/’字符及其前面的所有字符截断，如链接http://xxx.com/thread-1878415-1-1.html，去除域名部分后的字符为thread-1878415-1-1.html；

二是，去除翻页分割部分字符：利用预先设置好的翻页分割字符对前一步骤得出的字符进行反向查找匹配，若出现翻页分隔符，将翻页分隔符及其后面的字符截断，直至字符只剩下前缀规则跟相应数字组成的部分；该步骤中去除翻页分割部分字符后的字符为thread-1878415；

三是，剔除无效字符：利用预先设置好的无效字符分割符对前一步骤得出的字符进行反向查找，若出现无效字符分隔符，将无效字符分隔符及其后面的字符截断，直至字符中不再出现无效字符分隔符。

根据上述三个步骤我们可对前缀规则归类好的链接进行特征提取，之后爬虫所分析提取到的链接都将按照这些特征进行归类。

内存中得到归类结果的链接队列容器如下：

帖子页分类，可供内存成像器进行内存成像；也可做为帖子链接的过滤器，如果不想要帖子的翻页链接，可以根据已经获取的帖子页特征进行过滤。

4、对分类好的所述链接数据信息进行内存成像分析并保存于指定存储器的步骤；

本步骤中，对于归类好的链接，就可进行链接页面的内存成像。链接页面的内存成像区别于普通的屏幕截图，采用自动的内存成像技术。普通的屏幕截图采用截图工具对某一时刻屏幕的图像进行截取保存，对于有翻页的屏幕内容这种截图工具操作困难，人工工作量大。链接页面的内存成像技术采用自动化的方式加载页面并在内存中对页面直接进行成像保存，同时不受限于页面的长度和宽度。

本步骤进一步包括：

A.提取内存中分类好的链接队列中的链接信息；

C.绑定一个浏览器内核到该窗口上；即让浏览器加载的内容显示在该窗口上，浏览器内核可以是IE内核也可以Goolge Chrome浏览器内核；

D.通过浏览器内核访问并加载链接页面内容；

G.获取链接页面内容在窗口中的长度和高度，调用图形GDI接口对该范围内的窗口输出进行成像保存；保存的格式可以是jpg等图形格式；

H.重复步骤A至G，直至链接队列容器中的链接为空。

5、重新遍历目标网站的所有链接并成像存储未出现在指定存储器的链接队列的步骤；

本步骤是为了对在信息分析过程中新增的链接进行进一步信息分析，以提高信息分析的工作效率和完整度；

本步骤进一步包括：

a.将已遍历的链接信息以及内存成像器成像过的链接信息保存在内存哈西容器中；可以保存链接信息的摘要信息值；

b.对整个网站重新进行遍历，将提取到的链接信息发送到内存哈西容器中进行快速查找，若发现该链接已经存在则直接忽略，否则对链接进行分类进入链接列队；即用网络爬虫对整个网站重新进行遍历，将提取到的链接信息到内存哈西容器中进行快速查找，若发现该链接已经存在则直接忽略，否则对链接进行分类进入链接列队；

c.内存成像器对链接队列中的链接进行成像保存，同时将链接的信息存入内存哈西容器中；

最后，重复上述过程，直至任务结束。

6、根据成像的链接数据信息生成报表的步骤；

对于爬取到的链接以及成像的链接信息通过ADO接口，按照一定格式保存在excel文档中，供用户的查找和使用。

上述实施例仅用来进一步说明本发明的一种网站信息分析系统及其方法，但本发明并不局限于实施例，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均落入本发明技术方案的保护范围内。

Claims

1.一种网站信息分析系统，其特征在于：包括：

一链接分析器，其用来对所有链接数据信息进行分析，并按照预先设定的分类方式对所有链接数据信息进行分类分析，内存中得到归类结果的链接队列容器；

一增量信息分析器，其用来重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列的链接；

权限验证器的输出接至链接提取器的输入，权限验证器将目标网站的页面信息输给链接提取器，由链接提取器进行网站页面链接数据信息的提取；链接提取器的输出接至链接分析器的输入，链接提取器将提取的链接数据信息输给链接分析器，由链接分析器进行归类整理；链接分析器的输出接至链接页面成像器的输入，链接分析器将归类整理的链接数据信息输给链接页面成像器，由链接页面成像器进行链接页面成像分析；链接页面成像器的输出接至增量信息分析器的输入，由增量信息分析器重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列；增量信息分析器的输出接至报表生成器，由报表生成器生成报表；

所述链接页面成像器进行链接页面成像分析的过程，包括如下步骤：

A.提取内存中分类好的链接队列中的链接数据信息；

C.绑定一个浏览器内核到该窗口上；

D.通过浏览器内核访问并加载链接页面内容；

G.获取链接页面内容在窗口中的长度和高度，调用图形GDI接口对链接页面内容的窗口输出进行成像保存；

H.重复步骤A至G，直至链接队列容器中的链接为空；

a.将已遍历的链接数据信息以及内存成像器成像过的链接数据信息保存在内存哈西容器中；

b.对整个网站重新进行遍历，将提取到的链接数据信息发送到内存哈西容器中进行快速查找，若发现该链接已经存在则直接忽略，否则对链接进行分类进入链接列队；

2.一种网站信息分析方法，其特征在于：包括如下步骤：

分析所述链接数据信息并对其进行分类的步骤；该步骤是根据预置的方式对链接数据信息进行分类分析，内存中得到归类结果的链接队列容器；

重新遍历目标网站的所有链接并成像存储未出现在指定存储器的链接队列的链接的步骤；

根据成像的链接数据信息生成报表的步骤；

A.提取内存中分类好的链接队列中的链接数据信息；

C.绑定一个浏览器内核到该窗口上；

D.通过浏览器内核访问并加载链接页面内容；

H.重复步骤A至G，直至链接队列容器中的链接为空；