CN102841898A

CN102841898A - 网络信息监控分析系统

Info

Publication number: CN102841898A
Application number: CN 201110170625
Authority: CN
Inventors: 庞兵
Original assignee: ZHANGJIAGANG KAINA INFORMATION TECHNOLOGY Co Ltd
Current assignee: ZHANGJIAGANG KAINA INFORMATION TECHNOLOGY Co Ltd
Priority date: 2011-06-23
Filing date: 2011-06-23
Publication date: 2012-12-26

Abstract

本发明涉及一种网络信息监控分析系统，属于网络信息化领域。本发明根据现今应用最广泛的HTML网页信息的特点，在对现有信息搜集、预处理和自动分类等网络信息处理技术进行深入的分析与研究的基础上，针对目前信息搜集技术的不足，设计开发了一个基于信息领域的网络信息监控分析系统，实现了通过互联网实时定向地自动捕捉多个门户网站以及专门网站关于专业领域的“有用”信息的功能。工作流程为：(1)由“网络信息收集子系统”采集URL、锚文本、网页，并对采集回的网页进行清洗；(2)“智能分析预归类子系统”将系统中的网页进行分类，并根据阀值过滤无用信息；(3)“自动汇总检索子系统”完成站内检索、自动生成报表功能。

Description

网络信息监控分析系统

技术领域

本发明涉及一种网络信息监控分析系统，属于网络信息化领域。

背景技术

自互联网诞生以来，Internet已经发展成为拥有近亿用户和数亿页面的巨大的全球化信息仓库，而且其信息容量仍在以指数形式飞速地增长。从互联网中获取信息已成为个人获取知识的主要方法和重要手段，也成为当前企业获取情报的重要途径，但是，面对浩如烟海的网络信息，传统的人工搜集和处理等方法都已难以胜任。

为此，国内外在信息搜索领域做了大量研究，并开发了多种搜索引擎，如Baidu、Google、Yahoo、Lycos等。从某种程度上这些搜索引擎提高了搜索的效率和速度，但仍然存在着很大的局限性，最突出表现在以下几个方面：首先，由于采用的是全文检索或关键词检索的方式，基于字面的检索机制造成实际检索结果与用户需求之间的偏差，即检索返回“有用”信息太少，“垃圾”信息太多，称之为Rich DataPoor Information的问题；其次，网络搜索引擎需面对广泛的知识领域，而针对某一特殊领域因没有足够的背景知识，导致搜索到大量无关的网页，具有较大相关性的网页却很少；最后，检索的速度和效率太低，并且不能保证信息的时效性和权威性，以上这些的不足，是信息搜集的非常严重、甚至是致命的弱点。

针对以上问题，各类基于特定领域的互联网信息搜集工具应运而生。基于特定领域的高度目标化、专业化、针对性以及对对特定范围的网络信息的覆盖率高等优点，有效地弥补了以往通用型搜索工具的缺点，因此专注于某个特殊领域的信息的获取技术就犹如专业网站一样，愈加受到各界的重视，在整个信息搜索领域所占的地位也越来越重要。

发明内容

本发明根据现今应用最广泛的HTML网页信息的特点，在对现有信息搜集、预处理和自动分类等网络信息处理技术进行深入的分析与研究的基础上，针对目前信息搜集技术的不足，设计开发了一个基于信息领域的网络信息监控分析系统，实现了通过互联网实时定向地自动捕捉多个门户网站以及专门网站关于专业领域的“有用”信息的功能。

本发明涉及一种网络信息监控分析系统，其设计工作流程可以如下所述：

1、系统框架设计：系统从互联网快速、有效地自动搜集“有用”信息，并对搜集回的网页信息进行预处理、分类并存储入指定的数据库。本系统由三个子系统组成，分别：“网络信息收集子系统”、“智能分析预归类子系统”、“自动汇总检索子系统”。每个子系统分别处理不同的功能，根据系统的性能需求而分开。

网络信息收集子系统主要功能是搜索并存储监控范围内网络媒体每日不断更新的最新信息，保证信息收集的实时性、全面性。

智能分析预归类子系统是大规模信息处理重要的应用技术之一，主要功能是根据文本分类、中文分词等技术对收集到的网页信息自动进行分类。

自动汇总检索子系统主要包括站内检索和系统智能分析报表，实现站内检索和及时生成报表的功能。

系统工作流程

(1)由“网络信息收集子系统”采集URL、锚文本、网页，并对采集回的网页进行清洗

(2)“智能分析预归类子系统”将系统中的网页进行分类，并根据阀值过滤无用信息

(3)“自动汇总检索子系统”完成站内检索、自动生成报表功能。

2、子系统的设计与实现

网络信息收集子系统

网络信息收集子系统主要功能是搜索并存储监控范围内网络媒体每日不断更新的最新信息，保证信息收集的实时性、全面性。该子系统采用了交换模式的并行结构，应用了信息采集、网页清洗等技术，满足了系统抓取网站信息从网站发布到系统抓取时间不超过1分钟，抓取论坛信息从帖子发布到系统抓取的时候不超过1分钟的实时性需求。

智能分析预归类子系统

智能分析预归类子系统是大规模信息处理重要的应用技术之一，应用中文文本分类、中文分词等技术，采用了类中心向量分类算法，实现了实时地将系统信息自动归类、过滤无用信息等功能。

自动汇总检索子系统

自动检索子系统，应用检索与自动报表生成等技术，实现了站内检索与及时生成报表的目的，主要功能包括站内检索功能和系统智能分析报表功能。

3、数据库设计

根据上述对信息结构的分析，可以得到数据库中表的模式，其中用户信息表、权限表、信息源表设计如下所述：

(1)信息源表，对采集到的信息保存到本地数据库主表，而预处理、分类的信息源也是在对应这个表进行修改。

(2)用户信息表，注册合法用户的相关信息。

(3)用户权限表，对用户信息表的用户赋权信息，这个表直接和用户信息表相关联。

(4)权限表，提供本系统的存在的权限级别信息，提供给用户权限信息的权限选择。

具体实施方式

实施例1关于汽车行业的网络信息收集分析

(1)由“网络信息收集子系统”采集汽车行业网站或者门户网站的汽车频道URL、锚文本、网页。

(2)对采集回的网页进行清洗，剔除掉网页中噪音内容的干扰，把网页的主题内容作为处理对象，提高处理结果的准确性；其次，简化网页内标签结构的复杂性并减少网页的大小，从而节省后续处理过程的时间和空间开销。

(3)“智能分析预归类子系统”将系统中采集的网页进行分类，并根据阀值过滤无用信息

(4)“自动汇总检索子系统”完成站内检索、自动生成报表功能。

实施例2网络信息收集子系统实施过程

为了实现网络信息的自动收集功能，我们将网络信息收集子系统的整个处理过程分成四步：初始URL选择，网页采集、网页预处理、数据存储。该子系统的主要工作流程为：首先由Spider根据初始URL选择和主题定义，从Web上采集网页，其次将采集到的页面进行预处理后，将结果送入指定的数据库中存储。

(1)初始URL的选择

一般网页收集系统是从一个种子URL集出发，通过Web协议向Web上所需的页面扩展的。信息收集系统需要选择质量较高的主题URL作为初始种子URL。本实施例选择由人工定义种子URL集，主要工作步骤如下：

第一步工作是要确定网络信息监控分析系统的“监控范围”，也就是确定收集哪些网站中的网页信息。

第二步工作就是收集被“监控”网站入口，即种子URL集。

(2)网页采集

网页采集器，主要由两个部分组成，即控制模块和抓取模块。控制模块主要按照抓取策略对需要抓取的URL进行排序，为抓取模块提供需要抓取的URL序列，并对抓取模块下载的网页进行分析和存储。抓取模块从控制模块获得需要下载的URL，从互联网下载相应的页面，进而提供给抓取控制模块处理。

(3)网页预处理

首先，将整个网页划分成多个不同的块；

其次，将网页划分为多个块之后，分析每个块的重要程度，不重要的内容块便是噪音。

网页清洗设计流程：先利用HTML Parser解析器把半结构化的HTML样本页面转化为结构化的DOM树结构，然后对它进行深度优先遍历并进行清洗，从而得到保留原Web页面格式的结果。

(4)数据存储

将清洗后的网页，存储在指定的数据库当中。

Claims

1.一种网络信息监控分析系统，属于网络信息化领域，其特征在于，网络信息监控分析系统：

1)该系统成功的解决了针对特定领域信息收集的难题，实现了智能化的信息搜集，成功地为企业竞争情报的收集提供服务。

2)提高了网络信息资源的集中度，有利于监控人员同时监控数个网站，解决了传统网站监控方法存在的人力资源消耗的问题。

3)在抓取算法实现中采用了非递归多线程方式的抓取算法，较大地提高了抓取的效率，改进了网页收集子系统性能；并在此基础上增加了利用锚文本等方法过滤URL，有效地提高了网页采集的准确率和信息的有效性。

4)在网络信息收集子系统中，提出了并行结构新概念，并在并行结构的基础上建立了交换模式，有效地提高了信息采集速度，减缓了网站服务器的压力，同时有效地解决了并行采集结构中跨区链接导致的重复采集或不采集造成的信息遗漏等问题。

5)研究了文本分类技术，在提取文本特征项时，增加提取了相应网页的锚文本，实现了网页分类技术的改进。