CN109190010A

CN109190010A - 基于自定义的关键词采集方式进行互联网数据采集系统

Info

Publication number: CN109190010A
Application number: CN201811100075.1A
Authority: CN
Inventors: 张军; 苏玉召; 韩勇; 赵彬; 王志刚
Original assignee: Henan Wisdom Yunda Data Co Ltd
Current assignee: Henan Pulian Information Technology Co.,Ltd.
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-01-11
Anticipated expiration: 2038-09-20
Also published as: CN109190010B

Abstract

基于自定义的关键词采集方式进行互联网数据采集系统，包括数据库、数据接入层，还包括：信息采集和预处理层：根据用户设置的关键词采集互联网开源信息数据并对采集的数据进行预处理，将预处理完成后的数据送入分析层；分析层：对信息采集和预处理层送入的数据进行分析，剔除包含关键字的无效数据，将剩下的数据送入数据接入层。进一步的，还包括应用层：用于为查询用户提供查询检索功能，将检索查询的信息进行多维可视化输出，生成相应的报告。采用上述系统，在信息采集和预处理层通过爬虫技术采集到需要的数据后，通过分析层对数据的可靠性进行分析，将垃圾信息删除。

Description

基于自定义的关键词采集方式进行互联网数据采集系统

技术领域

本发明涉及数据采集领域，特别涉及基于自定义的关键词采集方式进行互联网数据采集系统。

背景技术

随着Web技术的不断发展，网络信息资源正以几何速度的方式增长。如何从互联网海量信息中快速检索出与用户相关的有用数据已成为当前急需解决的问题。搜索引擎正是在信息检索技术的基础上发展起来的。搜索引擎帮助本发明更好的表达和存储现实世界中的本质信息，而且通过对搜索引擎中的联接信息进行分析，可作为一种挖掘隐藏信息的有用工具。现有搜索引擎单纯的依赖有限搜索词去表达用户需求，存在这表达不完整的问题。即使是同样的搜索词，不同的用户所期望的结果可能也是不同的。例如微博系统，如果考虑微博以及相关交互对象的关系，它可以抽象为一个异构网络，其中包含了微博、信息、标签以及用户等节点。微博和微博之间存在着关注和粉丝关系，微博和信息之间存在着发表和转发关系，微博和标签之间是一个包含关系，而用户和微博之间存在着拥有关系。现有的搜索工具并未考虑上述多维对象形成的复杂环境进行数据挖掘。

现有的基于关键词的数据采集系统一般采用爬虫技术抓取网页上的关键词，但是由于网页上垃圾信息较多，采集的数据量较大，如果不经分析处理就进行储存，对储存空间浪费严重，同时不利于用户查看。

发明内容

本发明的目的在于：提供了基于自定义的关键词采集方式进行互联网数据采集系统，解决了现有的基于关键词的数据采集系统一般采用爬虫技术抓取网页上的关键词，但是由于网页上垃圾信息较多，采集的数据量较大，如果不经分析处理就进行储存，对储存空间浪费严重，同时不利于用户查看的问题。

本发明采用的技术方案如下：

基于自定义的关键词采集方式进行互联网数据采集系统，包括数据库、数据接入层，还包括：

信息采集和预处理层：根据用户设置的关键词采集互联网开源信息数据并对采集的数据进行预处理，将预处理完成后的数据送入分析层；

分析层：对信息采集和预处理层送入的数据进行分析，剔除包含关键字的无效数据，将剩下的数据送入数据接入层。

进一步的，还包括应用层：用于为查询用户提供查询检索功能，将检索查询的信息进行多维可视化输出，生成相应的报告。

采用上述系统，在信息采集和预处理层通过爬虫技术采集到需要的数据后，通过分析层对数据的可靠性进行分析，将垃圾信息删除。

进一步的，所述信息采集和预处理层包括搜索引擎的采集模块，所述采集模块包括爬取站点数据库、爬取站点调度单元、事务管理控制器、事务容器、数据控制器、基础数据库；所述事务管理控制器用于多个爬取事务的创建、启动、运行控制和销毁；事务容器用于事务资源的管理；数据控制器用于程序与数据库之间的数据交换处理。还包括全局数据源缓存单元、数据调度单元、数据访问管理单元；全局爬取缓存单元用于处理多事务在对临界资源访问时的事务等待，每个网络爬虫只有一个全局爬取缓存单元实例；数据访问管理单元用于数据库与程序的数据交互处理；数据调度单元实现单事务爬取的调度，当单事务爬取缓存单元中没有爬取时，由数据调度单元从全局爬取缓存单元中获取若干爬取到事务爬取缓存单元；数据调度单元在整个程序中只有一个实例。

进一步的，所述事务容器进一步包括：

爬取站点缓存单元，用于在内存中建立队列来缓存事务要爬取的站点数据；

事务缓存单元，用于缓存事务自身的数据；

存储缓存单元，用于缓存待存储到数据库的相关数据；

采集事务处理单元，用于对采集数据的加载、实现数据更新、链接去重、存储处理；

数据清洗抽取单元，用于对采集的数据进行清洗，抽取出有效信息，获取网页质量等级评价的相关信息和获取网页中新的爬取站点；

数据存储分析单元，将清洗抽取出来数据转换为易存储的形式，数据进行压缩，组成待执行的数据库搜索字符串。

进一步的，所述信息采集和预处理层还包括搜索引擎的分析模块，分析模块将采集的基础数据进行分析处理，为关键字建立索引，便于用户搜索。

进一步的，所述分析层包括编码单元、清洗单元、缓存单元和对比单元。

进一步的，编码单元对信息采集和预处理层采集到的数据中的关键词进行编码；

清洗单元对信息采集和预处理层采集到的数据进行清洗，提取关键词前后的字符串，将字符串与关键词对应的编码匹配后存入缓存单元；

分析单元分析缓存单元中的字符串，分析每种字符串出现的频率，将出现频率较低的字符串送入缓存单元的异常数据存储部分。

由于在一段通顺的句子中，一般关键词前后的字符搭配数量有限，大部分信息关键词前后的字符都相同，因此采用上述单元模块可以有效的剔除爬虫技术采集的数据中的垃圾信息，节约储存空间，提高用户查阅数据的效率。

进一步的，所述互联网数据采集系统的数据采集方法包括以下步骤：

A、信息采集和预处理层根据用户设置的关键词采集互联网开源信息数据，所述数据为带有关键词的网页参数及网页内容，并对采集的数据进行预处理，将预处理完成后的数据送入分析层编码单元；

B、编码单元对信息采集和预处理层采集到的数据中的关键词进行编码，为每个关键词一一匹配编码；

C、清洗单元对信息采集和预处理层采集到的数据进行清洗，提取关键词前后的字符串，将字符串与关键词对应的编码匹配后存入缓存单元；

D、分析单元分析缓存单元中的字符串，分析每种字符串出现的频率，将出现频率较低的字符串送入缓存单元的异常数据存储部分；将剩下的字符串提取与其匹配的关键词，将对应的关键词匹配的网页存入数据库；

E、用户通过应用层查看数据库中的内容，同时还可以通过应用层查看异常数据存储部分的数据，进行移动或永久删除操作。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明基于自定义的关键词采集方式进行互联网数据采集系统，利用事务控制策略进行高效数据采集，针对多维对象之间的耦合关系进行数据挖掘。

2.本发明基于自定义的关键词采集方式进行互联网数据采集系统，解决了现有的基于关键词的数据采集系统一般采用爬虫技术抓取网页上的关键词，但是由于网页上垃圾信息较多，采集的数据量较大，如果不经分析处理就进行储存，对储存空间浪费严重，同时不利于用户查看的问题。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

实施例1

实施例2

本实施例与实施例1的区别在于，进一步的，所述信息采集和预处理层包括搜索引擎的采集模块，所述采集模块包括爬取站点数据库、爬取站点调度单元、事务管理控制器、事务容器、数据控制器、基础数据库；所述事务管理控制器用于多个爬取事务的创建、启动、运行控制和销毁；事务容器用于事务资源的管理；数据控制器用于程序与数据库之间的数据交换处理。还包括全局数据源缓存单元、数据调度单元、数据访问管理单元；全局爬取缓存单元用于处理多事务在对临界资源访问时的事务等待，每个网络爬虫只有一个全局爬取缓存单元实例；数据访问管理单元用于数据库与程序的数据交互处理；数据调度单元实现单事务爬取的调度，当单事务爬取缓存单元中没有爬取时，由数据调度单元从全局爬取缓存单元中获取若干爬取到事务爬取缓存单元；数据调度单元在整个程序中只有一个实例。

进一步的，所述事务容器进一步包括：

事务缓存单元，用于缓存事务自身的数据；

存储缓存单元，用于缓存待存储到数据库的相关数据；

实施例3

本实施例为本方案的实施方法，进一步的，所述互联网数据采集系统的数据采集方法包括以下步骤：

C、清洗单元对信息采集和预处理层采集到的数据进行清洗，提取关键词前后2个字符的字符串，将字符串与关键词对应的编码匹配后存入缓存单元；

D、分析单元分析缓存单元中的字符串，分析每种字符串出现的频率，对字符串的出现频率进行排序，将出现频率位于后61.8％的字符串送入缓存单元的异常数据存储部分；将剩下的字符串提取与其匹配的关键词，将对应的关键词匹配的网页存入数据库；

以上所述，仅为本发明的优选实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.基于自定义的关键词采集方式进行互联网数据采集系统，包括数据库、数据接入层，其特征在于，还包括：

2.根据权利要求1所述的基于自定义的关键词采集方式进行互联网数据采集系统，其特征在于：还包括应用层：用于为查询用户提供查询检索功能，将检索查询的信息进行多维可视化输出，生成相应的报告。

3.根据权利要求1所述的基于自定义的关键词采集方式进行互联网数据采集系统，其特征在于：所述信息采集和预处理层包括搜索引擎的采集模块，所述采集模块包括爬取站点数据库、爬取站点调度单元、事务管理控制器、事务容器、数据控制器、基础数据库；所述事务管理控制器用于多个爬取事务的创建、启动、运行控制和销毁；事务容器用于事务资源的管理；数据控制器用于程序与数据库之间的数据交换处理。

4.根据权利要求3所述的基于自定义的关键词采集方式进行互联网数据采集系统，其特征在于：所述事务容器进一步包括：

事务缓存单元，用于缓存事务自身的数据；

存储缓存单元，用于缓存待存储到数据库的相关数据；

5.根据权利要求2或3所述的基于自定义的关键词采集方式进行互联网数据采集系统，其特征在于：所述信息采集和预处理层还包括搜索引擎的分析模块，分析模块将采集的基础数据进行分析处理，为关键字建立索引，便于用户搜索。

6.根据权利要求2所述的基于自定义的关键词采集方式进行互联网数据采集系统，其特征在于：所述分析层包括编码单元、清洗单元、缓存单元和对比单元。

7.根据权利要求6所述的基于自定义的关键词采集方式进行互联网数据采集系统，其特征在于：

编码单元对信息采集和预处理层采集到的数据中的关键词进行编码；

8.根据权利要求7所述的基于自定义的关键词采集方式进行互联网数据采集系统，其特征在于：所述互联网数据采集系统的数据采集方法包括以下步骤：