CN109190010A - 基于自定义的关键词采集方式进行互联网数据采集系统 - Google Patents

基于自定义的关键词采集方式进行互联网数据采集系统 Download PDF

Info

Publication number
CN109190010A
CN109190010A CN201811100075.1A CN201811100075A CN109190010A CN 109190010 A CN109190010 A CN 109190010A CN 201811100075 A CN201811100075 A CN 201811100075A CN 109190010 A CN109190010 A CN 109190010A
Authority
CN
China
Prior art keywords
data
keyword
unit
layer
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811100075.1A
Other languages
English (en)
Other versions
CN109190010B (zh
Inventor
张军
苏玉召
韩勇
赵彬
王志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Pulian Information Technology Co.,Ltd.
Original Assignee
Henan Wisdom Yunda Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Wisdom Yunda Data Co Ltd filed Critical Henan Wisdom Yunda Data Co Ltd
Priority to CN201811100075.1A priority Critical patent/CN109190010B/zh
Publication of CN109190010A publication Critical patent/CN109190010A/zh
Application granted granted Critical
Publication of CN109190010B publication Critical patent/CN109190010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于自定义的关键词采集方式进行互联网数据采集系统,包括数据库、数据接入层,还包括:信息采集和预处理层:根据用户设置的关键词采集互联网开源信息数据并对采集的数据进行预处理,将预处理完成后的数据送入分析层;分析层:对信息采集和预处理层送入的数据进行分析,剔除包含关键字的无效数据,将剩下的数据送入数据接入层。进一步的,还包括应用层:用于为查询用户提供查询检索功能,将检索查询的信息进行多维可视化输出,生成相应的报告。采用上述系统,在信息采集和预处理层通过爬虫技术采集到需要的数据后,通过分析层对数据的可靠性进行分析,将垃圾信息删除。

Description

基于自定义的关键词采集方式进行互联网数据采集系统
技术领域
本发明涉及数据采集领域,特别涉及基于自定义的关键词采集方式进行互联网数据采集系统。
背景技术
随着Web技术的不断发展,网络信息资源正以几何速度的方式增长。如何从互联网海量信息中快速检索出与用户相关的有用数据已成为当前急需解决的问题。搜索引擎正是在信息检索技术的基础上发展起来的。搜索引擎帮助本发明更好的表达和存储现实世界中的本质信息,而且通过对搜索引擎中的联接信息进行分析,可作为一种挖掘隐藏信息的有用工具。现有搜索引擎单纯的依赖有限搜索词去表达用户需求,存在这表达不完整的问题。即使是同样的搜索词,不同的用户所期望的结果可能也是不同的。例如微博系统,如果考虑微博以及相关交互对象的关系,它可以抽象为一个异构网络,其中包含了微博、信息、标签以及用户等节点。微博和微博之间存在着关注和粉丝关系,微博和信息之间存在着发表和转发关系,微博和标签之间是一个包含关系,而用户和微博之间存在着拥有关系。现有的搜索工具并未考虑上述多维对象形成的复杂环境进行数据挖掘。
现有的基于关键词的数据采集系统一般采用爬虫技术抓取网页上的关键词,但是由于网页上垃圾信息较多,采集的数据量较大,如果不经分析处理就进行储存,对储存空间浪费严重,同时不利于用户查看。
发明内容
本发明的目的在于:提供了基于自定义的关键词采集方式进行互联网数据采集系统,解决了现有的基于关键词的数据采集系统一般采用爬虫技术抓取网页上的关键词,但是由于网页上垃圾信息较多,采集的数据量较大,如果不经分析处理就进行储存,对储存空间浪费严重,同时不利于用户查看的问题。
本发明采用的技术方案如下:
基于自定义的关键词采集方式进行互联网数据采集系统,包括数据库、数据接入层,还包括:
信息采集和预处理层:根据用户设置的关键词采集互联网开源信息数据并对采集的数据进行预处理,将预处理完成后的数据送入分析层;
分析层:对信息采集和预处理层送入的数据进行分析,剔除包含关键字的无效数据,将剩下的数据送入数据接入层。
进一步的,还包括应用层:用于为查询用户提供查询检索功能,将检索查询的信息进行多维可视化输出,生成相应的报告。
采用上述系统,在信息采集和预处理层通过爬虫技术采集到需要的数据后,通过分析层对数据的可靠性进行分析,将垃圾信息删除。
进一步的,所述信息采集和预处理层包括搜索引擎的采集模块,所述采集模块包括爬取站点数据库、爬取站点调度单元、事务管理控制器、事务容器、数据控制器、基础数据库;所述事务管理控制器用于多个爬取事务的创建、启动、运行控制和销毁;事务容器用于事务资源的管理;数据控制器用于程序与数据库之间的数据交换处理。还包括全局数据源缓存单元、数据调度单元、数据访问管理单元;全局爬取缓存单元用于处理多事务在对临界资源访问时的事务等待,每个网络爬虫只有一个全局爬取缓存单元实例;数据访问管理单元用于数据库与程序的数据交互处理;数据调度单元实现单事务爬取的调度,当单事务爬取缓存单元中没有爬取时,由数据调度单元从全局爬取缓存单元中获取若干爬取到事务爬取缓存单元;数据调度单元在整个程序中只有一个实例。
进一步的,所述事务容器进一步包括:
爬取站点缓存单元,用于在内存中建立队列来缓存事务要爬取的站点数据;
事务缓存单元,用于缓存事务自身的数据;
存储缓存单元,用于缓存待存储到数据库的相关数据;
采集事务处理单元,用于对采集数据的加载、实现数据更新、链接去重、存储处理;
数据清洗抽取单元,用于对采集的数据进行清洗,抽取出有效信息,获取网页质量等级评价的相关信息和获取网页中新的爬取站点;
数据存储分析单元,将清洗抽取出来数据转换为易存储的形式,数据进行压缩,组成待执行的数据库搜索字符串。
进一步的,所述信息采集和预处理层还包括搜索引擎的分析模块,分析模块将采集的基础数据进行分析处理,为关键字建立索引,便于用户搜索。
进一步的,所述分析层包括编码单元、清洗单元、缓存单元和对比单元。
进一步的,编码单元对信息采集和预处理层采集到的数据中的关键词进行编码;
清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,将出现频率较低的字符串送入缓存单元的异常数据存储部分。
由于在一段通顺的句子中,一般关键词前后的字符搭配数量有限,大部分信息关键词前后的字符都相同,因此采用上述单元模块可以有效的剔除爬虫技术采集的数据中的垃圾信息,节约储存空间,提高用户查阅数据的效率。
进一步的,所述互联网数据采集系统的数据采集方法包括以下步骤:
A、信息采集和预处理层根据用户设置的关键词采集互联网开源信息数据,所述数据为带有关键词的网页参数及网页内容,并对采集的数据进行预处理,将预处理完成后的数据送入分析层编码单元;
B、编码单元对信息采集和预处理层采集到的数据中的关键词进行编码,为每个关键词一一匹配编码;
C、清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
D、分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,将出现频率较低的字符串送入缓存单元的异常数据存储部分;将剩下的字符串提取与其匹配的关键词,将对应的关键词匹配的网页存入数据库;
E、用户通过应用层查看数据库中的内容,同时还可以通过应用层查看异常数据存储部分的数据,进行移动或永久删除操作。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明基于自定义的关键词采集方式进行互联网数据采集系统,利用事务控制策略进行高效数据采集,针对多维对象之间的耦合关系进行数据挖掘。
2.本发明基于自定义的关键词采集方式进行互联网数据采集系统,解决了现有的基于关键词的数据采集系统一般采用爬虫技术抓取网页上的关键词,但是由于网页上垃圾信息较多,采集的数据量较大,如果不经分析处理就进行储存,对储存空间浪费严重,同时不利于用户查看的问题。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
实施例1
基于自定义的关键词采集方式进行互联网数据采集系统,包括数据库、数据接入层,还包括:
信息采集和预处理层:根据用户设置的关键词采集互联网开源信息数据并对采集的数据进行预处理,将预处理完成后的数据送入分析层;
分析层:对信息采集和预处理层送入的数据进行分析,剔除包含关键字的无效数据,将剩下的数据送入数据接入层。
进一步的,还包括应用层:用于为查询用户提供查询检索功能,将检索查询的信息进行多维可视化输出,生成相应的报告。
采用上述系统,在信息采集和预处理层通过爬虫技术采集到需要的数据后,通过分析层对数据的可靠性进行分析,将垃圾信息删除。
实施例2
本实施例与实施例1的区别在于,进一步的,所述信息采集和预处理层包括搜索引擎的采集模块,所述采集模块包括爬取站点数据库、爬取站点调度单元、事务管理控制器、事务容器、数据控制器、基础数据库;所述事务管理控制器用于多个爬取事务的创建、启动、运行控制和销毁;事务容器用于事务资源的管理;数据控制器用于程序与数据库之间的数据交换处理。还包括全局数据源缓存单元、数据调度单元、数据访问管理单元;全局爬取缓存单元用于处理多事务在对临界资源访问时的事务等待,每个网络爬虫只有一个全局爬取缓存单元实例;数据访问管理单元用于数据库与程序的数据交互处理;数据调度单元实现单事务爬取的调度,当单事务爬取缓存单元中没有爬取时,由数据调度单元从全局爬取缓存单元中获取若干爬取到事务爬取缓存单元;数据调度单元在整个程序中只有一个实例。
进一步的,所述事务容器进一步包括:
爬取站点缓存单元,用于在内存中建立队列来缓存事务要爬取的站点数据;
事务缓存单元,用于缓存事务自身的数据;
存储缓存单元,用于缓存待存储到数据库的相关数据;
采集事务处理单元,用于对采集数据的加载、实现数据更新、链接去重、存储处理;
数据清洗抽取单元,用于对采集的数据进行清洗,抽取出有效信息,获取网页质量等级评价的相关信息和获取网页中新的爬取站点;
数据存储分析单元,将清洗抽取出来数据转换为易存储的形式,数据进行压缩,组成待执行的数据库搜索字符串。
进一步的,所述信息采集和预处理层还包括搜索引擎的分析模块,分析模块将采集的基础数据进行分析处理,为关键字建立索引,便于用户搜索。
进一步的,所述分析层包括编码单元、清洗单元、缓存单元和对比单元。
进一步的,编码单元对信息采集和预处理层采集到的数据中的关键词进行编码;
清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,将出现频率较低的字符串送入缓存单元的异常数据存储部分。
由于在一段通顺的句子中,一般关键词前后的字符搭配数量有限,大部分信息关键词前后的字符都相同,因此采用上述单元模块可以有效的剔除爬虫技术采集的数据中的垃圾信息,节约储存空间,提高用户查阅数据的效率。
实施例3
本实施例为本方案的实施方法,进一步的,所述互联网数据采集系统的数据采集方法包括以下步骤:
A、信息采集和预处理层根据用户设置的关键词采集互联网开源信息数据,所述数据为带有关键词的网页参数及网页内容,并对采集的数据进行预处理,将预处理完成后的数据送入分析层编码单元;
B、编码单元对信息采集和预处理层采集到的数据中的关键词进行编码,为每个关键词一一匹配编码;
C、清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后2个字符的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
D、分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,对字符串的出现频率进行排序,将出现频率位于后61.8%的字符串送入缓存单元的异常数据存储部分;将剩下的字符串提取与其匹配的关键词,将对应的关键词匹配的网页存入数据库;
E、用户通过应用层查看数据库中的内容,同时还可以通过应用层查看异常数据存储部分的数据,进行移动或永久删除操作。
以上所述,仅为本发明的优选实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (8)

1.基于自定义的关键词采集方式进行互联网数据采集系统,包括数据库、数据接入层,其特征在于,还包括:
信息采集和预处理层:根据用户设置的关键词采集互联网开源信息数据并对采集的数据进行预处理,将预处理完成后的数据送入分析层;
分析层:对信息采集和预处理层送入的数据进行分析,剔除包含关键字的无效数据,将剩下的数据送入数据接入层。
2.根据权利要求1所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:还包括应用层:用于为查询用户提供查询检索功能,将检索查询的信息进行多维可视化输出,生成相应的报告。
3.根据权利要求1所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:所述信息采集和预处理层包括搜索引擎的采集模块,所述采集模块包括爬取站点数据库、爬取站点调度单元、事务管理控制器、事务容器、数据控制器、基础数据库;所述事务管理控制器用于多个爬取事务的创建、启动、运行控制和销毁;事务容器用于事务资源的管理;数据控制器用于程序与数据库之间的数据交换处理。
4.根据权利要求3所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:所述事务容器进一步包括:
爬取站点缓存单元,用于在内存中建立队列来缓存事务要爬取的站点数据;
事务缓存单元,用于缓存事务自身的数据;
存储缓存单元,用于缓存待存储到数据库的相关数据;
采集事务处理单元,用于对采集数据的加载、实现数据更新、链接去重、存储处理;
数据清洗抽取单元,用于对采集的数据进行清洗,抽取出有效信息,获取网页质量等级评价的相关信息和获取网页中新的爬取站点;
数据存储分析单元,将清洗抽取出来数据转换为易存储的形式,数据进行压缩,组成待执行的数据库搜索字符串。
5.根据权利要求2或3所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:所述信息采集和预处理层还包括搜索引擎的分析模块,分析模块将采集的基础数据进行分析处理,为关键字建立索引,便于用户搜索。
6.根据权利要求2所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:所述分析层包括编码单元、清洗单元、缓存单元和对比单元。
7.根据权利要求6所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:
编码单元对信息采集和预处理层采集到的数据中的关键词进行编码;
清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,将出现频率较低的字符串送入缓存单元的异常数据存储部分。
8.根据权利要求7所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:所述互联网数据采集系统的数据采集方法包括以下步骤:
A、信息采集和预处理层根据用户设置的关键词采集互联网开源信息数据,所述数据为带有关键词的网页参数及网页内容,并对采集的数据进行预处理,将预处理完成后的数据送入分析层编码单元;
B、编码单元对信息采集和预处理层采集到的数据中的关键词进行编码,为每个关键词一一匹配编码;
C、清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
D、分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,将出现频率较低的字符串送入缓存单元的异常数据存储部分;将剩下的字符串提取与其匹配的关键词,将对应的关键词匹配的网页存入数据库;
E、用户通过应用层查看数据库中的内容,同时还可以通过应用层查看异常数据存储部分的数据,进行移动或永久删除操作。
CN201811100075.1A 2018-09-20 2018-09-20 基于自定义的关键词采集方式进行互联网数据采集系统 Active CN109190010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811100075.1A CN109190010B (zh) 2018-09-20 2018-09-20 基于自定义的关键词采集方式进行互联网数据采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811100075.1A CN109190010B (zh) 2018-09-20 2018-09-20 基于自定义的关键词采集方式进行互联网数据采集系统

Publications (2)

Publication Number Publication Date
CN109190010A true CN109190010A (zh) 2019-01-11
CN109190010B CN109190010B (zh) 2021-05-11

Family

ID=64908841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811100075.1A Active CN109190010B (zh) 2018-09-20 2018-09-20 基于自定义的关键词采集方式进行互联网数据采集系统

Country Status (1)

Country Link
CN (1) CN109190010B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837672A (zh) * 2021-11-26 2021-12-24 深圳普菲特信息科技股份有限公司 基于工业互联网的设备维护管理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040107202A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation Framework for evaluating data cleansing applications
CN102567412A (zh) * 2010-12-31 2012-07-11 上海久隆信息工程有限公司 一种计算机辅助电网负荷分析的信息处理方法
CN106484855A (zh) * 2016-09-30 2017-03-08 广州特道信息科技有限公司 一种大数据涉税情报分析系统
CN106776794A (zh) * 2016-11-23 2017-05-31 北京锐安科技有限公司 一种海量数据处理方法及系统
CN107220367A (zh) * 2017-06-09 2017-09-29 成都布林特信息技术有限公司 互联网数据全文搜索方法
CN107239563A (zh) * 2017-06-13 2017-10-10 成都布林特信息技术有限公司 舆情信息动态监控方法
CN108509588A (zh) * 2018-03-29 2018-09-07 成都智联数创科技有限公司 一种基于大数据的律师评估方法及推荐方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040107202A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation Framework for evaluating data cleansing applications
CN102567412A (zh) * 2010-12-31 2012-07-11 上海久隆信息工程有限公司 一种计算机辅助电网负荷分析的信息处理方法
CN106484855A (zh) * 2016-09-30 2017-03-08 广州特道信息科技有限公司 一种大数据涉税情报分析系统
CN106776794A (zh) * 2016-11-23 2017-05-31 北京锐安科技有限公司 一种海量数据处理方法及系统
CN107220367A (zh) * 2017-06-09 2017-09-29 成都布林特信息技术有限公司 互联网数据全文搜索方法
CN107239563A (zh) * 2017-06-13 2017-10-10 成都布林特信息技术有限公司 舆情信息动态监控方法
CN108509588A (zh) * 2018-03-29 2018-09-07 成都智联数创科技有限公司 一种基于大数据的律师评估方法及推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周庭安: "分布式搜索引擎研究与实现", 《中国知网优秀硕士论文库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837672A (zh) * 2021-11-26 2021-12-24 深圳普菲特信息科技股份有限公司 基于工业互联网的设备维护管理方法
CN113837672B (zh) * 2021-11-26 2022-03-15 深圳普菲特信息科技股份有限公司 基于工业互联网的设备维护管理方法

Also Published As

Publication number Publication date
CN109190010B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN102436513B (zh) 分布式检索方法和系统
Aye Web log cleaning for mining of web usage patterns
CN102760151B (zh) 开源软件获取与搜索系统的实现方法
CN102737021B (zh) 搜索引擎及其实现方法
Delen et al. A holistic framework for knowledge discovery and management
CN108228743A (zh) 一种实时大数据搜索引擎系统
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN101141370A (zh) 基于网格服务的电力企业实时数据处理方法
CN109710767A (zh) 多语种大数据服务平台
CN102722499A (zh) 搜索引擎及其实现方法
CN106126688A (zh) 基于web内容和结构挖掘的智能网络信息采集系统、方法
CN113656673A (zh) 面向广告投放的主从分布内容爬取机器人
CN107239558A (zh) 通用互联网数据采集方法
CN109190010A (zh) 基于自定义的关键词采集方式进行互联网数据采集系统
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选系统
Verma et al. Comprehensive survey of framework for web personalization using web mining
Agrawal et al. A survey on content based crawling for deep and surface web
Charles et al. A focused Web crawler for strengthening cyber security and building a knowledge-based domain
KR101718599B1 (ko) 소셜 미디어 데이터 분석 시스템 및 이를 이용한 소셜 미디어 데이터 분석 방법
Xu et al. The application of web crawler in city image research
Khurana et al. Survey of techniques for deep web source selection and surfacing the hidden web content
KR20210045172A (ko) 축산 질병 발생 분석을 위한 빅 데이터 관리 및 시스템
CN102890715A (zh) 一种特定领域信息自动化组织的装置及其方法
Gao et al. Web information processing and extracting
CN107145542A (zh) 从url中高效提取用户客户端id的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220601

Address after: 450000 No. 15, 1st floor, Gaoxin soho7 building, Kexue Avenue and Qiye Road, high tech Industrial Development Zone, Zhengzhou City, Henan Province

Patentee after: Henan Pulian Information Technology Co.,Ltd.

Address before: 450000 No.301, block a, Jianye zhihuigang, intersection of Ping'an Avenue and Huxin Ring Road, Zhengdong New District, Zhengzhou City, Henan Province

Patentee before: HENAN ZHIHUIYUN BIG DATA Co.,Ltd.