CN109190010B - 基于自定义的关键词采集方式进行互联网数据采集系统 - Google Patents
基于自定义的关键词采集方式进行互联网数据采集系统 Download PDFInfo
- Publication number
- CN109190010B CN109190010B CN201811100075.1A CN201811100075A CN109190010B CN 109190010 B CN109190010 B CN 109190010B CN 201811100075 A CN201811100075 A CN 201811100075A CN 109190010 B CN109190010 B CN 109190010B
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- unit
- keywords
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于自定义的关键词采集方式进行互联网数据采集系统,包括数据库、数据接入层,还包括:信息采集和预处理层:根据用户设置的关键词采集互联网开源信息数据并对采集的数据进行预处理,将预处理完成后的数据送入分析层;分析层:对信息采集和预处理层送入的数据进行分析,剔除包含关键字的无效数据,将剩下的数据送入数据接入层。进一步的,还包括应用层:用于为查询用户提供查询检索功能,将检索查询的信息进行多维可视化输出,生成相应的报告。采用上述系统,在信息采集和预处理层通过爬虫技术采集到需要的数据后,通过分析层对数据的可靠性进行分析,将垃圾信息删除。
Description
技术领域
本发明涉及数据采集领域,特别涉及基于自定义的关键词采集方式进行互联网数据采集系统。
背景技术
随着Web技术的不断发展,网络信息资源正以几何速度的方式增长。如何从互联网海量信息中快速检索出与用户相关的有用数据已成为当前急需解决的问题。搜索引擎正是在信息检索技术的基础上发展起来的。搜索引擎帮助本发明更好的表达和存储现实世界中的本质信息,而且通过对搜索引擎中的联接信息进行分析,可作为一种挖掘隐藏信息的有用工具。现有搜索引擎单纯的依赖有限搜索词去表达用户需求,存在这表达不完整的问题。即使是同样的搜索词,不同的用户所期望的结果可能也是不同的。例如微博系统,如果考虑微博以及相关交互对象的关系,它可以抽象为一个异构网络,其中包含了微博、信息、标签以及用户等节点。微博和微博之间存在着关注和粉丝关系,微博和信息之间存在着发表和转发关系,微博和标签之间是一个包含关系,而用户和微博之间存在着拥有关系。现有的搜索工具并未考虑上述多维对象形成的复杂环境进行数据挖掘。
现有的基于关键词的数据采集系统一般采用爬虫技术抓取网页上的关键词,但是由于网页上垃圾信息较多,采集的数据量较大,如果不经分析处理就进行储存,对储存空间浪费严重,同时不利于用户查看。
发明内容
本发明的目的在于:提供了基于自定义的关键词采集方式进行互联网数据采集系统,解决了现有的基于关键词的数据采集系统一般采用爬虫技术抓取网页上的关键词,但是由于网页上垃圾信息较多,采集的数据量较大,如果不经分析处理就进行储存,对储存空间浪费严重,同时不利于用户查看的问题。
本发明采用的技术方案如下:
基于自定义的关键词采集方式进行互联网数据采集系统,包括数据库、数据接入层,还包括:
信息采集和预处理层:根据用户设置的关键词采集互联网开源信息数据并对采集的数据进行预处理,将预处理完成后的数据送入分析层;
分析层:对信息采集和预处理层送入的数据进行分析,剔除包含关键字的无效数据,将剩下的数据送入数据接入层。
进一步的,还包括应用层:用于为查询用户提供查询检索功能,将检索查询的信息进行多维可视化输出,生成相应的报告。
采用上述系统,在信息采集和预处理层通过爬虫技术采集到需要的数据后,通过分析层对数据的可靠性进行分析,将垃圾信息删除。
进一步的,所述信息采集和预处理层包括搜索引擎的采集模块,所述采集模块包括爬取站点数据库、爬取站点调度单元、事务管理控制器、事务容器、数据控制器、基础数据库;所述事务管理控制器用于多个爬取事务的创建、启动、运行控制和销毁;事务容器用于事务资源的管理;数据控制器用于程序与数据库之间的数据交换处理。还包括全局数据源缓存单元、数据调度单元、数据访问管理单元;全局爬取缓存单元用于处理多事务在对临界资源访问时的事务等待,每个网络爬虫只有一个全局爬取缓存单元实例;数据访问管理单元用于数据库与程序的数据交互处理;数据调度单元实现单事务爬取的调度,当单事务爬取缓存单元中没有爬取时,由数据调度单元从全局爬取缓存单元中获取若干爬取到事务爬取缓存单元;数据调度单元在整个程序中只有一个实例。
进一步的,所述事务容器进一步包括:
爬取站点缓存单元,用于在内存中建立队列来缓存事务要爬取的站点数据;
事务缓存单元,用于缓存事务自身的数据;
存储缓存单元,用于缓存待存储到数据库的相关数据;
采集事务处理单元,用于对采集数据的加载、实现数据更新、链接去重、存储处理;
数据清洗抽取单元,用于对采集的数据进行清洗,抽取出有效信息,获取网页质量等级评价的相关信息和获取网页中新的爬取站点;
数据存储分析单元,将清洗抽取出来数据转换为易存储的形式,数据进行压缩,组成待执行的数据库搜索字符串。
进一步的,所述信息采集和预处理层还包括搜索引擎的分析模块,分析模块将采集的基础数据进行分析处理,为关键字建立索引,便于用户搜索。
进一步的,所述分析层包括编码单元、清洗单元、缓存单元和对比单元。
进一步的,编码单元对信息采集和预处理层采集到的数据中的关键词进行编码;
清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,将出现频率较低的字符串送入缓存单元的异常数据存储部分。
由于在一段通顺的句子中,一般关键词前后的字符搭配数量有限,大部分信息关键词前后的字符都相同,因此采用上述单元模块可以有效的剔除爬虫技术采集的数据中的垃圾信息,节约储存空间,提高用户查阅数据的效率。
进一步的,所述互联网数据采集系统的数据采集方法包括以下步骤:
A、信息采集和预处理层根据用户设置的关键词采集互联网开源信息数据,所述数据为带有关键词的网页参数及网页内容,并对采集的数据进行预处理,将预处理完成后的数据送入分析层编码单元;
B、编码单元对信息采集和预处理层采集到的数据中的关键词进行编码,为每个关键词一一匹配编码;
C、清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
D、分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,将出现频率较低的字符串送入缓存单元的异常数据存储部分;将剩下的字符串提取与其匹配的关键词,将对应的关键词匹配的网页存入数据库;
E、用户通过应用层查看数据库中的内容,同时还可以通过应用层查看异常数据存储部分的数据,进行移动或永久删除操作。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明基于自定义的关键词采集方式进行互联网数据采集系统,利用事务控制策略进行高效数据采集,针对多维对象之间的耦合关系进行数据挖掘。
2.本发明基于自定义的关键词采集方式进行互联网数据采集系统,解决了现有的基于关键词的数据采集系统一般采用爬虫技术抓取网页上的关键词,但是由于网页上垃圾信息较多,采集的数据量较大,如果不经分析处理就进行储存,对储存空间浪费严重,同时不利于用户查看的问题。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
实施例1
基于自定义的关键词采集方式进行互联网数据采集系统,包括数据库、数据接入层,还包括:
信息采集和预处理层:根据用户设置的关键词采集互联网开源信息数据并对采集的数据进行预处理,将预处理完成后的数据送入分析层;
分析层:对信息采集和预处理层送入的数据进行分析,剔除包含关键字的无效数据,将剩下的数据送入数据接入层。
进一步的,还包括应用层:用于为查询用户提供查询检索功能,将检索查询的信息进行多维可视化输出,生成相应的报告。
采用上述系统,在信息采集和预处理层通过爬虫技术采集到需要的数据后,通过分析层对数据的可靠性进行分析,将垃圾信息删除。
实施例2
本实施例与实施例1的区别在于,进一步的,所述信息采集和预处理层包括搜索引擎的采集模块,所述采集模块包括爬取站点数据库、爬取站点调度单元、事务管理控制器、事务容器、数据控制器、基础数据库;所述事务管理控制器用于多个爬取事务的创建、启动、运行控制和销毁;事务容器用于事务资源的管理;数据控制器用于程序与数据库之间的数据交换处理。还包括全局数据源缓存单元、数据调度单元、数据访问管理单元;全局爬取缓存单元用于处理多事务在对临界资源访问时的事务等待,每个网络爬虫只有一个全局爬取缓存单元实例;数据访问管理单元用于数据库与程序的数据交互处理;数据调度单元实现单事务爬取的调度,当单事务爬取缓存单元中没有爬取时,由数据调度单元从全局爬取缓存单元中获取若干爬取到事务爬取缓存单元;数据调度单元在整个程序中只有一个实例。
进一步的,所述事务容器进一步包括:
爬取站点缓存单元,用于在内存中建立队列来缓存事务要爬取的站点数据;
事务缓存单元,用于缓存事务自身的数据;
存储缓存单元,用于缓存待存储到数据库的相关数据;
采集事务处理单元,用于对采集数据的加载、实现数据更新、链接去重、存储处理;
数据清洗抽取单元,用于对采集的数据进行清洗,抽取出有效信息,获取网页质量等级评价的相关信息和获取网页中新的爬取站点;
数据存储分析单元,将清洗抽取出来数据转换为易存储的形式,数据进行压缩,组成待执行的数据库搜索字符串。
进一步的,所述信息采集和预处理层还包括搜索引擎的分析模块,分析模块将采集的基础数据进行分析处理,为关键字建立索引,便于用户搜索。
进一步的,所述分析层包括编码单元、清洗单元、缓存单元和对比单元。
进一步的,编码单元对信息采集和预处理层采集到的数据中的关键词进行编码;
清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,将出现频率较低的字符串送入缓存单元的异常数据存储部分。
由于在一段通顺的句子中,一般关键词前后的字符搭配数量有限,大部分信息关键词前后的字符都相同,因此采用上述单元模块可以有效的剔除爬虫技术采集的数据中的垃圾信息,节约储存空间,提高用户查阅数据的效率。
实施例3
本实施例为本方案的实施方法,进一步的,所述互联网数据采集系统的数据采集方法包括以下步骤:
A、信息采集和预处理层根据用户设置的关键词采集互联网开源信息数据,所述数据为带有关键词的网页参数及网页内容,并对采集的数据进行预处理,将预处理完成后的数据送入分析层编码单元;
B、编码单元对信息采集和预处理层采集到的数据中的关键词进行编码,为每个关键词一一匹配编码;
C、清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后2个字符的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
D、分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,对字符串的出现频率进行排序,将出现频率位于后61.8%的字符串送入缓存单元的异常数据存储部分;将剩下的字符串提取与其匹配的关键词,将对应的关键词匹配的网页存入数据库;
E、用户通过应用层查看数据库中的内容,同时还可以通过应用层查看异常数据存储部分的数据,进行移动或永久删除操作。
以上所述,仅为本发明的优选实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。
Claims (6)
1.基于自定义的关键词采集方式进行互联网数据采集系统,包括数据库、数据接入层,其特征在于,还包括:
信息采集和预处理层:根据用户设置的关键词采集互联网开源信息数据并对采集的数据进行预处理,将预处理完成后的数据送入分析层;
分析层:对信息采集和预处理层送入的数据进行分析,剔除包含关键字的无效数据,将剩下的数据送入数据接入层;
所述分析层包括编码单元、清洗单元、缓存单元和对比单元;
编码单元对信息采集和预处理层采集到的数据中的关键词进行编码;
清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,将出现频率较低的字符串送入缓存单元的异常数据存储部分。
2.根据权利要求1所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:还包括应用层:用于为查询用户提供查询检索功能,将检索查询的信息进行多维可视化输出,生成相应的报告。
3.根据权利要求1所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:所述信息采集和预处理层包括搜索引擎的采集模块,所述采集模块包括爬取站点数据库、爬取站点调度单元、事务管理控制器、事务容器、数据控制器、基础数据库;所述事务管理控制器用于多个爬取事务的创建、启动、运行控制和销毁;事务容器用于事务资源的管理;数据控制器用于程序与数据库之间的数据交换处理。
4.根据权利要求3所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:所述事务容器进一步包括:
爬取站点缓存单元,用于在内存中建立队列来缓存事务要爬取的站点数据;
事务缓存单元,用于缓存事务自身的数据;
存储缓存单元,用于缓存待存储到数据库的相关数据;
采集事务处理单元,用于对采集数据的加载、实现数据更新、链接去重、存储处理;
数据清洗抽取单元,用于对采集的数据进行清洗,抽取出有效信息,获取网页质量等级评价的相关信息和获取网页中新的爬取站点;
数据存储分析单元,将清洗抽取出来数据转换为易存储的形式,数据进行压缩,组成待执行的数据库搜索字符串。
5.根据权利要求2或3所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:所述信息采集和预处理层还包括搜索引擎的分析模块,分析模块将采集的基础数据进行分析处理,为关键字建立索引,便于用户搜索。
6.根据权利要求5所述的基于自定义的关键词采集方式进行互联网数据采集系统,其特征在于:所述互联网数据采集系统的数据采集方法包括以下步骤:
A、信息采集和预处理层根据用户设置的关键词采集互联网开源信息数据,所述数据为带有关键词的网页参数及网页内容,并对采集的数据进行预处理,将预处理完成后的数据送入分析层编码单元;
B、编码单元对信息采集和预处理层采集到的数据中的关键词进行编码,为每个关键词一一匹配编码;
C、清洗单元对信息采集和预处理层采集到的数据进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配后存入缓存单元;
D、分析单元分析缓存单元中的字符串,分析每种字符串出现的频率,将出现频率较低的字符串送入缓存单元的异常数据存储部分;将剩下的字符串提取与其匹配的关键词,将对应的关键词匹配的网页存入数据库;
E、用户通过应用层查看数据库中的内容,同时还可以通过应用层查看异常数据存储部分的数据,进行移动或永久删除操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811100075.1A CN109190010B (zh) | 2018-09-20 | 2018-09-20 | 基于自定义的关键词采集方式进行互联网数据采集系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811100075.1A CN109190010B (zh) | 2018-09-20 | 2018-09-20 | 基于自定义的关键词采集方式进行互联网数据采集系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190010A CN109190010A (zh) | 2019-01-11 |
CN109190010B true CN109190010B (zh) | 2021-05-11 |
Family
ID=64908841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811100075.1A Active CN109190010B (zh) | 2018-09-20 | 2018-09-20 | 基于自定义的关键词采集方式进行互联网数据采集系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190010B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837672B (zh) * | 2021-11-26 | 2022-03-15 | 深圳普菲特信息科技股份有限公司 | 基于工业互联网的设备维护管理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567412A (zh) * | 2010-12-31 | 2012-07-11 | 上海久隆信息工程有限公司 | 一种计算机辅助电网负荷分析的信息处理方法 |
CN106484855A (zh) * | 2016-09-30 | 2017-03-08 | 广州特道信息科技有限公司 | 一种大数据涉税情报分析系统 |
CN106776794A (zh) * | 2016-11-23 | 2017-05-31 | 北京锐安科技有限公司 | 一种海量数据处理方法及系统 |
CN107220367A (zh) * | 2017-06-09 | 2017-09-29 | 成都布林特信息技术有限公司 | 互联网数据全文搜索方法 |
CN107239563A (zh) * | 2017-06-13 | 2017-10-10 | 成都布林特信息技术有限公司 | 舆情信息动态监控方法 |
CN108509588A (zh) * | 2018-03-29 | 2018-09-07 | 成都智联数创科技有限公司 | 一种基于大数据的律师评估方法及推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7370057B2 (en) * | 2002-12-03 | 2008-05-06 | Lockheed Martin Corporation | Framework for evaluating data cleansing applications |
-
2018
- 2018-09-20 CN CN201811100075.1A patent/CN109190010B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567412A (zh) * | 2010-12-31 | 2012-07-11 | 上海久隆信息工程有限公司 | 一种计算机辅助电网负荷分析的信息处理方法 |
CN106484855A (zh) * | 2016-09-30 | 2017-03-08 | 广州特道信息科技有限公司 | 一种大数据涉税情报分析系统 |
CN106776794A (zh) * | 2016-11-23 | 2017-05-31 | 北京锐安科技有限公司 | 一种海量数据处理方法及系统 |
CN107220367A (zh) * | 2017-06-09 | 2017-09-29 | 成都布林特信息技术有限公司 | 互联网数据全文搜索方法 |
CN107239563A (zh) * | 2017-06-13 | 2017-10-10 | 成都布林特信息技术有限公司 | 舆情信息动态监控方法 |
CN108509588A (zh) * | 2018-03-29 | 2018-09-07 | 成都智联数创科技有限公司 | 一种基于大数据的律师评估方法及推荐方法 |
Non-Patent Citations (1)
Title |
---|
分布式搜索引擎研究与实现;周庭安;《中国知网优秀硕士论文库》;20150115;论文正文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109190010A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241241B (zh) | 基于知识图谱的案件检索方法、装置、设备及存储介质 | |
JP5697172B2 (ja) | 情報ストリームの情報を処理する方法およびシステム | |
CN110705288A (zh) | 一种基于大数据的舆情分析系统 | |
CN109213752A (zh) | 一种基于cim的数据清洗转换方法 | |
CN110245037B (zh) | 一种基于日志的Hive用户操作行为还原方法 | |
CN104166683A (zh) | 一种数据挖掘方法 | |
CN103226609A (zh) | 一种web聚焦搜索系统的搜索方法 | |
Yu et al. | A survey about algorithms utilized by focused web crawler | |
Zhang | Application of data mining technology in digital library. | |
CN109190010B (zh) | 基于自定义的关键词采集方式进行互联网数据采集系统 | |
CN114205148A (zh) | 一种大数据应用安全管控系统 | |
Etminani et al. | Web Usage Mining: users' navigational patterns extraction from web logs using ant-based clustering method. | |
CN112597370A (zh) | 指定需求范围的网页信息自主搜集筛选系统 | |
CN116049243A (zh) | 企业知识产权大数据情报分析系统、方法及存储介质 | |
CN106777124B (zh) | 语义认知方法、装置及系统 | |
CN109086384A (zh) | 基于用户画像的水务管理方法及系统 | |
CN107562909A (zh) | 一种融合搜索与计算的大数据分析系统及其分析方法 | |
CN107038172A (zh) | 一种基于语义的油田搜索引擎构建方法 | |
Khurana et al. | Survey of techniques for deep web source selection and surfacing the hidden web content | |
KR20210045172A (ko) | 축산 질병 발생 분석을 위한 빅 데이터 관리 및 시스템 | |
Chawla et al. | Reverse apriori approach—an effective association rule mining algorithm | |
Arnoux et al. | Automatic clustering for the web usage mining | |
Wang | Design and Implementation of It Job Recruitment Data Based on Web Crawler | |
CN107145542A (zh) | 从url中高效提取用户客户端id的方法和系统 | |
Gao et al. | Web information processing and extracting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220601 Address after: 450000 No. 15, 1st floor, Gaoxin soho7 building, Kexue Avenue and Qiye Road, high tech Industrial Development Zone, Zhengzhou City, Henan Province Patentee after: Henan Pulian Information Technology Co.,Ltd. Address before: 450000 No.301, block a, Jianye zhihuigang, intersection of Ping'an Avenue and Huxin Ring Road, Zhengdong New District, Zhengzhou City, Henan Province Patentee before: HENAN ZHIHUIYUN BIG DATA Co.,Ltd. |
|
TR01 | Transfer of patent right |