CN112434204A - 一种多来源网站的数据自动采集系统及其方法 - Google Patents
一种多来源网站的数据自动采集系统及其方法 Download PDFInfo
- Publication number
- CN112434204A CN112434204A CN202011319945.1A CN202011319945A CN112434204A CN 112434204 A CN112434204 A CN 112434204A CN 202011319945 A CN202011319945 A CN 202011319945A CN 112434204 A CN112434204 A CN 112434204A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- webpage
- characteristic
- data acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000000007 visual effect Effects 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000012800 visualization Methods 0.000 claims abstract description 4
- 230000008859 change Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 6
- 238000013479 data entry Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000012986 modification Methods 0.000 abstract description 7
- 230000004048 modification Effects 0.000 abstract description 7
- 238000011161 development Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 abstract description 5
- 230000009193 crawling Effects 0.000 abstract description 4
- 238000012423 maintenance Methods 0.000 abstract description 3
- 206010063385 Intellectualisation Diseases 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 8
- 230000018109 developmental process Effects 0.000 description 4
- 239000013589 supplement Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种多来源网站的数据自动采集系统及其方法,涉及计算机网络领域,目的是解决现有网页采集技术开发工作量大,适应范围小,增加修改新功能困难,可迁移性差等缺点,包括原始数据库、特征提取模块、特征数据库、数据获取模块、最终数据库和可视化界面;原始数据库用于存储原始数据;特征提取模块用于从原始数据库提取特征数据;特征数据库用于存储特征数据;数据获取模块用于从特征数据库获取目标数据;最终数据库用于存储目标数据;可视化界面用于展示数据采集和分析结果以及修改和编辑数据采集的中间参数。本发明能够实现高智能化、访问网页数量、方式多和解析方式灵活、代码量小、爬取迅速,且便于修改增加新功能,维护便捷高效。
Description
技术领域
本发明涉及计算机网络领域,具体涉及一种多来源网站的数据自动采集系统及其方法。
背景技术
随着大数据时代的到来,大数据服务对数据的获取、解析和展示提出了新的需求和挑战。目前,通用的技术方案多针对单一的网站进行爬取,对固定的数据匹配统一的规则。具有开发工作量大,适应范围小,增加修改新功能困难,可迁移性差的特点,采用一个一个的进行设计的方法,对业务员的专业能力和开发经验要求高,工过量大,开发周期长,增加了公司的运营成本和人力成本,尤其是,在开发过程中增加新功、修改错误和后期运行维护方面更是带来繁重的工作量,花费宝贵的时间。
对于相似程度高的网站需要人工,编程和匹配规则,缺乏智能化的分析手段和对已有工作成校、经验的沿用。对于统计结果的统计需要人工检查结果,缺乏科学的统计、分析和预测方式,对于结果的展示,和采集过程的干预,多采用代码级别的干预,更改困难,容易引入扰乱。
发明内容
本申请公开了一种多来源网站的数据自动采集系统及其方法,实现了智能化采集,访问网页访问方式多和解析方式灵活、代码量小且爬取迅速。
为了达到上述目的,本申请采用的技术方案如下:
一种多来源网站的数据自动采集系统,包括原始数据库、特征提取模块、特征数据库、数据获取模块、最终数据库和可视化界面;原始数据库用于存储原始数据;特征提取模块用于从原始数据库提取特征数据;特征数据库用于存储特征数据;数据获取模块用于从特征数据库获取目标数据;最终数据库用于存储目标数据;可视化界面用于展示数据采集和分析结果以及修改和编辑数据采集的中间参数。
优选地,原始数据库内存放的数据包括原始特征信息,样板信息,网页翻页信息,url信息和url示例信息。
优选地,特征数据库存放的数据的数据类型包括post-html,post-json,get-html和get-json。
本申请还公开了一种多来源网站的数据自动采集方法,应用于上述的一种多来源网站的数据自动采集系统,步骤包括:
(a)将网页信息录入原始数据库;
(b)由特征提取模块自动清洗分析原始数据库的数据,并且将提取的网页的信息和关键特征存入特征数据库;
(c)请求网页:模块自动生成网页请求的url和参数,获取网页内容;
(d)网页解析:解析请求网页步骤以后返回的网页内容,网页解析模块解析项目的名称、发布时间和该项目的超级链接,并且智能处理超级链接且自动补充残缺部分生成完整的链接;
(e)由数据获取模块筛选目标存入最终数据库;
(f)通过可视化界面展示运行情况、统计分析和数据录入情况。
优选地,步骤(c)中,请求网页的类型包括get型和post型;网页请求为get型时,通过对比网页连续3页的的链接进行分段处理,对比分析变化信息确定网页的翻页码和规则,动态生成各页的链接;网页请求为post型时,通过对比网页的变化,确定网页的变化规则以及响应得post型参数的变化规则,生成数据每一页的访问规则。
优选地,步骤(d)中,返回的网页种类包括html和json。
优选地,步骤(f)中,可视化界面还用于对中间的参数进行编辑和修改。本申请通过构建原始数据库、特征数据库、最终数据库和可视化界面,实现了网站数据采集的智能化,访问网页访问方式多和解析方式灵活,代码量小,爬取迅速,修改增加新功能方便简单,后期维护便捷高效的特点;设置的可视化界面为采集过程的人为干预,为修改配置和引导学习提供便捷,可直观展示统计和分析结果,效果直观,为数据的管理和研究提供方便。
附图说明
图1为本发明的系统结构示意图;
图2为本发明的方法流程图。
具体实施方式
如图1所示的一种多来源网站的数据自动采集系统,包括原始数据库、特征提取模块、特征数据库、数据获取模块、最终数据库和可视化界面;特征提取模块从原始数据库提取的特征数据储存到特征数据库;数据获取模块从特征数据库获取数据存放至最终数据库;可视化界面用于展示数据采集和分析结果,还用于修改和编辑数据采集的中间参数。
其中,原始数据库内存放的数据包括原始特征信息,样板信息,网页翻页信息,url信息和url示例信息;特征数据库存放的数据的数据类型包括post-html,post-json,get-html和get-json。
下面结合图2说明一种多来源网站的数据自动采集方法的工作流程:
(a)录入原始数据库:原始数据库尽可能多的包含各个方面的信息为后期处理需求提供便利,例如包括原始特征信息,样板信息,网页翻页信息,url信息和url示例等信息;按固定的标准和格式统一快速录入,适应于短时间,大批量,快速录入。
(b)由特征提取模块自动清洗分析原始数据库的数据,并且将提取的网页的信息和关键特征存入特征数据库:特征数据库存储的类型包括post-html,post-json,get-html和get-json。
(c)请求网页,模块自动生成网页请求的url和参数,获取网页内容:请求网页的类型分为get型和post型,当网页请求为get型时,通过对比网页连续3页的的链接进行分段处理,对比分析确定网页的翻页码和规则,动态生成各页的链接;当网页请求为post型时,通过对比网页的变化,意见发送的post参数的变化,确定网页的变化规则以及响应得post型参数的变化规则,生成数据每一页的访问规则。
(d)网页解析,网页解析模块需要解析项目的名称,发布时间和该项目的超级链接,由特征提取模块处理超级链接补充残缺部分生成完整的链接:对请求网页以后返回的网页进行解析,返回的网页分为html和json两种类型,当返回的网页为html型时,依据表中录入的项目信息的标题、时间、xpath路径、提取称网页中一条项目标题和发布时间的xpath路径的特征信息,提取该项目的超级链接;当返回的网页为json型时,可以根据特征数据库的存储的特征,直接提取目标信息。
(e)数据获取模块筛选目标存入最终数据库:对于录入信息中的超级链接,自动提取链接的规则,对链接进行拼写和补全,生成正常且完整的连接,通过该链接拿取网页内容或网页截屏快照,结果发送到最终数据库储存。
(f)通过可视化界面展示运行情况、统计分析和数据录入情况:整个进程都可以在可视化界面展示,此外,可视化界面还可以用于用户在过程中对参数进行修改或编辑。
实施例1
下面以中标信息为例:
原始数据库存储的项目包括表头、分类、行业、总内容、标题1、时间1、标题2、时间2和省。表头存储城市名称,网站名处存储网址名称,分类一栏存储招标、中标,评标、资格候选人和流标等信息,行业一栏存储房屋、市政、工程水利,土地交易,产权,国有等信息,对于数据项少小于3页的全部录入,对于3页和3页以上的录入前3页的链接或者录入其中任意连续三页的链接。总内容一栏存储中标项目详情的网页的正文文本的xpath路径。标题1是项目列表中第一项的标题文本的xpath路径,时间1一栏为项目列表中第一项的标题文本的发布时间;标题2一栏是项目列表中第二项的标题文本的xpath路径,时间2为项目列表中第二项的标题文本的发布时间,省一栏记录城市的省份。其中,对于标题和时间的存储,在本实施例中,以存储第一项和第二项为例,但是也可以选取其他不同的两项,如第二和第三,或者第一和第四。
首先由特征提取模块自动清洗分析原始数据库的数据,并且将提取的网页的信息和关键特征存入特征数据库。
请求网页,模块自动生成网页请求的url和参数,获取网页内容。
接着进行网页解析,解析项目的名称,发布时间和该项目的超级链接,由特征提取模块处理超级链接补充残缺部分生成完整的链接,例如网页为json型时,可以根据特征数据库的存储的特征,直接提取目标信息。
下一步是由数据获取模块筛选目标存入最终数据库,即对于录入信息中的超级链接,自动提取链接的规则,对链接进行拼写和补全,生成正常且完整的连接,通过该链接拿取网页内容或网页截屏快照,结果发送到最终数据库储存。
最后通过可视化界面展示运行情况、统计分析和数据录入情况,其中,整个进程都可以在可视化界面展示,此外,可视化界面还可以用于用户在过程中对参数进行修改或编辑。
Claims (7)
1.一种多来源网站的数据自动采集系统,其特征在于:包括原始数据库、特征提取模块、特征数据库、数据获取模块、最终数据库和可视化界面;
原始数据库用于存储原始数据;特征提取模块用于从原始数据库提取特征数据;特征数据库用于存储特征数据;数据获取模块用于从特征数据库获取目标数据;最终数据库用于存储目标数据;可视化界面用于展示数据采集和分析结果以及修改和编辑数据采集的中间参数。
2.根据权利要求1所述的一种多来源网站的数据自动采集系统,其特征在于:所述原始数据库内存放的数据包括原始特征信息、样板信息、网页翻页信息、url信息和url示例信息。
3.根据权利要求1所述的一种多来源网站的数据自动采集系统,其特征在于:所述特征数据库存放的数据的数据类型包括post-html、post-json、get-html和get-json。
4.一种多来源网站的数据自动采集方法,应用于权利要求1-3所述的任意一种多来源网站的数据自动采集系统,其特征在于,包括以下步骤:
(a)将网页信息录入原始数据库;
(b)由特征提取模块自动清洗分析原始数据库的数据,并且将提取的网页的信息和关键特征存入特征数据库;
(c)请求网页:模块自动生成网页请求的url和参数,获取网页内容;
(d)网页解析:解析请求网页步骤以后返回的网页的内容,网页解析模块解析项目的名称、发布时间和该项目的超级链接,并且智能处理超级链接且自动补充残缺部分生成完整的链接;
(e)筛选目标存入最终数据库;
(f)通过可视化界面展示运行情况、统计分析和数据录入情况。
5.根据权利要求4所述的一种多来源网站的数据自动采集方法,其特征在于:步骤(c)中,所述请求网页的类型包括get型和post型;
网页请求为get型时,通过对比网页连续3页的链接进行分段处理,对比分析变化信息确定网页的翻页码和规则,动态生成各页的链接;网页请求为post型时,通过对比网页的变化,确定网页的变化规则以及响应得post型参数的变化规则,生成数据每一页的访问规则。
6.根据权利要求4所述的一种多来源网站的数据自动采集方法,其特征在于:步骤(d)中,所述返回的网页的种类包括html和json。
7.根据权利要求4所述的一种多来源网站的数据自动采集方法,其特征在于:步骤(f)中,所述可视化界面还用于对中间的参数进行编辑和修改。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011319945.1A CN112434204A (zh) | 2020-11-23 | 2020-11-23 | 一种多来源网站的数据自动采集系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011319945.1A CN112434204A (zh) | 2020-11-23 | 2020-11-23 | 一种多来源网站的数据自动采集系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434204A true CN112434204A (zh) | 2021-03-02 |
Family
ID=74693548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011319945.1A Pending CN112434204A (zh) | 2020-11-23 | 2020-11-23 | 一种多来源网站的数据自动采集系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434204A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778273A (zh) * | 2015-04-24 | 2015-07-15 | 淘金信息科技江苏有限公司 | 一种用于购物网站的大数据分析系统 |
CN108205548A (zh) * | 2016-12-17 | 2018-06-26 | 哈尔滨派腾农业科技有限公司 | 一种基于农业网页信息采集的网络蜘蛛结构及其工作方法 |
CN108334591A (zh) * | 2018-01-30 | 2018-07-27 | 天津中科智能识别产业技术研究院有限公司 | 基于聚焦爬虫技术的行业分析方法及系统 |
CN108921739A (zh) * | 2018-08-06 | 2018-11-30 | 四川工商学院 | 一种基于大数据的立法智能分析平台 |
CN109948009A (zh) * | 2019-03-12 | 2019-06-28 | 福建奇点时空数字科技有限公司 | 一种数据可视化引擎系统 |
-
2020
- 2020-11-23 CN CN202011319945.1A patent/CN112434204A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778273A (zh) * | 2015-04-24 | 2015-07-15 | 淘金信息科技江苏有限公司 | 一种用于购物网站的大数据分析系统 |
CN108205548A (zh) * | 2016-12-17 | 2018-06-26 | 哈尔滨派腾农业科技有限公司 | 一种基于农业网页信息采集的网络蜘蛛结构及其工作方法 |
CN108334591A (zh) * | 2018-01-30 | 2018-07-27 | 天津中科智能识别产业技术研究院有限公司 | 基于聚焦爬虫技术的行业分析方法及系统 |
CN108921739A (zh) * | 2018-08-06 | 2018-11-30 | 四川工商学院 | 一种基于大数据的立法智能分析平台 |
CN109948009A (zh) * | 2019-03-12 | 2019-06-28 | 福建奇点时空数字科技有限公司 | 一种数据可视化引擎系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10977293B2 (en) | Technology incident management platform | |
US8719308B2 (en) | Method and system to process unstructured data | |
CN102073726B (zh) | 搜索引擎系统的结构化数据的引入方法和装置 | |
DE102013205737A1 (de) | System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen | |
CN106599160B (zh) | 一种内容规则库管理系统及其编码方法 | |
CN104133855B (zh) | 一种输入法智能联想的方法及装置 | |
US10210211B2 (en) | Code searching and ranking | |
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
DE102019001267A1 (de) | Dialogartiges System zur Beantwortung von Anfragen | |
US8359307B2 (en) | Method and apparatus for building sales tools by mining data from websites | |
WO2015023304A1 (en) | Refining search query results | |
CN112579852A (zh) | 一种互动式网页数据精确采集方法 | |
CN111813443B (zh) | 一种用JavaFX进行代码样例自动填充的方法和工具 | |
CN111192176A (zh) | 一种支持教育信息化评估的在线数据采集方法及装置 | |
CN104881428A (zh) | 一种信息图网页的信息图提取、检索方法和装置 | |
CN114756537A (zh) | 一种基于数据埋点的用户画像的方法、系统和装置 | |
US8799791B2 (en) | System for use in editorial review of stored information | |
CN110275938B (zh) | 基于非结构化文档的知识提取方法及系统 | |
KR20040017824A (ko) | 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템 | |
CN113806661A (zh) | 网站信息无障碍检测工具 | |
CN116226494B (zh) | 一种用于信息搜索的爬虫系统及方法 | |
CN113407678B (zh) | 知识图谱构建方法、装置和设备 | |
CN112434204A (zh) | 一种多来源网站的数据自动采集系统及其方法 | |
US10650020B1 (en) | Analyzing transformations for preprocessing datasets | |
JP5154132B2 (ja) | 名称変換認知装置、方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |