CN108205548A - 一种基于农业网页信息采集的网络蜘蛛结构及其工作方法 - Google Patents
一种基于农业网页信息采集的网络蜘蛛结构及其工作方法 Download PDFInfo
- Publication number
- CN108205548A CN108205548A CN201611172608.8A CN201611172608A CN108205548A CN 108205548 A CN108205548 A CN 108205548A CN 201611172608 A CN201611172608 A CN 201611172608A CN 108205548 A CN108205548 A CN 108205548A
- Authority
- CN
- China
- Prior art keywords
- web
- webpage
- url
- agriculture
- information acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于农业网页信息采集的网络蜘蛛结构及其工作方法,包括网页下载模块、URL管理模块和网页解析模块;所述网页下载模块通过HTTP网络通信协议与待爬取的网站连接;所述URL管理模块包括URL链接库和初始URL种子队列;所述网页解析模块与网页数据库链接。本发明的基于农业网页信息采集的网络蜘蛛结构及其工作方法,网页下载模块利用HTTP网络通信协议与待爬取的网站建立连接,首先读取该网站根目录下的机器人协议,然后按照约束规则对指定的页面进行读取、下载;URL管理模块对网页抓取顺序、更新策略、访问队列调度等工作进行管理;网页解析模块负责对下载的网页内容进行分析,提取网页上的超链接及文本内容。
Description
技术领域
本发明涉及一种农业网页信息采集结构及其工作方法,具体涉及一种基于农业网页信息采集的网络蜘蛛结构及其工作方法,属于农业互联网技术领域。
背景技术
网页信息采集是指通过网络蜘蛛在互联网上采集网页信息的过程;不同的搜索引擎,网络蜘蛛程序会有所区别;通用搜索引擎的网络蜘蛛称为通用网络蜘蛛,它只考虑采集网页的数量,尽可能多地抓取网页信息,不考虑网页和主题的相关度;垂直搜索引擎(主题搜索引擎)中的网络蜘蛛称为主题网络蜘蛛,主题网络蜘蛛只在特定领域范围内采集与主题的相关的网页。
发明内容
为解决上述问题,本发明提出了一种基于农业网页信息采集的网络蜘蛛结构及其工作方法,具有独立的工作和决策能力,能自动地在因特网上按照一定的爬行规则进行搜索爬行,并将搜集的信息返回给服务器。
本发明的基于农业网页信息采集的网络蜘蛛结构,包括网页下载模块、URL管理模块和网页解析模块;所述网页下载模块通过HTTP网络通信协议与待爬取的网站连接;所述URL管理模块包括URL链接库和初始URL种子队列;所述网页解析模块与网页数据库链接。
本发明的基于农业网页信息采集的网络蜘蛛结构的工作方法,所述方法包括以下步骤:
第一步,访问URL链接数据库,得到URL入口地址,生成具有优先级属性的有序访问队列;
第二步,网页下载模块通过HTTP协议与目标网站建立socket连接,然后按照网站根目录下的机器人协议进行下载;
第三步,网页分析模块对上一步下载的网页进行解析,提取页面内的超链接,添加到URL数据库中等待网络蜘蛛进行爬取;
第四步,依据预先设定的存储规则,把下载的网页内容存储到本地网页数据库中,为下一步索引工作做准备;
第五步,不断重复上述过程直到全部下载任务完成,或满足爬虫结束的条件,等待新的任务。
本发明与现有技术相比较,本发明的基于农业网页信息采集的网络蜘蛛结构及其工作方法,网页下载模块利用HTTP网络通信协议与待爬取的网站建立连接,首先读取该网站根目录下的机器人协议,然后按照约束规则对指定的页面进行读取、下载;URL管理模块对网页抓取顺序、更新策略、访问队列调度等工作进行管理;网页解析模块负责对下载的网页内容进行分析,提取网页上的超链接及文本内容。
附图说明
图1是本发明的整体结构示意框图。
具体实施方式
如图1所示,本发明的基于农业网页信息采集的网络蜘蛛结构,其特征在于:包括网页下载模块、URL管理模块和网页解析模块;所述网页下载模块通过HTTP网络通信协议与待爬取的网站连接;所述URL管理模块包括URL链接库和初始URL种子队列;所述网页解析模块与网页数据库链接。
本发明的基于农业网页信息采集的网络蜘蛛结构的工作方法,所述方法包括以下步骤:
第一步,访问URL链接数据库,得到URL入口地址,生成具有优先级属性的有序访问队列;
第二步,网页下载模块通过HTTP协议与目标网站建立socket连接,然后按照网站根目录下的机器人协议进行下载;
第三步,网页分析模块对上一步下载的网页进行解析,提取页面内的超链接,添加到URL数据库中等待网络蜘蛛进行爬取;
第四步,依据预先设定的存储规则,把下载的网页内容存储到本地网页数据库中,为下一步索引工作做准备;
第五步,不断重复上述过程直到全部下载任务完成,或满足爬虫结束的条件,等待新的任务。
本发明的基于农业网页信息采集的网络蜘蛛结构及其工作方法,网页下载模块利用HTTP网络通信协议与待爬取的网站建立连接,首先读取该网站根目录下的机器人协议,然后按照约束规则对指定的页面进行读取、下载;URL管理模块对网页抓取顺序、更新策略、访问队列调度等工作进行管理;网页解析模块负责对下载的网页内容进行分析,提取网页上的超链接及文本内容。
上述实施例,仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。
Claims (2)
1.一种基于农业网页信息采集的网络蜘蛛结构,其特征在于:包括网页下载模块、URL管理模块和网页解析模块;所述网页下载模块通过HTTP网络通信协议与待爬取的网站连接;所述URL管理模块包括URL链接库和初始URL种子队列;所述网页解析模块与网页数据库链接。
2.一种基于农业网页信息采集的网络蜘蛛结构的工作方法,其特征在于,所述方法包括以下步骤:
第一步,访问URL链接数据库,得到URL入口地址,生成具有优先级属性的有序访问队列;
第二步,网页下载模块通过HTTP协议与目标网站建立socket连接,然后按照网站根目录下的机器人协议进行下载;
第三步,网页分析模块对上一步下载的网页进行解析,提取页面内的超链接,添加到URL数据库中等待网络蜘蛛进行爬取;
第四步,依据预先设定的存储规则,把下载的网页内容存储到本地网页数据库中,为下一步索引工作做准备;
第五步,不断重复上述过程直到全部下载任务完成,或满足爬虫结束的条件,等待新的任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611172608.8A CN108205548A (zh) | 2016-12-17 | 2016-12-17 | 一种基于农业网页信息采集的网络蜘蛛结构及其工作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611172608.8A CN108205548A (zh) | 2016-12-17 | 2016-12-17 | 一种基于农业网页信息采集的网络蜘蛛结构及其工作方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108205548A true CN108205548A (zh) | 2018-06-26 |
Family
ID=62601371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611172608.8A Pending CN108205548A (zh) | 2016-12-17 | 2016-12-17 | 一种基于农业网页信息采集的网络蜘蛛结构及其工作方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108205548A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035723A (zh) * | 2020-08-28 | 2020-12-04 | 光大科技有限公司 | 资源库的确定方法和装置、存储介质及电子装置 |
CN112434204A (zh) * | 2020-11-23 | 2021-03-02 | 洛阳建企大数据服务有限公司 | 一种多来源网站的数据自动采集系统及其方法 |
CN112597369A (zh) * | 2020-12-22 | 2021-04-02 | 荆门汇易佳信息科技有限公司 | 基于改良云平台的网页蜘蛛主题式搜索系统 |
-
2016
- 2016-12-17 CN CN201611172608.8A patent/CN108205548A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035723A (zh) * | 2020-08-28 | 2020-12-04 | 光大科技有限公司 | 资源库的确定方法和装置、存储介质及电子装置 |
CN112434204A (zh) * | 2020-11-23 | 2021-03-02 | 洛阳建企大数据服务有限公司 | 一种多来源网站的数据自动采集系统及其方法 |
CN112597369A (zh) * | 2020-12-22 | 2021-04-02 | 荆门汇易佳信息科技有限公司 | 基于改良云平台的网页蜘蛛主题式搜索系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105243159B (zh) | 一种基于可视化脚本编辑器的分布式网络爬虫系统 | |
CN102646129B (zh) | 一种主题相关的分布式网络爬虫系统 | |
CN107273409B (zh) | 一种网络数据采集、存储及处理方法及系统 | |
Mahto et al. | A dive into Web Scraper world | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
CN103823883B (zh) | 一种网站用户访问路径的分析方法及系统 | |
CN106021257B (zh) | 一种支持在线编程的爬虫抓取数据方法、装置及系统 | |
CN101971172B (zh) | 移动站点地图 | |
CN101370024B (zh) | 信息的分布式采集方法及系统 | |
CN103761279B (zh) | 一种基于关键词检索的网络爬虫调度方法及系统 | |
CN101441629A (zh) | 一种非结构化网页信息的自动采集方法 | |
CN102752288A (zh) | 网络访问行为识别方法和装置 | |
CN107145556B (zh) | 通用的分布式采集系统 | |
CN108205548A (zh) | 一种基于农业网页信息采集的网络蜘蛛结构及其工作方法 | |
CN106354843A (zh) | 网络爬虫系统以及方法 | |
CN109729044A (zh) | 一种通用的互联网数据采集反反爬系统及方法 | |
CN102323955A (zh) | 私有云搜索系统及其实现方法 | |
CN103279507A (zh) | 网页爬虫操作方法和系统 | |
CN108536691A (zh) | 网页爬取方法和装置 | |
CN104199893B (zh) | 一种快速将全媒体内容发布的系统和方法 | |
CN109918553B (zh) | 移动终端爬取数据的方法、装置、移动终端和存储介质 | |
CN106484775A (zh) | 一种基于selenium的爬虫抓取方法及系统 | |
CN104298782A (zh) | 互联网用户主动访问行为轨迹的分析方法 | |
CN107819837A (zh) | 一种提升缓存服务质量的方法及缓存日志分析系统 | |
CN104317857A (zh) | 一种房屋信息采集服务系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180626 |