CN108153817A - 一种智能网页数据采集方法 - Google Patents
一种智能网页数据采集方法 Download PDFInfo
- Publication number
- CN108153817A CN108153817A CN201711229595.8A CN201711229595A CN108153817A CN 108153817 A CN108153817 A CN 108153817A CN 201711229595 A CN201711229595 A CN 201711229595A CN 108153817 A CN108153817 A CN 108153817A
- Authority
- CN
- China
- Prior art keywords
- webpage
- web page
- record
- template
- crawled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种智能网页数据采集方法,包括以下步骤:初始化爬虫数据库,遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列,爬取爬取队列中的网页记录并存储至爬虫数据库,读取一条网页记录,直至读取成功,根据设置过滤网页记录,将网页记录与网页模板匹配,若匹配成功,发送当前网页内容并将该网页记录标记为已发送并清空网页模板内容,完成发送,否则,从网页记录中提取内容特征码并更新网页模板;本发明有效的提高了网页数据采集的效率和准确度。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种智能网页数据采集方法。
背景技术
随着网络信息技术的发展、网站、论坛、博客等网页信息越来越大,搜索引擎、内容分析、舆情分析等技术都是对这些信息进行某种分析处理的, 他们都用到了网页数据采集这一技术,网络数据采集方法也称作网络爬虫,是一种对网页连接进行自动分析,并自动获取信息存储到本地的数据采集方法,目前面临的问题主要在于如何有效提高网络数据采集的效率和准确度。
发明内容
为了解决上述问题,本发明提出一种智能网页数据采集方法。
具体的,一种智能网页数据采集方法,包括以下步骤:
S1.初始化爬虫数据库;
S2.遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列;
S3.爬取所述爬取队列中的网页记录提取网页模板并存储至爬虫数据库;
S4.读取一条网页记录,直至读取成功;
S5.根据设置过滤网页记录,如被过滤,执行S8,否则执行S6;
S6.将网页记录与所述爬虫数据库中的网页模板匹配,若匹配成功,则执行S7,否则,从网页记录中提取内容特征码并更新网页模板,执行S8;
S7.发送并判断当前网页内容是否发送成功,若发送成功,则将该网页记录标记为已发送并清空网页模板内容,否则,执行S8;
S8.完成发送。
进一步的,所述网页记录为URL记录。
进一步的,所述步骤S3具体实施过程为:爬取所述爬取队列中网页记录的子域名内容,识别以该子域名开头的链接,保存到所述爬虫数据库中;
遍历所述爬虫数据库,判断网页记录是否已经被爬取,是则判断下一条网页记录,否则抓取该网页记录的HTML内容,并保存到所述爬虫数据库。
进一步的,所述步骤S5的过滤具体实施过程为:判断该网页记录是否被爬取,若没有被爬取则过滤掉,若已被爬取则判断该网页记录内容是否被提取,如已经被提取则过滤掉,否则使用正则表达式获得该网页记录所属的子域名。
进一步的,所述步骤S6的匹配具体过程为:遍历网页记录子域名的内容模板,如果有模板与该网页记录匹配,则使用该模板的CSS选择器抽取出该网页记录的正文内容并存储;如果没有找到匹配的模板则遍历该网页记录的HTML内容中的段落节点的父节点,对每个父节点进行文字计数,返回文字数最大的节点的CSS选择器,识别出该网页记录的正则模板,该网页记录正则模板的CSS选择器计数值加1,若所述计数值大于设定阈值,则认定二者匹配,存储该网页模板和CSS选择器。
本发明的有益效果在于:提高了网络数据采集的效率和准确度。
附图说明
图1是本发明的一种智能网页数据采集方法流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
具体的,一种智能网页数据采集方法,包括以下步骤:
S1.初始化爬虫数据库;
S2.遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列;
S3.爬取所述爬取队列中的网页记录提取网页模板并存储至爬虫数据库;
S4.读取一条网页记录,直至读取成功;
S5.根据设置过滤网页记录,如被过滤,执行S8,否则执行S6;
S6.将网页记录与所述爬虫数据库中的网页模板匹配,若匹配成功,则执行S7,否则,从网页记录中提取内容特征码并更新网页模板,执行S8;
S7.发送并判断当前网页内容是否发送成功,若发送成功,则将该网页记录标记为已发送并清空网页模板内容,否则,执行S8;
S8.完成发送。
进一步的,所述网页记录为URL记录。
进一步的,所述步骤S3具体实施过程为:爬取所述爬取队列中网页记录的子域名内容,识别以该子域名开头的链接,保存到所述爬虫数据库中;
遍历所述爬虫数据库,判断网页记录是否已经被爬取,是则判断下一条网页记录,否则抓取该网页记录的HTML内容,并保存到所述爬虫数据库。
进一步的,所述步骤S5的过滤具体实施过程为:判断该网页记录是否被爬取,若没有被爬取则过滤掉,若已被爬取则判断该网页记录内容是否被提取,如已经被提取则过滤掉,否则使用正则表达式获得该网页记录所属的子域名。
进一步的,所述步骤S6的匹配具体过程为:遍历网页记录子域名的内容模板,如果有模板与该网页记录匹配,则使用该模板的CSS选择器抽取出该网页记录的正文内容并存储;如果没有找到匹配的模板则遍历该网页记录的HTML内容中的段落节点的父节点,对每个父节点进行文字计数,返回文字数最大的节点的CSS选择器,识别出该网页记录的正则模板,该网页记录正则模板的CSS选择器计数值加1,若所述计数值大于设定阈值,则认定二者匹配,存储该网页模板和CSS选择器。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (5)
1.一种智能网页数据采集方法,其特征在于,包括以下步骤:
S1.初始化爬虫数据库;
S2.遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列;
S3.爬取所述爬取队列中的网页记录提取网页模板并存储至爬虫数据库;
S4.读取一条网页记录,直至读取成功;
S5.根据设置过滤网页记录,如被过滤,执行S8,否则执行S6;
S6.将网页记录与所述爬虫数据库中的网页模板匹配,若匹配成功,则执行S7,否则,从网页记录中提取内容特征码并更新网页模板,执行S8;
S7.发送并判断当前网页内容是否发送成功,若发送成功,则将该网页记录标记为已发送并清空网页模板内容,否则,执行S8;
S8.完成发送。
2.根据权利要求1所述的一种智能网页数据采集方法,其特征在于:所述网页记录为
URL记录。
3.根据权利要求2所述的一种智能网页数据采集方法,其特征在于,所述步骤S3具体实施过程为:爬取所述爬取队列中网页记录的子域名内容,识别以该子域名开头的链接,保存到所述爬虫数据库中;
遍历所述爬虫数据库,判断网页记录是否已经被爬取,是则判断下一条网页记录,否则抓取该网页记录的HTML内容,并保存到所述爬虫数据库。
4.根据权利要求3所述的一种智能网页数据采集方法,其特征在于,所述步骤S5的过滤具体实施过程为:判断该网页记录是否被爬取,若没有被爬取则过滤掉,若已被爬取则判断该网页记录内容是否被提取,如已经被提取则过滤掉,否则使用正则表达式获得该网页记录所属的子域名。
5.根据权利要求4所述的一种智能网页数据采集方法,其特征在于,所述步骤S6的匹配具体过程为:遍历网页记录子域名的内容模板,如果有模板与该网页记录匹配,则使用该模板的CSS选择器抽取出该网页记录的正文内容并存储;如果没有找到匹配的模板则遍历该网页记录的HTML内容中的段落节点的父节点,对每个父节点进行文字计数,返回文字数最大的节点的CSS选择器,识别出该网页记录的正则模板,该网页记录正则模板的CSS选择器计数值加1,若所述计数值大于设定阈值,则认定二者匹配,存储该网页模板和CSS选择器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711229595.8A CN108153817B (zh) | 2017-11-29 | 2017-11-29 | 一种智能网页数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711229595.8A CN108153817B (zh) | 2017-11-29 | 2017-11-29 | 一种智能网页数据采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108153817A true CN108153817A (zh) | 2018-06-12 |
CN108153817B CN108153817B (zh) | 2021-08-10 |
Family
ID=62469234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711229595.8A Active CN108153817B (zh) | 2017-11-29 | 2017-11-29 | 一种智能网页数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108153817B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661973A (zh) * | 2022-03-17 | 2022-06-24 | 辽宁大学 | 一种基于神经网络的网页数据智能爬取方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393566A (zh) * | 2008-11-17 | 2009-03-25 | 北京交通大学 | 基于网络结构用户行为模式的信息跟踪与检测方法及系统 |
CN102073730A (zh) * | 2011-01-14 | 2011-05-25 | 哈尔滨工程大学 | 一种主题网络爬虫系统的构建方法 |
CN102609427A (zh) * | 2011-11-10 | 2012-07-25 | 天津大学 | 舆情垂直搜索分析系统及方法 |
CN103870465A (zh) * | 2012-12-07 | 2014-06-18 | 厦门雅迅网络股份有限公司 | 一种非入侵式的数据库爬虫的实现方法 |
CN103970788A (zh) * | 2013-02-01 | 2014-08-06 | 北京英富森信息技术有限公司 | 一种基于网页爬取的爬虫技术 |
CN104408182A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 分布式系统上网络爬虫数据的处理方法和装置 |
US20160127410A1 (en) * | 2012-12-18 | 2016-05-05 | Tinfoil Security, Inc. | System and methods for scalably identifying and characterizing structural differences between document object models |
-
2017
- 2017-11-29 CN CN201711229595.8A patent/CN108153817B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393566A (zh) * | 2008-11-17 | 2009-03-25 | 北京交通大学 | 基于网络结构用户行为模式的信息跟踪与检测方法及系统 |
CN102073730A (zh) * | 2011-01-14 | 2011-05-25 | 哈尔滨工程大学 | 一种主题网络爬虫系统的构建方法 |
CN102609427A (zh) * | 2011-11-10 | 2012-07-25 | 天津大学 | 舆情垂直搜索分析系统及方法 |
CN103870465A (zh) * | 2012-12-07 | 2014-06-18 | 厦门雅迅网络股份有限公司 | 一种非入侵式的数据库爬虫的实现方法 |
US20160127410A1 (en) * | 2012-12-18 | 2016-05-05 | Tinfoil Security, Inc. | System and methods for scalably identifying and characterizing structural differences between document object models |
CN103970788A (zh) * | 2013-02-01 | 2014-08-06 | 北京英富森信息技术有限公司 | 一种基于网页爬取的爬虫技术 |
CN104408182A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 分布式系统上网络爬虫数据的处理方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661973A (zh) * | 2022-03-17 | 2022-06-24 | 辽宁大学 | 一种基于神经网络的网页数据智能爬取方法 |
CN114661973B (zh) * | 2022-03-17 | 2024-08-16 | 辽宁大学 | 一种基于神经网络的网页数据智能爬取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108153817B (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109828967B (zh) | 一种伴随关系获取方法、系统、设备、存储介质 | |
US11816172B2 (en) | Data processing method, server, and computer storage medium | |
CN108304410B (zh) | 一种异常访问页面的检测方法、装置及数据分析方法 | |
CN108399180B (zh) | 一种知识图谱构建方法、装置及服务器 | |
CN105260414B (zh) | 用户行为相似性计算方法及装置 | |
CN107800591A (zh) | 一种统一日志数据的分析方法 | |
CN110674144A (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN111125598A (zh) | 数据智能查询方法、装置、设备及存储介质 | |
CN107437026B (zh) | 一种基于广告网络拓扑的恶意网页广告检测方法 | |
CN111488385B (zh) | 基于人工智能的数据处理方法、装置和计算机设备 | |
CN103237094A (zh) | 一种识别用户的方法及装置 | |
CN110865992A (zh) | 一种检索库管理方法、检索方法、装置及介质 | |
CN112613938B (zh) | 模型训练方法、装置及计算机设备 | |
CN111723083B (zh) | 用户身份识别方法、装置、电子设备及存储介质 | |
CN108228546A (zh) | 一种文本特征提取方法、装置、设备及可读存储介质 | |
CN115147253A (zh) | 基于区块链的智慧校园图书大数据借阅管理方法及系统 | |
CN103605742A (zh) | 识别网络资源实体目录页的方法及装置 | |
CN107086925B (zh) | 一种基于深度学习的互联网流量大数据分析方法 | |
CN103595747A (zh) | 用户信息推荐方法和系统 | |
CN107481039A (zh) | 一种事件处理方法及终端设备 | |
CN108153817A (zh) | 一种智能网页数据采集方法 | |
CN110472137B (zh) | 识别模型的负样本构建方法、装置和系统 | |
CN109933741B (zh) | 用户网络行为特征提取方法、装置及存储介质 | |
CN116720009A (zh) | 一种社交机器人检测方法、装置、设备及存储介质 | |
CN108038233B (zh) | 一种采集文章的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |