CN108153817B - 一种智能网页数据采集方法 - Google Patents
一种智能网页数据采集方法 Download PDFInfo
- Publication number
- CN108153817B CN108153817B CN201711229595.8A CN201711229595A CN108153817B CN 108153817 B CN108153817 B CN 108153817B CN 201711229595 A CN201711229595 A CN 201711229595A CN 108153817 B CN108153817 B CN 108153817B
- Authority
- CN
- China
- Prior art keywords
- webpage
- web page
- record
- records
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种智能网页数据采集方法,包括以下步骤:初始化爬虫数据库,遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列,爬取爬取队列中的网页记录并存储至爬虫数据库,读取一条网页记录,直至读取成功,根据设置过滤网页记录,将网页记录与网页模板匹配,若匹配成功,发送当前网页内容并将该网页记录标记为已发送并清空网页模板内容,完成发送,否则,从网页记录中提取内容特征码并更新网页模板;本发明有效的提高了网页数据采集的效率和准确度。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种智能网页数据采集方法。
背景技术
随着网络信息技术的发展、网站、论坛、博客等网页信息越来越大,搜索引擎、内容分析、舆情分析等技术都是对这些信息进行某种分析处理的, 他们都用到了网页数据采集这一技术,网络数据采集方法也称作网络爬虫,是一种对网页连接进行自动分析,并自动获取信息存储到本地的数据采集方法,目前面临的问题主要在于如何有效提高网络数据采集的效率和准确度。
发明内容
为了解决上述问题,本发明提出一种智能网页数据采集方法。
具体的,一种智能网页数据采集方法,包括以下步骤:
S1.初始化爬虫数据库;
S2.遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列;
S3.爬取所述爬取队列中的网页记录提取网页模板并存储至爬虫数据库;
S4.读取一条网页记录,直至读取成功;
S5.根据设置过滤网页记录,如被过滤,执行S8,否则执行S6;
S6.将网页记录与所述爬虫数据库中的网页模板匹配,若匹配成功,则执行S7,否则,从网页记录中提取内容特征码并更新网页模板,执行S8;
S7.发送并判断当前网页内容是否发送成功,若发送成功,则将该网页记录标记为已发送并清空网页模板内容,否则,执行S8;
S8.完成发送。
进一步的,所述网页记录为URL记录。
进一步的,所述步骤S3具体实施过程为:爬取所述爬取队列中网页记录的子域名内容,识别以该子域名开头的链接,保存到所述爬虫数据库中;
遍历所述爬虫数据库,判断网页记录是否已经被爬取,是则判断下一条网页记录,否则抓取该网页记录的HTML内容,并保存到所述爬虫数据库。
进一步的,所述步骤S5的过滤具体实施过程为:判断该网页记录是否被爬取,若没有被爬取则过滤掉,若已被爬取则判断该网页记录内容是否被提取,如已经被提取则过滤掉,否则使用正则表达式获得该网页记录所属的子域名。
进一步的,所述步骤S6的匹配具体过程为:遍历网页记录子域名的内容模板,如果有模板与该网页记录匹配,则使用该模板的CSS选择器抽取出该网页记录的正文内容并存储;如果没有找到匹配的模板则遍历该网页记录的HTML内容中的段落节点的父节点,对每个父节点进行文字计数,返回文字数最大的节点的CSS选择器,识别出该网页记录的正则模板,该网页记录正则模板的CSS选择器计数值加1,若所述计数值大于设定阈值,则认定二者匹配,存储该网页模板和CSS选择器。
本发明的有益效果在于:提高了网络数据采集的效率和准确度。
附图说明
图1是本发明的一种智能网页数据采集方法流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
具体的,一种智能网页数据采集方法,包括以下步骤:
S1.初始化爬虫数据库;
S2.遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列;
S3.爬取所述爬取队列中的网页记录提取网页模板并存储至爬虫数据库;
S4.读取一条网页记录,直至读取成功;
S5.根据设置过滤网页记录,如被过滤,执行S8,否则执行S6;
S6.将网页记录与所述爬虫数据库中的网页模板匹配,若匹配成功,则执行S7,否则,从网页记录中提取内容特征码并更新网页模板,执行S8;
S7.发送并判断当前网页内容是否发送成功,若发送成功,则将该网页记录标记为已发送并清空网页模板内容,否则,执行S8;
S8.完成发送。
进一步的,所述网页记录为URL记录。
进一步的,所述步骤S3具体实施过程为:爬取所述爬取队列中网页记录的子域名内容,识别以该子域名开头的链接,保存到所述爬虫数据库中;
遍历所述爬虫数据库,判断网页记录是否已经被爬取,是则判断下一条网页记录,否则抓取该网页记录的HTML内容,并保存到所述爬虫数据库。
进一步的,所述步骤S5的过滤具体实施过程为:判断该网页记录是否被爬取,若没有被爬取则过滤掉,若已被爬取则判断该网页记录内容是否被提取,如已经被提取则过滤掉,否则使用正则表达式获得该网页记录所属的子域名。
进一步的,所述步骤S6的匹配具体过程为:遍历网页记录子域名的内容模板,如果有模板与该网页记录匹配,则使用该模板的CSS选择器抽取出该网页记录的正文内容并存储;如果没有找到匹配的模板则遍历该网页记录的HTML内容中的段落节点的父节点,对每个父节点进行文字计数,返回文字数最大的节点的CSS选择器,识别出该网页记录的正则模板,该网页记录正则模板的CSS选择器计数值加1,若所述计数值大于设定阈值,则认定二者匹配,存储该网页模板和CSS选择器。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (3)
1.一种智能网页数据采集方法,其特征在于,包括以下步骤:
S1.初始化爬虫数据库;
S2.遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列;
S3.爬取所述爬取队列中的网页记录提取网页模板并存储至爬虫数据库;所述步骤S3具体实施过程为:爬取所述爬取队列中网页记录的子域名内容,识别以该子域名开头的链接,保存到所述爬虫数据库中;
遍历所述爬虫数据库,判断网页记录是否已经被爬取,是则判断下一条网页记录,否则抓取该网页记录的HTML内容,并保存到所述爬虫数据库;
S4.读取一条网页记录,直至读取成功;
S5.根据设置过滤网页记录,如被过滤,执行S8,否则执行S6;
S6.将网页记录与所述爬虫数据库中的网页模板匹配,若匹配成功,则执行S7,否则,从网页记录中提取内容特征码并更新网页模板,执行S8;所述步骤S6的匹配具体过程为:遍历网页记录子域名的内容模板,如果有模板与该网页记录匹配,则使用该模板的CSS选择器抽取出该网页记录的正文内容并存储;如果没有找到匹配的模板则遍历该网页记录的HTML内容中的段落节点的父节点,对每个父节点进行文字计数,返回文字数最大的节点的CSS选择器,识别出该网页记录的正则模板,该网页记录正则模板的CSS选择器计数值加1,若所述计数值大于设定阈值,则认定二者匹配,存储该网页模板和CSS选择器;
S7.发送并判断当前网页内容是否发送成功,若发送成功,则将该网页记录标记为已发送并清空网页模板内容,否则,执行S8;
S8.完成发送。
2.根据权利要求1所述的一种智能网页数据采集方法,其特征在于:所述网页记录为
URL记录。
3.根据权利要求1所述的一种智能网页数据采集方法,其特征在于,所述步骤S5的过滤具体实施过程为:判断该网页记录是否被爬取,若没有被爬取则过滤掉,若已被爬取则判断该网页记录内容是否被提取,如已经被提取则过滤掉,否则使用正则表达式获得该网页记录所属的子域名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711229595.8A CN108153817B (zh) | 2017-11-29 | 2017-11-29 | 一种智能网页数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711229595.8A CN108153817B (zh) | 2017-11-29 | 2017-11-29 | 一种智能网页数据采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108153817A CN108153817A (zh) | 2018-06-12 |
CN108153817B true CN108153817B (zh) | 2021-08-10 |
Family
ID=62469234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711229595.8A Active CN108153817B (zh) | 2017-11-29 | 2017-11-29 | 一种智能网页数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108153817B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661973B (zh) * | 2022-03-17 | 2024-08-16 | 辽宁大学 | 一种基于神经网络的网页数据智能爬取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393566A (zh) * | 2008-11-17 | 2009-03-25 | 北京交通大学 | 基于网络结构用户行为模式的信息跟踪与检测方法及系统 |
CN102073730A (zh) * | 2011-01-14 | 2011-05-25 | 哈尔滨工程大学 | 一种主题网络爬虫系统的构建方法 |
CN102609427A (zh) * | 2011-11-10 | 2012-07-25 | 天津大学 | 舆情垂直搜索分析系统及方法 |
CN103870465A (zh) * | 2012-12-07 | 2014-06-18 | 厦门雅迅网络股份有限公司 | 一种非入侵式的数据库爬虫的实现方法 |
CN103970788A (zh) * | 2013-02-01 | 2014-08-06 | 北京英富森信息技术有限公司 | 一种基于网页爬取的爬虫技术 |
CN104408182A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 分布式系统上网络爬虫数据的处理方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9305169B2 (en) * | 2012-12-18 | 2016-04-05 | Tinfoil Security, Inc. | System and methods for scalably identifying and characterizing structural differences between document object models |
-
2017
- 2017-11-29 CN CN201711229595.8A patent/CN108153817B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393566A (zh) * | 2008-11-17 | 2009-03-25 | 北京交通大学 | 基于网络结构用户行为模式的信息跟踪与检测方法及系统 |
CN102073730A (zh) * | 2011-01-14 | 2011-05-25 | 哈尔滨工程大学 | 一种主题网络爬虫系统的构建方法 |
CN102609427A (zh) * | 2011-11-10 | 2012-07-25 | 天津大学 | 舆情垂直搜索分析系统及方法 |
CN103870465A (zh) * | 2012-12-07 | 2014-06-18 | 厦门雅迅网络股份有限公司 | 一种非入侵式的数据库爬虫的实现方法 |
CN103970788A (zh) * | 2013-02-01 | 2014-08-06 | 北京英富森信息技术有限公司 | 一种基于网页爬取的爬虫技术 |
CN104408182A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 分布式系统上网络爬虫数据的处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108153817A (zh) | 2018-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
KR20170123331A (ko) | 정보 추출 방법 및 장치 | |
CN106991175B (zh) | 一种客户信息挖掘方法、装置、设备以及存储介质 | |
CN111125598A (zh) | 数据智能查询方法、装置、设备及存储介质 | |
CN104572934B (zh) | 一种基于dom的网页关键内容抽取方法 | |
US11567851B2 (en) | Mathematical models of graphical user interfaces | |
CN104618132A (zh) | 一种应用程序识别规则生成方法和装置 | |
CN108228546A (zh) | 一种文本特征提取方法、装置、设备及可读存储介质 | |
CN107239520B (zh) | 一种通用论坛正文提取方法 | |
CN105488471B (zh) | 一种字形识别方法及装置 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN112232075A (zh) | 基于时间格式和网页元素特征的文章发布时间识别方法 | |
CN107086925B (zh) | 一种基于深度学习的互联网流量大数据分析方法 | |
CN105528357A (zh) | 一种基于url和网页文档结构的相似性的网页内容提取方法 | |
CN104156373A (zh) | 编码格式检测方法及装置 | |
CN108153817B (zh) | 一种智能网页数据采集方法 | |
CN117390329A (zh) | 网页标注方法、装置及设备 | |
CN113887191A (zh) | 文章的相似性检测方法及装置 | |
CN111125704B (zh) | 一种网页挂马识别方法及系统 | |
CN112035723A (zh) | 资源库的确定方法和装置、存储介质及电子装置 | |
CN101908047B (zh) | 无效模板生成方法及装置、无效网页识别方法及装置 | |
CN114579834B (zh) | 网页登录实体识别方法、装置、电子设备及存储介质 | |
CN115796146A (zh) | 一种文件对比方法及装置 | |
CN106649337A (zh) | 识别网页栏目的方法及装置 | |
WO2018171189A1 (zh) | 一种浏览器广告拦截方法、装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |