CN108153817B - 一种智能网页数据采集方法 - Google Patents

一种智能网页数据采集方法 Download PDF

Info

Publication number
CN108153817B
CN108153817B CN201711229595.8A CN201711229595A CN108153817B CN 108153817 B CN108153817 B CN 108153817B CN 201711229595 A CN201711229595 A CN 201711229595A CN 108153817 B CN108153817 B CN 108153817B
Authority
CN
China
Prior art keywords
webpage
web page
record
records
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711229595.8A
Other languages
English (en)
Other versions
CN108153817A (zh
Inventor
马萧萧
周熙
温大川
刘科材
冯良怀
杨树海
姚晴麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Dongfangshengxing Electronics Co ltd
Original Assignee
Chengdu Dongfangshengxing Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Dongfangshengxing Electronics Co ltd filed Critical Chengdu Dongfangshengxing Electronics Co ltd
Priority to CN201711229595.8A priority Critical patent/CN108153817B/zh
Publication of CN108153817A publication Critical patent/CN108153817A/zh
Application granted granted Critical
Publication of CN108153817B publication Critical patent/CN108153817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种智能网页数据采集方法,包括以下步骤:初始化爬虫数据库,遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列,爬取爬取队列中的网页记录并存储至爬虫数据库,读取一条网页记录,直至读取成功,根据设置过滤网页记录,将网页记录与网页模板匹配,若匹配成功,发送当前网页内容并将该网页记录标记为已发送并清空网页模板内容,完成发送,否则,从网页记录中提取内容特征码并更新网页模板;本发明有效的提高了网页数据采集的效率和准确度。

Description

一种智能网页数据采集方法
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种智能网页数据采集方法。
背景技术
随着网络信息技术的发展、网站、论坛、博客等网页信息越来越大,搜索引擎、内容分析、舆情分析等技术都是对这些信息进行某种分析处理的, 他们都用到了网页数据采集这一技术,网络数据采集方法也称作网络爬虫,是一种对网页连接进行自动分析,并自动获取信息存储到本地的数据采集方法,目前面临的问题主要在于如何有效提高网络数据采集的效率和准确度。
发明内容
为了解决上述问题,本发明提出一种智能网页数据采集方法。
具体的,一种智能网页数据采集方法,包括以下步骤:
S1.初始化爬虫数据库;
S2.遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列;
S3.爬取所述爬取队列中的网页记录提取网页模板并存储至爬虫数据库;
S4.读取一条网页记录,直至读取成功;
S5.根据设置过滤网页记录,如被过滤,执行S8,否则执行S6;
S6.将网页记录与所述爬虫数据库中的网页模板匹配,若匹配成功,则执行S7,否则,从网页记录中提取内容特征码并更新网页模板,执行S8;
S7.发送并判断当前网页内容是否发送成功,若发送成功,则将该网页记录标记为已发送并清空网页模板内容,否则,执行S8;
S8.完成发送。
进一步的,所述网页记录为URL记录。
进一步的,所述步骤S3具体实施过程为:爬取所述爬取队列中网页记录的子域名内容,识别以该子域名开头的链接,保存到所述爬虫数据库中;
遍历所述爬虫数据库,判断网页记录是否已经被爬取,是则判断下一条网页记录,否则抓取该网页记录的HTML内容,并保存到所述爬虫数据库。
进一步的,所述步骤S5的过滤具体实施过程为:判断该网页记录是否被爬取,若没有被爬取则过滤掉,若已被爬取则判断该网页记录内容是否被提取,如已经被提取则过滤掉,否则使用正则表达式获得该网页记录所属的子域名。
进一步的,所述步骤S6的匹配具体过程为:遍历网页记录子域名的内容模板,如果有模板与该网页记录匹配,则使用该模板的CSS选择器抽取出该网页记录的正文内容并存储;如果没有找到匹配的模板则遍历该网页记录的HTML内容中的段落节点的父节点,对每个父节点进行文字计数,返回文字数最大的节点的CSS选择器,识别出该网页记录的正则模板,该网页记录正则模板的CSS选择器计数值加1,若所述计数值大于设定阈值,则认定二者匹配,存储该网页模板和CSS选择器。
本发明的有益效果在于:提高了网络数据采集的效率和准确度。
附图说明
图1是本发明的一种智能网页数据采集方法流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
具体的,一种智能网页数据采集方法,包括以下步骤:
S1.初始化爬虫数据库;
S2.遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列;
S3.爬取所述爬取队列中的网页记录提取网页模板并存储至爬虫数据库;
S4.读取一条网页记录,直至读取成功;
S5.根据设置过滤网页记录,如被过滤,执行S8,否则执行S6;
S6.将网页记录与所述爬虫数据库中的网页模板匹配,若匹配成功,则执行S7,否则,从网页记录中提取内容特征码并更新网页模板,执行S8;
S7.发送并判断当前网页内容是否发送成功,若发送成功,则将该网页记录标记为已发送并清空网页模板内容,否则,执行S8;
S8.完成发送。
进一步的,所述网页记录为URL记录。
进一步的,所述步骤S3具体实施过程为:爬取所述爬取队列中网页记录的子域名内容,识别以该子域名开头的链接,保存到所述爬虫数据库中;
遍历所述爬虫数据库,判断网页记录是否已经被爬取,是则判断下一条网页记录,否则抓取该网页记录的HTML内容,并保存到所述爬虫数据库。
进一步的,所述步骤S5的过滤具体实施过程为:判断该网页记录是否被爬取,若没有被爬取则过滤掉,若已被爬取则判断该网页记录内容是否被提取,如已经被提取则过滤掉,否则使用正则表达式获得该网页记录所属的子域名。
进一步的,所述步骤S6的匹配具体过程为:遍历网页记录子域名的内容模板,如果有模板与该网页记录匹配,则使用该模板的CSS选择器抽取出该网页记录的正文内容并存储;如果没有找到匹配的模板则遍历该网页记录的HTML内容中的段落节点的父节点,对每个父节点进行文字计数,返回文字数最大的节点的CSS选择器,识别出该网页记录的正则模板,该网页记录正则模板的CSS选择器计数值加1,若所述计数值大于设定阈值,则认定二者匹配,存储该网页模板和CSS选择器。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (3)

1.一种智能网页数据采集方法,其特征在于,包括以下步骤:
S1.初始化爬虫数据库;
S2.遍历网页数据库中网页记录,如没有被爬取且符合爬取条件,则添加至爬取队列;
S3.爬取所述爬取队列中的网页记录提取网页模板并存储至爬虫数据库;所述步骤S3具体实施过程为:爬取所述爬取队列中网页记录的子域名内容,识别以该子域名开头的链接,保存到所述爬虫数据库中;
遍历所述爬虫数据库,判断网页记录是否已经被爬取,是则判断下一条网页记录,否则抓取该网页记录的HTML内容,并保存到所述爬虫数据库;
S4.读取一条网页记录,直至读取成功;
S5.根据设置过滤网页记录,如被过滤,执行S8,否则执行S6;
S6.将网页记录与所述爬虫数据库中的网页模板匹配,若匹配成功,则执行S7,否则,从网页记录中提取内容特征码并更新网页模板,执行S8;所述步骤S6的匹配具体过程为:遍历网页记录子域名的内容模板,如果有模板与该网页记录匹配,则使用该模板的CSS选择器抽取出该网页记录的正文内容并存储;如果没有找到匹配的模板则遍历该网页记录的HTML内容中的段落节点的父节点,对每个父节点进行文字计数,返回文字数最大的节点的CSS选择器,识别出该网页记录的正则模板,该网页记录正则模板的CSS选择器计数值加1,若所述计数值大于设定阈值,则认定二者匹配,存储该网页模板和CSS选择器;
S7.发送并判断当前网页内容是否发送成功,若发送成功,则将该网页记录标记为已发送并清空网页模板内容,否则,执行S8;
S8.完成发送。
2.根据权利要求1所述的一种智能网页数据采集方法,其特征在于:所述网页记录为
URL记录。
3.根据权利要求1所述的一种智能网页数据采集方法,其特征在于,所述步骤S5的过滤具体实施过程为:判断该网页记录是否被爬取,若没有被爬取则过滤掉,若已被爬取则判断该网页记录内容是否被提取,如已经被提取则过滤掉,否则使用正则表达式获得该网页记录所属的子域名。
CN201711229595.8A 2017-11-29 2017-11-29 一种智能网页数据采集方法 Active CN108153817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711229595.8A CN108153817B (zh) 2017-11-29 2017-11-29 一种智能网页数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711229595.8A CN108153817B (zh) 2017-11-29 2017-11-29 一种智能网页数据采集方法

Publications (2)

Publication Number Publication Date
CN108153817A CN108153817A (zh) 2018-06-12
CN108153817B true CN108153817B (zh) 2021-08-10

Family

ID=62469234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711229595.8A Active CN108153817B (zh) 2017-11-29 2017-11-29 一种智能网页数据采集方法

Country Status (1)

Country Link
CN (1) CN108153817B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661973B (zh) * 2022-03-17 2024-08-16 辽宁大学 一种基于神经网络的网页数据智能爬取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393566A (zh) * 2008-11-17 2009-03-25 北京交通大学 基于网络结构用户行为模式的信息跟踪与检测方法及系统
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫系统的构建方法
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析系统及方法
CN103870465A (zh) * 2012-12-07 2014-06-18 厦门雅迅网络股份有限公司 一种非入侵式的数据库爬虫的实现方法
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
CN104408182A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 分布式系统上网络爬虫数据的处理方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9305169B2 (en) * 2012-12-18 2016-04-05 Tinfoil Security, Inc. System and methods for scalably identifying and characterizing structural differences between document object models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393566A (zh) * 2008-11-17 2009-03-25 北京交通大学 基于网络结构用户行为模式的信息跟踪与检测方法及系统
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫系统的构建方法
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析系统及方法
CN103870465A (zh) * 2012-12-07 2014-06-18 厦门雅迅网络股份有限公司 一种非入侵式的数据库爬虫的实现方法
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
CN104408182A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 分布式系统上网络爬虫数据的处理方法和装置

Also Published As

Publication number Publication date
CN108153817A (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN106991175B (zh) 一种客户信息挖掘方法、装置、设备以及存储介质
CN111125598A (zh) 数据智能查询方法、装置、设备及存储介质
CN103886067A (zh) 使用标签隐含主题进行图书推荐的方法
US11567851B2 (en) Mathematical models of graphical user interfaces
CN104618132A (zh) 一种应用程序识别规则生成方法和装置
US20230119590A1 (en) Automatic identification of document sections to generate a searchable data structure
CN108228546A (zh) 一种文本特征提取方法、装置、设备及可读存储介质
CN107239520B (zh) 一种通用论坛正文提取方法
CN105488471B (zh) 一种字形识别方法及装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN112232075A (zh) 基于时间格式和网页元素特征的文章发布时间识别方法
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN104156373A (zh) 编码格式检测方法及装置
CN108153817B (zh) 一种智能网页数据采集方法
CN117390329A (zh) 网页标注方法、装置及设备
CN113887191A (zh) 文章的相似性检测方法及装置
CN111125704B (zh) 一种网页挂马识别方法及系统
CN101908047B (zh) 无效模板生成方法及装置、无效网页识别方法及装置
CN114579834B (zh) 网页登录实体识别方法、装置、电子设备及存储介质
CN115796146A (zh) 一种文件对比方法及装置
CN106649337A (zh) 识别网页栏目的方法及装置
WO2018171189A1 (zh) 一种浏览器广告拦截方法、装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant