CN104298783A - 一种网络爬虫模板的行为式生成方法 - Google Patents
一种网络爬虫模板的行为式生成方法 Download PDFInfo
- Publication number
- CN104298783A CN104298783A CN201410627310.6A CN201410627310A CN104298783A CN 104298783 A CN104298783 A CN 104298783A CN 201410627310 A CN201410627310 A CN 201410627310A CN 104298783 A CN104298783 A CN 104298783A
- Authority
- CN
- China
- Prior art keywords
- network
- behavior
- operator
- template
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明公开了一种网络爬虫模板的行为式生成方法,以操作者访问网络服务为入口,选取一个或多个网络服务作为训练库,通过采集操作者对网络服务操作的行为集合和网络服务交互数据,并分析其行为特征与网络服务结构特征的关联性,进而快速构建网络爬虫的模板。较之于传统手段,该方法不仅能快速生成通用模板,而且可进一步提升采用该通用模板的网络数据爬虫的整体效率、覆盖度和准确度。
Description
技术领域
本发明涉及计算机网络技术领域,特别是涉及一种网络爬虫模板的行为式生成方法。
背景技术
网络爬虫,是一种按照既定规则,自动抓取网络信息的程序或脚本。随着互联网的深入发展,尤其是承载多元信息网页数目的不断增长,使信息整合梳理角色的搜索引擎面临着技术不断革新的需求。同时,网络安全的日趋严峻也促使Web扫描技术需要更为高效、普适的解决方案,而它们重要组成技术:网络爬虫,其发展进步则对以上技术领域起到深远的影响和直接的推动。从早期的对以HTML为代表的静态网页抓取,一直到对ASP、PHP等动态交互式网站的有效获得,其采用的抓取思想多种多样,诸如基于网页特征、基于数据模式、基于领域等,而技术的选择更是汗牛充栋,从传统的正则表达式一直到现今的模拟浏览器解决方案等,不一而足。
网络爬虫效率、覆盖度和准确性一直是当今研究的热点,这些因素制约着爬虫技术的进一步发展,当今的解决方案往往顾此失彼,很难同时保证三者的效能平衡。随着技术的革新和进步,模板化网络爬虫为此提供了良好的解决方案,在目标网络服务数量较少时,可有效生成不同的爬虫模板,并在此基础上为网络爬虫提升了效能。但面对海量的网络服务时,传统网络爬虫模板却面临生成速度低下,模板智能化程度低的问题,进而制约了网络爬虫效能的进一步提升。
发明内容
针对以上技术问题,本发明以操作者访问网络服务为入口,选取一个或多个网络服务作为训练库,通过采集操作者对网络服务操作的行为集合和网络服务交互数据,并分析其行为特征与网络服务结构特征的关联性,快速构建网络爬虫的模板。较之于传统手段,该方法不仅能快速生成通用模板,而且可进一步提升采用该通用模板的网络数据爬虫的整体效率、覆盖度和准确度。
本发明基于以下步骤实施:
1、操作者访问网络服务;
2、选取一个或多个网络服务作为训练库,进行数据采集;
3、对采集的数据进行特征关联;
4、构建网络爬虫的通用模板。
进一步的,所述网络服务是指在计算机网络中,在网络应用层及其上层运行的应用,它提供的数据存储,处理,演示,通信或其他功能通常用于执行基于应用层网络协议的客户端-服务端或点对点的相关架构,包含但不限于各类网站浏览、网络购物、网络游戏、网络商务、网络政务、网络金融等。
进一步的,所述数据采集是指采集操作者行为集合和网络服务交互数据。
进一步的,所述操作者行为集合是指包含但不限于操作者在访问网络服务时所产生的网站点击、应用使用、页面浏览、鼠标行为、键盘行为、人工标记、表单填充、网址切换、页面停留、软件行为等所产生的一个或多个交互行为。包含但不限于操作者自身生理、心理反应:如眼动反应、心率、表情、脑电波等一个或多个外在行为状态属性的捕捉或数字量化。
进一步的,所述网络服务交互数据是指由于操作者对网络服务的访问而产生网络通信数据,包含但不限于信令传输、数据传输、协议建立等。
进一步的,所述特征关联是指操作者行为特征与网路服务结构特征进行关联。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明总体框架图
具体实施方式
本方法可由多种方式实现,现结合图1所示,本领域一般技术人员可根据以下步骤完成对方法的部署和实施。
1、选取网络服务
选取网络服务中的网站浏览,并选定网站www.163.com。使用鼠标点击、键盘输入的浏览行为。
2、数据采集
1)定义浏览动作
a.符号AX,其中A代表鼠标点击行为,X代表全局点击计数,即:全局第一次点击表示为:A1,全局第二次点击为A2;
b.符号KX,其中K代表键盘输入行为,X代表全局输入次数,即:全局第一次输入表示为:K1,全局第二次输入为K2;
2)操作者行为采集
a.载入网站www.163.com;
b.点击“新闻”,将其作为全局第一次鼠标点击,其符号即为A1;
c.点击“登录”,其为全局第二次鼠标点击,其符号即为A2;
d.输入test163.com,将其作为全局第一次键盘输入,其符号即为K1;
e.输入密码,其为全局第二次键盘输入,其符号即为K2;
f.将A1,A2,K1,K2按照顺序形成{A1,A2,K1,K2}行为集合,并将其表示为集合{S}。
3)网络服务交互数据采集
a.记录行为A1进行时,产生的网页交互数据D1;
b.记录行为A2进行时,产生的网页交互数据D2;
c.记录行为K1进行时,产生的网页交互数据D3;
d.记录行为K2进行时,产生的网页交互数据D4;
e.将D1,D2,D3,D4按照顺序形成{D1,D2,D3,D4}数据集合,并将其表示为{D}。
3、特征关联
定义由行为A,K产生数据D的关联特征R=A(K)→D,其中“→”表示自左向右的事件发生顺序。故可知,其关联特征结果如下:R1=A1→D1;R2=A2→D2;R3=K1→D1;R4=K2→D2;R5={S}→{D}。
4、通用模板生成
以特征关联结果R1,R2,R3,R4,R5为基础生成通用模板,并予以输出。使其可被网络数据爬虫所使用。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种网络爬虫模板的行为式生成方法,其特征在于,包括以下步骤:
1)操作者访问网络服务;
2)选取一个或多个网络服务作为训练库,进行数据采集;
3)对采集的数据进行特征关联;
4)构建网络爬虫的通用模板。
2.根据权利要求1所述的网络爬虫模板的行为式生成方法。其特征在于,所述网络服务是指在计算机网络中,在网络应用层及其上层运行的应用,它提供的数据存储,处理,演示,通信或其他功能通常用于执行基于应用层网络协议的客户端-服务端或点对点的相关架构,包含但不限于各类网站浏览、网络购物、网络游戏、网络商务、网络政务、网络金融等。
3.根据权利要求1所述的网络爬虫模板的行为式生成方法,其特征在于,所述数据采集是指采集操作者行为集合和网络服务交互数据。
4.根据权利要求3所述的数据采集,其特征在于,所述操作者行为集合是指包含但不限于操作者在访问网络服务时所产生的网站点击、应用使用、页面浏览、鼠标行为、键盘行为、人工标记、表单填充、网址切换、页面停留、软件行为等所产生的一个或多个交互行为。包含但不限于操作者自身生理、心理反应:如眼动反应、心率、表情、脑电波等一个或多个外在行为状态属性的捕捉或数字量化。
5.根据权利要求3所述的数据采集,其特征在于,所述网络服务交互数据是指由于操作者对网络服务的访问而产生网络通信数据,包含但不限于信令传输、数据传输、协议建立等。
6.根据权利要求1所述的网络爬虫模板的行为式生成方法。其特征在于,所述特征关联是指操作者行为特征与网路服务结构特征进行关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410627310.6A CN104298783A (zh) | 2014-11-10 | 2014-11-10 | 一种网络爬虫模板的行为式生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410627310.6A CN104298783A (zh) | 2014-11-10 | 2014-11-10 | 一种网络爬虫模板的行为式生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104298783A true CN104298783A (zh) | 2015-01-21 |
Family
ID=52318508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410627310.6A Pending CN104298783A (zh) | 2014-11-10 | 2014-11-10 | 一种网络爬虫模板的行为式生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104298783A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096633A (zh) * | 2019-04-16 | 2019-08-06 | 西安交通大学 | 基于动态配置结合文本识别的同类网络信息获取系统及方法 |
CN110262904A (zh) * | 2019-05-17 | 2019-09-20 | 北京达佳互联信息技术有限公司 | 数据采集方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393566A (zh) * | 2008-11-17 | 2009-03-25 | 北京交通大学 | 基于网络结构用户行为模式的信息跟踪与检测方法及系统 |
US20100114874A1 (en) * | 2008-10-20 | 2010-05-06 | Google Inc. | Providing search results |
CN102468995A (zh) * | 2010-11-16 | 2012-05-23 | 上海未来宽带技术及应用工程研究中心有限公司 | 基于iptv业务的终端用户行为监测系统 |
-
2014
- 2014-11-10 CN CN201410627310.6A patent/CN104298783A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100114874A1 (en) * | 2008-10-20 | 2010-05-06 | Google Inc. | Providing search results |
CN101393566A (zh) * | 2008-11-17 | 2009-03-25 | 北京交通大学 | 基于网络结构用户行为模式的信息跟踪与检测方法及系统 |
CN102468995A (zh) * | 2010-11-16 | 2012-05-23 | 上海未来宽带技术及应用工程研究中心有限公司 | 基于iptv业务的终端用户行为监测系统 |
Non-Patent Citations (1)
Title |
---|
乔峰: "基于模板化网络爬虫技术的Web网页信息抽取", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096633A (zh) * | 2019-04-16 | 2019-08-06 | 西安交通大学 | 基于动态配置结合文本识别的同类网络信息获取系统及方法 |
CN110262904A (zh) * | 2019-05-17 | 2019-09-20 | 北京达佳互联信息技术有限公司 | 数据采集方法及装置 |
CN110262904B (zh) * | 2019-05-17 | 2022-10-14 | 北京达佳互联信息技术有限公司 | 数据采集方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180375949A1 (en) | Provisioning personalized content recommendations | |
US9734149B2 (en) | Clustering repetitive structure of asynchronous web application content | |
CN105740381B (zh) | 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法 | |
CN102855313B (zh) | 网页浏览设备、网页摘要的生成方法及网页打开的方法 | |
CN108664245A (zh) | 一种基于json自描述结构的网页界面生成方法及装置 | |
US20120084657A1 (en) | Providing content to a user from multiple sources based on interest tag(s) that are included in an interest cloud | |
CN102306171A (zh) | 一种用于提供网络访问建议和网络搜索建议的方法与设备 | |
CN102880618A (zh) | 用于网页文档搜索的方法及系统 | |
CA2914587C (en) | Ambiguous structured search queries on online social networks | |
CN108959595A (zh) | 基于虚拟与现实的网站构建和体验方法及其装置 | |
CN106484775A (zh) | 一种基于selenium的爬虫抓取方法及系统 | |
CN109918602B (zh) | 一种Web数据预加载方法及系统 | |
CN108108450A (zh) | 图像处理的方法及相关设备 | |
CN111582477A (zh) | 神经网络模型的训练方法和装置 | |
CN104298783A (zh) | 一种网络爬虫模板的行为式生成方法 | |
CN104376066B (zh) | 一种网络特定内容挖掘方法和装置、及一种电子设备 | |
CN104268246B (zh) | 生成访问互联网站点指令脚本的方法及访问方法和装置 | |
CN104166545A (zh) | 一种网页资源的嗅探方法以及装置 | |
CN104346174B (zh) | 一种在线矢量图建模过程的描述与重现方法 | |
TW201520791A (zh) | 網頁的處理方法及裝置 | |
CN102289489A (zh) | 针对任一网页的标题发表或者浏览评论的系统 | |
CN107301192A (zh) | 一种终端识别方法和识别服务器 | |
CN106651410A (zh) | 一种应用管理方法及装置 | |
CN102279860B (zh) | 手机网络资讯导航系统及其实现方法 | |
CN106096403B (zh) | 一种软件隐私泄露行为的分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150121 |
|
WD01 | Invention patent application deemed withdrawn after publication |