CN110472125A - 一种基于网络爬虫的多级页面的级联爬取方法和设备 - Google Patents

一种基于网络爬虫的多级页面的级联爬取方法和设备 Download PDF

Info

Publication number
CN110472125A
CN110472125A CN201910784160.2A CN201910784160A CN110472125A CN 110472125 A CN110472125 A CN 110472125A CN 201910784160 A CN201910784160 A CN 201910784160A CN 110472125 A CN110472125 A CN 110472125A
Authority
CN
China
Prior art keywords
page
junior
major key
resolution table
higher level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910784160.2A
Other languages
English (en)
Other versions
CN110472125B (zh
Inventor
邱涛
丘水文
陈昊
陈耀才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Shang Ji Network Technology Co Ltd
Original Assignee
Xiamen Shang Ji Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Shang Ji Network Technology Co Ltd filed Critical Xiamen Shang Ji Network Technology Co Ltd
Priority to CN201910784160.2A priority Critical patent/CN110472125B/zh
Publication of CN110472125A publication Critical patent/CN110472125A/zh
Application granted granted Critical
Publication of CN110472125B publication Critical patent/CN110472125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于网络爬虫的多级页面的级联爬取方法,包括如下步骤:抓取上级页面并将抓取到的数据存储在上级页面数据解析表中,在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值,各所述对象对应的主键值均不相同;抓取下级页面并将抓取到的数据存储在下级页面数据解析表中,并对该下级页面数据解析表设置外键值,从上级页面数据解析表中获取该下级页面对应的对象的主键值,然后将其作为所述下级页面数据解析表的外键值,从而实现抓取数据落地后上级网页和下级网页的关联查询。本发明是一种能够还原网页前后逻辑的数据采集模式,确保网页抓取的完整性且按原网页层级顺序存储数据,能够便捷地获取相关联的多层级页面数据。

Description

一种基于网络爬虫的多级页面的级联爬取方法和设备
技术领域
本发明涉及一种基于网络爬虫的多级页面的级联爬取方法和设备,属于数据爬取领域。
背景技术
现有的上下级页面爬取方法是:先抓取上级页面,然后存储上级页面中的URL地址,并根据这些URL地址重复多次抓取下级页面,最后通过爬虫任务标识和匹配落地的数据。爬虫任务标识是和抓取爬虫,以及爬虫所抓取的数据落地文件一一对应的;当爬虫任务结束需要匹配数据时,利用爬虫任务标识将爬取的数据文件按照原网页逻辑解析成结构化数据。因爬虫任务标识只能起到和爬虫任务一一对应的作用,任务标识间并不体现层级关系,因此,通过爬虫任务标识是无法还原原始数据层级的。如果存在多级页面之间存在关联,现有爬虫技术在抓取多级层次化数据时,由于各级之间关联逻辑较复杂,验证数据完整性和准确性存在较大困难。同时,由于数据存取难度更大,多级网页数据使用规则更为繁琐。
发明内容
为了解决上述技术问题,本发明提供一种基于网络爬虫的多级页面的级联爬取方法,提供一种能够还原网页前后逻辑的数据采集模式,确保网页抓取的完整性且按原网页层级顺序,以结构化的方式存储数据,从而能够便捷地获取相关联的多层级页面数据。
本发明技术方案如下:
一种基于网络爬虫的多级页面的级联爬取方法,包括如下步骤:抓取上级页面并将抓取到的数据存储在上级页面数据解析表中,在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值,各所述对象对应的主键值均不相同;抓取下级页面并将抓取到的数据存储在下级页面数据解析表中,并对该下级页面数据解析表设置外键值,从上级页面数据解析表中获取该下级页面对应的对象的主键值,然后将其作为所述下级页面数据解析表的外键值,从而实现抓取数据落地后上级网页和下级网页的关联查询。
更优地,爬取多级页面时,抓取到的每一级页面对应的数据解析表中,对需要继续抓取下级页面的对象设置主键值,并从各级页面对应的上一级页面的数据解析表中获取主键值,将该主键值作为本级页面的外键值;具体地:除第一级页面外的各层级页面均由上一级页面中的对象被点击后打开,根据页面与所述对象之间的一一对应关系,确定各层级页面对应的对象,根据确定的对象获取该对象对应的主键值。
更优地,所述主键值为所述对象的跳转URL和所述对象的跳转页面ID中的至少一种。
更优地,所述跳转URL包括如下形式:完整的下级页面的URL链接;片段下级页面的URL链接后缀;部分参数值;上述任意形式的跳转URL都具有唯一性,均可作为主键值。
更优地,爬虫在爬取下级页面前,先分析下级页面是否存在分页,若是,则抓取到的各分页的数据解析表的外键值相同且均为从上级页面数据解析表中获取到的该下级页面对应的对象的主键值。
本发明提供一种基于网络爬虫的多级页面的级联爬取设备。
一种基于网络爬虫的多级页面的级联爬取设备,所述设备包括微处理器和存储器,所述存储器上存储有程序,所述微处理器运行该程序并执行如下步骤:抓取上级页面并将抓取到的数据存储在上级页面数据解析表中,在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值,各所述对象对应的主键值均不相同;抓取下级页面并将抓取到的数据存储在下级页面数据解析表中,并对该下级页面数据解析表设置外键值,从上级页面数据解析表中获取该下级页面对应的对象的主键值,然后将其作为所述下级页面数据解析表的外键值,从而实现抓取数据落地后上级网页和下级网页的关联查询。
更优地,爬取多级页面时,抓取到的每一级页面对应的数据解析表中,对需要继续抓取下级页面的对象设置主键值,并从各级页面对应的上一级页面的数据解析表中获取主键值,将该主键值作为本级页面的外键值;具体地:除第一级页面外的各层级页面均由上一级页面中的对象被点击后打开,根据页面与所述对象之间的一一对应关系,确定各层级页面对应的对象,根据确定的对象获取该对象对应的主键值。
更优地,所述主键值为所述对象的跳转URL和所述对象的跳转页面ID中的至少一种。
更优地,所述跳转URL包括如下形式:完整的下级页面的URL链接;片段下级页面的URL链接后缀;部分参数值;上述任意形式的跳转URL都具有唯一性,均能作为主键值。
更优地,爬虫在爬取下级页面前,先分析下级页面是否存在分页,若是,则抓取到的各分页的数据解析表的外键值相同且均为从上级页面数据解析表中获取到的该下级页面对应的对象的主键值。
本发明具有如下有益效果:
1、一种基于网络爬虫的多级页面的级联爬取方法和设备,按照页面访问的顺序,在上级页面指定下级爬取对象的主键值,并指定下级页面外键值等于该主键值,将网站的页面数据分层级落地到本地存储,实现上下级页面的关联,可快速还原原网页数据的结构和顺序。同时,本发明还可以根据每个上级页面所包含的主键值是否在数据库中存在跟它对应地外键值来判断上下级页面是否抓全以及数据全部落地,保证爬虫爬取的数据完整性和准确性。
2、一种基于网络爬虫的多级页面的级联爬取方法和设备,适用于多层级页面数据的分层级落地存储,除第一级和最后一级页面外,其余各级页面的数据解析表均包含主键值和外键值,可快速还原原网页数据的结构和顺序。
3、一种基于网络爬虫的多级页面的级联爬取方法和设备,所述主键值可利用跳转URL或者跳转的页面ID,不仅具备唯一性特征且读取设置方便。
附图说明
图1为本发明一种基于网络爬虫的多级页面的级联爬取方法的流程图;
图2为本发明的上级页面主键值示意图;
图3为本发明的下级页面主键值示意图;
图4为本发明的上级页面数据中包含下级页面的完整URL的示意图;
图5为本发明的上级页面数据中包含下级页面的片段URL链接后缀示意图;
图6为本发明的上级页面数据中包含下级页面的部分参数值的示意图;
图7为图6所示网页的网页源码逻辑的示意图;
图8为本发明的下级页面为分页的爬取流程图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
如图1所示,一种基于网络爬虫的多级页面的级联爬取方法,包括如下步骤:抓取上级页面数据,并将抓取到的数据存储在上级页面数据解析表中,在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值,所述主键值具有唯一性,各所述对象对应的主键值均不相同;通过该主键值标识对象所在的上级页面并通过该主键值关联下级页面;点击上级页面的URL链接,通过爬虫模拟访问下级页面,抓取下级页面数据并将抓取到的数据存储在下级页面数据解析表中,并对该下级页面数据解析表设置用于关联上级页面的外键值,具体地,从上级页面数据解析表中获取该下级页面对应的对象的主键值,然后将其作为所述下级页面数据解析表的外键值,由于主键值和外键值保持一致,根据主键值和外键值确定层级关系,从而明确抓取数据落地后上级网页和下级网页的层级关联。所述主键值可以是所述对象的跳转URL和所述对象的跳转页面ID中的至少一种。在上级页面中,若需要继续抓取的下级页面的对象有多个,则该上级页面包含的主键值有多个。如图2和图3所示,图2中的pkey字段写入上级页面中某某有限公司对应的主键值,图3中为点击某某有限公司获得的下级页面数据解析表,其中fkey字段写入外键值,且主键值等于外键值。
爬取多级页面时,抓取到的每一级页面对应的数据解析表中,对需要继续抓取下级页面的对象设置主键值,并从各级页面对应的上一级页面的数据解析表中获取主键值,将该主键值作为该级页面的外键值;所述获取主键值的方法是:除第一级页面外的各层级页面均由上一级页面中的对象被点击后产生,根据页面与所述对象之间的一一对应关系,确定各层级页面对应的对象,根据确定的对象获取主键值。
更优地,所述主键值均通过加密生成,例如,将跳转URL加密后生成主键值。
请参阅图8,下级页面中存在分页,抓取到的各分页的数据解析表的外键值相同,均为从上级页面数据解析表中获取到的该下级页面对应的对象的主键值。分页参数不作为主键值。
本发明按照页面访问的顺序,将网站的页面数据分层级落地到本地存储,通过在上级页面指定下级爬取对象的主键值,并在下级页面指定外键值等于该主键值,实现页面的上下级关联,能够快速有效地还原原网页数据结构和顺序,在使用数据时,可以根据需求便捷地查询出与某一级页面关联所有下级页面。同时,本发明还可以根据每个上级页面所包含的主键值是否在数据库中存在跟它对应地外键值来判断上下级页面是否抓全以及数据都有落地,保证爬虫爬取的数据完整性和准确性。
本发明应用实例如下:
步骤1、 爬虫进入网站第一级页面(即上级页面),并按照需求对页面数据进行解析落地,将抓取到的数据存储在第一级页面数据解析表中,在第一级页面数据解析表中对需要抓取第二级页面(即下级页面)的对象设置主键值,将点击该对象跳转到第二级页面的跳转URL进行MD5加密后生成主键值,作为跟第二级页面关联的主键值。所述跳转URL大致有三种形式:完整的第二级页面的URL链接,如图4所示,Script标签中src属性中的内容就是需要抓取的下级页面链接;片段第二级页面的URL链接后缀,如图5所示,在a标签href属性内部存储的内容就是下级跳转链接的网页后缀;部分参数值,如图6所示的网页包含的json文件,可以获取地区的编号id=65,按照图7中截取出的网页源码的逻辑拼接成完整的第二级URL链接;无论是哪一种形式都具备唯一性,都可以直接将其进行MD5加密后生成主键值。此主键值与下级页面的数据解析表的外键值完全相等。
步骤2、实现第二级页面的访问URL组装,准备抓取第二级页面数据:
若抓取到完整的第二级页面的URL链接,则无需拼装URL;若抓取到的是片段第二级页面的URL链接后缀,根据页面前缀拼接完整URL;若为部分参数值,根据URL组合规律使用上述参数组装下级完整URL。然后分析二级页面分页情况,通过寻找并组装分页参数访问到同级的不同分页页面。
步骤3、访问URL地址,抓取第二级页面数据,在保存第二级页面数据解析表时,将该URL地址对应的主键值保存为所述第二级页面数据解析表的外键值;
步骤4、重复步骤1至步骤3,依次继续抓取对应下级页面,直至抓取完毕。
实施例二
一种基于网络爬虫的多级页面的级联爬取设备,所述设备包括微处理器和存储器,所述存储器上存储有程序,所述微处理器运行该程序并执行如下步骤:抓取上级页面数据,并将抓取到的数据存储在上级页面数据解析表中,在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值,所述主键值具有唯一性,通过该主键值标识对象所在的上级页面并通过该主键值关联下级页面;点击上级页面的URL链接,通过爬虫模拟访问下级页面,抓取下级页面数据并将抓取到的数据存储在下级页面数据解析表中,并对该下级页面数据解析表设置用于关联上级页面的外键值,具体地,从上级页面数据解析表中获取该下级页面对应的对象的主键值,然后将其作为所述下级页面数据解析表的外键值,由于主键值和外键值保持一致,根据主键值和外键值确定层级关系,从而明确抓取数据落地后上级网页和下级网页的层级关联。
更优地,爬取多级页面时,抓取到的每一级页面对应的数据解析表中,对需要继续抓取下级页面的对象设置主键值,并从各级页面对应的上一级页面的数据解析表中获取主键值,将该主键值作为本级页面的外键值;具体地:除第一级页面外的各层级页面均由上一级页面中的对象被点击后打开,根据页面与所述对象之间的一一对应关系,确定各层级页面对应的对象,根据确定的对象获取该对象对应的主键值。
更优地,所述主键值为所述对象的跳转URL和所述对象的跳转页面ID中的至少一种。所述跳转URL包括如下形式:完整的下级页面的URL链接;片段下级页面的URL链接后缀;部分参数值;上述任意形式的跳转URL都具有唯一性,均能作为主键值。
更优地,爬虫在爬取下级页面前,先分析下级页面是否存在分页,若是,则抓取到的各分页的数据解析表的外键值相同且均为从上级页面数据解析表中获取到的该下级页面对应的对象的主键值。
本实施例中的具体实施方式、应用实例及产生的有益效果可参见实施例一中的描述。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于网络爬虫的多级页面的级联爬取方法,其特征在于,包括如下步骤:
抓取上级页面数据,并将抓取到的数据存储在上级页面数据解析表中,在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值,所述主键值具有唯一性,通过该主键值标识对象所在的上级页面并通过该主键值关联下级页面;
点击上级页面的URL链接,通过爬虫模拟访问下级页面,抓取下级页面数据并将抓取到的数据存储在下级页面数据解析表中,并对该下级页面数据解析表设置用于关联上级页面的外键值,具体地,从上级页面数据解析表中获取该下级页面对应的对象的主键值,然后将其作为所述下级页面数据解析表的外键值,由于主键值和外键值保持一致,根据主键值和外键值确定层级关系,从而明确抓取数据落地后上级网页和下级网页的层级关联。
2.根据权利要求1所述的一种基于网络爬虫的多级页面的级联爬取方法,其特征在于:爬取多级页面时,抓取到的每一级页面对应的数据解析表中,对需要继续抓取下级页面的对象设置主键值,并从各级页面对应的上一级页面的数据解析表中获取主键值,将该主键值作为本级页面的外键值;具体地:除第一级页面外的各层级页面均由上一级页面中的对象被点击后打开,根据页面与所述对象之间的一一对应关系,确定各层级页面对应的对象,根据确定的对象获取该对象对应的主键值。
3.根据权利要求1所述的一种基于网络爬虫的多级页面的级联爬取方法,其特征在于:所述主键值为所述对象的跳转URL和所述对象的跳转页面ID中的至少一种。
4.根据权利要求3所述的一种基于网络爬虫的多级页面的级联爬取方法,其特征在于:所述跳转URL包括如下形式:完整的下级页面的URL链接;片段下级页面的URL链接后缀;部分参数值;上述任意形式的跳转URL都具有唯一性,均可作为主键值。
5.根据权利要求1所述的一种基于网络爬虫的多级页面的级联爬取方法,其特征在于:爬虫在爬取下级页面前,先分析下级页面是否存在分页,若是,则抓取到的各分页的数据解析表的外键值相同且该外键值为从上级页面数据解析表中获取到的该下级页面对应的对象的主键值。
6.一种基于网络爬虫的多级页面的级联爬取设备,其特征在于:所述设备包括微处理器和存储器,所述存储器上存储有程序,所述微处理器运行该程序并执行如下步骤:
抓取上级页面数据,并将抓取到的数据存储在上级页面数据解析表中,在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值,所述主键值具有唯一性,通过该主键值标识对象所在的上级页面并通过该主键值关联下级页面;
点击上级页面的URL链接,通过爬虫模拟访问下级页面,抓取下级页面数据并将抓取到的数据存储在下级页面数据解析表中,并对该下级页面数据解析表设置用于关联上级页面的外键值,具体地,从上级页面数据解析表中获取该下级页面对应的对象的主键值,然后将其作为所述下级页面数据解析表的外键值,由于主键值和外键值保持一致,根据主键值和外键值确定层级关系,从而明确抓取数据落地后上级网页和下级网页的层级关联。
7.根据权利要求6所述的一种基于网络爬虫的多级页面的级联爬取设备,其特征在于:爬取多级页面时,抓取到的每一级页面对应的数据解析表中,对需要继续抓取下级页面的对象设置主键值,并从各级页面对应的上一级页面的数据解析表中获取主键值,将该主键值作为本级页面的外键值;具体地:除第一级页面外的各层级页面均由上一级页面中的对象被点击后打开,根据页面与所述对象之间的一一对应关系,确定各层级页面对应的对象,根据确定的对象获取该对象对应的主键值。
8.根据权利要求6所述的一种基于网络爬虫的多级页面的级联爬取设备,其特征在于:所述主键值为所述对象的跳转URL和所述对象的跳转页面ID中的至少一种。
9.根据权利要求8所述的一种基于网络爬虫的多级页面的级联爬取设备,其特征在于:所述跳转URL包括如下形式:完整的下级页面的URL链接;片段下级页面的URL链接后缀;部分参数值;上述任意形式的跳转URL都具有唯一性,均能作为主键值。
10.根据权利要求6所述的一种基于网络爬虫的多级页面的级联爬取设备,其特征在于:爬虫在爬取下级页面前,先分析下级页面是否存在分页,若是,则抓取到的各分页的数据解析表的外键值相同且均为从上级页面数据解析表中获取到的该下级页面对应的对象的主键值。
CN201910784160.2A 2019-08-23 2019-08-23 一种基于网络爬虫的多级页面的级联爬取方法和设备 Active CN110472125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910784160.2A CN110472125B (zh) 2019-08-23 2019-08-23 一种基于网络爬虫的多级页面的级联爬取方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910784160.2A CN110472125B (zh) 2019-08-23 2019-08-23 一种基于网络爬虫的多级页面的级联爬取方法和设备

Publications (2)

Publication Number Publication Date
CN110472125A true CN110472125A (zh) 2019-11-19
CN110472125B CN110472125B (zh) 2022-04-01

Family

ID=68512085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910784160.2A Active CN110472125B (zh) 2019-08-23 2019-08-23 一种基于网络爬虫的多级页面的级联爬取方法和设备

Country Status (1)

Country Link
CN (1) CN110472125B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190735A (zh) * 2021-04-30 2021-07-30 北京精准沟通传媒科技股份有限公司 爬取数据的方法、装置、介质及电子设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320375A (zh) * 2008-07-04 2008-12-10 浙江大学 基于用户点击行为的数字图书搜索方法
CN102609412A (zh) * 2011-01-07 2012-07-25 华东师范大学 基于rss的多线程图文信息同步爬取的控制方法及系统
CN102646129A (zh) * 2012-03-09 2012-08-22 武汉大学 一种主题相关的分布式网络爬虫系统
CN102693323A (zh) * 2012-06-06 2012-09-26 新浪网技术(中国)有限公司 级联样式表解析方法及解析器、网页展示方法及服务器
CN102955810A (zh) * 2011-08-26 2013-03-06 中国移动通信集团公司 一种网页分类方法和设备
CN106802893A (zh) * 2015-11-26 2017-06-06 财团法人资讯工业策进会 网站简化方法及使用其的网站简化装置
CN107145598A (zh) * 2017-05-31 2017-09-08 广州云移信息科技有限公司 二维码关联页面方法及终端
CN107544994A (zh) * 2016-06-27 2018-01-05 北京国双科技有限公司 关联数据的处理方法和装置
CN107665226A (zh) * 2017-01-19 2018-02-06 深圳市谷熊网络科技有限公司 一种信息的推送方法及推送装置
CN107908773A (zh) * 2017-11-30 2018-04-13 南京信息工程大学 基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法
CN108520043A (zh) * 2018-03-30 2018-09-11 纳思达股份有限公司 数据对象采集方法、装置及系统、计算机可读存储介质
US10083222B1 (en) * 2016-03-29 2018-09-25 Sprint Communications Company L.P. Automated categorization of web pages
US20190179886A1 (en) * 2013-06-21 2019-06-13 Nativo, Inc. Detecting compatible layouts for content-based native ads

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320375A (zh) * 2008-07-04 2008-12-10 浙江大学 基于用户点击行为的数字图书搜索方法
CN102609412A (zh) * 2011-01-07 2012-07-25 华东师范大学 基于rss的多线程图文信息同步爬取的控制方法及系统
CN102955810A (zh) * 2011-08-26 2013-03-06 中国移动通信集团公司 一种网页分类方法和设备
CN102646129A (zh) * 2012-03-09 2012-08-22 武汉大学 一种主题相关的分布式网络爬虫系统
CN102693323A (zh) * 2012-06-06 2012-09-26 新浪网技术(中国)有限公司 级联样式表解析方法及解析器、网页展示方法及服务器
US20190179886A1 (en) * 2013-06-21 2019-06-13 Nativo, Inc. Detecting compatible layouts for content-based native ads
CN106802893A (zh) * 2015-11-26 2017-06-06 财团法人资讯工业策进会 网站简化方法及使用其的网站简化装置
US10083222B1 (en) * 2016-03-29 2018-09-25 Sprint Communications Company L.P. Automated categorization of web pages
CN107544994A (zh) * 2016-06-27 2018-01-05 北京国双科技有限公司 关联数据的处理方法和装置
CN107665226A (zh) * 2017-01-19 2018-02-06 深圳市谷熊网络科技有限公司 一种信息的推送方法及推送装置
CN107145598A (zh) * 2017-05-31 2017-09-08 广州云移信息科技有限公司 二维码关联页面方法及终端
CN107908773A (zh) * 2017-11-30 2018-04-13 南京信息工程大学 基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法
CN108520043A (zh) * 2018-03-30 2018-09-11 纳思达股份有限公司 数据对象采集方法、装置及系统、计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIAN MAO: "Phishing-Alarm: Robust and Efficient Phishing Detection via Page Component Similarity", 《IEEE ACCESS》 *
夏天: "Web数据的深度定向采集", 《山东大学学报(理学版)》 *
王亚强: "级联式低消耗大规模网页分类在线获取方法", 《计算机应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190735A (zh) * 2021-04-30 2021-07-30 北京精准沟通传媒科技股份有限公司 爬取数据的方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN110472125B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN101739335B (zh) 建议的应用评估系统
US7380239B1 (en) Method and mechanism for diagnosing computer applications using traces
CN102667696B (zh) 用于用户界面中的对象标识的系统与方法
CN108196880A (zh) 软件项目知识图谱自动构造方法与系统
Higo et al. Method and implementation for investigating code clones in a software system
CN101799855B (zh) 一种基于ActiveX组件模拟的网页木马检测方法
CN105335246B (zh) 一种基于问答网站分析的程序崩溃缺陷自动修复方法
CN104965901A (zh) 一种目标页面内容抓取方法和装置
US7376937B1 (en) Method and mechanism for using a meta-language to define and analyze traces
CN106126747A (zh) 基于爬虫的数据获取方法及装置
CN105138335A (zh) 一种基于控制流图的函数调用路径提取方法及装置
CN102855418A (zh) 发现Web内网代理漏洞的方法
CN106407124A (zh) 一种程序自动化测试方法及系统
Sacramento et al. Web application model generation through reverse engineering and UI pattern inferring
CN103116574A (zh) 从自然语言文本挖掘领域过程本体的方法
CN111859075A (zh) 一种基于异步处理框架的具有自动测试功能的数据爬取方法
KR101696694B1 (ko) 역추적을 이용한 소스 코드 취약점 분석 방법 및 장치
CN105487983A (zh) 基于智能路径引导的敏感点逼近方法
Yu et al. From sub-patterns to patterns: an approach to the detection of structural design pattern instances by subgraph mining and merging
CN110472125A (zh) 一种基于网络爬虫的多级页面的级联爬取方法和设备
CN103838865B (zh) 用于挖掘时效性种子页的方法及装置
Alalfi et al. WAFA: Fine-grained dynamic analysis of web applications
CN104156458B (zh) 一种信息的提取方法及装置
US9495336B2 (en) Method and apparatus for comparing process designs
CN105335160A (zh) 一种基于jsf的web端组件敏捷开发方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant