CN109408701A - 一种网络爬虫爬取路径的展示方法和装置 - Google Patents

一种网络爬虫爬取路径的展示方法和装置 Download PDF

Info

Publication number
CN109408701A
CN109408701A CN201811326724.XA CN201811326724A CN109408701A CN 109408701 A CN109408701 A CN 109408701A CN 201811326724 A CN201811326724 A CN 201811326724A CN 109408701 A CN109408701 A CN 109408701A
Authority
CN
China
Prior art keywords
web page
data
page joint
path data
crawls
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811326724.XA
Other languages
English (en)
Other versions
CN109408701B (zh
Inventor
汪文星
刘柏
陆炯炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN201811326724.XA priority Critical patent/CN109408701B/zh
Publication of CN109408701A publication Critical patent/CN109408701A/zh
Application granted granted Critical
Publication of CN109408701B publication Critical patent/CN109408701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供了一种网络爬虫爬取路径的展示方法和装置,本发明实施例通过后端可以获取网络爬虫爬取的网页节点的标识信息,以及网页节点的爬取顺序,然后生成网页节点之间的层级关系,接着根据网页节点的标识信息和网页节点之间的层级关系,生成爬取路径数据,实现了在网络爬虫运行过程中,后端对网络爬虫爬取的数据进行实时处理,节省了人工离线处理的时间,提高了爬虫路径数据处理效率。进一步,在生成爬取路径数据之后,为每一个爬取路径数据分配标识信息,并保存于数据库中,保证了网络爬虫爬取数据记录的高效性和安全性,同时也节省了服务器的存储空间。

Description

一种网络爬虫爬取路径的展示方法和装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种网络爬虫爬取路径的展示方法和装置。
背景技术
随着互联网用户的迅速增长,用户所产生的数据的数量产生了跨越式增加,数据的格式也越来越繁杂多样,而在这些繁杂的数据中蕴含着巨大的价值。如何有效地提取并利用这些信息成为就一个巨大的挑战,因此,能够定向抓取相关网页资源的网络爬虫应运而生。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。同时其也是一种获取数据的重要方式,在科研和互联网工作中应用广泛。当前在网络爬虫爬取网页时,后端将爬取轨迹以日志方式记录下来,用于后续进行离线分析,然而,当前的爬虫轨迹是一维的,没有层次,并且缺少爬取过程中的上下文信息。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种网络爬虫爬取路径的展示方法和相应的一种网络爬虫爬取路径的展示装置。
为了解决上述问题,本发明实施例公开了一种网络爬虫爬取路径的展示方法,包括:获取网络爬虫爬取的网页节点的标识信息,以及所述网页节点的爬取顺序;根据所述网页节点的标识信息和所述网页节点的爬取顺序,生成所述网页节点之间的层级关系;根据所述网页节点的标识信息和所述网页节点之间的层级关系,生成爬取路径数据;向前端发送所述爬取路径数据,以使所述前端展示所述爬取路径数据。
优选地,所述根据所述网页节点的标识信息和所述网页节点的爬取顺序,生成所述网页节点之间的层级关系,包括:
获取网站的站点地图;
确定所述网页节点的标识信息在所述站点地图的位置信息;
生成与所述位置信息对应的所述网页节点之间的层级关系。
优选地,所述根据所述网页节点的标识信息和所述网页节点之间的层级关系,生成爬取路径数据,包括:
获取所有所述网页节点的标识信息,生成所述网页节点的数据集合;
获取所有所述网页节点之间的层级关系,生成所述网页节点之间的层级关系集合;
将所述网页节点的数据集合和所述网页节点之间的层级关系集合作为所述爬取路径数据。
优选地,所述根据所述网页节点的标识信息和所述网页节点之间的层级关系,生成爬取路径数据的步骤之后,所述方法还包括:
为所述爬取路径数据分配标识信息,并将所述爬取路径数据存储于数据库中。
优选地,所述将所述爬取路径数据存储于数据库中的步骤之后,所述方法还包括:
从所述数据库中获取所述爬取路径数据的标识信息;
采用所有所述爬取路径数据的标识信息,生成数据记录列表;
向所述前端发送所述数据记录列表,以使所述前端选择目标爬取路径数据的标识信息。
本发明还提供了一种网络爬虫爬取路径的展示方法,包括:生成爬取路径数据获取请求,并将所述爬取路径数据请求发送至后端;接收所述后端发送的所述爬取路径数据;将所述爬取路径数据的数据格式转换为适配于前端框架的数据格式;通过前端框架,展示所述适配于前端框架的数据格式的爬行路径数据。
优选地,所述爬取路径数据包括网页节点的数据集合和网页节点之间的层级关系集合,所述将所述爬取路径数据的数据格式转换为适配于前端框架的数据格式,包括:
获取所述网页节点的数据集合中每一个网页节点的标识信息,以及所述网页节点的子节点的标识信息;
获取所述网页节点之间的层级关系集合中每一个网页节点之间的层级关系;
根据所有网页节点的标识信息和所述每一个网页节点之间的层级关系,生成嵌套格式的所述爬取路径数据。
优选地,所述嵌套格式由所述网页节点的标识信息、判定点以及与所述网页节点对应的子节点的标识信息组成,所述判定点与所述网页节点之间的层级关系对应,所述根据所有网页节点的标识信息和所述每一个网页节点之间的层级关系,生成嵌套格式的所述爬取路径数据,包括:.
按照所述网页节点的标识信息、所述判定点以及与所述网页节点对应的子节点的标识信息将所述爬取路径数据转换为适配于所述前端框架的嵌套格式的爬取路径数据。
优选地,所述通过前端框架,展示所述适配于前端框架的数据格式的爬行路径数据,包括:
提取所述网页节点的名称,以及与所述网页节点对应的子节点的名称;
按照所述网页节点之间的层级关系,生成与所述网页节点的名称对应的所述爬取路径数据的树状图;
展示所述爬取路径数据的树状图。
优选地,所述生成爬取路径数据获取请求,并将所述爬取路径数据请求发送至后端的步骤之前,所述方法还包括:
生成数据记录列表获取请求,并将所述数据记录列表请求发送至所述后端;
接收所述后端发送的所述数据记录列表;
从所述数据记录列表中选择目标爬取路径数据的标识信息。
优选地,所述从所述网络爬虫列表中选择目标爬取路径数据的标识信息,包括:
选择所述数据记录列表中当前爬取路径数据的标识信息;
或者,
选择所述数据记录列表中历史爬取路径数据的标识信息。
本发明还提供了一种网络爬虫爬取路径的展示装置,应用于后端,包括:
爬取信息获取模块,用于获取网络爬虫爬取的网页节点的标识信息,以及所述网页节点的爬取顺序;
层级关系生成模块,用于根据所述网页节点的标识信息和所述网页节点的爬取顺序,生成所述网页节点之间的层级关系;
爬取数据生成模块,用于根据所述网页节点的标识信息和所述网页节点之间的层级关系,生成爬取路径数据;
爬取数据发送模块,向前端发送所述爬取路径数据,以使所述前端展示所述爬取路径数据。
本发明还提供了一种网络爬虫爬取路径的展示装置,应用于前端,包括:
爬取数据请求模块,用于生成爬取路径数据获取请求,并将所述爬取路径数据请求发送至后端;
爬取数据接收模块,用于接收所述后端发送的所述爬取路径数据;
爬取数据转换模块,用于将所述爬取路径数据的数据格式转换为适配于前端框架的数据格式;
爬取数据展示模块,用于通过前端框架,展示所述适配于前端框架的数据格式的爬行路径数据。
本发明还提供了一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述一种网络爬虫爬取路径的展示方法的步骤。
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述一种网络爬虫爬取路径的展示方法的步骤。
本发明实施例包括以下优点:
本发明实施例通过后端可以获取网络爬虫爬取的网页节点的标识信息,以及网页节点的爬取顺序,然后生成网页节点之间的层级关系,接着根据网页节点的标识信息和网页节点之间的层级关系,生成爬取路径数据,实现了在网络爬虫运行过程中,后端对网络爬虫爬取的数据进行实时处理,节省了人工离线处理的时间,提高了爬虫路径数据处理效率。进一步,在生成爬取路径数据之后,为每一个爬取路径数据分配标识信息,并保存于数据库中,保证了网络爬虫爬取数据记录的高效性和安全性,同时也节省了服务器的存储空间。
其次,前端通过向后端发送请求,获取爬取路径数据,利用前端框架对爬取路径数据进行解析,以树状图的方式对爬取路径数据进行可视化展示,能够清晰地展示网络爬虫爬取的网页节点之间的父子关系以及爬行路径的上下文关系。
附图说明
图1是本发明的一种网络爬虫爬取路径的展示方法实施例的步骤流程图;
图2是本发明的一种网络爬虫爬取路径的展示方法实施例的步骤流程图;
图3是本发明一种网络爬虫爬取路径的展示方法实施例的树状图示意图;
图4是本发明的一种网络爬虫爬取路径的展示装置实施例的结构框图;
图5是本发明的一种网络爬虫爬取路径的展示装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面集合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,由后端对网络爬虫爬取的网页节点的数据进行实时处理,得到爬取路径数据并保存于数据库中;然后接收前端发送的请求,返回爬取路径数据,前端通过解析爬取路径数据,根据爬取路径数据中的网页节点的数据集合和网页节点之间的层级关系,将爬取路径数据转换为适配于前端框架的嵌套格式的爬取路径数据,接着对转换后的爬取路径数据进行可视化处理,因此后端通过在网络爬虫的运行过程中,对网络爬虫爬取的数据进行实时处理和分析,提高了爬取路径数据的处理效率,其次,前端和后端采用Websocket协议进行全双工实时交互,进而能够对爬取路径数据进行实时可视化,实现与网络爬虫当前爬取状态的同步。以下分别对后端和前端对应的处理过程进行说明。
对后端的处理过程进行说明:
在实际中,后端包括网络爬虫、服务器和Mysql数据库。其中,在网络爬取过程中,网络爬虫可以实时处理与解析爬取过程中的爬取路径信息,生成爬取路径数据,并存储于数据库中,服务器通过WebSocket协议进行全双工实时交互,将爬取路径数据发送至前端。
参照图1,示出了本发明的一种网络爬虫爬取路径的方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、获取网络爬虫爬取的网页节点的标识信息,以及网页节点的爬取顺序;
在实际应用中,首先对网络爬虫的运行路径进行配置,包括每个网页节点在网站地图中的位置信息xpath(eXtensible Markup Language path,可扩展标记语言路径)、该网页节点的子节点的描述信息以及该节点的描述信息。
在一个示例中,如:Head:{"//a[@class='feed-rec-image']/img":[0.2,"推荐","game"]}所示。其中Head是该网页节点名称,"//a[@class='feed-rec-image']/img"表示该网页节点的位置信息xpath,0.2表示进入该节点的概率,“推荐”是该节点的中文名称,“game”为该节点的子节点名称。将所有网页节点以上述形式组织起来,可以让网络爬虫实现自动化运行。
在具体实现中,网路爬虫获取在爬取过程中的爬取路径信息,从而获取爬取的所有网页节点的标识信息,以及爬取过程中所有网页节点的爬取先后顺序。
在本发明实施例中,网页节点的标识信息包括该网页节点的父节点的URL(Uniform Resource Locator,统一资源定位符)、该网页节点的URL以及该网页节点的中文名称,三个部分以下划线进行分割,例如:“https://www.tata.com/_https://www.tata.com/app/37121_推荐”,其中,若该网页节点为根节点,则父节点用“None”进行表示。
例如:运行网络爬虫,用户“登录”某游戏分享网站的“首页”后,网站首页有“推荐”、“排行榜”、“最新评价”以及“热门标签”四个一级子目录,接着用户选择“推荐”进行浏览。则该网络爬虫的爬取过程为:首先进入“登录”网页页面,获取“登录”网页的标识信息,即“None_https://www.tata.com/auth/register_登录”,用户登录成功后,进入“首页”网页页面,获取“首页”节点的标识信息,即“https://www.tata.com/auth/_https://www.tata.com/_首页”,接着进入“推荐”网页页面,获取“推荐”节点的标识信息,即“https://www.tata.com/_https://www.tata.com/app/37121_推荐”,此时,网络爬虫根据爬取过程中的爬取路径信息,依次获取“登录”、“首页”和“推荐”的标识信息,同时得到“登录”、“首页”和“推荐”的爬取先后顺序为:“登录”->“首页”->“推荐”。
步骤102、根据网页节点的标识信息和网页节点的爬取顺序,生成网页节点之间的层级关系;
在本发明实施例中,网络爬虫获取爬取过程中的爬取路径信息之后,根据爬取路径信息中所有网页节点的标识信息和所有爬取过程中网页节点的爬取先后顺序,可以生成爬取过程中所有网页节点之间的层级关系。
作为一种示例,网页节点之间的层级关系为网络爬虫每一次的操作记录,由父节点的标识信息和当前节点的标识信息组成,如:
"source":"None_https://www.tata.com/auth/register_登录",
"target":"https://www.tata.com/auth/_https://www.tata.com/_首页"
其中,“source”表示父节点,“target”表示当前节点。
在本发明一实施例中,步骤102可以包括如下子步骤:
子步骤S11,获取网站的站点地图;
在实际应用中,站点地图是一个网站所有链接的容器。很多网站的连接层次比较深,网络爬虫很难爬取到,站点地图可以方便网络爬虫爬取网页节点的标识信息,通过爬取网页节点的标识信息,可以清晰地了解网站的架构。站点地图就是根据网站的结构、框架、内容,生成的导航网页文件。
在具体实现中,通过获取网站的站点地图,并将站点地图添加到网络爬虫中,一方面可以为网络爬虫爬取构造一个方便快捷的环境,另一方面以地图的形式出现,列出了各网页节点的相关类目及其下属子节点,明确地表示了网页节点彼此间的相互关系,具有很强的可视性。
子步骤S12,确定网页节点的标识信息在站点地图的位置信息;
在本发明实施例中,在站点地图中获取与网页节点的标识信息对应的描述信息,按照网页节点的爬取先后顺序,确定该网页节点在站点地图中的位置信息,从而确定所有网页节点在站点地图中的位置信息。
例如,获取网络爬虫爬取的网页节点的中文名称,如“登录”、“首页”以及“推荐”等,在站点地图中寻找与“登录”、“首页”以及“推荐”对应的描述信息,确定“登录”、“首页”以及“推荐”在站点地图的位置信息。
需要说明的是,本发明实施例以获取网页节点的中文名称为例,确定网页节点在站点地图中的位置信息,本领域技术人员还可以通过其他方式从站点地图中确定网页节点的位置信息,本发明对此不作限制。
子步骤S13,生成与位置信息对应的网页节点之间的层级关系。
在本发明实施例中,利用站点地图的可视化特点,按照网页节点在站点地图的位置信息,生成与网页节点在站点地图的位置信息对应的网页节点之间的层级关系。
在本发明一示例中,网络爬虫依次爬取“登录”、“首页”、“推荐”、“排行榜”、“最新评价”以及“热门标签”等网页节点,确定所有网页节点在站点地图的位置信息之后,网页节点在站点地图的位置信息如上图所示,则可以按照位置信息生成网页节点之间的层级关系,包括:“登录”-“首页”,“首页”-“推荐”,“首页”-“排行榜”,“首页”-“最新评价”以及“首页”-“热门标签”等。
步骤103、根据网页节点的标识信息和网页节点之间的层级关系,生成爬取路径数据;
在本实施例中,利用站点地图的可视化特点生成所有网页节点之间的层级关系之后,网络爬虫可以采用所有网页节点的标识信息和所有网页节点之间的层级关系,生成网络爬虫爬取某网站的爬取路径数据。
在具体实现中,网络爬虫采用爬取过程中的所有网页节点的标识信息,生成网页节点的数据集合,同时采用所有网页节点之间的层级关系,生成网页节点之间的层级关系集合,然后将网页节点的数据集合和网页节点之间的层级关系作为爬取路径数据。
在本发明一实施例中,步骤103可以包括如下子步骤:
子步骤S21,获取所有网页节点的标识信息,生成网页节点的数据集合;
在具体实现中,网络爬虫采用爬取过程中的所有网页节点的标识信息,生成网页节点的数据集合。
如网路爬虫在某游戏网站中爬取到“登录”和“首页”的标识信息,按爬取先后顺序生成网页节点的数据集合,如下所示
其中,“nodes”表示网络爬虫爬取过的所有网页节点的去重集合。
需要说明的是,本发明实施例中,以按照爬取先后顺序将所有网页节点生成网页节点的数据集合为例进行说明,本领域技术人员还可以采用其他方式生成网页节点的数据集合,本发明对此不作限制。
子步骤S22,获取所有网页节点之间的层级关系,生成网页节点之间的层级关系集合;
在具体实现中,网络爬虫采用爬取过程中所有网页节点之间的层级关系,生成网页节点的层级关系集合。
如网络爬虫在某游戏网站中爬取到的“登录”和“首页”的标识信息后,生成两者的层级关系,将所有网页节点之间的层级关系生成网页节点之间的层级关系集合,以“登录”和“首页”层级关系为例进行说明,如下所示:
其中,“edges”表示网络爬虫每一次操作的记录,即网页节点之间的层级关系,“source”表示父节点,“target”表示当前节点。
需要说明的是,本发明实施例中,以两个节点之间的爬取先后关系生成当前节点的层级关系,再将所有网页节点的层级关系按照爬取先后顺序生成网页节点之间的层级关系集合为例进行说明,本领域技术人员还可以采用其他方式生成网页节点之间的层级关系集合,本发明对此不作限制。
子步骤S23,将网页节点的数据集合和网页节点之间的层级关系集合作为爬取路径数据。
在具体实现中,当生成网页节点的数据集合和网页节点之间的层级关系集合后,网络爬虫采用网页节点的数据集合和网页节点之间的层级关系集合生成爬取路径数据,实现了网络爬虫在爬取过程中对爬取路径信息进行实时处理,节点
如网络爬取过程中爬取了“登录”、“首页”以及“推荐”三个网页节点的标识信息,生成网页节点的数据集合和网页节点之间的层级关系后,生成如下数据格式的爬取路径数据:
需要说明的是,本发明实施例中,以网页节点的数据集合和网页节点之间的层级关系集合作为爬取路径数据为例进行说明,本领域技术人员还可以采用其他方式生成网页节点的数据集合,本发明对此不作限制。
步骤104、向前端发送爬取路径数据,以使前端展示爬取路径数据。
在具体实现中,前后端采用WebSocket协议进行全双工实时交互,当网络爬虫通过爬取的网页节点的标识信息和爬取先后顺序,结合网站的站点地图生成爬虫路径数据后,服务器会根据前端的请求,返回数据库中某个网络爬虫最新的爬虫路径数据,以使前端对爬虫路径数据进行下一步的解析与可视化,实现对网络爬虫爬取路径的可视化展示,可以清晰地展示网络爬虫爬取过程中的结构化信息,即清晰展示网页节点的父子关系以及爬取路径的层级关系。
在本发明一实施例中,还可以包括如下步骤:
为爬取路径数据分配标识信息,并将爬取路径数据存储于数据库中。
在本申请实施例中,网络爬虫通过爬取的网页节点的标识信息和爬取先后顺序,结合网站的站点地图生成爬虫路径数据后,为每一个爬虫路径数据分配一个对应的标识信息id,该id的数值与网络爬虫爬取的爬取路径数据的先后顺序对应,然后将爬虫路径数据存储于数据库中,实现爬虫路径数据记录的高效性和安全性,同时提高了服务器存储空间。
在具体实现中,爬虫路径数据包括网页节点的数据集合和网页节点之间的层级关系集合,提取每一个网页节点,并为每一个网页节点分配一个名称,按照网页节点之间的层级关系,生成一条爬虫记录,具体为以两个网页节点为单位,按u_id、node_1、node_2的形式生成一条爬虫记录,如表1所示,从而将爬取路径数据以若干条爬虫记录的方式存储于Mysql数据库中,实现爬虫路径数据记录的高效性和安全性,同时提高了服务器存储空间。
字段名 含义
u_id 该条记录的标识信息
node_1 当前节点的父节点的标识信息
node_2 当前节点的标识信息
表1数据库中爬虫记录字段名说明
需要说明的是,本发明实施例以两个网页节点为单位生成一条爬虫记录,将爬取路径数据分解为若干条爬虫记录存储于数据库为例进行说明,本领域技术人员还可以采用其他方式将爬取路径数据存储于数据库中,本发明对此不作限制。
其中,父节点的标识信息和子节点的标识信息由相同的结构组成,包括三个部分,分别是该节点父节点的URL、该节点URL以及该节点中文名称,三个部分以下划线分割。u_id由该爬虫记录编号、该爬虫启动时间以及一个8位随机字符串组成,以下划线分割,例如“40001_2018-06-19-16-29-53_yanqtCAx”。
在本发明一实例中,网络爬虫爬取的过程为:首先进入“登录”网页页面,获取“登录”网页的标识信息,即“None_https://www.tata.com/auth/register_登录”,用户登录成功后,进入“首页”网页页面,获取“首页”节点的标识信息,即“https://www.tata.com/auth/_https://www.tata.com/_首页”,接着进入”推荐“网页页面,获取“推荐”节点的标识信息,即“https://www.tata.com/_https://www.tata.com/app/37121_推荐”,则网页节点的集合包括“登录”、“首页”以及“推荐”三者的标识信息,且此时“登录”、“首页”以及“推荐”三者之间的层级关系为:“登录”-“首页”和“首页”-“推荐”,则此时网页节点之间的层级关系集合包括:“登录”-“首页”和“首页”-“推荐”。以两个网页节点为单位,按照u_id、node_1、node_2的形式生成两条爬虫记录,包括:爬取“‘登录’-‘首页’”的爬虫记录,以及爬取“‘首页’-‘推荐’”的爬虫记录。
需要说明的是,本发明以u_id、node_1、node_2的形式生成爬虫记录为例进行说明,本领域技术人员可以采用其他方式生成爬虫记录,本发明对此不去作限制。
在本发明一实施例中,还可以包括如下步骤:
从数据库中获取爬取路径数据的标识信息;
采用所有爬取路径数据的标识信息,生成数据记录列表;
向前端发送数据记录列表,以使前端选择目标爬取路径数据的标识信息。
在本发明实施例中,服务器接收前端的请求,从数据库中获取与前端的请求对应的爬取路径数据的标识信息,确定爬取路径数据后,提取爬取路径数据中所有爬虫记录,并提取爬虫记录的u_id,生成数据记录列表,以Json(JavaScript Object Notation,对象表示法)的数据格式发送至前端,以使前端选择目标爬取路径数据的标识信息,进一步向服务器请求目标爬取路径数据。
在本发明一实例中,在用户每次进入网页后,前端与后端之间会以WebSocket的方式进行连接,当前端向后端发送爬取路径数据获取请求时,服务器首先从Mysql数据库中获取对应的爬取路径数据,然后获取所有爬虫记录的去重集合,并提取爬虫记录的u_id,生成数据记录列表,并以Json的数据格式返回前端,Json的数据格式如下所示:
在得到数据记录列表之后,用户可以选择其中一个目标爬取路径数据,先后端发送请求,获取对应的爬取路径数据。
在本发明实施例中,网络爬虫通过爬取的网页节点的标识信息和爬取先后顺序,结合网站的站点地图生成爬虫路径数据后,对爬取路径数据分配一个标识信息,并存储于数据库中,进一步,将爬取路径数据分解为若干条爬虫记录,按照预设格式存储于数据库中,实现了爬虫路径数据记录的高效性和安全性,同时提高了服务器存储空间。
本发明实施例后端可以获取网络爬虫爬取的网页节点的标识信息,以及网页节点的爬取顺序,然后生成网页节点之间的层级关系,接着根据网页节点的标识信息和网页节点之间的层级关系,生成爬取路径数据,实现了在网络爬虫运行过程中,后端对网络爬虫爬取的数据进行实时处理,节省了人工离线处理的时间,提高了爬虫路径数据处理效率。进一步,在生成爬取路径数据之后,为每一个爬取路径数据分配标识信息,并保存于数据库中,保证了网络爬虫爬取数据记录的高效性和安全性,同时也节省了后端的存储空间。
对前端的处理过程进行说明:
前端即网站前台部分,可以应用于终端浏览器,终端可以包括手机、PDA(PersonalDigital Assistant,个人数字助理)、膝上型计算机、掌上电脑等等,本发明实施例对此也不加以限制。
参考图2,示出了本发明的一种网络爬虫爬取路径的展示方法实施例的步骤流程图,具体可以包括如下步骤:
步骤201、生成爬取路径数据获取请求,并将爬取路径数据请求发送至服务器;
步骤202、接收服务器发送的爬取路径数据;
在本发明实施例中,在用户每次进入网页后,前端和后端采用WebSocket协议进行全双工实时交互,当前端需要向后端请求爬取路径数据时,首先生成爬取路径数据获取请求,然后将爬取路径数据请求发送至服务器。
在具体实现中,后端包括网络爬虫、服务器和数据库,当网络爬虫通过爬取的网页节点的标识信息和爬取先后顺序,结合网站的站点地图生成爬虫路径数据后,将爬取路径数据存储于数据库中,当前端发送爬取路径数据获取请求之后,服务器会根据该请求发送相应的爬取路径数据给前端。
步骤203、将爬取路径数据的数据格式转换为适配于前端框架的数据格式;
在本发明实施例中,服务器返回至前端的爬取路径数据包括网页节点的数据集合和网页节点之间的层级关系,前端需要将网页节点的数据集合和网页节点之间的层级关系转换为适配前端框架的数据格式。
需要说明的是,前端框架可以为CakePHP、CodeIgniter以及Zend等,只要能够实现数据的可视化即可。
在本发明一实施例中,步骤202可以包括如下子步骤:
子步骤S31,获取网页节点的数据集合中每一个网页节点的标识信息,以及网页节点的子节点的标识信息;
在具体实现中,前端接收到服务器发送的爬取路径数据之后,解析爬取路径数据获取网页节点的数据集合中每一个网页节点的标识信息,以及该网页节点的子节点的标识信息,从而获取网络爬虫爬取过程中爬取过的所有网页节点的标识信息。
子步骤S32,获取网页节点之间的层级关系集合中每一个网页节点之间的层级关系;
在具体实现中,前端接收到服务器发送的爬取路径数据之后,还需要解析爬取路径数据获取网页节点之间的层级关系集合中每一个网页节点之间的层级关系,从而获取网络爬虫爬取过程中爬取过的所有网络节点之间的层级关系。
子步骤S33,根据所有网页节点的标识信息和每一个网页节点之间的层级关系,生成嵌套格式的爬取路径数据;
在本发明实施例中,前端通过解析服务器发送的爬取路径数据之后,需要将爬取路径数据转换为适配前端框架的嵌套格式的爬取路径数据。
在具体实现中,嵌套格式的爬取路径数据由目标网页节点的标识信息、判定点以及网页节点对应的子节点的标识信息组成,其中,判定点与网页节点之间的层级关系对应,用于判断网页节点是否展开。
在实际中,可以根据不同的前端框架定义爬取路径数据与适配于前端框架的嵌套格式的爬取路径数据的映射关系,具体为:
定义网页节点的标识信息与目标网页节点的标识信息的映射关系;
定义网页节点之间的层级关系与展开点的映射关系;
定义网页节点的子节点的标识信息与目标网页节点的子节点的标识信息的映射关系。
当前端需要将服务器发送的爬取路径数据转换为适配于前端框架的嵌套格式的爬取路径数据时,可以按照爬取路径数据与适配于前端框架的嵌套格式的爬取路径数据的映射关系,对爬取路径数据进行格式转换,具体为:
将网页节点的标识信息转换为目标网页节点的标识信息;
将网页节点之间的层级关系转换为展开点;
将网页节点的子节点的标识信息转换为目标网页节点的子节点的标识信息。
例如,前端接收服务器发送的爬取路径数据格式为:
则按照爬取路径数据与适配于前端框架的嵌套格式的爬取路径数据的映射关系,对爬取路径数据进行转换后的嵌套格式的爬取路径数据为:
其中,title表示当前网页节点的标识信息,expand标识判定点,判定当前网页节点是否展开,children表示当前网页节点的子节点的集合,其可以为一个,也可以为多个,例如某游戏网站上“首页”节点包括“推荐”、“排行榜”、“最新评价”以及“热门标签”四个子节点。
需要说明的是,在本发明实施例中,以判定点为例,对网页节点是否展开进行判断,本领域技术人员还可以采用其他方式对网页节点是否展开进行判断,本发明对此不作限制。
步骤204、通过前端框架,展示适配于前端框架的数据格式的爬行路径数据。
如图3所示,示出了本发明一种网络爬虫爬取路径的展示方法实施例的树状图示意图,在本实施例中,当前端将爬取路径数据转换为适配于前端的数据格式的爬取路径数据之后,前端框架通过提取目标网页节点的标识信息中的中文名称,以及该目标网页节点对应的子节点的标识信息中的中文名称,接着按照网页节点之间的层级关系,生成与所有网页节点的名称对应的爬取路径数据的树状图,最后展示爬取路径数据的树状图,从而实现利用前端框架对爬取路径数据进行解析,以树状图的方式对爬取路径数据进行可视化展示,能够清晰地展示网络爬虫爬取的网页节点之间的父子关系以及爬行路径的上下文关系。
在本实施例中,前端通过向后端发送请求,获取爬取路径数据,利用前端框架对爬取路径数据进行解析,以树状图的方式对爬取路径数据进行可视化展示,能够清晰地展示网络爬虫爬取的网页节点之间的父子关系以及爬行路径的上下文关系。
需要说明的是,在本发明实施例中,以树状图的方式展示爬取路径数据为例进行实例性说明,本领域技术人员还可以采用其他方式对爬取路径数据进行可视化展示,本发明对此不作限制。
在本发明一实施例中,还可以包括如下步骤:
生成路径数据列表获取请求,并将路径数据列表请求发送至服务器;
接收服务器发送的路径数据列表;
从路径数据列表中选择目标爬取路径数据的标识信息。
在具体实现中,在用户每次进入网页后,前端与后端之间会以WebSocket的方式进行连接,当前端可以定时,或者根据用户的需要获取爬取路径数据,生成路径数据列表获取请求,并将该路径数据列表获取请求发送至服务器。
当接收到服务器发送的路径数据列表后,用户可以根据列表中网络爬虫爬取过程中生成的爬取路径数据,选择当前爬取路径数据的标识信息,或者选择历史爬取路径数据的标识信息,然后生成爬取路径数据获取请求,发送至服务器以获取对应的爬取路径数据。
在本实施例中,前端可以定时或者根据用户的需求向后端发送路径数据列表请求,以获取网络爬虫爬取过程中生成的爬取路径数据列表,并根据列表中的数据选择目标爬取路径数据,从而实现对爬取路径数据进行实时解析和可视化,方便了用户对网络怕会从状态进行统计和分析。
在本发明实施例中,在用户每次进入网页后,前端与后端之间会以WebSocket的方式进行连接,前端通过向后端发送请求,获取爬取路径数据,利用前端框架对爬取路径数据进行解析,以树状图的方式对爬取路径数据进行可视化展示,能够清晰地展示网络爬虫爬取的网页节点之间的父子关系以及爬行路径的上下文关系。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明的一种网络爬虫爬取路径的展示装置实施例的结构框图,应用于后端,具体可以包括如下模块:
爬取信息获取模块401,用于获取网络爬虫爬取的网页节点的标识信息,以及所述网页节点的爬取顺序;
层级关系生成模块402,用于根据所述网页节点的标识信息和所述网页节点的爬取顺序,生成所述网页节点之间的层级关系;
爬取数据生成模块403,用于根据所述网页节点的标识信息和所述网页节点之间的层级关系,生成爬取路径数据;
爬取数据发送模块404,向前端发送所述爬取路径数据,以使所述前端展示所述爬取路径数据。
在本发明一实施例中,所述层级关系生成模块,包括:
站点地图获取子模块,用于获取网站的站点地图;
位置信息确定子模块,用于确定所述网页节点的标识信息在所述站点地图的位置信息;
层级关系生成子模块,用于生成与所述位置信息对应的所述网页节点之间的层级关系。
在本发明一实施例中,所述爬取数据生成模块包括:
第一获取子模块,用于获取所有所述网页节点的标识信息,生成所述网页节点的数据集合;
第二获取子模块,用于获取所有所述网页节点之间的层级关系,生成所述网页节点之间的层级关系集合;
爬取数据生成子模块,用于将所述网页节点的数据集合和所述网页节点之间的层级关系集合作为所述爬取路径数据。
在本发明一实施例中,还可以包括如下模块:
数据存储模块,用于为所述爬取路径数据分配标识信息,并将所述爬取路径数据存储于数据库中。
在本发明一实施例中,还可以包括如下模块:
路径数据获取模块,用于从所述数据库中获取所述爬取路径数据的标识信息;
数据列表生成模块,用于采用所有所述爬取路径数据的标识信息,生成数据记录列表;
数据列表发送模块,用于向所述前端发送所述数据记录列表,以使所述前端选择目标爬取路径数据的标识信息。
参照图5,示出了本发明的一种网络爬虫爬取路径的展示装置实施例的结构框图,应用于前端,具体可以包括如下模块:
爬取数据请求模块501,用于生成爬取路径数据获取请求,并将所述爬取路径数据请求发送至后端;
爬取数据接收模块502,用于接收所述后端发送的所述爬取路径数据;
爬取数据转换模块503,用于将所述爬取路径数据的数据格式转换为适配于前端框架的数据格式;
爬取数据展示模块504,用于通过前端框架,展示所述适配于前端框架的数据格式的爬行路径数据。
在本发明一实施例中,所述爬取路径数据包括网页节点的数据集合和网页节点之间的层级关系集合,所述爬取数据转换模块,包括:
标识信息获取子模块,用于获取所述网页节点的数据集合中每一个网页节点的标识信息,以及所述网页节点的子节点的标识信息;
层级关系获取子模块,用于获取所述网页节点之间的层级关系集合中每一个网页节点之间的层级关系;
格式转换子模块,用于根据所有网页节点的标识信息和所述每一个网页节点之间的层级关系,生成嵌套格式的所述爬取路径数据。
在发明一实施例中,所述嵌套格式由所述网页节点的标识信息、判定点以及与所述网页节点对应的子节点的标识信息组成,所述判定点与所述网页节点之间的层级关系对应,所述格式转换子模块,还用于:
按照所述网页节点的标识信息、所述判定点以及与所述网页节点对应的子节点的标识信息将所述爬取路径数据转换为适配于所述前端框架的嵌套格式的爬取路径数据
在本发明一实施例中,所述爬取数据展示模块,包括:
节点名称提取子模块,用于提取所述网页节点的名称,以及与所述网页节点对应的子节点的名称;
节点可视化子模块,用于按照所述网页节点之间的层级关系,生成与所述网页节点的名称对应的所述爬取路径数据的树状图;
爬取数据展示子模块,用于展示所述爬取路径数据的树状图。
在本发明一实施例中,还可以还包括如下模块:
数据列表请求模块,用于生成数据记录列表获取请求,并将所述数据记录列表请求发送至所述后端;
数据列表接收模块,用于接收所述后端发送的所述数据记录列表;
路径数据选择模块,用于从所述数据记录列表中选择目标爬取路径数据的标识信息。
在本发明一实施例中,所述路径数据选择模块,包括
第一选择子模块,用于选择所述数据记录列表中当前爬取路径数据的标识信息;
第二选择子模块,用于选择所述数据记录列表中历史爬取路径数据的标识信息。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种装置,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行本发明实施例的一种网络爬虫爬取路径的展示方法。
本发明实施例还提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行本发明实施例的一种网络爬虫爬取路径的展示方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或集合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的集合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种网络爬虫爬取路径的展示方法和一种网络爬虫爬取路径的展示装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种网络爬虫爬取路径的展示方法,其特征在于,包括:
获取网络爬虫爬取的网页节点的标识信息,以及所述网页节点的爬取顺序;
根据所述网页节点的标识信息和所述网页节点的爬取顺序,生成所述网页节点之间的层级关系;
根据所述网页节点的标识信息和所述网页节点之间的层级关系,生成爬取路径数据;
向前端发送所述爬取路径数据,以使所述前端展示所述爬取路径数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述网页节点的标识信息和所述网页节点的爬取顺序,生成所述网页节点之间的层级关系,包括:
获取网站的站点地图;
确定所述网页节点的标识信息在所述站点地图的位置信息;
生成与所述位置信息对应的所述网页节点之间的层级关系。
3.根据权利要求1所述的方法,其特征在于,所述根据所述网页节点的标识信息和所述网页节点之间的层级关系,生成爬取路径数据,包括:
获取所有所述网页节点的标识信息,生成所述网页节点的数据集合;
获取所有所述网页节点之间的层级关系,生成所述网页节点之间的层级关系集合;
将所述网页节点的数据集合和所述网页节点之间的层级关系集合作为所述爬取路径数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述网页节点的标识信息和所述网页节点之间的层级关系,生成爬取路径数据的步骤之后,所述方法还包括:
为所述爬取路径数据分配标识信息,并将所述爬取路径数据存储于数据库中。
5.根据权利要求4所述的方法,其特征在于,所述将所述爬取路径数据存储于数据库中的步骤之后,所述方法还包括:
从所述数据库中获取所述爬取路径数据的标识信息;
采用所有所述爬取路径数据的标识信息,生成数据记录列表;
向所述前端发送所述数据记录列表,以使所述前端选择目标爬取路径数据的标识信息。
6.一种网络爬虫爬取路径的展示方法,其特征在于,包括:
生成爬取路径数据获取请求,并将所述爬取路径数据请求发送至后端;
接收所述后端发送的所述爬取路径数据;
将所述爬取路径数据的数据格式转换为适配于前端框架的数据格式;
通过前端框架,展示所述适配于前端框架的数据格式的爬行路径数据。
7.根据权利要求6所述的方法,其特征在于,所述爬取路径数据包括网页节点的数据集合和网页节点之间的层级关系集合,所述将所述爬取路径数据的数据格式转换为适配于前端框架的数据格式,包括:
获取所述网页节点的数据集合中每一个网页节点的标识信息,以及所述网页节点的子节点的标识信息;
获取所述网页节点之间的层级关系集合中每一个网页节点之间的层级关系;
根据所有网页节点的标识信息和所述每一个网页节点之间的层级关系,生成嵌套格式的所述爬取路径数据。
8.根据权利要求7所述的方法,其特征在于,所述嵌套格式由所述网页节点的标识信息、判定点以及与所述网页节点对应的子节点的标识信息组成,所述判定点与所述网页节点之间的层级关系对应,所述根据所有网页节点的标识信息和所述每一个网页节点之间的层级关系,生成嵌套格式的所述爬取路径数据,包括:.
按照所述网页节点的标识信息、所述判定点以及与所述网页节点对应的子节点的标识信息将所述爬取路径数据转换为适配于所述前端框架的嵌套格式的爬取路径数据。
9.根据权利要求8所述的方法,其特征在于,所述通过前端框架,展示所述适配于前端框架的数据格式的爬行路径数据,包括:
提取所述网页节点的名称,以及与所述网页节点对应的子节点的名称;
按照所述网页节点之间的层级关系,生成与所述网页节点的名称对应的所述爬取路径数据的树状图;
展示所述爬取路径数据的树状图。
10.根据权利要求6所述的方法,其特征在于,所述生成爬取路径数据获取请求,并将所述爬取路径数据请求发送至后端的步骤之前,所述方法还包括:
生成数据记录列表获取请求,并将所述数据记录列表请求发送至所述后端;
接收所述后端发送的所述数据记录列表;
从所述数据记录列表中选择目标爬取路径数据的标识信息。
11.根据权利要求10所述的方法,其特征在于,所述从所述网络爬虫列表中选择目标爬取路径数据的标识信息,包括:
选择所述数据记录列表中当前爬取路径数据的标识信息;
或者,
选择所述数据记录列表中历史爬取路径数据的标识信息。
12.一种网络爬虫爬取路径的展示装置,其特征在于,应用于后端,包括:
爬取信息获取模块,用于获取网络爬虫爬取的网页节点的标识信息,以及所述网页节点的爬取顺序;
层级关系生成模块,用于根据所述网页节点的标识信息和所述网页节点的爬取顺序,生成所述网页节点之间的层级关系;
爬取数据生成模块,用于根据所述网页节点的标识信息和所述网页节点之间的层级关系,生成爬取路径数据;
爬取数据发送模块,向前端发送所述爬取路径数据,以使所述前端展示所述爬取路径数据。
13.一种网络爬虫爬取路径的展示装置,其特征在于,应用于前端,包括:
爬取数据请求模块,用于生成爬取路径数据获取请求,并将所述爬取路径数据请求发送至后端;
爬取数据接收模块,用于接收所述后端发送的所述爬取路径数据;
爬取数据转换模块,用于将所述爬取路径数据的数据格式转换为适配于前端框架的数据格式;
爬取数据展示模块,用于通过前端框架,展示所述适配于前端框架的数据格式的爬行路径数据。
14.一种装置,其特征在于,包括:
一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如权利要求1-11所述的一个或多个的方法。
15.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-11所述的一个或多个的方法。
CN201811326724.XA 2018-11-08 2018-11-08 一种网络爬虫爬取路径的展示方法和装置 Active CN109408701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811326724.XA CN109408701B (zh) 2018-11-08 2018-11-08 一种网络爬虫爬取路径的展示方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811326724.XA CN109408701B (zh) 2018-11-08 2018-11-08 一种网络爬虫爬取路径的展示方法和装置

Publications (2)

Publication Number Publication Date
CN109408701A true CN109408701A (zh) 2019-03-01
CN109408701B CN109408701B (zh) 2021-01-15

Family

ID=65472147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811326724.XA Active CN109408701B (zh) 2018-11-08 2018-11-08 一种网络爬虫爬取路径的展示方法和装置

Country Status (1)

Country Link
CN (1) CN109408701B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069688A (zh) * 2019-03-16 2019-07-30 平安城市建设科技(深圳)有限公司 反爬虫的页面展示方法、服务器、存储介质及装置
CN110162682A (zh) * 2019-04-12 2019-08-23 深圳壹账通智能科技有限公司 一种网络数据的爬取方法、装置、存储介质和终端设备
CN110287394A (zh) * 2019-06-28 2019-09-27 北京金山安全软件有限公司 网站资源的爬取方法、装置、计算机设备和存储介质
CN110297962A (zh) * 2019-06-28 2019-10-01 北京金山安全软件有限公司 网站资源的爬取方法、装置、系统和计算机设备
CN110569416A (zh) * 2019-09-04 2019-12-13 腾讯科技(深圳)有限公司 基于数据爬取的app控件的处理方法及相关产品
CN111966879A (zh) * 2020-08-17 2020-11-20 华南师范大学 一种疫情新闻信息提取方法及系统
CN112258295A (zh) * 2020-11-04 2021-01-22 支付宝(杭州)信息技术有限公司 记录处理方法、装置及设备
CN114679487A (zh) * 2022-03-25 2022-06-28 度小满科技(北京)有限公司 链路处理方法、装置、存储介质、处理器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110145218A1 (en) * 2009-12-11 2011-06-16 Microsoft Corporation Search service administration web service protocol
CN102508779A (zh) * 2011-11-17 2012-06-20 北京北纬点易信息技术有限公司 基于网络爬虫日志的性能测试脚本自动化生成系统及方法
US20140372847A1 (en) * 2013-06-14 2014-12-18 International Business Machines Corporation Optimizing Automated Interactions with Web Applications
CN106776636A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据处理方法及装置
CN106933973A (zh) * 2017-02-14 2017-07-07 广州优亿信息科技有限公司 一种可视化网络爬虫方法
CN107092670A (zh) * 2017-04-11 2017-08-25 武汉大学 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法
WO2018120192A1 (en) * 2016-12-30 2018-07-05 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for intelligent information management

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110145218A1 (en) * 2009-12-11 2011-06-16 Microsoft Corporation Search service administration web service protocol
CN102508779A (zh) * 2011-11-17 2012-06-20 北京北纬点易信息技术有限公司 基于网络爬虫日志的性能测试脚本自动化生成系统及方法
US20140372847A1 (en) * 2013-06-14 2014-12-18 International Business Machines Corporation Optimizing Automated Interactions with Web Applications
CN106776636A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据处理方法及装置
WO2018120192A1 (en) * 2016-12-30 2018-07-05 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for intelligent information management
CN106933973A (zh) * 2017-02-14 2017-07-07 广州优亿信息科技有限公司 一种可视化网络爬虫方法
CN107092670A (zh) * 2017-04-11 2017-08-25 武汉大学 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069688A (zh) * 2019-03-16 2019-07-30 平安城市建设科技(深圳)有限公司 反爬虫的页面展示方法、服务器、存储介质及装置
CN110162682A (zh) * 2019-04-12 2019-08-23 深圳壹账通智能科技有限公司 一种网络数据的爬取方法、装置、存储介质和终端设备
CN110287394A (zh) * 2019-06-28 2019-09-27 北京金山安全软件有限公司 网站资源的爬取方法、装置、计算机设备和存储介质
CN110297962A (zh) * 2019-06-28 2019-10-01 北京金山安全软件有限公司 网站资源的爬取方法、装置、系统和计算机设备
CN110297962B (zh) * 2019-06-28 2021-08-24 北京金山安全软件有限公司 网站资源的爬取方法、装置、系统和计算机设备
CN110287394B (zh) * 2019-06-28 2022-01-11 北京金山安全软件有限公司 网站资源的爬取方法、装置、计算机设备和存储介质
CN110569416A (zh) * 2019-09-04 2019-12-13 腾讯科技(深圳)有限公司 基于数据爬取的app控件的处理方法及相关产品
CN111966879B (zh) * 2020-08-17 2023-08-08 华南师范大学 一种疫情新闻信息提取方法及系统
CN111966879A (zh) * 2020-08-17 2020-11-20 华南师范大学 一种疫情新闻信息提取方法及系统
CN112258295A (zh) * 2020-11-04 2021-01-22 支付宝(杭州)信息技术有限公司 记录处理方法、装置及设备
CN112258295B (zh) * 2020-11-04 2024-05-14 蚂蚁胜信(上海)信息技术有限公司 记录处理方法、装置及设备
CN114679487A (zh) * 2022-03-25 2022-06-28 度小满科技(北京)有限公司 链路处理方法、装置、存储介质、处理器
CN114679487B (zh) * 2022-03-25 2023-12-22 度小满科技(北京)有限公司 链路处理方法、装置、存储介质、处理器

Also Published As

Publication number Publication date
CN109408701B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN109408701A (zh) 一种网络爬虫爬取路径的展示方法和装置
CN107273409B (zh) 一种网络数据采集、存储及处理方法及系统
US9836539B2 (en) Content quality filtering without use of content
US20170242934A1 (en) Methods for integrating semantic search, query, and analysis and devices thereof
US9177046B2 (en) Refining image relevance models
EP2438539B1 (en) Co-selected image classification
CN102073725B (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN105302903B (zh) 搜索方法、装置、系统以及搜索结果调序依据的确定方法
US20100082510A1 (en) Training a search result ranker with automatically-generated samples
US8832096B1 (en) Query-dependent image similarity
US9213748B1 (en) Generating related questions for search queries
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN110597962A (zh) 搜索结果展示方法、装置、介质及电子设备
KR20080062369A (ko) 지유아이 검색 서비스 제공 방법 및 시스템
CN103051706A (zh) 应用于动态网站的动态网页请求处理系统和方法
CN103077254B (zh) 网页获取方法和装置
CN108959595B (zh) 基于虚拟与现实的网站构建和体验方法及其装置
EP3241131B1 (en) Images for query answers
CN109063158B (zh) 一种网站访问排名信息查询的方法、设备、系统及介质
CN106407377A (zh) 基于人工智能的搜索方法和装置
JP2021525410A (ja) ネットワーク化システムでのドメイン固有モデルの生成
US20180232410A1 (en) Refining structured data indexes
CN103812906B (zh) 一种网址推荐方法、装置和通信系统
US9442990B1 (en) Determining geographic areas of interest for a query
CN104281619A (zh) 搜索结果排序系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant