CN112632358B - 一种资源链接获取方法、装置、电子设备及存储介质 - Google Patents

一种资源链接获取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112632358B
CN112632358B CN202011611421.XA CN202011611421A CN112632358B CN 112632358 B CN112632358 B CN 112632358B CN 202011611421 A CN202011611421 A CN 202011611421A CN 112632358 B CN112632358 B CN 112632358B
Authority
CN
China
Prior art keywords
resource
link
processed
queue
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011611421.XA
Other languages
English (en)
Other versions
CN112632358A (zh
Inventor
熊毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202011611421.XA priority Critical patent/CN112632358B/zh
Publication of CN112632358A publication Critical patent/CN112632358A/zh
Application granted granted Critical
Publication of CN112632358B publication Critical patent/CN112632358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/74Address processing for routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/63Routing a service request depending on the request content or context

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种资源链接获取方法、装置、电子设备及存储介质,该方法包括:获取访问链接对应的待处理网页;查找待处理网页中所有文档节点存在的事件,并将文档节点存在的事件存储至待处理队列;使用无头浏览器以多线程的方式模拟触发待处理队列中的事件;拦截待处理队列中的事件在触发过程中产生的资源请求,并获取资源请求中的资源链接。在上述的实现过程中,通过将网页中存在的事件存储至待处理队列,再触发和拦截待处理队列中的事件,有效地避免了网页页面多次跳转、页面重新渲染和多次弹出新的页面等等情况,同时也避免了这些情况带来的计算资源和带宽资源的过度消耗,从而有效地节约了计算资源和带宽资源。

Description

一种资源链接获取方法、装置、电子设备及存储介质
技术领域
本申请涉及网络安全和网络通信的技术领域,具体而言,涉及一种资源链接获取方法、装置、电子设备及存储介质。
背景技术
目前,使用爬虫在公开网页中抓取资源链接的过程中,常常发生网页页面多次跳转、页面重新渲染和多次弹出新的页面等等情况,这些情况导致浏览器运行很多不必要的进程资源或线程资源,同时,多次加载和跳转请求获取网页也会造成带宽资源的浪费。因此,使用现有的爬虫在公开网页中抓取资源链接的过程中存在计算资源和带宽资源过度消耗的问题。
发明内容
本申请实施例的目的在于提供一种资源链接获取方法、装置、电子设备及存储介质,用于改善在公开网页中抓取资源链接的过程中存在计算资源和带宽资源过度消耗的问题。
本申请实施例提供了一种资源链接获取方法,包括:获取访问链接对应的待处理网页;查找待处理网页中所有文档节点存在的事件,并将文档节点存在的事件存储至待处理队列;使用无头浏览器以多线程的方式模拟触发待处理队列中的事件;拦截待处理队列中的事件在触发过程中产生的资源请求,并获取资源请求中的资源链接。在上述的实现过程中,通过将网页中存在的事件存储至待处理队列,再触发和拦截待处理队列中的事件,有效地拦截到事件在触发过程中产生的资源请求,避免了网页页面多次跳转、页面重新渲染和多次弹出新的页面等等情况,同时也避免了这些情况带来的计算资源和带宽资源的过度消耗,从而有效地节约了计算资源和带宽资源。
可选地,在本申请实施例中,获取访问链接对应的待处理网页,包括:获取访问链接;使用无头浏览器加载访问链接,并将访问链接对应的返回数据动态渲染为待处理网页。在上述的实现过程中,通过使用无头浏览器加载和渲染为待处理网页,由于无头浏览器可以动态地渲染网站网页,无头浏览器是无界面的且支持程序化的集成引擎,从而更加地节省计算资源,减小了使用有图形的浏览器来加载和渲染网页导致卡顿的概率。
可选地,在本申请实施例中,资源链接获取模块,具体用于:针对待处理队列中的事件在触发过程中产生的资源请求进行代理拦截,并获取资源请求中的资源链接。
可选地,在本申请实施例中,拦截待处理队列中的事件在触发过程中产生的资源请求,并获取资源请求中的资源链接,包括:针对待处理队列中的事件在触发过程中产生的资源请求进行代理拦截,并获取资源请求中的资源链接。在上述的实现过程中,针对待处理队列中的事件在触发过程中产生的资源请求进行代理拦截,并获取资源请求中的资源链接,有效地增加拦截和获取资源链接的速度,提高处理资源请求的性能。
可选地,在本申请实施例中,在获取资源请求中的资源链接之后,还包括:使用预先设置的路由规则对资源链接进行过滤。在上述的实现过程中,通过使用预先设置的路由规则对资源链接进行过滤,有效地过滤掉资源链接中不相关的链接,同时基于不同的路由分发规则进行链接分发,从而有效地提高了对资源链接进行过滤的灵活性。
可选地,在本申请实施例中,在获取资源请求中的资源链接之后,还包括:若资源链接的链接类型为网页链接,则将资源链接确定为访问链接,并返回执行获取访问链接对应的待处理网页的步骤。在上述的实现过程中,通过在资源链接的链接类型为网页链接时,根据资源链接作为访问链接进行深度爬取,从而获得更多的资源链接。
可选地,在本申请实施例中,在获取资源请求中的资源链接之后,还包括:判断在资源类型列表中是否查找到资源链接中的文件后缀;若是,则将资源类型列表中文件后缀对应的链接类型确定资源链接的链接类型。在上述的实现过程中,通过根据资源类型列表中文件后缀对应的链接类型来确定资源链接的链接类型,从而避免了每个资源链接都通过完整的响应信息来确定链接类型,从而有效地提高了确定链接类型的速度。
可选地,在本申请实施例中,在判断在资源类型列表中是否查找到资源链接中的文件后缀之后,还包括:若在资源类型列表中没有查找到资源链接中的文件后缀,则根据资源请求对应的响应头部信息确定资源链接的链接类型。在上述的实现过程中,通过根据资源请求对应的响应头部信息确定资源链接的链接类型,从而避免了根据无法匹配到文件后缀时,确定链接类型错误的情况,有效地提高了确定资源链接的链接类型的准确率。
本申请实施例还提供了一种资源链接获取装置,包括:处理网页获取模块,用于获取访问链接对应的待处理网页;事件查找存储模块,用于查找待处理网页中所有文档节点存在的事件,并将文档节点存在的事件存储至待处理队列;事件模拟触发模块,用于使用无头浏览器以多线程的方式模拟触发待处理队列中的事件;资源链接获取模块,用于拦截所述待处理队列中的事件在触发过程中产生的资源请求,并获取资源请求中的资源链接。
可选地,在本申请实施例中,处理网页获取模块,包括:访问链接获取模块,用于获取访问链接;访问网页渲染模块,用于使用无头浏览器加载访问链接,并将访问链接对应的返回数据动态渲染为待处理网页。
可选地,在本申请实施例中,资源链接获取装置,还包括:资源链接过滤模块,用于使用预先设置的路由规则对资源链接进行过滤。
可选地,在本申请实施例中,资源链接获取装置,还包括:访问链接确定模块,用于若资源链接的链接类型为网页链接,则将资源链接确定为访问链接,并返回执行获取访问链接对应的待处理网页的步骤。
可选地,在本申请实施例中,资源链接获取装置,还包括:后缀查找判断模块,用于判断在资源类型列表中是否查找到资源链接中的文件后缀;第一类型确定模块,用于若在资源类型列表中查找到资源链接中的文件后缀,则将资源类型列表中文件后缀对应的链接类型确定资源链接的链接类型。
可选地,在本申请实施例中,资源链接获取装置,还包括:第二类型确定模块,用于若在资源类型列表中没有查找到资源链接中的文件后缀,则根据资源请求对应的响应头部信息确定资源链接的链接类型。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的资源链接获取方法的流程示意图;
图2示出的本申请实施例提供的根据资源链接后缀确定链接类型的流程示意图;
图3示出的本申请实施例提供的资源链接获取装置的结构示意图;
图4示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例提供的资源链接获取方法之前,先介绍本申请实施例中所涉及的一些概念:
无头浏览器指的是没有图形用户界面的浏览器;无头浏览器在类似于流行网络浏览器的环境中提供对网页的自动控制,但是通过命令行界面或使用网络通信来执行。
WebDriver工具是一款开源软件,WebDriver可以通过定义驱动引擎的方式来控制不同的浏览器(如Firefox,Chrome,Safari,IE),WebDriver可以打开URL与渲染出的页面进行交互;WebDriver的目标是提供一套精心设计的面向对象的应用程序接口(ApplicationProgramming Interface,API),从而更好地支持现代高级web应用的测试工作。
需要说明的是,本申请实施例提供的资源链接获取方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
在介绍本申请实施例提供的资源链接获取方法之前,先介绍该资源链接获取方法适用的应用场景,这里的应用场景包括但不限于:使用该资源链接获取方法来改进资源链接获取产品的功能,避免资源链接获取产品在获取资源链接的过程中产生的网页页面多次跳转、页面重新渲染和多次弹出新的页面等等情况,此处的资源链接获取产品包括但不限于:爬虫软件、雷达软件、资源下载软件和搜索引擎爬虫机器等等。
请参见图1示出的本申请实施例提供的资源链接获取方法的流程示意图;该资源链接获取方法的主要思路是,通过将网页中存在的事件存储至待处理队列,再触发和拦截待处理队列中的事件,有效地拦截到事件在触发过程中产生的资源请求,避免了网页页面多次跳转、页面重新渲染和多次弹出新的页面等等情况,同时也避免了这些情况带来的计算资源和带宽资源的过度消耗,从而有效地节约了计算资源和带宽资源;上述的资源链接获取方法可以包括:
步骤S110:获取访问链接对应的待处理网页。
上述步骤S110中的访问链接的获得方式有很多种,包括但不限于这几种:第一种获得方式,启动N个爬虫引擎的线程(例如启动10个爬虫引擎的线程,这10个是在配置文件中事先配置的),并初始化爬虫引擎,然后使用爬虫引擎接收其它终端设备发送的多个访问链接,此处的访问链接都是网站页面类型的链接,即能够返回网站页面的链接;然后,将访问链接的域名作为参数在事先建立的数据库中进行查询,获得该域名的连通速度,将该域名的连通速度作为访问链接的连通性的评价指标,从而预判多个访问链接的连通性;最后,将连通速度大于预设阈值的访问链接存储至文件系统、数据库或移动存储设备中;其中,预设阈值可以根据具体实际情况进行设置,例如设置为5秒、8秒或10秒等等。第二种获得方式,获取预先存储的访问链接,具体例如:从文件系统中获取访问链接,或者从数据库中获取访问链接,或者从移动存储设备中获取访问链接。
上述步骤S110中的获取访问链接对应的待处理网页的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,使用无头(Headless)浏览器加载访问链接获取待处理网页,该实施方式具体例如:获取访问链接;使用无头浏览器加载访问链接,并在加载访问链接对应的返回数据后,将访问链接对应的返回数据动态渲染为待处理网页,可以捕获并存储在动态渲染过程中产生的动态链接地址;其中,具体可以使用的无头浏览器包括:PhantomJS浏览器、无头模式的Chrome浏览器和无头模式的Firefox浏览器等等;返回数据包括但不限于:可加载执行JavaScript脚本、CSS的样式文件和图片文件等等。
第二种实施方式,使用程序控制的浏览器加载访问链接获取待处理网页,该实施方式具体例如:使用Selenium中的程序、jQuery程序或者WebDriver工具中的程序获取访问链接,并使用该程序控制浏览器加载访问链接,并将访问链接对应的返回数据动态渲染为待处理网页;其中,可以使用的浏览器包括:Microsoft Edge浏览器、Google Chrome浏览器、Mozilla Firefox浏览器、Opera浏览器、Safari浏览器和Firefox浏览器等等。
第三种实施方式,结合第一种实施方式和第二种实施方式,使用程序控制无头浏览器加载访问链接获取待处理网页,该实施方式具体例如:使用Selenium工具控制PhantomJS浏览器加载访问链接,并将访问链接对应的返回数据动态渲染为待处理网页,可以捕获并存储在动态渲染过程中产生的动态链接地址;其中,返回数据包括但不限于:可加载执行JavaScript脚本、CSS的样式文件和图片文件等等。
在步骤S110之后,执行步骤S120:查找待处理网页中所有文档节点存在的事件,并将文档节点存在的事件存储至待处理队列。
文档节点,是指文档对象模型(document object model,DOM)中的节点,因此又被简称为DOM节点,此处的DOM是指描述一个可扩展标记语言(eXtensible Markup Language,XML)文档解析结果的树型结构的内部数据模型;一个XML文档可以包括根节点、内部节点、叶子节点、备注节点等。
上述步骤S120的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,使用Python程序、Selenium工具和WebDriver工具来查找和存储文档节点存在的事件;该实施方式例如:使用Python程序中的正则表达式、XPath和BeautifulSoup程序套件来查找待处理网页中所有文档节点存在的事件,并使用WebDriver工具和Selenium工具将文档节点存在的事件存储至待处理队列。
第二种实施方式,使用JavaScript程序和jQuery程序来查找和存储文档节点存在的事件;该实施方式例如:在待处理网页动态渲染完成之后,可以使用jQuery中的选择器选择出可能存在事件的DOM节点;再然后,判断该DOM节点是否绑定有事件;若该DOM节点绑定有事件,则使用JavaScript程序提取出该DOM节点的事件,并将DOM节点的事件存储至待处理队列;其中,此处的事件包括但不限于:待处理网页中的超链接点击事件、表单点击事件、鼠标点击事件和键盘点击事件等等;上述的待处理队列可以使用链表或者数组来具体实现,待处理队列也可以是一个固定大小的循环队列。
在步骤S120之后,执行步骤S130:使用无头浏览器以多线程的方式模拟触发待处理队列中的事件。
上述的步骤S130的实施方式包括:使用Selenium工具控制启动无头浏览器,并以多个线程的方式来模拟触发待处理队列中的事件,可以使用的无头浏览器包括:PhantomJS浏览器、无头模式的Chrome浏览器和无头模式的Firefox浏览器等等。
在上述的实现过程中,通过使用无头浏览器加载和动态渲染为待处理网页,由于无头浏览器可以动态地渲染网站网页,无头浏览器是无界面的且支持程序化的集成引擎,从而更加地节省计算资源,减小了使用有图形的浏览器来加载和渲染网页导致卡顿的概率。
在步骤S130之后,执行步骤S140:拦截待处理队列中的事件在触发过程中产生的资源请求,并获取资源请求中的资源链接。
上述步骤S140的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,使用程序来进行拦截并获取资源请求中的资源链接,具体例如:使用Python程序拦截待处理队列中的事件在触发过程中产生的资源请求,并使用JavaScript脚本、jQuery和Python等程序获取资源请求中的资源链接,或者,使用Python程序中的正则表达式、XPath和BeautifulSoup程序套件来获取资源请求中的资源链接,或者,使用Node.js和puppeteer等工具来获取资源请求中的资源链接。
第二种实施方式,使用代理进程来进行拦截并获取页面请求资源请求中的资源链接,具体例如:启动代理软件,代理软件在启动后会运行至少一个代理进程,针对待处理队列中的事件在触发过程中产生的资源请求进行代理拦截,并获取资源请求中的资源链接;其中,此处的代理软件包括但不限于:easy connect软件等等;上述的针对待处理队列中的事件在触发过程中产生的资源请求进行代理拦截的方式包括:第一种代理拦截方式,全局代理拦截,具体例如:使用运行中的代理进程拦截待处理队列中的事件在触发过程中产生的资源请求,此处的代理进程既可以代理拦截无头浏览器的资源请求,也可以代理拦截其它软件进程产生的资源请求;第二中代理拦截方式,局部代理拦截,具体例如:启动无头浏览器的代理进程,并使用该无头浏览器的代理进程拦截无头浏览器产生的所有资源请求。
在获取资源请求中的资源链接之后,若判断出该资源链接的链接类型是网页链接,则可以使用爬虫程序对网页链接进行深度爬取,即以获取到的资源链接重复执行上述步骤S110至步骤S140,就可以获得更多的资源链接,具体例如:若资源链接的链接类型为网页链接,则将资源链接确定为访问链接,并返回执行步骤S110中的获取访问链接对应的待处理网页。
在上述的实现过程中,先查找待处理网页中所有文档节点存在的事件,并将文档节点存在的事件存储至待处理队列;然后,使用无头浏览器以多线程的方式模拟触发待处理队列中的事件,并拦截待处理队列中的事件在触发过程中产生的资源请求。也就是说,通过将网页中存在的事件存储至待处理队列,再触发和拦截待处理队列中的事件,有效地拦截到事件在触发过程中产生的资源请求,避免了网页页面多次跳转、页面重新渲染和多次弹出新的页面等等情况,同时也避免了这些情况带来的计算资源和带宽资源的过度消耗,从而有效地节约了计算资源和带宽资源。
请参见图2示出的本申请实施例提供的根据资源链接后缀确定链接类型的流程示意图;可选地,在获取资源请求中的资源链接之后,还可以根据具体需求对资源链接进行过滤,该实施方式可以包括:
步骤S210:使用预先设置的路由规则对资源链接进行过滤。
路由规则,是指根据业务需求关注所需要的链接,对链接进行过滤的规则,因此,此处的路由规则也可以理解为过滤规则;具体例如:若在业务需求中,需要关注后缀为html的资源链接,则可以使用后缀路由来对资源链接进行过滤,或者,若在业务需求中只关注界面内点击事件所产生的资源链接,则使用事件路由来对资源链接进行过滤。
上述步骤S210的实施方式例如:使用预先设置的后缀路由、域名路由、事件路由、正则路由和/或默认路由等等路由规则对资源链接进行过滤;若配置有路由规则的优先级,则按照配置的路由规则优先级来对资源链接进行过滤匹配。在没有配置路由规则的优先级的情况下,默认的优先级从大到小的排列为:后缀路由、域名路由、事件路由、正则路由和默认路由;其中,此处的后缀路由是指基于请求路径后缀名称来匹配资源链接的规则,当然在后缀路由匹配过程中可以使用通配符,具体例如:在后缀路由过程中,若需要明确请求链接后缀字符串如html或js,则可以通过以“*”号开头或结尾的通配符方式来过滤资源链接。上述的域名路由是指基于资源链接对应请求路径的域名来匹配资源链接地址,域名路由可以支持当前域名以及该域名下的子域名。上述的事件路由是指筛选指定触发事件产生的资源链接对应的请求地址,具体例如:根据鼠标事件(单击、双击、鼠标移入移除等)或者键盘事件(按下某一个健)来过滤资源链接,该事件的属性来源是爬虫引擎模拟触发事件后提供的。上述的正则路由是指采用正则表达式的方式匹配请求地址,该正则表达式为通用正则表达式,可以用来应对复杂的路径匹配。上述的默认路由是指,在未匹配到其它路由规则后,所有请求将都经过该路由的规则,这是一种默认(defalut)的路由模式,当未开启默认路由,且其它路由规则也均未匹配上,该资源链接对应的请求地址将被标记丢弃。
可选地,在获取资源请求中的资源链接之后,还可以对资源链接的链接类型进行分类,即确定该资源链接的链接类型的过程可以包括:
步骤S220:判断在资源类型列表中是否查找到资源链接中的文件后缀。
其中,文件后缀包括:图片文件的后缀和/或视频文件的后缀;图片文件的后缀包括:JPG、JPEG、PNG和GIF等等,视频文件的后缀包括:MP4、flv、MPG和MPEG等等。
上述步骤S220的实施方式例如:资源类型列表可以采用关系型数据库或者非关系数据库中的资源类型数据表,在数据记录不多的情况下,也可以采用Excel文件中的资源类型列表;首先,从资源链接中分割并提取出文件后缀,具体可以使用斜杠线作为分割符对资源链接字符串进行分割,然后提取出分割后的字符串数组的最后字符串,使用点作为分割符以同样的方式对最后字符串进行分割,获得文件后缀;然后在关系型数据库或者非关系数据库中的资源类型数据表中查找资源链接中的文件后缀,判断在资源类型列表中是否查找到资源链接中的文件后缀;其中,可以使用的关系型数据库例如:Mysql、PostgreSQL、Oracle和SQLSever等;可以使用的非关系型数据库包括:grakn数据库、Neo4j图数据库、Hadoop子系统HBase、MongoDB和CouchDB等。
在步骤S220之后,可以执行步骤S230:若在资源类型列表中查找到资源链接中的文件后缀,则将资源类型列表中文件后缀对应的链接类型确定资源链接的链接类型。
上述步骤S230的实施方式包括:假设资源类型列表中记录了后缀为MP4、flv、MPG或MPEG的资源链接对应的链接类型为视频链接,也记录了后缀为JPG、JPEG、PNG和GIF的资源链接对应的链接类型为图片链接,也记录了后缀为htm和HTML的资源链接对应的链接类型为网页链接,也就是说,资源类型列表中记录了文件后缀与链接类型的映射关系,可以通过文件后缀与链接类型的映射关系来确定出具体的文件后缀对应的链接类型;若在资源类型列表中查找到资源链接中的文件后缀(例如MP4),则将资源类型列表中文件后缀对应的链接类型(例如视频链接)确定资源链接的链接类型(例如视频链接)。
在步骤S220之后,还可以执行步骤S240:若在资源类型列表中没有查找到资源链接中的文件后缀,则根据资源请求对应的响应头部信息确定资源链接的链接类型。
上述步骤S240的实施方式例如:若在资源类型列表中没有查找到资源链接中的文件后缀,则电子设备向该资源链接对应的服务器发送该资源链接对应的资源请求,以使该服务器根据该资源请求返回对应的响应头部信息;然后,电子设备接收该服务器返回的响应头部信息,并根据该资源请求对应的响应头部信息确定资源链接的链接类型。在上述的实现过程中,通过使用预先设置的路由规则对资源链接进行过滤,有效地过滤掉资源链接中不相关的链接,同时基于不同的路由分发规则进行链接分发,从而有效地提高了对资源链接进行过滤的灵活性。
可选地,在确定资源链接的链接类型之后,还可以根据资源链接的链接类型来进行相应的操作,该实施方式包括:若资源链接的链接类型为图片链接,则根据资源链接下载对应的文件,获得图片文件;若资源链接的链接类型为视频链接,则根据资源链接下载对应的文件,获得视频文件;若资源链接的链接类型为网页链接,则使用爬虫程序对网页链接进行深度爬取,即以获取到的资源链接重复执行上述步骤S110至步骤S140,就可以获得更多的资源链接。在上述的实现过程中,通过在资源链接的链接类型为网页链接时,根据资源链接作为访问链接进行深度爬取,从而获得更多的资源链接。
请参见图3示出的本申请实施例提供的资源链接获取装置的结构示意图;本申请实施例提供了一种资源链接获取装置300,包括:
处理网页获取模块310,用于获取访问链接对应的待处理网页。
事件查找存储模块320,用于查找待处理网页中所有文档节点存在的事件,并将文档节点存在的事件存储至待处理队列。
事件模拟触发模块330,用于使用无头浏览器以多线程的方式模拟触发待处理队列中的事件。
资源链接获取模块340,用于拦截待处理队列中的事件在触发过程中产生的资源请求,并获取资源请求中的资源链接。
可选地,在本申请实施例中,处理网页获取模块,包括:
访问链接获取模块,用于获取访问链接。
访问网页渲染模块,用于使用无头浏览器加载访问链接,并将访问链接对应的返回数据动态渲染为待处理网页。
可选地,在本申请实施例中,资源链接获取模块,具体可以用于:针对待处理队列中的事件在触发过程中产生的资源请求进行代理拦截,并获取资源请求中的资源链接。
可选地,在本申请实施例中,资源链接获取装置,还包括:
资源链接过滤模块,用于使用预先设置的路由规则对资源链接进行过滤。
可选地,在本申请实施例中,该资源链接获取装置,还包括:
访问链接确定模块,用于若资源链接的链接类型为网页链接,则将资源链接确定为访问链接,并返回执行获取访问链接对应的待处理网页的步骤。
可选地,在本申请实施例中,资源链接获取装置,还可以包括:
后缀查找判断模块,用于判断在资源类型列表中是否查找到资源链接中的文件后缀。
第一类型确定模块,用于若在资源类型列表中查找到资源链接中的文件后缀,则将资源类型列表中文件后缀对应的链接类型确定资源链接的链接类型。
可选地,在本申请实施例中,该资源链接获取装置,还可以包括:
第二类型确定模块,用于若在资源类型列表中没有查找到资源链接中的文件后缀,则根据资源请求对应的响应头部信息确定资源链接的链接类型。
应理解的是,该装置与上述的资源链接获取方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400,包括:处理器410和存储器420,存储器420存储有处理器410可执行的机器可读指令,机器可读指令被处理器410执行时执行如上的方法。
本申请实施例还提供了一种存储介质430,该存储介质430上存储有计算机程序,该计算机程序被处理器410运行时执行如上的方法。
其中,存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以使用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (9)

1.一种资源链接获取方法,其特征在于,包括:
获取访问链接对应的待处理网页;
查找所述待处理网页中所有文档节点存在的事件,并将所述文档节点存在的事件存储至待处理队列;
使用无头浏览器以多线程的方式模拟触发所述待处理队列中的事件;
拦截所述待处理队列中的事件在触发过程中产生的资源请求,并获取所述资源请求中的资源链接;
其中,所述拦截所述待处理队列中的事件在触发过程中产生的资源请求,并获取所述资源请求中的资源链接,包括:使用运行中的代理进程以全局代理方式或者局部代理方式,针对所述待处理队列中的事件在触发过程中产生的资源请求进行代理拦截,并获取所述资源请求中的资源链接。
2.根据权利要求1所述的方法,其特征在于,所述获取访问链接对应的待处理网页,包括:
获取所述访问链接;
使用所述无头浏览器加载所述访问链接,并将所述访问链接对应的返回数据动态渲染为所述待处理网页。
3.根据权利要求1所述的方法,其特征在于,在所述获取所述资源请求中的资源链接之后,还包括:
使用预先设置的路由规则对所述资源链接进行过滤。
4.根据权利要求1所述的方法,其特征在于,在所述获取所述资源请求中的资源链接之后,还包括:
若所述资源链接的链接类型为网页链接,则将所述资源链接确定为所述访问链接,并返回执行所述获取访问链接对应的待处理网页的步骤。
5.根据权利要求1所述的方法,其特征在于,在所述获取所述资源请求中的资源链接之后,还包括:
判断在资源类型列表中是否查找到所述资源链接中的文件后缀;
若是,则将所述资源类型列表中所述文件后缀对应的链接类型确定所述资源链接的链接类型。
6.根据权利要求5所述的方法,其特征在于,在所述判断在资源类型列表中是否查找到所述资源链接中的文件后缀之后,还包括:
若在所述资源类型列表中没有查找到所述资源链接中的文件后缀,则根据所述资源请求对应的响应头部信息确定所述资源链接的链接类型。
7.一种资源链接获取装置,其特征在于,包括:
处理网页获取模块,用于获取访问链接对应的待处理网页;
事件查找存储模块,用于查找所述待处理网页中所有文档节点存在的事件,并将所述文档节点存在的事件存储至待处理队列;
事件模拟触发模块,用于使用无头浏览器以多线程的方式模拟触发所述待处理队列中的事件;
资源链接获取模块,用于拦截所述待处理队列中的事件在触发过程中产生的资源请求,并获取所述资源请求中的资源链接;
其中,所述拦截所述待处理队列中的事件在触发过程中产生的资源请求,并获取所述资源请求中的资源链接,包括:使用运行中的代理进程以全局代理方式或者局部代理方式,针对所述待处理队列中的事件在触发过程中产生的资源请求进行代理拦截,并获取所述资源请求中的资源链接。
8.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的方法。
9.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6任一所述的方法。
CN202011611421.XA 2020-12-29 2020-12-29 一种资源链接获取方法、装置、电子设备及存储介质 Active CN112632358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011611421.XA CN112632358B (zh) 2020-12-29 2020-12-29 一种资源链接获取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011611421.XA CN112632358B (zh) 2020-12-29 2020-12-29 一种资源链接获取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112632358A CN112632358A (zh) 2021-04-09
CN112632358B true CN112632358B (zh) 2021-09-14

Family

ID=75287016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011611421.XA Active CN112632358B (zh) 2020-12-29 2020-12-29 一种资源链接获取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112632358B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656674B (zh) * 2021-08-30 2023-06-27 山谷网安科技股份有限公司 关于网站爬虫中点击类型超链接的自动化处理方法及装置
CN113971234B (zh) * 2021-10-27 2023-03-10 湖北天融信网络安全技术有限公司 一种数据爬取方法、装置、电子设备及存储介质
CN115459946A (zh) * 2022-08-02 2022-12-09 广州市玄武无线科技股份有限公司 一种异常网页的识别方法、装置、设备和计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504649A (zh) * 2008-11-14 2009-08-12 北京搜狗科技发展有限公司 一种页面资源的处理方法及装置
CN101615184A (zh) * 2008-12-30 2009-12-30 北京搜狗科技发展有限公司 一种识别网页相关资源类型的方法及装置
CN104408204A (zh) * 2014-12-18 2015-03-11 北京国双科技有限公司 网页页面链接地址的获取方法和装置
CN106354843A (zh) * 2016-08-31 2017-01-25 虎扑(上海)文化传播股份有限公司 网络爬虫系统以及方法
CN111291288A (zh) * 2020-01-22 2020-06-16 奇安信科技集团股份有限公司 网页链接抽取方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754854A (en) * 1994-11-14 1998-05-19 Microsoft Corporation Method and system for providing a group of parallel resources as a proxy for a single shared resource
CN101120550A (zh) * 2005-01-07 2008-02-06 松下电器产业株式会社 通信系统、资源管理设备和方法以及通信管理设备和方法
CN103577427A (zh) * 2012-07-25 2014-02-12 中国移动通信集团公司 基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器
CN103177115B (zh) * 2013-04-03 2016-06-29 北京奇虎科技有限公司 一种提取网页页面链接的方法和装置
CN105279215A (zh) * 2014-06-10 2016-01-27 中兴通讯股份有限公司 资源的下载方法及装置
CN106649567A (zh) * 2016-11-15 2017-05-10 杭州安恒信息技术有限公司 一种基于浏览器内核的网络爬虫系统
CN107729385A (zh) * 2017-09-19 2018-02-23 杭州安恒信息技术有限公司 一种采集动态网页完整数据内容的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504649A (zh) * 2008-11-14 2009-08-12 北京搜狗科技发展有限公司 一种页面资源的处理方法及装置
CN101615184A (zh) * 2008-12-30 2009-12-30 北京搜狗科技发展有限公司 一种识别网页相关资源类型的方法及装置
CN104408204A (zh) * 2014-12-18 2015-03-11 北京国双科技有限公司 网页页面链接地址的获取方法和装置
CN106354843A (zh) * 2016-08-31 2017-01-25 虎扑(上海)文化传播股份有限公司 网络爬虫系统以及方法
CN111291288A (zh) * 2020-01-22 2020-06-16 奇安信科技集团股份有限公司 网页链接抽取方法及系统

Also Published As

Publication number Publication date
CN112632358A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112632358B (zh) 一种资源链接获取方法、装置、电子设备及存储介质
US8255873B2 (en) Handling external content in web applications
US10291738B1 (en) Speculative prefetch of resources across page loads
US9641591B1 (en) Modifying web content at a client
US9509764B1 (en) Updating cached web content
US9401949B1 (en) Client web content cache purge
US8443346B2 (en) Server evaluation of client-side script
US20090287641A1 (en) Method and system for crawling the world wide web
JP6129402B2 (ja) ページスナップショットの作成
CN112637361B (zh) 一种页面代理方法、装置、电子设备及存储介质
US10169005B2 (en) Consolidating and reusing portal information
CN104572777B (zh) 基于UIWebView组件的网页加载方法及装置
US9588945B2 (en) Comparing webpage elements having asynchronous functionality
CN107147645B (zh) 网络安全数据的获取方法及装置
AU2008355023A1 (en) Generating sitemaps
CN112612943A (zh) 一种基于异步处理框架的具有自动测试功能的数据爬取方法
CN107015986B (zh) 一种爬虫爬取网页的方法及装置
CN113076501A (zh) 一种页面处理方法、存储介质及设备
US10599740B1 (en) Program code streaming
CN111753233B (zh) 第三方h5页面加载的方法、装置及计算机可读存储介质
CN104750693B (zh) 一种打点的实现方法和装置
CN113934954A (zh) 应用程序中的网页首屏渲染方法及装置
CN112395521B (zh) 页面处理方法、装置、电子设备及计算机可读存储介质
US11017032B1 (en) Document recovery utilizing serialized data
KR20160132854A (ko) 콘텐츠의 캡처를 통한 자산 수집 서비스 제공 기법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant