CN110929184A - 链接的显示方法、系统、存储介质和处理器 - Google Patents
链接的显示方法、系统、存储介质和处理器 Download PDFInfo
- Publication number
- CN110929184A CN110929184A CN201811092149.1A CN201811092149A CN110929184A CN 110929184 A CN110929184 A CN 110929184A CN 201811092149 A CN201811092149 A CN 201811092149A CN 110929184 A CN110929184 A CN 110929184A
- Authority
- CN
- China
- Prior art keywords
- link
- target
- links
- webpage
- html source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 238000005516 engineering process Methods 0.000 claims description 15
- 239000003086 colorant Substances 0.000 claims description 5
- 230000008719 thickening Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种链接的显示方法,包括:获取目标网页对应的目标链接,所述目标链接是根据预设的抽取条件从所述目标网页的超文本引用中抽取的;获取所述目标网页对应的HTML源码;将所述HTML源码中与所述目标链接对应的链接进行区别显示。上述的显示方法,将获取的目标链接在与所述目标网页对应的HTML源码中进行区别显示。由于能够直观地看到哪些链接被抽取,能够有效避免当对当前网页中的链接抽取完成时,只能确定当前网页抽取完成,并不能显示当前网页中哪些链接被抽取到的问题。
Description
技术领域
本发明涉及数据显示技术领域,尤其涉及一种链接的显示方法、系统、存储介质和处理器。
背景技术
如今,为了实现对网站的运行数据进行分析或者网站的质量进行监控,采用爬虫技术抽取网站网页中超文本引用href(Hypertext Reference)中的链接。爬虫技术是一种按照一定的规则,自动地抓取网页链接的程序或者脚本。
发明人对现有的采用爬虫技术抽取网页中链接的过程进行研究发现,当对当前网页中的链接抽取完成时,只能确定当前网页抽取完成,并不能显示当前网页中哪些链接被抽取到。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种链接的显示方法、系统、存储介质和处理器,具体的方案如下:
一种链接的显示方法,包括:
获取目标网页对应的目标链接,所述目标链接是根据预设的抽取条件从所述目标网页的超文本引用中抽取的;
获取所述目标网页对应的HTML源码;
将所述HTML源码中与所述目标链接对应的链接进行区别显示。
上述的方法,可选的,获取目标网页对应的目标链接,包括:
判断目标网页对应的目标链接是否抽取完成;
若是,则获取所述目标链接;
若否,则采用爬虫技术根据所述预设的抽取条件,从所述目标网页的超文本引用中抽取与所述目标网页对应的目标链接。
上述的方法,可选的,在获取所述目标网页的目标链接后,所述方法还包括:
获取所述HTML源码的预设基础节点下的基础链接;
判断所述目标链接是否与所述基础链接相同;
如果相同,则确定所述目标链接为基础链接;和/或,
如果不同,则确定所述目标链接为相对链接,并将所述相对链接转换为绝对链接。
上述的方法,可选的,将所述相对链接转换为绝对链接,包括:
判断所述相对链接中是否存在锚点;
如果存在,则删除所述相对链接中的锚点,并将所述基础链接与删除锚点后的相对链接按顺序进行拼接,得到绝对链接;和/或,
如果不存在,则将所述基础链接与相对链接按顺序进行拼接,得到绝对链接。
上述的方法,可选的,将所述HTML源码中与所述目标链接对应的链接进行区别显示,包括:
将所述HTML源码中与所述目标链接对应的链接采用预设颜色进行区别显示;和/或,
将所述HTML源码中与所述目标链接对应的链接所在位置的底色采用预设颜色进行区别显示;和/或,
将所述HTML源码中与所述目标链接对应的链接采用字体加粗进行区别显示。
上述的方法,可选的,还包括:
将所述目标链接存储到预设数据库中。
一种链接的显示系统,包括:
第一获取模块,用于获取目标网页对应的目标链接,所述目标链接是根据预设的抽取条件从所述目标网页的超文本引用中抽取的;
第二获取模块,用于获取所述目标网页对应的HTML源码;
显示模块,用于将所述HTML源码中与所述目标链接对应的链接进行区别显示。
上述的系统,可选的,所述第一获取模块包括:
判断单元,用于判断目标网页对应的目标链接是否抽取完成;
获取单元,用于若是,则获取所述目标链接;
抽取单元,用于若否,则采用爬虫技术根据所述预设的抽取条件,从所述目标网页的超文本引用中抽取与所述目标网页对应的目标链接。
一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行上述的链接的显示方法。
一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行上述的链接的显示方法。
借由上述技术方案,本发明公开了一种链接的显示方法,包括:获取根据预设的抽取条件从目标网页的超文本引用中抽取的目标链接,并且获取所述目标网页对应的HTML源码,将所述HTML源码中与所述目标链接对应的链接进行区别显示。上述的链接的显示方法,将获取的目标链接在与所述目标网页对应的HTML源码中进行区别显示。由于能够直观地看到哪些链接被抽取,能够有效避免当对当前网页中的链接抽取完成时,只能确定当前网页抽取完成,并不能显示当前网页中哪些链接被抽取到的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例公开的一种链接的显示方法流程图;
图2示出了本申请实施例公开的一种链接的显示方法又一方法流程图;
图3示出了本申请实施例公开的一种链接的显示系统结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明提供了一种链接的显示方法,所述方法应用在爬虫抽取网页中超文本引用href(Hypertext Reference)中的链接的过程中,依据抽取结果实现对网站的运行数据进行分析或者网站的监控。所述显示方法的执行流程如图1所示,包括步骤:
S101、获取目标网页对应的目标链接,所述目标链接是根据预设的抽取条件从所述目标网页的超文本引用中抽取的;
本发明实施例中,所述目标网页为需要进行链接抽取的网页,所述目标网页对应的目标链接至少为一个。其中,所述目标链接指统一资源定位符URL。其中,抽取过程直到满足一定停止条件才会停止抽取,所述停止条件可以为检测到所述超文本引用的结束标志符、接收到停止抓取指令或者抓取的时间满足一定的时间阈值等条件,所述预设的过滤条件是预先设定的,用于对所述目标网页中的各个链接进行筛选的,已选出所述各个目标链接。
S102、获取所述目标网页对应的HTML源码;
本发明实施例中,所述HTML源码为与所述目标网页对应的HTML源代码,所述HTML源码中包含所述各个目标链接,可以通过执行具体的程序语句或者触发快捷键的方式获取与所述目标网页对应的HTML源码。
S103、将所述HTML源码中与所述目标链接对应的链接进行区别显示。
本发明实施例中,遍历所述HTML源码,采用字符串匹配的方式,查找所述HTML源码中包含的与所述目标链接对应的字符串相同或者相似度达到预设的相似度阈值的源码段,将对应的源码段通过添加程序语句或者其它的优选方式进行区别显示。
其中,所述区别显示的方式可以为:将所述HTML源码中与所述目标链接对应的链接采用预设颜色进行区别显示;或者,将所述HTML源码中与所述目标链接对应的链接所在位置的底色采用预设颜色进行区别显示;或者,将所述HTML源码中与所述目标链接对应的链接采用字体加粗进行区别显示方式。具体可以根据需要从以上区别显示方式中选择一种或者几种进行区别显示。
本发明公开了一种链接的显示方法,包括:获取根据预设的抽取条件从目标网页的超文本引用中抽取的目标链接,并且获取所述目标网页对应的HTML源码,将所述HTML源码中与所述目标链接对应的链接进行区别显示。上述的链接的显示方法,将获取的目标链接在与所述目标网页对应的HTML源码中进行区别显示。由于能够直观地看到哪些链接被抽取,能够有效避免当对当前网页中的链接抽取完成时,只能确定当前网页抽取完成,并不能显示当前网页中哪些链接被抽取到的问题。
本发明实施例中,考虑到目标链接可以在线进行抽取,也可以直接使用已经抽取完毕的目标链接,获取目标网页对应的目标链接的方法流程如图2所示,包括步骤:
S201、判断目标网页对应的目标链接是否抽取完成;
本发明实施例中,判断所述目标网页对应的目标链接是否抽取完成,可以判断预设的存储介质中是否存在所述目标链接或者是否存在抽取完成的标识的方式进行判断,其中,所述存储介质可以为缓存、数据库或者其它优选的存储介质。
S202、若是,则获取所述目标链接;
本发明实施例中,如果目标链接已经被抽取完成,则直接获取所述目标链接。
S203、若否,则采用爬虫技术根据所述预设的抽取条件,从所述目标网页的超文本引用中抽取与所述目标网页对应的目标链接。
本发明实施例中,如果目标链接未被抽取完成,可以依据所述预设的抽取条件,采用爬虫技术,遍历所述目标网页,抽取与所述目标网页对应的超文本引用href(HypertextReference)中各个目标链接。其中,所述预设的抽取条件时预先依据具体的情况进行设定的。
需要说明的是,本发明实施例提供的链接显示方法,既可以用于对已经抽取完成的链接进行区别显示,也可以根据预设的抽取条件在线进行目标链接抽取,然后进行区别显示。具体可以根据不同应用场景的实际需求,进行选择使用。
上述的抽取过程中,优选的,将抽取到的每一个目标链接存储到预设的数据库中,其中,所述预设的数据库可以为队列、数组或者其他优选的数据库形式。将所述各个目标存储到所述预设的数据库中的目的不但可以实现对每一网页抽取链接结果的保存,而且还可以用于后续对所述各个目标链接的直接获取。
本发明实施例中,在获取所述目标网页的目标链接后,所述方法还包括步骤:
S204、获取所述HTML源码的预设基础节点下的基础链接;
本发明实施例中,本发明实施例中,优选的,所述预设的基础节点可以为html/head/base[@href],在所述预设的基础节点下获取所述基础链接。基础链接可以为一个网站的主页对应的网址。
S205、判断所述目标链接是否与所述基础链接相同;
本发明实施例中,所述目标链接中可能会存在基础链接,因此,需要判断每一个目标链接是否与所述基础链接相同。
S206、如果相同,则确定所述目标链接为基础链接;
本发明实施例中,如果目标链接和基础链接相同,则确定该目标链接为基础链接。
S207、如果不同,则确定所述目标链接为相对链接,判断所述相对链接中是否存在锚点;。
本发明实施例中,如果目标链接和基础链接不同,则确定所述目标链接为相对链接,遍历所述相对链接,判断所述相对链接中是否存在锚点。其中,所述锚点是超级链接的一种,用于对所述相对链接设置标记。
S208、如果存在,则删除所述相对链接中的锚点,并将所述基础链接与删除锚点后的相对链接按顺序进行拼接,得到绝对链接;
本发明实施例中,当所述相对链接中存在锚点时,将所述相对链接中的锚点删除,并将所述基础链接与删除锚点后的相对链接按顺序进行拼接,得到绝对链接。
S209、如果不存在,则将所述基础链接与相对链接按顺序进行拼接,得到绝对链接。
本发明实施例中,当所述相对链接中不存在锚点时,则将所述基础链接与相对链接按顺序进行拼接,得到绝对链接,举例说明,若基础链接为:http://www.baidu.com,相对链接为:/news/1242.html,拼接后的绝对链接为:http://www.baidu.com/news/1242.html。
本发明实施例中,与所述链接的显示方法相对应的,本发明实施例中,还提供了一种链接的显示系统,所述显示系统的结构框图如图3所示,包括:
第一获取模块301,第二获取模块302和显示模块303。
其中,
所述第一获取模块301,用于获取目标网页对应的目标链接,所述目标链接是根据预设的抽取条件从所述目标网页的超文本引用中抽取的;
所述第二获取模块302,用于获取所述目标网页对应的HTML源码;
所述显示模块303,用于将所述HTML源码中与所述目标链接对应的链接进行区别显示。
本发明公开了一种链接的显示系统,包括:获取根据预设的抽取条件从目标网页的超文本引用中抽取的目标链接,并且获取所述目标网页对应的HTML源码,将所述HTML源码中与所述目标链接对应的链接进行区别显示。上述的链接的显示系统,将获取的目标链接在与所述目标网页对应的HTML源码中进行区别显示。由于能够直观地看到哪些链接被抽取,能够有效避免当对当前网页中的链接抽取完成时,只能确定当前网页抽取完成,并不能显示当前网页中哪些链接被抽取到的问题。
本发明实施例中,所述第一获取模块301包括:
判断单元304,获取单元305和抽取单元306。
其中,
所述判断单元304,用于判断目标网页对应的目标链接是否抽取完成;
所述获取单元305,用于若是,则获取所述目标链接;
所述抽取单元306,用于若否,则采用爬虫技术根据所述预设的抽取条件,从所述目标网页的超文本引用中抽取与所述目标网页对应的目标链接。
所述链接的显示系统包括处理器和存储器,上述第一获取模块、第二获取模块和显示模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高生成SQL脚本数据插入的速度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述链接的显示方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述链接的显示方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取依据预设的过滤条件进行过滤得到的与目标网页对应的各个目标链接;
获取目标网页对应的目标链接,所述目标链接是根据预设的抽取条件从所述目标网页的超文本引用中抽取的;
获取所述目标网页对应的HTML源码;
将所述HTML源码中与所述目标链接对应的链接进行区别显示。
上述的方法,可选的,获取目标网页对应的目标链接,包括:
判断目标网页对应的目标链接是否抽取完成;
若是,则获取所述目标链接;
若否,则采用爬虫技术根据所述预设的抽取条件,从所述目标网页的超文本引用中抽取与所述目标网页对应的目标链接。
上述的方法,可选的,在获取所述目标网页的目标链接后,所述方法还包括:
获取所述HTML源码的预设基础节点下的基础链接;
判断所述目标链接是否与所述基础链接相同;
如果相同,则确定所述目标链接为基础链接;和/或,
如果不同,则确定所述目标链接为相对链接,并将所述相对链接转换为绝对链接。
上述的方法,可选的,将所述相对链接转换为绝对链接,包括:
判断所述相对链接中是否存在锚点;
如果存在,则删除所述相对链接中的锚点,并将所述基础链接与删除锚点后的相对链接按顺序进行拼接,得到绝对链接;和/或,
如果不存在,则将所述基础链接与相对链接按顺序进行拼接,得到绝对链接。
上述的方法,可选的,将所述HTML源码中与所述目标链接对应的链接进行区别显示,包括:
将所述HTML源码中与所述目标链接对应的链接采用预设颜色进行区别显示;和/或,
将所述HTML源码中与所述目标链接对应的链接所在位置的底色采用预设颜色进行区别显示;和/或,
将所述HTML源码中与所述目标链接对应的链接采用字体加粗进行区别显示。
上述的方法,可选的,还包括:
将所述目标链接存储到预设数据库中。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取目标网页对应的目标链接,所述目标链接是根据预设的抽取条件从所述目标网页的超文本引用中抽取的;
获取所述目标网页对应的HTML源码;
将所述HTML源码中与所述目标链接对应的链接进行区别显示。
上述的方法,可选的,获取目标网页对应的目标链接,包括:
判断目标网页对应的目标链接是否抽取完成;
若是,则获取所述目标链接;
若否,则采用爬虫技术根据所述预设的抽取条件,从所述目标网页的超文本引用中抽取与所述目标网页对应的目标链接。
上述的方法,可选的,在获取所述目标网页的目标链接后,所述方法还包括:
获取所述HTML源码的预设基础节点下的基础链接;
判断所述目标链接是否与所述基础链接相同;
如果相同,则确定所述目标链接为基础链接;和/或,
如果不同,则确定所述目标链接为相对链接,并将所述相对链接转换为绝对链接。
上述的方法,可选的,将所述相对链接转换为绝对链接,包括:
判断所述相对链接中是否存在锚点;
如果存在,则删除所述相对链接中的锚点,并将所述基础链接与删除锚点后的相对链接按顺序进行拼接,得到绝对链接;和/或,
如果不存在,则将所述基础链接与相对链接按顺序进行拼接,得到绝对链接。
上述的方法,可选的,将所述HTML源码中与所述目标链接对应的链接进行区别显示,包括:
将所述HTML源码中与所述目标链接对应的链接采用预设颜色进行区别显示;和/或,
将所述HTML源码中与所述目标链接对应的链接所在位置的底色采用预设颜色进行区别显示;和/或,
将所述HTML源码中与所述目标链接对应的链接采用字体加粗进行区别显示。
上述的方法,可选的,还包括:
将所述目标链接存储到预设数据库中。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种链接的显示方法,其特征在于,包括:
获取目标网页对应的目标链接,所述目标链接是根据预设的抽取条件从所述目标网页的超文本引用中抽取的;
获取所述目标网页对应的HTML源码;
将所述HTML源码中与所述目标链接对应的链接进行区别显示。
2.根据权利要求1所述的方法,其特征在于,获取目标网页对应的目标链接,包括:
判断目标网页对应的目标链接是否抽取完成;
若是,则获取所述目标链接;
若否,则采用爬虫技术根据所述预设的抽取条件,从所述目标网页的超文本引用中抽取与所述目标网页对应的目标链接。
3.根据权利要求1所述的方法,其特征在于,在获取所述目标网页的目标链接后,所述方法还包括:
获取所述HTML源码的预设基础节点下的基础链接;
判断所述目标链接是否与所述基础链接相同;
如果相同,则确定所述目标链接为基础链接;和/或,
如果不同,则确定所述目标链接为相对链接,并将所述相对链接转换为绝对链接。
4.根据权利要求3所述的方法,其特征在于,将所述相对链接转换为绝对链接,包括:
判断所述相对链接中是否存在锚点;
如果存在,则删除所述相对链接中的锚点,并将所述基础链接与删除锚点后的相对链接按顺序进行拼接,得到绝对链接;和/或,
如果不存在,则将所述基础链接与所述相对链接按顺序进行拼接,得到绝对链接。
5.根据权利要求1所述的方法,其特征在于,将所述HTML源码中与所述目标链接对应的链接进行区别显示,包括:
将所述HTML源码中与所述目标链接对应的链接采用预设颜色进行区别显示;和/或,
将所述HTML源码中与所述目标链接对应的链接所在位置的底色采用预设颜色进行区别显示;和/或,
将所述HTML源码中与所述目标链接对应的链接采用字体加粗进行区别显示。
6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:
将所述目标链接存储到预设数据库中。
7.一种链接的显示系统,其特征在于,包括:
第一获取模块,用于获取目标网页对应的目标链接,所述目标链接是根据预设的抽取条件从所述目标网页的超文本引用中抽取的;
第二获取模块,用于获取所述目标网页对应的HTML源码;
显示模块,用于将所述HTML源码中与所述目标链接对应的链接进行区别显示。
8.根据权利要求7所述的系统,其特征在于,所述第一获取模块包括:
判断单元,用于判断目标网页对应的目标链接是否抽取完成;
获取单元,用于若是,则获取所述目标链接;
抽取单元,用于若否,则采用爬虫技术根据所述预设的抽取条件,从所述目标网页的超文本引用中抽取与所述目标网页对应的目标链接。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至6中任意一项所述的链接的显示方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的链接的显示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811092149.1A CN110929184A (zh) | 2018-09-19 | 2018-09-19 | 链接的显示方法、系统、存储介质和处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811092149.1A CN110929184A (zh) | 2018-09-19 | 2018-09-19 | 链接的显示方法、系统、存储介质和处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110929184A true CN110929184A (zh) | 2020-03-27 |
Family
ID=69855067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811092149.1A Pending CN110929184A (zh) | 2018-09-19 | 2018-09-19 | 链接的显示方法、系统、存储介质和处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929184A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116070052A (zh) * | 2023-01-28 | 2023-05-05 | 爱集微咨询(厦门)有限公司 | 界面数据传输方法、装置、终端及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100299589A1 (en) * | 2009-05-19 | 2010-11-25 | Studio Ousia Inc. | Keyword display method and keyword display system |
CN103092937A (zh) * | 2013-01-08 | 2013-05-08 | 合一网络技术(北京)有限公司 | 可视化网页收录检测方法 |
-
2018
- 2018-09-19 CN CN201811092149.1A patent/CN110929184A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100299589A1 (en) * | 2009-05-19 | 2010-11-25 | Studio Ousia Inc. | Keyword display method and keyword display system |
CN103092937A (zh) * | 2013-01-08 | 2013-05-08 | 合一网络技术(北京)有限公司 | 可视化网页收录检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116070052A (zh) * | 2023-01-28 | 2023-05-05 | 爱集微咨询(厦门)有限公司 | 界面数据传输方法、装置、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020339B (zh) | 基于无埋点的网页数据采集方法及装置 | |
CN109376291B (zh) | 一种基于网络爬虫的网站指纹信息扫描的方法及装置 | |
CN108256888B (zh) | 落地页的获取方法、网站服务器以及网络广告监测系统 | |
CN109684571B (zh) | 一种数据采集方法及装置、存储介质 | |
CN107015986B (zh) | 一种爬虫爬取网页的方法及装置 | |
CN106933887B (zh) | 一种数据可视化方法及装置 | |
CN109428776B (zh) | 一种网站流量的监控方法及装置 | |
CN109598526B (zh) | 媒体贡献的分析方法及装置 | |
CN109582883B (zh) | 栏目页的确定方法和装置 | |
CN107180194B (zh) | 基于视觉分析系统进行漏洞检测的方法及装置 | |
CN109558548B (zh) | 一种消除css样式冗余的方法及相关产品 | |
CN105354490B (zh) | 一种处理被劫持浏览器的方法及设备 | |
CN109600272B (zh) | 爬虫检测的方法及装置 | |
CN108363711B (zh) | 一种网页中的暗链的检测方法和装置 | |
CN110929184A (zh) | 链接的显示方法、系统、存储介质和处理器 | |
CN104750604A (zh) | 浏览器兼容性测试案例的生成方法和装置 | |
EP3446236A1 (en) | Method and system for providing additional information relating to primary information | |
CN109587198B (zh) | 图文信息推送方法及装置 | |
CN110708270B (zh) | 异常链接检测方法以及装置 | |
CN112579947A (zh) | 网页元素图的截取方法、装置及电子设备 | |
CN115297042A (zh) | 检测不同网络下网页一致性的方法及相关设备 | |
CN110826007B (zh) | 栏目更新日期确定方法、装置、设备及可读存储介质 | |
CN110020073B (zh) | 一种直播网页爬取方法及装置 | |
CN106997353B (zh) | 网页改版的监控方法及装置 | |
CN110968821A (zh) | 一种网址处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |