CN103793516B - 网址图标的获取方法和获取装置 - Google Patents

网址图标的获取方法和获取装置 Download PDF

Info

Publication number
CN103793516B
CN103793516B CN201410048314.9A CN201410048314A CN103793516B CN 103793516 B CN103793516 B CN 103793516B CN 201410048314 A CN201410048314 A CN 201410048314A CN 103793516 B CN103793516 B CN 103793516B
Authority
CN
China
Prior art keywords
icon
address
network address
web
page contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410048314.9A
Other languages
English (en)
Other versions
CN103793516A (zh
Inventor
陈浩然
魏明伟
杨小珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410048314.9A priority Critical patent/CN103793516B/zh
Publication of CN103793516A publication Critical patent/CN103793516A/zh
Application granted granted Critical
Publication of CN103793516B publication Critical patent/CN103793516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网址图标的自动获取方法和自动获取装置。所述方法包括:获取待匹配图标的网址;根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作。本发明实现了基于图标网页内容自动提取网址图标的方案,解决了通过手工的方式来维护网址与对应的网址图标带来的手工维护成本大,效率低,对新建的网址与对应图标之间的映射关系更新不及时,系统实时性差的技术问题。

Description

网址图标的获取方法和获取装置
技术领域
本发明实施例涉及通信技术和数据处理领域,尤其涉及一种网址图标的获取方法和获取装置。
背景技术
随着互联网上网页站点的不断增加,越来越多的人们将获取网页站点的方式从传统的通过搜索获取转向通过导航网站的导航网页获取。所谓导航网站,就是一个集合较多网址,并按照一定条件进行分类的一种网站。导航网站方便用户快速找到自己需要的网站,而不用去记住各类网站的网址,就可以直接进到所需的网页站点。在图1中示出了一个现有技术中常用导航网站的示意图。如图1所示,导航网站中包括了系统推荐的和/或用户自定义添加的多个网站的网站名称,当用户需要访问一个网站时,只需在导航网站中点击对应的网站名称,即可快速打开对应的网址。另外,为了增加网站的辨识度,便于用户阅读和查找,导航网站中的网址还会同时以图标的形式表示出来,这些图标上显示了对应网站的标识或者LOGO(徽标)图片等,方便用户一目了然的找到自己想要访问的网站。
为了实现网址名称与网址图标的一并显示,需要预先存储并实时维护网址与网址图标的对应关系。
现有技术中,导航网站在出现网址图标变化,或用户添加新的网址时,均需要进行图标的更新维护。例如,当用户向导航网站输入待添加网址后,系统根据网址在预存的网址图标映射表中进行正则匹配或字符串匹配的方法进行查询,找到系统中网址对应的图标,从而添加到导航网站的网页中进行显示。但是,在现有技术中,是通过手工的方式来维护网址图标映射表的,其主要缺陷是:手工维护成本大,效率低;对新建的网址与对应图标之间的映射关系更新不及时,系统实时性差。
发明内容
有鉴于此,本发明实施例提供一种网址图标的获取方法和获取装置,解决了网址与对应的网址图标的维护成本大,效率低,更新不及时的问题。
在第一方面,本发明实施例提供了一种网址图标的获取方法,包括:
获取待匹配图标的网址;
根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作。
在第二方面,本发明实施例提供了一种网址图标的获取装置,包括:
网址获取单元,用于获取待匹配图标的网址;
网址图标提取单元,用于根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作。
本发明实施例通过获取待匹配图标的网址,根据所述网址获取对应的图标网页内容,从所述图标网页内容中提取与所述网址对应的网址图标的技术手段,该技术方案能够从网页内容中自动提取网址图标,在大大减少了在维护网址图标映射表过程中人工参与的同时,实现了网址与对应的网址图标的匹配过程,解决了通过手工的方式来维护网址与对应的网址图标带来的手工维护成本大,效率低,对新建的网址与对应图标之间的映射关系更新不及时,系统实时性差的技术问题,降低了手工维护带来的成本,提高了网址与对应网址图标的匹配效率。
附图说明
图1是现有技术中的一个常用导航网站的示意图;
图2是本发明第一实施例的一种网址图标获取方法的流程图;
图3是本发明第二实施例的一种网址图标获取方法的流程图;
图4是本发明第三实施例的一种网址图标获取方法的流程图;
图5是本发明第四实施例的一种网址图标获取方法的流程图;
图6是本发明第五实施例的一种网址图标获取方法的流程图;
图7是本发明第六实施例的一种网址图标获取装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
第一实施例
图2是本发明第一实施例的一种网址图标获取方法的流程图,本实施例的方法可以由网址图标获取装置来执行,该装置可通过硬件和/或软件的方式实现,一般可集成于导航网站的服务器内。本实施例的方法具体包括如下操作:
210、获取待匹配图标的网址。
在本实施例中,服务器获取待匹配图标的网址,典型的,上述服务器可以为导航网站的服务器。
其中,服务器获取的待匹配图标的网址的来源可以为:使用导航网站的一般用户在添加一个自己需要的常用网址时,向该服务器发送的;
或者,网络爬虫在网络中抓取到网页后,提取网页的URL(Uniform ResourceLocator,统一资源定位符)后,向该服务器发送的;
或者,网站的建立者在网站建立之后,将新建网站的网址主动向该服务器上报的。
当然,本领域技术人员可以理解,服务器还可以采用其他的方式获取待匹配图标的网址,对此并不限定。
在本实施例中,所述待匹配图标的网址是指需要获取对应图标的网址。其中,与一个网址对应的图标可以为与该网址对应网站的网站LOGO、或者与网站功能对应的标识图片等,对此并不限定。
220、根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作。
在一个例子中,一个采用标准化方式建立的网站,网址图标会存储在一个预定的目录下,举例而言,网址为http://www.baidu.com的网站,网址图标存储于http://www.baidu.com/favicon.ico目录下;
更一般的,不管采用何种方式建立的网站,只要该网站中包括有网址图标,该网站网址图标的存储路径就会写入该网站的对应的网页内容的脚本文件中。
相应的,在本实施例中,根据所述网址来获取对应的图标网页内容可以包括:
根据所述网址中的特征信息,构造图标默认存储地址,根据该图标默认存储地址,获取网址图标;或者
根据与所述网址对应的网页内容查找与所述网址对应的网址图标的存储路径,根据所述存储路径,获取与所述网址对应的网址图标。
其中,一个网址的特征信息中包括:协议信息、域名信息和目录信息。
举例而言,对于一个网址http://www.baidu.com/about.htm:
协议信息为:http,代表该网址在URL中使用的协议;
域名信息为:www.baidu.com,代表该网址对应的服务器名称;
目录信息为:/about.htm,代表该网址在上述服务器中所在的目录名称。
本发明实施例通过获取待匹配图标的网址,根据所述网址获取对应的图标网页内容,从所述图标网页内容中提取与所述网址对应的网址图标的技术手段,在大大减少了在维护网址图标映射表过程中人工参与的同时,实现了网址与对应的网址图标的匹配过程,解决了通过手工的方式来维护网址与对应的网址图标带来的手工维护成本大,效率低,对新建的网址与对应图标之间的映射关系更新不及时,系统实时性差的技术问题,降低了手工维护带来的成本,提高了网址与对应网址图标的匹配效率。
第二实施例
图3为本发明第二实施例的一种网址图标获取方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,优选的将操作根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取的操作优化为:获取所述网址中的协议信息和域名信息;根据所述协议信息、所述域名信息与图标默认存储名称,构造图标默认存储地址;根据所述图标默认存储地址,获取与所述网址对应的网址图标。
相应地,本实施例的方法具体包括如下操作:
310、获取待匹配图标的网址。
320、获取所述网址中的协议信息和域名信息。
330、根据所述协议信息、所述域名信息与图标默认存储名称,构造图标默认存储地址。
在目前的主流网站设计中,网站图标存储于网站服务器的根目录下,默认存储名称为:favicon.ico。
因此,服务器只要获取一个网址的协议信息和域名信息,再加上图标默认存储名称,即可构造一个图标默认存储地址。
举例而言,若获取的待匹配图标的网址为:
http://home.baidu.com/business/business.html,
服务器获取其中的协议信息http和域名信息home.baidu.com,再加上图标默认存储名称favicon.ico,可以构造一个图标默认存储地址为:
http://home.baidu.com/favicon.ico。
当然,可以理解的是,上述构造图标默认存储地址的方式是基于目前网站图标的通用存储方式而设置的,当网站图标的通用存储形式发生改变或调整时,上述构造图标默认存储地址的形式也可进行相应的调整。
340、根据所述图标默认存储地址,获取与所述网址对应的网址图标。
在本实施例中,服务器根据所述图标默认存储地址,访问与该图标默认存储地址对应的资源,获取与所述网址对应的网址图标。
本发明实施例通过获取待匹配图标的网址中的协议信息和域名信息,根据所述协议信息、所述域名信息与图标默认存储名称,构造图标默认存储地址,获取与所述网址对应的网址图标的技术手段,仅通过对获取的待匹配网址进行简单的改造,即可生成图标默认存储地址以获取相应的网址图标,进一步降低了系统的开发成本,提高了图标的获取效率。但是,如果一个网站的网址图标没有存储于图标默认存储地址下,通过本实施例的方法将无法提取相应的网址图标。
第三实施例
图4为本发明第三实施例的一种网址图标获取方法的流程图,本实施例以上述实施例为基础进行优化,优选的将操作根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取的操作优化为:获取与所述网址对应的网页内容;根据所述网页内容,查找与所述网址对应的网址图标的存储路径;根据所述存储路径,获取与所述网址对应的网址图标。相应的,本实施例的方法具体包括如下操作:
410、获取待匹配图标的网址。
420、获取与所述网址对应的网页内容。
在本实施例中,服务器获取待匹配图标的网址之后,对该待匹配图标的网址进行访问,获取与所述网址对应的网页内容。
430、根据所述网页内容,查找与所述网址对应的网址图标的存储路径。
在本实施例中,服务器根据所述网页内容,查找与所述网址对应的网址图标的存储路径。
随着技术的不断发展,在设置一个网站的网址图标的时候,除了可以采用将favicon.ico文件放置于网站服务器的根目录下之外,还可以采用一种更加灵活的方法:
即,使用HTML(Hyper Text Mark-up Language,超文本标记语言)来为任何一个网页指示其图标所存储的位置。这种方法是通过在网页的脚本文件中<head>部分添加link组件来实现的。这样,任何一个适当大小的(16×16像素或更大)的图像都可以用作网址图标。
其中,可以通过在网页的脚本文件中写入如下HTML代码:
<linkrel="shortcut icon"href="/example.com/favicon.ico"type="image/x.icon">或者<linkrel="icon"href="/example.com/favicon.ico"type="image/x.icon">来实现为任何一个网页指示其图标所存储的位置。
相应的,所述根据所述网页内容,查找与所述网址对应的网址图标的存储路径具体包括:
在所述网址内容的脚本文件中查找包括关键词rel=“icon”或者rel=“shortcuticon”的link标签;
其中,查找包括关键词rel=“icon”或者rel=“shortcut icon”的link标签时,可以采用字符串匹配的方式或者采用正则运算的方式,对此并不限定。
获取所述link标签中的href值;
举例而言,服务器获取的包括关键词rel=“shortcut icon”的link标签为:
<linkrel="shortcut icon"href="/example.com/favicon.ico"type="image/x.icon">上述link标签中的href值为/example.com/favicon.ico。
根据所述网址的协议信息、域名信息和所述href值,构造与所述网址对应的图标的存储路径。
举例而言,待匹配图标的网址为:
http://home.baidu.com/business/business.html,
根据该网址的脚本文件,获取的href值为“/example.com/favicon.ico”,
构造与所述网址对应的图标的存储路径为:
http://home.baidu.com/example.com/favicon.ico。
440、根据所述存储路径,获取与所述网址对应的网址图标。
在本实施例中,服务器根据所述存储路径,访问与该存储路径对应的图标资源,获取与所述网址对应的网址图标。
当然,本领域技术人员可以理解的是,因为网页编程方式的灵活性,网址图标的数据格式(.ico、png或者.gif)、存储形式也是复杂多变的,因此,从网址内容中获取与所述网址对应的网址图标的存储路径方式也是多种多样的,对此并不限定。
本发明实施例通过获取与待匹配图标网址对应的网页内容;根据所述网页内容,查找与所述网址对应的网址图标的存储路径;根据所述存储路径,获取与所述网址对应的网址图标的技术手段,解决了如果网站的网址图标没有存储于图标默认存储地址下,网址图标无法提取的技术问题,实现了在网站的网址图标存储于任意目录下时,均可获取对应的网址图标的技术效果,提高了网址图标获取方法的通用性和灵活性,提高了图标获取的成功率。但是,本实施例的方法相比实施例二的方法,增加了系统的开发成本,提高了系统的复杂度。
在上述各技术方案的基础上,在获取网址图标时,可以先采用实施例二中的方法获取网址图标,如果不能成功获取网址图标,则继续采用实施例三中的方法来获取网址图标,通过这样的方式,可以同时兼顾了网址图标获取方法的有效性和可靠性。
第四实施例
图5为本发明第四实施例的一种网址图标获取方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中引入了图标获取任务队列的方式来管理待匹配图标的网址,实现图标匹配的顺序、自动化实现。
具体优选的将操作获取待匹配图标的网址优化为:将查询网址添加到图标获取任务队列中,从所述图标获取任务队列中获取待匹配图标的网址;相应地,在操作根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作之后,优选的还包括:如果能从所述图标网页内容中提取与所述网址对应的网址图标,则将所述网址从所述图标获取任务队列删除;如果未能从所述图标网页内容中提取与所述网址对应的网址图标,将所述网址移动至无图标网址列表,为所述网址启动定时器,在所述定时器到时截止后,将所述网址移动至图标获取任务队列,以重新进行对应网址图标的自动获取。
基于上述改进,本实施例的方法具体包括如下操作:
510、将查询网址添加到图标获取任务队列中。
在本实施例中,查询网址可以有多个来源,如前所述,来源于客户端对常用网址的添加,新增网站的网址等。服务器将查询网址添加到图标获取任务队列中。服务器中预存有一个图标获取任务队列,用于基于先入先出规律存储待匹配图标的网址。
其中,所述的待匹配图标的网址可以来自于服务器接收的查询客户端发送的查询网址。查询客户端可以包括:使用导航网站添加常用网址的用户类客户端,也可以为向导航网站提交新建的网站网址的站长类客户端。
举例而言,一个导航网站用户通过导航网站提供的客户端添加一个常用网站时,需要向导航网站服务器提供待添加的网站的网址,服务器会在该用户的客户端上增加该待添加网站的网址的链接以及该网址对应的网址图标。其中,客户端向导航网站服务器提供待添加的网站的网址的过程,即为查询客户端向服务器发送查询网址的过程。
520、从所述图标获取任务队列中获取待匹配图标的网址。
上述操作可以是从队列的队首获取网址,而向队列中添加网址时可以添加到队列的队尾,从而使得多个待匹配图标的网址顺序进行匹配。
530、根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作。
540、判断是否能从所述图标网页内容中提取与所述网址对应的网址图标:若是,执行550;否则,执行560。
550、将所述网址从所述图标获取任务队列删除。
在本实施例中,如果服务器能够从所述图标网页内容中提取与所述网址对应的网址图标,服务器将所述网址从所述图标获取任务队列中删除。
相应的,服务器向查询客户端返回与所述查询网址对应的网址图标。
560、将所述网址移动至无图标网址列表,为所述网址启动定时器,在所述定时器到时截止后,将所述网址移动至图标获取任务队列,以重新进行对应网址图标的自动获取。
在本实施例中,如果服务器不能从所述图标网页内容中提取与所述网址对应的网址图标,说明所述网址当前并没有设置网址图标,而且在很大的概率下,所述网址也不可能在很短的时间内设置出网址图标,因此,如果服务器不停的对这一类网址频繁的获取网址图标的话,会占用服务器大量的运算时间,大大降低了图标的获取效率。因此,服务器可以预先建立一个无图标网址列表,用于存储没有设置网址图标的网址。
当服务器将一个没有匹配到网址图标的网址加入无图标网址列表后,会为该网址启动一个定时器,例如,1天、5天或者10天等,对此并不限定,在所述定时器到时截止后,才会将所述网址移动至图标获取任务队列,以重新进行对应网址图标的自动获取。
本发明实施例通过将查询网址添加到图标获取任务队列中,从所述图标获取任务队列中获取待匹配图标的网址,根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作,并根据不同的提取操作结果对所述网址进行不同操作技术手段,避免了服务器频繁对一些没有设置网址图标的网址进行操作,提高了服务器的使用效率以及网址图标的获取效率。
在上述各实施例的基础上,将所述网址移动至无图标网址列表之后,还包括:记录所述网址移动至所述无图标网址列表的移动次数;如果所述移动次数超过移动阈值,丢弃所述网址。这样设置的好处是:如果服务器多次均无法从所述图标网页内容中提取与所述网址对应的网址图标,丢弃该网址,不再进行网址图标的获取,以进一步提高服务器的使用效率,以及网址图标的获取效率。
第五实施例
图6为本发明第五实施例的一种网址图标获取方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,优选的在操作根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作之后还优选包括:将所述网址中的协议信息和域名信息作为联合主键,与提取到的所述网址图标的属性信息对应存储于网址图标映射表中;其中,所述网址图标的属性信息包括所述网址图标的标识和/或所述网址图标在系统中的存储路径。
相应的,本实施例的方法具体包括如下操作:
610、接收查询客户端发送查询网址。
上述操作以从客户端接收查询网址为例进行说明,但也可以是从队列中提取一个待匹配图标的网址等其他获取待匹配图标网址的方式。
620、判断能否根据网址图标映射表查找与查询网址对应的网址图标:若是,执行630;否则,执行640。
在本实施例中,服务器根据网址图标映射表查找与查询网址对应的网址图标。
在本实施例中,服务器中预存有网址图标映射表,在网址图标映射表中存储了网址与网址图标的对应关系。
一般来说:网址和网址图标的对应关系往往是多对一的关系,也即:多个网址对应一个图标。这种对应是有规则的。例如:
http://home.baidu.com/business/business.html和http://home.baidu.com/contact.html都是对应一个网址图标。也就是说在大多数情况下,对应于相同的协议信息和相同的域名信息的不同网址对应同一个网址图标。
因此,在建立网址和网址图标的对应关系时,为了尽可能的提高网址图标映射表的存储效率。可以以网址中的协议信息和域名信息作为联合主键,与对应的网址图标的属性信息对应存储于网址图标映射表中;其中,所述网址图标的属性信息包括所述网址图标的标识和/或所述网址图标在系统中的存储路径。
当然,只要能够唯一识别一个网址图标的信息均可以作为该网址图标的属性信息,对此并不限定。
在一个例子中,服务器还用于接收控制客户端发送的映射表操作指令;根据所述操作指令对所述网址图标映射表进行新建和/或修改操作。其中,所述控制端可以包括:客户端、移动终端APP(application,应用)或者网页等。
630、向查询客户端返回相应的网址图标,流程结束。
在本实施例中,如果服务器在网址图标映射表中查找到查询网址对应的网址图标,会向查询客户端返回相应的网址图标。
640、根据查询网址获取对应的图标网页内容,从图标网页内容中对查询网址对应的网址图标进行提取操作。
在本实施例中,如果服务器在网址图标映射表中未查找到查询网址对应的网址图标,会根据查询网址获取对应的图标网页内容,从图标网页内容中对查询网址对应的网址图标进行提取操作。
650、判断是否能从图标网页内容中提取与查询网址对应的网址图标:若是,执行660;否则,执行680。
660、将查询网址中的协议信息和域名信息作为联合主键,与提取到的网址图标的属性信息对应存储于网址图标映射表中,执行670。
当服务器能够从图标网页内容中提取与查询网址对应的网址图标时,将查询网址中的协议信息和域名信息作为联合主键,与提取到的网址图标的属性信息对应存储于网址图标映射表中,其中,所述网址图标的属性信息包括所述网址图标的标识和/或所述网址图标在系统中的存储路径。
当然,只要能够唯一识别一个网址图标的信息均可以作为该网址图标的属性信息,对此并不限定。
670、向查询客户端返回相应网址图标,流程结束。
680、将查询网址添加到图标获取任务队列中,执行690。
在本实施例中,当服务器未能从图标网页内容中提取与查询网址对应的网址图标时,将查询网址添加都图标获取任务队列中。
相应的,服务器可以每隔预定的一段时间,或者每发生一个预定的触发事件时,对图标获取任务队列中的网址进行网址图标的获取。
690、向查询客户端返回默认网址图标。
在本实施例中,当服务器未能从图标网页内容中提取与查询网址对应的网址图标时,会向查询客户端返回一个默认的网址图标。
本发明实施例通过获取待匹配图标的网址,根据所述网址获取对应的图标网页内容,从所述图标网页内容中提取与所述网址对应的网址图标的技术手段,在大大减少了在维护网址图标映射表过程中人工参与的同时,实现了网址与对应的网址图标的匹配过程,解决了通过手工的方式来维护网址与对应的网址图标带来的手工维护成本大,效率低,对新建的网址与对应图标之间的映射关系更新不及时,系统实时性差的技术问题,降低了手工维护带来的成本,提高了网址与对应网址图标的匹配效率。
第六实施例
在图7中示出了网址图标获取装置的结构图。如图7所示,所述装置包括:
网址获取单元71,用于获取待匹配图标的网址;
网址图标提取单元72,用于根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作。
本发明实施例通过获取待匹配图标的网址,根据所述网址获取对应的图标网页内容,从所述图标网页内容中提取与所述网址对应的网址图标的技术手段,在大大减少了在维护网址图标映射表过程中人工参与的同时,实现了网址与对应的网址图标的匹配过程,解决了通过手工的方式来维护网址与对应的网址图标带来的手工维护成本大,效率低,对新建的网址与对应图标之间的映射关系更新不及时,系统实时性差的技术问题,降低了手工维护带来的成本,提高了网址与对应网址图标的匹配效率。
在上述各实施例的基础上,所述网址图标提取单元具体用于:
获取所述网址中的协议信息和域名信息;根据所述协议信息、所述域名信息与图标默认存储名称,构造图标默认存储地址;根据所述图标默认存储地址,获取与所述网址对应的网址图标。
在上述各实施例的基础上,所述网址图标提取单元具体用于:
获取与所述网址对应的网页内容;根据所述网页内容,查找与所述网址对应的网址图标的存储路径;根据所述存储路径,获取与所述网址对应的网址图标。
在上述各实施例的基础上,所述网址获取单元具体用于:将查询网址添加到图标获取任务队列中;从所述图标获取任务队列中获取待匹配图标的网址;
相应地,所述装置还包括:
队列维护模块,用于在根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作之后,如果能从所述图标网页内容中提取与所述网址对应的网址图标,则将所述网址从所述图标获取任务队列删除;如果未能从所述图标网页内容中提取与所述网址对应的网址图标,将所述网址移动至无图标网址列表,为所述网址启动定时器,在所述定时器到时截止后,将所述网址移动至图标获取任务队列,以重新进行对应网址图标的自动获取。
在上述各实施例的基础上,还包括:
网址丢弃模块,用于将所述网址移动至无图标网址列表之后,记录所述网址移动至所述无图标网址列表的移动次数;如果所述移动次数超过移动阈值,丢弃所述网址。
在上述各实施例的基础上,还包括:
网址图标存储模块,用于根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作之后,将所述网址中的协议信息和域名信息作为联合主键,与提取到的所述网址图标的属性信息对应存储于网址图标映射表中;
其中,所述网址图标的属性信息包括所述网址图标的标识和/或所述网址图标在系统中的存储路径。
本发明实施例所提供的网址图标获取装置可用于执行本发明任意实施例提供的网址图标获取方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种网址图标的获取方法,其特征在于,包括:
获取待匹配图标的网址;
根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作;
所述获取待匹配图标的网址具体包括:将查询网址添加到图标获取任务队列中;从所述图标获取任务队列中获取待匹配图标的网址;
相应地,根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作之后,还包括:
如果能从所述图标网页内容中提取与所述网址对应的网址图标,则将所述网址从所述图标获取任务队列删除;
如果未能从所述图标网页内容中提取与所述网址对应的网址图标,将所述网址移动至无图标网址列表,为所述网址启动定时器,在所述定时器到时截止后,将所述网址移动至图标获取任务队列,以重新进行对应网址图标的自动获取。
2.根据权利要求1所述的网址图标的获取方法,其特征在于,所述根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作具体包括:
获取所述网址中的协议信息和域名信息;
根据所述协议信息、所述域名信息与图标默认存储名称,构造图标默认存储地址;
根据所述图标默认存储地址,获取与所述网址对应的网址图标。
3.根据权利要求2所述的网址图标的获取方法,其特征在于,所述图标默认存储名称具体包括:favicon.ico。
4.根据权利要求1所述的网址图标的获取方法,其特征在于,所述根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作具体包括:
获取与所述网址对应的网页内容;
根据所述网页内容,查找与所述网址对应的网址图标的存储路径;
根据所述存储路径,获取与所述网址对应的网址图标。
5.根据权利要求1所述的网址图标的获取方法,其特征在于,将所述网址移动至无图标网址列表之后,还包括:
记录所述网址移动至所述无图标网址列表的移动次数;
如果所述移动次数超过移动阈值,丢弃所述网址。
6.根据权利要求1所述的网址图标的获取方法,其特征在于,所述根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作之后,所述方法还包括:
将所述网址中的协议信息和域名信息作为联合主键,与提取到的所述网址图标的属性信息对应存储于网址图标映射表中;
其中,所述网址图标的属性信息包括所述网址图标的标识和/或所述网址图标在系统中的存储路径。
7.一种网址图标的获取装置,其特征在于,包括:
网址获取单元,用于获取待匹配图标的网址;
网址图标提取单元,用于根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作;
所述网址获取单元具体用于:将查询网址添加到图标获取任务队列中;从所述图标获取任务队列中获取待匹配图标的网址;
相应地,所述装置还包括:
队列维护模块,用于在根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作之后,如果能从所述图标网页内容中提取与所述网址对应的网址图标,则将所述网址从所述图标获取任务队列删除;如果未能从所述图标网页内容中提取与所述网址对应的网址图标,将所述网址移动至无图标网址列表,为所述网址启动定时器,在所述定时器到时截止后,将所述网址移动至图标获取任务队列,以重新进行对应网址图标的自动获取。
8.根据权利要求7所述的网址图标的获取装置,其特征在于,所述网址图标提取单元具体用于:
获取所述网址中的协议信息和域名信息;
根据所述协议信息、所述域名信息与图标默认存储名称,构造图标默认存储地址;
根据所述图标默认存储地址,获取与所述网址对应的网址图标。
9.根据权利要求7所述的网址图标的获取装置,其特征在于,所述网址图标提取单元具体用于:
获取与所述网址对应的网页内容;
根据所述网页内容,查找与所述网址对应的网址图标的存储路径;
根据所述存储路径,获取与所述网址对应的网址图标。
10.根据权利要求7所述的网址图标的获取装置,其特征在于,还包括:
网址丢弃模块,用于将所述网址移动至无图标网址列表之后,记录所述网址移动至所述无图标网址列表的移动次数;如果所述移动次数超过移动阈值,丢弃所述网址。
11.根据权利要求7所述的网址图标的获取装置,其特征在于,还包括:
网址图标存储模块,用于根据所述网址获取对应的图标网页内容,从所述图标网页内容中对所述网址对应的网址图标进行提取操作之后,将所述网址中的协议信息和域名信息作为联合主键,与提取到的所述网址图标的属性信息对应存储于网址图标映射表中;
其中,所述网址图标的属性信息包括所述网址图标的标识和/或所述网址图标在系统中的存储路径。
CN201410048314.9A 2014-02-12 2014-02-12 网址图标的获取方法和获取装置 Active CN103793516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410048314.9A CN103793516B (zh) 2014-02-12 2014-02-12 网址图标的获取方法和获取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410048314.9A CN103793516B (zh) 2014-02-12 2014-02-12 网址图标的获取方法和获取装置

Publications (2)

Publication Number Publication Date
CN103793516A CN103793516A (zh) 2014-05-14
CN103793516B true CN103793516B (zh) 2017-04-12

Family

ID=50669182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410048314.9A Active CN103793516B (zh) 2014-02-12 2014-02-12 网址图标的获取方法和获取装置

Country Status (1)

Country Link
CN (1) CN103793516B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608175A (zh) * 2015-12-21 2016-05-25 北京奇虎科技有限公司 渲染资源页数据时官方网站标志展示方法及装置
CN105608195B (zh) * 2015-12-23 2019-05-24 北京奇虎科技有限公司 一种给搜索结果中的官网添加网站图标的方法和系统
CN108710712A (zh) * 2018-09-13 2018-10-26 上海二三四五网络科技有限公司 一种在网站首页显示名站汇总的控制方法及控制装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164451A (zh) * 2011-12-15 2013-06-19 腾讯科技(深圳)有限公司 一种显示网站图标的方法及装置
CN103281320A (zh) * 2013-05-23 2013-09-04 中国科学院计算机网络信息中心 基于网页图标匹配的品牌仿冒网站检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164451A (zh) * 2011-12-15 2013-06-19 腾讯科技(深圳)有限公司 一种显示网站图标的方法及装置
CN103281320A (zh) * 2013-05-23 2013-09-04 中国科学院计算机网络信息中心 基于网页图标匹配的品牌仿冒网站检测方法

Also Published As

Publication number Publication date
CN103793516A (zh) 2014-05-14

Similar Documents

Publication Publication Date Title
CN104125209B (zh) 恶意网址提示方法和路由器
US8645453B2 (en) Method and system of processing cookies across domains
US7827166B2 (en) Handling dynamic URLs in crawl for better coverage of unique content
US8447827B2 (en) Providing local access to managed content
CN102333092B (zh) 一种网络用户识别的方法及其应用服务器
CN102075570B (zh) 一种基于关键字的http报文缓存机制的实现方法
CN105027121A (zh) 对本机应用的应用页面建索引
CN106921699A (zh) 一种网络访问方法、装置和系统
US8676880B2 (en) Server apparatus, communication apparatus, and method for generating navigation information
CN102947824A (zh) 使用关键字标识符对信息进行寻址和访问的系统和方法
CN103383687A (zh) 一种页面处理方法和装置
CN113382282B (zh) 一种页面资源访问方法、装置、电子设备和存储介质
CN101916285A (zh) 一种互联网网页内容解析方法及装置
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
CN105893073A (zh) 应用程序的更新方法、业务服务器、推送服务器和系统
CN111417942A (zh) 使用多变量http请求来识别http资源
CN103793516B (zh) 网址图标的获取方法和获取装置
CN101894109A (zh) 一种数据库建立方法和装置
CN106713460B (zh) 一种flash应用的版本控制方法和系统
KR101637016B1 (ko) 이용자 반응형 웹페이지 제공 방법
CN101231655A (zh) 用于处理搜索引擎结果的方法和系统
CN106959975B (zh) 一种转码资源缓存处理方法、装置及设备
CN101014021B (zh) 一种在即时通信客户端中查找用户的方法、系统及客户端
CN106612336A (zh) 图片预加载方法和装置
CN105808628A (zh) 网页转码方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant