CN105446981A - 站点地图生成方法、访问方法及装置 - Google Patents

站点地图生成方法、访问方法及装置 Download PDF

Info

Publication number
CN105446981A
CN105446981A CN201410305475.1A CN201410305475A CN105446981A CN 105446981 A CN105446981 A CN 105446981A CN 201410305475 A CN201410305475 A CN 201410305475A CN 105446981 A CN105446981 A CN 105446981A
Authority
CN
China
Prior art keywords
intended application
site map
file
map file
generating apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410305475.1A
Other languages
English (en)
Other versions
CN105446981B (zh
Inventor
黄华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410305475.1A priority Critical patent/CN105446981B/zh
Publication of CN105446981A publication Critical patent/CN105446981A/zh
Application granted granted Critical
Publication of CN105446981B publication Critical patent/CN105446981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种站点地图生成方法、访问方法及装置。生成方法包括:站点地图生成装置获取每个目标应用对应的配置信息,所述目标应用是指需要生成站点地图文件的应用,所述配置信息包括:资源位置信息和生成规则信息;根据所述资源位置信息获取生成站点地图文件所需的资源;根据所述生成规则信息对所述资源进行处理,获得所述目标应用的站点地图文件,以统一管理多个目标应用的站点地图文件。本发明可由站点地图生成装置统一为应用生成站点地图文件,不需要在每个应用中开发专门用于生成站点地图文件的子模块或子任务,有利于提高生成站点地图文件的效率,降低成本。

Description

站点地图生成方法、访问方法及装置
【技术领域】
本发明涉及搜索引擎技术领域,尤其涉及一种站点地图(sitemap)生成方法、访问方法及装置。
【背景技术】
搜索引擎是指根据一定的策略、运用特定的计算机程序从因特网(Internet)上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索结果展示给用户的系统。搜索引擎优化(SearchEngineOptimization,SEO)是一种利用搜索引擎的搜索规则来提高目前网站在有关搜索引擎内的自然排名的方式。在SEO中,sitemap的作用非常重要,作为搜索引擎爬虫的引路人,sitemap提供了网页的链接,供搜索引擎爬虫抓取sitemap所提供的所有网页,给搜索引擎爬虫提供了收录网站核心资源的捷径。
现有技术中,应用开发人员在开发应用过程中,开发一个子模块或子任务,用以生成该应用对应的sitemap。由于需要开发用以生成sitemap的子模块或子任务,因此,现有生成sitemap的方式成本较高,且效率较低。
【发明内容】
本发明的多个方面提供一种站点地图生成方法、访问方法及装置,用以提高站点地图生成的效率,降低成本。
本发明的一方面,提供一种站点地图生成方法,包括:
站点地图生成装置获取每个目标应用对应的配置信息,所述目标应用是指需要生成站点地图文件的应用,所述配置信息包括:资源位置信息和生成规则信息;
所述站点地图生成装置根据所述资源位置信息获取生成站点地图文件所需的资源;
所述站点地图生成装置根据所述生成规则信息对所述资源进行处理,获得所述目标应用的站点地图文件,以统一管理多个所述目标应用的站点地图文件。
本发明的另一方面,提供一种站点地图访问方法,包括:
目标应用所在的服务器接收客户端发送的用于请求访问所述目标应用的站点地图文件的访问请求,所述访问请求包括所述客户端的标识和所述目标应用的站点地图文件的标识;
所述服务器将所述访问请求转发给站点地图生成装置,所述站点地图生成装置用于统一管理多个应用的站点地图文件;
所述站点地图生成装置根据所述目标应用的站点地图文件的标识,从统一管理的站点地图文件中获取所述目标应用的站点地图文件;
所述站点地图生成装置根据所述客户端的标识,将所述目标应用的站点地图文件发送给所述客户端。
本发明的又一方面,提供一种站点地图生成装置,包括:
第一获取模块,用于获取每个目标应用对应的配置信息,所述目标应用是指需要生成站点地图文件的应用,所述配置信息包括:资源位置信息和生成规则信息;
第二获取模块,用于根据所述资源位置信息获取生成站点地图文件所需的资源;
处理模块,用于根据所述生成规则信息对所述资源进行处理,获得所述目标应用的站点地图文件,以统一管理多个所述目标应用的站点地图文件。
本发明的又一方面,提供一种服务器,所述服务器上部署有目标应用,所述服务器包括:
接收模块,用于接收客户端发送的用于请求访问所述目标应用的站点地图文件的访问请求,所述访问请求包括所述客户端的标识和所述目标应用的站点地图文件的标识;
转发模块,用于将所述访问请求转发给站点地图生成装置,以使所述站点地图生成装置根据所述目标应用的站点地图文件的标识从统一管理的站点地图文件中获取所述站点地图文件,并根据所述客户端的标识将所述目标应用的站点地图文件发送给所述客户端,所述站点地图生成装置用于统一管理多个应用的站点地图文件。
在本发明技术方案中,站点地图生成装置根据每个需要生成站点地图文件的应用对应的配置信息中的生成规则信息以及基于该配置信息中的资源位置信息获取的资源,为每个需要生成站点地图文件的应用生成站点地图文件,可以统一为应用生成站点地图文件,不需要在每个应用中开发专门用于生成站点地图文件的子模块或子任务,有利于提高生成站点地图文件的效率,降低成本。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的站点地图生成方法的流程示意图;
图2为本发明另一实施例提供的站点地图生成方法的流程示意图;
图3为本发明又一实施例提供的站点地图生成装置的结构示意图;
图4为本发明又一实施例提供的站点地图生成装置的结构示意图;
图5为本发明一实施例提供的服务器的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的站点地图生成方法的流程示意图。该方法可由站点地图生成装置(也可称为站点地图平台)执行,如图1所示,该方法包括:
101、站点地图生成装置获取每个目标应用对应的配置信息,目标应用是指需要生成站点地图文件的应用,该配置信息包括:资源位置信息和生成规则信息。
为便于描述,本发明实施例将需要生成站点地图文件的应用称为目标应用。
其中,资源位置信息用于指示生成站点地图文件所需的资源的存储位置。举例说明,如果所述资源存储在某个文件中,则资源位置信息可以包含该文件的存储地址以及该文件的标识;如果所述资源存储在数据库中,则资源位置信息可以包含数据库的标识和数据库中数据表的标识,进一步还可以包含数据表中数据列的标识,以便更加精确的获取到所述资源,更进一步的还可以包含提取语句,例如SQL语句,以便于从数据库中提取资源。
在此说明,上述用于存储资源的文件可以在站点地图生成装置本地,也可以在远端装置上。
生成规则信息用于指示生成站点地图文件所需的规则。举例说明,生成规则信息可以是用于指示直接使用URL生成站点地图文件的URL指示标识,或者可以是URL拼装规则,但不限于此。
在此说明,每个应用有其自身的特点,例如URL拼装规则个性化、资源存储个性化等等。本实施例提供的方法支持各应用具有各自的特点,适用于为各种应用生成站点地图文件。也就是说,不同目标应用对应的配置信息可以不同,以适应不同目标应用各自的特点。
上述配置信息除了包括资源位置信息和生成规则信息之外,还可以包含目标应用的标识、更新周期等信息。这里的更新周期是指后续所生成的地图站点文件包含的链接所指示的网页的更新周期。
在一可选实施方式中,站点地图生成装置可以通过生成列表存储各个需要生成站点地图文件的应用(即目标应用)对应的配置信息。例如,当有目标应用需要生成站点地图文件时,目标应用所在的服务器或者目标应用的开发者可以向站点地图生成装置提供该目标应用用于请求生成站点地图文件的生成请求,并在该生成请求中携带该目标应用对应的配置信息。基于此,站点地图生成装置接收该目标应用用于请求生成站点地图文件的生成请求,从该生成请求中获取该目标应用对应的配置信息,将该目标应用对应的配置信息作为一条记录存储到生成列表中。
基于上述生成列表,站点地图生成装置具体可以按照预设周期,逐一提取生成列表中的记录分别作为一个目标应用对应的配置信息。简单来说,生成列表中的一条记录就是一个目标应用对应的配置信息。上述预设周期可以根据实际应用适应性设置,本实施例对其数值不做限定。举例说明,该预设周期可以是一天、两天、一小时、三小时、四小时或十分钟等等。
102、站点地图生成装置根据上述资源位置信息获取生成站点地图文件所需的资源。
在获取上述资源位置信息后,站点地图生成装置需要根据上述资源位置信息,从相应存储位置获取生成站点地图文件所需的资源。
举例说明,如果上述资源位置信息包含文件的存储地址以及文件的标识,说明该资源位置信息用于指示生成站点地图文件所需的资源存储在某个文件中,则站点地图生成装置可以根据上述文件的存储地址以及文件的标识,从相应的文件中获取所述资源;如果上述资源位置信息包含数据库的标识和数据库中数据表的标识,说明该资源位置信息用于指示生成站点所需的资源存储在数据库中,则站点地图生成装置可以根据数据库的标识以及数据库中数据表的标识,从相应数据库的数据表中获取所述资源。
进一步可选的,上述目标应用对应的配置信息还可以包含用于过滤条件。则站点地图生成装置具体可以从上述资源位置信息所指示的存储位置,获取符合该过滤条件的资源。举例说明,某些资源有一定的时效性,需要按照资源的生成时间进行过滤,则过滤条件可以是选择生成时间在指定时间点之后的资源,意味着在该时间点之前的资源将被过滤掉。
103、站点地图生成装置根据上述生成规则信息对上述资源进行处理,获得上述目标应用的站点地图文件,以统一管理多个目标应用的站点地图文件。
在获取生成站点地图文件所需的资源后,站点地图生成装置根据配置信息中的生成规则信息,对该资源进行处理,获得目标应用的站点地图文件。
其中,不同目标应用有其不同的特点,所使用的生成规则信息可能会不同。本实施例提供的方法支持各种生成规则信息。下面举例说明:
如果上述生成规则信息为用于指示直接使用URL生成站点地图文件的URL指示标识,则上述根据资源位置信息获取的资源本身就是完整的URL,基于此,站点地图生成装置可以直接将资源作为URL添加到目标应用的站点地图文件中;
如果上述生成规则信息为URL拼装规则,则上述根据资源位置信息获取的资源是URL中的部分信息,例如URL中携带的关键词信息、ID信息以及数据加密信息等。基于此,站点地图生成装置可以根据URL拼装规则对上述资源进行拼装处理获得URL,将所获得的URL添加到目标应用对应的站点地图文件中。
在此说明,生成站点地图文件所需的资源量一般会比较大,而站点地图文件所能存放的URL是有限的,目前实践中一个站点地图文件包含的URL数量上限是50000条URL,因此,上述生成的目标应用对应的站点地图文件可能是多个,即在一个站点地图文件写满之后,开始写下一个站点地图文件,直到所有URL均被写入站点地图文件为止。
在一可选实施方式中,站点地图生成装置可以按照预设周期,为生成列表中涉及的所有目标应用生成站点地图文件,实现站点地图文件的全量生成。在此说明,在该实施方式中,有可能有些目标应用的站点地图文件已经存在,则在重新生成站点地图文件之后可以直接覆盖已经存在的,相当于对站点地图文件的更新。
在另一可选实施方式中,站点地图生成装置在生成站点地图文件之前,可以判断目标应用的站点地图文件是否已存在;如果判断出目标应用的站点地图文件不存在,则直接执行上述根据生成规则信息对上述资源进行处理,获得目标应用的站点地图文件的步骤;如果判断出目标应用的站点地图文件已存在,则进一步判断上述资源位置信息指示的存储位置是否在本地。
如果判断出上述资源位置信息指示的存储位置不在本地,或者如果判断出上述资源位置信息指示的存储位置在本地,但上述生成规则信息和上述根据资源位置信息获取的资源中的至少一个发生了变化,则执行上述根据生成规则信息对上述资源进行处理,获得目标应用的站点地图文件的步骤。在生成站点地图文件之后,站点地图生成装置用新生成的目标应用的站点地图文件替换已存在的目标应用的站点地图文件,从而实现对目标应用的站点地图文件的更新。
进一步可选的,如果判断出上述资源位置信息指示的存储位置在本地,且上述生成规则信息和上述根据资源位置信息获取的资源均未发生变化,则可以不用为该目标应用重新生成站点地图文件。
在上述实施方式中,站点地图生成装置通过判断,只有在需要为目标应用生成站点地图文件的情况(例如目标应用的站点地图文件不存在,或者目标应用的站点地图文件需要更新)下才去为目标应用生成站点地图文件,有利于减轻站点地图生成装置的处理负担,有利于节约站点地图生成装置的资源。
进一步,在生成目标应用的站点地图文件之后,为了便于应用和管理站点地图文件,需要为该目标应用的站点地图文件生成索引(index),该索引包括该目标应用下所有站点地图文件的标识,例如这里的标识可以是站点地图文件的名称。
在生成目标应用的站点地图文件及其对应的索引之后,需要考虑站点地图文件及其索引的存储问题。例如,所有目标应用的站点地图文件可以存储在站点地图生成装置本地,每个目标应用的站点地图文件都有自己的命名空间。
因为某些域名下挂的应用非常多,站点地图文件占据的磁盘空间非常可观,有可能需要很大的磁盘空间;另外,如果站点地图文件存储在站点地图生成装置本地,那么目标应用所在集群的服务器上都要有一份备份,因此从节约磁盘空间和资源共享的角度考虑,优选可以考虑使用分布式文件系统存储站点地图文件及相关信息。
由上述可见,本实施例由站点地图生成装置负责为各应用生成站点地图文件,将站点地图文件的生成从应用中独立出来,不需要在应用中开发专门用于生成站点地图文件的子模块或子任务,有利于提高站点地图文件的生成效率,降低成本。
在上述实施例的基础上,在一可选实施方式中,站点地图生成装置接收目标应用所在服务器转发的来自客户端的访问请求,该访问请求包括客户端请求访问的站点地图文件的标识和所述客户端的标识;之后,站点地图生成装置根据上述站点地图文件的标识,获取对应的站点地图文件,并根据客户端的标识,将所获取的站点地图文件提供客户端。
具体的,当客户端需要访问某个目标应用的站点地图文件时,可以向该目标应用所在的服务器发送访问请求;对该目标应用所在的服务器来说,接收客户端发送的用于请求访问该目标应用的站点地图文件的访问请求;该访问请求包括客户端的标识和该目标应用的站点地图文件的标识。目标应用所在的服务器将该访问请求转发给站点地图生成装置;站点地图生成装置根据访问请求中目标应用的站点地图文件的标识,从统一管理的站点地图文件中获取目标应用的站点地图文件,并根据访问请求中客户端的标识,将所获取的目标应用的站点地图文件发送给客户端。其中,站点地图生成装置采用上述实施例生成多个应用的站点地图文件,并统一管理多个应用的站点地图文件。
在此说明,这里的客户端可以是任何具有访问站点地图文件需求的装置,主要是指搜索引擎爬虫。
由于站点地图文件是由站点地图生成装置生成和负责管理的,所以客户端需要通过站点地图生成装置来访问站点地图文件。在一可选实施方式中,客户端可以直接向站点地图生成装置发送访问请求,但由于站点地图协议要求站点地图文件通过应用的域名访问,所以这种方式需要对现有客户端以及站点地图协议进行修改。为了不影响客户端和现有站点地图协议,本实施例通过在目标应用所在服务器上设置反向代理功能,将来自客户端的访问请求转发到站点地图生成装置,这样客户端可以像现有技术那样直接向目标应用所在服务器发送访问请求,不需要做任何改变,也符合现有站点地图协议的要求。
举例说明,假设目标应用所在服务器为阿帕奇(apache)web服务器,则一条反向代理的设置方式如下:
RewriteRule^/sitemap(/*)$http://sitemap.alibaba-inc.com/*[L,P,QSA]
上述反向代理的作用解释如下:将当前应用所在服务器的/sitemap目录下的全部请求都转发到http://sitemap.alibaba-inc.com指向的站点地图生成装置的同名目录之下,并且使用apache提供的透明代理,在代理的过程中,转发前后,查询请求串保持一致。
其中,在目标应用所在服务器上设置的反向代理是非常轻量、简单的,对目标应用的侵入性非常低,且一次配置后续不用再做任何管理,极大程度提高了目标应用的开发效率。
图2为本发明另一实施例提供的站点地图生成方法的流程示意图。如图2所示,该方法包括:
2a、站点地图生成装置接收用户或需要生成站点地图文件的应用所在服务器提交的该应用对应的配置信息,该配置信息包括该应用的标识、资源位置信息、生成规则信息和过滤条件。
可选的,站点地图装置可以向用户提供一交互界面,用户可以通过交互界面向站点地图装置提供上述配置信息。
本实施例以生成站点地图文件所需的资源存储在数据库中为例进行说明,则上述资源位置信息可以包括数据库标识和数据库中数据表的标识,进一步还可以包括SQL语句。
2b、站点地图生成装置将上述应用的配置信息作为一条记录存储到生成列表中。
2c、在预设处理周期到达时,从上述生成列表中获取一条记录,并将该记录的状态标记为处理中。
在此说明,在处理周期到达之前,站点地图装置可能会收到多个应用的配置信息,将每个应用的配置信息作为一条记录存储到生成列表中,即生成列表包括多条记录。
2d、站点地图装置读取记录中的配置信息,根据配置信息中的资源位置信息,向数据库发送查询请求,该查询请求包括上述数据表的标识和上述过滤条件。
可选的,该查询请求可以是上述SQL语句。
2e、数据库根据上述查询请求,从相应数据表中获取满足上述过滤条件的资源。
2f、数据库将所获取的资源返回给站点地图生成装置。
2g、站点地图生成装置根据上述生成规则信息对数据库返回的资源进行处理,获得上述记录对应的应用的站点地图文件。
其中,步骤2g的可选实施方式包括:
站点地图装置判断上述记录对应的应用的站点地图文件是否已经存在;如果判断结果为不存在,则根据上述生成规则信息对数据库返回的资源进行处理,获得上述记录对应的应用的站点地图文件;如果判断结果为存在,则进一步判断上述资源位置信息指示的资源的存储位置是否在本地。
由于本实施例假设生成站点地图文件所需的资源存储在数据库中,因此本实施例可以判断出上述资源位置信息指示的资源的存储位置不在本地。由于数据库不在本地,所以站点地图生成装置不便于判断数据库中存储的资源是否发生了变化。对于这种情况,为了保证站点地图文件的及时更新,站点地图生成装置也需要根据上述生成规则信息对数据库返回的资源进行处理,获得上述记录对应的应用的站点地图文件,并用新的站点地图文件替换已经存在的站点地图文件。
2h、站点地图生成装置生成上述站点地图文件的索引。
2i、站点地图生成装置将上述站点地图文件及其索引存储到分布式文件系统中。
2j、站点地图生成装置取消上述记录的标记状态,并判断在当前周期内生成列表中是否还有未被处理的记录,如果有,执行步骤2k,如果没有,则等待下一个处理周期的到来,并返回去执行步骤2c。
2k、站点地图生成装置继续从生成列表中获取记录,并将该记录的状态标记为处理中,并转去执行步骤2d。
2l、客户端向应用所在服务器发送访问请求,该访问请求携带有客户端的标识和待访问站点地图文件的标识。
2m、应用所在服务器将上述访问请求转发给站点地图生成装置。
2n、站点地图生成装置根据上述访问请求,从分布式文件系统获取相应的站点地图文件。
2o、站点地图生成装置将上述获取的站点地图文件返回给客户端。
在本实施例中,由站点地图生成装置负责为各应用生成站点地图文件,将站点地图文件的生成从应用中独立出来,不需要在应用中开发专门用于生成站点地图文件的子模块或子任务,有利于提高站点地图文件的生成效率,降低成本;通过分布式文件系统存储站点地图文件及其索引,有利于节约磁盘空间,利于资源共享。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图3为本发明又一实施例提供的站点地图生成装置的结构示意图。如图3所示,该装置包括:第一获取模块31、第二获取模块32和处理模块33。
第一获取模块31,用于获取每个目标应用对应的配置信息,该目标应用是指需要生成站点地图文件的应用,该配置信息包括:资源位置信息和生成规则信息。
第二获取模块32,与第一获取模块31连接,用于根据第一获取模块31获取的资源位置信息获取生成站点地图文件所需的资源。
处理模块33,与第一获取模块31和第二获取模块32连接,用于根据第一获取模块31获取的生成规则信息对第二获取模块32获取的资源进行处理,获得目标应用的站点地图文件,以统一管理多个目标应用的站点地图文件。
在一可选实施方式中,第一获取模块31具体可用于按照预设周期,逐一提取生成列表中的记录分别作为一个目标应用对应的配置信息。
在一可选实施方式中,如图4所示,该装置还包括:第一接收模块41和存储模块42。第一接收模块41,用于在第一获取模块31按照预设周期,逐一提取生成列表中的记录分别作为一个目标应用对应的配置信息之前,接收目标应用用于请求生成站点地图文件的生成请求,该生成请求包括目标应用对应的配置信息。
存储模块42,与第一接收模块41连接,用于将第一接收模块41接收的目标应用对应的配置信息作为一条记录存储到生成列表中。
在一可选实施方式中,处理模块33具体可用于如果上述生成规则信息为用于指示直接使用URL生成站点地图文件的URL指示标识,直接将上述资源作为URL添加到目标应用的站点地图文件中,如果上述生成规则信息为URL拼装规则,根据URL拼装规则对上述资源进行拼装处理获得URL,将所获得的URL添加到目标应用对应的站点地图文件中。
在一可选实施方式中,如图4所示,该装置还包括:判断模块43和替换模块44。
判断模块43,与处理模块33连接,用于判断目标应用的站点地图文件是否已存在,如果判断出目标应用的站点地图文件已存在,则判断上述资源位置信息指示的存储位置是否在本地;如果判断出上述资源位置信息指示的存储位置不在本地,或者如果判断出上述资源位置信息指示的存储位置在本地,但上述生成规则信息和上述资源中的至少一个发生了变化,则触发处理模块33执行根据上述生成规则信息对上述资源进行处理,获得目标应用的站点地图文件。
替换模块44,与处理模块33连接,用于用处理模块33新生成的目标应用的站点地图文件替换已存在的目标应用的站点地图文件。
进一步,如图4所示,该装置还可以包括:第二接收模块45、第三获取模块46和发送模块47。
第二接收模块45,用于接收目标应用所在服务器转发的来自客户端的访问请求,该访问请求包括客户端请求访问的站点地图文件的标识和客户端的标识。
第三获取模块46,与第二接收模块45连接,用于根据第二接收模块45接收的站点地图文件的标识,获取对应的站点地图文件。
发送模块47,与第三获取模块46和第二接收模块45连接,用于根据第二接收模块45接收的客户端的标识,将第三获取模块46获取的站点地图文件提供客户端。
本实施例提供的站点地图生成装置的各功能模块可用于执行上述方法实施例的流程,其具体工作原理不再赘述,详见方法实施例的描述。
本实施例提供的站点地图生成装置,根据每个需要生成站点地图文件的应用对应的配置信息中的生成规则信息以及基于该配置信息中的资源位置信息获取的资源,为每个需要生成站点地图文件的应用生成站点地图文件,可以统一为应用生成站点地图文件,不需要在每个应用中开发专门用于生成站点地图文件的子模块或子任务,有利于提高生成站点地图文件的效率,降低成本。
图5为本发明一实施例提供的服务器的结构示意图。本实施例提供的服务器上部署有目标应用,为了便于描述,将客户端需要访问的应用称为目标应用,目标应用是多个应用中的一个,该目标应用的站点地图文件是按照本发明提供的站点地图生成方法生成的。如图5所示,该服务器包括:接收模块51和转发模块52。
接收模块51,用于接收客户端发送的用于请求访问上述目标应用的站点地图文件的访问请求,该访问请求包括客户端的标识和目标应用的站点地图文件的标识。
转发模块52,与接收模块51连接,用于将接收模块51接收的访问请求转发给站点地图生成装置,以使站点地图生成装置根据目标应用的站点地图文件的标识从统一管理的站点地图文件中获取目标应用的站点地图文件,并根据客户端的标识将所获取的目标应用的站点地图文件发送给客户端。这里的站点地图生成装置用于统一管理多个应用的站点地图文件。
本实施例提供的服务器可与上述实施例提供的站点地图生成装置相配合,用以实现站点地图文件的访问。本实施例提供的服务器具有反向代理功能,可以将客户端发送的用于访问站点地图文件的访问请求直接转发给站点地图生成装置,使得客户端可以继续使用现有访问站点地图文件的方式,不需要对客户端进行修改,而服务器实现反向代理功能也是比较简单的,可以保证对站点地图文件的访问效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种站点地图生成方法,其特征在于,包括:
站点地图生成装置获取每个目标应用对应的配置信息,所述目标应用是指需要生成站点地图文件的应用,所述配置信息包括:资源位置信息和生成规则信息;
所述站点地图生成装置根据所述资源位置信息获取生成站点地图文件所需的资源;
所述站点地图生成装置根据所述生成规则信息对所述资源进行处理,获得所述目标应用的站点地图文件,以统一管理多个所述目标应用的站点地图文件。
2.根据权利要求1所述的方法,其特征在于,所述站点地图生成装置获取每个目标应用对应的配置信息,包括:
所述站点地图生成装置按照预设周期,逐一提取生成列表中的记录分别作为一个所述目标应用对应的配置信息。
3.根据权利要求2所述的方法,其特征在于,所述站点地图生成装置按照预设周期,逐一提取生成列表中的记录分别作为一个所述目标应用对应的配置信息之前,还包括:
所述站点地图生成装置接收所述目标应用用于请求生成站点地图文件的生成请求,所述生成请求包括所述目标应用对应的配置信息;
所述站点地图生成装置将所述目标应用对应的配置信息作为一条记录存储到所述生成列表中。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述站点地图生成装置根据所述生成规则信息对所述资源进行处理,获得所述目标应用的站点地图文件,包括:
如果所述生成规则信息为用于指示直接使用统一资源定位符URL生成站点地图文件的URL指示标识,所述站点地图生成装置直接将所述资源作为URL添加到所述目标应用的站点地图文件中;
如果所述生成规则信息为URL拼装规则,所述站点地图生成装置根据所述URL拼装规则对所述资源进行拼装处理获得URL,将所述获得的URL添加到所述目标应用对应的站点地图文件中。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述站点地图生成装置根据所述生成规则信息对所述资源进行处理,获得所述目标应用的站点地图文件之前,还包括:
所述站点地图生成装置判断所述目标应用的站点地图文件是否已存在,如果判断出所述目标应用的站点地图文件已存在,则判断所述资源位置信息指示的存储位置是否在本地;
如果判断出所述资源位置信息指示的存储位置不在本地,或者如果判断出所述资源位置信息指示的存储位置在本地,但所述生成规则信息和所述资源中的至少一个发生了变化,则执行根据所述生成规则信息对所述资源进行处理,获得所述目标应用的站点地图文件的步骤;
所述方法还包括:
用新生成的所述目标应用的站点地图文件替换已存在的所述目标应用的站点地图文件。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述站点地图生成装置根据所述生成规则信息对所述资源进行处理,获得所述目标应用的站点地图文件之后,还包括:
所述站点地图生成装置接收所述目标应用所在服务器转发的来自客户端的访问请求,所述访问请求包括所述客户端请求访问的站点地图文件的标识和所述客户端的标识;
所述站点地图生成装置根据所述站点地图文件的标识,获取对应的站点地图文件,并根据所述客户端的标识,将所述获取的站点地图文件提供所述客户端。
7.一种站点地图访问方法,其特征在于,包括:
目标应用所在的服务器接收客户端发送的用于请求访问所述目标应用的站点地图文件的访问请求,所述访问请求包括所述客户端的标识和所述目标应用的站点地图文件的标识;
所述服务器将所述访问请求转发给站点地图生成装置,所述站点地图生成装置用于统一管理多个应用的站点地图文件;
所述站点地图生成装置根据所述目标应用的站点地图文件的标识,从统一管理的站点地图文件中获取所述目标应用的站点地图文件;
所述站点地图生成装置根据所述客户端的标识,将所述目标应用的站点地图文件发送给所述客户端。
8.一种站点地图生成装置,其特征在于,包括:
第一获取模块,用于获取每个目标应用对应的配置信息,所述目标应用是指需要生成站点地图文件的应用,所述配置信息包括:资源位置信息和生成规则信息;
第二获取模块,用于根据所述资源位置信息获取生成站点地图文件所需的资源;
处理模块,用于根据所述生成规则信息对所述资源进行处理,获得所述目标应用的站点地图文件,以统一管理多个所述目标应用的站点地图文件。
9.根据权利要求8所述的装置,其特征在于,所述第一获取模块具体用于按照预设周期,逐一提取生成列表中的记录分别作为一个所述目标应用对应的配置信息。
10.根据权利要求9所述的装置,其特征在于,还包括:
第一接收模块,用于接收所述目标应用用于请求生成站点地图文件的生成请求,所述生成请求包括所述目标应用对应的配置信息;
存储模块,用于将所述目标应用对应的配置信息作为一条记录存储到所述生成列表中。
11.根据权利要求8-10任一项所述的装置,其特征在于,所述处理模块具体用于如果所述生成规则信息为用于指示直接使用统一资源定位符URL生成站点地图文件的URL指示标识,直接将所述资源作为URL添加到所述目标应用的站点地图文件中,如果所述生成规则信息为URL拼装规则,根据所述URL拼装规则对所述资源进行拼装处理获得URL,将所述获得的URL添加到所述目标应用对应的站点地图文件中。
12.根据权利要求8-10任一项所述的装置,其特征在于,还包括:
判断模块,用于判断所述目标应用的站点地图文件是否已存在,如果判断出所述目标应用的站点地图文件已存在,则判断所述资源位置信息指示的存储位置是否在本地;如果判断出所述资源位置信息指示的存储位置不在本地,或者如果判断出所述资源位置信息指示的存储位置在本地,但所述生成规则信息和所述资源中的至少一个发生了变化,则触发所述处理模块执行根据所述生成规则信息对所述资源进行处理,获得所述目标应用的站点地图文件;
替换模块,用于用新生成的所述目标应用的站点地图文件替换已存在的所述目标应用的站点地图文件。
13.根据权利要求8-10任一项所述的装置,其特征在于,还包括:
第二接收模块,用于接收所述目标应用所在服务器转发的来自客户端的访问请求,所述访问请求包括所述客户端请求访问的站点地图文件的标识和所述客户端的标识;
第三获取模块,用于根据所述站点地图文件的标识,获取对应的站点地图文件;
发送模块,用于根据所述客户端的标识,将所述获取的站点地图文件提供所述客户端。
14.一种服务器,所述服务器上部署有目标应用,其特征在于,包括:
接收模块,用于接收客户端发送的用于请求访问所述目标应用的站点地图文件的访问请求,所述访问请求包括所述客户端的标识和所述目标应用的站点地图文件的标识;
转发模块,用于将所述访问请求转发给站点地图生成装置,以使所述站点地图生成装置根据所述目标应用的站点地图文件的标识从统一管理的站点地图文件中获取所述目标应用的站点地图文件,并根据所述客户端的标识将所述目标应用的站点地图文件发送给所述客户端,所述站点地图生成装置用于统一管理多个应用的站点地图文件。
CN201410305475.1A 2014-06-30 2014-06-30 站点地图生成方法、访问方法及装置 Active CN105446981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410305475.1A CN105446981B (zh) 2014-06-30 2014-06-30 站点地图生成方法、访问方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410305475.1A CN105446981B (zh) 2014-06-30 2014-06-30 站点地图生成方法、访问方法及装置

Publications (2)

Publication Number Publication Date
CN105446981A true CN105446981A (zh) 2016-03-30
CN105446981B CN105446981B (zh) 2019-03-29

Family

ID=55557187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410305475.1A Active CN105446981B (zh) 2014-06-30 2014-06-30 站点地图生成方法、访问方法及装置

Country Status (1)

Country Link
CN (1) CN105446981B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255831A (zh) * 2016-12-28 2018-07-06 航天信息股份有限公司 一种用于为网站生成网站地图的方法及系统
CN109063053A (zh) * 2018-07-20 2018-12-21 北京开普云信息科技有限公司 一种网站站点地图自动重构的方法及系统
CN112233204A (zh) * 2020-09-30 2021-01-15 腾讯科技(深圳)有限公司 一种地图处理方法、装置、计算机设备和存储介质
CN112307395A (zh) * 2020-08-10 2021-02-02 北京沃东天骏信息技术有限公司 用于生成网站地图的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002042862A2 (en) * 2000-11-21 2002-05-30 Thomson Licensing S.A. A system and process for mediated crawling
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN101971172A (zh) * 2005-08-29 2011-02-09 谷歌公司 移动站点地图
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002042862A2 (en) * 2000-11-21 2002-05-30 Thomson Licensing S.A. A system and process for mediated crawling
CN101971172A (zh) * 2005-08-29 2011-02-09 谷歌公司 移动站点地图
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255831A (zh) * 2016-12-28 2018-07-06 航天信息股份有限公司 一种用于为网站生成网站地图的方法及系统
CN109063053A (zh) * 2018-07-20 2018-12-21 北京开普云信息科技有限公司 一种网站站点地图自动重构的方法及系统
CN112307395A (zh) * 2020-08-10 2021-02-02 北京沃东天骏信息技术有限公司 用于生成网站地图的方法和装置
CN112233204A (zh) * 2020-09-30 2021-01-15 腾讯科技(深圳)有限公司 一种地图处理方法、装置、计算机设备和存储介质
CN112233204B (zh) * 2020-09-30 2024-03-12 腾讯科技(深圳)有限公司 一种地图处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN105446981B (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
US10289734B2 (en) Entity-type search system
CN102307210B (zh) 一种数据下载系统及其数据管理和下载方法
CN102455913B (zh) 显示模板的定制
CN104102710A (zh) 一种海量数据查询方法
CN104424199A (zh) 搜索方法和装置
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN103473696A (zh) 一种收集、分析和分发网络商业信息的方法和系统
JP2018514846A (ja) ウェブページのアクセス方法、装置、デバイス及びプログラム
CN103678494A (zh) 客户端同步服务端数据的方法及装置
US10152239B1 (en) Migration to a multi-tiered data store
CN103064989B (zh) 网页保存、打开方法及装置
US20100268704A1 (en) Method of searching information and ranking search results, user terminal and internet search server with the method applied thereto
CN105446981A (zh) 站点地图生成方法、访问方法及装置
CN103607424A (zh) 一种服务器连接方法及服务器系统
CN103309650A (zh) 持久层代码的生成方法和装置
CN111258978A (zh) 一种数据存储的方法
CN103631820A (zh) 分布式文件系统的元数据管理方法及设备
CN102722405A (zh) 高并发、多线程应用中的计数方法及系统
CN108319608A (zh) 访问日志存储查询的方法、装置及系统
CN111046041A (zh) 数据处理方法和装置、存储介质及处理器
CN103761102A (zh) 一种统一数据服务平台及其实现方法
CN110225087A (zh) 基于全局负载均衡的云存取方法、装置及存储介质
CN102385617A (zh) 动态域查询及查询转换
CN104199893A (zh) 一种快速将全媒体内容发布的系统和方法
CN109710832A (zh) 一种用于搜索寄宿程序的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant