CN102057372A - 生成站点地图 - Google Patents

生成站点地图 Download PDF

Info

Publication number
CN102057372A
CN102057372A CN2008801297179A CN200880129717A CN102057372A CN 102057372 A CN102057372 A CN 102057372A CN 2008801297179 A CN2008801297179 A CN 2008801297179A CN 200880129717 A CN200880129717 A CN 200880129717A CN 102057372 A CN102057372 A CN 102057372A
Authority
CN
China
Prior art keywords
server
website
map
url
clients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2008801297179A
Other languages
English (en)
Other versions
CN102057372B (zh
Inventor
卢品德尔·卡塔利亚
麦西米利恩·艾贝尔
李钢江
纳拉亚男·西瓦库玛尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN102057372A publication Critical patent/CN102057372A/zh
Application granted granted Critical
Publication of CN102057372B publication Critical patent/CN102057372B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

用于生成站点地图的方法、系统和装置,包括计算机程序产品。方法包括:扫描在服务器和向所述服务器请求资源的一个或多个客户端之间的网络业务,所述网络业务包括来自所述一个或多个客户端的资源请求消息和所述服务器响应于所述资源请求消息派发的资源。方法还包括:从所述服务器派发给所述一个或多个客户端的业务自动提取数据,所提取的数据包括识别所述服务器派发给所述一个或多个客户端的资源的一个或多个统一资源定位符。方法从所提取的数据自动生成站点地图,以及将所述站点地图存储在计算机可读存储器中。

Description

生成站点地图
技术领域
本说明书涉及站点地图(sitemap)。
背景技术
站点地图协议允许web管理员(webmaster)向搜索引擎通知主机(例如,网站)的可用于搜索引擎爬取(crawl)的统一资源定位符(URL)。
如在站点地图协议中所描述的,常规站点地图是列出网站的URL的可扩展标记语言(XML)文档。另外,常规站点地图可以包括与URL相关联的元数据。例如,元数据可以包括信息,诸如URL识别的资源被修改的最后时间、资源改变的频率、以及资源相对于主机上的其它资源的优先级。在http://www.sitemaps.org/protocol.php处在标题Sitemaps XML Format(站点地图XML格式)下描述了站点地图协议。
可以生成站点地图的常规工具(例如,Google站点地图生成器)需要web管理员交互来识别待被包括在站点地图中的资源。
发明内容
本说明书描述了与站点地图生成有关的技术。
总的来说,可以将在本说明书中描述的主题的一个方面具体化在包括以下动作的方法中:扫描在服务器和向所述服务器请求资源的一个或多个客户端之间的网络业务(traffic),所述网络业务包括来自所述一个或多个客户端的资源请求消息和所述服务器响应于所述资源请求消息派发的资源;从所述服务器派发给所述一个或多个客户端的业务自动提取数据,所提取的数据包括识别所述服务器派发给所述一个或多个客户端的资源的一个或多个统一资源定位符;从所提取的数据自动生成站点地图;以及将所述站点地图存储在计算机可读存储器中。本方面的其它实施例包括相应的系统、装置和计算机程序产品。
这些和其它实施例可以可选地包括以下特征中的一个或多个。站点地图包括一个或多个统一资源定位符。站点地图进一步包括有关一个或多个统一资源定位符的最后修改日期、改变频率或优先级中的至少一个。所述方法包括自动通知搜索引擎已生成或修改站点地图。所述方法包括根据web管理员偏好,在自动生成站点地图之前修改所提取的数据。
总的来说,可以将在本说明书中描述的主题的另一个方面具体化在一个系统中,所述系统包括包含计算机的服务器和与所述服务器数据通信的一个或多个客户端。服务器执行以下动作:扫描在服务器和向所述服务器请求资源的一个或多个客户端之间的网络业务,所述网络业务包括来自所述一个或多个客户端的资源请求消息和所述服务器响应于所述资源请求消息派发的资源。服务器还执行以下动作:从所述服务器派发给所述一个或多个客户端的业务自动提取数据,所提取的数据包括识别所述服务器派发给所述一个或多个客户端的资源的一个或多个统一资源定位符。服务器执行以下动作:从所提取的数据自动生成站点地图,以及将所述站点地图存储在计算机可读存储器中。
本方面的实施方式可以可选地包括以下特征中的一个或多个。站点地图包括一个或多个统一资源定位符。站点地图进一步包括有关一个或多个统一资源定位符的最后修改日期、改变频率或优先级中的至少一个。该系统进一步执行以下动作:自动通知搜索引擎已生成或修改站点地图。服务器执行以下动作:根据web管理员偏好,在自动生成站点地图之前修改所提取的数据。可以由安装在运行于服务器上的web服务器程序中的插件软件来执行扫描和提取的动作。还可以由安装在服务器的网络层中的软件来执行扫描和提取的动作。
可以实现在本说明书中描述的主题的特定实施例来实现以下优势中的一个或多个。自动生成站点地图减少了生成和维护站点地图所需的web管理员交互数量。除节省时间外,减少交互可以通过减少web管理员出错的可能性来增加站点地图的可靠性。另外,自动生成站点地图可以通过捕捉服务器派发的动态和静态内容两者来增加站点地图的覆盖范围。
在附图和下面的描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。主题的其它特征、方面和优势从描述、附图和权利要求将变得显而易见。
附图说明
图1是图示了站点地图的生成和提交的示例的框图。
图2是图示了站点地图的生成的示例的框图。
图3是示出了用于自动生成站点地图的示例过程的流程图。
在各个附图中相同的参考数字和标记指示相同的元素。
具体实施方式
图1是图示了站点地图110的生成和提交的示例的框图。模块120安装在服务器140上以扫描在服务器140和一个或多个客户端150(例如,web浏览器)之间的超文本传输协议(HTTP)业务。在一些实施方式中,该模块还或替选地扫描其它类型的网络业务(例如,无线应用协议(WAP)业务)。服务器140接受来自一个或多个客户端150的资源请求消息(例如,HTTP请求),并且响应于所述资源请求消息,将资源(例如,HTTP响应、网页、图像或多媒体内容)派发给一个或多个客户端150。在一些实施方式中,服务器140是web服务器。Web服务器可以是运行诸如Microsoft
Figure BPA00001276025900031
Internet Information Services或ApacheTM HTTP Server的计算机程序的一个或多个计算机。在一些实施方式中,服务器140是代理服务器。
在服务器140和一个或多个客户端150之间的HTTP业务包括来自一个或多个客户端150的资源请求消息和服务器140派发的资源。除常规web爬取器可以典型地爬取的数据内容外,HTTP业务可以包括常规web爬取器不能典型地爬取的数据内容。服务器140所派发的资源可以包括来自动态内容源160的数据内容。例如,动态内容源160可以包括基于用户输入(例如,搜索查询)创建的动态内容或从一个或多个数据库生成的动态内容。常规web爬取器不能自动提供输入来生成和爬取动态内容。服务器140所派发的资源还可以包括来自静态内容源170的数据内容。常规web爬取器不能典型地爬取未由所爬取的网页超链接的静态内容。
然而,服务器140所派发的资源可以由模块120通过扫描在服务器140和一个或多个客户端150之间的HTTP业务来识别。在一些实施方式中,模块120是安装在运行于服务器140上的web服务器程序中的插件软件。在一些替选实施方式中,模块120是安装在服务器140的网络层中的软件。
模块120可以从HTTP业务提取数据(例如,URL信息)。模块120可以包括从服务器140所派发的资源提取URL信息的过滤器。模块120可以扫描HTTP响应中的HTTP返回代码。如果扫描到指示成功的请求的HTTP返回代码(例如,指示所有所请求的信息被返回的HTTP返回代码200),则过滤器可以从服务器140所派发的资源提取URL信息。
URL信息可以包括识别资源的一个或多个URL。URL信息可以包括网页的URL以及包括在网页中的图像和其它内容的URL。另外,URL信息可以包括对应于URL的其它数据。例如,URL信息可以包括资源的最后修改日期(例如,HTTP响应中的最后修改的报头)。
在一些实施方式中,过滤器被配置为提取仅用于特定网站的URL信息。服务器140可以派发用于多于一个网站的资源。过滤器可以被配置为提取仅用于web管理员所选择的网站的URL信息。因此,将仅为所选择的网站自动生成站点地图。
站点地图生成器130可以从URL信息自动生成站点地图110,并且将站点地图110存储在计算机可读存储器中。站点地图生成器130还可以自动通知搜索引擎180已生成或修改站点地图110。搜索引擎可以具有允许web管理员提交站点地图的公共URL(例如,http://google.com/webmasters/sitemaps/ping?sitemap=)。站点地图生成器130可以将HTTP请求发送给公共URL以通知搜索引擎已生成或修改站点地图110。替选地或另外,站点地图生成器130可以使用特定搜索引擎的提交界面来提交站点地图110。可选地,站点地图生成器可以在robots.txt文件中指定站点地图110的位置。在http://www.sitemaps.org/protocol.php处在标题Sitemaps XML Format(站点地图XML格式)下描述了有关通知搜索引擎站点地图的可用性的方式的额外细节。
站点地图生成器130可以包括允许web管理员定义web管理员偏好的偏好编辑器135。通过定义web管理员偏好,web管理员可以控制如何生成站点地图或站点地图生成器130如何通知搜索引擎180已生成或修改站点地图110。在一些实施方式中,偏好编辑器展现包括元件的用户界面,所述元件诸如允许web管理员定义web管理员偏好的下拉菜单、单选按钮、复选框以及文本域。在一些实施方式中,偏好编辑器是文档编辑器,其允许web管理员编辑存储web管理员偏好的文档中的web管理员偏好。
在一些实施方式中,站点地图生成器130根据web管理员偏好自动通知搜索引擎180。因此,在站点地图110达到某一大小(例如,阈值数量的URL或文件大小)时或在站点地图110与用于网站的先前站点地图有阈值量(例如,URL数量或文件大小)的差异时,站点地图生成器130可以周期性地(例如,一周一次、一月一次)通知搜索引擎180。
图2是图示了站点地图110的生成的示例的框图。在一些实施方式中,模块120将URL信息存储在URL信息管道(pipe)210中。URL信息管道210可以在共享的全局存储器中实现。Web浏览器可以向网站请求网页。如果所请求的网页被成功地派发给web浏览器,则模块120将该网页的URL存储在URL信息管道210中。模块120还可以存储与被包括在网页中的图像和其它内容有关的URL。另外,模块120可以存储对应于已存储的URL的其它数据(例如,URL由模块120扫描的时间)。
在一些实施方式中,模块120根据web管理员偏好来存储URL信息。Web管理员可以将模块120配置为排除将一些URL信息存储在URL信息管道210中。Web管理员可以将特定URL或URL模式(例如,http://secure/.../*.htm)添加到排除列表,以使模块120不存储用于与排除列表中的条目相匹配的URL的URL信息。
站点地图生成器130从URL信息管道210中的URL信息自动生成站点地图110。在一些实施方式中,站点地图生成器130包括URL信息读取器220和站点地图文件编写器250。
URL信息读取器220读取并处理URL信息管道210中的URL信息,并且生成URL信息数据结构230。URL信息数据结构230可以是哈希表。哈希表可以由最大的URL数量(例如,100,000个URL)或最大的存储器大小(例如,300MB的盘空间)限制。
对于URL信息管道210中的每一个独特的URL,URL信息读取器220可以在URL信息数据结构230中创建条目,所述条目例如包括该URL、该URL由模块120扫描的首次时间以及一个或多个计数器。对于URL在URL信息管道210中的多次出现,URL信息读取器220可以增加第一计数器,所述第一计数器表示URL所识别的资源与新的内容(例如,所请求的资源自从其最后被请求之后已被修改)一起被成功派发的次数。如果响应包括指示所有所请求的信息被返回的HTTP返回代码200,则URL信息读取器220可以将资源认作为已被成功派发。另外,URL信息读取器220可以基于对资源的诸如文件时间、长度或类型的文件特性的改变将资源认作为带有新的内容。
另外,URL信息读取器220可以增加第二计数器,所述第二计数器表示URL被访问的次数。例如,如果资源被请求,并且服务器140所派发的响应没有指示错误或失败,则URL被访问。特别地,表示URL被访问的HTTP返回代码的示例包括HTTP返回代码204(资源没有新的内容)和HTTP返回代码304(资源尚未被修改)。
可以将URL信息数据结构230的内容清洗(flush)至数据文件240。可以限制数据文件240的大小,以减少总存储器使用。可以将数据文件240限制在最大的URL数量(例如,100,000个URL)或最大的存储器大小(例如,300MB的盘空间)。
在一些实施方式中,根据web管理员偏好将URL信息数据结构230的内容清洗至数据文件240。如果达到对URL信息数据结构230的URL限制或存储器限制,或根据时间段(例如,一周一次),可以将URL信息数据结构230的内容清洗至数据文件240。
由于可以将URL信息数据结构230周期性地清洗至数据文件240,所以数据文件240可以包括用于相同URL的多个条目。因此,站点地图生成器可以为多个条目扫描数据文件240,并且合并多个条目。站点地图生成器可以合并用于相同URL的两个条目以创建用于该URL的单个条目,所述单个条目包括该URL、该URL由模块120扫描的首次时间(例如,记录在所述两个条目中的较早时间)以及一个或多个计数器(例如,在所述两个条目中的各个计数器的总和)。
站点地图文件编写器250从数据文件240中的URL信息生成站点地图110。在一些实施方式中,生成符合在http://www.sitemap.org定义的、站点地图协议的XML schema(范式)的站点地图。在一些实施方式中,根据其它协议,特别地,根据扩展站点地图协议的协议来生成站点地图。站点地图文件编写器250可以使用数据来生成新的站点地图、视频站点地图、代码搜索站点地图以及移动站点地图。在一些实施方式中,根据诸如聚合馈给(例如,简易信息聚合(RSS)馈给)或包括URL的列表的文本文件的其它格式来生成站点地图。
在一些实施方式中,站点地图文件编写器250生成待被包括在站点地图110中的URL元数据。例如,URL元数据可以包括观察到的频率,URL所识别的资源以该频率改变,以及资源基于其被请求的频率的推断的优先级。
可以通过从当前时间(current_time)减去数据文件240中的第i个URL由模块120扫描的首次时间(T(i)),其中i≥0,并且将差值除以资源与新的内容一起被成功派发的次数(C(i))来计算观察到的频率,其中数据文件240中的第i个URL所识别的资源以该频率改变。可以由以下等式来表示该计算:
change _ frequency ( i ) = current _ time - T ( i ) C ( i ) ,
其中i≥0。然后可以根据时间段(例如,小时、天、周或月)来规范化URL改变的频率。
可以通过将数据文件240中的第i个URL被访问的次数(D(i))的对数除以所有URL被访问的次数的对数来计算数据文件240中的第i个URL所识别的资源的推断的优先级。可以由以下等式来表示该计算:
priority ( i ) = log [ D ( i ) ] log [ Σ j D ( j ) ] ,
其中i≥0以及j是在数据文件240中的URL的数目。可以规范化所述优先级,以使所有的优先级落入在0和1之间的范围内(例如,对于所有i,0≤priority(i)≤1)。
在一些实施方式中,站点地图生成器130在自动生成站点地图之前根据web管理员偏好来修改URL信息。例如,站点地图生成器130可以从模块120中的过滤器所提取的URL移除会话标识符或用户标识符。
图3是示出了用于自动生成站点地图的示例过程300的流程图。扫描310在服务器和向该服务器请求资源的一个或多个客户端之间的网络业务。从服务器派发给一个或多个客户端的业务自动提取320数据。从所提取的数据自动生成330站点地图,以及将站点地图存储340在计算机可读存储器中。可选地,自动通知350搜索引擎已生成或修改站点地图。
在本说明书中描述的主题和功能性操作的实施例可以在数字电子电路中,或者在计算机软件、固件或硬件,包括在本说明书中公开的结构以及其结构等同物中,或者在以上的一个或多个的组合中实现。可以将在本说明书中描述的主题的实施例实现为一个或多个计算机程序产品,即编码在有形的程序载体上的由数据处理装置执行或控制数据处理装置的操作的计算机程序指令的一个或多个模块。有形的程序载体可以是传播信号或计算机可读介质。传播信号是非自然生成的信号,例如机器生成的电的、光学或电磁的信号,其被生成以编码用于传输到适当接收器装置的信息以供计算机执行。计算机可读介质可以是机器可读存储设备、机器可读存储基片、存储器设备、形成机器可读传播信号的物质成分或以上的一个或多个的组合。
术语“数据处理装置”包含用于处理数据的所有装置、设备以及机器,包括例如可编程处理器、计算机或多个处理器或计算机。除硬件外所述装置可以包括创建用于讨论中的计算机程序的执行环境的代码,例如构成处理器固件、协议堆栈、数据库管理系统、操作系统或以上一个或多个的组合的代码。
计算机程序(也称作程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写,所述编程语言包括编译或解释语言,或者说明性或过程性语言,并且其可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序或适于在计算环境中使用的其它单元。计算机程序没有必要对应于文件系统中的文件。可以将程序存储在保持其它程序或数据的文件(例如,存储在标记语言文档中的一个或多个脚本)的一部分、专用于讨论中的程序的单个文件或者多个协调文件(例如,存储一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署为在一个计算机上或者在位于一个地点或跨多个地点分布并且由通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行以通过操作输入数据并且生成输出来执行功能。过程和逻辑流还可以由专用逻辑电路执行,以及装置还可以被实现为专用逻辑电路,专用逻辑电路例如FPGA(场可编程门阵列)或ASIC(专用集成电路)。
适于执行计算机程序的处理器包括例如通用和专用微处理器两者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的主要元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还包括用于存储数据的一个或多个海量存储设备,例如磁盘、磁光盘或光盘,或可操作地耦接以从所述一个或多个海量存储设备接收数据或向所述一个或多个海量存储设备传送数据,或两者。然而,计算机不必具有这样的设备。此外,可以将计算机嵌入另一个设备中,所述设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器,仅列出一些。
适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如:半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充,或合并入专用逻辑电路。
为了提供与用户的交互,本说明书中描述的主题的实施例可以在具有下述的计算机上实现:用于向用户显示信息的显示设备,例如CRT(阴极射线管)或LCD(液晶显示)监视器,以及用户通过其可以向计算机提供输入的键盘和指示设备,例如鼠标或跟踪球。也可以使用其它类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感知反馈,例如视觉反馈、听觉反馈或触觉反馈;以及可以以任何形式,包括声学的、话语或触觉的输入,接收来自用户的输入。
本说明书中描述的主题的实施例可以在包括例如作为数据服务器的后端组件、或者包括例如应用服务器的中间件组件、或者包括例如具有用户通过其可以与在本说明书中描述的主题的实施方式交互的图形用户界面或Web浏览器的客户端计算机的前端组件、或者一个或多个这样的后端、中间件或前端组件的任何组合的计算系统中实现。系统的组件可以通过例如通信网络的任何形式或介质的数字数据通信互连。通信网络的示例包括局域网(″LAN″)和广域网(″WAN″),例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系依靠在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。
虽然本说明书包含许多具体实施方式细节,但是这些细节不应当被解释为对任何发明或可以主张的内容的范围的限制,而应当被解释为对可以具体到特定发明的特定实施例的特征的描述。还可以将在本说明书中在分离的实施例的情境中描述的某些特征组合在单个实施例中实现。相反地,也可以将在单个实施例的情境中描述的各种特征分离地在多个实施例中实现或在任何适当的子组合中实现。此外,尽管可能在上面将特征描述为在某些组合中起作用,甚至最初主张如此,但是可以在一些情况下将来自所主张的组合的一个或多个特征从组合中删去,并且可以将所主张的组合指向子组合或者子组合的变体。
类似地,虽然在附图中以特定顺序描绘了操作,但是不应当将这理解为需要以所示的特定顺序或者以连续顺序执行这样的操作、或者需要执行所有图示的操作才能达到期望的结果。在某些情况下,多任务以及并行处理可以是有利的。此外,不应当将在上述实施例中的各种系统组件的分离理解为在所有实施例中均需要这样的分离,而应当理解的是,通常可以将所描述的程序组件和系统集成到一起成为单个软件产品或封装为多个软件产品。
已经描述了本说明书中描述的主题的特定实施例。其它实施例在所附权利要求的范围内。例如,可以以不同的顺序来执行权利要求中记载的动作并且仍然达到期望的结果。作为一个示例,在附图中描绘的过程不必需要所示的特定顺序或连续顺序才能达到期望的结果。在某些实施方式中,多任务以及并行处理可以是有利的。

Claims (17)

1.一种方法,包括:
扫描在服务器和向所述服务器请求资源的一个或多个客户端之间的网络业务,所述网络业务包括来自所述一个或多个客户端的资源请求消息和所述服务器响应于所述资源请求消息派发的资源;
从所述服务器派发给所述一个或多个客户端的所述业务自动提取数据,所提取的数据包括识别所述服务器派发给所述一个或多个客户端的所述资源的一个或多个统一资源定位符;
从所提取的数据自动生成站点地图;以及
将所述站点地图存储在计算机可读存储器中。
2.如权利要求1所述的方法,其中所述站点地图包括所述一个或多个统一资源定位符。
3.如权利要求2所述的方法,其中所述站点地图进一步包括以下中的至少一个:
有关所述一个或多个统一资源定位符的最后修改日期、改变频率或优先级。
4.如权利要求1所述的方法,进一步包括:
自动通知搜索引擎已生成或修改所述站点地图。
5.如权利要求1所述的方法,进一步包括:
根据web管理员偏好,在自动生成所述站点地图之前修改所提取的数据。
6.一种系统,包括:
服务器,所述服务器包括计算机;以及
一个或多个客户端,所述一个或多个客户端与所述服务器数据通信;
其中所述服务器执行以下动作:
扫描在所述服务器和向所述服务器请求资源的所述一个或多个客户端之间的网络业务,所述网络业务包括来自所述一个或多个客户端的资源请求消息和所述服务器响应于所述资源请求消息派发的资源;
从所述服务器派发给所述一个或多个客户端的所述业务自动提取数据,所提取的数据包括识别所述服务器派发给所述一个或多个客户端的所述资源的一个或多个统一资源定位符;
从所提取的数据自动生成站点地图;以及
将所述站点地图存储在计算机可读存储器中。
7.如权利要求6所述的系统,其中所述站点地图包括所述一个或多个统一资源定位符。
8.如权利要求7所述的系统,其中所述站点地图进一步包括以下中的至少一个:
有关所述一个或多个统一资源定位符的最后修改日期、改变频率或优先级。
9.如权利要求6所述的系统,其中所述服务器进一步执行以下动作:自动通知搜索引擎已生成或修改所述站点地图。
10.如权利要求6所述的系统,其中所述扫描和提取的动作由安装在运行于所述服务器上的web服务器程序中的插件软件来执行。
11.如权利要求6所述的系统,其中所述扫描和提取的动作由安装在所述服务器的网络层中的软件来执行。
12.一种存储在计算机可读介质上的、包括在服务器上执行时促使所述服务器执行操作的指令的计算机程序产品,所述操作包括:
扫描在所述服务器和向所述服务器请求资源的一个或多个客户端之间的网络业务,所述网络业务包括来自所述一个或多个客户端的资源请求消息和所述服务器响应于所述资源请求消息派发的资源;
从所述服务器派发给所述一个或多个客户端的所述业务自动提取数据,所提取的数据包括识别所述服务器派发给所述一个或多个客户端的所述资源的一个或多个统一资源定位符;
从所提取的数据自动生成站点地图;以及
将所述站点地图存储在计算机可读存储器中。
13.如权利要求12所述的产品,其中所述站点地图包括所述一个或多个统一资源定位符。
14.如权利要求13所述的产品,其中所述站点地图进一步包括以下中的至少一个:
有关所述一个或多个统一资源定位符的最后修改日期、改变频率或优先级。
15.如权利要求12所述的产品,其中所述操作进一步包括:自动通知搜索引擎已生成或修改所述站点地图。
16.如权利要求12所述的产品,其中所述产品被配置为安装在运行于所述服务器上的web服务器程序中的插件软件。
17.如权利要求12所述的产品,其中所述产品被配置为安装在所述服务器的网络层中的插件软件。
CN200880129717.9A 2008-04-17 2008-04-17 生成站点地图 Expired - Fee Related CN102057372B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2008/000786 WO2009127082A1 (en) 2008-04-17 2008-04-17 Generating sitemaps

Publications (2)

Publication Number Publication Date
CN102057372A true CN102057372A (zh) 2011-05-11
CN102057372B CN102057372B (zh) 2014-06-18

Family

ID=41198757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880129717.9A Expired - Fee Related CN102057372B (zh) 2008-04-17 2008-04-17 生成站点地图

Country Status (7)

Country Link
US (1) US20110093533A1 (zh)
EP (1) EP2281246A4 (zh)
KR (1) KR20110008179A (zh)
CN (1) CN102057372B (zh)
AU (1) AU2008355023A1 (zh)
BR (1) BRPI0822525A2 (zh)
WO (1) WO2009127082A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260469A (zh) * 2015-10-16 2016-01-20 广州神马移动信息科技有限公司 一种处理网站地图的方法、装置及设备
CN106095674A (zh) * 2016-06-07 2016-11-09 百度在线网络技术(北京)有限公司 一种网站自动化测试方法和装置
CN108255831A (zh) * 2016-12-28 2018-07-06 航天信息股份有限公司 一种用于为网站生成网站地图的方法及系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8832052B2 (en) * 2008-06-16 2014-09-09 Cisco Technologies, Inc. Seeding search engine crawlers using intercepted network traffic
WO2011040981A1 (en) * 2009-10-02 2011-04-07 David Drai System and method for search engine optimization
US20150106692A1 (en) * 2013-10-10 2015-04-16 Davide Bolchini Dynamic guided tour for screen readers
KR101645024B1 (ko) * 2014-10-02 2016-08-02 한국옐로우페이지주식회사 글로벌 b2b에서의 검색엔진 마케팅 서비스 제공 시스템, 서버 및 방법
KR101628511B1 (ko) * 2014-11-03 2016-06-09 주식회사 애드오피 검색 엔진 최적화 방법 및 그를 이용한 서버 장치
US11681770B2 (en) * 2016-05-16 2023-06-20 International Business Machines Corporation Determining whether to process identified uniform resource locators
KR102604601B1 (ko) 2023-08-08 2023-11-21 주식회사 에스피에스 연성회로 기판을 이용한 경량 터치 기반 키보드를 제어하는방법, 장치 및 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148336A (en) * 1998-03-13 2000-11-14 Deterministic Networks, Inc. Ordering of multiple plugin applications using extensible layered service provider with network traffic filtering
US6957383B1 (en) * 1999-12-27 2005-10-18 International Business Machines Corporation System and method for dynamically updating a site map and table of contents for site content changes
WO2007027469A2 (en) * 2005-08-29 2007-03-08 Google Inc. Mobile sitemaps
EP1840765A1 (en) * 2006-03-02 2007-10-03 Indigen Solutions SARL Process for extracting data from a web site

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085208A (ja) * 2001-09-10 2003-03-20 Hitachi Ltd サイトマップ自動提供方法およびシステム並びにプログラム
US20080178122A1 (en) * 2006-02-03 2008-07-24 Crown Partners,Llc System and method for website configuration and management
US7805510B2 (en) * 2006-05-11 2010-09-28 Computer Associates Think, Inc. Hierarchy for characterizing interactions with an application
US20080010142A1 (en) * 2006-06-27 2008-01-10 Internet Real Estate Holdings Llc On-line marketing optimization and design method and system
US20080235326A1 (en) * 2007-03-21 2008-09-25 Certeon, Inc. Methods and Apparatus for Accelerating Web Browser Caching
US20090119329A1 (en) * 2007-11-02 2009-05-07 Kwon Thomas C System and method for providing visibility for dynamic webpages
US8126869B2 (en) * 2008-02-08 2012-02-28 Microsoft Corporation Automated client sitemap generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148336A (en) * 1998-03-13 2000-11-14 Deterministic Networks, Inc. Ordering of multiple plugin applications using extensible layered service provider with network traffic filtering
US6957383B1 (en) * 1999-12-27 2005-10-18 International Business Machines Corporation System and method for dynamically updating a site map and table of contents for site content changes
WO2007027469A2 (en) * 2005-08-29 2007-03-08 Google Inc. Mobile sitemaps
EP1840765A1 (en) * 2006-03-02 2007-10-03 Indigen Solutions SARL Process for extracting data from a web site

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260469A (zh) * 2015-10-16 2016-01-20 广州神马移动信息科技有限公司 一种处理网站地图的方法、装置及设备
WO2017063596A1 (zh) * 2015-10-16 2017-04-20 广州神马移动信息科技有限公司 一种处理网站地图的方法、装置及设备
CN105260469B (zh) * 2015-10-16 2017-12-26 广州神马移动信息科技有限公司 一种处理网站地图的方法、装置及设备
CN106095674A (zh) * 2016-06-07 2016-11-09 百度在线网络技术(北京)有限公司 一种网站自动化测试方法和装置
CN108255831A (zh) * 2016-12-28 2018-07-06 航天信息股份有限公司 一种用于为网站生成网站地图的方法及系统
CN108255831B (zh) * 2016-12-28 2021-12-17 航天信息股份有限公司 一种用于为网站生成网站地图的方法及系统

Also Published As

Publication number Publication date
AU2008355023A1 (en) 2009-10-22
WO2009127082A1 (en) 2009-10-22
US20110093533A1 (en) 2011-04-21
EP2281246A4 (en) 2012-07-25
EP2281246A1 (en) 2011-02-09
BRPI0822525A2 (pt) 2016-10-11
CN102057372B (zh) 2014-06-18
KR20110008179A (ko) 2011-01-26

Similar Documents

Publication Publication Date Title
CN102057372B (zh) 生成站点地图
US20240160783A1 (en) User consent framework
US20170243238A1 (en) Synthetic user profiles
JP2013532340A (ja) 広告プライバシ管理
US20130103747A1 (en) Posted information sharing system, information-processing device, storage medium, server, information-processing method, and information-processing system
CN109194714B (zh) 一种文案推送方法、装置、终端设备及存储介质
US11568448B2 (en) Synthetic user profiles and monitoring online advertisements
US20220124163A1 (en) Methods and apparatus to identify sponsored media in a document object model
JP2018200702A (ja) アプリケーションインストールコンバージョンおよび識別
CN102007488A (zh) 基于代码的网站实验
US20200244751A1 (en) Opt-out compliance
CN107430614B (zh) 到对应资源的应用局部深度链接
KR20220083822A (ko) 반복 가능한 쿼리의 식별 및 발행
EP3804221B1 (en) Improving data integrity with trusted code attestation tokens
KR102141133B1 (ko) 인터렉티브 컨텐츠를 이용해서 애플리케이션을 스키닝하기 위한 시스템들 및 방법들
KR20210144659A (ko) 부정 조작 방지된(Tamper-proof) 상호 작용 데이터
JP7405969B2 (ja) コンテンツへのセキュアウォーターマークの組込み
US11256853B2 (en) Parameterizing network communication paths
CN108990423A (zh) 减少重定向
US9098589B1 (en) Geographic annotation of electronic resources
US20220405407A1 (en) Privacy preserving cross-domain machine learning
KR102339911B1 (ko) 온라인 음악 서비스 제공 방법, 장치 및 컴퓨터 프로그램
US20130212217A1 (en) Method and devices for targeted distribution of data
CN113892085A (zh) 限制在客户端设备上对冗余数字组件的提供和显示
KR20230062474A (ko) 프라이버시 보호를 위한 로컬화된 암호화 기술

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140618

Termination date: 20180417