CN105190598A - 资源索引分类 - Google Patents

资源索引分类 Download PDF

Info

Publication number
CN105190598A
CN105190598A CN201380075929.4A CN201380075929A CN105190598A CN 105190598 A CN105190598 A CN 105190598A CN 201380075929 A CN201380075929 A CN 201380075929A CN 105190598 A CN105190598 A CN 105190598A
Authority
CN
China
Prior art keywords
resource
resource index
index
root
resource request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380075929.4A
Other languages
English (en)
Inventor
普拉尤萨·库马尔·马纳德哈塔
桑迪普·N·巴特
威廉·G·霍恩
普拉萨德·V·拉奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Enterprise Development LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN105190598A publication Critical patent/CN105190598A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/78Architectures of resource allocation
    • H04L47/783Distributed allocation of resources, e.g. bandwidth brokers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

在一个实现方式中,资源索引分类系统包括选择引擎和分类引擎。该选择引擎基于从多个客户端拦截的资源请求来访问多个资源请求记录,并且从多个资源请求记录中选择从多个客户端中的客户端拦截的资源请求记录。多个资源请求记录中的每个资源请求记录包括资源索引。分类引擎用于不依赖于客户端而从多个资源请求记录中标识根资源索引和根资源索引的多个子资源索引。

Description

资源索引分类
背景技术
经由通信链路可访问的许多资源包含或引用其它资源。这样的层次允许资源从其它资源引入信息,这可以简单地将资源维持在当前状态以及在多个计算系统之间提供该资源的服务分布。
作为示例,像网页这样的资源可以指响应于访问该网页而由客户端访问的资源,如图像、视频或数据资源。换句话说,网页由客户端访问并且引导客户端访问其它资源,以访问在网页中包含或属于网页一部分的其它数据或信息。广告、RSS(丰富站点摘要)、Feeds、JavaScriptTM、和CSS(层叠样式表)文件是这样的资源的其它示例。
附图说明
图1是根据实现方式的包括资源索引分类系统的环境的示意框图。
图2是根据实现方式的资源索引分类方法的流程图。
图3是根据另一实现方式的资源索引分类方法的流程图。
图4是根据另一实现方式的资源索引分类方法的流程图。
图5是资源请求之间的时间关系的图。
图6是根据实现方式的托管资源索引分类系统的计算系统的示意框图。
具体实施方式
资源是客户端可经由服务器访问的数据对象(即,信息或数据集)或数据服务。服务器是在接收资源请求(即,对资源的请求)并提供包括被请求的资源的响应的计算系统处托管的软件。如本文所用的,术语“资源”可以抽象地指资源或指资源的任意表示(例如,不同编码、呈现、大小或其它表示)。例如,在服务器处被请求的资源可以是网页,并且该资源可以被提供给客户端作为网页的文本表示(例如,超文本标记语言HTML)。作为另一示例,被请求的资源可以是图像文件,并且该资源可以作为一组ASCII字符而被提供给用MIMEBase64机制编码的客户端。即,术语资源(在这些示例中的网页或图像文件)抽象地指网页或图像文件以及向客户端提供的网页或图像文件的具体表示。
包含其它资源的资源可以被称为根资源,并且由根资源包含的资源可以被称为子资源。因此,资源作为子资源的命名是相对于根资源的。因此,根资源可以是某一其它根资源的子资源,并且根资源的子资源可以是另一子资源的根资源。作为特定示例,第一资源可以包含第二资源(例如,包括第二资源的资源索引,该资源索引引导客户端发送对第二资源的资源请求),并且第二资源可以包含第三资源。第二资源和第三资源可以被称为第一资源的子资源。此外,第一资源可以被称为根资源(即,第二资源和/或第三资源的根资源),并且第二资源可以被称为根资源(即,第三资源的根资源)。
可以通过资源索引(reference)来标识或描述资源。资源索引是资源的标识符。例如,像统一资源定位符(URL)、互联网协议(IP)地址和主机名这样的统一资源标识符(URI)是资源索引。根资源索引是根资源的标识符,并且子资源索引是子资源的标识符。
通常,响应于用户的输入,客户端请求根资源,并且响应于客户端接收到的根资源的接收(或通过客户端接收到的根资源指引),客户端请求子资源。作为示例,用户将根资源索引输入到网页(或互联网)浏览器中,或选择根资源索引(例如,使用指点设备来点击根资源索引,如链接),并且网页浏览器向服务器发送资源请求,以请求由根资源索引标识的根资源。更具体地,作为示例,根资源是网页,并且根资源索引是网页的URL。网页浏览器向网页服务器发送包括URL的HTTP请求,并且网页服务器返回网页的HTML表示。
网页(或网页的HTML表示)通常包含多个子资源。例如,这样的网页通常包括多个子资源索引,这些子资源索引使网页浏览器(这里是客户端)请求由那些子资源索引标识的子资源。例如,网页包括具有位于该网页外部的资源的HTML元素。作为特定示例,子资源索引可以是以下的URL:图像、视频、其它网页、CSS文件或其它格式编排或标记信息、脚本、追踪服务、web信标、或包括在网页内的其它资源。不依赖于用户的输入,网页浏览器基于子资源索引而发送资源请求,以访问包含在网页中的子资源(例如,图像、视频、其它网页、脚本、追踪服务、web信标、或其它资源)。作为特定示例,网页浏览器解析网页(这里是根资源)并且标识包含在网页中的资源(即,网页的子资源)的URL,并且在没有用户的输入的情况下生成对那些资源的资源请求。在网页浏览器接收到网页(这里是根资源)和子资源之后,网页浏览器向用户显示网页(即,包括在网页本身中的内容和网页的子资源中的内容)。
在一些实现方式中,像网页浏览器这样的客户端可以周期性地刷新资源(例如,发送对资源的后续资源请求),如网页。这对于用更新的或新的内容频繁地更新的资源而言是有用的。例如,网页可以包括指示,该指示引导网页浏览器以特定间隔(例如,每30秒、每分钟、每五分钟、或某一其它间隔)发送包括网页的资源索引的资源请求。可替代地,网页浏览器可以被配置为以特定间隔发送包括网页的资源索引的资源请求。作为又另一示例,网页浏览器可以从服务器接收可获得网页的更新内容的指示,并且响应于该指示,可以发送包括网页的资源索引的资源请求。
在一些实现方式中,包括在每个资源请求(即,为刷新资源而发送的资源请求)中的资源索引可以被称为根资源索引。换句话说,由于资源首先是响应于来自用户的输入而请求的,所以资源可以被认为是根资源,即使其被客户端周期性地刷新。在其它实现方式中,包括在每个资源请求中的资源索引可以被称为子资源。即,由于资源的刷新版本是不依赖于用户输入而请求的,所以包括在每个资源请求中的资源索引可以被称作子资源。
由于资源(例如,根资源)可以包含子资源,所以这些资源可以包括这些资源的管理员的控制之外的内容。这样的内容可以包括图像、视频、文本、脚本、可解释的指令、可执行的指令、或其它数据。在一些实例中,这样的内容可以是恶意的。例如,脚本或一组可执行指令可以被构造为利用软件和/或硬件(例如,客户端)中的安全漏洞。因此,根资源的子资源可以包含根资源的管理员不知道的外部安全威胁。换句话说,包含在根资源中的子资源(例如,根资源包括标识子资源的子资源索引)可以是安全威胁或引起根资源成为安全威胁。
一些实体(例如,公司或企业)使用通信代理(例如,web或HTTP代理)或其它方法来监视信息技术基础架构内由客户端用于访问资源的资源索引。这样的监视可能产生资源请求记录的日志或列表。每个资源请求记录包括关于资源请求的信息,例如由客户端用于请求资源的资源索引。尽管这样的日志或列表可以用于确定客户端是否已访问已知是恶意(或安全威胁)的资源,但是这样的日志或列表不表示哪些资源是(例如,响应于客户端的用户的输入而请求的)根资源,和哪些资源是(例如,响应于根资源的接收而请求的)子资源。换句话说,这样的日志或列表不指示恶意资源是响应于用户输入而访问的还是响应于根资源内包含子资源索引而访问的。
本文介绍的实现方式基于资源请求记录来标识根资源索引和那些根资源索引的子资源索引。因此,本文介绍的实现方式可以确定资源索引是根资源索引还是根资源索引的子资源索引。换句话说,本文介绍的实现方式可以将资源索引分类为根资源索引和子资源索引。
这在标识对恶意资源的访问源时可能是有用的。例如,在资源被知道是恶意的之后,本文介绍的系统和方法可以使用包括在资源请求记录中的资源索引,确定资源是(例如,响应于客户端的用户的输入而请求的)根资源还是(例如,响应于根资源的接收而请求的)子资源。这样的分类可以简化对安全威胁(或是安全威胁的资源或包括安全威胁的资源)是如何访问的确定,和对安全威胁的响应的构成。如果恶意资源是子资源,那么该恶意资源的根资源可以假设为将被破坏或封锁,以防止来自根资源的进一步威胁,或可以向该恶意资源的根资源的管理员通知该根资源包括标识该恶意资源的资源索引。
图1是根据实现方式的包括资源索引分类系统的环境的示意框图。客户端121、122和123是在向托管资源的服务器提供资源请求并从那些服务器接收那些资源的计算设备处托管的软件。客户端121、122和123经由通信代理120和通信链路190访问那些资源。例如,客户端121、122和123经由通信代理120和通信链路191发送资源请求并且接收资源,该资源请求包括标识在服务器处可访问的资源的资源索引。在一些实现方式中,客户端121、122和123经由通信链路190而不经过通信代理来访问资源。
通信代理120是在用作来自客户端的资源请求的中介的计算设备处托管的软件。即,客户端向通信代理120发送资源请求,并且通信代理120经由通信链路190向托管资源的服务器转发那些资源请求。换句话说,通信代理120拦截资源请求。可以通过访问资源请求的副本或资源请求一部分的副本来拦截资源请求。可替代地,可以通过访问资源请求并且随后转发资源请求来拦截资源请求。因此,资源请求可以被拦截,但仍继续去往其期望目的(例如,服务器)。
除了拦截资源请求以外,通信代理120生成所拦截的资源请求的资源请求记录。通常,这样的资源请求记录被存储在可经由通信链路访问的日志中(例如,在服务器处的日志文件中或在SAN(存储区域网络)中)。例如,如图1中说明的,可以由通信代理120生成资源请求记录141,并且经由通信链路190访问资源请求记录141。资源请求记录141可以被存储在通信代理120中,或远离通信代理120而被存储在数据存储系统或服务中。在一些实现方式中,可以从通信代理120将资源请求记录141作为实时流输出。即,在生成资源请求记录141时,可以输出资源请求记录141或经由通信链路190访问资源请求记录141。
资源请求记录是资源请求的记录,并且可以包括与资源请求有关的各种数据。例如,资源请求记录可以包括标识所请求的资源的资源索引、从客户端发送请求记录的时间、发送资源请求的客户端的标识符、或与资源请求有关的其它信息。因此,资源请求记录141描述从客户端121、122和123发送的资源请求。
如上面所介绍的,在一些实现方式中,客户端121、122和123经由通信链路190而不经由通信代理访问资源。在这样的实现方式中或在通信代理120不生成资源请求记录的实现方式中,路由器、交换机、网关、或通信链路190的其它组件可以被配置为用于拦截资源请求的网络分流器,并且向服务器或生成资源请求记录141的服务提供资源请求(或资源请求的副本)。类似于上面介绍的实现方式,资源请求记录141可以实时输出或被存储在数据存储设备或服务中。
通信链路190包括限定客户端121、122和123,资源131、132和133(或托管资源131、132和133的服务器)、托管资源请求记录141的服务器、资源索引分类系统111和/或其它设备或服务之间的通信路径的设备、服务或设备和服务的组合。例如,通信链路190可以包括以下中的一个或多个:线缆(例如,双绞线、同轴电缆或光纤线缆)、无线链路(例如,射频链路、指示链路、光链路或声链路)、或发射或支持信号的传输的任意其它连接器或系统。此外,通信链路190可以包括通信网络,如交换结构、内联网、互联网、电信网络或它们的结合。此外,通信链路190可以包括代理、路由器、交换机、网关、桥、负载均衡器和类似通信设备。此外,图1中说明的并且本文中介绍的连接或通信路径可以是逻辑的或物理的。因此,例如,资源132在物理上可以不连接至通信链路190,但可以经由通信链路190和服务器和/或其它通信链路访问。
资源索引分类系统111访问资源请求记录141,并且将资源索引分类为根资源索引和子资源索引。更具体地,选择引擎112从与特定客户端关联的资源请求记录141(例如,响应于从客户端121发送的资源请求而生成的资源请求记录)选择资源请求记录,并且分类引擎113分析这些资源请求记录,以确定包括在这些资源请求记录中的资源索引是根资源索引还是子资源索引。换句话说,分类引擎113标识所选择的资源请求记录中的根资源索引和子资源索引。选择引擎112和分类引擎113是模块(即,硬件和软件的结合),这些模块是资源索引分类系统111的组件。
尽管像引擎这样的特定模块(即,硬件和软件的结合)是关于图1和其它示例实现方式来介绍和说明的,但是模块的其它结合或子结合可以包括在其它实现方式中。换句话说,尽管图1中说明的和在其它示例实现方式中介绍的模块实施本文介绍的示例中的特定功能,但是可以在不同模块中或在模块的结合中完成、实施或实现这些功能和其它功能。例如,被说明和/或被介绍为分离的两个或更多个模块可以被组合成实施与这两个模块相关介绍的功能的模块。作为另一示例,在关于这些示例介绍的一个模块中实施的功能可以在一个或多个不同的模块中实施。作为特定示例,可以使用一组电子电路和/或光学电路(或电路系统)来实现评估引擎,而不是将评估引擎实现为在存储器中存储的并在处理器处执行的指令。
作为资源索引分类系统的操作的示例,客户端121通过经由通信代理120和通信链路190向托管资源132的服务器提供资源请求,请求对资源132的访问。通信代理120拦截资源请求,并且生成包括在资源请求记录141中的对应资源请求记录。响应于资源请求,向客户端121提供资源132。
如图1中说明的,资源132包含三个内容部分或要素:内容C1、内容C2和内容C3。内容C2在资源132内部或包括在资源132内。即,限定内容C2的数据包括在资源132内。内容C1和内容C3在资源132外部。即,限定内容C1和内容C3的数据包括在其它资源内(这里,分别是资源131和资源133)。更具体地,在图1说明的示例中,内容C1是资源131(或包含来自资源131的数据),并且内容C3是资源133(或包含来自资源133的数据)。作为特定示例,资源132可以在资源132的与内容C1关联的部分中包括标识资源131的资源索引,在资源132的与内容C3关联的部分中包括标识资源133的资源索引。因此,资源131和资源133通过标识资源131和资源133的资源索引而包含在资源132中。例如,资源132可以是网页,其中内容C2包括文本数据,并且内容C1和内容C3包括外部(资源132外部的)图像,并且可分别作为资源131和资源133而经由通信链路190访问。
响应于接收资源132,客户端121发送用于访问资源131和资源133的资源请求。例如,客户端121可以分别将标识资源131的资源索引标识为与内容C1关联,将标识资源133的资源索引标识为与内容C3关联。然后,客户端121可以发送第一资源请求和第二资源请求,第一资源请求包括标识资源131的资源索引,第二资源请求包括标识资源132的资源索引。
通信代理120拦截第一资源请求,并且生成在资源请求记录141中包括的对应资源请求记录。通信代理120还拦截第二资源请求,并且生成在资源请求记录141中包括的对应资源请求记录。随后,响应于这些资源请求,向客户端121发送资源131和资源133。除了由客户端121访问的特定资源以外,客户端122和客户端123也访问资源,并且通信代理120生成与那些资源请求对应的资源请求记录,这些资源请求记录包括在资源请求记录141中。
随后,资源索引分类系统111可以使用资源请求记录141来标识根资源索引和每个被标识的根资源索引的子资源索引。例如,资源索引分类系统111可以实现像图2中说明的方法那样的方法。图2是根据实现方式的资源索引分类方法的流程图。参照图1和图2的要素,资源索引分类系统111(例如,使用选择引擎112)在框210处访问资源请求记录141,并且在框220处选择从特定客户端拦截的资源请求记录。在这样的示例中,资源索引分类系统111访问资源请求记录141并选择与客户端121关联的资源请求记录(例如,响应于由客户端121设置的资源请求而生成的资源请求记录)。例如,资源请求记录141可以包括标识符,如IP地址、MAC地址、主机名、或与每个资源请求记录关联的客户端(或托管客户端的计算设备)的其它标识符,并且资源索引分类系统111可以在框220处访问或过滤资源请求记录141中包括客户端121的标识符的资源请求记录。
随后,资源索引分类系统111可以(例如,利用分类引擎113)可以在框230处标识包括在所选择的资源请求记录中的根资源索引和/或子资源索引。例如,利用像关于图3更详细地介绍的方法那样的回放方法和/或像图4和图5中更详细地介绍的方法那样的时间分析方法。图2中说明的方法200是资源索引分类方法的示例实现方式。在其它实现方式中,资源索引分类方法可以包括与图2中说明的框相比更多的、更少的或重布置的框(或步骤)。例如,资源索引分类方法可以包括在本文的其它示例中介绍的框或步骤。
图3是根据另一实现方式的资源索引分类方法的流程图。方法300可以例如在被托管在计算系统处的资源索引分类系统上实现。在框310处,从一组资源请求记录中选择从特定客户端拦截的资源请求记录。例如,如上面关于图1和图2介绍的,实现方法300的资源索引分类系统的选择模块可以利用该客户端的标识符来选择从特定客户端拦截的资源请求记录,并且资源索引分类系统的分类模块可以实现框320、框330、框340和框350。
随后,在框320处标识候选根资源索引。候选根资源索引是被标识为可能是根资源索引的资源索引,并且可以使用各种方法来标识。例如,通常,一组资源请求中的第一请求(在时间上)或最早的资源请求包括根资源索引(即,第一资源请求是关于根资源的),并且该组中的后续资源请求包括该根资源索引的子资源索引(即,第一资源请求之后一段时间的资源请求是根资源中标识或包含的子资源)。因此,可以以时间顺序设置所选择的资源索引请求(例如,时间上最老的资源索引请求排第一,时间上最近的资源索引请求排最后),并且第一资源索引的资源索引被选择作为候选根资源索引。
作为另一示例,一个或多个启发法可以被应用于在所选择的资源索引请求内包括的资源索引,以标识候选根资源索引。作为特定示例,资源请求可以是HTTP请求,并且资源索引可以是URL。似乎标识在网页中可能嵌入的图像、视频或其它资源的URL可以作为候选根资源索引而被丢弃,并且可以根据包括URL的资源请求记录而在时间上排序其余的URL,并且第一个这样的URL可以是候选根资源索引。换句话说,具有子资源属性的资源索引可以从候选根资源索引的考虑中排除。可以基于每个URL的结构(例如,URL的长度、字符的位置和/或字符的数量)或内容(例如,字符和/或文件扩展名)来标识(或分类)似乎标识在网页中可能嵌入的图像、视频或其它资源的URL。作为基于内容的分类的示例,以与这样的资源关联的文件扩展名结束的URL可以被标识(或被分类)为子索引并被丢弃。类似地,作为基于结构的分类的示例,具有许多正斜杠的URL(其可以表示由特定URL标识的资源不是顶级资源或上级资源)可以被标识为子索引并且被丢弃。作为基于内容的分类的又一示例,可以丢弃包括术语或标识符的URL,如“嵌入”、“内容”、“图像”、“视频”、“媒体”或表示由那些URL标识的资源应嵌入其它资源(如网页)内的其它术语。
作为另一特定示例,似乎表示顶级或上级资源的URL可以被选择作为候选根资源索引。换句话说,对于候选根资源索引的考虑,可以包括具有根资源的属性(例如,基于资源索引的结构或内容)的资源索引。例如,在顶级域名之后不包括正斜杠的URL可以被标识为候选根资源索引。作为另一示例,包括三个或更少的点字符(‘.’)的URL可以被标识为候选根资源索引。作为又一示例,在列表或已知根索引处包括的(例如,众所周知的网站首页,如www.nyt.com,www.cnn.com,等等)的URL可以被标识为候选根资源索引。
作为再一示例,可以选择例如上面介绍的候选根资源索引,并且可以分析包括该候选根资源索引的资源请求记录,以确定资源请求记录是否包括重定向的资源索引。重定向的资源索引是另一资源索引内的资源索引,或是来自资源的响应。换句话说,资源请求记录和/或该候选根资源索引可以被解析,以确定另一资源索引是否包括在资源请求记录内和/或该候选根资源索引内。例如,该候选根资源索引可以标识追踪网页流量的网页追踪资源,并且包括具有标识客户端被重定向至的目标资源的资源索引(即,重定向的资源索引)的查询字符串。可替代地,资源请求记录可以包括重定向信息,如包括客户端应被重定向至的URL(即,重定向的资源索引)的HTTP响应。如果找到重定向的资源索引,则重定向的资源索引可以被标识为候选根资源索引。换句话说,重定向的资源索引变成候选根资源索引。
随后,在框330处,由实现方法300的资源索引分类系统基于候选根资源索引而发送资源请求。在一个实现方式中,资源请求包括候选根资源索引,并且向托管由候选根资源索引标识的资源的服务器发送该资源请求。换句话说,资源索引分类系统回放此资源请求,以模仿在框310处选择的资源请求记录被拦截的客户端的行为。
随后,在框340处,资源索引分类系统确定在框310处选择的资源请求记录(或包括在其中的资源索引)和关联于由候选根资源索引标识的资源的资源索引之间的相关性。例如,资源索引分类系统可以确定在资源中包括的资源索引(即,标识资源的子资源的资源索引)在什么程度上也包括在在框310处选择的资源请求记录中。
框341、框342和框343图示框340的示例实现方式。随后,在框341处,在资源索引分类系统处接收由候选根资源索引标识的资源。在这样的实现方式中,资源索引分类系统可以被配置为模拟客户端,因此发送对由候选根资源索引标识的资源的任何子资源的资源请求。换句话说,由候选根资源索引标识的资源可以包括子资源索引(即,以包含子资源),并且从资源索引分类系统向托管子资源的服务器或多个服务器发送包括那些子资源索引的资源请求,以如上面在图1的示例介绍的那样访问那些子资源。
如在框342处说明的,资源索引分类系统监视响应于资源(即,由候选根资源索引标识的资源)而发送的资源请求。例如,资源索引分类系统可以监视其内部网络通信操作、模仿(或仿效)客户端的软件模块的状态,或可以包括另一系统或与另一系统通信,以监视由资源索引分类系统发送的资源请求。作为特定示例,资源索引分类系统(或其分类模块)可以解析将发送的HTTP请求,并且将资源索引记录在那些HTTP请求内。
资源索引分类系统随后在框343处确定对应于资源请求记录(即,在框310处选择的资源请求记录)的资源请求是否是由资源索引分类系统发送的。如果包括在资源请求中的资源索引对应于包括在资源请求记录中的资源索引(或,匹配包括在资源请求记录中的资源索引、与包括在资源请求记录中的资源索引相同、或与包括在资源请求记录中的资源索引基本相同),则可以说资源请求对应于资源请求记录。因此,在一些实现方式中,在框343处,资源索引分类系统将包括在由资源索引分类系统发送的资源请求中的资源索引与资源请求记录作比较,以确定资源索引分类系统是否发送对应于资源请求记录的资源请求。资源索引分类系统可以确定对应于资源请求记录的资源请求的数量或百分比,以限定资源请求记录和与资源关联的资源索引之间的相关性(例如,与资源关联的资源索引与资源请求记录有多密切相关或在什么程度上相关)。
随后,在框350处,资源索引分类系统基于在框340处的相关性来标识根资源索引和/或子资源索引。作为示例,随后,资源索引分类系统基于资源的子资源,确定由候选根资源索引标识的资源是否似乎是根资源。
更具体地,例如,如果与资源关联的资源索引(即,标识资源的子资源的资源索引)与在资源请求记录中包括的资源索引密切相关,则在框350处,候选根资源索引可以被标识为根资源索引。此外,在框350处,在资源请求记录中包括的对应于与资源关联的资源索引的资源索引可以被标识为根资源索引的子资源索引。
如果与资源关联的资源索引的统计上大部分或百分比对应于在资源请求记录中包括的资源索引(例如,匹配在资源请求记录中包括的资源索引、与在资源请求记录中包括的资源索引相同、或与在资源请求记录中包括的资源索引基本相同),则可以说与资源关联的资源索引与包括在资源请求记录中的资源索引密切相关。例如,如果与对应于在资源请求记录中包括的资源索引的资源关联的资源索引的百分比至少是预定阈值或超过预定阈值,则可以说与资源关联的资源索引与包括在资源请求记录中的资源索引密切相关。作为示例,针对不同资源,预定阈值可以是50%、70%、80%、90%或95%。在其它实现方式中,如果与对应于包括在资源请求记录中的资源索引的资源关联的资源索引的百分比至少是某一其它统计上大的百分比,则可以说与资源关联的资源索引与包括在资源请求记录中的资源索引密切相关。换句话说,如果资源的子资源的大部分是通过包括在资源请求记录中的资源索引标识的,则可以说与资源关联的资源索引与包括在资源请求记录中的资源索引密切相关。
相比之下,如果与资源关联的资源索引不与在资源请求记录中包括的资源索引密切相关,则候选根资源索引可以被确定为不是根资源索引。在一些实现方式中,如果与资源关联的资源索引不与在资源请求记录中包括的资源索引密切相关,则候选根资源索引可以被标识为子资源索引。在一些实现方式中,无论与资源关联的资源索引与包括在资源请求记录中的资源索引的相关性如何,标识资源的子资源的资源索引(即,由候选根资源索引标识的资源)可以被标识为子资源索引。在其它实现方式中,如果与资源关联的资源索引不与包括在资源请求记录中的资源索引密切相关,则标识资源的子资源的资源索引不被标识为子资源索引。
在框360处,如果存在在框310处选择的还未考虑的其它资源请求(例如,在那些资源请求记录中包括的资源索引未被标识为根资源索引或子资源索引),则方法300继续至框320,在框320处标识另一候选根资源索引,并且对候选根资源索引重复框330、框340、框350和框360。这样的迭代可以继续,直至所有资源请求记录都被考虑为止。如果在框360处不存在还未考虑的在框310处选择的其它资源请求记录,则方法300可以完成并终止。在一些实现方式中(未示出),如果在框360处不存在还未考虑的在框310处选择的其它的资源请求记录,则方法300可以返回至框300,以选择从不同客户端拦截的资源请求记录,并且对那些资源请求记录重复框320、框330、框340、框350和框360。
类似于方法200,图3中说明的方法300是资源索引分类方法的示例实现方式。在其它实现方式中,资源索引分类方法可以包括与图3说明的框相比更多、更少、或重设置的框(步骤)。例如,资源索引分类方法可以包括在本文的其它示例中介绍的框或步骤。此外,与其它资源相比,方法300可以更适用于一些资源。例如,与包含的子资源频繁地变化的根资源相比,基于包含的子资源不频繁地变化的根资源,方法300可以更准确地标识根资源索引和/或子资源索引。
作为资源索引分类方法的另一示例,图4是根据另一实现方式的资源索引分类方法的流程图。可以在例如在计算系统处托管的资源索引分类系统上实现方法400。类似于方法300的框310,在框410处,从一组资源请求记录中选择从特定客户端拦截的资源请求记录。随后,在框420和框430处分析资源请求记录,以限定子资源索引和根资源索引的时间窗分类器。
图5是资源请求之间的时间关系的图。更具体地,图5中说明的时间轴显示了客户端请求多个资源的时间(例如,说明以时间顺序设置的在框410处选择的资源请求记录)。例如,根据在对资源请求进行拦截并且在日志中记录每个资源请求的资源请求记录的通信代理处生成的资源请求记录,可以构造时间轴。资源请求记录可以包括在资源请求中包括的资源索引、发送资源请求的客户端的标识符以及拦截资源请求的时间。
资源RESOURCE_0、RESOURCE_10和RESOURCE_20是根资源。资源RESOURCE_1、RESOURCE_2和RESOURCE_3是RESOURCE_0的子资源。资源RESOURCE_11、RESOURCE_12和RESOURCE_13是RESOURCE_10的子资源。资源RESOURCE_21和RESOURCE_22是RESOURCE_20的子资源。在时间t1处请求资源RESOURCE_0,并且在时间t2处接收资源RESOURCE_0。通常,与在客户端处接收资源的时间有关的信息不包括在资源请求记录中,但这些事件在本文中用虚线示出,以有助于理解各种实现方式。类似地,包括在资源本身中的数据或信息通常也不包括在资源请求记录中。因此,可以独立于(例如,不访问)由根资源索引或子资源索引标识的资源而分类或标识根资源索引和子资源索引。
分别在时间t3、t4和t5(例如,由客户端)处请求资源RESOURCE_1、RESOURCE_2和RESOURCE_3。在时间t6处请求资源RESOURCE_10,并且在时间t7处接收RESOURCE_10,。分别在时间t8、t9和t10处请求资源RESOURCE_11、RESOURCE_12和RESOURCE_13。在时间t11处请求资源RESOURCE_20,并且在时间t12接收资源RESOURCE_20。分别在时间t13和时间t14处请求资源RESOURCE_21和RESOURCE_22。
时间窗(或时间段)W1、W2、W11、W12、W21、W22和W31说明客户端的资源请求的典型模式。时间窗W1、W11、W21和W31图示在请求根资源之前从客户端发送较少资源请求或不发送资源请求的时间段。时间窗W2、W12和W12图示在请求根资源(并且随后接收根资源)之后从客户端发送对子资源的多个资源请求的时间段。
更具体地,在被标记为时间窗W1的不活跃或低活跃(即,没有或很少资源请求)的时间段之后,客户端在t1处(即,时间t1)发送对资源RESOURCE_0的资源请求。由于这样的时间段之后的活跃度表示已从客户端发送对根资源的请求,所以这样的时间窗可以说与根资源、根资源索引或对根索引的资源请求关联,或用于根资源、根资源索引或对根索引的资源请求。在t1之后,在时间窗W2期间观察资源请求中的显著增加(通过与在时间窗W1期间观察到的资源请求的数量对比)。在时间窗W2期间观察到的资源请求是对资源RESOURCE_0的子资源的资源请求。换句话说,由于客户端在没有来自客户端的用户的交互的情况下请求根资源的子资源,所以可以在对根资源的请求之后(或响应于对根资源的请求而接收根资源之后)的时间窗内观察到多个资源请求。由于这样的时间窗的特征在于在这些时间窗期间从客户端发送的对子资源的资源请求,所以这样的时间窗可以以说与子资源、子资源索引或对子资源索引的资源请求关联。
通常,与子资源索引关联的时间窗之后是不活跃或低活跃度的根资源索引的时间窗,在该时间窗期间客户端(或客户端的用户)使用(例如,查看、解析或分析)包括任何子资源的完整根资源,如由时间窗W11说明的那样。类似于时间窗W2,时间窗W12和W22与子资源索引关联。类似于时间窗W1和W11,时间窗W21和W31与根资源索引关联。
再次参考图4,可以在框420和框430处分析在框410处选择的资源请求记录,以限定用于子资源索引的第一时间窗分类器和用于根资源索引的第二时间窗分类器。时间窗分类器是描述或特征化时间窗的特征或一组特征。作为示例,这样的特征可以包括时间长度(如,秒数或毫秒数)、资源请求数和/或其它特征。
可以通过沿图5中图示的时间轴分析资源请求记录,限定这样的时间窗分类器。例如,资源索引分类系统可以标识低活跃度或不活跃(这里,较少的资源请求记录)的时间段之后跟随具有活跃度明显增加或突发的短暂时间段。低活跃度或不活跃的时间段期间的资源请求的长度、数量和/或低活跃度或不活跃的时间段的其它特征可以用于限定根资源索引的时间窗分类器。例如,可以对这些特征进行平均或分析以由此得出统计属性,从而限定根资源索引的时间窗分类器。类似地,增加的活跃度的时间段期间的资源请求的长度、数量和/或增加的活跃度的时间段的其它特征可以用于限定子资源索引的时间窗分类器。
在一些实现方式中,像已知根资源索引这样的训练数据(或真实值(groundtruth))可以用于限定根资源索引的时间窗和子资源索引的时间窗之间的边界。这样的边界可以被输入给框420和框430,以改善特征的标识和时间窗分类器的限定。在一些实现方式中,实现方法400的资源索引分类系统可以使用启发法,如上面介绍的那些(例如,资源索引的结构、资源索引的内容或资源索引的结构和内容),以将在资源请求记录中包括的资源索引标记或标识为根资源索引和子资源索引。这样被标记的资源索引可以作为训练数据输入给框420和框430,以改善特征的标识和时间窗分类器的限定。
换句话说,使用机器学习技术,实现方法400的资源索引分类系统可以使用被标记的资源索引,以推断或确定应在什么时间建立根资源索引的时间窗和子资源索引的时间窗之间的边界。即,例如,与包括根资源索引的资源请求记录关联的时间可以被解释为根资源索引的时间窗的结束和子资源索引的时间窗的开始。类似地,与包括子资源索引的一组资源请求记录中最后的资源请求记录关联的时间可以被解释为子资源索引的时间窗的结束和根资源索引的时间窗的开始。随后,资源索引分类系统可以分析根资源索引的时间窗和子资源索引的时间窗的特性,以限定时间窗分类器。换句话说,资源索引分类系统通过描述根资源索引的时间窗和子资源索引的时间窗的特征来限定时间窗分类器。
随后,在框440处,资源索引分类系统使用第一时间窗分类器和第二时间窗分类器来标识根资源索引和/或子资源。即,资源索引分类系统在子资源索引的时间窗内发生时标识与满足第一时间窗分类器的时间窗(即,具有与第一时间窗分类器相同或基本相同的特征的时间窗)内的时间关联的资源请求记录,并且将包括在那些资源请求记录中的资源索引标识或分类为子资源索引。类似地,资源索引分类系统在根资源索引的时间窗内发生时标识与满足第二时间窗分类器的时间窗内的时间关联的资源请求记录,并且将包括在那些资源请求记录中的资源索引标识或分类为根资源索引。
图4中介绍的方法400是资源索引分类方法的示例实现方式。在其它实现方式中,资源索引分类方法可以包括比图4中介绍的框(或步骤)更多、更少或重设置的框(或步骤)。例如,资源索引分类方法可以包括关于图4和/或本文中的其它示例介绍的框或步骤。作为特定示例,在一些实现方式中,方法400可以从框440继续至框410,以选择从不同客户端拦截的资源请求记录。
图6是根据实现方式的托管资源索引分类系统的计算系统的示意框图。在图6图示的示例中,计算系统600包括处理器610、通信接口620和存储器630。计算系统600可以是例如个人计算机(如台式计算机机或笔记本计算机)、平板设备、智能手机、分布式计算系统(例如,单独计算系统的群组、网格或集群)、或某一其它计算系统。在一些实现方式中,托管资源索引分类系统的计算系统自身被称为资源分类系统。
处理器610是执行或解释指令、代码或信号的硬件和软件的任意组合。例如,处理器610可以是微处理器、专用集成电路(ASIC)、图形处理单元(GPU)(如通用GPU(GPGPU))、分布式处理器(如,处理器或计算系统的集群或网络),多核或多处理器的处理器,或虚拟机的虚拟或逻辑处理器。
通信接口620是模块,处理器610能够经由该模块而通过通信链路与其它处理器或计算系统通信。作为特定示例,通信接口620可以包括用于接收和发送数据的网络接口卡和在处理器610处托管的通信协议栈(例如,存储于存储器630处并在处理器610处执行或解释以实现网络协议的指令或代码)。作为特定示例,通信接口620可以是有线接口、无线接口、以太网接口、光纤通道接口、无限带宽(InfiniBand)接口、IEEE802.11接口、或某一其它通信接口的组合,处理器610能够通过这些接口来交换表示数据的信号或符号,以与其它处理器或计算系统通信。
存储器630是存储指令、代码、数据或其它信息的处理器可读介质。如本文所用的,处理器可读介质是非暂时性地存储指令、代码、数据或其它信息并可由处理器直接地或间接地访问的任何介质。换句话说,处理器可读介质是非暂时性介质,处理器能够访问在该非暂时性介质上指令、代码、数据或其它信息。例如,存储器630可以是易失性随机存取存储器(RAM)、永久性数据储存器(如,硬盘或固态硬盘)、光盘(CD)、数字多用途盘(DVD)、安全数码TM(SD)卡、多媒体卡(MMC)卡、压缩闪存TM(CF)卡、或以上存储器或其它存储器的组合。换句话说,存储器630可以表示多个处理器可读介质。在一些实现方式中,存储器630可以与处理器610集成,与处理器610分离,或在计算系统600外部。
存储器630包括指令或代码,该指令或代码在由处理器610执行时执行操作系统631和资源索引分类系统635。存储器630还用于存储资源请求记录636。例如,在操作系统631运行期间,资源请求记录636可以被通信代理存储在存储器630上,并且资源索引分类系统635可以分析资源请求记录636,以标识根资源索引和子资源索引。作为另一示例,计算系统600可以包括(图6中未示出)处理器可读介质访问设备(例如,CD、DVD、SD、MMC或CF驱动器或阅读器),并且可以通过该处理器可读介质访问设备访问另一处理器可读介质处的资源请求记录。作为又一示例,计算系统600可以经由通信接口620访问资源请求记录。
在一些实现方式中,计算系统600可以是虚拟化的计算系统。例如,计算系统600可以作为虚拟机而被托管在计算服务器上。此外,在一些实现方式中,计算系统600可以是计算装置或虚拟化的计算装置,并且操作系统631是支持资源索引分类系统635的最小或刚好够用的操作系统(例如,提供服务,如通信协议栈和对计算系统600的组件(如通信接口620)的访问)。在其它实现方式中,计算系统600可以是例如路由器、网络交换机或实施除与资源索引分类系统有关的功能之外的功能的其它设备。
可以在计算系统600上从各种存储器或处理器可读介质访问或安装资源索引分类系统635。例如,计算系统600可以在远程处理器可读介质处经由通信接口(未示出)访问资源索引分类系统635。作为特定示例,计算系统610可以是在启动过程(或启动序列)期间访问操作系统631和资源索引分类系统635的网络启动设备。
作为另一示例,计算系统600可以包括(图6中未示出)处理器可读介质访问设备(例如,CD、DVD、SD、MMC或CF驱动器或阅读器),并且可以经由该处理器可读介质访问设备来访问处理器可读介质处的资源索引分类系统635。作为更特定的示例,处理器可读介质访问设备可以是DVD驱动器,包括资源索引分类系统635的一个或多个组件的安装包的DVD是在该DVD驱动处可访问的。可以在处理器610处执行或解释安装包,以在计算系统600(例如,在存储器630处和/或在其它处理器可读介质处,如硬盘驱动器处)安装资源索引分类系统635的一个或多个组件。计算系统600随后可以托管或执行资源索引分类系统635。
在一些实现方式中,可以在多个源、位置或资源处访问或从多个源、位置或资源安装资源索引分类系统635(或其组件,如各种模块)。例如,可以通过通信链路(例如,从可通过通信链路和通信接口520访问的文件服务器)安装资源索引分类系统635的一些组件,并且可以从DVD安装资源索引分类系统635的其它组件。
在其它实现方式中,资源索引分类系统635的组件可以分布在多个计算系统上。即,资源索引分类系统635的一些组件可以被托管在一个计算机系统上,资源索引分类系统635的其它组件可以被托管在另一计算系统上。
虽然上面已示出并描述特定实现方式,但是可以作出形式和细节上的各种改变。例如,已关于一个实现方式和/或方法描述的一些特征可以与其它实现方式有关。换句话说,关于一个实现方式描述的方法、特征、组件和/或特性在其它实现方式中可能有用。作为另一示例,上面结合特定模块或元件介绍的功能可以包括在其它实现方式中的不同模块、引擎或元件处。此外,应理解,本文描述的系统、装置和方法可以包括所描述的不同实现方式的组件和/或特征的各种组合和/或子组合。因此,参照一个或多个实现方式描述的特征可以与本文描述的其它实现方式组合。
如本文所用的,术语“模块”指硬件(例如,像集成电路或其它电路这样的处理器)和软件(例如,机器可执行或处理器可执行指令、命令或代码,如固件、程序或对象代码)的组合。硬件和软件的组合包括仅硬件(即,不具有软件元件的硬件元件)、托管在硬件上的软件(例如,在存储器上存储并且在处理器上执行或解释的软件)、或硬件和托管在硬件上的软件。
此外,除非上下文另外明确规定,否则本文所用的单数形式“一”、“一种”和“该”包括复数表示。因此,例如,术语“模块”旨在表示一个或多个模块或模块的组合。此外,本文所用的术语“提供”包括推机制(例如,经由通信路径或通道向计算系统或代理发送数据)、拉机制(例如,响应于来自计算系统或代理的请求而向计算系统或代理传递数据)、和存储机制(例如,在数据存储器或服务处存储数据,计算系统或代理可以访问该数据存储器或服务处的数据)。此外,本文所用的术语“基于”表示“至少部分地基于”。因此,被描述为基于一些原因的特征可以仅基于该原因、或基于该原因及一个或多个其它原因。

Claims (19)

1.一种资源索引分类系统,包括:
选择引擎,用于访问基于从多个客户端拦截的资源请求的多个资源请求记录,所述多个资源请求记录中的每个资源请求记录包括资源索引,并且
用于从所述多个资源请求记录中选择从所述多个客户端中的客户端拦截的资源请求记录;和
分类引擎,用于不依赖于所述客户端而从所述资源请求记录中标识根资源索引和所述根资源索引的多个子资源索引。
2.根据权利要求1所述的系统,其中,所述分类引擎不依赖于与所述资源请求记录关联的资源而标识所述根资源索引的所述多个子资源索引。
3.根据权利要求1所述的系统,其中,所述分类引擎不依赖于与所述资源请求记录关联的资源而标识所述根资源索引和所述根资源索引的所述多个子资源索引。
4.根据权利要求1所述的系统,其中,所述分类引擎:
基于所述资源请求记录来限定子资源索引的时间窗分类器;和
基于所述时间窗分类器来标识所述根资源索引的所述多个子资源索引。
5.根据权利要求1所述的系统,其中,所述分类引擎:
选择所述多个资源请求记录中的资源请求记录处包括的资源索引作为候选根资源索引;
发送包括所述候选根资源索引的资源请求;和
如果响应于所述资源请求而发送对应的资源请求,则将所述多个资源请求记录中的资源请求记录处包括的资源索引标识为所述候选根资源索引的子资源索引。
6.根据权利要求1所述的系统,其中,所述分类引擎:
选择所述多个资源请求记录中的资源请求记录处包括的所述资源索引作为候选根资源索引;
发送包括所述候选根资源索引的资源请求;和
基于与所述资源关联的资源索引和所述资源请求记录之间的相关性,确定所述候选根资源索引是所述根资源索引。
7.根据权利要求1所述的系统,其中,所述分类引擎:
选择所述多个资源请求记录中的资源请求记录处包括的所述资源索引作为候选根资源索引;
确定所述资源请求记录包括重定向的资源索引;和
将所述重定向的资源索引标识为所述候选根资源索引。
8.一种处理器可读介质,存储表示在由处理器执行时引起所述处理器执行以下步骤的指令的代码:
从响应于从多个客户端中的客户端拦截的资源请求而生成的多个资源请求记录中选择资源请求记录,所述多个资源请求记录中的每个资源请求记录包括资源索引;
将所述多个资源请求记录中的资源请求记录处包括的所述资源索引标识为候选根资源索引,所述候选根资源索引与资源关联;
发送包括所述候选根资源索引的资源请求;和
如果响应于所述资源请求而发送对应的资源请求,则将所述多个资源请求记录中的资源请求记录处包括的资源索引标识为所述候选根资源索引的子资源索引。
9.根据权利要求8所述的处理器可读介质,其中,所述候选根资源索引与所述资源请求记录中最早的资源请求记录关联。
10.根据权利要求8所述的处理器可读介质,其中,所述候选根资源索引是基于在所述资源请求记录处包括的所述资源索引的结构、内容、或结构和内容的组合来标识的。
11.根据权利要求8所述的处理器可读介质,进一步包括表示在由所述处理器执行时引起所述处理器执行以下步骤的指令的代码:
基于所述资源索引的结构,将所述多个资源请求记录中的资源请求记录处包括的资源索引标识为所述候选根资源索引的子资源索引。
12.根据权利要求8所述的处理器可读介质,进一步包括表示在由所述处理器执行时引起所述处理器执行以下步骤的指令的代码:
基于所述资源索引的内容,将所述多个资源请求记录中的资源请求记录处包括的资源索引标识为所述候选根资源索引的子资源索引。
13.根据权利要求8所述的处理器可读介质,进一步包括表示在由所述处理器执行时引起所述处理器执行以下步骤的指令的代码:
基于与所述资源关联的资源索引和所述资源请求记录之间的相关性,确定所述候选根资源索引是否是根资源索引。
14.一种处理器可读介质,存储表示在由处理器执行时引起所述处理器执行以下步骤的指令的代码:
从响应于从多个客户端中的客户端拦截的资源请求而生成的多个资源请求记录中选择资源请求记录,所述多个资源请求记录中的每个资源请求记录包括资源索引;
基于所述资源请求记录,限定子资源索引的时间窗分类器;和
基于所述时间窗分类器,标识根资源索引和所述根资源索引的多个子资源索引。
15.根据权利要求14所述的处理器可读介质,其中,所述时间窗分类器是第一时间窗分类器,所述处理器可读介质进一步包括表示在由所述处理器执行时引起所述处理器执行以下步骤的指令的代码:
基于所述资源请求记录,限定根资源索引的第二时间窗分类器,所述根资源索引和所述根资源索引的所述多个子资源索引是基于所述第一时间窗分类器和所述第二时间窗分类器来标识的。
16.根据权利要求14所述的处理器可读介质,进一步包括表示在由所述处理器执行时引起所述处理器执行以下步骤的指令的代码:
基于所述资源请求记录中包括的所述资源索引的结构,标识候选根资源索引和候选子资源索引。
17.根据权利要求14所述的处理器可读介质,进一步包括表示在由所述处理器执行时引起所述处理器执行以下步骤的指令的代码:
基于所述资源请求记录中包括的所述资源索引的结构、内容、或结构和内容的组合,标识候选根资源索引和候选子资源索引。
18.根据权利要求14所述的处理器可读介质,其中,所述根资源索引和所述根资源索引的所述多个子资源索引是基于所述时间窗分类器和所述资源请求记录中包括的所述资源索引的内容来标识的。
19.根据权利要求14所述的处理器可读介质,其中,所述根资源索引和所述根资源索引的所述多个子资源索引是基于所述时间窗分类器和所述资源请求记录中包括的所述资源索引的结构来标识的。
CN201380075929.4A 2013-02-28 2013-02-28 资源索引分类 Pending CN105190598A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2013/028272 WO2014133524A1 (en) 2013-02-28 2013-02-28 Resource reference classification

Publications (1)

Publication Number Publication Date
CN105190598A true CN105190598A (zh) 2015-12-23

Family

ID=51428641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380075929.4A Pending CN105190598A (zh) 2013-02-28 2013-02-28 资源索引分类

Country Status (4)

Country Link
US (1) US20160014041A1 (zh)
EP (1) EP2962212A4 (zh)
CN (1) CN105190598A (zh)
WO (1) WO2014133524A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319653A (zh) * 2017-12-29 2018-07-24 谷米科技有限公司 网页资源文件处理方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11336519B1 (en) * 2015-03-10 2022-05-17 Amazon Technologies, Inc. Evaluating placement configurations for distributed resource placement
US10243957B1 (en) * 2015-08-27 2019-03-26 Amazon Technologies, Inc. Preventing leakage of cookie data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007047300A1 (en) * 2005-10-20 2007-04-26 Oracle International Corporation Managing relationships between resources stored within a repository
CN101187926A (zh) * 2006-11-16 2008-05-28 康佳集团股份有限公司 一种多类型资源的管理方法
US20120089700A1 (en) * 2010-10-10 2012-04-12 Contendo, Inc. Proxy server configured for hierarchical caching and dynamic site acceleration and custom object and associated method
US20120166634A1 (en) * 2008-09-29 2012-06-28 Amazon Technologies, Inc. Monitoring performance and operation of data exchanges

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6466970B1 (en) * 1999-01-27 2002-10-15 International Business Machines Corporation System and method for collecting and analyzing information about content requested in a network (World Wide Web) environment
US20080301562A1 (en) * 2007-04-27 2008-12-04 Josef Berger Systems and Methods for Accelerating Access to Web Resources by Linking Browsers
US20120054824A1 (en) * 2009-04-10 2012-03-01 Ryo Furukawa Access control policy template generating device, system, method and program
US9442810B2 (en) * 2009-07-31 2016-09-13 Paypal, Inc. Cloud computing: unified management console for services and resources in a data center
JP4995950B2 (ja) * 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US8478961B2 (en) * 2011-03-02 2013-07-02 International Business Machines Corporation Dynamic migration of virtual machines based on workload cache demand profiling
US9756108B2 (en) * 2012-05-29 2017-09-05 Google Inc. Preloading resources of a web page
US9135140B2 (en) * 2012-11-30 2015-09-15 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Identifying software responsible for a change in system stability
US8966316B2 (en) * 2012-11-30 2015-02-24 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Identifying software responsible for changes in system stability

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007047300A1 (en) * 2005-10-20 2007-04-26 Oracle International Corporation Managing relationships between resources stored within a repository
CN101187926A (zh) * 2006-11-16 2008-05-28 康佳集团股份有限公司 一种多类型资源的管理方法
US20120166634A1 (en) * 2008-09-29 2012-06-28 Amazon Technologies, Inc. Monitoring performance and operation of data exchanges
US20120089700A1 (en) * 2010-10-10 2012-04-12 Contendo, Inc. Proxy server configured for hierarchical caching and dynamic site acceleration and custom object and associated method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319653A (zh) * 2017-12-29 2018-07-24 谷米科技有限公司 网页资源文件处理方法和装置

Also Published As

Publication number Publication date
US20160014041A1 (en) 2016-01-14
WO2014133524A1 (en) 2014-09-04
EP2962212A4 (en) 2016-09-21
EP2962212A1 (en) 2016-01-06

Similar Documents

Publication Publication Date Title
US10567407B2 (en) Method and system for detecting malicious web addresses
CN106446228B (zh) 一种web页面数据的采集分析方法及装置
US9680856B2 (en) System and methods for scalably identifying and characterizing structural differences between document object models
CN104125209B (zh) 恶意网址提示方法和路由器
Neasbitt et al. Clickminer: Towards forensic reconstruction of user-browser interactions from network traces
CN109905288B (zh) 一种应用服务分类方法及装置
US20180131779A1 (en) Recording And Triggering Web And Native Mobile Application Events With Mapped Data Fields
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN111177519B (zh) 网页内容获取方法、装置、存储介质及设备
US10305760B2 (en) Identifying an analysis reporting message in network traffic
US9740668B1 (en) Plotting webpage loading speeds and altering webpages and a service based on latency and pixel density
US20190163828A1 (en) Method and apparatus for outputting information
CN103827778A (zh) 企业工具增强
CN111885007A (zh) 信息溯源方法、装置、系统及存储介质
Vargas et al. Characterizing JSON Traffic Patterns on a CDN
US10127617B2 (en) System for analyzing social media data and method of analyzing social media data using the same
CN111240847A (zh) 数据处理方法、装置、介质和计算设备
CN105190598A (zh) 资源索引分类
CN110674426B (zh) 网页行为上报方法和装置
WO2014183494A1 (en) Method, apparatus, and system of opening a web page
US10430140B2 (en) Method, apparatus and system for opening a web page
TWI680666B (zh) 網路使用者身份辨識方法與系統
Nicholas et al. Evidence of user behaviour: deep log analysis
US8949350B2 (en) Tracking desktop application referrals to content distributed over a network
CN106095946B (zh) 页面的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20161019

Address after: American Texas

Applicant after: HEWLETT PACKARD ENTERPRISE DEVELOPMENT LP

Address before: American Texas

Applicant before: Hewlett-Packard Development Company, Limited Liability Partnership

WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151223

WD01 Invention patent application deemed withdrawn after publication