CN101212353A - 用于数据获取和分析的系统和方法 - Google Patents

用于数据获取和分析的系统和方法 Download PDF

Info

Publication number
CN101212353A
CN101212353A CNA2007101927471A CN200710192747A CN101212353A CN 101212353 A CN101212353 A CN 101212353A CN A2007101927471 A CNA2007101927471 A CN A2007101927471A CN 200710192747 A CN200710192747 A CN 200710192747A CN 101212353 A CN101212353 A CN 101212353A
Authority
CN
China
Prior art keywords
data
journal file
data element
introducing
session
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101927471A
Other languages
English (en)
Inventor
D·A·斯科特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101212353A publication Critical patent/CN101212353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • H04L67/025Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及用于数据获取和分析的系统和方法,尤其是一种用于捕获数据的方法和计算机程序产品,包括监控由服务于web站点的web服务器所接收的多个引入数据元。将该多个引入数据元的至少一部分写入用于web站点的日志文件。监控多个引出数据元,该引出数据由所述web服务器至少部分地响应于所述引入数据元而传送。将该多个引出数据元的至少一部分写入用于web站点的日志文件。

Description

用于数据获取和分析的系统和方法
技术领域
本公开涉及捕获数据,以及更具体地,涉及捕获由web服务器所接收和传送的数据。
背景技术
可以通过多种技术测试web应用的安全问题,这些技术确定被测试web应用的弱点。例如,当前的技术可以使用例如“爬虫(spider)”或“代理服务器”以通过web应用记录多种路径,并可以分析并生成用于测试该web站点的脚本。
虽然这些方式可以产生有效用于测试不同安全“漏洞”的脚本,但其中存在着缺陷。例如,使用“爬虫”来评估web应用可能产生数据,其包括该web应用可能的交互的许多组合。不利地,这可能导致许多非典型实际使用的应用流程。而且,它们可能错过通过应用的关键流程,因为输送给爬虫的输入数据不够完整以致无法驱动完整的应用。
而且,虽然使用“代理服务器”来记录实际的(执行实际活动的)“人类”用户可能生成模仿现实生活的交互流程,但是执行测试的测试者可能没有充分地记录所有适当的流程。不利地,这可能产生对涉及web站点质量的错误认识。
发明内容
在本公开的第一实施方式中,一种捕获数据的方法包括监控由服务于web站点的web服务器接收的多个引入数据元。将该多个引入数据元的至少一部分写入用于web站点的日志文件。监控多个引出数据元,该多个引出数据元由所述web服务器至少部分地响应于所述引入数据元而传送。将该多个引出数据元的至少一部分写入用于web站点的日志文件。
也可以包括下列一个或多个特征。可将会话标识符指派给引入和引出数据元的一个或多个。可将会话标识符写入用于web站点的日志文件。可将时间戳指派给引入和引出数据元的一个或多个。可将时间戳写入用于web站点的日志文件。引出数据元可包括JavaScript;、cookies、POST数据、HTML代码、ASCII文本、图形单元、二进制数据、可执行数据、XML格式的数据以及格式化的SOAP请求/响应中的一个或多个。引出数据元可以定义由web服务器所服务并包含于该web站点内的web页的至少一部分。
在本公开的另一个实施方式中,一种计算机程序产品包括具有计算机可读程序的计算机可用介质。当在计算机上执行时,该计算机程序产品使该计算机监控由服务于web站点的web服务器接收的多个引入数据元。将该多个引入数据元的至少一部分写入用于web站点的日志文件。监控多个引出数据元,该多个数据元由所述web服务器至少部分地响应于所述引入数据元而传送。将该多个引出数据元的至少一部分写入用于web站点的日志文件。
也可以包括下列一个或多个特征。可将会话标识符指派给引入和引出数据元的一个或多个。可将会话标识符写入用于web站点的日志文件。可将时间戳指派给引入和引出数据元的一个或多个。可将时间戳写入用于web站点的日志文件。引出数据元可包括JavaScript、cookies、POST数据、HTML代码、ASCII文本、图形单元、二进制数据、可执行数据、XML格式的数据以及格式化的SOAP请求/响应中的一个或多个。引出数据元可以定义由web服务器所服务并且包含于该web站点内的web页的至少一部分。
在本公开的另一个实施方式中,一种分析数据的方法包括定义日志文件,其包括由web服务器接收的多个引入数据元,以及该多个引出数据元由所述web服务器至少部分地响应于所述引入数据元而传送。将日志文件解析为单独的会话。
也可以包括下列一个或多个特征。引出数据元可包括JavaScript、cookies、POST数据、HTML代码、ASCII文本、图形单元、二进制数据、可执行数据、XML格式的数据以及格式化的SOAP请求/响应中的一个或多个。引出数据元可以定义由web服务器所服务的web页的至少一部分。日志文件可以包括一个或多个会话标识符,以及一个或多个时间戳。可以确定该web站点的一个或多个部分的一个或多个使用参数。可以确定该web站点的一个或多个部分的一个或多个弱点。
在本公开的另一个实施方式中,一种计算机程序产品包括具有计算机可读程序的计算机可用介质。当在计算机上执行时,该计算机可读程序使该计算机定义日志文件,其包括由web服务器接收的多个引入数据元,以及该多个引出数据元由所述web服务器至少部分地响应于所述引入数据元而传送。将日志文件解析到单独的会话。
也可以包括下列一个或多个特征。引出数据元可包括JavaScript、cookies、POST数据、HTML代码、ASCII文本、图形单元、二进制数据、可执行数据、XML格式的数据以及格式化的SOAP请求/响应中的一个或多个。引出数据元可以定义由web服务器所服务的web页的至少一部分。日志文件可以包括一个或多个会话标识符,以及一个或多个时间戳。可以确定该web站点的一个或多个部分的一个或多个使用参数。可以确定该web站点的一个或多个部分的一个或多个弱点。
根据附图和下文的说明书列出一个或多个实现的细节。从说明书、附图和权利要求中,其他特征和优点将变得显而易见。
附图说明
图1是整体上或部分地由耦接到分布式计算网络中的计算机所执行的数据获取进程的示意图;
图2是由图1的计算机作为主机的web站点的示意图;
图3是图1的数据获取进程的流程图;
图4是由图1的数据获取进程生成的日志文件的示意图;
图5是由图1的数据获取进程生成的经修改的日志文件的示意图;
图6是会话流程的图示;
图7是会话流程的图示;
图8是会话流程的图示;
图9是会话流程的图示;以及
图10是会话流程的图示。
具体实施方式
综述
正如下文将要更详细讨论的,本公开可利用完全地硬件实施方式、完全地软件实施方式或包含硬件单元和软件单元二者的实施方式的形式。在优选的实施方式中,本公开可用软件实现,该软件可包括但不限于固件、驻留软件、微代码等。
而且,本公开可利用从计算机可用或计算机可读介质上可访问的计算机程序产品的形式,该计算机可用或计算机可读介质提供了由计算机或任何指令执行系统所使用或与它们有关的程序代码。为了本说明的目的,计算机可用或计算机可读介质可以是能够包含、存储、通信、传播或传输程序的任何器件,该程序由指令执行系统、器件或设备使用或与它们相关。
该介质可以是电、磁、光、电磁、红外或半导体系统(或器件或设备)或传播媒介。计算机可读介质的例子包括半导体或固态存储器、磁带、可移除计算机磁盘、随机访问存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘。光盘的当前的例子可以包括但不限于,压缩盘只读存储器(CD-ROM)、压缩盘读/写(CD-R/W)和DVD。
适合于存储和/或执行程序代码的数据处理系统可以包括通过系统总线直接或间接耦接到存储器单元的至少一个处理器。存储器单元可以包括在程序代码的实际运行期间被采用的本地存储器、大容量存储设备以及高速缓冲存储器,其可以提供至少一些程序代码的临时存储设备以便减少在执行期间必须从大容量存储设备重新取得代码的次数。
可将输入/输出或I/O设备(包括但不限于键盘、显示器、指点设备等)直接或通过居间的I/O控制器耦接到系统。
也可将网络适配器耦接到系统,以支持数据处理系统变为通过居间的私有或公共网络耦接到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网网卡正是一些当前网络适配器的可用类型。
参考图1,示出了(整体或部分地)驻留于服务器计算机12(例如,单一服务器计算机、多个服务器计算机或通用目的计算机)之中,并由服务器计算机12(整体或部分地)运行的数据获取进程10。正如将在下文更详细讨论的,数据获取进程10可以监控由服务器计算机12接收并传送的全部数据元,并将其记入日志。
可将服务器计算机12耦接到分布式计算网络14(例如,因特网)。计算机系统12可以是例如运行网络操作系统的web服务器,对其的举例可以包括但不限于Microsoft Windows XP ServerTM或Redhat LinuTM
服务器计算机12也可以执行web服务器应用,对其的举例可以包括但不限于Microsoft IISTM,或Apache WebserverTM,其允许经由网络14对服务器计算机12进行HTTP(即,超文本传输协议)访问。可以将网络14耦接到一个或多个次级网络(例如网络16),诸如作为举例,局域网、广域网或企业内部网。此外或可选地,如用虚链路线18所示出的,可将服务器计算机12通过次级网络16耦接到网络14。
可以存储在耦接到服务器计算机12的存储设备20中的数据获取进程10的指令集合和子程序可以由合并到服务器计算机12的一个或多个处理器(未示出)以及一种或多种存储器架构(未示出)来执行。存储设备20可以包括但不限于硬盘驱动器、磁带驱动器、光驱、RAID阵列、随机访问存储器(RAM)或只读存储器(ROM)。可将数据获取进程10合并到上述web服务器应用的小应用程序中。
再参考图2,服务器计算机12可以作为一个或多个web站点(例如web站点100)的主机,其可以包括以可用层次化样式(hierarchicalfashion)布置的一个或多个web页。用户22、24、26、28可以使用一个或多个用户计算设备访问一个或多个web站点(例如web站点100),用户计算设备的例子包括但不限于:例如,用户计算机30、用户计算机32、个人数字助理34、支持数据的蜂窝电话36、膝上计算机(未示出)、笔记本计算机(未示出)、电缆盒(未示出)、电视(未示出)、游戏控制台(未示出)以及专用网络用具(未示出)。
各用户计算机30、用户计算机32、个人数字助理34和支持数据的蜂窝电话36可(分别地)执行客户端应用38、40、42、44,该客户端应用允许例如用户22、24、26、28访问服务器计算机12以及由服务器计算机12作为主机的一个或多个web站点(例如web站点100)。客户端应用38、40、42、44的例子可以包括但不限于诸如Microsoft Internet ExplorerTM、Mozilla FirefoxTM和Netscape NavigatorTM的web浏览器应用。
可以存储在(分别)耦接到用户计算机30、32、个人数字助理34和支持数据的蜂窝电话36的存储设备46、48、50、52的客户端应用38、40、42、44的指令集合和子程序可以由合并入用户计算机30、32、个人数字助理34和支持数据的蜂窝电话36的一个或多个处理器(未示出)以及一个或多个存储器架构(未示出)来执行。存储设备46、48、50、52可以包括但不限于硬盘驱动器、磁带驱动器、光驱、RAID阵列、随机访问存储器(RAM)、只读存储器(ROM)、压缩闪速(CF)存储设备、安全数字(SD)存储设备和记忆棒存储设备。
用户计算机30、32、个人数字助理34和支持数据的蜂窝电话36可以执行操作系统,对其的举例可以包括但不限于Microsoft windowsXPTM,Microsoft Windows MobileTM以及Redhat LinuxTM
各种计算设备(例如,用户计算机30、32;个人数字助理34和支持数据的蜂窝电话36)可以直接或间接地耦接到网络14(或网络16)。例如,示出了将用户计算机32、34经由硬接线网络连接直接耦接到网络14。此外,示出经由建立在个人数字助理34和无线接入点(即,WAP)56的无线通信信道54而耦接到网络14的个人数字助理34,所示出的无线接入点56被直接耦接到网络14。另外,示出了将蜂窝电话36无线地耦接到蜂窝网络/桥58,所示出的蜂窝网络/桥58被直接耦接到网络14。
WAP 56可以是例如IEEE 802.11a、802.11b、802.11g、Wi-Fi和/或蓝牙设备,其能够建立在个人数字助理34和wAP 56之间的安全通信信道54。
众所周知,所有的IEEE802.11x规范使用以太网协议以及具有碰撞避免的载波侦听多路访问(即,CSMA/CA)用于路径共享。各种802.11x规范可以使用例如移相键控(即,PSK)调制或补码键控(即,CCK)调制。众所周知,蓝牙是电信产业标准,其允许例如移动电话、计算机和个人数字助理使用距离无线连接互连。
数据获取进程操作:
正如上文所讨论的,数据获取进程100可以监控由服务器计算机12接收并传送的数据元,并将其记入日志。当用户22、24、26、28访问例如web站点100(例如,分别地经由客户端应用38、40、42、44)的多个部分时,用户计算机30、32、个人数字助理34和支持数据的蜂窝电话36(分别地)可以向服务器计算机12提供引入数据元(例如,数据元60、62、64、66)。这些引入数据元的例子可以包括但不限于web页请求、被键入到包括在例如web站点100的web页内的表单的表单数据、JavaScript、cookies、POST数据、HTML代码、ASCII文本、图形单元、二进制数据、可执行数据、XML格式的数据以及格式化的SOAP请求/响应。
再参看图3,数据获取进程10可以监控150由可以服务于web站点100的服务器计算机12所接收的这些引入数据元(例如,单元60、62、64、66)。可将多个引入数据元(例如,单元60、62、64、66)的至少一部分写入日志文件68,其可以关联于正在进行的数据获取所用于的web站点(例如,web站点100)。
日志文件68可以用多种方式结构化,所有这些方式都被考虑在本公开范围内。例如,日志文件68可以是表格式的ASCII文件,其定义了由数据获取进程10监控150、154的多种数据元。可选地,日志文件68可以是数据库,其中,例如,为每个独特的会话建立记录(将在下文更加详细地讨论)。可将日志文件68存储在耦接到服务器计算机12的存储设备20上。
响应于由服务器计算机12所接收的数据元(例如,单元60、62、64、66),服务器计算机12(特别地,以及上文描述的web服务器应用)通常可以向适当的接收端(例如,用户计算机30、用户计算机32、个人数字助理34、支持数据的蜂窝电话36)传送多个引出数据元(例如,单元70、72、74、76)。
数据获取进程10可以监控154所传送的数据元(例如,单元70、72、74、76)。可将多个引出数据元(例如,单元70、72、74、76)的至少一部分写入156日志文件68,其可以关联于正在进行的数据获取所针对的web站点(例如,web站点100)。这些引出数据元的例子可以包括但不限于JavaScript、cookies、POST数据、HTML代码、ASCII文本、图形单元、二进制数据、可执行数据、XML格式的数据以及格式化的SOAP请求/响应。
例如,假设用户22(经由计算机30)希望访问web站点100的主页102。用户22可以向客户端应用38(其由用户计算机30所执行)输入例如“www.homepage.com”。通过使用多种网络设备(例如,DNA服务器和中间网络设备),可由例如服务器计算机12接收适当的引入数据元(例如,数据元60)。当数据获取进程10正在监控150由服务器计算机12接收的引入数据元时,数据获取进程10可以将所接收的引入数据元写入152日志文件68。日志文件68可以包含例如所接收的实际数据元(例如,对主页200的请求,被输入到包括在例如web站点100的web页中的表单的数据,JavaScript,cookies,POST数据,HTML代码,ASCII文本,图形单元,二进制数据,可执行数据,XML格式的数据,以及格式化的SOAP请求/响应)或定位所接收的数据元的指针(其可以被存储在例如耦接到服务器计算机12的存储设备20中)。
再参看图4,当写入152、156日志文件68时,可以用由服务器计算机12所接收的数据元逐条列记的条目来添加日志文件68。例如,行项目200是对由服务器计算机12所接收的来自用户计算机30的请求的示出,其请求web站点100的主页102。
数据获取进程100可以向在用户计算机30和服务器计算机12之间建立的通信会话指派158会话标识符202。例如,假设为上文所述的通信会话指派158会话标识符“01”。数据获取进程10可以向日志文件68(在行项目200内)写入160会话标识符202。
数据获取进程10还可以向由例如服务器计算机12所接收的引入数据元(例如,数据元60)的一个或多个指派162时间戳204。时间戳204可以是例如一天的实际时间或者允许生成对由服务器计算机12接收并传送的数据元的时间记录的顺序编号方式系统。数据获取进程10可以向日志文件68(在行项目200内)写入64时间戳204(例如,时间00:00)。
正如上文所讨论的,响应于由服务器计算机12接收到引入数据元(例如,单元60、62、64、66),服务器计算机12可以向适当的接收端传送多个引出数据元(例如,单元70、72、74、76)。使用上文所述的例子继续,当用户计算机30请求web站点100的主页102时(在行项目200中),web服务器应用可以通过提供到用户计算机30的引出数据元70(例如,主页102的JavaScript、cookies、POST数据、HTML代码、ASCII文本,图形单元、二进制数据、可执行数据、XML格式的数据和格式化的SOAP请求/响应)而完成该请求。当数据获取进程10正在监控154由服务器计算机12传送的引出数据元时,数据获取进程10可以向日志文件68写入156所传送的引出数据元。由于使用了上文讨论的所接收的数据元,日志文件68可包含例如所传送的实际数据元(例如,主页102的JavaScript、cookies、POST数据、HTML代码、ASCII文本,图形单元、二进制数据、可执行数据、XML格式的数据和格式化的SOAP请求/响应)或定位所传送的数据元的指针(其可以被存储于例如耦接到服务器计算机12的存储设备20上)。
可以用逐条列记了由服务器计算机12传送的数据元的条目向日志文件68添加。例如,行项目202是对响应于前面所接收的对主页102的请求(如在行条目200中定义的)而由服务器计算机12所传送的数据元(例如,引出数据元70)的示出。
以上文所述的例子继续,假设在服务器计算机12向用户计算机30传送数据元70(如同在行条目202中定义的)之前,从也请求web站点100的“主页”102的用户计算机32接收请求。数据获取进程10可以指派158可向日志文件68(在行项目204内)写入160的会话标识符202。因为这是新的通信会话(即,在服务器计算机12和用户计算机32之间的),可指派158新的会话标识符(即,“02”)。数据获取进程10可以进一步指派162可向日志文件68(在行项目204内)写入164的时间戳204(即,00:03)。
监控150所接收的引入数据元、向引入数据元指派158、162会话标识符和时间戳,并向日志文件68写入152引入数据元(如由例如行条目200、204所示出的)的这种过程可以为由服务器计算机12所接收的全部引入数据元而重复。而且,监控154所传送的引出数据元、向引出数据元指派158、162会话标识符和时间戳、并写156该引出数据元(如同由行条目202所示出的)的过程可为由服务器计算机12所传送的全部数据元而重复。
由于包括在日志文件68内的每个“引入”行项目(例如,行项目200)定义了所接收的引入数据元(例如,引入数据元60),其被接收的时间(通过时间戳204)以及用于特定通信会话的会话标识符202,所以包括在日志文件68内的“引入”行项目的总和形成了由服务器计算机12所接收的全部引入数据元的按时间顺序的排列。
而且,由于包括在日志文件68内的每个“引出”行项目(例如,行项目202)定义了所传送的引出数据元(例如,引出数据元70)、其被接收的时间(通过时间戳204)以及用于特定通信会话的会话标识符202,所以包括在日志文件68内的“引出”行项目的总和形成了由服务器计算机12所传送的全部引出数据元的按时间顺序的排列。
因而,在日志文件68内的全部“引入”和“引出”行项目的组合形成了由服务器计算机12所接收和传送的全部数据元的按时间顺序的排列。
例如,对于会话“01”(即,在用户计算机30和服务器计算机12之间的会话),用户22首先请求“主页”102(见行项目200);然后,服务器计算机12提供“主页”102(见行项目202);然后,用户22请求“照片页”104(见行项目206);然后,服务器计算机12提供“照片页”104(见行项目208);然后,用户22请求“照片1”106(见行项目210);然后,服务器计算机12提供“照片1”106(见行项目212);然后,用户22请求“照片2”108(见行项目214);以及,然后,服务器计算机12提供“照片2”108(见行项目216)。
数据获取进程10可以解析166日志文件68,以辅助对日志文件68的处理。作为举例,并再参看图5,可根据会话标识符将日志文件68解析166为分类的日志文件68,继而,生成经修改的日志文件68’。
再参看图5,经修改的日志文件68’可以允许该日志文件的查阅者来快速地确定在每个通信会话期间,由服务器计算机接收并传送了哪些数据元。例如,示出了经修改的日志文件68’,以包括五个分开的会话段250、252、254、256、258,其中每个分别用于通信会话“01”、“02”、“03”、“04”和“05”。
通过查阅经修改的日志文件68’的特定会话段(例如,会话段250、252、254、256、258),查阅者可以容易地确定在特定通信会话期间,由服务器计算机12传送和接收了什么。
作为举例,并且在会话段252中示出的,在通信会话“02”(即,在用户计算机32和服务器计算机12之间的会话)期间:用户计算机32请求“主页”102(见行项目204);然后,服务器计算机12提供“主页”102(见项目262);然后,用户计算机32请求“新闻页”110(见行项目264);以及,然后,服务器计算机12提供“新闻页”110(见行项目266)。
如同在会话段254中示出的,在通信会话“03”(即,在个人数字助理34和服务器计算机12之间的会话)期间:个人数字助理34请求“主页”102(见行项目268);然后,服务器计算机12提供“主页”102(见项目270);然后,个人数字助理34请求“博客页”112(见行项目272);以及,然后,服务器计算机12提供“博客页”112(见行项目274)。
如同在会话段256中示出的,在通信会话“04”(即,在支持数据的蜂窝电话36和服务器计算机12之间的会话)期间:支持数据的蜂窝电话36请求“搜索页”114(见行条目276);以及,然后,服务器计算机12提供“搜索页”114(见项目278)。
会话段258可以表示在服务器计算机12和第五用户计算设备(未示出)之间建立的通信会话。可选地,会话段258可以表示在服务器计算机12和例如个人数字助理34之间建立的后续的通信会话。例如,假设,在行项目274(即,服务器计算机12向个人数字助理34提供“博客页”108)之后,个人数字助理34终止了会话“03”。进一步假设,在时刻01:51(大约32分钟后),个人数字助理34为了另外的数据而联系服务器计算机12。因而,以及如同在会话段258中示出的,在通信会话“05”(即,在个人数字助理34和服务器计算机12之间的第二通信会话)期间:个人数字助理34请求“新闻页”110(见行项目280);然后,服务器计算机12提供“新闻页”110(见项目282);然后,个人数字助理34请求“新闻2”116(见行项目284);以及,然后,服务器计算机12提供“新闻2”116(见行项目286)。
通过处理包括在日志文件68或经修改的日志文件68’中的数据,数据获取进程10可以确定168例如web站点100的使用参数。例如,在11次的服务器计算机12提供例如web页、照片和新闻文章(例如通过引出数据元70、72、74、76)中:“主页”102被提供3次(即,27.27%);“照片页”104被提供1次(即,9.09%);“照片1”106被提供1次(即,9.09%);“照片2”108被提供1次(即,9.09%),“新闻页”110被提供2次(即,18.18%);“博客页”112被提供1次(即,9.09%);“搜索页”114被提供1次(即,9.09%);以及“新闻页2”116被提供1次(即,9.09%)。因而,例如,如果web站点100的维护者具有将花费在维护web站点100上的有限数量的资源,该web站点100的维护者可以关注于维护“主页”102和“新闻页”110,因为它们的相对的高水平的使用率。
此外,通过分析日志文件68和/或经修改的日志文件68’,数据获取进程10可以确定在每个通信会话期间,web站点100的哪个部分被使用。作为举例,并再参看图6的会话“01”的流程图300,针对在用户计算机30和服务器计算机12之间建立的通信会话“01”,由服务器计算机12提供与“主页”102,“照片页”104,“照片1”106,“照片2”108相关联的数据元。作为举例,并再参看图7的会话“02”的流程图350,针对在用户计算机32和服务器计算机12之间建立的通信会话“02”,由服务器计算机12提供同“主页”102,“新闻页”110相关联的数据元。作为举例,并再参看图8的会话“03”的流程图400针对在个人数字助理34和服务器计算机12之间建立的通信会话“03”,由服务器计算机12提供与“主页”102,“博客页”112相关联的数据元。作为举例,并再参看图9的会话“04”的流程图450针对在支持数据的蜂窝电话36和服务器计算机12之间建立的通信会话“04”,由服务器计算机12提供与“搜索页”114相关联的数据元。作为举例,并再参看图10的会话“05”的流程图500针对通信会话“05”(在个人数字助理34和服务器计算机12之间建立的第二通信会话),由服务器计算机12提供与“新闻页”110和“新闻2”116相关联的数据元。
通过处理包括在日志文件68或经修改的日志文件68’中的数据,数据获取进程10可以确定170例如web站点100的一个或多个安全弱点。
应用安全性测试通过例如模拟黑客攻击来评估web站点的安全性。通过评估例如日志文件68和/或经修改的日志文件68’,可以对在例如web站点100内的可能的流量模式加以评估和区分优先次序。例如,对于包括上万数据的页面的大型站点,评估每个页面的安全弱点可能不是对资源的有效使用。例如,假设web站点100有100000个页面(而不是图2中示出的15个页面)。而且,假设由服务器计算机12为web站点100所服务的全部页面中,它们中的65.00%涉及“主页”102。而且,假设由服务器计算机12服务的页面的30.00%涉及“新闻页”110,而余下的5%分布于余下的全部的999998个web页中。当执行用于web站点100的应用安全性测试时,由于其高水平的使用率,可能希望比包含在web站点100内的其他页面更彻底地测试“主页”102和“新闻页”110的安全性。因而,通过分析日志文件68和/或经修改的日志文件68’,可以确定由服务器计算机12所接收的引入数据元(例如,数据元60、62、64、66),以及由服务器计算机12提供的引出数据元(例如,数据元70、72、74、76)。因而,接下来,如同由日志文件68(图4),经修改的日志文件68’(图5),会话“01”流程图300(图6),会话“02”流程图350(图7),会话“03”流程图400(图8),会话“04”流程图450(图9),会话“05”流程图500(图10)中所描绘的,允许生成通过web站点100的“真实世界”流程。继而,可使用这些“真实世界”流程,以制作应用安全性测试流程/脚本,其可在上文讨论的自动和/或手工测试过程(“爬虫”和“代理服务器”)中使用。
虽然,上文将数据获取进程10描述成生成日志文件68,该日志文件可被用于确定168例如web站点100的使用参数,以及确定170例如web站点100的一个或多个安全性弱点,但这并非意在限制本公开,而且将日志文件68的其他使用也考虑在本公开的范围内。例如,可将日志文件68用于性能测试(测试多种工作负载场景),退化测试(测试曾经工作的特征是否依然工作),以及功能测试(测试应用的功能性)。
已经描述了大量的实现。然而,应该理解,可以做出多种修改。因而,其他实现均落在后面的权利要求书范围内。

Claims (22)

1.一种捕获数据的方法,包括:
监控由服务于web站点的web服务器所接收的多个引入数据元;
将所述多个引入数据元的至少一部分写入用于所述web站点的日志文件;
监控多个引出数据元,所述多个引出数据元由所述web服务器至少部分地响应于所述引入数据元而传送;以及
将所述引出数据元的至少一部分写入用于所述web站点的所述日志文件。
2.根据权利要求1所述的方法,进一步包括:
向所述引入数据元和所述引出数据元的一个或多个指派会话标识符;以及
向用于所述web站点的所述日志文件写入所述会话标识符。
3.根据权利要求1所述的方法,进一步包括:
向所述引入数据元和所述引出数据元的一个或多个指派时间戳;以及
向用于所述web站点的所述日志文件写入所述时间戳。
4.根据权利要求1所述的方法,其中所述引出数据元包括以下的一个或多个:JavaScript、cookies、POST数据、HTML代码、ASCII文本、图形单元、二进制数据、可执行数据、XML格式的数据以及格式化的SOAP请求/响应。
5.根据权利要求1所述的方法,其中所述引出数据元定义了由所述web服务器所服务并被包括在所述web站点内的web页的至少一部分。
6.一种数据获取系统,包括:
用于监控由服务于web站点的web服务器所接收的多个引入数据元的装置;
用于将所述多个引入数据元的至少一部分写入用于所述web站点的日志文件的装置;
用于监控多个引出数据元的装置,所述多个引出数据元由所述web服务器至少部分地响应于所述引入数据元而传送;以及
用于将所述多个引出数据元的至少一部分写入用于所述web站点的所述日志文件的装置。
7.根据权利要求6所述的数据获取系统,进一步包括:
用于向所述引入数据元和所述引出数据元的一个或多个指派会话标识符的装置;以及
用于向用于所述web站点的所述日志文件写入所述会话标识符的装置。
8.根据权利要求6所述的数据获取系统,进一步包括:
用于向所述引入数据元和所述引出数据元的一个或多个指派时间戳的装置;以及
用于向用于所述web站点的所述日志文件写入所述时间戳的装置。
9.根据权利要求6所述的数据获取系统,其中所述引出数据元包括以下的一个或多个:JavaScript、cookies、POST数据、HTML代码、ASCII文本、图形单元、二进制数据、可执行数据、XML格式的数据以及格式化的SOAP请求/响应。
10.根据权利要求6所述的数据获取系统,其中所述引出数据元定义了由所述web服务器所服务并被包括在所述web站点内的web页的至少一部分。
11.一种分析数据的方法,包括:
定义日志文件,所述日志文件包括:
由web服务器所接收的多个引入数据元;以及
多个引出数据元,所述多个引出数据元作由所述web服务器至少部分地响应于所述引入数据元而传送;
以及
将所述日志文件解析为单独的会话。
12.根据权利要求11所述的方法,其中所述引出数据元包括以下的一个或多个:JavaScript、cookies、POST数据、HTML代码、ASCII文本、图形单元、二进制数据、可执行数据、XML格式的数据以及格式化的SOAP请求/响应。
13.根据权利要求11所述的方法,其中所述引出数据元定义了由所述web服务器所服务的web页的至少一部分。
14.根据权利要求11所述的方法,其中所述日志文件包括一个或多个会话标识符以及一个或多个时间戳。
15.根据权利要求11所述的方法,进一步包括:
确定针对所述web站点的一个或多个部分的一个或多个使用参数。
16.根据权利要求11所述的方法,进一步包括:
确定针对所述web站点的一个或多个部分的一个或多个弱点。
17.一种数据分析系统,包括:
用于定义日志文件的装置,所述日志文件包括:
由web服务器所接收的多个引入数据元;以及
多个引出数据元,所述多个引出数据元由所述web服务器至少部分地响应于所述引入数据元而传送;
以及
用于将所述日志文件解析为单独的会话的装置。
18.根据权利要求17所述的数据分析系统,其中所述引出数据元包括以下的一个或多个:JavaScript、cookies、POST数据、HTML代码、ASCII文本、图形单元、二进制数据、可执行数据、XML格式的数据以及格式化的SOAP请求/响应。
19.根据权利要求17所述的数据分析系统,其中所述引出数据元定义了由所述web服务器所服务的web页的至少一部分。
20.根据权利要求17所述的数据分析系统,其中所述日志文件包括一个或多个会话标识符以及一个或多个时间戳。
21.根据权利要求17所述的数据分析系统,进一步包括:
用于确定针对所述web站点的一个或多个部分的一个或多个使用参数的装置。
22.根据权利要求17所述的数据分析系统,进一步包括:
用于确定针对所述web站点的一个或多个部分的一个或多个弱点的装置。
CNA2007101927471A 2006-12-28 2007-11-16 用于数据获取和分析的系统和方法 Pending CN101212353A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/617,636 US20080162687A1 (en) 2006-12-28 2006-12-28 Data acquisition system and method
US11/617,636 2006-12-28

Publications (1)

Publication Number Publication Date
CN101212353A true CN101212353A (zh) 2008-07-02

Family

ID=39585570

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101927471A Pending CN101212353A (zh) 2006-12-28 2007-11-16 用于数据获取和分析的系统和方法

Country Status (2)

Country Link
US (1) US20080162687A1 (zh)
CN (1) CN101212353A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104067561A (zh) * 2012-01-24 2014-09-24 国际商业机器公司 通过使用web流量信息动态扫描web应用

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332596A1 (en) * 2012-06-11 2013-12-12 James O. Jones Network traffic tracking
BR112015006653A2 (pt) * 2012-09-28 2017-07-04 Hewlett Packard Development Co sistema de computação, meio de armazenamento legível por máquina não transitório e método
US11032350B2 (en) * 2017-03-15 2021-06-08 Commvault Systems, Inc. Remote commands framework to control clients
US11010261B2 (en) 2017-03-31 2021-05-18 Commvault Systems, Inc. Dynamically allocating streams during restoration of data

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5485409A (en) * 1992-04-30 1996-01-16 International Business Machines Corporation Automated penetration analysis system and method
US5491752A (en) * 1993-03-18 1996-02-13 Digital Equipment Corporation, Patent Law Group System for increasing the difficulty of password guessing attacks in a distributed authentication scheme employing authentication tokens
US6157721A (en) * 1996-08-12 2000-12-05 Intertrust Technologies Corp. Systems and methods using cryptography to protect secure computing environments
US5878417A (en) * 1996-11-20 1999-03-02 International Business Machines Corporation Method and apparatus for network security in browser based interfaces
US6584565B1 (en) * 1997-07-15 2003-06-24 Hewlett-Packard Development Company, L.P. Method and apparatus for long term verification of digital signatures
US6957348B1 (en) * 2000-01-10 2005-10-18 Ncircle Network Security, Inc. Interoperability of vulnerability and intrusion detection systems
US7032114B1 (en) * 2000-08-30 2006-04-18 Symantec Corporation System and method for using signatures to detect computer intrusions
US7228566B2 (en) * 2001-07-10 2007-06-05 Core Sdi, Incorporated Automated computer system security compromise
KR100422802B1 (ko) * 2001-09-05 2004-03-12 한국전자통신연구원 네트워크간의 침입에 대응하기 위한 보안 시스템 및 그 방법
US7076393B2 (en) * 2003-10-03 2006-07-11 Verizon Services Corp. Methods and apparatus for testing dynamic network firewalls
US20050138426A1 (en) * 2003-11-07 2005-06-23 Brian Styslinger Method, system, and apparatus for managing, monitoring, auditing, cataloging, scoring, and improving vulnerability assessment tests, as well as automating retesting efforts and elements of tests
US20050188221A1 (en) * 2004-02-24 2005-08-25 Covelight Systems, Inc. Methods, systems and computer program products for monitoring a server application

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104067561A (zh) * 2012-01-24 2014-09-24 国际商业机器公司 通过使用web流量信息动态扫描web应用
CN104067561B (zh) * 2012-01-24 2018-01-02 国际商业机器公司 用于动态扫描web应用的方法和系统

Also Published As

Publication number Publication date
US20080162687A1 (en) 2008-07-03

Similar Documents

Publication Publication Date Title
US11507450B2 (en) Systems and methods to reprogram mobile devices via a cross-matrix controller to port connection
US11652918B2 (en) Using automatically collected device problem information to route and guide users' requests
CN111522922B (zh) 日志信息查询方法、装置、存储介质及计算机设备
CN101360016B (zh) 自动配置机器人事务回放的方法和系统
CN107678933A (zh) 日志生成管理方法、装置、设备及计算机可读存储介质
CN110768872B (zh) 巡检方法、系统、装置、计算机设备和存储介质
CN103391222B (zh) 网络服务监控系统及方法
CN111008135B (zh) App测试方法、装置、设备及存储介质
Syer et al. Continuous validation of performance test workloads
JP2013016169A (ja) モバイルインターネット活動を監視するシステム、方法、及び装置
Awasthi et al. Welcome pwn: Almond smart home hub forensics
CN101297287A (zh) 获得服务器使用信息
CN105262608A (zh) 用于网络服务的监控方法和装置
CN112311620A (zh) 用于诊断网络的方法、装置、电子设备和可读介质
CN101212353A (zh) 用于数据获取和分析的系统和方法
CN107168844B (zh) 一种性能监控的方法及装置
CN104144084B (zh) 终端状态的监控方法及装置
US20140207935A1 (en) Simulating real user issues in support environments
CN106067879A (zh) 信息的检测方法及装置
CN105530137A (zh) 流量数据分析方法及流量数据分析系统
CN114338684A (zh) 一种能源管理系统及方法
CN112882948A (zh) 一种应用的稳定性测试方法、装置、系统及存储介质
CN105119764A (zh) 用于流量监控的方法和装置
CN109756393B (zh) 信息处理方法、系统、介质和计算设备
CN108133046B (zh) 数据分析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080702