CN110795305A - 用于处理和管理web流量数据的系统、装置和方法 - Google Patents

用于处理和管理web流量数据的系统、装置和方法 Download PDF

Info

Publication number
CN110795305A
CN110795305A CN201910965289.3A CN201910965289A CN110795305A CN 110795305 A CN110795305 A CN 110795305A CN 201910965289 A CN201910965289 A CN 201910965289A CN 110795305 A CN110795305 A CN 110795305A
Authority
CN
China
Prior art keywords
data
format
log data
predetermined
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910965289.3A
Other languages
English (en)
Other versions
CN110795305B (zh
Inventor
常沛强
谭岩
金重勋
安炳铉
朴泰旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanling Co Ltd
Original Assignee
Hanling Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanling Co Ltd filed Critical Hanling Co Ltd
Publication of CN110795305A publication Critical patent/CN110795305A/zh
Application granted granted Critical
Publication of CN110795305B publication Critical patent/CN110795305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Prevention of errors by analysis, debugging or testing of software
    • G06F11/3604Analysis of software for verifying properties of programs
    • G06F11/3608Analysis of software for verifying properties of programs using formal methods, e.g. model checking, abstract interpretation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种收集和验证web流量数据的方法、装置和系统,包括:接收表示有与数据服务交互的设备的活动的预处理日志数据;根据预定的格式验证所述预处理日志数据,所述格式包括指示预定的数据类型的字段以及指示与所述预定的数据类型相关联的预定的验证条件的字段;以及生成与已验证的预处理日志数据相关联的元数据。

Description

用于处理和管理WEB流量数据的系统、装置和方法
技术领域
本公开大致上涉及处理和管理web流量数据。具体而言,本公开的实施例涉及在多用户环境中近实时(near-realtime)地处理和管理数据服务的web流量数据的创新且非常规的系统。
背景技术
数据科学被广泛地用于从客户行为中产生的大量数据中提取洞察力,以推动业务决策。例如,在电子商务(E商务)中,商家利用数据科学来分析客户的在线活动,以预测客户的行为和偏好,从而使商家能够在业务流程中制定采购、销售、库存、运输、交付和其他方面的战略。客户在线活动的主要来源之一是web流量数据,例如使用设备(例如计算机或智能手机)访问web数据服务(例如网站或移动应用程序)的个人的日志数据。在许多情况下,web流量数据可以作为字符串(例如,统一资源标识符或URI)来收集,该字符串记录表示了客户与数据服务交互的有用信息。分析师可以使用收集的web流量数据进行分析。
一些现有的web流量数据收集和分析的解决方案不能适应不同格式的日志数据。对于这些解决方案,如果在不知情的情况下更改日志数据格式,可能会导致下游分析不准确。此外,这些解决方案的不足以可定制来收集各种类型和结构的日志数据。分析师可能需要不同的日志数据格式和内容,或者需要忽略或不再使用某些日志数据格式或内容。但是,这些现有解决方案缺乏这种能力,这可能导致同一个日志数据中出现重复信息。此外,这些解决方案可能无法验证日志数据的正确性,例如所需的格式或所需的数据类型。当日志数据损坏时,这些解决方案可能无法检测并通知日志数据分析师。
因此,需要动态、可定制的和近实时地收集和验证web流量数据。
发明内容
本公开的一个方面涉及一种用于收集和验证web流量数据的系统。所述系统包括存储指令的存储器以及至少一个处理器,该至少一个处理器被配置为执行所述指令以:接收表示与数据服务交互的设备的活动的预处理日志数据;根据预定的格式来验证所述预处理日志数据,所述格式包括指示预定的数据类型的字段以及指示与所述预定的数据类型相关联的预定的验证条件的字段;以及生成与所验证的预处理日志数据相关联的元数据。
本公开的另一个方面涉及一种用于收集和验证web流量数据的计算机实现的方法。该计算机实现的方法包括:通过解析日志数据并且确定所解析的日志数据是否采用预定的数据格式来预处理所述日志数据;基于所述解析的日志数据采用所述预定的数据格式的确定,根据预定的格式来验证所述预处理日志数据;以及基于所述解析的日志数据未采用所述预定的数据格式的确定,生成用于指示预处理错误的警报数据。
本公开的再另一个方面涉及一种用于收集和验证web流量数据的系统。该系统包括存储指令的存储器以及至少一个处理器,该至少一个处理器被配置为执行所述指令以:响应于接收用于创建验证格式的格式配置数据,创建与指示第一状态的指示符相关联的验证格式,所述验证格式包括指示预定的数据类型的字段以及指示与所述预定的数据类型相关联的预定的验证条件的字段;响应于识别所述第一状态,根据测试环境中的所述验证格式来验证测试日志数据;基于在验证所述测试日志数据中未识别出错误的确定,更新所述指示符以指示第二状态;接收表示与生产环境中的数据服务交互的设备的活动的日志数据;通过解析所述日志数据并且确定解析的日志数据是否采用所述验证格式来预处理的所述日志数据;基于所述解析的日志数据未采用所述验证格式的确定,生成用于指示预处理错误的警报数据;基于所述解析的日志数据采用所述验证格式的确定,响应于识别所述第二状态,根据所述验证格式来验证所述预处理日志数据;生成与验证的预处理日志数据相关联的元数据,所述元数据包括所述验证的预处理日志数据的标识符或指示生成所述元数据的时间中的至少一个。
本文还讨论了其他系统、方法和计算机可读介质。
附图说明
图1是与所公开的实施例相一致的用于收集和验证web流量数据的系统的示例性实施例的示意图。
图2是与所公开的实施例相一致的用于配置由图1的系统提供的日志格式的用户界面的示例图。
图3是与所公开的实施例相一致的图1的系统中使用的示例性计算装置的图解图示。
图4是与所公开的实施例相一致的用于收集和验证web流量数据的示例性过程的流程图。
图5是与所公开的实施例相一致的用于创建日志格式的示例过程的流程图。
图6是与所公开的实施例相一致的用于更新日志格式的示例性过程的流程图。
图7是与所公开的实施例相一致的用于收集和验证web流量数据的示例性过程的流程图。
图8是与所公开的实施例相一致的用于创建、更新和使用日志格式来收集和验证web流量数据的示例过程的流程图。
具体实施方式
下面的详细描述引用所附附图。在可能的情况下,相同的参考编号被用于附图中和下面的描述中,以指代相同或类似的部分。虽然本文描述了几个说明性的实施例,但是各种修改、变化和其他的实施例也是可行的。例如,可以对附图中示出的部件和步骤进行替换、添加或修改,并且可以通过替换、重新排序、删除或向所公开的方法中添加步骤来修改本文所描述的说明性的方法。因此,以下详细描述不限于所公开的实施例和示例。相反,本发明的适当范围由所附权利要求限定。
本公开的实施例涉及用于收集、验证和路由web流量数据的系统、装置和方法。根据本文所公开的实施例,系统可以在多用户环境中提供近实时(例如,平均延迟约为1秒)的web流量数据的收集、验证和路由。通过使用与系统通信的不同用户设备,数据服务提供者的工程师、产品所有者、业务分析师或数据科学家可以收集和分析web流量数据。可以采用定制的格式和结构来收集web流量数据,以及然后在用于分析之前进行验证。所述验证可以确保数据的准确性,并且满足动态和定制的需求。
根据本文所公开的实施例,系统可以使用户(例如,分析师)生成和更新各种格式(或称为方案(schema))以收集和验证web流量数据(例如,日志数据)。在一些实施例中,这种格式可以存储在系统(例如,元数据存储装置)中,以根据不同的用户需求进行检索。在一些实施例中,所述系统还可以提供用户界面(例如网页),以用于用户生成或更新格式。当用户输入或更新用户界面中的一个或多个参数时,系统可以自动将这些参数转换为表示格式的特定的程序代码。该程序代码可以存储在系统(例如元数据存储装置)中。在一些实施例中,系统还可以为用户提供搜索特征以查找、查询或过滤特定的格式。在一些实施例中,系统还可以为用户设备提供订阅特征,以订阅由与系统通信的其他用户设备所创建的格式,从而同步不同用户之间的格式的认知,以用于协助分析合作。
在一些实施例中,所述系统还可以提供测试环境和生产环境。测试和生产环境可能具有计算机硬件和软件的类似配置。但是,可以使用所述测试环境来开发和测试新的格式,并且可以使用所述生产环境来实际收集、处理、验证和路由web流量数据。
在一些实施例中,所述系统还可以提供警报特征,当系统的操作期间发生错误(例如验证失败)时,该警报特征可生成警报并将其发送到用户设备。在一些实施例中,系统还可以提供报告特征,该报告特征可以生成关于日志数据使用情况的度量的报告,并将其发送给一组用户的用户设备。
参见图1,其示出了用于收集和验证web流量数据的系统的示例性实施例的示意图。如图1所示,系统100可以包括多种系统,每种系统可以通过一个或多个网络彼此连接。这些系统也可以通过直接连接(例如使用有线网络或无线网络)而彼此连接。所描绘的系统包括日志数据收集器102、日志数据流转换器(streamer)104、日志数据验证器106、控制器108和日志数据存储装置110。日志数据收集器102、日志数据流转换器104、日志数据验证器106、控制器108和日志数据存储装置110中的任何一个都可以实现为计算装置、运行在一个或多个计算装置上的软件模块或仿真计算装置(例如虚拟机)。该仿真计算机装置可以包括硬件(例如,处理器、存储器、存储设备)以及可以提供物理计算机的功能的软件(例如,集成有硬件的操作系统)的任意组合。在一些实施例中,系统100可以托管虚拟私有云(VPC)中的子系统。
在一些实施例中,系统100的组件102-110的任意组合可以实现为单独的计算机或者计算机集群。在一些实施例中,组件102-110的任意组合可以实现为在计算机或计算机集群上运行的软件模块。在一些实施例中,组件102-110的任意组合可以实现为仿真计算装置。在一些实施例中,组件102-110可以实现为任意数量的计算机、软件模块和仿真计算装置的任意组合。在一些实施例中,组件102-110可以实现为分布式计算机系统,该分布式计算机系统包括分布在不同地理区域中的互连的计算机。
在一些实施例中,日志数据收集器102可被实现为接收表示设备(例如,计算机或移动设备)的活动的日志数据的计算机系统,其中该设备与数据服务(例如,网站或移动应用服务器)交互(例如,访问)。日志数据收集器102可以包括可独立地接收日志数据的多计算机系统。例如,所述日志数据可以通过与移动应用服务器交互的个人移动设备(例如,智能手机或平板电脑)上的应用程序来表示购买活动。另一个示例是,所述日志数据可以通过在与网站交互的个人计算机上的浏览器来表示浏览活动。在一些实施例中,所述日志数据可以是记录描述了活动的信息的URI,例如IP地址、设备标识符(例如MAC地址或IMEI号码)、移动应用程序或浏览器的版本号、移动应用程序或浏览器的名称、移动应用程序或浏览器的语言、移动设备或计算机的操作系统的名称、操作系统的版本号、操作系统的时间、个人的位置、被查看的页面(例如,产品页)的标识符、被查看项目(例如,产品)的标识符、被查看项目的供应商(例如,商户的名称)的标识符、被查看项目的价格、个人输入的搜索术语、搜索结果中网页的等级、客户查看该网页或项目的持续时间或任何其他的对预测客户行为有用的有用信息。
在一些实施例中,日志数据收集器102可以通过HTTP协议接收日志数据。在一些实施例中,系统100的用户设备(例如,用户设备112)可以提供用于将日志数据输入到日志数据收集器102中的软件开发套件(SDK)。在一些实施例中,所述用户设备可以是台式计算机、笔记本计算机、移动设备、工作站或任何可以提供接口来输入或输出系统100的用户(例如,数据分析师或开发者)的信息计算设备。SDK可提供接口以反序列化、验证或测量由日志数据收集器102的内部计算设备接收的引入的外部日志数据(例如,来自网站或移动应用服务器)。在一些实施例中,SDK可以提供接口来使用由控制器108提供的规范(例如,日志格式),以反序列化、验证或测量引入的外部日志数据。
在一些实施例中,日志数据流转换器104可以实现为管理系统100的数据流的计算机系统。日志数据流转换器104可以将日志数据收集器102接收到的日志数据转发到日志数据验证器106,并将已验证的日志数据106接收并转发到日志数据存储装置110。例如,日志数据流转换器104可以使用路由表维护目的服务器的IP地址,以便发送和接收日志数据。在一些实施例中,日志数据流转换器104也可以用作数据缓冲器,该数据缓冲器可以均衡系统100中数据的输入/输出(I/O)速率。例如,在高峰时期,web流量可能很大,日志数据输入可能是频发事件。日志数据流转换器104可以控制和平衡系统100的I/O速率,以平衡性能。
在一些实施例中,日志数据验证器106可以实现为从日志数据流转换器104接收日志数据并根据由控制器108提供的日志格式来验证日志数据的计算机系统。如果日志数据被验证,那么日志数据验证器106可以将已验证的日志数据发送回日志数据流转换器104。否则,日志数据验证器106可以向系统100的用户设备(例如用户设备112和用户设备114)发送表示验证错误的警报。在一些实施例中,所述日志数据验证器可以同时处理大量数据。
在一些实施例中,控制器108可以实现为接收和存储已创建的或更新的日志格式并且为日志数据收集器102和日志数据验证器106提供日志格式的计算机系统。在一些实施例中,所述日志格式可以是包括数据类型以及日志数据的每种数据类型的所允许内容的格式,其可以由系统100的用户请求,以用于特定目的。例如,用户设备114可以由分析与电子商务网站交互的个人的客户行为的数据分析师来使用。用户设备114可以由想要将由非人类(例如,web爬虫计算机程序或黑客软件)生成的日志数据进行排除的数据分析师来使用。数据分析师可以使用用户设备114为日志数据定义数据类型和每种数据类型的允许的内容,使得这些数据类型和允许的内容很有可能由真正的人类来生成。例如,数据分析师可以使用用户设备114输入所述日志数据必须包括的浏览器的名称和版本的需求。用户设备114可以提供一个界面来从存储在控制器108中的日志格式中搜索、查看和选择日志格式,以满足分析的需要。日志数据格式可以由系统100的用户(例如通过用户设备112)来创建。用户设备112可以提供接口来创建日志格式并将该日志格式发送到控制器108,控制器108可以存储该日志格式以供以后使用。
在一些实施例中,日志格式可以实现为表示法格式形式,例如JavaScript对象表示法(JSON)格式。该格式可以包括或定义一个或多个数据字段。数据字段可以指定数据类型和数据类型中允许的内容。例如,数据类型可以是字符串类型、整数类型、实数类型、布尔类型或者任何计算机可读数据类型。一个或多个数据字段可以包括不同的数据类型。允许的内容可以根据分析需求进行设置,并且可以不受限或受限于预定的选择。例如,如果数据类型是字符串类型,则允许的内容可能不允许显示不可显示的字符。另一个示例是,如果数据类型是整数类型或实数类型,则允许的内容可能被限制在数字范围。在一些实施例中,日志格式中的数据类型的允许内容可用于配置与数据类型相关的验证条件,该验证条件可由日志数据收集器102和日志数据验证器106使用。在一些实施例中,日志格式可以包括强制性数据字段和可选性数据字段。所述强制性数据字段可以表示指定为由用户创建日志格式所需的日志数据验证的数据字段。可选性数据字段可以表示由用户创建日志格式时指定为可选的数据字段。对于日志数据的具体分析,可能需要强制性数据字段。可选性数据字段可能不是必需的,但对日志数据的具体分析可能有用。
在一些实施例中,日志数据收集器102可以从控制器108接收日志格式,并使用该日志格式来筛选接收到的日志数据。例如,如果日志格式为JSON,则当接收日志数据时,日志数据收集器102可以解析日志数据以确定该日志数据是否是JSON格式。如果解析的日志数据符合JSON格式,则可以接受解析的日志数据并将其转发到日志数据流转换器104。否则,可能会丢弃解析的日志数据。在一些实施例中,如果解析的数据符合JSON格式,则日志数据收集器102可以在接受解析的日志数据之前进一步执行初步验证。日志数据收集器102可以检测解析的日志数据的一些数据字段是否满足初步验证条件。例如,日志数据收集器102可以确定解析的日志数据是否包括表示IP地址的数据字段,如果是,则该数据字段的内容是否包括表示有效的IP地址(例如,IPv4地址)的数据。如果是,则可以接受解析的日志数据。否则,可能会丢弃解析的日志数据。例如,IP地址验证条件可用于区分web流量是来自人类还是黑客软件。如果web流量来自黑客软件,则解析的日志数据可能不包括表示IP地址的字段,或者该字段不包含表示有效的IP地址的内容。通过执行初步验证,日志数据收集器102可以筛选分析师所需的目标日志数据。在一些实施例中,初步验证的过程可以被标准化为传输协议,并且通过要求日志数据收集器102的引入通信来符合传输协议,可以执行初步验证。在一些实施例中,在丢弃未接受的解析日志数据之后,日志数据收集器102可以向系统100的用户设备发送指示解析错误的警报。
在一些实施例中,日志数据验证器106可以从控制器108接收日志格式并且使用该日志格式来验证从日志数据流转换器104接收的解析的日志数据。例如,解析的日志数据可能包括不同的数据字段,例如浏览器名称、浏览器版本、设备ID、语言区域设置或者可以表示浏览活动的日志数据。日志数据验证器106可以使用日志格式来确定解析的数据是否具有日志格式所需的数据部分。例如,如果日志格式需要指示操作系统的类型的字段,并且解析的日志数据不包括表示任何操作系统类型的任何数据部分,则不验证解析后的日志数据。如果解析的数据具有日志格式所需的所有数据部分,则日志数据验证器106可以进一步确定数据部分的内容是否都满足与日志格式的相应数据类型相关联的验证条件。例如,如果解析的日志数据包括表示操作系统类型的数据部分,并且验证条件是操作系统的类型必须是Android或iOS,则如果数据部分包括表示Windows操作系统类型的内容,则不验证解析的日志数据。又例如,如果解析的日志数据包括表示信用卡号的数据部分,并且验证条件是信用卡号的类型必须为整数,则如果数据部分包括字母字符,则不验证解析的日志数据。使用验证条件可以使日志数据的分析师选择特定类型的数据。在上一个示例中,分析师可能只对使用移动设备的客户感兴趣,而对使用计算机的其他客户不感兴趣,那么分析师可以创建包括有要求日志格式字段所指示的操作系统的类型为Android或iOS的验证条件的日志格式,以为此目的提供服务。
在一些实施例中,日志数据存储装置110可以实现为从日志数据流转换器104接收和存储验证的日志数据的计算机系统。在一些实施例中,日志数据存储装置110可以包括使用不同存储架构的一个或多个子系统,例如文件存储子系统、对象存储子系统或块存储子系统。在一些实施例中,日志数据存储装置110可以包括一个或多个数据库或数据仓库。在分析日志数据时,可以从日志数据存储装置110中检索用户设备的日志数据。
在一些实施例中,系统100可以为系统100的用户提供用户界面以创建、更新、搜索、查看或选择日志格式。用户界面可以实现为基于web的配置页面。用户设备可以访问该配置页面,并将其显示为用户的网页。例如,用户设备112可以显示系统100的用户的配置页面,以定义特定的日志格式,并且控制器108可以使用从用户设备112接收的输入来生成表示该格式的计算机可读记号代码。
图2是与所公开的实施例相一致的用于配置由系统100提供的日志格式的用户界面200的示例图。作为一个示例,图2中的用户界面200用于接收日志配置数据,以创建新的日志格式。用户界面200也可用于更新现有的日志格式。在一些实施例中,新的日志格式可以基于另一个日志格式(其被称为“父日志格式”)来创建。例如,用户可以搜索父日志格式,更新该格式,然后将其另存为新的格式。所述父日志格式可以是模板日志格式。
在图2中,用户界面200可以实现为基于web的配置页面。在一些实施例中,配置页面可以由用户设备(例如,用户设备112或用户设备114)来显示,并且通过用户界面200从用户设备接收的输入可以被发送到控制器108,以生成或更新日志格式。用户界面200的每一行表示日志格式中的数据字段。可以为每一行输入日志配置数据的参数。列“名称”显示供用户为数据字段定义名称的位置。列“数据类型”显示供用户从列表中选择与数据字段相关联的数据类型的位置,如整数、字符串或布尔值。列“平台”显示用户指定该数据字段将应用于设备的操作系统的位置。列“Req”显示供用户选择日志格式中的数据字段是强制的还是可选项的位置。例如,如果选中此列的复选框,则该数据字段为强制性字段。否则,该数据字段是可选的。列“Abst”显示供用户将数据字段指定为模板的位置。列“验证”显示供用户定义验证条件的位置。该列中的上部选择列表可用于限制数据字段的内容范围。例如,可以使用“无”来配置为可以接受任何类型的内容来验证相应的数据字段。另一个示例中,可以使用“常量”来配置验证相应的数据字段的可接受的唯一值。另一个示例中,可以使用“其中一个”来配置仅从可接受用于验证相应的数据字段的预定值列表中选择的内容。此列的下部的插入框可用于指定数据字段的允许的内容。如果上部选择列表被选择为“无”,则下部插入框可能留空。如果上部选择列表被选择为“其中一个”,则下部插入框可用于输入预定值的列表,如第四行中的“a、b、c、d”。列“注释”显示供用户插入简要说明或与数据字段相关的任何信息的位置。
在一些实施例中,当用户将所有所需参数输入到用户界面200时,用户可以保存新创建的日志格式,并且系统100可以使用输入参数生成表示法格式文件(例如,JSON文件)。在一些实施例中,用户可以在用户界面200中打开现有的日志格式,并更改任何参数的任何值,然后更新日志格式。在一些实施例中,用户可以删除用户界面200中的现有日志格式。
图3是与所公开的实施例相一致的图1的系统中使用的示例性的计算装置的示意图。图3示出了耦合到网络310的四个计算机302A至302D。应当理解的是,系统100中可以包括与计算机302A至302D类似的任意数量的计算机。图3还示出了两个仿真计算机312和314。仿真计算机312和314可以是虚拟机。仿真计算机312包括计算机302A和302D的组合,并提供物理计算机的功能。仿真计算机314包括计算机302B和302C的组件,即处理器306B、存储器308B和数据库304C的组合,并提供物理计算机的功能。仿真计算机312和314的组件可以通过网络310相互耦合。在一些实施例中,仿真计算机312和314的组件可以动态地改变,例如添加、移除、替换或调整所包含组件的能力。例如,可以动态地调整仿真计算机314以包括处理器306C,从而提高处理能力。再例如,可以动态地调整仿真计算机312以删除数据库304A,从而为系统100中的其他计算机提供额外的存储空间。
在一些实施例中,日志数据收集器102、日志数据流转换器104、日志数据验证器106、控制器108和日志数据存储装置110可以实现为以任意数量的:在计算机302A至302D或仿真计算机312和314上运行的软件模块;专用的硬件设备(如计算机302A至302D);或专用的仿真设备(如仿真计算机312至314)的组合。为了便于解释而不造成歧义,除非另有明确说明,否则以计算机302A为例描述计算机302A至302D的配置。
计算机302A包括数据库304A、处理器306A和存储器308A。存储器308A可以存储处理器306A可执行的指令,以实现收集和验证web流量数据的过程或方法。数据库304A可实现为存储在一个或多个本地或远程计算机或分布式计算机系统中的结构化数据集合的任何形式,并可供其他计算机访问。
处理器306A可以是能够操纵或处理信息的通用或特定的电子设备。例如,处理器306A可以包括任意数量的中央处理单元(或CPU)、图形处理单元(或GPU)、光学处理器、可编程逻辑控制器、微控制器、微处理器、数字信号处理器、知识产权(IP)核、可编程逻辑阵列(PLA)、可编程阵列逻辑(PAL)、通用阵列逻辑(GAL)、复杂可编程逻辑器件(CPLD)、现场可编程门阵列(FPGA)、片上系统(SoC)、专用集成电路(ASIC)以及能够进行数据处理的任何类型的电路。处理器306A也可以是虚拟处理器,该虚拟处理器包括分布在通过网络(例如,网络310)耦合的多个机器或设备上的一个或多个处理器。
存储器308A可以是能够存储处理器306A可访问(例如,通过总线,未示出)的代码和数据的通用或特定的电子设备。例如,存储器308A可以包括任意数量的随机存取存储器(RAM)、只读存储器(ROM)、光盘、磁盘、硬盘、固态驱动器、闪存驱动器、安全数字(SD)卡、存储器条、闪存(CF)卡或任何类型的存储设备的任意组合。所述代码可以包括操作系统(OS)和用于特定任务的一个或多个应用程序(或app)。存储器308A也可以是虚拟存储器,该虚拟存储器包括分布在通过网络(例如,网络310)耦合的多个机器或设备上的一个或多个存储器。
网络310可以是一个或多个公共或私有通信网络。例如,网络310可以包括任意数量的因特网、内联网、局域网(LAN)、广域网(WAN)、城域网(MAN)、虚拟专用网(VPN)、无线网络(例如,符合IEEE 802.11a/b/g/n)、有线网络、租用线路、蜂窝数据网络、以及使用蓝牙连接、红外连接或近场通信(NFC)连接的网络。
将结合图4至图8详细地描述了根据本发明所实现的包装拾取和交付的路由规划的方法、装置和系统。在图4至图8中,过程400、500、600、700和800可以实现为在计算机(例如计算机302A至302D)或仿真计算机(例如仿真计算机312和314)上运行的软件模块。所述软件模块可以包括存储在计算机可读存储介质中的程序代码或指令。所述程序代码或指令可以由处理器读取和执行,以实现上述过程。例如,计算机可读存储介质可以是存储器308A至308D中的任意一个,处理器可以是处理器306A至306D中的任意一个。在一些实施例中,上述过程可以被实现为单独的计算装置,例如计算机302A至302D。在一些实施例中,上述过程可被实现为单独的仿真计算装置,例如仿真计算机312和314。在一些实施例中,上述过程可以实现为上述的软件模块、计算装置和仿真计算装置的组合。
图4是与所公开的实施例相一致的用于收集和验证web流量数据的示例性过程400的流程图。过程400可由至少一个处理器,例如处理器302A至302D的任意组合来执行。在一些实施例中,日志数据验证器106的至少一个处理器可以执行过程400。
在步骤402,至少一个处理器接收表示与数据服务交互的设备的活动的预处理日志数据。在一些实施例中,数据服务可以包括网站或移动应用服务器中的至少一个。在一些实施例中,所述日志数据可以是所述数据服务的统一资源标识符(URI)。在一些实施例中,所述活动可以包括使用设备与数据服务交互的个体的活动。
在一些实施例中,在步骤402之前,日志数据收集器102可以在以下操作中预处理所述日志数据。至少一个处理器可以通过解析日志数据并确定解析的日志数据是否采用预定的数据格式来预处理所述日志数据。在一些实施例中,所述至少一个处理器可以将所述日志数据作为输入,并将所述日志数据分割成多个部分或多个段的数据,以用于进一步的操作。在一些实施例中,所述预定的数据格式可以将日志数据结构为键值(或属性值)对。在一些实施例中,所述预定的数据格式可以是JSON格式。如果所述解析的日志数据采用预定的数据格式,则所述至少一个处理器可以根据预定的格式验证所述预处理日志数据。否则,所述至少一个处理器将生成用于指示预处理错误的警报数据。在一些实施例中,日志数据收集器102可向将用于生成指示所述预处理错误的警报的警报数据发送至系统100的用户设备(例如,图1中的用户设备112或用户设备114)。
在步骤404,至少一个处理器根据预定的格式验证所述预处理日志数据。所述预定的格式可以是与图1相关联的规范中描述的日志格式。在一些实施例中,所述格式可以包括指示预定的数据类型的第一字段以及指示与所述预定的数据类型相关联的预定的验证条件的第二字段。在一些实施例中,所述第一字段和所述第二字段可以采用表示法格式被存储为键值(或属性值)对。在一些实施例中,所述预定的格式可以是JSON格式。
在一些实施例中,所述预定的数据类型可以包括任意数量的字符串类型、整数类型、实数类型或布尔类型的任意组合。在一些实施例中,所述预定的验证条件可以包括以下任意数量的任意组合:当所述数据部分具有所述字符串类型时所述数据部分不具有非字符值、当所述数据部分具有所述整数类型时所述数据部分不具有非整数值、当所述数据部分具有所述实数类型时所述数据部分不具有非数字值、或当所述数据部分具有所述布尔类型时所述数据部分不具有非布尔值。在一些实施例中,所述预定的验证条件可以与使用所述设备来与所述数据服务交互的个体的活动相关联。
在一些实施例中,所述预定的格式可以包括强制性字段或可选性字段中的至少一个。所述强制性数据字段可以表示指定为要求验证所述日志数据的数据字段。所述可选性数据字段可以表示指定为可选地验证所述日志数据的数据字段。与所述强制性字段相关联的预定的验证条件可能要求预处理日志数据包括由所述强制性字段指示的类型的数据部分。与所述可选性字段相关联的预定的验证条件不必要求所述预处理日志数据包含由可选性字段指示的类型的数据部分。
再次参见图4,在步骤406,至少一个处理器生成与验证的预处理日志数据相关联的元数据。在一些实施例中,所述元数据可以包括所述验证的预处理日志数据的标识符或者指示生成所述元数据的时间中的至少一个。在一些实施例中,所述元数据还可以包括与所述数据服务交互的用户使用的设备的IP地址、浏览器的用户代理数据或者交互(例如访问所述数据服务)的参考源的信息中的至少一个。在一些实施例中,所述元数据可以从URI的HTTP报头中确定。
在一些实施例中,在生成所述元数据之后,所述至少一个处理器(例如,日志数据流转换器104的至少一个处理器)可以将所述元数据和验证的日志数据发送到目标存储设备,例如日志数据存储设备110。在一些实施例中,所述至少一个处理器可以根据路由规则(例如,通过检查路由策略)确定存储设备的网络地址(例如,IP地址)是否存在。在一些实施例中,所述路由策略可以包括路由表。在一些实施例中,所述路由表可以对日志数据的类型进行分类,并且每一种类型的日志数据可以与所述存储设备的不同网络地址相关联。如果网络地址存在,则所述至少一个处理器可以将所述元数据和验证的日志数据发送到该网络地址。否则,所述至少一个处理器可以生成指示路由错误的警报数据。在一些实施例中,所述至少一个处理器可以将用于生成指示路由错误的警报的所述警报数据发送至系统100的用户设备(例如,图1中的用户设备112或用户设备114)。
在一些实施例中,所述至少一个处理器还可以配置为创建所述预定的格式。图5是与所公开的实施例相一致的用于创建预定的格式的示例性的过程500的流程图。过程500可以由过程400中的至少一个处理器,例如处理器302A至302D的任意组合来实现。在一些实施例中,控制器108的至少一个处理器可以执行过程500。
在步骤502,至少一个处理器响应于接收用于创建格式的格式配置数据来创建格式。在一些实施例中,所述格式可以与指示第一状态的指示符相关联。在一些实施例中,所述格式可以是与图1相关联的规范中描述的日志格式。在一些实施例中,可以基于日志数据的分析师输入的参数来生成所述格式配置数据。例如,可以使用如图2所示的用户界面200来输入所述参数。在一些实施例中,所述指示符可以是格式中的字段,例如标志或参数。在一些实施例中,所述第一状态可以被设置为表示该格式尚未准备好在生产环境中使用的状态。在一些实施例中,所述第一状态可以包括以下状态中的一种:指示新创建的格式的草稿状态、指示正在审核中的已创建的格式的审核状态或者指示格式无效的过时状态。
在一些实施例中,格式配置数据可以从由用户(例如,数据分析师)输入的系统100的用户设备中接收的格式配置需求来生成。例如,如果所述用户希望专注于在线购买行为分析,则该用户可以使用用户设备(例如,用户设备114)输入仅接受来自移动设备和移动应用服务器之间的交互的web流量数据的格式配置需求。在所述格式配置需求中,用户可以基于将要生成的格式配置数据来指定数据类型、数据字段以及数据类型和字段的约束。在一些实施例中,所述至少一个处理器可以基于启发式或统计量来推断可能或合适的格式配置需求,并通知建议用户添加所述可能或合适的格式配置需求。例如,用户可能希望专注于基于购买行为的社交网络,并且通过用户设备在仅接受来自桌面计算设备和电子商务网站之间交互的web流量数据的格式配置需求中指定。基于启发式或统计量,所述至少一个处理器可以建议添加来自桌面计算设备与电子商务网站刊登广告的社交网络网站之间的交互的web流量数据。
在步骤504,至少一个处理器响应于至少一个处理器识别所述第一状态,根据测试环境中的格式来验证测试日志数据。在一些实施例中,所述测试日志数据可以是用于测试目的的存储数据。所述测试日志数据可以从先前已验证的日志数据中选择,也可以根据测试日志格式来生成。在一些实施例中,所述测试环境可以是如图1所示的系统100的一部分,以用于开发和测试目的。换句话说,所述测试环境可以使用将测试日志数据作为输入的系统100的部分的计算资源,验证测试日志数据,但不存储用于实际分析的已验证的测试日志数据。例如,测试环境可以是为测试目的指定或以其他方式使用的仿真计算设备(例如,仿真计算机312或314)。
在步骤506,如果所述至少一个处理器验证所述测试日志数据为存在错误,则所述至少一个处理器生成用于指示格式创建错误的警报数据。在一些实施例中,所述至少一个处理器可以将用于生成指示格式创建错误的警报的所述警报数据发送至系统100的用户设备(例如,图1中的用户设备112或用户设备114)。
在步骤508,如果至少一个处理器验证所述测试日志数据为不存在任何错误,则所述至少一个处理器更新指示符以指示第二状态。在一些实施例中,所述第二状态可以被设置为表示该格式已准备好在生产环境中使用的状态。在一些实施例中,所述第二状态可以包括以下状态之一:指示正在使用的格式的活动状态,或指示该格式有效但不推荐的弃用状态。
在一些实施例中,所述第一状态和第二状态可以根据开发格式的阶段中进行更新。例如,当新创建格式时,可以将所述指示符设置为待测试的“草稿”状态。当所述格式处于审核(例如,由促使创建这种格式的数据分析师来审核)格式时,可以将所述指示符设置为“正在审核”状态,以指示该指示符正在审核中。例如,如果格式不符合数据分析师的需求,则可以更新或重新创建该格式,在这种情况下,可以将所述指示符重置为“草稿”。当格式获得批准(例如,由数据分析师批准)时,所述指示符可以被设置为指示在生产环境中可用的“活动”状态。当格式过时且必须谨慎使用时,所述指示符可能被设置为“弃用”状态。如果该格式不再过时(例如,由于数据分析中的需求变化),则所述指示符可能在“再次活动”的状态下被重新设置。当不再使用该格式时,所述指示符可能被设置为“过时”状态。在一些实施例中,每当指示符的状态改变时,所述至少一个处理器(例如,控制器108的至少一个处理器)可以通知(例如,通过发送电子邮件)系统100的用户(例如,数据分析师),从而可以同步对所述格式的认知。
在步骤510,至少一个处理器响应于所述至少一个处理器识别所述第二状态,根据生产环境中的所述格式来验证所述预处理日志数据。步骤510可以与过程400中的步骤404类似的方式实现。在一些实施例中,所述生产环境可以是如图1所示的系统100的一部分,用于实际日志数据收集和验证。换句话说,所述生产环境可以使用系统100的部分计算资源,该系统100以实际日志数据为输入,对实际日志数据进行验证,并存储用于实际分析的已验证的实际日志数据。例如,所述生产环境可以是仿真计算设备(例如,仿真计算机312或314)。在一些实施例中,可以将所述生产环境中的日志数据构造为特定的形式(例如,数据仓库格式),并且可以生成额外的数据或元数据(例如,会话数据),以协助其用于分析。
在一些实施例中,为了验证预处理日志数据,所述至少一个处理器可以执行以下操作。至少一个处理器可以确定所述预处理日志数据是否具有预定的数据类型的数据部分,以及所述数据部分的内容是否满足预定的验证条件。如果所述预处理日志数据具有数据部分,则所述至少一个处理器可以将该预处理日志数据确定为已验证的。否则,所述至少一个处理器可以生成用于指示验证错误的警报数据。在一些实施例中,所述至少一个处理器可以将生成指示所述验证错误的警报的所述警报数据发送至系统100的用户设备(例如,图1中的用户设备112或用户设备114)。
在一些实施例中,当日志格式可以包括强制性数据字段和可选性数据字段时,所述至少一个处理器可以检查所述预处理日志数据是否具有强制性字段的数据类型的数据部分,以及所述数据部分的内容是否满足所述强制性字段的验证条件。如果不符合上述任何一个条件,则所述至少一个处理器可以将日志数据确定为未验证的。
在一些实施例中,所述至少一个处理器还可用于更新所述预定的格式。图6是与所公开的实施例相一致的用于更新预定的格式的示例性的过程600的流程图。过程600可以由过程400中的至少一个处理器,例如处理器302A至302D的任意组合来实现。在一些实施例中,控制器108的至少一个处理器可以执行过程600。
在步骤602,至少一个处理器接收用于更新所述预定的格式的格式配置数据。在一些实施例中,可以基于从用户设备接收的参数来生成所述格式配置数据。例如,数据分析师可以将所述参数输入到如图2所示的显示用户界面200的用户设备114。
在步骤604,至少一个处理器根据接收的数据来更新所述预定的格式的字段。例如,所述至少一个处理器可以改变与所述预定的格式的属性对应的属性(或键)或值中的至少一个。
在步骤606,至少一个处理器根据接收的数据来更新与所述预定的格式相关联的指示符。在一些实施例中,所述指示符可以指示步骤504和步骤510中描述的第一状态或第二状态中的一个状态。
图7是与所公开的实施例相一致的用于收集和验证web流量数据的示例性的过程700的流程图。过程700可以由过程400中的至少一个处理器,例如处理器302A至302D的任意组合来实现。在一些实施例中,一个或多个日志数据收集器102、日志数据流转换器104、日志数据验证器106、控制器108或日志数据存储装置110中的至少一个处理器可以执行过程700。
在步骤702,至少一个处理器接收表示与数据服务(例如,网站或移动应用服务器)交互的设备(例如,计算机或移动设备)的活动的日志数据。在一些实施例中,所述日志数据可以是URI。在一些实施例中,日志数据收集器102的至少一个处理器可以执行步骤702。
在步骤704,至少一个处理器解析日志数据。步骤704可根据上面所描述的步骤402来执行。在一些实施例中,所述至少一个处理器可以使用文本解析器将所述日志数据拆分成部分或片段,以进行进一步的操作。在一些实施例中,日志数据收集器102的至少一个处理器可以执行步骤704。
在步骤706,至少一个处理器确定解析的日志数据是否采用预定的数据格式。步骤706可依照上面所描述的步骤402来执行。在一些实施例中,预定的数据格式可以将日志数据结构为键值(或属性值)对。在一些实施例中,所述预定的数据格式可以是JSON格式。在一些实施例中,日志流转换器104中的至少一个处理器可以将日志数据收集器102接收的日志数据转发到日志数据收集器108,日志数据收集器108中的至少一个处理器可以执行步骤706。如果解析的日志数据采用预定的数据格式,则过程700进入步骤708。否则,过程700进入步骤722。
在步骤708,至少一个处理器根据预定的格式验证所述预处理日志数据。步骤708的执行方式可以与过程400中的步骤404类似。在一些实施例中,日志数据验证器106的至少一个处理器可以执行步骤708。
在步骤710,至少一个处理器确定日志数据是否被成功验证。在一些实施例中,日志数据验证器106的至少一个处理器可以执行步骤710。如果日志数据被成功验证,则过程700进入步骤712。否则,过程700进入步骤722。
在步骤712,至少一个处理器生成与已验证的日志数据相关联的元数据。步骤712的执行方式可以与过程400中的步骤406类似。在一些实施例中,日志数据验证器106的至少一个处理器可以执行步骤712。
在步骤714,至少一个处理器根据路由规则(例如,通过检查路由表)确定路由目的地(例如,日志数据存储装置110)的网络地址(例如,IP地址)。步骤714可根据上面所描述的步骤406来执行。在一些实施例中,日志数据流转换器106的至少一个处理器可以执行步骤714。
在步骤716,至少一个处理器确定所述路由目的地的网络地址是否存在并且是否是可路由的。在一些实施例中,日志数据流转换器106的至少一个处理器可以执行步骤716。如果网络地址存在,则过程700进入步骤718。否则,过程700进入步骤722。
在步骤718,至少一个处理器将元数据和已验证的日志数据发送到路由目的地。步骤718可根据上面所描述的步骤406来执行。例如,所述至少一个处理器可以将元数据和已验证的日志数据发送到日志数据存储装置110的网络地址。在一些实施例中,日志数据流转换器106的至少一个处理器可以执行步骤718。
在步骤720,至少一个处理器存储所述元数据和日志数据。在一些实施例中,日志数据存储装置110的至少一个处理器可以执行步骤720。
在步骤722,至少一个处理器生成用于指示错误的警报数据。在一些实施例中,当所述至少一个处理器在步骤706确定解析的日志数据未采用预定的数据格式时,则日志数据收集器102的至少一个处理器可以生成用于指示解析错误的警报数据。在一些实施例中,当所述至少一个处理器在步骤710确定日志数据未被验证时,日志数据验证器106的至少一个处理器可以生成用于指示验证错误的警报数据。在一些实施例中,当所述至少一个处理器在步骤716确定路由目的地的网络地址不存在或者不可路由时,日志数据流转换器104的至少一个处理器可以生成用于指示路由错误的警报数据。
在步骤724,至少一个处理器使用所述警报数据来生成警报并且将警报发送(例如通过电子邮件发送)到系统100的用户设备(例如,图1中的用户设备112或用户设备114)。依据生成警报数据的设备,警报将由不同的设备或子系统发送。例如,日志数据收集器102、日志数据流转换器104和日志数据验证器106可以分别向用户设备发送指示了解析错误、路由错误和验证错误的警报。
图8是与所公开的实施例相一致的用于创建、更新和使用用于收集和验证web流量数据的日志格式的示例性过程的流程图。过程800可以由过程400中的至少一个处理器,例如处理器302A至302D的任意组合来实现。在一些实施例中,日志数据收集器102、日志数据流转换器104、日志数据验证器106、控制器108或日志数据存储装置110中的至少一个处理器可以执行过程800。
在步骤802,至少一个处理器接收创建格式的格式配置需求。在一些实施例中,所述格式可以是与图1相关联的规范中描述的日志格式。所述格式配置需求可以由用户(例如,日志数据分析师)使用用户设备114来生成。例如,所述格式配置需求可以作为文本文件来接收,该文本文件描述有将用于数据解析的目标数据类型和数据字段。所述格式配置需求可以指定强制性字段和可选性字段。在一些实施例中,控制器108的至少一个处理器可以执行步骤802。
在步骤804,至少一个处理器基于接收的格式配置需求来创建格式。在一些实施例中,用户设备112可以向用户(例如,日志数据工程师)提供接口,以基于所述格式配置需求来生成格式配置数据,例如使用如图2所示的用户界面200。基于所述格式配置数据,所述至少一个处理器创建格式。在一些实施例中,控制器108的至少一个处理器可以执行步骤804。
在步骤806,至少一个处理器接收已创建的格式的审核数据。在一些实施例中,用户设备114可向用户提供接口以审核所述已创建的格式,从而确定该已创建的格式是否符合格式配置需求并且生成所述审核数据。例如,所述审核数据可以是评论、修订、更新的要求或审核已创建的格式后的任何信息。如果需要修订,则过程800可以返回步骤804,在步骤804中,至少一个处理器基于审核数据更新或重新创建格式。在一些实施例中,控制器108的至少一个处理器可以执行步骤806。
在步骤808,至少一个处理器根据测试环境中的格式来验证测试日志数据。步骤808的执行方式可与步骤504类似。在一些实施例中,控制器108的至少一个处理器可以执行步骤808。如果所述测试日志数据被验证为具有错误,则至少一个处理器可以生成警报数据,并且过程800可以返回步骤804,以更新或重新创建格式。
在步骤810,如果所述至少一个处理器将所述测试日志数据验证为没有任何错误,则所述至少一个处理器更新与所述格式相关联的指示符,以指示所述格式可用于生产环境。换句话说,所述已创建的格式符合使用的格式配置需求。在一些实施例中,至少一个处理器可以在接收到来自用户设备112的指令之后更新所述指示符。在一些实施例中,控制器108的至少一个处理器可以执行步骤810。
在步骤812,至少一个处理器接收生产环境中的日志数据。在一些实施例中,日志数据收集器102的至少一个处理器可以执行步骤812。在一些实施例中,用户设备(例如,用户设备112或用户设备114)可以向用户提供接口,以使用SDK来反序列化、验证或测量将由日志数据收集器102接收的引入的日志数据。在一些实施例中,所述SDK可以提供接口来使用控制器108提供的规范(例如,日志格式)来反序列化、验证或测量所述引入的日志数据。在一些实施例中,所述至少一个处理器可以预处理所述日志数据,例如,通过解析所述日志数据并且确定解析的日志数据是否在创建的格式中来预处理所述日志数据。
在步骤814,至少一个处理器根据生产环境中的创建的格式来验证已接收的日志数据。步骤814可以与步骤404类似的方式执行。在一些实施例中,日志数据验证器106的至少一个处理器可以执行步骤814。
在步骤816,至少一个处理器存储已验证的日志数据以供将来分析。在一些实施例中,所述至少一个处理器可以将已验证的日志数据存储在日志数据存储装置110中。在一些实施例中,日志数据存储装置110的至少一个处理器可以执行步骤816。在一些实施例中,用户设备114可向用户提供接口以从日志数据存储装置110中检索已验证的日志数据,从而进行分析。
在一些实施例中,在过程800中,系统100的用户设备(例如,用户设备112和用户设备114)可以提供使用户订阅创建的格式的通知从而接收格式的开发更新的方式(例如,加入电子邮件列表)。例如,当至少一个处理器从用户设备114接收格式配置需求时,用户设备112可以接收通知(例如,电子邮件)。当根据格式配置需求来创建格式时,用户设备114可以接收到通知,并且开始审核。当用户设备114完成审核并且至少一个处理器接收审核数据时,用户设备112可以接收通知。并决定更新创建的格式或者进行测试。当格式通过测试并且在生产环境中变为可用时,系统100的所有用户设备可以接收通知,随后它们可以列出、查看和搜索新的可用的格式。
虽然已结合本发明的具体实施例来展示并描述了本发明,但应理解的是,本发明可在不作修改的情况下在其他环境中实施。为说明的目的而提出了上述说明。其并不是详尽的,并且不限于所公开的精确形式或实施例。通过考虑所公开的实施例的说明书和实践,对本领域技术人员来说,修改和调整将是明了的。此外,尽管所公开的实施例的方面被描述为存储在存储器中,但本领域技术人员应当理解,这些方面也可以存储在其他类型的计算机可读介质中,例如辅助存储设备,例如硬盘或CD ROM,或RAM或ROM的其他形式、USB介质、DVD、蓝光或其他光驱动介质中。
基于书面的描述和公开方法的计算机程序在经验丰富的开发者的技能范围以内。各种程序或程序模块可使用本领域技术人员已知的任何技术来创建,或者可结合现有软件进行设计。例如,程序部分或程序模块可以在或者通过.Net Framework、.Net CompactFramework(以及相关语言,如Visual Basic、C等)、Java、C++、Object-C、HTML、HTML/AJAX组合、XML或包含Java小程序的HTML中进行设计。
此外,虽然在此已经描述了说明性的实施例,但本领域技术人员根据本发明可以理解任何和所有的具有等同元素、修改、省略、组合(例如,各个实施例的方面的组合)、变化和/或修改的实施例的范围。对权利要求中的限制应根据该权利要求中使用的措词进行广义的解释,而不限于说明书中或在申请的审查期间所描述的示例。这些示例将被解释为非排他性的。此外,可以以任何方式修改所公开的方法的步骤,包括通过重新排序步骤和/或插入或删除步骤。因此,本发明的说明书和示例仅被视为说明性的,其实际的保护范围和精神由所附权利要求及其等同的所有范围指定。

Claims (20)

1.一种用于收集和验证web流量数据的系统,包括:
存储器,存储指令;以及
至少一个处理器,其被配置为执行所述指令以:
接收表示与数据服务交互的设备的活动的预处理日志数据;
根据预定的格式来验证所述预处理日志数据,所述格式包括指示预定的数据类型的字段以及指示与所述预定的数据类型相关联的预定的验证条件的字段;以及
生成与所验证的预处理日志数据相关联的元数据。
2.根据权利要求1所述的系统,其特征在于,所述至少一个处理器还被配置为执行所述指令以:
通过解析所述日志数据并且确定所解析的日志数据是否采用预定的数据格式来预处理所述日志数据;
基于所述解析的日志数据采用所述预定的数据格式的确定,根据所述预定的格式来验证所述预处理日志数据;以及
基于所述解析的日志数据未采用所述预定的数据格式的确定,生成用于指示预处理错误的警报数据。
3.根据权利要求1所述的系统,其特征在于,所述至少一个处理器还被配置为通过执行所述指令以进行以下动作来创建所述预定的格式:
响应于接收用于创建格式的格式配置数据来创建所述格式,其中,所述格式与指示第一状态的指示符相关联;
响应于识别所述第一状态,根据测试环境中的所述格式来验证测试日志数据;
基于所述至少一个处理器验证所述测试日志数据具有错误的确定,生成用于指示格式创建错误的警报数据;
基于所述至少一个处理器验证所述测试日志数据不具有任何错误的确定,更新所述指示符以指示第二状态;以及
响应于识别所述第二状态,根据生产环境中的所述格式来验证所述预处理日志数据。
4.根据权利要求3所述的系统,其特征在于,所述至少一个处理器还被配置为通过执行所述指令以进行以下动作来根据所述格式配置数据更新所述预定的格式:
接收用于更新所述预定的格式的所述格式配置数据;
根据所接收的数据来更新所述预定的格式的字段;以及
根据所述接收的数据来更新与所述预定的格式相关联的指示符,其中,所述指示符指示所述第一状态或第二状态之一。
5.根据权利要求3所述的系统,其特征在于,所述至少一个处理器还被配置为执行所述指令以:
确定所述预处理日志数据是否具有数据部分,其中,所述数据部分具有所述预定的数据类型以及所述数据部分的内容满足所述预定的验证条件;
基于所述预处理日志数据具有所述数据部分的确定,将所述预处理日志数据确定为已验证的;以及
基于所述预处理日志数据不具有所述数据部分的确定,生成用于指示验证错误的警报数据。
6.根据权利要求3所述的系统,其特征在于,
所述第一状态包括指示新创建的格式的草稿状态、指示所创建的格式正在被审核的审核状态或指示格式无效的过时状态之一;以及
所述第二状态包括指示格式正在被使用的活动状态或指示格式有效但不被推荐的弃用状态之一。
7.根据权利要求1所述的系统,其特征在于,所述预定的格式包括强制性字段或可选性字段中的至少一个;
与所述强制性字段相关联的预定的验证条件要求所述预处理日志数据包括由所述强制性字段所指示的类型的数据部分;以及
与所述可选性字段相关联的预定的验证条件不要求所述预处理日志数据包括由所述可选性字段所指示的类型的数据部分。
8.根据权利要求1所述的系统,其特征在于,所述预定的验证条件与使用所述设备来与所述数据服务交互的个体的活动相关联。
9.根据权利要求1所述的系统,其特征在于,所述预定的数据类型包括字符串类型、整数类型、实数类型或布尔类型中的至少一个;
所述预定的验证条件包括以下中的至少一个:当所述数据部分具有所述字符串类型时所述数据部分不具有非字符值、当所述数据部分具有所述整数类型时所述数据部分不具有非整数值、当所述数据部分具有所述实数类型时所述数据部分不具有非数字值、或当所述数据部分具有所述布尔类型时所述数据部分不具有非布尔值。
10.根据权利要求1所述的系统,其特征在于,所述数据服务包括网站或移动应用服务器中的至少一个;
所述日志数据包括所述数据服务的统一资源标识符;以及
所述预定的格式包括JavaScript对象表示法(JSON)格式。
11.根据权利要求1所述的系统,其特征在于,所述元数据包括所述验证的预处理日志数据的标识符或指示生成所述元数据的时间中的至少一个。
12.一种用于收集和验证web流量数据的计算机实现的方法,包括:
接收表示与数据服务交互的设备的活动的预处理日志数据;
根据预定的格式来验证所述预处理日志数据,所述格式包括指示预定的数据类型的字段以及指示与所述预定的数据类型相关联的预定的验证条件的字段;以及
生成与验证的预处理日志数据相关联的元数据。
13.根据权利要求12所述的计算机实现的方法,还包括:
通过解析所述日志数据并且确定所解析的日志数据是否采用预定的数据格式来预处理所述日志数据;
基于所述解析的日志数据采用所述预定的数据格式的确定,根据预定的格式来验证所述预处理日志数据;以及
基于所述解析的日志数据未采用所述预定的数据格式的确定,生成用于指示预处理错误的警报数据。
14.根据权利要求12所述的计算机实现的方法,其特征在于,所述预定的格式通过以下来确定:
响应于接收用于创建格式的格式配置数据来创建所述格式,其中,所述格式与指示第一状态的指示符相关联;
响应于识别所述第一状态,根据测试环境中的所述格式来验证测试日志数据;
基于在验证所述测试日志数据中未识别出错误的确定,更新所述指示符以指示第二状态;以及
响应于识别所述第二状态,根据生产环境中的所述格式来验证所述预处理日志数据。
15.根据权利要求12所述的计算机实现的方法,其特征在于,所述预定的格式通过以下来更新:
接收用于更新所述预定的格式的所述格式配置数据;
根据所接收的数据来更新所述预定的格式的字段;以及
根据所述接收的数据来更新与所述预定的格式相关联的指示符,其中,所述指示符指示所述第一状态或第二状态之一。
16.根据权利要求12所述的计算机实现的方法,其特征在于,根据所述预定的格式来验证所述预处理日志数据还包括:
确定所述预处理日志数据是否具有数据部分,其中,所述数据部分具有所述预定的数据类型以及所述数据部分的内容满足所述预定的验证条件;
基于所述预处理日志数据具有所述数据部分的确定,将所述预处理日志数据确定为已验证的;以及
基于所述预处理日志数据不具有所述数据部分的确定,生成用于指示验证错误的警报数据。
17.根据权利要求16所述的方法,其特征在于,所述预定的验证条件与使用所述设备来与所述数据服务交互的个体的活动相关联。
18.根据权利要求12所述的方法,其特征在于,所述预定的格式包括强制性字段或可选性字段中的至少一个;
与所述强制性字段相关联的预定的验证条件要求所述预处理日志数据包括由所述强制性字段指示的类型的数据部分;以及
与所述可选性字段相关联的预定的验证条件不要求所述预处理日志数据包括由所述可选性字段指示的类型的数据部分。
19.一种用于收集和验证web流量数据的系统,包括:
存储器,存储指令;以及
至少一个处理器,其被配置为执行所述指令以:
响应于接收用于创建验证格式的格式配置数据,创建与指示第一状态的指示符相关联的验证格式,所述验证格式包括指示预定的数据类型的字段以及指示与所述预定的数据类型相关联的预定的验证条件的字段;
响应于识别所述第一状态,根据测试环境中的所述验证格式来验证测试日志数据;
基于在验证所述测试日志数据中未识别出错误的确定,更新所述指示符以指示第二状态;
接收表示与生产环境中的数据服务交互的设备的活动的日志数据;
通过解析所述日志数据并且确定所解析的日志数据是否采用所述验证格式来预处理所述日志数据;
基于所述解析的日志数据未采用所述验证格式的确定,生成用于指示预处理错误的警报数据;
基于所述解析的日志数据采用所述验证格式的确定,响应于识别所述第二状态,根据所述验证格式来验证所述预处理日志数据;以及
生成与验证的预处理日志数据相关联的元数据,所述元数据包括所述验证的预处理日志数据的标识符或指示生成所述元数据的时间中的至少一个。
20.根据权利要求19所述的系统,其特征在于,配置为根据所述验证格式来验证所述预处理日志数据的所述至少一个处理器还被配置为执行所述指令以:
确定所述预处理日志数据是否具有数据部分,其中,所述数据部分具有所述预定的数据类型以及所述数据部分的内容满足所述预定的验证条件;
基于所述预处理日志数据具有所述数据部分的确定,将所述预处理日志数据确定为已验证的;以及
基于所述预处理日志数据不具有所述数据部分的确定,生成用于指示验证错误的警报数据。
CN201910965289.3A 2019-04-09 2019-10-11 用于处理和管理web流量数据的系统、装置和方法 Active CN110795305B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/379,761 US10769220B1 (en) 2019-04-09 2019-04-09 Systems, apparatuses, and methods of processing and managing web traffic data
US16/379,761 2019-04-09

Publications (2)

Publication Number Publication Date
CN110795305A true CN110795305A (zh) 2020-02-14
CN110795305B CN110795305B (zh) 2024-04-02

Family

ID=69439183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910965289.3A Active CN110795305B (zh) 2019-04-09 2019-10-11 用于处理和管理web流量数据的系统、装置和方法

Country Status (9)

Country Link
US (2) US10769220B1 (zh)
JP (1) JP7161538B2 (zh)
KR (2) KR102369238B1 (zh)
CN (1) CN110795305B (zh)
AU (1) AU2020264292A1 (zh)
PH (1) PH12020551834A1 (zh)
SG (1) SG11202011566YA (zh)
TW (2) TWI729763B (zh)
WO (1) WO2020208467A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102349495B1 (ko) * 2020-11-18 2022-01-11 쿠팡 주식회사 가상 서버들로부터 대용량 로그 파일들을 프로세싱하는 컴퓨터 시스템 및 방법.
US11032158B1 (en) 2020-11-18 2021-06-08 Coupang Corp. Computerized systems and methods for processing high-volume log files from virtual servers
CN114817357A (zh) * 2022-03-09 2022-07-29 北京中交兴路信息科技有限公司 数据处理方法、装置、电子设备、存储介质及系统
CN114880049A (zh) * 2022-03-09 2022-08-09 深圳萨摩耶数字科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN116974948B (zh) * 2023-09-22 2024-01-09 腾讯科技(深圳)有限公司 业务系统测试方法、系统、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110153667A1 (en) * 2009-11-13 2011-06-23 Ab Initio Technology Llc Managing record format information
US20140280197A1 (en) * 2013-03-13 2014-09-18 Genesys Telecommunications Laboratories, Inc. Log file management tool
US8930330B1 (en) * 2011-06-27 2015-01-06 Amazon Technologies, Inc. Validation of log formats

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7822683B2 (en) * 2000-01-21 2010-10-26 Microsoft Corporation System and method for secure third-party development and hosting within a financial services network
US20060173672A1 (en) * 2000-07-27 2006-08-03 Bergeron Heather E Processing health care transactions using a semantic network
US20030069758A1 (en) * 2001-10-10 2003-04-10 Anderson Laura M. System and method for use in providing a healthcare information database
US7180887B1 (en) * 2002-01-04 2007-02-20 Radisys Patent Properties Routing and forwarding table management for network processor architectures
EP1687745A2 (en) * 2003-11-26 2006-08-09 Veritas Operating Corporation System and method for generating extensible file system metadata and file system content processing
TW200821877A (en) * 2006-11-03 2008-05-16 Hon Hai Prec Ind Co Ltd System and method for data switching
US7860849B1 (en) * 2007-01-18 2010-12-28 Netlogic Microsystems, Inc. Optimizing search trees by increasing success size parameter
US8149715B1 (en) * 2007-07-17 2012-04-03 Marvell International Ltd. Mesh network operations
KR20090090755A (ko) 2008-02-22 2009-08-26 에스케이 텔레콤주식회사 컨텐츠 사용 로그 재처리 시스템 및 방법
US8510263B2 (en) 2009-06-15 2013-08-13 Verisign, Inc. Method and system for auditing transaction data from database operations
US9537650B2 (en) * 2009-12-15 2017-01-03 Microsoft Technology Licensing, Llc Verifiable trust for data through wrapper composition
JP5744915B2 (ja) * 2010-01-22 2015-07-08 インターデイジタル パテント ホールディングス インコーポレイテッド 信頼される連合アイデンティティ管理およびデータアクセス認可の方法および装置
US9092576B2 (en) * 2010-06-25 2015-07-28 International Business Machines Corporation Non-intrusive measurement of content quality using dry runs with roll-back
TWI503784B (zh) * 2011-10-08 2015-10-11 Broadcom Corp 社交網路系統及其執行的方法
US9529635B2 (en) * 2011-10-24 2016-12-27 Plumchoice, Inc. Systems and methods for configuring and launching automated services to a remote device
US9367813B2 (en) * 2011-10-28 2016-06-14 Xerox Corporation Methods and systems for identifying frequently occurring intradomain episodes and interdomain episodes in multiple service portals using average user session length
US9213832B2 (en) 2012-01-24 2015-12-15 International Business Machines Corporation Dynamically scanning a web application through use of web traffic information
US9898317B2 (en) * 2012-06-06 2018-02-20 Juniper Networks, Inc. Physical path determination for virtual network packet flows
KR20150000590A (ko) 2013-06-25 2015-01-05 아주대학교산학협력단 라이프스타일 데이터 관리 시스템 및 방법
US9369478B2 (en) 2014-02-06 2016-06-14 Nicira, Inc. OWL-based intelligent security audit
US9887212B2 (en) 2014-03-14 2018-02-06 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device and electronic device
US9356861B2 (en) 2014-03-17 2016-05-31 Alcatel Lucent Secondary lookup for scaling datapath architecture beyond integrated hardware capacity
US20160117703A1 (en) 2014-10-22 2016-04-28 Staples, Inc. Large-Scale Customer-Product Relationship Mapping and Contact Scheduling
MX2018010050A (es) * 2016-02-23 2019-01-21 Nchain Holdings Ltd Transacciones turing completas basadas en agente que integran retroalimentacion dentro de un sistema de cadena de bloques.
US10311043B2 (en) * 2016-08-04 2019-06-04 New Relic, Inc. Log query user interface
US10831509B2 (en) * 2017-02-23 2020-11-10 Ab Initio Technology Llc Dynamic execution of parameterized applications for the processing of keyed network data streams
US12073430B2 (en) 2017-10-26 2024-08-27 Yahoo Ad Tech Llc Method and system for detecting fraudulent advertisement activity
US11397726B2 (en) * 2017-11-15 2022-07-26 Sumo Logic, Inc. Data enrichment and augmentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110153667A1 (en) * 2009-11-13 2011-06-23 Ab Initio Technology Llc Managing record format information
CN102713834A (zh) * 2009-11-13 2012-10-03 起元技术有限责任公司 管理记录格式信息
US8930330B1 (en) * 2011-06-27 2015-01-06 Amazon Technologies, Inc. Validation of log formats
US20140280197A1 (en) * 2013-03-13 2014-09-18 Genesys Telecommunications Laboratories, Inc. Log file management tool

Also Published As

Publication number Publication date
KR20200119176A (ko) 2020-10-19
SG11202011566YA (en) 2020-12-30
AU2020264292A1 (en) 2020-12-10
PH12020551834A1 (en) 2021-06-28
CN110795305B (zh) 2024-04-02
TWI729763B (zh) 2021-06-01
WO2020208467A1 (en) 2020-10-15
TW202131203A (zh) 2021-08-16
KR102478464B1 (ko) 2022-12-19
KR20220027924A (ko) 2022-03-08
JP7161538B2 (ja) 2022-10-26
US10769220B1 (en) 2020-09-08
TWI765692B (zh) 2022-05-21
JP2021519960A (ja) 2021-08-12
KR102369238B1 (ko) 2022-03-22
TW202046139A (zh) 2020-12-16
US12032635B2 (en) 2024-07-09
US20200349206A1 (en) 2020-11-05

Similar Documents

Publication Publication Date Title
CN110795305B (zh) 用于处理和管理web流量数据的系统、装置和方法
US10769228B2 (en) Systems and methods for web analytics testing and web development
US11570214B2 (en) Crowdsourced innovation laboratory and process implementation system
US20210385251A1 (en) System and methods for integrating datasets and automating transformation workflows using a distributed computational graph
US20210136121A1 (en) System and method for creation and implementation of data processing workflows using a distributed computational graph
US10078843B2 (en) Systems and methods for analyzing consumer sentiment with social perspective insight
CN109933514B (zh) 一种数据测试方法和装置
US10990940B1 (en) Server validation of website scraped data
US20210392144A1 (en) Automated and adaptive validation of a user interface
US10158650B1 (en) Token verification from incremental inputs
US20140143172A1 (en) System, method, software arrangement and computer-accessible medium for a mobile-commerce store generator that automatically extracts and converts data from an electronic-commerce store
CN114385722A (zh) 接口属性的一致性校验方法、装置、电子设备和存储介质
US11237889B1 (en) Application infrastructure configuration based on annotated API schemas
US10887186B2 (en) Scalable web services execution
US11669588B2 (en) Advanced data collection block identification
CN106055571A (zh) 网站识别方法及系统
CN113886216B (zh) 接口测试和工具配置方法、装置、电子设备和存储介质
CN112559278B (zh) 操作数据的获取方法和装置
US10339600B1 (en) Application platform reverse auction
US11960560B1 (en) Methods for analyzing recurring accessibility issues with dynamic web site behavior and devices thereof
US20230376615A1 (en) Network security framework for maintaining data security while allowing remote users to perform user-driven quality analyses of the data
CN109933573B (zh) 数据库业务更新方法、装置及系统
CN116069312A (zh) 页面渲染方法及装置、电子设备和计算机可读存储介质
Rahman Geo-location Based Search Tool for Tweets
Arias Fernández et al. IoT-Framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant